このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201103となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# TRK Sum Rule for Interacting Photon TRK Sum Rule for Interacting Photons ( http://arxiv.org/abs/2002.02139v2 ) ライセンス: Link先を確認 | Salvatore Savasta, Omar Di Stefano, Franco Nori | (参考訳) トーマス・ライヒ・クーン和則は原子電子の位置-運動量交換関係の基本的な結果であり、原子の遷移行列要素に重要な制約を与える。
本稿では、非常に強い光-物質相互作用や光非線形性が存在する場合でも有効である電磁場に対するTRK和則を提案する。
標準trk和則は原子エネルギー準位間で計算される双極子行列モーメントを含むが、ここで提案された和則は相互作用する光-物質系の一般固有状態の間で計算される場作用素の期待値を含んでいる。
この和則は、強く相互作用する光マター系の解析のための制約とガイダンスを提供し、量子光学でよく用いられる近似有効ハミルトニアンの有効性をテストするのに使用できる。 The Thomas-Reiche-Kuhn sum rule is a fundamental consequence of the position-momentum commutation relation for an atomic electron and it provides an important constraint on the transition matrix elements for an atom. Here we propose a TRK sum rule for electromagnetic fields which is valid even in the presence of very strong light-matter interactions and/or optical nonlinearities. While the standard TRK sum rule involves dipole matrix moments calculated between atomic energy levels (in the absence of interaction with the field), the sum rule here proposed involves expectation values of field operators calculated between general eigenstates of the interacting light-matter system. This sum rule provides constraints and guidance for the analysis of strongly interacting light-matter systems and can be used to test the validity of approximate effective Hamiltonians often used in quantum optics. | 翻訳日:2023-06-04 14:15:39 公開日:2020-11-03 |
# 信号処理と機械学習を用いた分子設計:時間周波数様表現と前方設計 Molecular Design Using Signal Processing and Machine Learning: Time-Frequency-like Representation and Forward Design ( http://arxiv.org/abs/2004.10091v3 ) ライセンス: Link先を確認 | Alain B. Tchagang, Ahmed H. Tewfik, and Julio J. Vald\'es | (参考訳) 密度汎関数理論(DFTQM)のような量子力学(QM)理論から得られた分子データの蓄積は、機械学習(ML)が新しい分子、薬物、物質の発見を加速することを可能にする。
QMとML(QM-ML)を組み合わせたモデルは、MLの高速でQMの精度を実現するのに非常に効果的である。
本研究では,よく知られた信号処理(sp)技術(短時間フーリエ変換,連続ウェーブレット解析,ウィグナー・ビル分布)をqm-mlパイプラインに統合することにより,分子の表現,可視化,フォワード設計に使用できる強力な機械(qm-sp-ml)を得る。
本研究では,分子の時間周波数的な表現が,その構造的,幾何学的,エネルギー的,電子的,熱力学的性質をコードしていることを示す。
これは、分子の性質を出力するDFTQM計算に基づいて訓練された深部畳み込みニューラルネットワークへの入力として、前方設計ループにおける新しい表現を使用することで実証される。
qm9データセット(133,855分子と19特性からなる)でテストされた新しいqm-sp-mlモデルは、許容可能な化学精度(総エネルギーはmae < 1 kcal/mol、軌道エネルギーはmae < 0.1 ev)以下の平均絶対誤差(mae)で分子の性質を予測することができる。
さらに、新たなアプローチは、文献に記載されている他のML最先端技術と同等かそれ以上に機能する。
そこで本研究では,新しいQM-SP-MLモデルが分子フォワード設計の強力な手法であることを示す。
この研究で生成されたコードとデータは、https://github.com/TABeau/QM-SP-ML.comでサポート資料として提供されている。 Accumulation of molecular data obtained from quantum mechanics (QM) theories such as density functional theory (DFTQM) make it possible for machine learning (ML) to accelerate the discovery of new molecules, drugs, and materials. Models that combine QM with ML (QM-ML) have been very effective in delivering the precision of QM at the high speed of ML. In this study, we show that by integrating well-known signal processing (SP) techniques (i.e. short time Fourier transform, continuous wavelet analysis and Wigner-Ville distribution) in the QM-ML pipeline, we obtain a powerful machinery (QM-SP-ML) that can be used for representation, visualization and forward design of molecules. More precisely, in this study, we show that the time-frequency-like representation of molecules encodes their structural, geometric, energetic, electronic and thermodynamic properties. This is demonstrated by using the new representation in the forward design loop as input to a deep convolutional neural networks trained on DFTQM calculations, which outputs the properties of the molecules. Tested on the QM9 dataset (composed of 133,855 molecules and 19 properties), the new QM-SP-ML model is able to predict the properties of molecules with a mean absolute error (MAE) below acceptable chemical accuracy (i.e. MAE < 1 Kcal/mol for total energies and MAE < 0.1 ev for orbital energies). Furthermore, the new approach performs similarly or better compared to other ML state-of-the-art techniques described in the literature. In all, in this study, we show that the new QM-SP-ML model represents a powerful technique for molecular forward design. All the codes and data generated and used in this study are available as supporting materials at https://github.com/TABeau/QM-SP-ML. | 翻訳日:2023-05-22 22:38:01 公開日:2020-11-03 |
# マグナス効果の光学的アナログによる光学的ツイーザーのオフ軸双極子力 Off-axis dipole forces in optical tweezers by an optical analog of the {Magnus} effect ( http://arxiv.org/abs/2005.07790v3 ) ライセンス: Link先を確認 | Robert J. C. Spreeuw | (参考訳) 円双極子によって誘導される集束レーザービームを偏向することができ、対応する横力が得られることが示されている。
定量的な表現はガウスおよび角のトポハトビームに対して導出され、効果は平面-波の限界で消滅する。
この現象は、回転球を曲線軌道に押し込むマグヌス効果に類似している。
光学的ケースは、双極子と光のスピンと軌道角運動量の結合に由来する。
光ツイーザーにおいて、力は磁場の方向によって設定されるスピン依存量$\lambda/2\pi$の原子のトラップ位置のオフ軸変位を引き起こす。
これは、スピン依存運動を誘導するなど、これらの効果を実証し探求するための直接的方法を提案する。 It is shown that a circular dipole can deflect the focused laser beam that induces it, and will experience a corresponding transverse force. Quantitative expressions are derived for Gaussian and angular tophat beams, while the effects vanish in the plane-wave limit. The phenomena are analogous to the Magnus effect pushing a spinning ball onto a curved trajectory. The optical case originates in the coupling of spin and orbital angular momentum of the dipole and the light. In optical tweezers the force causes off-axis displacement of the trapping position of an atom by a spin-dependent amount up to $\lambda/2\pi$, set by the direction of a magnetic field. This suggests direct methods to demonstrate and explore these effects, for instance to induce spin-dependent motion. | 翻訳日:2023-05-20 03:06:04 公開日:2020-11-03 |
# 量子コヒーレンスとエルゴトロピー Quantum Coherence and Ergotropy ( http://arxiv.org/abs/2006.05424v2 ) ライセンス: Link先を確認 | Gianluca Francica, Felix C. Binder, Giacomo Guarnieri, Mark T. Mitchison, John Goold, and Francesco Plastina | (参考訳) 作業抽出の制約は、古典系と量子系の熱力学の操作的理解の基礎である。
量子設定において、有限時間制御操作は典型的には力学系の瞬時エネルギー固有基底においてコヒーレンスを生成する。
熱力学サイクルは原則として、この非平衡資源から仕事を引き出すように設計されている。
ここでは、量子コヒーレント成分をこのようなプロトコルの作業収率に分離し、研究する。
具体的には、エルゴトロピーへのコヒーレントな寄与(ハミルトンパラメータの循環的変動による一意抽出可能作業の最大量)を同定する。
最適変換を非一貫性演算とコヒーレンス抽出サイクルに分割して示す。
抽出可能な作業のコヒーレント部分と非コヒーレント部分の両方の境界を取得し,その飽和度を特定の設定で議論する。
数値化された負荷を持つ量子熱エンジンに関する最近の実験を記述した有限次元系やボソニックガウス状態など、いくつかの例を示す。 Constraints on work extraction are fundamental to our operational understanding of the thermodynamics of both classical and quantum systems. In the quantum setting, finite-time control operations typically generate coherence in the instantaneous energy eigenbasis of the dynamical system. Thermodynamic cycles can, in principle, be designed to extract work from this non-equilibrium resource. Here, we isolate and study the quantum coherent component to the work yield in such protocols. Specifically, we identify a coherent contribution to the ergotropy (the maximum amount of unitarily extractable work via cyclical variation of Hamiltonian parameters). We show this by dividing the optimal transformation into an incoherent operation and a coherence extraction cycle. We obtain bounds for both the coherent and incoherent parts of the extractable work and discuss their saturation in specific settings. Our results are illustrated with several examples, including finite-dimensional systems and bosonic Gaussian states that describe recent experiments on quantum heat engines with a quantized load. | 翻訳日:2023-05-16 04:59:26 公開日:2020-11-03 |
# マルチパーティイト非局所相関の操作特性 Operational Characterization of Multipartite Nonlocal Correlations ( http://arxiv.org/abs/2006.08990v2 ) ライセンス: Link先を確認 | Sagnik Dutta, Amit Mukherjee, and Manik Banik | (参考訳) 多成分量子相関の最も厄介な特徴の一つである非局所性は、デバイスに依存しない量子情報処理の有用な資源として同定されている。
量子絡み合いの資源理論に動機づけられた近年、galegoらによって運用フレームワークが提案されている。
https://doi.org/10.1103/PhysRevLett.109.070401}{Phys
Rev. Lett.
109, 070401 (2012)} と Bancal et al。
https://doi.org/10.1103/PhysRevA.88.014102}{Phys
A 88, 014102 (2013)} は、多部量子相関に存在する非局所的な資源を特徴付ける。
双分詞の符号なし相関は、局所対非局所の分類を可能にするが、多分詞のシナリオでは、著者は提案された運用フレームワークでは等価でないいくつかの種類の非局所性が存在することを示した。
本研究は, 同一の運用フレームワークに基づくマルチパーティ・ノー・シグナリング相関のより詳細な特徴付けについて述べる。
また,galego et al.の論文において,誤解されうる記述を明らかにし,その結論をより正確に述べる。 Nonlocality, one of the most puzzling features of multipartite quantum correlation, has been identified as a useful resource for device-independent quantum information processing. Motivated by the resource theory of quantum entanglement recently an operational framework have been proposed by Gallego et al. [\href{https://doi.org/10.1103/PhysRevLett.109.070401}{Phys. Rev. Lett. 109, 070401 (2012)}] and Bancal et al. [\href{https://doi.org/10.1103/PhysRevA.88.014102}{Phys. Rev. A 88, 014102 (2013)}] that characterizes the nonlocal resource present in multipartite quantum correlations. While the bipartite no-signaling correlations allows a dichotomous classification -- local vs. nonlocal, in multipartite scenario the authors have shown existence of several types of nonlocality that are inequivalent under the proposed operational framework. In this work we present a finer characterization of multipartite no-signaling correlations based on the same operational framework. We also clarify a statement in Gallego et al.'s work that could be misinterpreted and make the conclusions of that work more precise here. | 翻訳日:2023-05-13 18:20:40 公開日:2020-11-03 |
# フィードバック制御光によるオプトメカニカルスターリング熱エンジン Optomechanical Stirling heat engine driven by feedback-controlled light ( http://arxiv.org/abs/2006.14658v2 ) ライセンス: Link先を確認 | Giacomo Serafini, Stefano Zippilli, Irene Marzoli | (参考訳) 光力学系に基づく微視的スターリング熱エンジンの提案と解析を行った。
作動流体は機械共振器の単一振動モードであり、放射圧とフィードバック制御された光学キャビティで相互作用する。
キャビティ光は熱貯水池を設計し、熱力学サイクルを通じて共振器を操縦するために用いられる。
特に、フィードバックはキャビティ内の光のゆらぎを適切に調節するために使われ、リアルな光機械装置で効率的な熱力学的変換を実現する。 We propose and analyze a microscopic Stirling heat engine based on an optomechanical system. The working fluid is a single vibrational mode of a mechanical resonator, which interacts by radiation pressure with a feedback-controlled optical cavity. The cavity light is used to engineer the thermal reservoirs and to steer the resonator through a thermodynamic cycle. In particular, the feedback is used to properly modulate the light fluctuations inside the cavity and hence to realize efficient thermodynamic transformations with realistic optomechanical devices. | 翻訳日:2023-05-12 19:45:13 公開日:2020-11-03 |
# 量子衝撃波とは何か? What is a quantum shock wave? ( http://arxiv.org/abs/2006.15326v4 ) ライセンス: Link先を確認 | S. A. Simmons, F. A. Bayocboc, Jr., J. C. Pillay, D. Colas, I. P. McCulloch, and K. V. Kheruntsyan | (参考訳) 衝撃波は物質の平衡から遠く離れた挙動の例であり、自然界では普遍的であるが、その形成の背後にある微視的なメカニズムはよく分かっていない。
本稿では,1次元ボースガス中の分散量子衝撃波のダイナミクスについて検討し,局所密度バンプから均一な背景に広がる振動列が,量子力学的自己干渉の結果であることを示す。
振動の振幅、すなわち干渉コントラストは、ガスの温度の増加と位相コヒーレンス長の減少による相互作用強度の増加によって減少する。
さらに, 真空と熱のゆらぎは, 平均場近傍の干渉縞位置におけるショット・ツー・ショットのゆらぎにより, 平均場アプローチに見られる干渉コントラストを著しく除去できることを示した。 Shock waves are examples of the far-from-equilibrium behaviour of matter; they are ubiquitous in nature, yet the underlying microscopic mechanisms behind their formation are not well understood. Here, we study the dynamics of dispersive quantum shock waves in a one-dimensional Bose gas, and show that the oscillatory train forming from a local density bump expanding into a uniform background is a result of quantum mechanical self-interference. The amplitude of oscillations, i.e., the interference contrast, decreases with the increase of both the temperature of the gas and the interaction strength due to the reduced phase coherence length. Furthermore, we show that vacuum and thermal fluctuations can significantly wash out the interference contrast, seen in the mean-field approaches, due to shot-to-shot fluctuations in the position of interference fringes around the mean. | 翻訳日:2023-05-12 07:31:33 公開日:2020-11-03 |
# 近量子雑音特性を有する3波混合インダクタンス進行波増幅器 A three-wave mixing kinetic inductance traveling-wave amplifier with near-quantum-limited noise performance ( http://arxiv.org/abs/2007.00638v2 ) ライセンス: Link先を確認 | M. Malnou, M. R. Vissers, J. D. Wheeler, J. Aumentado, J. Hubmayr, J. N. Ullom, J. Gao | (参考訳) 本稿では,マイクロ波動インダクタンス進行波増幅器(KIT)の理論モデルと実験的検討を行い,その雑音性能をショットノイズトンネル接合(SNTJ)により測定し,量子限界に近づいた。
直流電流により、KITは3波混合方式で動作し、従来の4波混合KIT装置と比較してマイクロ波ポンプのトーンと関連する寄生熱の数桁の電力を低減させる。
それは50オームズ人工伝送ラインで構成され、分散は増幅帯域を制御できる。
2GHz帯での利得の16.5^{+1}_{-1.3}$dBを、理論との定性的な一致で、入力1dBの圧縮パワー-63dBmで測定する。
KITの信号とアイドラーポートの両方に入るSNTJ生成ノイズを考慮した理論的枠組みを用いて、KITを最初の増幅器として統合した増幅チェーンのシステム付加ノイズを測定する。
3.5から5.5GHzの間の3.1\pm0.6$ Quanta($0.66\pm0.15$Kと等価)は、SNTJを置き換えたデバイスで見られる。
したがって、このKITはマイクロ波動力学的インダクタンス検出器の大規模な配列を読み込むのに適している。 We present a theoretical model and experimental characterization of a microwave kinetic inductance traveling-wave amplifier (KIT), whose noise performance, measured by a shot-noise tunnel junction (SNTJ), approaches the quantum limit. Biased with a dc current, the KIT operates in a three-wave mixing fashion, thereby reducing by several orders of magnitude the power of the microwave pump tone and associated parasitic heating compared to conventional four-wave mixing KIT devices. It consists of a 50 Ohms artificial transmission line whose dispersion allows for a controlled amplification bandwidth. We measure $16.5^{+1}_{-1.3}$ dB of gain across a 2 GHz bandwidth with an input 1 dB compression power of -63 dBm, in qualitative agreement with theory. Using a theoretical framework that accounts for the SNTJ-generated noise entering both the signal and idler ports of the KIT, we measure the system-added noise of an amplification chain that integrates the KIT as the first amplifier. This system-added noise, $3.1\pm0.6$ quanta (equivalent to $0.66\pm0.15$ K) between 3.5 and 5.5 GHz, is the one that a device replacing the SNTJ in that chain would see. This KIT is therefore suitable to read large arrays of microwave kinetic inductance detectors and promising for multiplexed superconducting qubit readout. | 翻訳日:2023-05-11 22:59:38 公開日:2020-11-03 |
# エージェントベースモデルを用いた新型コロナウイルス接触追跡アプリの有効性の探索 Exploring the effectiveness of a COVID-19 contact tracing app using an agent-based model ( http://arxiv.org/abs/2008.07336v2 ) ライセンス: Link先を確認 | Jonatan Almagor, Stefano Picascia | (参考訳) ロックダウン対策の緩和に伴い、新型コロナウイルスの感染拡大を抑えるためには、接触追跡戦略が必要であるとみられている。
エージェントベースのモデルを用いて,コンタクトトレーシングスマートフォンアプリとして提案されている技術ベースの戦略の1つを探索する。
このモデルは、都市規模のエージェントの集団における新型コロナウイルスの拡散をシミュレートする。
エージェントはその特性において異質であり、家庭、友情、雇用、学校など、社会構造を表す多層ネットワークにリンクされている。
接触追跡アプリの各種導入率,テスト能力の異なるレベル,行動要因の相互関係について検討し,その影響を検証した。
その結果, 接触追跡アプリは, 十分な検査能力を有する場合や, 症状が優先される場合に, 感染率の低下に大きく寄与する可能性が示唆された。
感染率が上昇すると感染は減少する。
これにより、症状のあるケースがテストに優先されない場合、高い割合のアプリユーザーがテストの需要が大幅に増加し、十分な供給が得られなければ、アプリが非生産的になる可能性がある。
これは、効率的なテストポリシーの重要な役割と、テスト能力のスケールアップの必要性を指摘する。 A contact-tracing strategy has been deemed necessary to contain the spread of COVID-19 following the relaxation of lockdown measures. Using an agent-based model, we explore one of the technology-based strategies proposed, a contact-tracing smartphone app. The model simulates the spread of COVID-19 in a population of agents on an urban scale. Agents are heterogeneous in their characteristics and are linked in a multi-layered network representing the social structure - including households, friendships, employment and schools. We explore the interplay of various adoption rates of the contact-tracing app, different levels of testing capacity, and behavioural factors to assess the impact on the epidemic. Results suggest that a contact tracing app can contribute substantially to reducing infection rates in the population when accompanied by a sufficient testing capacity or when the testing policy prioritises symptomatic cases. As user rate increases, prevalence of infection decreases. With that, when symptomatic cases are not prioritised for testing, a high rate of app users can generate an extensive increase in the demand for testing, which, if not met with adequate supply, may render the app counterproductive. This points to the crucial role of an efficient testing policy and the necessity to upscale testing capacity. | 翻訳日:2023-05-08 02:20:27 公開日:2020-11-03 |
# 完全に本物?
コルベックとレンナーの主張に対する批判的考察 Completely real? A critical note on the claims by Colbeck and Renner ( http://arxiv.org/abs/2008.01444v2 ) ライセンス: Link先を確認 | Ronnie Hermens | (参考訳) colbeck と renner は一連の論文で、量子状態が将来の測定結果を予測するための完全な説明を提供することを示したと主張している。
本稿では,この主張を裏付ける確固たる証拠がこれまでに提示されていないことを論じる。
ライファー、ランドスマン、リーグウォーターの初期の作品に基づいて、私はこの主張を部分的に支持する2つの結果を提示し、証明する。
次に、Colbeck氏、Renner氏、Leegwater氏によるこれらの結果がどのようにして完全な主張に一般化されるかについて議論する。
この議論は、量子力学の任意の完備化においてユニタリ進化が表現される方法に関する仮定を暗黙に用いていることを暗示している。
この仮定は不満足であり、測定理論に基づく検証の試みも成功しないと私は主張する。 In a series of papers Colbeck and Renner claim to have shown that the quantum state provides a complete description for the prediction of future measurement outcomes. In this paper I argue that thus far no solid satisfactory proof has been presented to support this claim. Building on the earlier work of Leifer, Landsman and Leegwater, I present and prove two results that only partially support this claim. I then discuss the arguments by Colbeck, Renner and Leegwater concerning how these results are to generalize to the full claim. This argument turns out to hinge on the implicit use of an assumption concerning the way unitary evolution is to be represented in any possible completion of quantum mechanics. I argue that this assumption is unsatisfactory and that possible attempts to validate it based on measurement theory also do not succeed. | 翻訳日:2023-05-07 04:32:18 公開日:2020-11-03 |
# 渦電子の電磁放射における非線形量子効果 Non-linear quantum effects in electromagnetic radiation of a vortex electron ( http://arxiv.org/abs/2009.03169v2 ) ライセンス: Link先を確認 | D.V. Karlovets, A.M. Pupasov-Maksimov | (参考訳) 光や物質と大きな空間的コヒーレンスを持つ電子の相互作用をどう解釈するかという議論がある。
そのような電子が光子を放出するとき、その電荷がコヒーレンス長内の点に制限されているか、波動関数 $|\psi|^2$ の正方率が局在している領域、またはその上に広がる空間電荷の連続雲として、そのようにすることができる。
この問題は最近の研究Rで解決された。
〜Remez, et al., Phys.
Rev. Lett.
{\displaystyle {\bf 123}, 060401 (2019) では、最初の(ポイント)解釈を支持して結論が導かれた。
ここでは、この論文で報告された測定値には、純粋に古典的な議論に依存し、第二の解釈を反論することができない別の説明があると主張する。
我々は、軌道角運動量を持つ非相対論的渦電子からのスミス・パーセル放射の実験を提案する。
同軸近似を超えると、ボルテックスパケットは非点電気四極子モーメントを持ち、パケットが拡散するにつれて成長し、l$がパケットのレイリー長よりはるかに大きいとき、格子の長さがl$であるような放射強度を非線形に$l^3$成長させる。
このような非線形効果は単一電子では観測されておらず、もし検出されれば、波のパケット内の電荷の非点の性質の指標となる。
したがって、$|\psi|^2$ の2つのビューは互いに相補的であり、電子は実験条件や量子状態に応じて点電荷または連続電荷の流れとして放射される。
結論としては, チェレンコフ放射, 遷移放射, 回折放射など, 放射線生成期間がレイリー長さを超えるような非ガウスパケットの多種多様な放出過程について考察した。 There is a controversy of how to interpret interactions of electrons with a large spatial coherence with light and matter. When such an electron emits a photon, it can do so either as if its charge were confined to a point within a coherence length, the region where a square modulus of a wave function $|\psi|^2$ is localized, or as a continuous cloud of space charge spread over it. This problem was addressed in a recent study R.~Remez, et al., Phys. Rev. Lett. {\bf 123}, 060401 (2019) where a conclusion was drawn in favor of the first (point) interpretation. Here we argue that there is an alternative explanation for the measurements reported in that paper, which relies on purely classical arguments and does not allow one to refute the second interpretation. We propose an experiment of Smith-Purcell radiation from a non-relativistic vortex electron carrying orbital angular momentum, which can unambiguously lead to the opposite conclusion. Beyond the paraxial approximation, the vortex packet has a non-point electric quadrupole moment, which grows as the packet spreads and results in a non-linear $L^3$-growth of the radiation intensity with the length $L$ of the grating when $L$ is much larger than the packet's Rayleigh length. Such a non-linear effect has never been observed for single electrons and, if detected, it would be a hallmark of the non-point nature of charge in a wave packet. Thus, two views on $|\psi|^2$ are complementary to each other and an electron radiates either as a point charge or as a continuous charge flow depending on the experimental conditions and on its quantum state. Our conclusions hold for a large class of non-Gaussian packets and emission processes for which the radiation formation length can exceed the Rayleigh length, such as Cherenkov radiation, transition radiation, diffraction radiation, and so forth. | 翻訳日:2023-05-03 07:23:11 公開日:2020-11-03 |
# 量子論のための局所実数モデル A local-realistic model for quantum theory ( http://arxiv.org/abs/2010.14303v2 ) ライセンス: Link先を確認 | Paul Raymond-Robichaud | (参考訳) 地域実在論の厳密な定義を提供する。
普遍波動関数は局所現実の完全な記述にはならないことを示す。
最後に、量子論の局所現実モデルを構築する。 We provide a rigorous definition of local realism. We show that the universal wave function cannot be a complete description of a local reality. Finally, we construct a local-realistic model for quantum theory. | 翻訳日:2023-04-27 11:00:33 公開日:2020-11-03 |
# 室温超高輝度量子光源の速度方向トレードオフの克服 Overcoming the rate-directionality tradeoff: a room-temperature ultrabright quantum light source ( http://arxiv.org/abs/2010.15016v2 ) ライセンス: Link先を確認 | Hamza Abudayyeh, Annika Brauer, Dror Liran, Boaz Lubotzky, Lars Luder, Monika Fleischer, Ronen Rapaport | (参考訳) 室温での決定論的GHzレート単一光子源は、様々な量子アプリケーションに欠かせない要素である。
しかしながら、典型的な量子エミッタの遅い固有減衰速度と全方位放出の両方が、同時に克服するのは難しい目標を達成するための2つの障害である。
ここでは、レート向上に責任を持つ金ナノコーンからなる複雑なモノリシックフォトニック共振器と、放射指向性のための円形ブラッグアンテナを用いて、この課題をハイブリッドアプローチで解決する。
反復可能なプロセスは、アンテナ埋め込みナノコーンの先端に量子ドットを正確に結合する。
その結果,20倍の発光速度を同時に向上し,観測輝度を最大580倍(120倍)に増加させ,NA = 0.22倍(0.5倍)とした。
このような小型のオンチップデバイスは、2.3*10^8の単一光子/秒に近づく光子速度に到達し、環境条件下で量子テクノロジーの超高速光マッターインタフェースを実現する。 Deterministic GHz-rate single photon sources at room-temperature would be essential components for various quantum applications. However, both the slow intrinsic decay rate and the omnidirectional emission of typical quantum emitters are two obstacles towards achieving such a goal which are hard to overcome simultaneously. Here we solve this challenge by a hybrid approach, using a complex monolithic photonic resonator constructed of a gold nanocone responsible for the rate enhancement, and a circular Bragg antenna for emission directionality. A repeatable process accurately binds quantum dots to the tip of the antenna-embedded nanocone. As a result we achieve simultaneous 20-fold emission rate enhancement and record-high directionality leading to an increase in the observed brightness by a factor as large as 580 (120) into an NA = 0.22 (0.5). We project that such miniaturized on-chip devices can reach photon rates approaching 2.3*10^8 single photons/second thus enabling ultra-fast light-matter interfaces for quantum technologies at ambient conditions. | 翻訳日:2023-04-27 06:23:58 公開日:2020-11-03 |
# TILT: トラッピングIonリニアテープ量子コンピューティングアーキテクチャ上での高忠実性の実現 TILT: Achieving Higher Fidelity on a Trapped-Ion Linear-Tape Quantum Computing Architecture ( http://arxiv.org/abs/2010.15876v3 ) ライセンス: Link先を確認 | Xin-Chuan Wu, Dripto M. Debroy, Yongshan Ding, Jonathan M. Baker, Yuri Alexeev, Kenneth R. Brown, Frederic T. Chong | (参考訳) トラップイオン量子ビットは、実用的な量子コンピューティングの主要な技術である。
本稿では,閉じ込められたイオンに対する線形テープアーキテクチャのアーキテクチャ解析を行う。
本研究を実現するため,本アーキテクチャのマッピングとスケジューリングアルゴリズムの開発と評価を行った。
特に,マルチレーザ制御の"ヘッド"を持つ線形"チューリングマシンライク"アーキテクチャであるTILTを導入し,レーザーヘッドの下を直線的なイオン鎖が前後に移動する。
TILTは、QCCD(Quantum Charge Coupled Device)アーキテクチャと比較して、通信を著しく削減できる。
TILTのための2つの重要なスケジューリングヒューリスティックも開発した。
第1のヒューリスティックは、反対方向に走行するデータを"オポシングスワップ"にマッチングすることでスワップ操作数を削減し、最大スワップ距離が1つのヘッド位置での複数のスワップスケジューリングを困難にするので、ヘッド幅の最大スワップ距離を回避する。
第2のヒューリスティックは、テープを各運動に対して最大実行可能な操作で位置にスケジューリングすることで、イオン鎖運動を最小化する。
シミュレーションの結果から,TILT は NISQ アプリケーションにおいて,成功率(平均 4.35 倍,平均 1.95 倍)で QCCD を上回り得ることが示唆された。
また、TILTをビルディングブロックとして使用して、既存のスケーラブルなトラップイオン量子コンピューティングの提案を拡張することについても論じる。 Trapped-ion qubits are a leading technology for practical quantum computing. In this work, we present an architectural analysis of a linear-tape architecture for trapped ions. In order to realize our study, we develop and evaluate mapping and scheduling algorithms for this architecture. In particular, we introduce TILT, a linear "Turing-machine-like" architecture with a multilaser control "head", where a linear chain of ions moves back and forth under the laser head. We find that TILT can substantially reduce communication as compared with comparable-sized Quantum Charge Coupled Device (QCCD) architectures. We also develop two important scheduling heuristics for TILT. The first heuristic reduces the number of swap operations by matching data traveling in opposite directions into an "opposing swap", and also avoids the maximum swap distance across the width of the head, as maximum swap distances make scheduling multiple swaps in one head position difficult. The second heuristic minimizes ion chain motion by scheduling the tape to the position with the maximal executable operations for every movement. We provide application performance results from our simulation, which suggest that TILT can outperform QCCD in a range of NISQ applications in terms of success rate (up to 4.35x and 1.95x on average). We also discuss using TILT as a building block to extend existing scalable trapped-ion quantum computing proposals. | 翻訳日:2023-04-27 00:28:39 公開日:2020-11-03 |
# NationalMood: Web 検索クエリとモバイルセンサデータから人のムードを大規模に推定する NationalMood: Large-scale Estimation of People's Mood from Web Search Query and Mobile Sensor Data ( http://arxiv.org/abs/2011.00665v2 ) ライセンス: Link先を確認 | Tadashi Okoshi, Wataru Sasaki, Hiroshi Kawane, Kota Tsubouchi | (参考訳) ウェブユーザーの現在の情緒的ステータスを推定する能力は、ユーザー中心のオポチュンサービスの実現に向けて大きな可能性がある。
しかし、現実の状況では、そのような推定に使用するデータの種類や、そのような情緒的状態の根底にある真実の収集は困難である。
本稿では,ユーザのWeb検索クエリとモバイルセンサデータを組み合わせて,そのような推定手法を提案する。
約11,000,000人の利用者と100人の最近の広告ログによる大規模データ分析の結果,(1)気分統計に基づく配信が極めて効果的である特定の種類の広告の存在,(2)「全国ムードスコア」では,患者数に逆相関する「国民ムードスコア」が出現し,また,週の気分リズムも表れていることがわかった。 The ability to estimate current affective statuses of web users has considerable potential towards the realization of user-centric opportune services. However, determining the type of data to be used for such estimation as well as collecting the ground truth of such affective statuses are difficult in the real world situation. We propose a novel way of such estimation based on a combinational use of user's web search queries and mobile sensor data. Our large-scale data analysis with about 11,000,000 users and 100 recent advertisement log revealed (1) the existence of certain class of advertisement to which mood-status-based delivery would be significantly effective, (2) that our "National Mood Score" shows the ups and downs of people's moods in COVID-19 pandemic that inversely correlated to the number of patients, as well as the weekly mood rhythm of people. | 翻訳日:2023-04-26 01:58:13 公開日:2020-11-03 |
# ランダム化ベンチマークプロトコルによるハイブリッド量子ビット計算ゲートのロバスト性について On the robustness of the hybrid qubit computational gates through simulated randomized benchmarking protocols ( http://arxiv.org/abs/2011.01585v1 ) ライセンス: Link先を確認 | Elena Ferraro and Marco De Michielis | (参考訳) 量子プロセッサを構築する上で大きな課題のひとつは、環境ノイズを特徴づけることである。
ノイズ特性は、ランダムな量子ゲートの列を試験対象の量子ビットに適用し、影響するノイズに関する統計的特性を導出するランダム化など、様々な手法を利用することができる。
ランダム化手法を用いてクリフォードゲートの全集合をベンチマークできるスケーラブルで堅牢なアルゴリズムをランダム化ベンチマークと呼ぶ。
本研究では, 半導電性全電子二重量子ドット量子ビット, すなわちハイブリッド量子ビットを準静電ガウスおよびより現実的な1/fノイズモデルを含む異なる誤差モデルの下で, ランダム化ベンチマークプロトコルをシミュレーションした。
特定の量子ゲートの平均誤差は、興味あるゲート間のクリフォードゲートを含むインターリーブ付きランダム化ベンチマークによって抽出される。
テスト中のゲートの平均エラーに対する理論上の境界だけでなく、忠実度の推定も提供する。 One of the main challenges in building a quantum processor is to characterize the environmental noise. Noise characterization can be achieved by exploiting different techniques, such as randomization where several sequences of random quantum gates are applied to the qubit under test to derive statistical characteristics about the affecting noises. A scalable and robust algorithm able to benchmark the full set of Clifford gates using randomization techniques is called randomized benchmarking. In this study, we simulated randomized benchmarking protocols in a semiconducting all-electrical three-electron double-quantum dot qubit, i.e. hybrid qubit, under different error models, that include quasi-static Gaussian and the more realistic 1/f noise model, for the input controls. The average error of specific quantum computational gates is extracted through interleaved randomized benchmarking obtained including Clifford gates between the gate of interest. It provides an estimate of the fidelity as well as theoretical bounds for the average error of the gate under test. | 翻訳日:2023-04-25 11:58:54 公開日:2020-11-03 |
# 多スピン系における内部固有プロブレムのデルタダビッドソン法 Delta-Davidson method for interior eigenproblem in many-spin systems ( http://arxiv.org/abs/2011.01554v1 ) ライセンス: Link先を確認 | Haoyu Guan, Wenxian Zhang | (参考訳) 密度行列再正規化群計算を含むテンソルネットワークアプローチのような多くの数値計算法は、量子多体系の極端/基底状態を計算するために開発された。
しかし、システムサイズという点では互いに指数関数的に近い中央州にはほとんど注意が払われていない。
本研究では,多スピン系において,そのような内部状態(中心状態を含む)を消耗的に発見するデルタダビッドソン法を提案する。
DELDAV法は、チェビシェフ多項式展開におけるデルタフィルタと部分空間対角化を組み合わせて、ほぼ退化した問題を克服する。
イジングスピンチェーンとスピングラスシャードに関する数値実験は、内部状態と基底状態を見つけるための提案手法の正確性、有効性、頑健性を示している。
探索された内部状態は、多体局在相、量子カオス、超長時間の動的構造を特定するために用いられる。 Many numerical methods, such as tensor network approaches including density matrix renormalization group calculations, have been developed to calculate the extreme/ground states of quantum many-body systems. However, little attention has been paid to the central states, which are exponentially close to each other in terms of system size. We propose a Delta-Davidson (DELDAV) method to effciently find such interior (including the central) states in many-spin systems. The DELDAV method utilizes Delta filter in Chebyshev polynomial expansion combined with subspace diagonalization to overcome the nearly degenerate problem. Numerical experiments on Ising spin chain and spin glass shards show the correctness, effciency, and robustness of the proposed method in finding the interior states as well as the ground states. The sought interior states may be employed to identify many-body localization phase, quantum chaos, and extremely long-time dynamical structure. | 翻訳日:2023-04-25 11:58:36 公開日:2020-11-03 |
# 量子コンピュータ用量子化学におけるポストハートリーフォック法 Post-Hartree-Fock method in Quantum Chemistry for Quantum Computer ( http://arxiv.org/abs/2011.01544v1 ) ライセンス: Link先を確認 | Yutaka Shikano, Hiroshi C. Watanabe, Ken M. Nakanishi, Yu-ya Ohnishi | (参考訳) 量子計算化学は、いくつかの量子化学、特に電子構造問題を効果的に解くことが期待される量子コンピュータの潜在的な応用である。
量子計算化学は従来の計算装置と比較することができる。
本レビューは,量子情報科学者のためのhartree-fock法のレビューを含む,量子計算化学の応用と概要を包括的に検討する。
量子アルゴリズム、量子位相推定、変分量子固有ソルバはポストハートリー・フォック法に応用されている。 Quantum computational chemistry is a potential application of quantum computers that is expected to effectively solve several quantum-chemistry problems, particularly the electronic structure problem. Quantum computational chemistry can be compared to the conventional computational devices. This review comprehensively investigates the applications and overview of quantum computational chemistry, including a review of the Hartree-Fock method for quantum information scientists. Quantum algorithms, quantum phase estimation, and variational quantum eigensolver, have been applied to the post-Hartree-Fock method. | 翻訳日:2023-04-25 11:58:19 公開日:2020-11-03 |
# 距離量子ドットを光キャビティに結合したマジックスクエアゲームにおける古典的限界を越える Surpassing the Classical Limit in Magic Square Game with Distant Quantum Dots Coupled to Optical Cavities ( http://arxiv.org/abs/2011.01490v1 ) ライセンス: Link先を確認 | Sinan Bugu, Fatih Ozaydin, Tetsuo Kodera | (参考訳) 量子技術の出現は、多くのノイズ源に対する量子システムの脆弱性のため、通常、現実的な環境で紙のアルゴリズムによく見えることの実現性に焦点を当て、量子超越性に関する議論を加熱している。
この流れの中で、量子力学的資源が理論的に古典的資源よりも優れる量子擬似テレパシーゲームの興味深い例は、2人のプレイヤーが審判と対戦するマジック・スクエアゲーム(msg)である。
しかし、ノイズのため、プレイヤーのユニット入賞確率は古典的な限界を大きく下回る可能性がある。
本稿では,光学キャビティ内の量子ドットと,遠方点間の相互作用を実現し,MSGを実装するためのアシラリー光子を用いた,タイムリーかつ前例のない量子計算の実験的なセットアップを提案する。
セットアップの様々な物理的欠陥を考慮すると、まずMSGが現在の技術で実装可能であることを示し、現実的な条件下では古典的資源よりも優れていることを示す。
次に、私たちの作品がゲームの新バージョンを生み出していることを示します。
つまり、審判がプレイヤーの物理的実現と戦略に関する情報を持っている場合、フィルターされたランダム性によってゲームをバイアスし、勝利確率を高めることができる。
私たちの研究は量子ゲーム理論だけでなく、量子ドットを用いた量子コンピューティングにも寄与すると信じています。 The emergence of quantum technologies is heating up the debate on quantum supremacy, usually focusing on the feasibility of looking good on paper algorithms in realistic settings, due to the vulnerability of quantum systems to myriad sources of noise. In this vein, an interesting example of quantum pseudo-telepathy games that quantum mechanical resources can theoretically outperform classical resources is the Magic Square game (MSG), in which two players play against a referee. Due to noise, however, the unit winning probability of the players can drop well below the classical limit. Here, we propose a timely and unprecedented experimental setup for quantum computation with quantum dots inside optical cavities, along with ancillary photons for realizing interactions between distant dots to implement the MSG. Considering various physical imperfections of our setup, we first show that the MSG can be implemented with the current technology, outperforming the classical resources under realistic conditions. Next, we show that our work gives rise to a new version of the game. That is, if the referee has information on the physical realization and strategy of the players, he can bias the game through filtered randomness and increase his winning probability. We believe our work contributes to not only quantum game theory, but also quantum computing with quantum dots. | 翻訳日:2023-04-25 11:58:10 公開日:2020-11-03 |
# 量子コンピューティングにおけるマイクロ波 Microwaves in Quantum Computing ( http://arxiv.org/abs/2011.01480v1 ) ライセンス: Link先を確認 | Joseph C. Bardin, Daniel H. Slichter, and David J. Reilly | (参考訳) 量子情報処理システムは幅広いマイクロ波技術に依存しており、新しい運用体制におけるマイクロ波デバイスや方法の開発を加速させてきた。
本稿では、量子コンピューティングにおけるマイクロ波信号とシステムの利用について、原子イオン量子ビット、半導体スピン量子ビット、超伝導量子ビットの3つの主要な量子コンピューティングプラットフォームについて概説する。
我々は、マイクロ波システムによって達成された量子コンピューティングの重要な成果と進歩を強調し、量子コンピューティングアプリケーションが、いくつかの分野でマイクロ波技術のフロンティアをいかに前進させたかについて論じる。
また,大規模かつフォールトトレラントな量子コンピュータ構築におけるオープンマイクロ波工学の課題についても述べる。 Quantum information processing systems rely on a broad range of microwave technologies and have spurred development of microwave devices and methods in new operating regimes. Here we review the use of microwave signals and systems in quantum computing, with specific reference to three leading quantum computing platforms: trapped atomic ion qubits, spin qubits in semiconductors, and superconducting qubits. We highlight some key results and progress in quantum computing achieved through the use of microwave systems, and discuss how quantum computing applications have pushed the frontiers of microwave technology in some areas. We also describe open microwave engineering challenges for the construction of large-scale, fault-tolerant quantum computers. | 翻訳日:2023-04-25 11:57:45 公開日:2020-11-03 |
# ブロックチェーン技術を用いたCOVID-19のインセンティブに基づくアプローチ An Incentive Based Approach for COVID-19 using Blockchain Technology ( http://arxiv.org/abs/2011.01468v1 ) ライセンス: Link先を確認 | Manoj MK, Gautam Srivastava, Siva Rama Krishnan Somayaji, Thippa Reddy Gadekallu, Praveen Kumar Reddy Maddikunta, Sweta Bhattacharya | (参考訳) 新型コロナウイルスの現在の状況は、医療サービスと経済成長を促進する新しいソリューションを必要としている。
政府や人々が通常の生活様式を維持し、経済を改善するのに役立つ本格的なソリューションが不可欠です。
ユニークなインセンティブベースのアプローチを導入することで、政府や人々の負担を大幅に削減できるのです。
自主的なテストや隔離などの行動に対するインセンティブを提供することで、必要な人々が提供されたインセンティブから恩恵を受ける一方、政府は状況と戦うための戦略をよりよく計画することができる。
ウイルスと戦うための強さを組み合わせるこのアイデアは、この戦争で優位に立つ新しい可能性をもたらす可能性がある。
予測不可能な未来が進むにつれて、すべてのユーザのCOVID関連データを共有および維持することが経済を始めるために必要なトリガーになり、ブロックチェーンはデータの分散化と不変性によってこのソリューションの道を開く。 The current situation of COVID-19 demands novel solutions to boost healthcare services and economic growth. A full-fledged solution that can help the government and people retain their normal lifestyle and improve the economy is crucial. By bringing into the picture a unique incentive-based approach, the strain of government and the people can be greatly reduced. By providing incentives for actions such as voluntary testing, isolation, etc., the government can better plan strategies for fighting the situation while people in need can benefit from the incentive offered. This idea of combining strength to battle against the virus can bring out newer possibilities that can give an upper hand in this war. As the unpredictable future develops, sharing and maintaining COVID related data of every user could be the needed trigger to kick start the economy and blockchain paves the way for this solution with decentralization and immutability of data. | 翻訳日:2023-04-25 11:57:35 公開日:2020-11-03 |
# 量子コンピューティングの核物理学への応用 Selected topics of quantum computing for nuclear physics ( http://arxiv.org/abs/2011.01431v1 ) ライセンス: Link先を確認 | Dan-Bo Zhang, Hongxi Xing, Hui Yan, Enke Wang, and Shi-Liang Zhu | (参考訳) アンダーリング理論が物質と結合した量子ゲージ場によって記述される核物理学は基本的に重要であり、しかしながら古典的コンピュータとのシミュレーションには極めて困難である。
量子コンピューティングは、原子核物理学の研究と理解におそらく変換的なアプローチを提供する。
量子プロセッサの急速なスケールアップと量子アルゴリズムの進歩により、量子ゲージ場と核物理学をシミュレートするデジタル量子シミュレーションアプローチが注目を集めている。
本稿では,量子コンピュータを用いて原子核物理学を解こうとする最近の取り組みを概説する。
まず、量子コンピューティングの言語における核物理学の定式化について論じる。
特に、量子ゲージ場-(アーベル場と非アーベル場の両方)とその物質場へのカップリングが量子コンピュータ上でどのようにマッピングされ、研究されるのかを考察する。
次に、関連する量子アルゴリズムを導入し、量子系の静的性質やリアルタイム進化を解き、格子ゲージ場のシミュレーション、核子と原子核の構造の解き方、量子場理論における散乱のシミュレーションのための量子アドバンテージ、非平衡ダイナミクスなど、核物理学における幅広い問題への応用を示す。
最後に、今後の仕事に関する短い見通しが述べられている。 Nuclear physics, whose underling theory is described by quantum gauge field coupled with matter, is fundamentally important and yet is formidably challenge for simulation with classical computers. Quantum computing provides a perhaps transformative approach for studying and understanding nuclear physics. With rapid scaling-up of quantum processors as well as advances on quantum algorithms, the digital quantum simulation approach for simulating quantum gauge fields and nuclear physics has gained lots of attentions. In this review, we aim to summarize recent efforts on solving nuclear physics with quantum computers. We first discuss a formulation of nuclear physics in the language of quantum computing. In particular, we review how quantum gauge fields~(both Abelian and non-Abelian) and its coupling to matter field can be mapped and studied on a quantum computer. We then introduce related quantum algorithms for solving static properties and real-time evolution for quantum systems, and show their applications for a broad range of problems in nuclear physics, including simulation of lattice gauge field, solving nucleon and nuclear structure, quantum advantage for simulating scattering in quantum field theory, non-equilibrium dynamics, and so on. Finally, a short outlook on future work is given. | 翻訳日:2023-04-25 11:57:21 公開日:2020-11-03 |
# Aharonov-Casher効果の影響下での位置依存質量を持つディラック粒子のエネルギースペクトル」に対するコメント Comment on `Energy spectrum of a Dirac particle with position-dependent mass under the influence of the Aharonov-Casher effect' ( http://arxiv.org/abs/2011.01780v1 ) ライセンス: Link先を確認 | V. B. Mendrot and A. S. de Castro | (参考訳) また,オリーブイラ,ボルヘス,ソウザ(braz. j. phys. 49, 801 (2019))による論文「位置依存質量を持つディラック粒子のエネルギースペクトル」は, 一連の成分が不正確なものであることを示した。 It is shown that the paper `Energy spectrum of a Dirac particle with position-dependent mass under the influence of the Aharonov-Casher effect', by Oliveira, Borges and Sousa [Braz. J. Phys. 49, 801 (2019)], is based on a series of ingredients clearly incorrect. | 翻訳日:2023-04-25 11:49:09 公開日:2020-11-03 |
# 民主的時間ベースの暗号通貨PoPCoinの経済原理 Economic Principles of PoPCoin, a Democratic Time-based Cryptocurrency ( http://arxiv.org/abs/2011.01712v1 ) ライセンス: Link先を確認 | Haoqian Zhang, Cristina Basescu, and Bryan Ford | (参考訳) 民主主義は、生活を管理し、財産を追求する平等な機会の原則に基づいているが、進化の千年紀から受け継いだお金の形は、持続不可能な不平等の終焉をもたらした。
popcoinは、デジタル暗号通貨が金銭の「クリーン・スレート」な再設計に与えたユニークな歴史的機会、特に長期的な公平性と持続可能性に関して、我々の主要な目標として単に安定するのではなく活用することを提案している。
我々は,これらの公平性目標を「空間」と「時間」における均等な機会を支えるものとしてまとめる2つの基本的なルールで具現化するpopcoinの金融政策を開発し,分析した。
予備的な経済分析により、これらのルールは、通貨不平等の定量化と証明可能な上限、参加が飽和するにつれて急激な成長を促進できる自然な「アーリーアダプターの報酬」、デフレスパイラルのリスクへの抵抗、従来のベーシックインカムとは反対の移民インセンティブなど、多くの興味深く有望な特性を持つユニークな形態のマネーが得られることが判明した。 While democracy is founded on the principle of equal opportunity to manage our lives and pursue our fortunes, the forms of money we have inherited from millenia of evolution has brought us to an unsustainable dead-end of exploding inequality. PoPCoin proposes to leverage the unique historical opportunities that digital cryptocurrencies present for a "clean-slate" redesign of money, in particular around long-term equitability and sustainability, rather than solely stability, as our primary goals. We develop and analyze a monetary policy for PoPCoin that embodies these equitability goals in two basic rules that maybe summarized as supporting equal opportunity in "space" and "time": the first by regularly distributing new money equally to all participants much like a basic income, the second by holding the aggregate value of these distributions to a constant and non-diminishing portion of total money supply through demurrage. Through preliminary economic analysis, we find that these rules in combination yield a unique form of money with numerous intriguing and promising properties, such as a quantifiable and provable upper bound on monetary inequality, a natural "early adopter's reward" that could incentivize rapid growth while tapering off as participation saturates, resistance to the risk of deflationary spirals, and migration incentives opposite those created by conventional basic incomes. | 翻訳日:2023-04-25 11:48:58 公開日:2020-11-03 |
# 対称的情報完全測定に基づく絡み合い目撃者 Entanglement Witnesses Based on Symmetric Informationally Complete Measurements ( http://arxiv.org/abs/2011.01705v1 ) ライセンス: Link先を確認 | Tao Li, Le-Min Lai, Deng-Feng Liang, Shao-Ming Fei and Zhi-Xi Wang | (参考訳) 絡み合い証人を調査し,対称情報完全測定(sic-povm)を用いて絡み合い証人の構成を行った。
証人の能力はいくつかの例で示され、この証人は、SIC-POVMがもたらした従来の分離可能性法よりも、より絡み合いを検出する。
さらに、SIC-POVMの次元依存性と比較すると、エンタングルメントの目撃者は一般対称情報完全測定(GSIC-POVM)から常に構築することができる。 We study entanglement witness and present a construction of entanglement witnesses in terms of the symmetric informationally complete measurements (SIC-POVM). The capability of our witness is shown by some examples and it can be found this witness detects more entanglement than previous separability method given also by SIC-POVM. What's more, comparing with the dimension dependence of SIC-POVM, we also give the entanglement witnesses can be always constructed from general symmetric informationally complete measurements (GSIC-POVM). | 翻訳日:2023-04-25 11:48:26 公開日:2020-11-03 |
# 結合重み付きテンソル再正規化群 Bond-weighted Tensor Renormalization Group ( http://arxiv.org/abs/2011.01679v1 ) ライセンス: Link先を確認 | Daiki Adachi, Tsuyoshi Okubo, Synge Todo | (参考訳) 改良型テンソル再正規化群 (TRG) アルゴリズム, 結合重み付きTRG (BTRG) を提案する。
BTRGでは、テンソルネットワークの端に結合重みを導入することで従来のTRGを一般化する。
BTRG は従来の TRG と高次テンソル再正規化群を同じ結合次元で上回るが,計算時間は TRG とほぼ同じである。
さらに、BTRGは最適なハイパーパラメータで非自明な不動点テンソルを持つことができる。
臨界点における2次元イジングモデルの場合, BTRG の特異値スペクトルは再正規化法の下で不変であることを示す。
この性質は、BTRGがテンソルのスケール不変構造を維持しながら高い精度でテンソル収縮を行うことを示している。 We propose an improved tensor renormalization group (TRG) algorithm, the bond-weighted TRG (BTRG). In BTRG, we generalize the conventional TRG by introducing bond weights on the edges of the tensor network. We show that BTRG outperforms the conventional TRG and the higher-order tensor renormalization group with the same bond dimension, while its computation time is almost the same as that of TRG. Furthermore, BTRG can have non-trivial fixed-point tensors at an optimal hyperparameter. We demonstrate that the singular value spectrum obtained by BTRG is invariant under the renormalization procedure in the case of the two-dimensional Ising model at the critical point. This property indicates that BTRG performs the tensor contraction with high accuracy while keeping the scale-invariant structure of tensors. | 翻訳日:2023-04-25 11:47:54 公開日:2020-11-03 |
# 長距離相関を用いたカオススペクトルの欠落レベル推定の精度と精度 Accuracy and precision of the estimation of the number of missing levels in chaotic spectra using long-range correlations ( http://arxiv.org/abs/2011.01667v1 ) ライセンス: Link先を確認 | I. Casal, L. Mu\~noz and R.A. Molina | (参考訳) 長距離相関による量子カオススペクトルにおける観測値の分数$\varphi$の推定精度と精度について検討した。
我々は、不足レベルの数に対する理論公式が導出された主な統計学、DysonとMehtaの$\Delta_3$、および$\delta_n$統計学のパワースペクトルに焦点を当てる。
ガウス直交アンサンブル行列の対角化によるスペクトルのモンテカルロシミュレーションを用いて,任意のレベルをランダムに取り出すことで,スペクトルの異なるサイズと$\varphi$の値に対する推定値の分布を計算する。
推定の系統的誤りを避けるために、$\delta_n$統計値のパワースペクトルの適切な平均化を行う必要がある。
適切な平均化が成立すると、観測値の分数の推定は、最低次元が$d=100$であっても2つの方法に対してかなり精度が良い。
しかし、この精度は一般に$\delta_n$のパワースペクトルを用いた推定の方が$\Delta_3$統計を用いた推定よりも優れている。
この違いは明らかに大きな次元に対して大きい。
その結果,推定のアンサンブル分布の観点からの適合度値の慎重な分析は,その実際の意義を理解し,現実的な誤差区間を与えるために必須であることがわかった。 We study the accuracy and precision for estimating the fraction of observed levels $\varphi$ in quantum chaotic spectra through long-range correlations. We focus on the main statistics where theoretical formulas for the fraction of missing levels have been derived, the $\Delta_3$ of Dyson and Mehta and the power spectrum of the $\delta_n$ statistic. We use Monte Carlo simulations of the spectra from the diagonalization of Gaussian Orthogonal Ensemble matrices with a definite number of levels randomly taken out to fit the formulas and calculate the distribution of the estimators for different sizes of the spectrum and values of $\varphi$. A proper averaging of the power spectrum of the $\delta_n$ statistic needs to be performed for avoiding systematic errors in the estimation. Once the proper averaging is made the estimation of the fraction of observed levels has quite good accuracy for the two methods even for the lowest dimensions we consider $d=100$. However, the precision is generally better for the estimation using the power spectrum of the $\delta_n$ as compared to the estimation using the $\Delta_3$ statistic. This difference is clearly bigger for larger dimensions. Our results show that a careful analysis of the value of the fit in view of the ensemble distribution of the estimations is mandatory for understanding its actual significance and give a realistic error interval. | 翻訳日:2023-04-25 11:47:41 公開日:2020-11-03 |
# 超低温ガス用モノリシックなボウタイキャビティトラップ Monolithic bowtie cavity traps for ultra-cold gases ( http://arxiv.org/abs/2011.01992v1 ) ライセンス: Link先を確認 | Yanping Cai, Daniel Allman, Jesse Evans, Parth Sabharwal, and Kevin C. Wright | (参考訳) モノリシックリングボウティキャビティにおけるLi-6原子のトラップと冷却について報告する。
原子間相互作用を調整するために用いられる磁場に敏感な空洞を作るため、核融合シリカとゼロダールから完全に構築した。
部品は水酸化物結合を用いて組み立てられ, 超高真空との相溶性を示す。
高精細なリングキャビティの後方散乱はトラップ強度の変動や加熱を引き起こすが、位相制御された双方向ポンプでは、クロスビームトラップ(一方向ポンプ)と2次元格子トラップ(双方向ポンプ)の両方で、量子ガス実験に十分な長さのトラップ寿命を与えることができる。 We report on trapping and cooling Li-6 atoms in a monolithic ring bowtie cavity. To make the cavity insensitive to magnetic fields used to tune atomic interactions, we constructed it entirely from fused silica and Zerodur. The components were assembled using hydroxide bonding, which we show can be compatible with ultra-high vacuum. Backscattering in high-finesse ring cavities readily causes trap intensity fluctuations and heating, but with phase-controlled bi-directional pumping the trap lifetime can be made long enough for quantum gas experiments in both the crossed-beam trap (unidirectional pump) and 2D lattice trap (bidirectional pump) configurations. | 翻訳日:2023-04-25 11:40:55 公開日:2020-11-03 |
# 量子データから量子ビットPOVMを構成する Constructing a qubit POVM from quantum data ( http://arxiv.org/abs/2011.01987v1 ) ライセンス: Link先を確認 | Mark Hillery | (参考訳) 1つは確率$\eta_{0}$、もう1つは確率$\eta_{1}$の2つの純粋な状態の混合から成っていると言われる量子ビットのアンサンブルが与えられたとき、我々は2つの状態の間で量子ビットを測定することで判別する povm を見出したい。
我々は状態を知らないし、任意の量子ビットに対して、それがどの状態にあるのかを知らない。
これは量子データからPOVMを学ぶものと見なすことができる。
一度見つかると、POVMはアンサンブルの残りのキュービットをアンサンブルに存在する2つの状態に対応する2つのグループに分けるのに使うことができる。
POVMを見つけるには、可能な状態に関するさらなる情報が必要です。
私たちはいくつかの事例を調べます。
まず、状態のブロッホベクトルが x-z 平面に存在し、それらの \emph{a priori} 確率が等しいと仮定する。
次に、x-z平面への制限を保ちながら、 \emph{a priori} 確率が異なることを許す。
最後に、状態のブロッホベクトルが同じ z 成分を持つ場合を考える。 Given an ensemble of qubits, which we are told consists of a mixture of two pure states, one with probability $\eta_{0}$ and one with probability $\eta_{1}$, we want to find a POVM that will discriminate between the two states by measuring the qubits. We do not know the states, and for any given qubit, we do not know which of the two states it is in. This can be viewed as learning a POVM from quantum data. Once found, the POVM can be used to separate the remaining qubits in the ensemble into two groups, corresponding to the two states present in the ensemble. In order to find the POVM, we need more information about the possible states. We examine several cases. First, we suppose that we know that the Bloch vectors of the states lie in the x-z plane and their \emph{a priori} probabilities are equal. We next keep the restriction to the x-z plane, but allow the \emph{a priori} probabilities to be different. Finally, we consider the case in which the Bloch vectors of the states have the same z component. | 翻訳日:2023-04-25 11:40:41 公開日:2020-11-03 |
# 一般化ユニタリカップリングクラスタアンサッツを用いたデフォールドハミルトニアンの近似対角化のための変分量子固有解法 Variational Quantum Eigensolver for Approximate Diagonalization of Downfolded Hamiltonians using Generalized Unitary Coupled Cluster Ansatz ( http://arxiv.org/abs/2011.01985v1 ) ライセンス: Link先を確認 | Nicholas P. Bauman and Jaroslav Chl\'adek and Libor Veis and Ji\v{r}\'i Pittner and Karol Kowalski | (参考訳) 本稿では,変分量子解法(VQE)と最近導入された一般ユニタリ結合クラスタ(GUCC)を用いて,活性空間におけるダウンフォールド/有効ハミルトニアンの対角化について論じる。
仮想軌道のサブセットのダウンフォールディングによって定義される効果的なハミルトニアンに加えて、その形式はコア軌道の凍結によって定義され、より大きな系を扱うことができる。
また、GUCC方程式の解を同定するために様々な解法を考える。
私たちは、n$_2$、h$_2$o、c$_2$h$_4$、ベンチマークシステムを使用して、結合フレームワークのパフォーマンスを説明します。 In this paper we discuss the utilization of Variational Quantum Solver (VQE) and recently introduced Generalized Unitary Coupled Cluster (GUCC) formalism for the diagonalization of downfolded/effective Hamiltonians in active spaces. In addition to effective Hamiltonians defined by the downfolding of a subset of virtual orbitals we also consider their form defined by freezing core orbitals, which enables us to deal with larger systems. We also consider various solvers to identify solutions of the GUCC equations. We use N$_2$, H$_2$O, and C$_2$H$_4$, and benchmark systems to illustrate the performance of the combined framework. | 翻訳日:2023-04-25 11:40:20 公開日:2020-11-03 |
# 量子キャンディーと量子暗号 Quantum Candies and Quantum Cryptography ( http://arxiv.org/abs/2011.02837v1 ) ライセンス: Link先を確認 | Junan Lin, Tal Mor | (参考訳) 量子情報の分野は一般大衆に広く知られるようになった。
しかし、量子科学とテクノロジーの下の概念を一般大衆に効果的に示すことは難しい仕事である。
量子情報の基本的な概念(量子ビット、相補性、非閉包原理、絡み合いなど)を直感的に記述するための教育モデルである「量子カンディーズ」(jacobsによって発明された)を調査し、拡張し、拡張する。
ヤコブのよく知られた量子鍵分布プロトコルBB84の量子キャンディー記述に続いて、量子キャンディーを用いた様々な追加量子暗号プロトコルをアプローチ可能な方法で明確に示す。
私たちが調査するモデルは、一般大衆が量子科学と技術についてより多くの洞察を得るのを手助けしたい、科学と工学の教育者にとって貴重なツールになり得る。量子暗号のための多くのプロトコルを含むこの論文のほとんどの部分は、数学、物理学、暗号学の知識がなくても、素人によって容易に理解できると期待されている。 The field of quantum information is becoming more known to the general public. However, effectively demonstrating the concepts underneath quantum science and technology to the general public can be a challenging job. We investigate, extend, and much expand here "quantum candies" (invented by Jacobs), a pedagogical model for intuitively describing some basic concepts in quantum information, including quantum bits, complementarity, the no-cloning principle, and entanglement. Following Jacob's quantum candies description of the well known quantum key distribution protocol BB84, we explicitly demonstrate various additional quantum cryptography protocols using quantum candies in an approachable manner. The model we investigate can be a valuable tool for science and engineering educators who would like to help the general public to gain more insights about quantum science and technology: most parts of this paper, including many protocols for quantum cryptography, are expected to be easily understandable by a layperson without any previous knowledge of mathematics, physics, or cryptography. | 翻訳日:2023-04-25 11:29:57 公開日:2020-11-03 |
# 宇宙空間型転位とアハロノフ・ボーム効果を持つ宇宙時間における一般化クライン・ゴルドン発振器 The generalized Klein-Gordon oscillator in a Cosmic Space-Time with a Space-Like Dislocation and the Aharonov-Bohm Effect ( http://arxiv.org/abs/2011.02056v1 ) ライセンス: Link先を確認 | B. C. L\"utf\"uo\u{g}lu, J. K\v{r}\'i\v{z}, P. Sedaghatnia and H. Hassanabadi | (参考訳) 本研究では,一様磁場の影響下にある荷電粒子の量子挙動について検討した。
時空は内部磁束を伴う空間的転位を持つと仮定した。
擬調和型およびコーネル型ポテンシャルエネルギーと呼ばれる2種類のポテンシャルエネルギーと非最小結合性について検討した。
両症例ともAharonov-Bohm効果が認められた。
我々はエネルギースペクトル関数の解析を異なる極限にまで拡張した。 In the present work, we investigated the quantum behavior of a charged particle that is under the effect of a uniform magnetic external field. We assumed that space-time has a space-like dislocation with an internal magnetic flux. We examined two different types of potential energies that are known as the pseudo harmonic and Cornell type potential energies, with the nonminimal coupling. We observed the Aharonov-Bohm effect in both cases. We extended the analysis on the energy spectrum functions to the different limits. | 翻訳日:2023-04-25 11:28:57 公開日:2020-11-03 |
# 時間周期駆動と散逸を伴うリンドブラッドダイナミクスにおけるフロッケ例外輪郭 Floquet exceptional contours in Lindblad dynamics with time-periodic drive and dissipation ( http://arxiv.org/abs/2011.02054v1 ) ライセンス: Link先を確認 | John Gunderson, Jacob Muldoon, Kater W. Murch, Yogesh N. Joglekar | (参考訳) 孤立量子系のダイナミクスはコヒーレントかつユニタリである。
環境への弱結合は、伝統的にシステムの密度行列に対するリンドブラッド方程式でモデル化されたデコヒーレンスをもたらす。
純粋な状態から始めると、そのようなシステムは、過小評価または過大評価された方法で定常状態(混合またはその他の状態)に近づく。
この遷移はlindbladスーパーオペレーターの固有値縮退時に起こり、例外点(ep)と呼ばれる、対応する固有ベクトルが合体する。
近年、EPが古典的実現で示した感度とトポロジカルな特徴により、真の量子領域において例外的な点を作り出すことへの関心が高まっている。
ここでは、駆動または散逸器強度が周期的に変化する原型量子ビットのフロケ解析について述べる。
我々は,大域的損失(位相減衰)やモード選択的損失(自然放出)を発生させる単一散逸器を用いたモデルを考える。
いずれの場合も、周期的な変調は、小さな散逸子強度でEP線を導き、パラメータ空間にリッチなEP構造をもたらす。
解析的および数値的な結果から,リンドブラッド・リウヴィリアンをフロッケ領域に拡張することは,リンドブラッド定常状態への過渡力学の異常点にアクセスする上で,潜在的に望ましい新しい経路であることが示された。 The dynamics of an isolated quantum system is coherent and unitary. Weak coupling to the environment leads to decoherence, which is traditionally modeled with a Lindblad equation for the system's density matrix. Starting from a pure state, such a system approaches a steady state (mixed or otherwise) in an underdamped or overdamped manner. This transition occurs at an eigenvalue degeneracy of a Lindblad superoperator, called an exceptional point (EP), where corresponding eigenvectors coalesce. Recent years have seen an explosion of interest in creating exceptional points in a truly quantum domain, driven by the enhanced sensitivity and topological features EPs have shown in their classical realizations. Here, we present Floquet analysis of a prototypical qubit whose drive or dissipator strengths are varied periodically. We consider models with a single dissipator that generate global loss (phase damping) or mode-selective loss (spontaneous emission). In all cases, we find that periodic modulations lead to EP lines at small dissipator strengths, and a rich EP structure in the parameter space. Our analytical and numerical results show that extending Lindblad Liouvillians to the Floquet domain is a new, potentially preferred route to accessing exceptional points in the transient dynamics towards the Lindblad steady state. | 翻訳日:2023-04-25 11:28:49 公開日:2020-11-03 |
# 台内及び台内メトロライダシップ予測のための物理・仮想協調モデル Physical-Virtual Collaboration Modeling for Intra-and Inter-Station Metro Ridership Prediction ( http://arxiv.org/abs/2001.04889v3 ) ライセンス: Link先を確認 | Lingbo Liu and Jingwen Chen and Hefeng Wu and Jiajie Zhen and Guanbin Li and Liang Lin | (参考訳) 現実のシナリオで広く応用されているため、メトロライダーシップの予測はインテリジェント交通システムにおいて決定的だが難しい課題である。
しかし、従来の方法はメトロシステムのトポロジー情報を無視するか、物理的トポロジーについて直接学習するかのどちらかであり、ライダーシップの進化のパターンを完全に探求することはできない。
この問題を解決するために,様々なトポロジを持つグラフとしてメトロシステムをモデル化し,複雑なライダーシップパターンをテーラー設計グラフから効果的に学習する物理仮想協調グラフネットワーク(PVCGN)を提案する。
特に、物理グラフは、研究されたメトロシステムの現実的なトポロジーに基づいて直接構築され、類似グラフと相関グラフは、駅間旅客流の類似性と相関の指導の下で仮想トポロジーで構築される。
これらの補グラフは、空間的時間的表現学習のためのグラフ畳み込みGated Recurrent Unit(GC-GRU)に組み込まれる。
また、全連結ゲートリカレントユニット(fc-gru)を用いて、グローバル進化傾向を捉える。
最後に,GC-GRUとFC-GRUを併用したSeq2Seqモデルを構築し,将来のメトロライダーを逐次予測する。
2つの大規模ベンチマーク(上海メトロや杭州メトロなど)の大規模な実験は、駅レベルのメトロライダーの予測においてPVCGNの優位性をよく示している。
さらに,提案したPVCGNをオンライン起点決定予測(OD)に応用し,実験結果から本手法の普遍性を示した。
私たちのコードとベンチマークはhttps://github.com/hcplab-sysu/pvcgnで利用可能です。 Due to the widespread applications in real-world scenarios, metro ridership prediction is a crucial but challenging task in intelligent transportation systems. However, conventional methods either ignore the topological information of metro systems or directly learn on physical topology, and cannot fully explore the patterns of ridership evolution. To address this problem, we model a metro system as graphs with various topologies and propose a unified Physical-Virtual Collaboration Graph Network (PVCGN), which can effectively learn the complex ridership patterns from the tailor-designed graphs. Specifically, a physical graph is directly built based on the realistic topology of the studied metro system, while a similarity graph and a correlation graph are built with virtual topologies under the guidance of the inter-station passenger flow similarity and correlation. These complementary graphs are incorporated into a Graph Convolution Gated Recurrent Unit (GC-GRU) for spatial-temporal representation learning. Further, a Fully-Connected Gated Recurrent Unit (FC-GRU) is also applied to capture the global evolution tendency. Finally, we develop a Seq2Seq model with GC-GRU and FC-GRU to forecast the future metro ridership sequentially. Extensive experiments on two large-scale benchmarks (e.g., Shanghai Metro and Hangzhou Metro) well demonstrate the superiority of our PVCGN for station-level metro ridership prediction. Moreover, we apply the proposed PVCGN to address the online origin-destination (OD) ridership prediction and the experiment results show the universality of our method. Our code and benchmarks are available at https://github.com/HCPLab-SYSU/PVCGN. | 翻訳日:2023-01-11 13:00:41 公開日:2020-11-03 |
# Bertrand-DR:差別的再ランカによるテキストからSQLへの改善 Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker ( http://arxiv.org/abs/2002.00557v2 ) ライセンス: Link先を確認 | Amol Kelkar, Rohan Relan, Vaishali Bhardwaj, Saurabh Vaichal, Chandra Khatri, Peter Relan | (参考訳) リレーショナルデータベースに格納されたデータにアクセスするには、データベーススキーマを理解し、SQLのようなクエリ言語を使ってクエリを書く必要がある。
このタスクを簡単にするために、text-to-sqlモデルはユーザの自然言語質問を対応するsqlクエリに変換する。
近年,複数の生成テキスト-SQLモデルが開発されている。
本稿では,テキスト・ツー・SQL生成器が予測するビーム出力から最高のSQLクエリを抽出することにより,生成するテキスト・ツー・SQLモデルの性能を向上させるための新たな識別リランカを提案する。
我々は、リランカをスキーマに依存しないBERT微調整分類器として構築する。
我々は,クエリの難度レベルが異なる場合,テキスト対sqlおよび再ランク付けモデルの相対的強みを分析し,この2つのモデルを最適性能に組み合わせる方法を提案する。
本稿では,2つの最先端テキスト対sqlモデルに適用することにより,再ランク付けの有効性を実証し,この記事執筆時点でのスパイダー・リーダーボードの上位4点を達成した。 To access data stored in relational databases, users need to understand the database schema and write a query using a query language such as SQL. To simplify this task, text-to-SQL models attempt to translate a user's natural language question to corresponding SQL query. Recently, several generative text-to-SQL models have been developed. We propose a novel discriminative re-ranker to improve the performance of generative text-to-SQL models by extracting the best SQL query from the beam output predicted by the text-to-SQL generator, resulting in improved performance in the cases where the best query was in the candidate list, but not at the top of the list. We build the re-ranker as a schema agnostic BERT fine-tuned classifier. We analyze relative strengths of the text-to-SQL and re-ranker models across different query hardness levels, and suggest how to combine the two models for optimal performance. We demonstrate the effectiveness of the re-ranker by applying it to two state-of-the-art text-to-SQL models, and achieve top 4 score on the Spider leaderboard at the time of writing this article. | 翻訳日:2023-01-04 08:04:52 公開日:2020-11-03 |
# 2モーメント分布に対するロバストな$k$-meansクラスタリング Robust $k$-means Clustering for Distributions with Two Moments ( http://arxiv.org/abs/2002.02339v2 ) ライセンス: Link先を確認 | Yegor Klochkov, Alexey Kroshnin, and Nikita Zhivotovskiy | (参考訳) 我々は,$n$独立観測に基づいて量子化器が構築される$k$-meansクラスタリング問題に対するロバストアルゴリズムを考える。
我々の主な結果は、一般分離ヒルベルト空間における2つの有界モーメント仮定の下で成り立つ平均に基づく非漸近的過剰歪み境界の中央値である。
特に、1981年のPollardの有名な漸近的結果を拡張し、2つのモーメントの存在は、$\mathbb{R}^d$における経験的最適量化器の強い一貫性に十分であることを示した。
2つの有界なモーメントの下で、$\mathbb{r}^d$ でのクラスタリングの特別なケースでは、最適量子化器の最も軽いクラスターの確率質量に依存する過剰な歪みに対して(定数因子まで)非漸近的な上限が一致することが証明される。
我々の境界は準ガウス形式を持ち、証明はロバスト平均推定子に対する一様境界のバージョンに基づいている。 We consider the robust algorithms for the $k$-means clustering problem where a quantizer is constructed based on $N$ independent observations. Our main results are median of means based non-asymptotic excess distortion bounds that hold under the two bounded moments assumption in a general separable Hilbert space. In particular, our results extend the renowned asymptotic result of Pollard, 1981 who showed that the existence of two moments is sufficient for strong consistency of an empirically optimal quantizer in $\mathbb{R}^d$. In a special case of clustering in $\mathbb{R}^d$, under two bounded moments, we prove matching (up to constant factors) non-asymptotic upper and lower bounds on the excess distortion, which depend on the probability mass of the lightest cluster of an optimal quantizer. Our bounds have the sub-Gaussian form, and the proofs are based on the versions of uniform bounds for robust mean estimators. | 翻訳日:2023-01-03 13:34:30 公開日:2020-11-03 |
# 人間の最小の努力で現実世界を歩くことを学ぶ Learning to Walk in the Real World with Minimal Human Effort ( http://arxiv.org/abs/2002.08550v3 ) ライセンス: Link先を確認 | Sehoon Ha, Peng Xu, Zhenyu Tan, Sergey Levine, Jie Tan | (参考訳) 信頼性が高く安定した移動は、脚のあるロボットにとって最も基本的な課題の1つだ。
深層強化学習(Deep RL)は、このような制御政策を自律的に開発するための有望な方法である。
本稿では,人間の努力を最小限に抑えた実世界における深部RLを用いた足歩行ポリシー学習システムを開発する。
オンロボット学習システムの主な課題は、自動データ収集と安全性である。
マルチタスク学習手法と安全制約付きRLフレームワークを開発することで,これらの2つの課題を克服する。
平たい地面、柔らかいマットレス、隙間のあるドアマットという3つの異なる地形を歩むことを学ぶというタスクでシステムをテストしました。
人間の介入がほとんどないミニチュアロボットにおいて,ロボットの移動スキルを自動的かつ効率的に学習することができる。
追加ビデオは \url{https://youtu.be/cwyiq6dcgoc} で見ることができる。 Reliable and stable locomotion has been one of the most fundamental challenges for legged robots. Deep reinforcement learning (deep RL) has emerged as a promising method for developing such control policies autonomously. In this paper, we develop a system for learning legged locomotion policies with deep RL in the real world with minimal human effort. The key difficulties for on-robot learning systems are automatic data collection and safety. We overcome these two challenges by developing a multi-task learning procedure and a safety-constrained RL framework. We tested our system on the task of learning to walk on three different terrains: flat ground, a soft mattress, and a doormat with crevices. Our system can automatically and efficiently learn locomotion skills on a Minitaur robot with little human intervention. The supplemental video can be found at: \url{https://youtu.be/cwyiq6dCgOc}. | 翻訳日:2022-12-30 07:18:19 公開日:2020-11-03 |
# 半スーパービジョン型ニューラルアーキテクチャサーチ Semi-Supervised Neural Architecture Search ( http://arxiv.org/abs/2002.10389v4 ) ライセンス: Link先を確認 | Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Enhong Chen, Tie-Yan Liu | (参考訳) neural architecture search (nas) は優れたコントローラに依存し、より良いアーキテクチャを生成したり、与えられたアーキテクチャの精度を予測する。
しかし、コントローラのトレーニングには、アーキテクチャの豊富で高品質なペアと、その正確さが必要であるが、アーキテクチャを評価し、その正確さを得るのにコストがかかる。
本稿では,多くの未ラベルアーキテクチャを活用する半教師付きNASアプローチであるSemiNASを提案する。
具体的には、SemiNAS
1) アーキテクチャ-精度データペアの小さなセットで初期精度予測器を訓練する。
2) 訓練済みの精度予測器を用いて(評価なしで)大量の建築の精度を予測する。
3) 生成されたデータペアを元のデータに追加し、予測器をさらに改善する。
トレーニングされた精度予測器は、候補アーキテクチャの精度を予測することにより、様々なNASアルゴリズムに適用することができる。
SemiNASには2つの利点がある。
1) 計算コストを同じ精度で削減する。
NASBench-101ベンチマークデータセットでは、勾配法と同等の精度を達成し、1/7のアーキテクチャ精度ペアのみを使用する。
2) 同じ計算コストで高い精度を実現する。
NASBench-101で94.02%のテスト精度を達成し、同じ数のアーキテクチャを使用する場合のすべてのベースラインを上回っている。
ImageNetでは、検索に4つのGPUデイを使用して、23.5%のトップ1エラーレート(600万FLOPS制約下で)を達成する。
さらにLJSpeechテキストを音声タスクに適用し,低リソース環境では97%,ロバストネス環境では15%,ベースライン上では9%,7%の精度向上を実現した。 Neural architecture search (NAS) relies on a good controller to generate better architectures or predict the accuracy of given architectures. However, training the controller requires both abundant and high-quality pairs of architectures and their accuracy, while it is costly to evaluate an architecture and obtain its accuracy. In this paper, we propose SemiNAS, a semi-supervised NAS approach that leverages numerous unlabeled architectures (without evaluation and thus nearly no cost). Specifically, SemiNAS 1) trains an initial accuracy predictor with a small set of architecture-accuracy data pairs; 2) uses the trained accuracy predictor to predict the accuracy of large amount of architectures (without evaluation); and 3) adds the generated data pairs to the original data to further improve the predictor. The trained accuracy predictor can be applied to various NAS algorithms by predicting the accuracy of candidate architectures for them. SemiNAS has two advantages: 1) It reduces the computational cost under the same accuracy guarantee. On NASBench-101 benchmark dataset, it achieves comparable accuracy with gradient-based method while using only 1/7 architecture-accuracy pairs. 2) It achieves higher accuracy under the same computational cost. It achieves 94.02% test accuracy on NASBench-101, outperforming all the baselines when using the same number of architectures. On ImageNet, it achieves 23.5% top-1 error rate (under 600M FLOPS constraint) using 4 GPU-days for search. We further apply it to LJSpeech text to speech task and it achieves 97% intelligibility rate in the low-resource setting and 15% test error rate in the robustness setting, with 9%, 7% improvements over the baseline respectively. | 翻訳日:2022-12-29 03:10:26 公開日:2020-11-03 |
# STC-Flow:時空間対応光フロー推定 STC-Flow: Spatio-temporal Context-aware Optical Flow Estimation ( http://arxiv.org/abs/2003.00434v2 ) ライセンス: Link先を確認 | Xiaolin Song, Yuyang Zhao, and Jingyu Yang | (参考訳) 本稿では,光フロー推定のための時空間時空間ネットワーク STC-Flow を提案する。
局所ピラミッド特徴抽出と多レベル相関を用いた従来の光フロー推定手法とは異なり,空間的および時間的次元のリッチな長距離依存性を捉えた文脈関係探索アーキテクチャを提案する。
具体的には、STC-Flowは、3つの重要なコンテキストモジュールを含む:ピラミッド空間コンテキストモジュール、時間的コンテキスト相関モジュール、および繰り返し残余コンテキストアップサンプリングモジュールで、それぞれ特徴抽出、相関、フロー再構成の各ステージで関係を構築する。
実験結果から,提案手法は,SintelデータセットとKITTI 2012/2015データセットに基づく2フレーム方式の最先端性能を実現することが示唆された。 In this paper, we propose a spatio-temporal contextual network, STC-Flow, for optical flow estimation. Unlike previous optical flow estimation approaches with local pyramid feature extraction and multi-level correlation, we propose a contextual relation exploration architecture by capturing rich long-range dependencies in spatial and temporal dimensions. Specifically, STC-Flow contains three key context modules - pyramidal spatial context module, temporal context correlation module and recurrent residual contextual upsampling module, to build the relationship in each stage of feature extraction, correlation, and flow reconstruction, respectively. Experimental results indicate that the proposed scheme achieves the state-of-the-art performance of two-frame based methods on the Sintel dataset and the KITTI 2012/2015 datasets. | 翻訳日:2022-12-27 13:02:52 公開日:2020-11-03 |
# 生成学習によるフェアクロスドメイン適応に向けて Towards Fair Cross-Domain Adaptation via Generative Learning ( http://arxiv.org/abs/2003.02366v2 ) ライセンス: Link先を確認 | Tongxin Wang, Zhengming Ding, Wei Shao, Haixu Tang, Kun Huang | (参考訳) ドメイン適応(DA)は、よくラベル付けされたソースドメイン上でトレーニングされたモデルを、異なる分散に横たわる未ラベルのターゲットドメインに適応することを目的としています。
既存のdaは通常、よくラベルされたソースドメインがクラスごとにバランスが取れていると仮定している。
しかし、実世界のアプリケーションでは、データ収集とアノテーションの難しさのために、ソースドメインのいくつかのカテゴリのラベル付きサンプルが極めて少ない可能性があるため、これらのいくつかのカテゴリでは、ターゲットドメインよりもパフォーマンスが低下する。
公平なクロスドメイン適応を行い、これらのマイノリティカテゴリの性能を高めるために、公正なクロスドメイン分類のための新しい生成的少数ショットクロスドメイン適応 (gfca) アルゴリズムを開発した。
具体的には、生成的特徴増強により、数発のソースクラスに対する効果的なトレーニングデータを合成し、効果的なクロスドメインアライメントは、ソースからの知識を適応させ、ターゲット学習を容易にする。
2つの大きなクロスドメインビジュアルデータセットによる実験結果から,提案手法の有効性が,最先端のDA手法と比較して,少数ショットと全体分類の精度の向上に有効であることが示された。 Domain Adaptation (DA) targets at adapting a model trained over the well-labeled source domain to the unlabeled target domain lying in different distributions. Existing DA normally assumes the well-labeled source domain is class-wise balanced, which means the size per source class is relatively similar. However, in real-world applications, labeled samples for some categories in the source domain could be extremely few due to the difficulty of data collection and annotation, which leads to decreasing performance over target domain on those few-shot categories. To perform fair cross-domain adaptation and boost the performance on these minority categories, we develop a novel Generative Few-shot Cross-domain Adaptation (GFCA) algorithm for fair cross-domain classification. Specifically, generative feature augmentation is explored to synthesize effective training data for few-shot source classes, while effective cross-domain alignment aims to adapt knowledge from source to facilitate the target learning. Experimental results on two large cross-domain visual datasets demonstrate the effectiveness of our proposed method on improving both few-shot and overall classification accuracy comparing with the state-of-the-art DA approaches. | 翻訳日:2022-12-26 13:16:53 公開日:2020-11-03 |
# オンラインロジスティック回帰のための効率的な不適切な学習 Efficient improper learning for online logistic regression ( http://arxiv.org/abs/2003.08109v3 ) ライセンス: Link先を確認 | R\'emi J\'ez\'equel (SIERRA), Pierre Gaillard (SIERRA), Alessandro Rudi (SIERRA) | (参考訳) オンラインロジスティック回帰(英語版)(オンラインロジスティック回帰)の設定を考えると、半径 b の2次元球面に関する後悔を考える。 (hazan et al., 2014]) 標本数に対数的後悔を持つ任意の固有アルゴリズムは、必ず b の指数的乗算定数を被っていることが知られている。本研究では、この指数的定数を避けながら対数的後悔を保ちながら、効率的な不適切なアルゴリズムを設計する。
実際、[Foster et al., 2018] は、下限が不適切なアルゴリズムには適用されないことを示した。
本アルゴリズムは,o(b log(bn)) のオーダー o(d^2) の時間複雑度を満足するサロゲート損失を伴う正規化経験的リスク最小化に基づく。 We consider the setting of online logistic regression and consider the regret with respect to the 2-ball of radius B. It is known (see [Hazan et al., 2014]) that any proper algorithm which has logarithmic regret in the number of samples (denoted n) necessarily suffers an exponential multiplicative constant in B. In this work, we design an efficient improper algorithm that avoids this exponential constant while preserving a logarithmic regret. Indeed, [Foster et al., 2018] showed that the lower bound does not apply to improper algorithms and proposed a strategy based on exponential weights with prohibitive computational complexity. Our new algorithm based on regularized empirical risk minimization with surrogate losses satisfies a regret scaling as O(B log(Bn)) with a per-round time-complexity of order O(d^2). | 翻訳日:2022-12-22 09:50:35 公開日:2020-11-03 |
# テキストにおける感情分類のための評価理論 Appraisal Theories for Emotion Classification in Text ( http://arxiv.org/abs/2003.14155v6 ) ライセンス: Link先を確認 | Jan Hofmann, Enrica Troiano, Kai Sassenberg, and Roman Klinger | (参考訳) 自動感情分類は、例えばポール・エクマン (Paul Ekman) が提唱した基本的な感情クラス (far, joy, anger, disgust, sadness, surprise) やロバート・プルチック (Robert Plutchik) によって提案された、事前定義された在庫から感情にテキスト単位が割り当てられるテキスト分類として、主に定式化されてきた。
このアプローチは、事象の知覚に関する説明を提供する既存の心理学理論をある程度無視する。
例えば、誰かがヘビを発見したという記述は、不愉快でコントロール不能な状況であるという評価に基づいて恐怖と関連づけられている。
この感情の再構築は、主観的感情の明確な報告(例えば、これを「私は恐れている」という言葉で表現するなど)にアクセスできることなく可能である。
したがって、自動分類アプローチでは、事象の性質を潜在変数として学習する必要がある(例えば、ヘビの遭遇に伴う不確実性と精神的または肉体的努力が恐怖に繋がる)。
本稿では,このような事象の解釈を,事象の認知的評価の理論に従って明確化し,分類モデルに符号化された場合の感情分類の可能性を示す。
その結果,事象記述における高品質な評価次元の割り当ては,個別の感情カテゴリーの分類の改善につながることがわかった。
評価アノテートされた感情関連イベント記述のコーパスを一般公開する。 Automatic emotion categorization has been predominantly formulated as text classification in which textual units are assigned to an emotion from a predefined inventory, for instance following the fundamental emotion classes proposed by Paul Ekman (fear, joy, anger, disgust, sadness, surprise) or Robert Plutchik (adding trust, anticipation). This approach ignores existing psychological theories to some degree, which provide explanations regarding the perception of events. For instance, the description that somebody discovers a snake is associated with fear, based on the appraisal as being an unpleasant and non-controllable situation. This emotion reconstruction is even possible without having access to explicit reports of a subjective feeling (for instance expressing this with the words "I am afraid."). Automatic classification approaches therefore need to learn properties of events as latent variables (for instance that the uncertainty and the mental or physical effort associated with the encounter of a snake leads to fear). With this paper, we propose to make such interpretations of events explicit, following theories of cognitive appraisal of events, and show their potential for emotion classification when being encoded in classification models. Our results show that high quality appraisal dimension assignments in event descriptions lead to an improvement in the classification of discrete emotion categories. We make our corpus of appraisal-annotated emotion-associated event descriptions publicly available. | 翻訳日:2022-12-18 00:57:59 公開日:2020-11-03 |
# STMC変換器による手話翻訳の改善 Better Sign Language Translation with STMC-Transformer ( http://arxiv.org/abs/2004.00588v2 ) ライセンス: Link先を確認 | Kayo Yin and Jesse Read | (参考訳) 手話翻訳(SLT)は、まず手話認識(SLR)システムを使用して、ビデオから手話グルースを抽出する。
そして、翻訳システムは、手話光沢から話し言葉翻訳を生成する。
本稿では,PHOENIX-Weather 2014TデータセットのGloss-to-text と Video-to-text の変換に対して,STMC-Transformerを導入し,現状を5 BLEU以上改善する。
ASLG-PC12コーパスでは16BLEU以上の増加を認めた。
また,光沢を監督する現在の手法における問題点を実証する。
STMC-Transformerの動画・テキスト翻訳はGTグロス翻訳より優れています。
これは、gt用語翻訳がslt性能の上限として作用し、用語が手話の非効率的な表現であることを示す以前の主張と矛盾する。
今後のslt研究のために、認識と翻訳モデルのエンドツーエンドのトレーニングや、異なる手話アノテーションスキームの使用を提案する。 Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR) system to extract sign language glosses from videos. Then, a translation system generates spoken language translations from the sign language glosses. This paper focuses on the translation system and introduces the STMC-Transformer which improves on the current state-of-the-art by over 5 and 7 BLEU respectively on gloss-to-text and video-to-text translation of the PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an increase of over 16 BLEU. We also demonstrate the problem in current methods that rely on gloss supervision. The video-to-text translation of our STMC-Transformer outperforms translation of GT glosses. This contradicts previous claims that GT gloss translation acts as an upper bound for SLT performance and reveals that glosses are an inefficient representation of sign language. For future SLT research, we therefore suggest an end-to-end training of the recognition and translation models, or using a different sign language annotation scheme. | 翻訳日:2022-12-17 17:42:46 公開日:2020-11-03 |
# 潜在性不連続と反実生成を伴う単語埋め込みにおける性バイアスの中和 Neutralizing Gender Bias in Word Embedding with Latent Disentanglement and Counterfactual Generation ( http://arxiv.org/abs/2004.03133v2 ) ライセンス: Link先を確認 | Seungjae Shin, Kyungwoo Song, JoonHo Jang, Hyemi Kim, Weonyoung Joo, Il-Chul Moon | (参考訳) 近年の研究では、人為的なコーパスで訓練された単語埋め込みは、埋め込み空間において強い性別バイアスを持ち、これらのバイアスは下流の様々なタスクから差別的な結果をもたらすことが示されている。
従来の手法では,デバイアス化のための線形部分空間に単語の埋め込みを投影するのに対して,適応的な勾配反転層を持つシアム自動エンコーダ構造を持つ \textit{Latent Disentanglement} 法を導入する。
我々の構造は,単語の意味潜時情報と性別潜時情報を,非結合潜時次元に分離することを可能にする。
その後、単語の性別情報を変換するために「textit{Counterfactual Generation}」を導入し、原語と修正された埋め込みは、意味情報を失うことなく、幾何学的アライメント正則化後のジェンダーニュートラル化単語を埋め込むことができる。
種々の量的および定性的脱バイアス実験から, 単語埋め込みの脱バイアス法よりも優れた解バイアス法が得られた。
さらに,本手法では,NLP下流タスクにおける意味情報損失を最小限に抑えることで,デバイアス中の意味情報を保存する能力を示す。 Recent research demonstrates that word embeddings, trained on the human-generated corpus, have strong gender biases in embedding spaces, and these biases can result in the discriminative results from the various downstream tasks. Whereas the previous methods project word embeddings into a linear subspace for debiasing, we introduce a \textit{Latent Disentanglement} method with a siamese auto-encoder structure with an adapted gradient reversal layer. Our structure enables the separation of the semantic latent information and gender latent information of given word into the disjoint latent dimensions. Afterwards, we introduce a \textit{Counterfactual Generation} to convert the gender information of words, so the original and the modified embeddings can produce a gender-neutralized word embedding after geometric alignment regularization, without loss of semantic information. From the various quantitative and qualitative debiasing experiments, our method shows to be better than existing debiasing methods in debiasing word embeddings. In addition, Our method shows the ability to preserve semantic information during debiasing by minimizing the semantic information losses for extrinsic NLP downstream tasks. | 翻訳日:2022-12-15 22:37:00 公開日:2020-11-03 |
# 半空間のプライベートラーニング:構成の簡素化とサンプル複雑性の低減 Private Learning of Halfspaces: Simplifying the Construction and Reducing the Sample Complexity ( http://arxiv.org/abs/2004.07839v2 ) ライセンス: Link先を確認 | Haim Kaplan, Yishay Mansour, Uri Stemmer, Eliad Tsfadia | (参考訳) 有限格子上の半空間に対して微分プライベートな学習器を,サンプル複雑性が$\approx d^{2.5}\cdot 2^{\log^*|G|}$で$G$ in $\mathbb{R}^d$で示し, [Beimel et al., COLT 2019] の最先端の結果を$d^2$ factorで改善する。
私たちの学習者のためのビルディングブロックは、線形実現可能性問題を概ね解くための新しい微分プライベートアルゴリズムである:$Ax\geq b$という形の線形制約の可能なコレクションを与えられた場合、そのタスクは、ほとんどの制約を満たすソリューションをプライベートに識別することである。
我々のアルゴリズムは反復的であり、各反復は構築された解の次の座標を$x$で決定する。 We present a differentially private learner for halfspaces over a finite grid $G$ in $\mathbb{R}^d$ with sample complexity $\approx d^{2.5}\cdot 2^{\log^*|G|}$, which improves the state-of-the-art result of [Beimel et al., COLT 2019] by a $d^2$ factor. The building block for our learner is a new differentially private algorithm for approximately solving the linear feasibility problem: Given a feasible collection of $m$ linear constraints of the form $Ax\geq b$, the task is to privately identify a solution $x$ that satisfies most of the constraints. Our algorithm is iterative, where each iteration determines the next coordinate of the constructed solution $x$. | 翻訳日:2022-12-12 21:20:43 公開日:2020-11-03 |
# SIGN: スケーラブルなインセプショングラフニューラルネットワーク SIGN: Scalable Inception Graph Neural Networks ( http://arxiv.org/abs/2004.11198v3 ) ライセンス: Link先を確認 | Fabrizio Frasca, Emanuele Rossi, Davide Eynard, Ben Chamberlain, Michael Bronstein, Federico Monti | (参考訳) グラフ表現学習は、コンピュータグラフィックスや化学から高エネルギー物理学やソーシャルメディアまで、幅広い問題に適用されている。
グラフニューラルネットワークの人気は、学術と産業の両方において、FacebookやTwitterのような非常に大きなグラフにスケールする手法の開発において、関心を喚起している。
これらの手法の多くは、訓練時にノード隣人やサブグラフのサブセットを保持するサンプリング戦略によって計算コストが軽減される。
本稿では,効率のよい事前計算が可能な,異なる大きさのグラフ畳み込みフィルタを用いることで,グラフサンプリングの必要性を回避し,極めて高速なトレーニングと推論を可能にする,新しい効率的でスケーラブルなグラフディープラーニングアーキテクチャを提案する。
我々のアーキテクチャは、異なる局所グラフ演算子(例えば、モチーフによって誘導される隣接行列やパーソナライズされたページランク拡散行列)を、そのタスクに最適なように使用できる。
様々なオープンなベンチマークで広範な実験的評価を行い、我々のアプローチは他の最先端アーキテクチャと競合する一方で、トレーニングと推論時間の一部を必要としていることを示す。
さらに,1億1000万以上のノードと15億のエッジを持つ最大公開グラフデータセットであるogbn-papers100Mについて,最先端の結果を得た。 Graph representation learning has recently been applied to a broad spectrum of problems ranging from computer graphics and chemistry to high energy physics and social media. The popularity of graph neural networks has sparked interest, both in academia and in industry, in developing methods that scale to very large graphs such as Facebook or Twitter social networks. In most of these approaches, the computational cost is alleviated by a sampling strategy retaining a subset of node neighbors or subgraphs at training time. In this paper we propose a new, efficient and scalable graph deep learning architecture which sidesteps the need for graph sampling by using graph convolutional filters of different size that are amenable to efficient precomputation, allowing extremely fast training and inference. Our architecture allows using different local graph operators (e.g. motif-induced adjacency matrices or Personalized Page Rank diffusion matrix) to best suit the task at hand. We conduct extensive experimental evaluation on various open benchmarks and show that our approach is competitive with other state-of-the-art architectures, while requiring a fraction of the training and inference time. Moreover, we obtain state-of-the-art results on ogbn-papers100M, the largest public graph dataset, with over 110 million nodes and 1.5 billion edges. | 翻訳日:2022-12-10 09:11:48 公開日:2020-11-03 |
# 合理的抽出における簡潔性制御のための情報ボトルネックアプローチ An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction ( http://arxiv.org/abs/2005.00652v3 ) ライセンス: Link先を確認 | Bhargavi Paranjape, Mandar Joshi, John Thickstun, Hannaneh Hajishirzi, Luke Zettlemoyer | (参考訳) 複雑な言語理解モデルの決定は、入力を原文の関連する部分列に限定することで合理化することができる。
合理的さはタスクのパフォーマンスを著しく低下させることなく可能な限り簡潔にする必要があるが、このバランスを実際に達成することは困難である。
本稿では,IB(Information Bottleneck)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上でスパースな二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
ibを用いることで、マスクスパースレベルを直接制御できる学習目標を、事前調整可能なスパースを通じて導出する。
ERASERベンチマークタスクの実験は、タスク性能と人間の合理性との整合性の両方において、ノルム最小化技術よりも大きな向上を示した。
さらに, 半教師付き設定では, ゆるやかな量の金の合理性(トレーニング例の25%)が, 全入力を用いたモデルでギャップを閉じていることがわかった。 Decisions of complex language understanding models can be rationalized by limiting their inputs to a relevant subsequence of the original text. A rationale should be as concise as possible without significantly degrading task performance, but this balance can be difficult to achieve in practice. In this paper, we show that it is possible to better manage this trade-off by optimizing a bound on the Information Bottleneck (IB) objective. Our fully unsupervised approach jointly learns an explainer that predicts sparse binary masks over sentences, and an end-task predictor that considers only the extracted rationale. Using IB, we derive a learning objective that allows direct control of mask sparsity levels through a tunable sparse prior. Experiments on ERASER benchmark tasks demonstrate significant gains over norm-minimization techniques for both task performance and agreement with human rationales. Furthermore, we find that in the semi-supervised setting, a modest amount of gold rationales (25% of training examples) closes the gap with a model that uses the full input. | 翻訳日:2022-12-07 23:11:29 公開日:2020-11-03 |
# coaid:covid-19医療情報データセット CoAID: COVID-19 Healthcare Misinformation Dataset ( http://arxiv.org/abs/2006.00885v3 ) ライセンス: Link先を確認 | Limeng Cui, Dongwon Lee | (参考訳) 新型コロナウイルス(COVID-19)が世界中に急速に広まる中、残念ながら、新型コロナウイルス関連の誤報も生まれ、野火のように広がる。
このような誤報は、人々の混乱、社会の混乱、さらには健康問題に致命的な結果をもたらした。
このような誤った情報を理解、検出、緩和できるためには、深い知的な価値観だけでなく、社会的な影響も大きい。
そこで、研究者がcoaid(covid-19 healthcare misinformation dataset)をwebサイトやソーシャルプラットフォーム上での偽ニュースや、そのニュースに対するユーザのソーシャルな関与など、さまざまなcovid-19ヘルスケアの誤った情報を提示する。
CoAIDには4,251件のニュース、296,000件のユーザーエンゲージメント、新型コロナウイルスに関する926件のソーシャルプラットフォーム投稿、および地上の真実ラベルが含まれている。
データセットは、https://github.com/cuilimeng/coaidで利用可能である。 As the COVID-19 virus quickly spreads around the world, unfortunately, misinformation related to COVID-19 also gets created and spreads like wild fire. Such misinformation has caused confusion among people, disruptions in society, and even deadly consequences in health problems. To be able to understand, detect, and mitigate such COVID-19 misinformation, therefore, has not only deep intellectual values but also huge societal impacts. To help researchers combat COVID-19 health misinformation, therefore, we present CoAID (Covid-19 heAlthcare mIsinformation Dataset), with diverse COVID-19 healthcare misinformation, including fake news on websites and social platforms, along with users' social engagement about such news. CoAID includes 4,251 news, 296,000 related user engagements, 926 social platform posts about COVID-19, and ground truth labels. The dataset is available at: https://github.com/cuilimeng/CoAID. | 翻訳日:2022-11-30 09:34:44 公開日:2020-11-03 |
# Rhetoric, Logic, and Dialectic:自然言語処理における理論に基づく議論品質評価 Rhetoric, Logic, and Dialectic: Advancing Theory-based Argument Quality Assessment in Natural Language Processing ( http://arxiv.org/abs/2006.00843v2 ) ライセンス: Link先を確認 | Anne Lauscher, Lily Ng, Courtney Napoles, Joel Tetreault | (参考訳) AQ(Computer argument quality)の先行研究は主にAQを評価することに焦点を当てているが、研究者は著者が議論理論の個々の次元をターゲットにしたフィードバックの恩恵を受けることに同意する。
しかし、大規模理論に基づくコーパスと対応する計算モデルが欠落している。
このギャップを埋めるために、オンライン論証書の3つの分野を網羅した広範囲な分析を行い、GAQCorpusを提示する: 理論に基づくAQスコアを付した最初の大規模英語多分野(コミュニティQ&Aフォーラム、議論フォーラム、レビューフォーラム)コーパス。
次に,理論に基づく評価に対する最初の計算手法を提案する。
大規模 aq アノテーションの実現可能性を示し,次元間の関係を活用すれば性能が向上することを示すとともに,理論に基づく予測と実用的な aq 評価の相乗効果を検討する。 Though preceding work in computational argument quality (AQ) mostly focuses on assessing overall AQ, researchers agree that writers would benefit from feedback targeting individual dimensions of argumentation theory. However, a large-scale theory-based corpus and corresponding computational models are missing. We fill this gap by conducting an extensive analysis covering three diverse domains of online argumentative writing and presenting GAQCorpus: the first large-scale English multi-domain (community Q&A forums, debate forums, review forums) corpus annotated with theory-based AQ scores. We then propose the first computational approaches to theory-based assessment, which can serve as strong baselines for future work. We demonstrate the feasibility of large-scale AQ annotation, show that exploiting relations between dimensions yields performance improvements, and explore the synergies between theory-based prediction and practical AQ assessment. | 翻訳日:2022-11-26 07:08:35 公開日:2020-11-03 |
# 2層ニューラルネットワークを用いた記憶のためのネットワークサイズと重みサイズ Network size and weights size for memorization with two-layers neural networks ( http://arxiv.org/abs/2006.02855v2 ) ライセンス: Link先を確認 | S\'ebastien Bubeck and Ronen Eldan and Yin Tat Lee and Dan Mikulincer | (参考訳) 1988年、eric b. baumは閾値アクティベーション関数を持つ2層ニューラルネットワークが$\ulcorner n/d \urcorner$ニューロンのみを使用して$\mathbb{r}^d$の一般的な位置にある2つのラベルを完全に記憶できることを示した。
我々は、ReLUネットワークでは、ニューロンの4倍の数が任意の実ラベルに収まることを観察する。
さらに、誤差$\epsilon$までの近似記憶のために、神経接核は$o\left(\frac{n}{d} \cdot \log(1/\epsilon) \right)$ニューロンだけを記憶することもできる(データが十分に分散していると仮定する)。
しかしながら、これらの構造は、ニューロンの重みの規模が最適から遠く離れたネットワークを生じさせることを示す。
対照的に、ReLUネットワークのための新しいトレーニング手順を提案する。これは、(実際の)ニューロンの再結合とは対照的に、$O\left(\frac{n}{d} \cdot \frac{\log(1/\epsilon)}{\epsilon}\right)$ニューロン、および重みのほぼ最適サイズの両方で、近似記憶を示す。 In 1988, Eric B. Baum showed that two-layers neural networks with threshold activation function can perfectly memorize the binary labels of $n$ points in general position in $\mathbb{R}^d$ using only $\ulcorner n/d \urcorner$ neurons. We observe that with ReLU networks, using four times as many neurons one can fit arbitrary real labels. Moreover, for approximate memorization up to error $\epsilon$, the neural tangent kernel can also memorize with only $O\left(\frac{n}{d} \cdot \log(1/\epsilon) \right)$ neurons (assuming that the data is well dispersed too). We show however that these constructions give rise to networks where the magnitude of the neurons' weights are far from optimal. In contrast we propose a new training procedure for ReLU networks, based on complex (as opposed to real) recombination of the neurons, for which we show approximate memorization with both $O\left(\frac{n}{d} \cdot \frac{\log(1/\epsilon)}{\epsilon}\right)$ neurons, as well as nearly-optimal size of the weights. | 翻訳日:2022-11-25 09:24:53 公開日:2020-11-03 |
# オフライン強化学習における自然確率政策の効率的評価 Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning ( http://arxiv.org/abs/2006.03886v2 ) ライセンス: Link先を確認 | Nathan Kallus, Masatoshi Uehara | (参考訳) 行動政策からの逸脱の観点から定義される自然確率政策の効率的なオフポリシー評価について検討する。
これは、ほとんどの仕事が明示的な政策の評価を検討するオフ・ポリシー評価に関する文献から逸脱している。
重要なことに、自然な確率的ポリシによるオフライン強化学習は、重複の弱い問題を緩和し、現在のプラクティスに基づいて構築されたポリシーを導き、実践におけるポリシーの実装性を改善するのに役立つ。
既定評価政策の古典的事例と比較して、自然確率的政策を評価する際に、評価方針自体が未知であるため、最も達成可能な推定誤差を測定する効率境界を膨らませる。
本稿では,2つの主要な自然確率政策(傾き政策と修正された治療方針)の効率限界を導出する。
そこで本研究では, 効率境界を実現する効率的な非パラメトリック推定器を提案する。
これらはまた、(部分的な)二重ロバスト性特性を享受する。 We study the efficient off-policy evaluation of natural stochastic policies, which are defined in terms of deviations from the behavior policy. This is a departure from the literature on off-policy evaluation where most work consider the evaluation of explicitly specified policies. Crucially, offline reinforcement learning with natural stochastic policies can help alleviate issues of weak overlap, lead to policies that build upon current practice, and improve policies' implementability in practice. Compared with the classic case of a pre-specified evaluation policy, when evaluating natural stochastic policies, the efficiency bound, which measures the best-achievable estimation error, is inflated since the evaluation policy itself is unknown. In this paper, we derive the efficiency bounds of two major types of natural stochastic policies: tilting policies and modified treatment policies. We then propose efficient nonparametric estimators that attain the efficiency bounds under very lax conditions. These also enjoy a (partial) double robustness property. | 翻訳日:2022-11-24 21:22:53 公開日:2020-11-03 |
# 入力非依存的注意重みは十分に表現できる:自己教師付きオーディオトランスフォーマにおける注意に関する研究 Input-independent Attention Weights Are Expressive Enough: A Study of Attention in Self-supervised Audio Transformers ( http://arxiv.org/abs/2006.05174v2 ) ライセンス: Link先を確認 | Tsung-Han Wu, Chun-Chen Hsieh, Yen-Hao Chen, Po-Han Chi, Hung-yi Lee | (参考訳) 本稿では,音声表現学習のためのトランスフォーマモデルの計算複雑性を低減するための解を求める。
10個のアテンションアルゴリズムを評価し,これらのアテンションアルゴリズムを自己教師方式で事前学習し,音素分類や話者分類などの下流タスクにおける特徴抽出器として扱う。
t-sne、pca、およびいくつかの観察により、自己教師付きオーディオトランスフォーマの注意重みは4つの一般的なケースに分類できる。
これらのケースといくつかの分析に基づいて、モデルを初期化するために特定の注意重みを使うことができる。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。 In this paper, we seek solutions for reducing the computation complexity of transformer-based models for speech representation learning. We evaluate 10 attention algorithms; then, we pre-train the transformer-based model with those attention algorithms in a self-supervised fashion and treat them as feature extractors on downstream tasks, including phoneme classification and speaker classification. With the assistance of t-SNE, PCA and some observation, the attention weights in self-supervised audio transformers can be categorized into four general cases. Based on these cases and some analyses, we are able to use a specific set of attention weights to initialize the model. Our approach shows comparable performance to the typical self-attention yet requires 20% less time in both training and inference. | 翻訳日:2022-11-23 15:21:05 公開日:2020-11-03 |
# 過パラメータ線形回帰における最適重み付き$\ell_2$正則化について On the Optimal Weighted $\ell_2$ Regularization in Overparameterized Linear Regression ( http://arxiv.org/abs/2006.05800v4 ) ライセンス: Link先を確認 | Denny Wu and Ji Xu | (参考訳) 線型モデル $\mathbf{y} = \mathbf{X} \mathbf{X} \mathbf{\beta}_\star + \mathbf{\epsilon}$ with $\mathbf{X}\in \mathbb{R}^{n\times p}$ in the overparameterized regime $p>n$ を考える。
一般化された(重み付けされた)リッジ回帰で$\hat{\mathbf{\beta}}_\lambda = \left(\mathbf{x}^t\mathbf{x} + \lambda \mathbf{\sigma}_w\right)^\dagger \mathbf{x}^t\mathbf{y}$, ここで$\mathbf{\sigma}_w$ は重み行列である。
一般データ共分散 $\mathbf{\sigma}_x$ と非等方性 (anisotropic before on the true coefficients $\mathbb{e}\mathbf{\beta}_\star\mathbf{\beta}_\star^t = \mathbf{\sigma}_\beta$ のランダムな設計条件の下で、比例漸近極限 $p/n\rightarrow \gamma \in (1,\infty)$ における予測リスク$\mathbb{e}(y-\mathbf{x}^t\hat{\mathbf{\beta}}_\lambda)^2$ の正確な特性を与える。
私たちの一般的なセットアップは多くの興味深い発見につながります。
リッジパラメータ $\lambda$ の最適設定 $\lambda_{\rm opt}$ の符号を決定する正確な条件を概説し、過剰パラメータ化の暗黙の $\ell_2$ 正規化効果を確認する。
また、主成分回帰(PCR)の二重降下現象を$\mathbf{X}$と$\mathbf{\beta}_\star$の両方が異方性であるときに特徴付ける。
最後に、リッジレス(\lambda\to 0$)と最適正規化(\lambda = \lambda_{\rm opt}$)の両方に対して最適な重み付け行列 $\mathbf{\Sigma}_w$ を決定し、標準リッジ回帰とPCRよりも重み付けされた目的の利点を示す。 We consider the linear model $\mathbf{y} = \mathbf{X} \mathbf{\beta}_\star + \mathbf{\epsilon}$ with $\mathbf{X}\in \mathbb{R}^{n\times p}$ in the overparameterized regime $p>n$. We estimate $\mathbf{\beta}_\star$ via generalized (weighted) ridge regression: $\hat{\mathbf{\beta}}_\lambda = \left(\mathbf{X}^T\mathbf{X} + \lambda \mathbf{\Sigma}_w\right)^\dagger \mathbf{X}^T\mathbf{y}$, where $\mathbf{\Sigma}_w$ is the weighting matrix. Under a random design setting with general data covariance $\mathbf{\Sigma}_x$ and anisotropic prior on the true coefficients $\mathbb{E}\mathbf{\beta}_\star\mathbf{\beta}_\star^T = \mathbf{\Sigma}_\beta$, we provide an exact characterization of the prediction risk $\mathbb{E}(y-\mathbf{x}^T\hat{\mathbf{\beta}}_\lambda)^2$ in the proportional asymptotic limit $p/n\rightarrow \gamma \in (1,\infty)$. Our general setup leads to a number of interesting findings. We outline precise conditions that decide the sign of the optimal setting $\lambda_{\rm opt}$ for the ridge parameter $\lambda$ and confirm the implicit $\ell_2$ regularization effect of overparameterization, which theoretically justifies the surprising empirical observation that $\lambda_{\rm opt}$ can be negative in the overparameterized regime. We also characterize the double descent phenomenon for principal component regression (PCR) when both $\mathbf{X}$ and $\mathbf{\beta}_\star$ are anisotropic. Finally, we determine the optimal weighting matrix $\mathbf{\Sigma}_w$ for both the ridgeless ($\lambda\to 0$) and optimally regularized ($\lambda = \lambda_{\rm opt}$) case, and demonstrate the advantage of the weighted objective over standard ridge regression and PCR. | 翻訳日:2022-11-23 05:06:35 公開日:2020-11-03 |
# 初めて会った時: ロボットのランデブーのための視覚慣性人物のローカライズ When We First Met: Visual-Inertial Person Localization for Co-Robot Rendezvous ( http://arxiv.org/abs/2006.09959v2 ) ライセンス: Link先を確認 | Xi Sun, Xinshuo Weng and Kris Kitani | (参考訳) 対象者の3d慣性測定を付加したセンサモダリティによって、ロボットが対象者を視覚的にローカライズすることを目指している。
このような技術の必要性は、ロボットが初めて群衆の中の人と会うことや、前方の人物の外観を知らずに、自動運転車が群衆の中でライダーと再会しなければならないときに生じる。
人の慣性情報は、スマートフォンなどのウェアラブルデバイスで測定することができ、ランデブー中に自律システムと選択的に共有することができる。
本稿では,映像中の人物の動きをウェアラブル慣性計測装置(IMU)によって測定された動きと容易に一致させることができる視覚慣性特徴空間の学習法を提案する。
2つのモードの関節特徴空間への変換は、同一人物が生成した慣性運動特徴と映像運動特徴とを強制して関節特徴空間に近接させるコントラスト損失を用いて学習される。
このアプローチを検証するために、我々は6万以上の動画セグメントのデータセットとウェアラブルIMUデータを作成します。
提案手法は,IMUデータとビデオの5秒間のみを用いて,80.7%の精度で対象者を正確に位置決めできることを示す。 We aim to enable robots to visually localize a target person through the aid of an additional sensing modality -- the target person's 3D inertial measurements. The need for such technology may arise when a robot is to meet person in a crowd for the first time or when an autonomous vehicle must rendezvous with a rider amongst a crowd without knowing the appearance of the person in advance. A person's inertial information can be measured with a wearable device such as a smart-phone and can be shared selectively with an autonomous system during the rendezvous. We propose a method to learn a visual-inertial feature space in which the motion of a person in video can be easily matched to the motion measured by a wearable inertial measurement unit (IMU). The transformation of the two modalities into the joint feature space is learned through the use of a contrastive loss which forces inertial motion features and video motion features generated by the same person to lie close in the joint feature space. To validate our approach, we compose a dataset of over 60,000 video segments of moving people along with wearable IMU data. Our experiments show that our proposed method is able to accurately localize a target person with 80.7% accuracy using only 5 seconds of IMU data and video. | 翻訳日:2022-11-19 21:20:46 公開日:2020-11-03 |
# フィンガープリント言語生成によるテキストの匿名化 De-Anonymizing Text by Fingerprinting Language Generation ( http://arxiv.org/abs/2006.09615v2 ) ライセンス: Link先を確認 | Zhen Sun, Roei Schuster, Vitaly Shmatikov | (参考訳) 機械学習システムのコンポーネントは、セキュリティホットスポットとして認識されていません。
実行パスが秘密入力に依存しないことを保証するようなセキュアなコーディングプラクティスは、まだML開発者には採用されていない。
自動補完などのアプリケーションで使われるテキスト生成の一般的なアプローチである核サンプリングが,ユーザが入力したテキストを無意識に漏洩させることで,MLシステムのコードセキュリティに関する研究を開始する。
我々の主な成果は、多くの英単語列の核サイズがユニークな指紋であることである。
次に、攻撃者が適切なサイドチャネル(例えばキャッシュアクセス時間)を介してこれらの指紋を計測することで、型付きテキストを推論する方法を示し、この攻撃が匿名テキストの匿名化を助長し、防御について議論する方法について説明する。 Components of machine learning systems are not (yet) perceived as security hotspots. Secure coding practices, such as ensuring that no execution paths depend on confidential inputs, have not yet been adopted by ML developers. We initiate the study of code security of ML systems by investigating how nucleus sampling---a popular approach for generating text, used for applications such as auto-completion---unwittingly leaks texts typed by users. Our main result is that the series of nucleus sizes for many natural English word sequences is a unique fingerprint. We then show how an attacker can infer typed text by measuring these fingerprints via a suitable side channel (e.g., cache access times), explain how this attack could help de-anonymize anonymous texts, and discuss defenses. | 翻訳日:2022-11-19 20:09:16 公開日:2020-11-03 |
# SatImNet:衛星画像分類のための構造化・調和訓練データ SatImNet: Structured and Harmonised Training Data for Enhanced Satellite Imagery Classification ( http://arxiv.org/abs/2006.10623v2 ) ライセンス: Link先を確認 | Vasileios Syrris, Ondrej Pesek, Pierre Soille | (参考訳) ディープニューラルネットワークのような複雑なモデリングを伴う自動教師付き分類では、代表的トレーニングデータセットが利用可能である必要がある。
この目的のために使用できるデータセットは多数存在するが、それらは通常非常に異質であり、相互運用はできない。
この文脈では、現在の作品には2つの目的がある。
一 オープンソースのトレーニングデータ管理、統合、データ検索の手順を記述すること。
二 リモートセンシング画像分類のための各種ソーストレーニングデータの実用化を実証する。
前者に対しては、特定のルールに従って構造化および調和されたオープントレーニングデータの集合であるSatImNetを提案する。
後者のために、畳み込みニューラルネットワークに基づく2つのモデリングアプローチが設計され、衛星画像の分類とセグメンテーションを扱うように構成されている。 Automatic supervised classification with complex modelling such as deep neural networks requires the availability of representative training data sets. While there exists a plethora of data sets that can be used for this purpose, they are usually very heterogeneous and not interoperable. In this context, the present work has a twofold objective: i) to describe procedures of open-source training data management, integration, and data retrieval, and ii) to demonstrate the practical use of varying source training data for remote sensing image classification. For the former, we propose SatImNet, a collection of open training data, structured and harmonized according to specific rules. For the latter, two modelling approaches based on convolutional neural networks have been designed and configured to deal with satellite image classification and segmentation. | 翻訳日:2022-11-19 13:14:30 公開日:2020-11-03 |
# エッジネットワークのキャッシングに機械学習技術を適用する - 包括的調査 Applying Machine Learning Techniques for Caching in Edge Networks: A Comprehensive Survey ( http://arxiv.org/abs/2006.16864v4 ) ライセンス: Link先を確認 | Junaid Shuja, Kashif Bilal, Waleed Alasmary, Hassan Sinky, Eisa Alanazi | (参考訳) エッジネットワーキングは複雑な動的コンピューティングパラダイムであり、クラウドリソースをエンドユーザに近づけて応答性を改善し、バックホールトラフィックを減らすことを目的としている。
ユーザモビリティ、好み、コンテンツの人気は、エッジネットワークの主要な動的機能である。
コンテンツの時間的および社会的特徴、例えばビューの数やいいね!は、グローバルな視点からコンテンツの人気を推定するために利用される。
しかし、そのような推定は、特定の社会的・地理的特徴を持つエッジネットワークにマッピングするべきではない。
次世代のエッジネットワーク、すなわち5gおよび5g以降では、機械学習技術を使用して、ユーザの好みに基づくコンテンツ人気予測、類似したコンテンツ関心に基づくクラスタユーザ、キャッシュ配置と置換戦略の最適化、ネットワークの状態に関する制約と予測を提供することができる。
これらの機械学習の応用は、エッジネットワークの関連コンテンツを特定するのに役立つ。
本稿では,エッジネットワークにおけるネットワーク内キャッシュに対する機械学習手法の適用について検討する。
我々は最新の文献を調査し,包括的分類法を定式化する。
(a)機械学習技術(方法論、目的、特徴)
(b)キャッシング戦略(政治、位置、交換)及び
(c)エッジネットワーク(型とデリバリ戦略)。
分類学で同定されたパラメータに関して,最先端の文献の比較分析を行った。
さらに、最適なキャッシュ決定のための研究課題と今後の方向性、エッジネットワークにおける機械学習の適用について論じる。 Edge networking is a complex and dynamic computing paradigm that aims to push cloud resources closer to the end user improving responsiveness and reducing backhaul traffic. User mobility, preferences, and content popularity are the dominant dynamic features of edge networks. Temporal and social features of content, such as the number of views and likes are leveraged to estimate the popularity of content from a global perspective. However, such estimates should not be mapped to an edge network with particular social and geographic characteristics. In next generation edge networks, i.e., 5G and beyond 5G, machine learning techniques can be applied to predict content popularity based on user preferences, cluster users based on similar content interests, and optimize cache placement and replacement strategies provided a set of constraints and predictions about the state of the network. These applications of machine learning can help identify relevant content for an edge network. This article investigates the application of machine learning techniques for in-network caching in edge networks. We survey recent state-of-the-art literature and formulate a comprehensive taxonomy based on (a) machine learning technique (method, objective, and features), (b) caching strategy (policy, location, and replacement), and (c) edge network (type and delivery strategy). A comparative analysis of the state-of-the-art literature is presented with respect to the parameters identified in the taxonomy. Moreover, we debate research challenges and future directions for optimal caching decisions and the application of machine learning in edge networks. | 翻訳日:2022-11-18 12:41:45 公開日:2020-11-03 |
# 逆重み付き学習によるデモグラフィックのないフェアネス Fairness without Demographics through Adversarially Reweighted Learning ( http://arxiv.org/abs/2006.13114v3 ) ライセンス: Link先を確認 | Preethi Lahoti, Alex Beutel, Jilin Chen, Kang Lee, Flavien Prost, Nithum Thain, Xuezhi Wang, Ed H. Chi | (参考訳) 以前の機械学習(ML)フェアネスの文献の多くは、人種や性別などの保護された特徴がデータセットに存在し、フェアネスの懸念を軽減するためにそれらに依存すると仮定している。
しかしながら、実際にはプライバシや規制といった要因によって、保護された特徴の収集や、トレーニングや推論への使用が妨げられ、従来の公正研究の適用性が著しく制限されることが多い。
したがって、保護されたグループメンバーシップさえ知らなくても、どのようにMLモデルをトレーニングして公正性を高めることができるのか?
本研究は,Adversarially Reweighted Learning (ARL)を提案することでこの問題に対処する。
特に,非保護機能やタスクラベルはフェアネスの問題を特定する上で有用であり,フェアネスを改善するための対向的リウェイト手法の協調訓練に使用できると仮定する。
以上の結果から,<ARL}はRawlsian Max-Minフェアネスを向上し,複数のデータセットにおける最悪のケース保護グループに対するAUCの顕著な改善を実現し,最先端の代替手段よりも優れていた。 Much of the previous machine learning (ML) fairness literature assumes that protected features such as race and sex are present in the dataset, and relies upon them to mitigate fairness concerns. However, in practice factors like privacy and regulation often preclude the collection of protected features, or their use for training or inference, severely limiting the applicability of traditional fairness research. Therefore we ask: How can we train an ML model to improve fairness when we do not even know the protected group memberships? In this work we address this problem by proposing Adversarially Reweighted Learning (ARL). In particular, we hypothesize that non-protected features and task labels are valuable for identifying fairness issues, and can be used to co-train an adversarial reweighting approach for improving fairness. Our results show that {ARL} improves Rawlsian Max-Min fairness, with notable AUC improvements for worst-case protected groups in multiple datasets, outperforming state-of-the-art alternatives. | 翻訳日:2022-11-17 22:06:46 公開日:2020-11-03 |
# 公正なパフォーマンス指標の導出 Fair Performance Metric Elicitation ( http://arxiv.org/abs/2006.12732v3 ) ライセンス: Link先を確認 | Gaurush Hiranandani, Harikrishna Narasimhan, Oluwasanmi Koyejo | (参考訳) 公正なパフォーマンス指標は何ですか?
暗黙の選好を最も反映したパフォーマンス指標を選択するための原則的なフレームワークである、メトリクスの誘惑のレンズによる公正度メトリクスの選択を検討します。
メトリック・エリケーションを用いることで、実践者は、タスク、コンテキスト、人口に対して、パフォーマンスと公平性のメトリクスを調整できる。
具体的には,複数のセンシティブなグループを持つ複数クラス分類問題に対して,予測性能と公平性違反のトレードオフを選択することを含むグループフェア性能指標を抽出する新しい手法を提案する。
提案手法は, 相対的選好フィードバックのみを必要とし, 有限サンプルとフィードバックノイズの両方に対して頑健である。 What is a fair performance metric? We consider the choice of fairness metrics through the lens of metric elicitation -- a principled framework for selecting performance metrics that best reflect implicit preferences. The use of metric elicitation enables a practitioner to tune the performance and fairness metrics to the task, context, and population at hand. Specifically, we propose a novel strategy to elicit group-fair performance metrics for multiclass classification problems with multiple sensitive groups that also includes selecting the trade-off between predictive performance and fairness violation. The proposed elicitation strategy requires only relative preference feedback and is robust to both finite sample and feedback noise. | 翻訳日:2022-11-17 22:00:07 公開日:2020-11-03 |
# 欠測データを用いたビデオの歪み表現の学習 Learning Disentangled Representations of Video with Missing Data ( http://arxiv.org/abs/2006.13391v2 ) ライセンス: Link先を確認 | Armand Comas-Massagu\'e, Chi Zhang, Zlatan Feric, Octavia Camps, Rose Yu | (参考訳) ビデオシーケンスの表現を学習している間、データの欠落は重大な課題となる。
本稿では,データ欠落時に将来の映像フレームをインデュートし予測する深層生成モデルであるdisentangled imputed video autoencoder (dive)を提案する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
DIVEは、データが欠落している各オブジェクトの軌道を暗示する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
また,現実のモッシャレンジ歩行者データセットの比較を行い,より現実的な環境での手法の実用的価値を示す。
コードとデータはhttps://github.com/Rose-STL-Lab/DIVE.comで確認できます。 Missing data poses significant challenges while learning representations of video sequences. We present Disentangled Imputed Video autoEncoder (DIVE), a deep generative model that imputes and predicts future video frames in the presence of missing data. Specifically, DIVE introduces a missingness latent variable, disentangles the hidden video representations into static and dynamic appearance, pose, and missingness factors for each object. DIVE imputes each object's trajectory where data is missing. On a moving MNIST dataset with various missing scenarios, DIVE outperforms the state of the art baselines by a substantial margin. We also present comparisons for real-world MOTSChallenge pedestrian dataset, which demonstrates the practical value of our method in a more realistic setting. Our code and data can be found at https://github.com/Rose-STL-Lab/DIVE. | 翻訳日:2022-11-17 21:41:43 公開日:2020-11-03 |
# elmv: 有意な不足値を持つ電気的健康記録分析のためのアンサンブル学習手法 ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health Records with Significant Missing Values ( http://arxiv.org/abs/2006.14942v2 ) ライセンス: Link先を確認 | Lucas J. Liu, Hongwei Zhang, Jianzhong Di, Jin Chen | (参考訳) 現実の電子健康記録(EHR)データの多くは、多くの欠落した値を含んでいる。
不足している情報のかなりの部分を残すと、通常かなりのバイアスが発生し、無効な結論が導かれる。
一方、ほぼ完全なサブセットよりもはるかに少ない機械学習モデルのトレーニングは、モデル推論の信頼性と精度に大きな影響を与える可能性がある。
欠落したデータを有意義な値に置き換えようとするデータインプテーションアルゴリズムは、必然的に効果推定の変動性を増加させ、欠落を増加させ、仮説の検証には信頼できない。
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。このフレームワークは,従来のERHデータの複数のサブセットを,より低損失率で構築するための効果的なアプローチを導入するとともに,十分な不足値によるバイアスを軽減するために,アンサンブル学習専用のサポートセットを動員する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータに基づいて評価されている。
両方の実験において、ELMVは従来の欠落値計算法やアンサンブル学習モデルよりも明らかに優れている。 Many real-world Electronic Health Record (EHR) data contains a large proportion of missing values. Leaving substantial portion of missing information unaddressed usually causes significant bias, which leads to invalid conclusion to be drawn. On the other hand, training a machine learning model with a much smaller nearly-complete subset can drastically impact the reliability and accuracy of model inference. Data imputation algorithms that attempt to replace missing data with meaningful values inevitably increase the variability of effect estimates with increased missingness, making it unreliable for hypothesis validation. We propose a novel Ensemble-Learning for Missing Value (ELMV) framework, which introduces an effective approach to construct multiple subsets of the original EHR data with a much lower missing rate, as well as mobilizing a dedicated support set for the ensemble learning in the purpose of reducing the bias caused by substantial missing values. ELMV has been evaluated on a real-world healthcare data for critical feature identification as well as a batch of simulation data with different missing rates for outcome prediction. On both experiments, ELMV clearly outperforms conventional missing value imputation methods and ensemble learning models. | 翻訳日:2022-11-17 03:20:38 公開日:2020-11-03 |
# インターベンショナルデータからの識別可能な因果発見 Differentiable Causal Discovery from Interventional Data ( http://arxiv.org/abs/2007.01754v2 ) ライセンス: Link先を確認 | Philippe Brouillard, S\'ebastien Lachapelle, Alexandre Lacoste, Simon Lacoste-Julien, Alexandre Drouin | (参考訳) データから因果有向非巡回グラフを学習することは、解が必ずしも識別できない組合せ問題を解くことを伴う難しい課題である。
新しい作業ラインでは、この問題を連続的な制約付き最適化として再構成し、拡張ラグランジアン法によって解く。
しかし、この考え方に基づくほとんどの方法は介入データを使用しないため、識別可能性の問題を大幅に軽減することができる。
この研究は、介入データを活用できるニューラルネットワークに基づく理論的に根拠のある手法を提案することで、この方向の新しいステップを構成する。
フローの正規化のような表現力のあるニューラルアーキテクチャを活用し,継続的な制約付きフレームワークの柔軟性を示す。
このアプローチは,対象ノードが未知である可能性のある完全かつ不完全な介入を含む,さまざまな設定において,芸術の状況と好適に比較できることを示す。 Learning a causal directed acyclic graph from data is a challenging task that involves solving a combinatorial problem for which the solution is not always identifiable. A new line of work reformulates this problem as a continuous constrained optimization one, which is solved via the augmented Lagrangian method. However, most methods based on this idea do not make use of interventional data, which can significantly alleviate identifiability issues. This work constitutes a new step in this direction by proposing a theoretically-grounded method based on neural networks that can leverage interventional data. We illustrate the flexibility of the continuous-constrained framework by taking advantage of expressive neural architectures such as normalizing flows. We show that our approach compares favorably to the state of the art in a variety of settings, including perfect and imperfect interventions for which the targeted nodes may even be unknown. | 翻訳日:2022-11-14 04:44:59 公開日:2020-11-03 |
# AViDデータセット:海外の動画を匿名化 AViD Dataset: Anonymized Videos from Diverse Countries ( http://arxiv.org/abs/2007.05515v3 ) ライセンス: Link先を確認 | AJ Piergiovanni and Michael S. Ryoo | (参考訳) 我々は,アクション認識のための新しい公開ビデオデータセットであるavid(anonymized video from diverse countries)を紹介する。
既存の公開ビデオデータセットとは異なり、AViDはさまざまな国のアクションビデオのコレクションである。
その動機は、限られた国に役立てるのではなく、全員のための行動認識モデルのトレーニングと事前訓練に役立てるパブリックデータセットを作ることだ。
さらに、AViDビデオの顔のアイデンティティはすべて、プライバシーを保護するために適切に匿名化されている。
また、静的データセットであり、各ビデオはcreative commonsライセンスでライセンスされている。
既存のビデオデータセットのほとんどは統計的に偏りがあり、限られた国のアクションビデオのみをキャプチャする。
このようなバイアス付きデータセットでトレーニングされたモデルは、他国のアクションビデオに完全に移行していないことを実験的に説明し、AViDがそのような問題に対処していることを示す。
また、新しいAViDデータセットは、モデルの事前トレーニングに適したデータセットとして機能し、以前のデータセットよりも互換性のある、あるいは優れたパフォーマンスを実現しています。 We introduce a new public video dataset for action recognition: Anonymized Videos from Diverse countries (AViD). Unlike existing public video datasets, AViD is a collection of action videos from many different countries. The motivation is to create a public dataset that would benefit training and pretraining of action recognition models for everybody, rather than making it useful for limited countries. Further, all the face identities in the AViD videos are properly anonymized to protect their privacy. It also is a static dataset where each video is licensed with the creative commons license. We confirm that most of the existing video datasets are statistically biased to only capture action videos from a limited number of countries. We experimentally illustrate that models trained with such biased datasets do not transfer perfectly to action videos from the other countries, and show that AViD addresses such problem. We also confirm that the new AViD dataset could serve as a good dataset for pretraining the models, performing comparably or better than prior datasets. | 翻訳日:2022-11-11 22:18:42 公開日:2020-11-03 |
# The Devil is in Classification: a Simple Framework for Long-tail Object Detection and Instance Segmentation The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation ( http://arxiv.org/abs/2007.11978v5 ) ライセンス: Link先を確認 | Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, Jiashi Feng | (参考訳) 既存のオブジェクトインスタンスの検出とセグメンテーションモデルは、COCOのようなカテゴリごとのトレーニングサンプル数が同等であるかなりバランスのとれたベンチマークでのみうまく機能する。
彼らは通常ロングテールの現実的なデータセットのパフォーマンス低下に苦しむ傾向がある。
この研究は、そのようなオープンな課題を研究、解決することを目的としている。
具体的には,最近のロングテールLVISデータセットにおいて,最先端の2段階インスタンスセグメンテーションモデルMask R-CNNの性能低下を系統的に検討し,オブジェクト提案の不正確な分類が主な原因であることを明らかにした。
このような観察に基づいて,まず,インスタンス分割結果が実際に向上するロングテール分類性能を改善するための様々な手法を検討する。
次に,2レベルクラスの平衡サンプリング手法により,分類ヘッドバイアスをより効果的に緩和する簡単な校正フレームワークを提案する。
ベルやホイッスルがなければ、最近のLVISデータセットとサンプルCOCO-LTデータセットのテールクラスのインスタンスセグメンテーションのパフォーマンスが大幅に向上する。
本分析は,ロングテールインスタンス検出とセグメンテーション問題を解決するための有用な知見を提供するとともに,簡単な \emph{simcal} メソッドは単純だが強固なベースラインとして機能する。
この方法で、2019年のLVISチャレンジで優勝しました。
コードとモデルはhttps://github.com/twangnh/simcalで入手できる。 Most existing object instance detection and segmentation models only work well on fairly balanced benchmarks where per-category training sample numbers are comparable, such as COCO. They tend to suffer performance drop on realistic datasets that are usually long-tailed. This work aims to study and address such open challenges. Specifically, we systematically investigate performance drop of the state-of-the-art two-stage instance segmentation model Mask R-CNN on the recent long-tail LVIS dataset, and unveil that a major cause is the inaccurate classification of object proposals. Based on such an observation, we first consider various techniques for improving long-tail classification performance which indeed enhance instance segmentation results. We then propose a simple calibration framework to more effectively alleviate classification head bias with a bi-level class balanced sampling approach. Without bells and whistles, it significantly boosts the performance of instance segmentation for tail classes on the recent LVIS dataset and our sampled COCO-LT dataset. Our analysis provides useful insights for solving long-tail instance detection and segmentation problems, and the straightforward \emph{SimCal} method can serve as a simple but strong baseline. With the method we have won the 2019 LVIS challenge. Codes and models are available at https://github.com/twangnh/SimCal. | 翻訳日:2022-11-07 12:38:17 公開日:2020-11-03 |
# MLJ: 構成可能な機械学習のためのJuliaパッケージ MLJ: A Julia package for composable machine learning ( http://arxiv.org/abs/2007.12285v2 ) ライセンス: Link先を確認 | Anthony D. Blaom, Franz Kiraly, Thibaut Lienart, Yiannis Simillides, Diego Arenas, Sebastian J. Vollmer | (参考訳) MLJ(Machine Learing in Julia)は、Juliaや他の言語で書かれた機械学習モデルと対話するための共通インターフェースを提供するオープンソースソフトウェアパッケージである。
フレキシブルなモデル構成に焦点を当てたモデルの選択、チューニング、評価、構成、比較のためのツールとメタアルゴリズムを提供する。
この設計概要では、主要な多言語代替案に対するJuliaの明確なメリットとともに、フレームワークの主な新規性について詳述する。 MLJ (Machine Learing in Julia) is an open source software package providing a common interface for interacting with machine learning models written in Julia and other languages. It provides tools and meta-algorithms for selecting, tuning, evaluating, composing and comparing those models, with a focus on flexible model composition. In this design overview we detail chief novelties of the framework, together with the clear benefits of Julia over the dominant multi-language alternatives. | 翻訳日:2022-11-07 12:04:12 公開日:2020-11-03 |
# 階層的変化点検出のための多項サンプリング Multinomial Sampling for Hierarchical Change-Point Detection ( http://arxiv.org/abs/2007.12420v2 ) ライセンス: Link先を確認 | Lorena Romero-Medrano, Pablo Moreno-Mu\~noz and Antonio Art\'es-Rodr\'iguez | (参考訳) ベイズ的変化点検出は、潜在変数モデルとともに、高次元時系列上でセグメンテーションを行うことができる。
変化点が低次元多様体上にあると仮定し、離散潜在変数の部分集合を推論する。
このモデルでは、完全な推論は計算不可能であり、代わりに点推定に基づく擬似観測が用いられる。
しかし、もし推定が十分でなければ、変更点検出が影響を受ける。
この問題を回避するために,複雑性を安定に保ち,解析的に抽出しやすくしながら,検出率を向上し,遅延を低減する多項サンプリング手法を提案する。
実験では,ベースライン法に勝る結果を示し,人間の行動研究を指向した例を示す。 Bayesian change-point detection, together with latent variable models, allows to perform segmentation over high-dimensional time-series. We assume that change-points lie on a lower-dimensional manifold where we aim to infer subsets of discrete latent variables. For this model, full inference is computationally unfeasible and pseudo-observations based on point-estimates are used instead. However, if estimation is not certain enough, change-point detection gets affected. To circumvent this problem, we propose a multinomial sampling methodology that improves the detection rate and reduces the delay while keeping complexity stable and inference analytically tractable. Our experiments show results that outperform the baseline method and we also provide an example oriented to a human behavior study. | 翻訳日:2022-11-07 06:03:39 公開日:2020-11-03 |
# 単語埋め込みにおける文法的ジェンダーの符号化の検討 An exploration of the encoding of grammatical gender in word embeddings ( http://arxiv.org/abs/2008.01946v2 ) ライセンス: Link先を確認 | Hartger Veeman and Ali Basirat | (参考訳) 単語埋め込みとして知られる単語のベクトル表現は、言語学における新しい研究アプローチを生み出した。
これらの表現は、単語に関する様々な種類の情報を取り込むことができる。
名詞の文法的性別は、その形式的・意味的性質に基づく名詞の典型的な分類である。
単語埋め込みに基づく文法的ジェンダーの研究は、文法的ジェンダーがどのように決定されるかについての議論に洞察を与えることができる。
本研究では,名詞の文法的性別を決定するニューラル分類器の精度に応じて,単語埋め込みの異なるセットを比較する。
スウェーデン語、デンマーク語、オランダ語の埋め込みでは、文法的性別の符号化方法に重複があることが判明した。
組込み実験の結果, 組込みに文脈情報を加えることは, 分類器の性能に有害であることがわかった。
また,組込みの訓練コーパスから形態素合成的特徴を取り除くことで分類性能が劇的に低下し,情報の大部分は名詞と記事の関係にエンコードされていることが示された。 The vector representation of words, known as word embeddings, has opened a new research approach in linguistic studies. These representations can capture different types of information about words. The grammatical gender of nouns is a typical classification of nouns based on their formal and semantic properties. The study of grammatical gender based on word embeddings can give insight into discussions on how grammatical genders are determined. In this study, we compare different sets of word embeddings according to the accuracy of a neural classifier determining the grammatical gender of nouns. It is found that there is an overlap in how grammatical gender is encoded in Swedish, Danish, and Dutch embeddings. Our experimental results on the contextualized embeddings pointed out that adding more contextual information to embeddings is detrimental to the classifier's performance. We also observed that removing morpho-syntactic features such as articles from the training corpora of embeddings decreases the classification performance dramatically, indicating a large portion of the information is encoded in the relationship between nouns and articles. | 翻訳日:2022-11-02 18:12:40 公開日:2020-11-03 |
# 非並列学習データを用いた歌声変換のためのVAW-GAN VAW-GAN for Singing Voice Conversion with Non-parallel Training Data ( http://arxiv.org/abs/2008.03992v3 ) ライセンス: Link先を確認 | Junchen Lu, Kun Zhou, Berrak Sisman, Haizhou Li | (参考訳) 歌唱音声変換は、歌唱内容を変更することなく、歌唱音声をソースからターゲットに変換することを目的としている。
並列学習データは通常、歌唱音声変換システムの訓練に必要となるが、実際の応用では実用的ではない。
最近のエンコーダ・デコーダ構造、例えば変分オートエンコーディングのwaserstein generative adversarial network (vaw-gan)は、非並列トレーニングデータを通してマッピングを学ぶ効果的な方法を提供する。
本稿では,VAW-GANに基づく歌声変換フレームワークを提案する。
音声コンテンツからシンガーアイデンティティと歌唱韻律(f0輪郭)を分離するためにエンコーダを訓練する。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えない対象シンガーIDの出力スペクトル特徴を生成し、F0レンダリングを改善する。
実験の結果,提案フレームワークはベースラインフレームワークよりも優れた性能を実現することがわかった。 Singing voice conversion aims to convert singer's voice from source to target without changing singing content. Parallel training data is typically required for the training of singing voice conversion system, that is however not practical in real-life applications. Recent encoder-decoder structures, such as variational autoencoding Wasserstein generative adversarial network (VAW-GAN), provide an effective way to learn a mapping through non-parallel training data. In this paper, we propose a singing voice conversion framework that is based on VAW-GAN. We train an encoder to disentangle singer identity and singing prosody (F0 contour) from phonetic content. By conditioning on singer identity and F0, the decoder generates output spectral features with unseen target singer identity, and improves the F0 rendering. Experimental results show that the proposed framework achieves better performance than the baseline frameworks. | 翻訳日:2022-10-31 23:23:16 公開日:2020-11-03 |
# CycleGANを用いた言語間音声変換のためのスペクトルと韻律変換 Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with CycleGAN ( http://arxiv.org/abs/2008.04562v3 ) ライセンス: Link先を確認 | Zongyang Du, Kun Zhou, Berrak Sisman, Haizhou Li | (参考訳) 言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声に変化させることを目的としている。
2つの異なる言語の非並列学習データに依存しているため、単言語音声変換よりも難しい。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
しかし、重要な韻律的因子として、f0 は本質的に階層的であるため、変換に線形法を用いるだけでは不十分である。
連続ウェーブレット変換(CWT)のF0モデリングへの応用を提案する。
CWTは、信号を異なる時間スケールに分解し、異なる時間解像度で韻律を説明する方法を提供する。
また、2つのCycleGANパイプラインをそれぞれスペクトルと韻律マッピングのために訓練することを提案する。
このようにして、2つの言語の並列データやアライメント技術の必要性をなくします。
実験の結果,提案するSpectrum-Prosody-CycleGANフレームワークは主観評価においてSpectrum-CycleGANベースラインよりも優れていた。
我々の知る限り、これは言語間音声変換における最初の韻律の研究である。 Cross-lingual voice conversion aims to change source speaker's voice to sound like that of target speaker, when source and target speakers speak different languages. It relies on non-parallel training data from two different languages, hence, is more challenging than mono-lingual voice conversion. Previous studies on cross-lingual voice conversion mainly focus on spectral conversion with a linear transformation for F0 transfer. However, as an important prosodic factor, F0 is inherently hierarchical, thus it is insufficient to just use a linear method for conversion. We propose the use of continuous wavelet transform (CWT) decomposition for F0 modeling. CWT provides a way to decompose a signal into different temporal scales that explain prosody in different time resolutions. We also propose to train two CycleGAN pipelines for spectrum and prosody mapping respectively. In this way, we eliminate the need for parallel data of any two languages and any alignment techniques. Experimental results show that our proposed Spectrum-Prosody-CycleGAN framework outperforms the Spectrum-CycleGAN baseline in subjective evaluation. To our best knowledge, this is the first study of prosody in cross-lingual voice conversion. | 翻訳日:2022-10-31 12:12:43 公開日:2020-11-03 |
# フェイスマスクは音声技術にバイアスをもたらすか?
発話習熟度自動スコアリングの事例 Do face masks introduce bias in speech technologies? The case of automated scoring of speaking proficiency ( http://arxiv.org/abs/2008.07520v2 ) ライセンス: Link先を確認 | Anastassia Loukina, Keelan Evanini, Matthew Mulholland, Ian Blood, and Klaus Zechner | (参考訳) 新型コロナウイルスのパンデミックにより、世界中のマスクの使用が劇的に増加した。
フェイスカバーは、信号の音響特性と音声パターンの両方に影響を与え、仮面を被った人が音声処理技術を使用しようとすると意図しない効果を発揮する。
本稿では,英語習熟度の自動評価におけるマスク着用の影響について検討する。
我々は,テスト実施中にフェイスマスクを装着するテストテイカーが要求される大規模音声テストのデータセットを用いて,マスク要件が設定される前に同じテストを受けたテストテイカーの一致した制御サンプルと比較した。
この2つのサンプルは様々な音響的尺度で異なり、また、音声のパターンが小さいが有意な違いを示す。
しかし、これらの違いは、英語の習熟度における人的、あるいは自動的なスコアの違いにつながらない。
バイアス尺度では,両群間に有意差は認められなかった。 The COVID-19 pandemic has led to a dramatic increase in the use of face masks worldwide. Face coverings can affect both acoustic properties of the signal as well as speech patterns and have unintended effects if the person wearing the mask attempts to use speech processing technologies. In this paper we explore the impact of wearing face masks on the automated assessment of English language proficiency. We use a dataset from a large-scale speaking test for which test-takers were required to wear face masks during the test administration, and we compare it to a matched control sample of test-takers who took the same test before the mask requirements were put in place. We find that the two samples differ across a range of acoustic measures and also show a small but significant difference in speech patterns. However, these differences do not lead to differences in human or automated scores of English language proficiency. Several measures of bias showed no differences in scores between the two groups. | 翻訳日:2022-10-28 04:08:39 公開日:2020-11-03 |
# 自己着脱拡大畳み込みによる視線推定について On estimating gaze by self-attention augmented convolutions ( http://arxiv.org/abs/2008.11055v2 ) ライセンス: Link先を確認 | Gabriel Lefundes, Luciano Oliveira | (参考訳) 3次元視線の推定は、対話システム、専門の人間-コンピュータインタフェース、行動研究など、複数の分野に非常に関係がある。
近年,深層学習により外観に基づく視線推定の精度が向上しているが,ネットワークアーキテクチャの改善の余地は依然として残っている。
そこで本論文では,より浅いネットワークの学習における学習特徴の質を向上させるために,自己着脱強化畳み込みに基づく新しいネットワークアーキテクチャを提案する。
セルフアテンション機構は、遠方の領域間の依存関係をフルフェイスイメージで学習することで、より深いアーキテクチャを上回ることができる、という根拠がある。
このメカニズムは、視線回帰の前に顔と目画像から派生した、より良く、より空間的に認識された特徴表現を生成することもできる。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
実験の結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差は2.38%減少し,EyeDiapデータセットの2位となった。
両データセットで同時に高い精度を達成したのは,提案フレームワークのみであることは注目に値する。 Estimation of 3D gaze is highly relevant to multiple fields, including but not limited to interactive systems, specialized human-computer interfaces, and behavioral research. Although recently deep learning methods have boosted the accuracy of appearance-based gaze estimation, there is still room for improvement in the network architectures for this particular task. Therefore we propose here a novel network architecture grounded on self-attention augmented convolutions to improve the quality of the learned features during the training of a shallower residual network. The rationale is that self-attention mechanism can help outperform deeper architectures by learning dependencies between distant regions in full-face images. This mechanism can also create better and more spatially-aware feature representations derived from the face and eye images before gaze regression. We dubbed our framework ARes-gaze, which explores our Attention-augmented ResNet (ARes-14) as twin convolutional backbones. In our experiments, results showed a decrease of the average angular error by 2.38% when compared to state-of-the-art methods on the MPIIFaceGaze data set, and a second-place on the EyeDiap data set. It is noteworthy that our proposed framework was the only one to reach high accuracy simultaneously on both data sets. | 翻訳日:2022-10-25 04:00:01 公開日:2020-11-03 |
# 損失変化率バランスを考慮したWGAN更新戦略の高速化 Accelerated WGAN update strategy with loss change rate balancing ( http://arxiv.org/abs/2008.12463v2 ) ライセンス: Link先を確認 | Xu Ouyang, Gady Agam | (参考訳) generative adversarial networks (gans) における判別器の最適化は、内部トレーニングループの完了を計算的に禁止し、有限データセットでは過剰に適合する。
これに対処するために、一般的な更新戦略は、判別器dのk最適化ステップとジェネレータgの1つの最適化ステップとを交互に行うことである。
本稿では,この更新戦略が精度と収束速度において最適ではないことを示すとともに,WGAN損失(WGAN-GP,Deblur GAN,Super- resolution GAN)を用いたWasserstein GAN(WGAN)や他のGANの更新戦略を提案する。
提案する更新戦略は,gとdの損失変化比比較に基づいており,提案手法が収束速度と精度の両方を改善することを実証する。 Optimizing the discriminator in Generative Adversarial Networks (GANs) to completion in the inner training loop is computationally prohibitive, and on finite datasets would result in overfitting. To address this, a common update strategy is to alternate between k optimization steps for the discriminator D and one optimization step for the generator G. This strategy is repeated in various GAN algorithms where k is selected empirically. In this paper, we show that this update strategy is not optimal in terms of accuracy and convergence speed, and propose a new update strategy for Wasserstein GANs (WGAN) and other GANs using the WGAN loss(e.g. WGAN-GP, Deblur GAN, and Super-resolution GAN). The proposed update strategy is based on a loss change ratio comparison of G and D. We demonstrate that the proposed strategy improves both convergence speed and accuracy. | 翻訳日:2022-10-24 01:56:06 公開日:2020-11-03 |
# BERT-QE: ドキュメントの再ランク付けのためのコンテキスト化クエリ拡張 BERT-QE: Contextualized Query Expansion for Document Re-ranking ( http://arxiv.org/abs/2009.07258v2 ) ライセンス: Link先を確認 | Zhi Zheng, Kai Hui, Ben He, Xianpei Han, Le Sun, Andrew Yates | (参考訳) クエリ拡張は、クエリとドキュメントで使用される言語間のミスマッチを軽減することを目的としている。
しかし,クエリ拡張手法では,クエリ拡張時に非関連情報の導入に悩まされることがある。
文書検索タスクにbertのようなコンテキスト化モデルを適用する最近の進歩に触発されたこのギャップを埋めるため,本稿では,bertモデルの強みを利用して拡張のための関連する文書チャンクを選択する新しいクエリ拡張モデルを提案する。
標準のTREC Robust04およびGOV2テストコレクションの評価において,提案したBERT-QEモデルはBERT-Largeモデルよりも有意に優れていた。 Query expansion aims to mitigate the mismatch between the language used in a query and in a document. However, query expansion methods can suffer from introducing non-relevant information when expanding the query. To bridge this gap, inspired by recent advances in applying contextualized models like BERT to the document retrieval task, this paper proposes a novel query expansion model that leverages the strength of the BERT model to select relevant document chunks for expansion. In evaluation on the standard TREC Robust04 and GOV2 test collections, the proposed BERT-QE model significantly outperforms BERT-Large models. | 翻訳日:2022-10-18 06:34:27 公開日:2020-11-03 |
# 不変伝搬による教師なし表現学習 Unsupervised Representation Learning by InvariancePropagation ( http://arxiv.org/abs/2010.11694v2 ) ライセンス: Link先を確認 | Feng Wang, Huaping Liu, Di Guo, Fuchun Sun | (参考訳) コントラスト学習に基づく教師なし学習手法が注目され,有望な結果を得た。
その多くは、同じインスタンスの異なるビューによって提供されるインスタンスレベルのバリエーションに不変な表現を学ぶことを目的としている。
本稿では,同じカテゴリの異なるインスタンスから提供されるカテゴリーレベルの変分に不変な学習表現に焦点をあてる不変分散伝搬を提案する。
提案手法は,同じ高密度領域に属する意味的に一貫したサンプルを表現空間で再帰的に発見する。
我々は,アンカーサンプルとハード陽性サンプルとの一致度を最大化することに集中するハードサンプリング戦略を示し,より抽象的不変性を捉えるためにクラス内変異をより多く提供する。
その結果、ResNet-50をバックボーンとし、画像ネットの線形分類で71.3%の精度、わずか1%のラベルで78.2%の精度で微調整を行い、過去の結果を上回った。
また,places205とpascal vocの線形分類や,小規模データセットでの転送学習など,下流タスクにおける最先端のパフォーマンスを実現する。 Unsupervised learning methods based on contrastive learning have drawn increasing attention and achieved promising results. Most of them aim to learn representations invariant to instance-level variations, which are provided by different views of the same instance. In this paper, we propose Invariance Propagation to focus on learning representations invariant to category-level variations, which are provided by different instances from the same category. Our method recursively discovers semantically consistent samples residing in the same high-density regions in representation space. We demonstrate a hard sampling strategy to concentrate on maximizing the agreement between the anchor sample and its hard positive samples, which provide more intra-class variations to help capture more abstract invariance. As a result, with a ResNet-50 as the backbone, our method achieves 71.3% top-1 accuracy on ImageNet linear classification and 78.2% top-5 accuracy fine-tuning on only 1% labels, surpassing previous results. We also achieve state-of-the-art performance on other downstream tasks, including linear classification on Places205 and Pascal VOC, and transfer learning on small scale datasets. | 翻訳日:2022-10-09 22:37:01 公開日:2020-11-03 |
# アスペクト指向細粒度意見抽出のためのグリッドタグ付け手法 Grid Tagging Scheme for Aspect-oriented Fine-grained Opinion Extraction ( http://arxiv.org/abs/2010.04640v2 ) ライセンス: Link先を確認 | Zhen Wu, Chengcan Ying, Fei Zhao, Zhifang Fan, Xinyu Dai, Rui Xia | (参考訳) アスペクト指向の微粒なオピニオン抽出(AFOE)は、意見対の形でアスペクト項と意見項をレビューから抽出することや、意見三重項を形成するためにアスペクト項の感情極性を抽出することを目的としている。
いくつかの意見要因を含むため、完全なAFOEタスクは通常、複数のサブタスクに分割され、パイプラインで達成される。
しかし、パイプラインアプローチは、現実のシナリオではエラーの伝播と不便に苦しむ。
そこで本研究では,AFOEタスクを1つの統一グリッドタグタスクのみでエンドツーエンドに処理するための新しいタグ付け方式であるGrid Tagging Scheme(GTS)を提案する。
さらに,より正確な抽出のために,異なる意見因子間の相互適応を利用するために,gts上で効果的な推論戦略を設計する。
CNN, BiLSTM, BERTの3つの異なるGTSモデルを実装し, アスペクト指向の意見対抽出および意見三重項抽出データセットの実験を行った。
実験結果から, GTSモデルは高いベースラインを著しく上回り, 最先端の性能を達成することが示唆された。 Aspect-oriented Fine-grained Opinion Extraction (AFOE) aims at extracting aspect terms and opinion terms from review in the form of opinion pairs or additionally extracting sentiment polarity of aspect term to form opinion triplet. Because of containing several opinion factors, the complete AFOE task is usually divided into multiple subtasks and achieved in the pipeline. However, pipeline approaches easily suffer from error propagation and inconvenience in real-world scenarios. To this end, we propose a novel tagging scheme, Grid Tagging Scheme (GTS), to address the AFOE task in an end-to-end fashion only with one unified grid tagging task. Additionally, we design an effective inference strategy on GTS to exploit mutual indication between different opinion factors for more accurate extractions. To validate the feasibility and compatibility of GTS, we implement three different GTS models respectively based on CNN, BiLSTM, and BERT, and conduct experiments on the aspect-oriented opinion pair extraction and opinion triplet extraction datasets. Extensive experimental results indicate that GTS models outperform strong baselines significantly and achieve state-of-the-art performance. | 翻訳日:2022-10-09 05:32:13 公開日:2020-11-03 |
# ディープラーニングアルゴリズムのためのテキストの特徴抽出:フェイクニュース検出への応用 Feature Extraction of Text for Deep Learning Algorithms: Application on Fake News Detection ( http://arxiv.org/abs/2010.05496v2 ) ライセンス: Link先を確認 | HyeonJun Kim | (参考訳) 特徴抽出は、機械学習とディープラーニングの重要なプロセスであり、このプロセスはアルゴリズムをより効率的に、正確にする。
偽ニュース検出などの偽ニュース検出に用いられる自然言語処理では、統計的側面における特徴抽出方法がいくつか導入されている(例えばn-gram)。
本研究は, 疑似ニュースや信頼に値するニュースを高精度(85.5%)で分類するために, 学習アルゴリズムとニュースの原文のアルファベット頻度をアルファベットの順序に関する情報なしで利用できることを実証する。
この前処理方式は、データを顕著にコンパクトにするが、分類器に必要な特徴も含んでいるため、アルファベットの周波数は、原文の複雑な文脈や意味を理解するのに有用な特徴を持っているようである。 Feature extraction is an important process of machine learning and deep learning, as the process make algorithms function more efficiently, and also accurate. In natural language processing used in deception detection such as fake news detection, several ways of feature extraction in statistical aspect had been introduced (e.g. N-gram). In this research, it will be shown that by using deep learning algorithms and alphabet frequencies of the original text of a news without any information about the sequence of the alphabet can actually be used to classify fake news and trustworthy ones in high accuracy (85\%). As this pre-processing method makes the data notably compact but also include the feature that is needed for the classifier, it seems that alphabet frequencies contains some useful features for understanding complex context or meaning of the original text. | 翻訳日:2022-10-08 05:48:02 公開日:2020-11-03 |
# 私のチームは続けます: チームインタラクションを通じて、ハイ・バイラビリティ・チームとロー・バイラビリティ・チームを区別する My Team Will Go On: Differentiating High and Low Viability Teams through Team Interaction ( http://arxiv.org/abs/2010.07292v2 ) ライセンス: Link先を確認 | Hancheng Cao, Vivian Yang, Victor Chen, Yu Jin Lee, Lydia Stone, N'godjigui Junior Diarrassouba, Mark E. Whiting, Michael S. Bernstein | (参考訳) チームの生存性 - 持続性と将来の成功のためのチームの能力 - を理解することは、効果的なチームを構築する上で不可欠である。
本研究では,組織行動文献から得られた特徴を集約し,オンラインチームの10分間の会話669のデータセット上で実行可能性分類モデルを学習する。
分類器を訓練して、最上位(最も実行可能なチーム)、50パーセント(中央値の分割)、ボトム・デシアル(least viable teams)のチームを特定し、それらの実行可能性レベルごとにチームの属性を特徴付けます。
ラッソ回帰モデルは .74--.92 の精度を達成している。
auc roc はviability scoreの分類のしきい値が異なる。
これらのモデルから,「ボタン」や「例外」などの排他的言語の使用,および第2の人称代名詞の使用を,最も有効なチームを検出する最も予測可能な特徴として認識し,他者のアイデアへの積極的な関与が,実行可能なチームの重要なシグナルであることを示唆する。
チームインタラクションの可能性を予測するためには、わずか70秒で10分間の議論のごく一部しか必要ありません。
この作業は、チームが協力しながら、自分の生存性をリアルタイムで評価し、追跡し、視覚化する機会を示唆する。 Understanding team viability -- a team's capacity for sustained and future success -- is essential for building effective teams. In this study, we aggregate features drawn from the organizational behavior literature to train a viability classification model over a dataset of 669 10-minute text conversations of online teams. We train classifiers to identify teams at the top decile (most viable teams), 50th percentile (above a median split), and bottom decile (least viable teams), then characterize the attributes of teams at each of these viability levels. We find that a lasso regression model achieves an accuracy of .74--.92 AUC ROC under different thresholds of classifying viability scores. From these models, we identify the use of exclusive language such as `but' and `except', and the use of second person pronouns, as the most predictive features for detecting the most viable teams, suggesting that active engagement with others' ideas is a crucial signal of a viable team. Only a small fraction of the 10-minute discussion, as little as 70 seconds, is required for predicting the viability of team interaction. This work suggests opportunities for teams to assess, track, and visualize their own viability in real time as they collaborate. | 翻訳日:2022-10-07 13:56:11 公開日:2020-11-03 |
# RONELD: アクティブレーン検出のためのロバストニューラルネットワーク出力向上 RONELD: Robust Neural Network Output Enhancement for Active Lane Detection ( http://arxiv.org/abs/2010.09548v2 ) ライセンス: Link先を確認 | Zhe Ming Chng, Joseph Mun Hung Lew, Jimmy Addison Lee | (参考訳) 正確な車線検出は、自動運転車、特に現在走行中の1つの道路空間を分離するアクティブ車線において、ナビゲーションに不可欠である。
最近の最先端レーン検出アルゴリズムでは、畳み込みニューラルネットワーク(cnns)を使用して、tusimpleやculaneなどの一般的なベンチマークでディープラーニングモデルをトレーニングしている。
これらのモデルはそれぞれ、同じデータセットから得られたトレーニングとテストのインプットで特にうまく機能するが、パフォーマンスは異なる環境の目に見えないデータセットで著しく低下する。
本稿では,学習確率マップの出力からアクティブレーンを特定し,追跡し,最適化するための,アクティブレーン検出(RONELD)のためのリアルタイムロバストニューラルネットワーク出力向上手法を提案する。
まず, 確率マップ出力からレーン点を適応的に抽出し, その後, 直線車線の重み付き最小二乗線形回帰を用いて, 実画像におけるエッジマップの断片化によるレーンエッジの破損を解消する。
最後に,先行フレームを追跡することによって,真のアクティブレーンを仮定する。
実験結果は、データ横断検証テストにおいてroneldを用いた最大2倍の精度向上を示す。 Accurate lane detection is critical for navigation in autonomous vehicles, particularly the active lane which demarcates the single road space that the vehicle is currently traveling on. Recent state-of-the-art lane detection algorithms utilize convolutional neural networks (CNNs) to train deep learning models on popular benchmarks such as TuSimple and CULane. While each of these models works particularly well on train and test inputs obtained from the same dataset, the performance drops significantly on unseen datasets of different environments. In this paper, we present a real-time robust neural network output enhancement for active lane detection (RONELD) method to identify, track, and optimize active lanes from deep learning probability map outputs. We first adaptively extract lane points from the probability map outputs, followed by detecting curved and straight lanes before using weighted least squares linear regression on straight lanes to fix broken lane edges resulting from fragmentation of edge maps in real images. Lastly, we hypothesize true active lanes through tracking preceding frames. Experimental results demonstrate an up to two-fold increase in accuracy using RONELD on cross-dataset validation tests. | 翻訳日:2022-10-05 22:17:47 公開日:2020-11-03 |
# ノーマティブな証明はどこにあるのか?
MLフェアネス研究における想定と矛盾 Where Is the Normative Proof? Assumptions and Contradictions in ML Fairness Research ( http://arxiv.org/abs/2010.10407v3 ) ライセンス: Link先を確認 | A. Feder Cooper | (参考訳) Across machine learning (ML) sub-disciplines 研究者は、証明記述を容易にする数学的仮定を作成する。
このような仮定はアルゴリズムの振る舞いに関する数学的保証を提供するのに必要だが、アルゴリズムの適用性を異なる問題設定に制限する必要もある。
このプラクティスは、事実、明らかであり、ml研究で受け入れられています。
しかし、同様の注意は、この仕事の基礎となる規範的な仮定には払われていない。
このような仮定は、特にフェアネスのような明らかな社会的影響を持つMLの領域において、等しく重要であると私は主張する。
これは、数学的仮定が適用性を制限する方法と同様に、規範的仮定が特定の問題領域に対するアルゴリズムの適用性を制限するためである。
私は、トップ会場で発表された既存の論文において、規範的な仮定が明確になると、しばしば不明瞭な結果や矛盾した結果が得られることを示します。
数学的仮定と結果は健全であるが、暗黙の規範的仮定とそれに付随する規範的結果は、これらの手法を実践的公正性の適用に用いない。 Across machine learning (ML) sub-disciplines researchers make mathematical assumptions to facilitate proof-writing. While such assumptions are necessary for providing mathematical guarantees for how algorithms behave, they also necessarily limit the applicability of these algorithms to different problem settings. This practice is known--in fact, obvious--and accepted in ML research. However, similar attention is not paid to the normative assumptions that ground this work. I argue such assumptions are equally as important, especially in areas of ML with clear social impact, such as fairness. This is because, similar to how mathematical assumptions constrain applicability, normative assumptions also limit algorithm applicability to certain problem domains. I show that, in existing papers published in top venues, once normative assumptions are clarified, it is often possible to get unclear or contradictory results. While the mathematical assumptions and results are sound, the implicit normative assumptions and accompanying normative results contraindicate using these methods in practical fairness applications. | 翻訳日:2022-10-05 06:37:58 公開日:2020-11-03 |
# メモリ効率半定義型プログラミングによる検証非依存ネットワークの認証の実現 Enabling certification of verification-agnostic networks via memory-efficient semidefinite programming ( http://arxiv.org/abs/2010.11645v2 ) ライセンス: Link先を確認 | Sumanth Dathathri, Krishnamurthy Dvijotham, Alexey Kurakin, Aditi Raghunathan, Jonathan Uesato, Rudy Bunel, Shreya Shankar, Jacob Steinhardt, Ian Goodfellow, Percy Liang, Pushmeet Kohli | (参考訳) 凸緩和は、敵の摂動に対する堅牢性のようなニューラルネットワークの望ましい性質を検証するための有望なアプローチとして現れている。
広く使われている線形プログラミング(LP)の緩和は、ネットワークが検証を容易にするために訓練された場合にのみうまく機能する。
これは、検証に依存しないネットワーク、すなわち、検証のために特別に訓練されていないネットワークを含むアプリケーションを妨げる。
一方、半定値プログラミング(SDP)緩和は検証非依存のネットワークにうまく適用されているが、時間と空間の漸近が貧弱なため、現在は小さなネットワークを超えてスケールしていない。
本研究では,(1) ネットワークアクティベーションの総数に対してメモリのみを線形に要求し,(2) 繰り返し毎にネットワークを経由する前方/後方パスの固定数だけを要求する,一階二重SDPアルゴリズムを提案する。
逐次固有ベクトル法を用いることで,ネットワークを経由する前方および後方通過の観点から,すべてのソルバ演算を表現し,GPUやTPUなどのハードウェアの効率的な利用を可能にする。
MNIST と CIFAR-10 の2つの検証非依存ネットワークにおいて,L-inf の精度は 1% から 88% と 6% から 40% に向上した。
また,変分オートエンコーダのデコーダに対する二次安定性仕様の厳密な検証を行う。 Convex relaxations have emerged as a promising approach for verifying desirable properties of neural networks like robustness to adversarial perturbations. Widely used Linear Programming (LP) relaxations only work well when networks are trained to facilitate verification. This precludes applications that involve verification-agnostic networks, i.e., networks not specially trained for verification. On the other hand, semidefinite programming (SDP) relaxations have successfully be applied to verification-agnostic networks, but do not currently scale beyond small networks due to poor time and space asymptotics. In this work, we propose a first-order dual SDP algorithm that (1) requires memory only linear in the total number of network activations, (2) only requires a fixed number of forward/backward passes through the network per iteration. By exploiting iterative eigenvector methods, we express all solver operations in terms of forward and backward passes through the network, enabling efficient use of hardware like GPUs/TPUs. For two verification-agnostic networks on MNIST and CIFAR-10, we significantly improve L-inf verified robust accuracy from 1% to 88% and 6% to 40% respectively. We also demonstrate tight verification of a quadratic stability specification for the decoder of a variational autoencoder. | 翻訳日:2022-10-04 05:22:12 公開日:2020-11-03 |
# 有限連続整列バンド Finite Continuum-Armed Bandits ( http://arxiv.org/abs/2010.12236v2 ) ライセンス: Link先を確認 | Solenne Gaucher (LMO) | (参考訳) エージェントが$t$のリソースを持っていて、より大きな数である$n$のアクションに割り当てられる状況を考える。
各アクションは最大1回完了でき、未知の平均を持つ確率的な報酬が得られる。
エージェントの目標は、彼女の累積報酬を最大化することです。
非自明な戦略は、例えば共変量(covariates)の形で、アクションのサイド情報が利用可能であるときに可能である。
平均報酬が1次元共変量の未知の関数である非パラメトリックな設定に着目し、この問題に対して最適な戦略を提案する。
報酬関数の自然な仮定の下では、最適の後悔は$O(T^{1/3})$として、予算$T$がアクションの数に比例するときの多対数的因子までスケールすることが証明される。
$T$が$N$に比べて小さくなると、滑らかな遷移が起こる。
比$T/N$が定数から$N^{-1/3}$に減少すると、後悔は連続武装の包帯で遭遇する$O(T^{1/2})$レートまで徐々に増加する。 We consider a situation where an agent has $T$ ressources to be allocated to a larger number $N$ of actions. Each action can be completed at most once and results in a stochastic reward with unknown mean. The goal of the agent is to maximize her cumulative reward. Non trivial strategies are possible when side information on the actions is available, for example in the form of covariates. Focusing on a nonparametric setting, where the mean reward is an unknown function of a one-dimensional covariate, we propose an optimal strategy for this problem. Under natural assumptions on the reward function, we prove that the optimal regret scales as $O(T^{1/3})$ up to poly-logarithmic factors when the budget $T$ is proportional to the number of actions $N$. When $T$ becomes small compared to $N$, a smooth transition occurs. When the ratio $T/N$ decreases from a constant to $N^{-1/3}$, the regret increases progressively up to the $O(T^{1/2})$ rate encountered in continuum-armed bandits. | 翻訳日:2022-10-03 23:54:42 公開日:2020-11-03 |
# フレキシブルなジョブショップスケジューリング問題に対するグローバルローカル近傍探索アルゴリズムとタブー探索 A global-local neighborhood search algorithm and tabu search for flexible job shop scheduling problem ( http://arxiv.org/abs/2010.12702v2 ) ライセンス: Link先を確認 | Juan Carlos Seck-Tuoh-Mora, Nayeli J. Escamilla-Serna, Joselito Medina-Marin, Norberto Hernandez-Romero, Irving Barragan-Vite, Jose R. Corona-Armenta | (参考訳) フレキシブル・ジョブショップスケジューリング問題(fjsp: flexible job shop scheduling problem)は、現在の産業のニーズをよりよく反映するより複雑な状況をモデル化し、最適化するために、製造システムや新たな変種が出現することにおける実用的な意味から、引き続き研究が続けられている組合せ問題である。
この研究はGLNSA(Global-local neighborhood search algorithm)と呼ばれる新しいメタヒューリスティックアルゴリズムを示し、そこではセルオートマトンの概念が使われ、「smart_cells」と呼ばれる先進的なソリューションのセットがFJSPのインスタンスを最適化するための情報を生成し共有する。
GLNSAアルゴリズムは、最適化タスクを補完するために[1]で定義されたNopt1地区の簡易版を実装するタブ検索で補完される。
提案手法は,最近のアルゴリズムで公表された他の結果と比較して満足できる性能を示し,専門書誌に広く引用され,86の試験問題を用いて,先行研究で報告された最適結果を改善した。 The Flexible Job Shop Scheduling Problem (FJSP) is a combinatorial problem that continues to be studied extensively due to its practical implications in manufacturing systems and emerging new variants, in order to model and optimize more complex situations that reflect the current needs of the industry better. This work presents a new meta-heuristic algorithm called GLNSA (Global-local neighborhood search algorithm), in which the neighborhood concepts of a cellular automaton are used, so that a set of leading solutions called "smart_cells" generates and shares information that helps to optimize instances of FJSP. The GLNSA algorithm is complemented with a tabu search that implements a simplified version of the Nopt1 neighborhood defined in [1] to complement the optimization task. The experiments carried out show a satisfactory performance of the proposed algorithm, compared with other results published in recent algorithms and widely cited in the specialized bibliography, using 86 test problems, improving the optimal result reported in previous works in two of them. | 翻訳日:2022-10-03 22:08:25 公開日:2020-11-03 |
# 一般的なTSPインスタンスを最適化する学習 Learning to Optimise General TSP Instances ( http://arxiv.org/abs/2010.12214v2 ) ライセンス: Link先を確認 | Nasrin Sultana, Jeffrey Chan, A. K. Qin, Tabinda Sarwar | (参考訳) トラベリングセールスマン問題(TSP)は、古典的な組合せ最適化問題である。
ディープラーニングはメタラーニングに成功し、過去の問題解決活動が将来の最適化インスタンスの最適化方法の学習を支援する。
近年,TSP問題の解決にアプローチを最適化する学習が成功している。
しかし、それらはあるタイプの TSP 問題、すなわち点がユークリッド空間に一様に分布し、球面距離空間などの他の埋め込み空間や点が一様でない方法で分布する TSP インスタンスに一般化する問題に焦点をあてている。
最適化を学習する目的は、一度トレーニングを行い、幅広い範囲(TSP)の問題を解決することである。
教師なし学習アプローチは、教師なしのアプローチよりも最適なソリューションを実現することが示されているが、より難しいTSPインスタンスの適切なソリューションを見つけるには、トレーニングデータの生成と、学習するソリューションを得るために解決者を実行する必要がある。
そこで,本研究では,学習がより容易で,より良い解を得るのがより容易なインスタンスをトレーニングする,さまざまな,共通的なTSP問題を解決するための,新たな学習ベースのアプローチを提案する。
このアプローチを非ユークリッドTSPネットワーク(NETSP-Net)と呼ぶ。
この手法は、ベンチマークTSPLIBデータセットと文献で使われる一般的なインスタンスジェネレータを用いて、様々なTSPインスタンス上で評価される。
トレーニングで使用したものよりも大きなインスタンスに,さまざまなタイプのインスタンスとスケールを一般化するアプローチを示す,広範な実験を実施しました。 The Travelling Salesman Problem (TSP) is a classical combinatorial optimisation problem. Deep learning has been successfully extended to meta-learning, where previous solving efforts assist in learning how to optimise future optimisation instances. In recent years, learning to optimise approaches have shown success in solving TSP problems. However, they focus on one type of TSP problem, namely ones where the points are uniformly distributed in Euclidean spaces and have issues in generalising to other embedding spaces, e.g., spherical distance spaces, and to TSP instances where the points are distributed in a non-uniform manner. An aim of learning to optimise is to train once and solve across a broad spectrum of (TSP) problems. Although supervised learning approaches have shown to achieve more optimal solutions than unsupervised approaches, they do require the generation of training data and running a solver to obtain solutions to learn from, which can be time-consuming and difficult to find reasonable solutions for harder TSP instances. Hence this paper introduces a new learning-based approach to solve a variety of different and common TSP problems that are trained on easier instances which are faster to train and are easier to obtain better solutions. We name this approach the non-Euclidean TSP network (NETSP-Net). The approach is evaluated on various TSP instances using the benchmark TSPLIB dataset and popular instance generator used in the literature. We performed extensive experiments that indicate our approach generalises across many types of instances and scales to instances that are larger than what was used during training. | 翻訳日:2022-10-03 22:08:03 公開日:2020-11-03 |
# 未知の属性オブジェクト合成を推論する学習 Learning to Infer Unseen Attribute-Object Compositions ( http://arxiv.org/abs/2010.14343v2 ) ライセンス: Link先を確認 | Hui Chen, Zhixiong Nan, Jingjing Jiang and Nanning Zheng | (参考訳) unseen属性オブジェクトのコンポジション認識は、機械に人間のような複雑な概念の分解と構成を学ぶのに不可欠である。
既存の手法のほとんどは単一属性オブジェクトの合成認識に限られており、類似した外観の合成をほとんど区別できない。
本稿では,単一属性と複数属性の組み合わせを柔軟に認識可能なグラフモデルを提案する。
モデルは、画像の視覚的特徴と単語埋め込みベクトルで表される属性オブジェクトカテゴリラベルを潜在空間にマッピングする。
そして、属性オブジェクトの意味関係の制約に従って、潜在空間における視覚的特徴と対応するラベル的特徴との距離を算出する。
この推論では、すべての合成物のうち、所定の画像特徴に最も近い合成物を推論結果として用いる。
さらに,116,099画像と8,030合成カテゴリの大規模マルチ属性データセット(mad)を構築した。
MADと他の2つの単属性オブジェクトベンチマークデータセットの実験は、我々のアプローチの有効性を示している。 The composition recognition of unseen attribute-object is critical to make machines learn to decompose and compose complex concepts like people. Most of the existing methods are limited to the composition recognition of single-attribute-object, and can hardly distinguish the compositions with similar appearances. In this paper, a graph-based model is proposed that can flexibly recognize both single- and multi-attribute-object compositions. The model maps the visual features of images and the attribute-object category labels represented by word embedding vectors into a latent space. Then, according to the constraints of the attribute-object semantic association, distances are calculated between visual features and the corresponding label semantic features in the latent space. During the inference, the composition that is closest to the given image feature among all compositions is used as the reasoning result. In addition, we build a large-scale Multi-Attribute Dataset (MAD) with 116,099 images and 8,030 composition categories. Experiments on MAD and two other single-attribute-object benchmark datasets demonstrate the effectiveness of our approach. | 翻訳日:2022-10-02 12:25:14 公開日:2020-11-03 |
# iris提示攻撃検出のためのマイクロストライプ解析 Micro Stripes Analyses for Iris Presentation Attack Detection ( http://arxiv.org/abs/2010.14850v2 ) ライセンス: Link先を確認 | Meiling Fang, Naser Damer, Florian Kirchbuchner, Arjan Kuijper | (参考訳) iris認識システムは、テクスチャ付きコンタクトレンズや印刷画像など、プレゼンテーション攻撃に対して脆弱である。
本稿では,拡張正規化虹彩テクスチャの複数のマイクロストライプを抽出し,虹彩提示攻撃を検出するための軽量フレームワークを提案する。
この手順では、標準アイリスセグメンテーションが修正される。
分類問題をより良くモデル化するためのプレゼンテーションアタック検出ネットワークとして,セグメント領域を処理し,低次元の入力セグメントとより多くの学習サンプルを提供する。
提案するマイクロストライプ解析 (msa) は, セグメント領域を個別のストライプとしてサンプリングする。
そして、多数決はこれらのマイクロストライプの最終分類を決定する。
5つのデータベースで実験が行われ、2つのデータベース(IIITD-WVUとNotre Dame)がLivDet-2017 Irisコンペティションのものである。
このフレームワークの詳細な実験的評価は、最先端のアルゴリズムよりも優れた性能を示している。
さらに, テクスチャード(アタック)とソフト(ボナfide)コンタクトレンズの表示の混乱を最小限に抑える。 Iris recognition systems are vulnerable to the presentation attacks, such as textured contact lenses or printed images. In this paper, we propose a lightweight framework to detect iris presentation attacks by extracting multiple micro-stripes of expanded normalized iris textures. In this procedure, a standard iris segmentation is modified. For our presentation attack detection network to better model the classification problem, the segmented area is processed to provide lower dimensional input segments and a higher number of learning samples. Our proposed Micro Stripes Analyses (MSA) solution samples the segmented areas as individual stripes. Then, the majority vote makes the final classification decision of those micro-stripes. Experiments are demonstrated on five databases, where two databases (IIITD-WVU and Notre Dame) are from the LivDet-2017 Iris competition. An in-depth experimental evaluation of this framework reveals a superior performance compared with state-of-the-art algorithms. Moreover, our solution minimizes the confusion between textured (attack) and soft (bona fide) contact lens presentations. | 翻訳日:2022-10-02 05:29:32 公開日:2020-11-03 |
# 深部モデル保護のためのパスポート対応正規化 Passport-aware Normalization for Deep Model Protection ( http://arxiv.org/abs/2010.15824v2 ) ライセンス: Link先を確認 | Jie Zhang and Dongdong Chen and Jing Liao and Weiming Zhang and Gang Hua and Nenghai Yu | (参考訳) 多くのアプリケーションシナリオで非常に成功したが、ディープラーニングは深刻な知的財産権(IP)侵害の脅威に直面している。
優れたモデルの設計とトレーニングのコストを考えると、侵害はオリジナルのモデル所有者の利益を著しく侵害する。
近年、ディープモデルIP保護のための多くの素晴らしい作品が出現している。
しかし、あいまいな攻撃に弱いか、あるいは元の正規化層を置き換えることでターゲットのネットワーク構造を変更する必要があるため、パフォーマンスが大幅に低下する。
そこで本研究では,IP保護のためのパスポート対応分岐を新たに追加するだけで,既存のほとんどの正規化層に適用できるパスポート対応正規化定式化を提案する。
この新しいブランチは、ターゲットモデルと共同でトレーニングされるが、推論段階で破棄される。
そのため、ターゲットモデルに構造変化は起こらない。
モデルIPが誰かによって盗まれたと疑われた場合にのみ、プライベートパスポート対応ブランチが所有者認証のために追加される。
広範にわたる実験により,画像および3次元点認識モデルの有効性を検証する。
微調整やモデル圧縮といった一般的な攻撃技術だけでなく、あいまいな攻撃にも堅牢であることが示されている。
さらにトリガセットベースの手法と組み合わせることで、実際のシステムにデプロイされたディープラーニングモデルのセキュリティを高めるために、ブラックボックスとホワイトボックスの検証が可能である。
コードはhttps://github.com/ZJZAC/Passport-aware-Normalizationにある。 Despite tremendous success in many application scenarios, deep learning faces serious intellectual property (IP) infringement threats. Considering the cost of designing and training a good model, infringements will significantly infringe the interests of the original model owner. Recently, many impressive works have emerged for deep model IP protection. However, they either are vulnerable to ambiguity attacks, or require changes in the target network structure by replacing its original normalization layers and hence cause significant performance drops. To this end, we propose a new passport-aware normalization formulation, which is generally applicable to most existing normalization layers and only needs to add another passport-aware branch for IP protection. This new branch is jointly trained with the target model but discarded in the inference stage. Therefore it causes no structure change in the target model. Only when the model IP is suspected to be stolen by someone, the private passport-aware branch is added back for ownership verification. Through extensive experiments, we verify its effectiveness in both image and 3D point recognition models. It is demonstrated to be robust not only to common attack techniques like fine-tuning and model compression, but also to ambiguity attacks. By further combining it with trigger-set based methods, both black-box and white-box verification can be achieved for enhanced security of deep learning models deployed in real systems. Code can be found at https://github.com/ZJZAC/Passport-aware-Normalization. | 翻訳日:2022-10-01 23:12:48 公開日:2020-11-03 |
# 自然言語処理を活用したcovid-19パンデミック時のtwitter問題 Leveraging Natural Language Processing to Mine Issues on Twitter During the COVID-19 Pandemic ( http://arxiv.org/abs/2011.00377v2 ) ライセンス: Link先を確認 | Ankita Agarwal and Preetham Salehundam and Swati Padhee and William L. Romine and Tanvi Banerjee | (参考訳) 新型コロナウイルス感染症(COVID-19)の世界的な流行が世界中に広がった。
国際旅行禁止、パニック購入、そして自己隔離の必要性は、この新しい時代にもたらされた多くの社会的課題の1つだ。
Twitterプラットフォームは、さまざまな公衆衛生研究で、ローカルおよびグローバルスケールでのイベントに関する世論を特定するために使用されている。
パンデミックに対する一般の関心や対応を理解するためには、機械学習技術を利用して無関係なツイートをフィルタリングし、twitterのようなソーシャルメディアプラットフォーム上で議論の重要なトピックを特定する必要がある。
本研究では、2020年1月1日から2020年4月30日までに、新型コロナウイルスのパンデミックに関連するツイートを識別するシステムを構築し、この期間に最も議論されたトピックやテーマを特定するためのトピックモデリングについて検討した。
さらに,このパンデミックで発生した出来事に関して,話題の時間的変化を分析した。
8つのトピックがコーパスのテーマを識別するのに十分であることが分かりました。
これらの話題は一時的な傾向を描いている。
主要トピックは時間とともに異なり、新型コロナウイルス(covid-19)パンデミックに関連するイベントと一致している。 The recent global outbreak of the coronavirus disease (COVID-19) has spread to all corners of the globe. The international travel ban, panic buying, and the need for self-quarantine are among the many other social challenges brought about in this new era. Twitter platforms have been used in various public health studies to identify public opinion about an event at the local and global scale. To understand the public concerns and responses to the pandemic, a system that can leverage machine learning techniques to filter out irrelevant tweets and identify the important topics of discussion on social media platforms like Twitter is needed. In this study, we constructed a system to identify the relevant tweets related to the COVID-19 pandemic throughout January 1st, 2020 to April 30th, 2020, and explored topic modeling to identify the most discussed topics and themes during this period in our data set. Additionally, we analyzed the temporal changes in the topics with respect to the events that occurred during this pandemic. We found out that eight topics were sufficient to identify the themes in our corpus. These topics depicted a temporal trend. The dominant topics vary over time and align with the events related to the COVID-19 pandemic. | 翻訳日:2022-10-01 05:13:06 公開日:2020-11-03 |
# オランダ語の単語埋め込みにおけるバイアスの評価 Evaluating Bias In Dutch Word Embeddings ( http://arxiv.org/abs/2011.00244v2 ) ライセンス: Link先を確認 | Rodrigo Alejandro Ch\'avez Mulsa and Gerasimos Spanakis | (参考訳) 最近の自然言語処理の研究により、単語埋め込みは、実世界のアプリケーションにおけるマイノリティに影響を与える訓練データに存在する社会的バイアスを符号化できることが判明した。
本稿では,オランダ語埋め込みにおける性別バイアスについて検討し,英語ベースのアプローチがオランダ語でも使用可能かどうかについて検討する。
そこで,オランダ語の単語埋め込みにおける性別バイアスを定量化するために,単語埋め込み関連テスト (weat) とクラスタリング,文埋め込み関連テスト (seat) を実装した。
以上の結果から,従来のオランダ語の単語埋め込みには,性別バイアスが存在することが示唆された。
オランダの埋め込みにおいて、言語特有の特徴を考慮し、適切なデータ翻訳を行うことによって、英語のバイアスの測定と削減に使用されるテクニックをどのように利用できるかを強調した。
さらに, 従来の埋め込みに無視できる影響と, 文脈的埋め込みにおける性能の2%低下を示す下流タスクに対するデバイアス手法の効果を解析した。
最後に、翻訳されたオランダのデータセットと、緩和バイアスを伴う従来の埋め込みを公開します。 Recent research in Natural Language Processing has revealed that word embeddings can encode social biases present in the training data which can affect minorities in real world applications. This paper explores the gender bias implicit in Dutch embeddings while investigating whether English language based approaches can also be used in Dutch. We implement the Word Embeddings Association Test (WEAT), Clustering and Sentence Embeddings Association Test (SEAT) methods to quantify the gender bias in Dutch word embeddings, then we proceed to reduce the bias with Hard-Debias and Sent-Debias mitigation methods and finally we evaluate the performance of the debiased embeddings in downstream tasks. The results suggest that, among others, gender bias is present in traditional and contextualized Dutch word embeddings. We highlight how techniques used to measure and reduce bias created for English can be used in Dutch embeddings by adequately translating the data and taking into account the unique characteristics of the language. Furthermore, we analyze the effect of the debiasing techniques on downstream tasks which show a negligible impact on traditional embeddings and a 2% decrease in performance in contextualized embeddings. Finally, we release the translated Dutch datasets to the public along with the traditional embeddings with mitigated bias. | 翻訳日:2022-10-01 04:47:28 公開日:2020-11-03 |
# DL-Reg:線形回帰を用いたディープラーニング正規化手法 DL-Reg: A Deep Learning Regularization Technique using Linear Regression ( http://arxiv.org/abs/2011.00368v2 ) ライセンス: Link先を確認 | Maryam Dialameh and Ali Hamzeh and Hossein Rahmani | (参考訳) 正規化は、ディープニューラルネットワークが過剰に適合する危険性を防ぎ、ディープラーニングのコンテキストにおいて重要な役割を果たす。
本稿では,ネットワークをできるだけ線形に振る舞うように明示的に強制することにより,ディープネットワークの非線形性をある程度低減する,dl-regと呼ばれる新しい深層学習正規化手法を提案する。
重要なアイデアは、ディープニューラルネットワークの目的関数に線形制約を追加することである。これは単に入力からモデルの出力への線形マッピングの誤りである。
より正確には、提案されたdl-regはネットワークが線形に振る舞うことを慎重に強制する。
この線形制約は、正規化係数によってさらに調整され、ネットワークが過度に適合するリスクを防止する。
DL-Regの性能は、いくつかのベンチマークデータセット上で最先端のディープネットワークモデルをトレーニングすることで評価される。
実験の結果,提案手法は以下のとおりであった。
1)既存の正規化技術に対して大きな改善を施し、
2)深層ニューラルネットワークの性能は,特に小規模のトレーニングデータセットにおいて著しく向上する。 Regularization plays a vital role in the context of deep learning by preventing deep neural networks from the danger of overfitting. This paper proposes a novel deep learning regularization method named as DL-Reg, which carefully reduces the nonlinearity of deep networks to a certain extent by explicitly enforcing the network to behave as much linear as possible. The key idea is to add a linear constraint to the objective function of the deep neural networks, which is simply the error of a linear mapping from the inputs to the outputs of the model. More precisely, the proposed DL-Reg carefully forces the network to behave in a linear manner. This linear constraint, which is further adjusted by a regularization factor, prevents the network from the risk of overfitting. The performance of DL-Reg is evaluated by training state-of-the-art deep network models on several benchmark datasets. The experimental results show that the proposed regularization method: 1) gives major improvements over the existing regularization techniques, and 2) significantly improves the performance of deep neural networks, especially in the case of small-sized training datasets. | 翻訳日:2022-10-01 04:21:21 公開日:2020-11-03 |
# 動的骨格特徴を用いた記憶グループサンプリングに基づくオンライン行動認識 Memory Group Sampling Based Online Action Recognition Using Kinetic Skeleton Features ( http://arxiv.org/abs/2011.00553v2 ) ライセンス: Link先を確認 | Guoliang Liu, Qinghui Zhang, Yichao Cao, Junwei Li, Hao Wu and Guohui Tian | (参考訳) オンライン行動認識は、人間中心の知的サービスにとって重要なタスクであり、人間の行動の空間的および時間的尺度の多様性と不確実性のため、依然として達成が困難である。
本稿では,オンライン行動認識問題を扱うための2つの基本概念を提案する。
まず,行動の空間的特徴と時間的特徴を組み合わせることで,行動の空間的特徴と時間的情報の両方がカバーされるような,幾何学的特徴だけでなく,マルチスケールな動作特徴も記述する。
次に,従来のアクションフレームと現在のアクションフレームを組み合わせるためのメモリグループサンプリング手法を提案する。
最後に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
公開データセットを用いた技術手法の比較結果から,提案手法は高速かつ効率的であり,競合性能を有することが示された。 Online action recognition is an important task for human centered intelligent services, which is still difficult to achieve due to the varieties and uncertainties of spatial and temporal scales of human actions. In this paper, we propose two core ideas to handle the online action recognition problem. First, we combine the spatial and temporal skeleton features to depict the actions, which include not only the geometrical features, but also multi-scale motion features, such that both the spatial and temporal information of the action are covered. Second, we propose a memory group sampling method to combine the previous action frames and current action frames, which is based on the truth that the neighbouring frames are largely redundant, and the sampling mechanism ensures that the long-term contextual information is also considered. Finally, an improved 1D CNN network is employed for training and testing using the features from sampled frames. The comparison results to the state of the art methods using the public datasets show that the proposed method is fast and efficient, and has competitive performance | 翻訳日:2022-09-30 23:46:42 公開日:2020-11-03 |
# AIマーカに基づく大規模AI文学マイニング AI Marker-based Large-scale AI Literature Mining ( http://arxiv.org/abs/2011.00518v2 ) ライセンス: Link先を確認 | Rujing Yao, Yingchun Ye, Ji Zhang, Shuxiao Li and Ou Wu | (参考訳) 学術文献に含まれる知識は私の興味を引く。
生化学の分野における分子マーカー追跡のアイデアに触発されて、3つの名前のエンティティ、すなわちメソッド、データセット、メトリクスがAI文献のAIマーカーとして使用される。
これらの実体は、論文の本体に記述された研究過程の追跡に利用することができ、より価値のある学術情報を探し、採掘するための新しい視点を開くことができる。
まず,エンティティ抽出モデルを用いて,大規模AI文献からAIマーカーを抽出する。
第2に、オリジナルの論文はAIマーカーにトレースされている。
追跡結果に基づいて統計的および伝播解析を行う。
最後に、クラスタリングを実現するためにAIマーカーの共用が使用される。
方法クラスタ内の進化と異なる研究シーンクラスタ間の関係性について検討した。
上記のAIマーカーに基づく採掘は、多くの有意義な発見をもたらす。
例えば、データセット上での効果的な方法の伝播は、時間の発達とともに急速に増加しており、近年の中国による効果的な方法が他国に影響を与えている一方で、フランスは反対である。
従来のコンピュータビジョンの研究シーンである塩分検出は、他の研究シーンの影響が最も少ない。 The knowledge contained in academic literature is interesting to mine. Inspired by the idea of molecular markers tracing in the field of biochemistry, three named entities, namely, methods, datasets and metrics are used as AI markers for AI literature. These entities can be used to trace the research process described in the bodies of papers, which opens up new perspectives for seeking and mining more valuable academic information. Firstly, the entity extraction model is used in this study to extract AI markers from large-scale AI literature. Secondly, original papers are traced for AI markers. Statistical and propagation analysis are performed based on tracing results. Finally, the co-occurrences of AI markers are used to achieve clustering. The evolution within method clusters and the influencing relationships amongst different research scene clusters are explored. The above-mentioned mining based on AI markers yields many meaningful discoveries. For example, the propagation of effective methods on the datasets is rapidly increasing with the development of time; effective methods proposed by China in recent years have increasing influence on other countries, whilst France is the opposite. Saliency detection, a classic computer vision research scene, is the least likely to be affected by other research scenes. | 翻訳日:2022-09-30 23:37:01 公開日:2020-11-03 |
# PV-NAS:ビデオ認識のための実用的なニューラルネットワーク探索 PV-NAS: Practical Neural Architecture Search for Video Recognition ( http://arxiv.org/abs/2011.00826v2 ) ライセンス: Link先を確認 | Zihao Wang, Chen Lin, Lu Sheng, Junjie Yan, Jing Shao | (参考訳) 近年、深層学習は、その顕著な表現能力により、映像認識の問題を解決するために利用されてきた。
ビデオタスク用のディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインエキスパートとコストのかかる試行とエラーテストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
しかし,ビデオ認識ネットワークの自動設計は少ない。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
我々のPV-NASは、勾配に基づく探索手法を用いて、新しい時空間ネットワーク探索空間における巨大なアーキテクチャを効率的に探索することができる。
そこで本研究では,ネットワークの多様性を十分に高めるための学習率スケジューラを提案する。
広範な実証実験により,提案したPV-NASは,計算資源をはるかに少なくして最先端の性能を実現することが示された。
1) 軽量モデルでは, pv-nas-l は 78.7% と 62.5% のtop-1 精度を達成し, 従来の最先端手法 (tsm) よりも優れている(各データセットで 4.6% と 3.4% である)。
2) 中心重みモデルでは,PV-NAS-MがSomething V2データセットで最高の性能(新記録)を達成した。 Recently, deep learning has been utilized to solve video recognition problem due to its prominent representation ability. Deep neural networks for video tasks is highly customized and the design of such networks requires domain experts and costly trial and error tests. Recent advance in network architecture search has boosted the image recognition performance in a large margin. However, automatic designing of video recognition network is less explored. In this study, we propose a practical solution, namely Practical Video Neural Architecture Search (PV-NAS).Our PV-NAS can efficiently search across tremendous large scale of architectures in a novel spatial-temporal network search space using the gradient based search methods. To avoid sticking into sub-optimal solutions, we propose a novel learning rate scheduler to encourage sufficient network diversity of the searched models. Extensive empirical evaluations show that the proposed PV-NAS achieves state-of-the-art performance with much fewer computational resources. 1) Within light-weight models, our PV-NAS-L achieves 78.7% and 62.5% Top-1 accuracy on Kinetics-400 and Something-Something V2, which are better than previous state-of-the-art methods (i.e., TSM) with a large margin (4.6% and 3.4% on each dataset, respectively), and 2) among median-weight models, our PV-NAS-M achieves the best performance (also a new record)in the Something-Something V2 dataset. | 翻訳日:2022-09-30 12:14:43 公開日:2020-11-03 |
# BERTはどこまで見えるか:距離に基づくクラスタリングとBERT$'sのアテンションの分析 How Far Does BERT Look At:Distance-based Clustering and Analysis of BERT$'$s Attention ( http://arxiv.org/abs/2011.00943v2 ) ライセンス: Link先を確認 | Yue Guan, Jingwen Leng, Chao Li, Quan Chen, Minyi Guo | (参考訳) 近年のマルチヘッドアテンション機構の研究は、特にBERTのような事前学習モデルにおいて、そのメカニズムの様々な側面を分析する上でのヒューリスティックスと手がかりを示している。
研究の多くはタスクや隠れ状態の探索に重点を置いており、過去の研究ではヒューリスティックな分析手法による注意行動の原始的なパターンが発見されているが、注意パターンに特有のより体系的な分析は原始的のままである。
本研究では,従来の観測と相関する一連の特徴のセットの上に,教師なしクラスタリングを行うことにより,アテンション・ヒートマップを著しく異なるパターンにクラスタリングする。
さらに,解析研究を通じて,それらの機能についても検討する。
さらに,提案する機能はトランスフォーマモデルにおける注意ヘッドの異なる説明と校正に利用できる。 Recent research on the multi-head attention mechanism, especially that in pre-trained models such as BERT, has shown us heuristics and clues in analyzing various aspects of the mechanism. As most of the research focus on probing tasks or hidden states, previous works have found some primitive patterns of attention head behavior by heuristic analytical methods, but a more systematic analysis specific on the attention patterns still remains primitive. In this work, we clearly cluster the attention heatmaps into significantly different patterns through unsupervised clustering on top of a set of proposed features, which corroborates with previous observations. We further study their corresponding functions through analytical study. In addition, our proposed features can be used to explain and calibrate different attention heads in Transformer models. | 翻訳日:2022-09-30 11:57:28 公開日:2020-11-03 |
# パネルデータによる回帰のためのコアセット Coresets for Regressions with Panel Data ( http://arxiv.org/abs/2011.00981v2 ) ライセンス: Link先を確認 | Lingxiao Huang, K. Sudhir, Nisheeth K. Vishnoi | (参考訳) 本稿では、回帰問題に対するコアセットの問題点をパネルデータ設定に導入する。
まず, パネルデータを用いた回帰問題のいくつかの変種に対するコアセットを定義し, 1/$\varepsilon$(ここでは$\varepsilon$が誤差パラメータである)と, パネルデータ中の個人数や各個人が観測する時間単位に依存しない回帰パラメータの数を, 多項式的に依存する大きさのコアセットを構築するための効率的なアルゴリズムを提案する。
我々のアプローチはフェルドマン=ラングバーグの枠組みに基づいており、重要なステップは、回帰パラメータの可能なすべての選択に対して取られる各時間ペアの最大影響の和である「トータル感度」を上界にすることである。
提案手法を用いて構築したコアセットのサイズは,完全なデータセットよりもはるかに小さく,コアセットは回帰目標を演算する際の実行時間を実際に加速する。 This paper introduces the problem of coresets for regression problems to panel data settings. We first define coresets for several variants of regression problems with panel data and then present efficient algorithms to construct coresets of size that depend polynomially on 1/$\varepsilon$ (where $\varepsilon$ is the error parameter) and the number of regression parameters - independent of the number of individuals in the panel data or the time units each individual is observed for. Our approach is based on the Feldman-Langberg framework in which a key step is to upper bound the "total sensitivity" that is roughly the sum of maximum influences of all individual-time pairs taken over all possible choices of regression parameters. Empirically, we assess our approach with synthetic and real-world datasets; the coreset sizes constructed using our approach are much smaller than the full dataset and coresets indeed accelerate the running time of computing the regression objective. | 翻訳日:2022-09-30 11:37:55 公開日:2020-11-03 |
# 時間段階正規化によるテキストモデリングのための変分オートエンコーダの改善 Improving Variational Autoencoder for Text Modelling with Timestep-Wise Regularisation ( http://arxiv.org/abs/2011.01136v2 ) ライセンス: Link先を確認 | Ruizhe Li, Xiao Li, Guanyi Chen, Chenghua Lin | (参考訳) 変分オートエンコーダ(VAE)は、テキストモデリングに適用された、多種多様な文を生成する人気かつ強力なモデルである。
しかし、後方崩壊(またはkl損失消失)として知られる問題は、テキストモデリングにおいてvaeが使われる際に発生し、近似後方崩壊は以前のものに近く、モデルは潜在変数を完全に無視し、テキスト生成中にプレーン言語モデルに分解される。
このような問題は、RNNベースのVAEモデルがテキストモデリングに使用される場合、特に顕著である。
本稿では,後方崩壊を効果的に回避し,任意のrnnベースのvaeモデルに適用可能な,timestep-wise regularization vae (twr-vae) と呼ばれる簡易な汎用アーキテクチャを提案する。
本モデルの有効性と汎用性は,言語モデリングや対話応答生成など,様々なタスクで実証される。 The Variational Autoencoder (VAE) is a popular and powerful model applied to text modelling to generate diverse sentences. However, an issue known as posterior collapse (or KL loss vanishing) happens when the VAE is used in text modelling, where the approximate posterior collapses to the prior, and the model will totally ignore the latent variables and be degraded to a plain language model during text generation. Such an issue is particularly prevalent when RNN-based VAE models are employed for text modelling. In this paper, we propose a simple, generic architecture called Timestep-Wise Regularisation VAE (TWR-VAE), which can effectively avoid posterior collapse and can be applied to any RNN-based VAE models. The effectiveness and versatility of our model are demonstrated in different tasks, including language modelling and dialogue response generation. | 翻訳日:2022-09-30 10:54:24 公開日:2020-11-03 |
# 動的クラスタリングによるストラグラー緩和のためのグラディエント符号化 Gradient Coding with Dynamic Clustering for Straggler Mitigation ( http://arxiv.org/abs/2011.01922v1 ) ライセンス: Link先を確認 | Baturalp Buyukates and Emre Ozfatura and Sennur Ulukus and Deniz Gunduz | (参考訳) 分散同期勾配降下(GD)では、各項目の完了時間の主なパフォーマンスボトルネックは、最も遅い \textit{straggling} ワーカーである。
ストラグラーが存在する場合のGDイテレーションを高速化するために、冗長な計算をワーカーに割り当てることで、符号化された分散計算技術を実装している。
本稿では,gc-dcで表される動的クラスタリングを用いて,勾配計算を高速化する新しい勾配符号化(gc)方式を提案する。
GC-DCは、時間に関連したストラグリング動作の下で、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグリングワーカーの数を調整することを目的としている。
我々は,gc-dcが通信負荷を増加させることなく(各イテレーションの)平均完了時間を大幅に改善できることを数値的に示す。 In distributed synchronous gradient descent (GD) the main performance bottleneck for the per-iteration completion time is the slowest \textit{straggling} workers. To speed up GD iterations in the presence of stragglers, coded distributed computation techniques are implemented by assigning redundant computations to workers. In this paper, we propose a novel gradient coding (GC) scheme that utilizes dynamic clustering, denoted by GC-DC, to speed up the gradient calculation. Under time-correlated straggling behavior, GC-DC aims at regulating the number of straggling workers in each cluster based on the straggler behavior in the previous iteration. We numerically show that GC-DC provides significant improvements in the average completion time (of each iteration) with no increase in the communication load compared to the original GC scheme. | 翻訳日:2022-09-30 06:27:59 公開日:2020-11-03 |
# グラフニューラルネットワークによるグラフ信号のサンプリングと復元 Sampling and Recovery of Graph Signals based on Graph Neural Networks ( http://arxiv.org/abs/2011.01412v1 ) ライセンス: Link先を確認 | Siheng Chen and Maosen Li and Ya Zhang | (参考訳) 本稿では,グラフ信号のサンプリングと回復のための解釈可能なグラフニューラルネットワークを提案する。
そこで我々は,その周辺を最大に表現する頂点を選択することを目的とした,新しいグラフニューラルサンプリングモジュールを提案する。
このような表現性は、グラフニューラルネットワークを介して推定される頂点の特徴と近傍の特徴の相互情報によって定量化することができる。
サンプルデータから元のグラフ信号を再構成するために,アルゴリズムの学習手法に基づくグラフニューラルリカバリモジュールを提案する。
従来の解析的サンプリング・リカバリと比較して,提案手法はニューラルネットワークの学習能力を利用して,データから様々なグラフ信号モデルを柔軟に学習することができる。
さらに,訓練可能な多スケールグラフフィルタバンクであり,様々なグラフ関連学習タスクを処理可能な,新しい多スケールグラフニューラルネットワークの設計を行った。
マルチスケールネットワークは、提案したグラフニューラルサンプリングおよびリカバリモジュールを活用して、グラフのマルチスケール表現を実現する。
実験では,提案したグラフニューラルサンプリングおよびリカバリモジュールの効果を概説し,各モジュールが様々なグラフ構造やグラフ信号に柔軟に適応できることを見出した。
アクティブサンプリングに基づく半教師付き学習のタスクでは、グラフニューラルネットワークサンプリングモジュールは、Coraデータセットの10%以上の分類精度を改善する。
提案するマルチスケールグラフニューラルネットワークを,頂点分類とグラフ分類の両方の標準データセット上で検証する。
その結果,本手法は分類精度を常に改善することがわかった。 We propose interpretable graph neural networks for sampling and recovery of graph signals, respectively. To take informative measurements, we propose a new graph neural sampling module, which aims to select those vertices that maximally express their corresponding neighborhoods. Such expressiveness can be quantified by the mutual information between vertices' features and neighborhoods' features, which are estimated via a graph neural network. To reconstruct an original graph signal from the sampled measurements, we propose a graph neural recovery module based on the algorithm-unrolling technique. Compared to previous analytical sampling and recovery, the proposed methods are able to flexibly learn a variety of graph signal models from data by leveraging the learning ability of neural networks; compared to previous neural-network-based sampling and recovery, the proposed methods are designed through exploiting specific graph properties and provide interpretability. We further design a new multiscale graph neural network, which is a trainable multiscale graph filter bank and can handle various graph-related learning tasks. The multiscale network leverages the proposed graph neural sampling and recovery modules to achieve multiscale representations of a graph. In the experiments, we illustrate the effects of the proposed graph neural sampling and recovery modules and find that the modules can flexibly adapt to various graph structures and graph signals. In the task of active-sampling-based semi-supervised learning, the graph neural sampling module improves the classification accuracy over 10% in Cora dataset. We further validate the proposed multiscale graph neural network on several standard datasets for both vertex and graph classification. The results show that our method consistently improves the classification accuracies. | 翻訳日:2022-09-30 06:25:31 公開日:2020-11-03 |
# 混乱語を用いた合成音声データによる後発語検出の訓練 Training Wake Word Detection with Synthesized Speech Data on Confusion Words ( http://arxiv.org/abs/2011.01460v1 ) ライセンス: Link先を確認 | Yan Jia, Zexin Cai, Murong Ma, Zeqing Zhao, Xuyang Wang, Junjie Wang, Ming Li | (参考訳) 紛らわしい単語は、実際のキーワードスポッティングアプリケーションでよく見られるため、複雑な話し言葉や、定義済みのキーワードに似た音質の様々な単語によってパフォーマンスが著しく低下する。
このようなシナリオにおけるウェイクワード検出システムの堅牢性を高めるため、エンドツーエンドKWSシステムのトレーニングのための2つのデータ拡張設定について検討する。
1つは、マルチスピーカー音声合成システムからの合成データを含み、もう1つは、音響特徴にランダムノイズを付加して行う。
実験結果から,システムの堅牢性向上に役立つことが示唆された。
さらに,多話者音声合成システムによって生成された合成データを用いて学習セットを増強することにより,混乱した単語のシナリオに関する大幅な改善を実現する。 Confusing-words are commonly encountered in real-life keyword spotting applications, which causes severe degradation of performance due to complex spoken terms and various kinds of words that sound similar to the predefined keywords. To enhance the wake word detection system's robustness on such scenarios, we investigate two data augmentation setups for training end-to-end KWS systems. One is involving the synthesized data from a multi-speaker speech synthesis system, and the other augmentation is performed by adding random noise to the acoustic feature. Experimental results show that augmentations help improve the system's robustness. Moreover, by augmenting the training set with the synthetic data generated by the multi-speaker text-to-speech system, we achieve a significant improvement regarding confusing words scenario. | 翻訳日:2022-09-30 06:24:21 公開日:2020-11-03 |
# シェーンランシステム「VoxCeleb Speaker Recognition Challenge 2020」 ShaneRun System Description to VoxCeleb Speaker Recognition Challenge 2020 ( http://arxiv.org/abs/2011.01518v1 ) ライセンス: Link先を確認 | Shen Chen | (参考訳) 本稿では,ShaneRunのチームがVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020に提出されたことを述べる。
我々は、オープンソースのvoxceleb-trainerから参照された話者埋め込みをエンコーダとしてResNet-34を用いて抽出する。
また、エンコーダから元の負ユークリッド距離ではなく、テスト発話対のt-sne正規化距離を用いた最適な融合を実現するための簡単な方法を提案する。
最終提出されたシステムは0.3098 minDCFと5.076 % ERRであり、それぞれ1.3 % minDCFと2.2 % ERRを上回った。 In this report, we describe the submission of ShaneRun's team to the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020. We use ResNet-34 as encoder to extract the speaker embeddings, which is referenced from the open-source voxceleb-trainer. We also provide a simple method to implement optimum fusion using t-SNE normalized distance of testing utterance pairs instead of original negative Euclidean distance from the encoder. The final submitted system got 0.3098 minDCF and 5.076 % ERR for Fixed data track, which outperformed the baseline by 1.3 % minDCF and 2.2 % ERR respectively. | 翻訳日:2022-09-30 06:24:07 公開日:2020-11-03 |
# 精神保健におけるケースコントロール研究のためのベイズ階層モデル仕様の提言 Recommendations for Bayesian hierarchical model specifications for case-control studies in mental health ( http://arxiv.org/abs/2011.01725v1 ) ライセンス: Link先を確認 | Vincent Valton, Toby Wise, Oliver J. Robinson | (参考訳) 階層的モデルフィッティングは、メンタルヘルスにおける認知と行動のケースコントロール研究において一般的な場所となっている。
しかし,これらの手法では,群レベルでのデータ生成過程に関する仮定を定式化する必要がある。
具体的には、研究者は通常、すべての被験者が共通の集団から引き出されたと仮定するか、別の集団から派生したものとしてモデル化するかを選ばなければならない。
これらの仮定は、結果として生じる推論(相対的パラメータ回復)に影響し、真のグループレベルの差異を説明または隠蔽するので、計算精神医学に深く影響する。
これらの仮定を検証するために、よく使われる多腕バンディットタスク(強化学習タスク)から合成多群行動データに対して系統シミュレーションを行った。
その結果,(1)共有群レベルの先行群(すべての参加者が共通の分布から生成され,共通の特徴を共有できると仮定する)と(2)症状学や診断ラベルに基づいて別個の群をモデル化し,グループレベルの先行群を別々に生成する,という2つの一般的な生成モデル仮定の下で,潜在パラメータ空間における群差の回復を検討した。
データ品質のばらつきや、さまざまなメトリクスの事前仕様に対するこれらのアプローチの堅牢性を評価した。
適合群を別々に(仮定2)、すべての条件において最も正確で堅牢な推論が得られた。
以上の結果から,複数の臨床群からのデータを扱う場合には,患者と対照群を別々に分析すべきであることが示唆された。 Hierarchical model fitting has become commonplace for case-control studies of cognition and behaviour in mental health. However, these techniques require us to formalise assumptions about the data-generating process at the group level, which may not be known. Specifically, researchers typically must choose whether to assume all subjects are drawn from a common population, or to model them as deriving from separate populations. These assumptions have profound implications for computational psychiatry, as they affect the resulting inference (latent parameter recovery) and may conflate or mask true group-level differences. To test these assumptions we ran systematic simulations on synthetic multi-group behavioural data from a commonly used multi-armed bandit task (reinforcement learning task). We then examined recovery of group differences in latent parameter space under the two commonly used generative modelling assumptions: (1) modelling groups under a common shared group-level prior (assuming all participants are generated from a common distribution, and are likely to share common characteristics); (2) modelling separate groups based on symptomatology or diagnostic labels, resulting in separate group-level priors. We evaluated the robustness of these approaches to variations in data quality and prior specifications on a variety of metrics. We found that fitting groups separately (assumptions 2), provided the most accurate and robust inference across all conditions. Our results suggest that when dealing with data from multiple clinical groups, researchers should analyse patient and control groups separately as it provides the most accurate and robust recovery of the parameters of interest. | 翻訳日:2022-09-30 06:21:26 公開日:2020-11-03 |
# 確率的音源分離のための深部生成モデルを用いた問題 Problems using deep generative models for probabilistic audio source separation ( http://arxiv.org/abs/2011.01761v1 ) ライセンス: Link先を確認 | Maurice Frank, Maximilian Ilse | (参考訳) 深層生成モデリングの最近の進歩により、ベイズ推論に使用できる複雑なデータから事前分布を学習することができる。
しかし,音声信号の深層生成モデルによって学習された分布は,確率的手法による音源分離などのタスクに必要な適切な特性を示さないことがわかった。
学習した先行分布は、判別可能であり、ピークが極端に高いか、スムーズで非差別的である。
2つのオーディオデータセット上の2種類の深層生成モデルに対して,この挙動を定量化する。 Recent advancements in deep generative modeling make it possible to learn prior distributions from complex data that subsequently can be used for Bayesian inference. However, we find that distributions learned by deep generative models for audio signals do not exhibit the right properties that are necessary for tasks like audio source separation using a probabilistic approach. We observe that the learned prior distributions are either discriminative and extremely peaked or smooth and non-discriminative. We quantify this behavior for two types of deep generative models on two audio datasets. | 翻訳日:2022-09-30 06:20:58 公開日:2020-11-03 |
# 非微分型ニューラルネットワークの解析的側面 Analytical aspects of non-differentiable neural networks ( http://arxiv.org/abs/2011.01858v1 ) ライセンス: Link先を確認 | Gian Paolo Leonardi and Matteo Spallanzani | (参考訳) 計算深層学習の研究は、アクティベーション関数の単純化や、アクティベーションと重みの量子化を通じて、ディープニューラルネットワークのハードウェア指向の最適化に多大な努力を向けてきた。
結果として生じるネットワークの不連続性(あるいは不連続性)は、特に学習プロセスに関連して、いくつかの困難な問題を引き起こす。
本稿では,量子化ニューラルネットワークの表現率と非微分可能ネットワークの近似技術について,いくつかの疑問を提起する。
まず、QNN が DNN と同じ表現性を持つかどうかを、$L^{\infty}$ノルムにおけるリプシッツ函数の近似の点において肯定的に問う。
そこで, 連続的だが必ずしも微分可能ではないネットワークを考慮し, 階層的確率正規化手法を用いて微分可能近似を導出する手法について述べる。
最後に,ヘビーサイド型アクティベーション関数によって定義されるネットワークを考察し,正規化アクティベーションに対する適切な仮定の下での滑らかなネットワークによるポイントワイズ近似結果を示す。 Research in computational deep learning has directed considerable efforts towards hardware-oriented optimisations for deep neural networks, via the simplification of the activation functions, or the quantization of both activations and weights. The resulting non-differentiability (or even discontinuity) of the networks poses some challenging problems, especially in connection with the learning process. In this paper, we address several questions regarding both the expressivity of quantized neural networks and approximation techniques for non-differentiable networks. First, we answer in the affirmative the question of whether QNNs have the same expressivity as DNNs in terms of approximation of Lipschitz functions in the $L^{\infty}$ norm. Then, considering a continuous but not necessarily differentiable network, we describe a layer-wise stochastic regularisation technique to produce differentiable approximations, and we show how this approach to regularisation provides elegant quantitative estimates. Finally, we consider networks defined by means of Heaviside-type activation functions, and prove for them a pointwise approximation result by means of smooth networks under suitable assumptions on the regularised activations. | 翻訳日:2022-09-30 06:14:54 公開日:2020-11-03 |
# 完全可解モデルクラスにおける政策勾配に関する研究 A Study of Policy Gradient on a Class of Exactly Solvable Models ( http://arxiv.org/abs/2011.01859v1 ) ライセンス: Link先を確認 | Gavin McCracken, Colin Daniels, Rosie Zhao, Anna Brandenberger, Prakash Panangaden, Doina Precup | (参考訳) 政策勾配法は、予測リターンを最適化する方法として強化学習に広く用いられている。
本稿では, ポリシーパラメータの変遷を, 完全可解な pomdp の特殊クラスに対して, 遷移確率が方針値の分布の勾配によって決定される連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
本研究では,制御可能な探索難易度を有する新しい部分観測可能環境のクラスを構築し,値分布,すなわち政策パラメータの進化を解析的に導出する。
これらの環境を用いて,値関数の局所的最大値に対する政策勾配の確率収束を解析する。
我々の知る限り、このような環境のクラスに対するPOMDPの政策勾配の景観を解析的に計算するために開発された最初のアプローチであり、この問題の難しさに関する興味深い洞察をもたらす。 Policy gradient methods are extensively used in reinforcement learning as a way to optimize expected return. In this paper, we explore the evolution of the policy parameters, for a special class of exactly solvable POMDPs, as a continuous-state Markov chain, whose transition probabilities are determined by the gradient of the distribution of the policy's value. Our approach relies heavily on random walk theory, specifically on affine Weyl groups. We construct a class of novel partially observable environments with controllable exploration difficulty, in which the value distribution, and hence the policy parameter evolution, can be derived analytically. Using these environments, we analyze the probabilistic convergence of policy gradient to different local maxima of the value function. To our knowledge, this is the first approach developed to analytically compute the landscape of policy gradient in POMDPs for a class of such environments, leading to interesting insights into the difficulty of this problem. | 翻訳日:2022-09-30 06:14:32 公開日:2020-11-03 |
# AdaDGS:非局所方向ガウススムージング勾配を用いた適応ブラックボックス最適化法 AdaDGS: An adaptive black-box optimization method with a nonlocal directional Gaussian smoothing gradient ( http://arxiv.org/abs/2011.02009v1 ) ライセンス: Link先を確認 | Hoang Tran and Guannan Zhang | (参考訳) 局所勾配は無限小近傍の最も急な斜面の方向を指している。
局所勾配で導かれるオプティマイザは、ロスランドスケープがマルチモーダルである場合、しばしば局所最適に閉じ込められる。
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。
その結果,従来の局所勾配をDGS勾配に置き換えることにより,高度マルチモーダル損失関数の最適化における勾配法の性能を著しく向上させることができることがわかった。
しかし、DGS勾配の最適性能は2つの重要なハイパーパラメータ、すなわち滑らかな半径と学習速度の微調整に依存する可能性がある。
本稿では,超パラメータの微調整の必要性をなくし,dgs勾配を用いた最適化のための,単純かつ巧妙かつ効率的な適応アプローチを提案する。
DGS勾配は一般によい探索方向を示すため、DGS方向に沿って線探索を行い、各繰り返しのステップサイズを決定する。
次に、学習したステップサイズは、次のイテレーションに応じてスムージング半径を調整することで、周囲の領域における機能ランドスケープのスケールを教えてくれる。
本研究では,高次元ベンチマーク関数,翼設計問題,ゲームコンテンツ生成問題に関する実験結果を示す。
AdaDGS法は、最先端のブラックボックス最適化法よりも優れた性能を示している。 The local gradient points to the direction of the steepest slope in an infinitesimal neighborhood. An optimizer guided by the local gradient is often trapped in local optima when the loss landscape is multi-modal. A directional Gaussian smoothing (DGS) approach was recently proposed in (Zhang et al., 2020) and used to define a truly nonlocal gradient, referred to as the DGS gradient, for high-dimensional black-box optimization. Promising results show that replacing the traditional local gradient with the DGS gradient can significantly improve the performance of gradient-based methods in optimizing highly multi-modal loss functions. However, the optimal performance of the DGS gradient may rely on fine tuning of two important hyper-parameters, i.e., the smoothing radius and the learning rate. In this paper, we present a simple, yet ingenious and efficient adaptive approach for optimization with the DGS gradient, which removes the need of hyper-parameter fine tuning. Since the DGS gradient generally points to a good search direction, we perform a line search along the DGS direction to determine the step size at each iteration. The learned step size in turn will inform us of the scale of function landscape in the surrounding area, based on which we adjust the smoothing radius accordingly for the next iteration. We present experimental results on high-dimensional benchmark functions, an airfoil design problem and a game content generation problem. The AdaDGS method has shown superior performance over several the state-of-the-art black-box optimization methods. | 翻訳日:2022-09-30 06:13:45 公開日:2020-11-03 |
# コンテンツに基づくTikTokとDouyinの文化的差異の分析 Content-based Analysis of the Cultural Differences between TikTok and Douyin ( http://arxiv.org/abs/2011.01414v1 ) ライセンス: Link先を確認 | Li Sun, Haoqi Zhang, Songyang Zhang, Jiebo Luo | (参考訳) 短いビデオソーシャルメディアは、聴衆に注目を集めるためにダイナミックなストーリーを語ることによって、伝統的なメディアパラダイムから離れていく。
特に、興味深く理解しやすいユニークなシーンを表現するために、日々のオブジェクトの異なる組み合わせが利用できます。
同じ会社によって提供されるtiktokとdouyinは、異なる市場(例えば米国と中国)向けに調整されている一方で、近年普及している新しいメディアの人気のある例である。
メディアのファッションや社会的イディオコプラシーと文化的な違いを表現できるという仮説は,我々の研究の主要な目標である。
そこで我々はまず、Microsoft Common Objects in Context (MS-COCO)データセットで事前訓練されたFaster Regional Convolutional Neural Network (Faster R-CNN)を用いてオブジェクト検出を行う。
ビデオから検出されたオブジェクトの集合に基づいて,ラベル統計,ラベル類似性,ラベル個人分布などの統計分析を行う。
さらに,2-stream inflated 3d convnet (i3d) をkineticsデータセットで事前学習し,人間の行動の分類と分析を行う。
tiktok と douyin の分布結果を比較することで,オブジェクト量,オブジェクトカテゴリ,ヒューマンアクションカテゴリのコンテンツ次元に沿った2つの密接な関係を持つビデオソーシャルメディアプラットフォーム間の類似性とコントラストを明らかにした。 Short-form video social media shifts away from the traditional media paradigm by telling the audience a dynamic story to attract their attention. In particular, different combinations of everyday objects can be employed to represent a unique scene that is both interesting and understandable. Offered by the same company, TikTok and Douyin are popular examples of such new media that has become popular in recent years, while being tailored for different markets (e.g. the United States and China). The hypothesis that they express cultural differences together with media fashion and social idiosyncrasy is the primary target of our research. To that end, we first employ the Faster Regional Convolutional Neural Network (Faster R-CNN) pre-trained with the Microsoft Common Objects in COntext (MS-COCO) dataset to perform object detection. Based on a suite of objects detected from videos, we perform statistical analysis including label statistics, label similarity, and label-person distribution. We further use the Two-Stream Inflated 3D ConvNet (I3D) pre-trained with the Kinetics dataset to categorize and analyze human actions. By comparing the distributional results of TikTok and Douyin, we uncover a wealth of similarity and contrast between the two closely related video social media platforms along the content dimensions of object quantity, object categories, and human action categories. | 翻訳日:2022-09-30 06:12:51 公開日:2020-11-03 |
# 顔モフティング攻撃の発生と検出:包括的調査 Face Morphing Attack Generation & Detection: A Comprehensive Survey ( http://arxiv.org/abs/2011.02045v1 ) ライセンス: Link先を確認 | Sushma Venkatesh, Raghavendra Ramachandra, Kiran Raja, Christoph Busch | (参考訳) 顔認識システム(frs)のさまざまな種類の攻撃(直接攻撃と間接攻撃の両方)と顔形態変化攻撃に対する脆弱性は、バイオメトリックスコミュニティから大きな関心を集めている。
モーフィング攻撃の目的は、このモーフィングされた顔画像に基づいて得られる電子機械可読旅行文書(eMRTD)またはeパスポートを提示することにより、自動境界制御(ABC)ゲートでのFRSを反転させることである。
多数国におけるe-passportの申請プロセスは、申請者が提示するパスポート写真を必要とするため、悪意のあるアクタと共犯者が変形した顔画像を生成し、e-passportを得ることができる。
顔画像が変形していることを確認することができるので、悪意のある俳優と共犯者の両方が顔画像を持つe-passportを使用して国境を横断することができる。
これは、悪意のある俳優が犯罪歴のトラックを明かさずに国境を越えることができ、共犯の詳細がアクセス制御システムのログに記録されるという重大な脅威をもたらす可能性がある。
本研究は,顔形態形成と形態検出の両面で,顔形態形成領域における進歩の体系的概要を示すことを目的とした。
本稿では, 顔形態形成攻撃の様々な側面について記述し, 顔形態形成画像の生成技術だけでなく, 厳密な分類法に基づくモルフ検出(Morph Detection Detection, MAD)アルゴリズムに関する最先端技術や, 最終的に公開データベースが利用可能となり, 新しいMADアルゴリズムを再現性のある方法でベンチマークすることが可能であることを示す。
競合/ベンチマーク、脆弱性評価、パフォーマンス評価指標の成果も包括的に提供される。
さらに、この進化するバイオメトリックス分野において対処する必要があるオープンな課題と今後の課題について論じる。 The vulnerability of Face Recognition System (FRS) to various kind of attacks (both direct and in-direct attacks) and face morphing attacks has received a great interest from the biometric community. The goal of a morphing attack is to subvert the FRS at Automatic Border Control (ABC) gates by presenting the Electronic Machine Readable Travel Document (eMRTD) or e-passport that is obtained based on the morphed face image. Since the application process for the e-passport in the majority countries requires a passport photo to be presented by the applicant, a malicious actor and the accomplice can generate the morphed face image and to obtain the e-passport. An e-passport with a morphed face images can be used by both the malicious actor and the accomplice to cross the border as the morphed face image can be verified against both of them. This can result in a significant threat as a malicious actor can cross the border without revealing the track of his/her criminal background while the details of accomplice are recorded in the log of the access control system. This survey aims to present a systematic overview of the progress made in the area of face morphing in terms of both morph generation and morph detection. In this paper, we describe and illustrate various aspects of face morphing attacks, including different techniques for generating morphed face images but also the state-of-the-art regarding Morph Attack Detection (MAD) algorithms based on a stringent taxonomy and finally the availability of public databases, which allow to benchmark new MAD algorithms in a reproducible manner. The outcomes of competitions/benchmarking, vulnerability assessments and performance evaluation metrics are also provided in a comprehensive manner. Furthermore, we discuss the open challenges and potential future works that need to be addressed in this evolving field of biometrics. | 翻訳日:2022-09-30 06:12:21 公開日:2020-11-03 |
# ヒューマンエージェント共同意思決定のための顔作業 Face-work for Human-Agent Joint Decision-Making ( http://arxiv.org/abs/2011.01969v1 ) ライセンス: Link先を確認 | JiHyun Jeong and Guy Hoffman | (参考訳) 信頼に関連する共通の社会的儀式であるフェイスワークを,人間と協調して行動する意思決定エージェントに統合する手法を提案する。
フェイスワーク(英: face-work)は、他者が「顔を失う」のを防ぐために設計された信頼構築行動のセットである。
本稿では,顔の働きを行動選択の一部として明示的に考慮した意思決定プロセスの設計について述べる。
また,提案手法の評価に使用可能な,オンライン環境に展開したシミュレーションロボットアームを提案する。 We propose a method to integrate face-work, a common social ritual related to trust, into a decision-making agent that works collaboratively with a human. Face-work is a set of trust-building behaviors designed to "save face" or prevent others from "losing face." This paper describes the design of a decision-making process that explicitly considers face-work as part of its action selection. We also present a simulated robot arm deployed in an online environment that can be used to evaluate the proposed method. | 翻訳日:2022-09-30 06:05:27 公開日:2020-11-03 |
# 無人航空機におけるスマートエージェントを用いたuav間のセキュアな通信 Secure communication between UAVs using a method based on smart agents in unmanned aerial vehicles ( http://arxiv.org/abs/2011.09285v1 ) ライセンス: Link先を確認 | Maryam Faraji-Biregani and Reza Fotohi | (参考訳) 無人航空機(UAV)は、ネットワークインフラを必要とせずに、非常に広い地域を監視できる。
UAVは飛行中に互いに通信し、情報を交換する。
しかし、そのような通信は動的トポロジーのためにセキュリティ上の課題を生じさせる。
これらの課題を解決するために,提案手法は2つのフェーズを用いて悪意あるUAV攻撃に対処する。
第1フェーズでは、悪意のあるUAVを検出するために、多くのルールと原則を適用しました。
このフェーズでは,ネットワーク内のUAVの挙動に応じて悪意のあるUAVを識別・削除し,偽情報を調査対象のUAVに送信することを防止する。
第2段階では、3段階交渉プロセスに基づく移動エージェントを用いて悪意のあるUAVを除去する。
このようにして、我々はモバイルエージェントを使用して、通常の隣人のUAVに、悪意のあるUAVが生成したデータに耳を傾けないように通知する。
したがって、各uavの移動エージェントは、3段階の交渉プロセスを通じて信頼できる隣人を利用するので、悪意のあるuavが生み出すトラフィックを聞かない。
NS-3シミュレータはSAUAV法の効率を実証するために使用された。
提案手法は,CST-UAS,CS-AVN,HVCR,BSUMに基づく検出率,偽陽性率,偽陰性率,パケット送出速度,残エネルギーよりも効率的である。 Unmanned aerial vehicles (UAVs) can be deployed to monitor very large areas without the need for network infrastructure. UAVs communicate with each other during flight and exchange information with each other. However, such communication poses security challenges due to its dynamic topology. To solve these challenges, the proposed method uses two phases to counter malicious UAV attacks. In the first phase, we applied a number of rules and principles to detect malicious UAVs. In this phase, we try to identify and remove malicious UAVs according to the behavior of UAVs in the network in order to prevent sending fake information to the investigating UAVs. In the second phase, a mobile agent based on a three-step negotiation process is used to eliminate malicious UAVs. In this way, we use mobile agents to inform our normal neighbor UAVs so that they do not listen to the data generated by the malicious UAVs. Therefore, the mobile agent of each UAV uses reliable neighbors through a three-step negotiation process so that they do not listen to the traffic generated by the malicious UAVs. The NS-3 simulator was used to demonstrate the efficiency of the SAUAV method. The proposed method is more efficient than CST-UAS, CS-AVN, HVCR, and BSUM-based methods in detection rate, false positive rate, false negative rate, packet delivery rate, and residual energy. | 翻訳日:2022-09-30 06:05:19 公開日:2020-11-03 |
# 高次元ヘテロシドスティック平均回帰における支援推定 Support estimation in high-dimensional heteroscedastic mean regression ( http://arxiv.org/abs/2011.01591v1 ) ライセンス: Link先を確認 | Philipp Hermann and Hajo Holzmann | (参考訳) 現在の高次元統計学の研究は、広範に広がる光尾仮定からの逸脱に関して利用可能な方法論を強固にすることを扱う。
本稿では,ランダムな設計と潜在的にヘテロシドスティックな重み付き誤差を伴う線形平均回帰モデルを検討し,このフレームワークにおける支援推定について検討する。
我々は,問題のパラメータに依存するチューニングパラメータを持つハマー損失関数の厳密な凸・滑らかな変形と,計算効率の適応LASSOペナルティを用いる。
結果として得られる推定値は、ホモシデスティックでライトテールな設定のように、$\ell_\infty$ のノルムにおける符号一貫性と最適収束率を示す。
解析では,フーバー損失関数のチューニングパラメータの小さい値であっても,線形平均回帰モデルとそのロバスト化バージョンにおける目標パラメータのサポートが著しく異なる可能性があるという問題に対処する必要がある。
シミュレーションは提案手法の良好な数値性能を示す。 A current strand of research in high-dimensional statistics deals with robustifying the available methodology with respect to deviations from the pervasive light-tail assumptions. In this paper we consider a linear mean regression model with random design and potentially heteroscedastic, heavy-tailed errors, and investigate support estimation in this framework. We use a strictly convex, smooth variant of the Huber loss function with tuning parameter depending on the parameters of the problem, as well as the adaptive LASSO penalty for computational efficiency. For the resulting estimator we show sign-consistency and optimal rates of convergence in the $\ell_\infty$ norm as in the homoscedastic, light-tailed setting. In our analysis, we have to deal with the issue that the support of the target parameter in the linear mean regression model and its robustified version may differ substantially even for small values of the tuning parameter of the Huber loss function. Simulations illustrate the favorable numerical performance of the proposed methodology. | 翻訳日:2022-09-30 06:04:55 公開日:2020-11-03 |
# ハイパーボリック空間にノード構造的役割アイデンティティを埋め込む Embedding Node Structural Role Identity into Hyperbolic Space ( http://arxiv.org/abs/2011.01512v1 ) ライセンス: Link先を確認 | Lili Wang, Ying Lu, Chenghan Huang, Soroush Vosoughi | (参考訳) 近年、双曲空間はグラフやネットワーク構造を捉え、複雑なネットワークの性質を自然に反映できることが示され、双曲空間への埋め込みへの関心が高まっている。
しかし、双曲空間におけるネットワーク埋め込みの研究は、顕微鏡ノード埋め込みに焦点を当てている。
本研究では,ノードの構造的役割を双曲空間に埋め込むためのフレームワークを初めて提示する。
我々のフレームワークは、構造的役割を保った埋め込み法であるstruct2vecを拡張し、それをハイパーボロイドモデルに移行する。
提案手法を4つの実世界と1つの合成ネットワークで評価した。
その結果,双曲空間は,ノードの構造的役割に対する潜在表現の学習においてユークリッド空間よりも有効であることがわかった。 Recently, there has been an interest in embedding networks in hyperbolic space, since hyperbolic space has been shown to work well in capturing graph/network structure as it can naturally reflect some properties of complex networks. However, the work on network embedding in hyperbolic space has been focused on microscopic node embedding. In this work, we are the first to present a framework to embed the structural roles of nodes into hyperbolic space. Our framework extends struct2vec, a well-known structural role preserving embedding method, by moving it to a hyperboloid model. We evaluated our method on four real-world and one synthetic network. Our results show that hyperbolic space is more effective than euclidean space in learning latent representations for the structural role of nodes. | 翻訳日:2022-09-30 06:04:29 公開日:2020-11-03 |
# 多対数サンプル複雑性を用いた決定木学習可能性の推定 Estimating decision tree learnability with polylogarithmic sample complexity ( http://arxiv.org/abs/2011.01584v1 ) ライセンス: Link先を確認 | Guy Blanc, Neha Gupta, Jane Lange, Li-Yang Tan | (参考訳) 単調な対象関数の場合、これらのヒューリスティックによって構築された決定木仮説の誤差は、多くのラベル付き例で推定でき、これらのヒューリスティックスを実行するのに必要な数よりも指数関数的に小さく、実際、良い決定木を学ぶのに必要な情報理論最小値よりも指数関数的に小さい。
これは、学習可能性の推定に適していることが示されている基本的な学習アルゴリズムのごく小さなリストに追加される。
その結果、トップダウン決定木学習ヒューリスティックスのサンプル効率のよいミニバッチバージョンを設計・解析し、フルバッチ版と同じ保証を実現することを示す。
テストポイント $x^\star$ が与えられたとき、決定木仮説 $t$ のラベル $t(x^\star)$ が、多くのラベル付き例で計算できることを示し、$t$ を学ぶのに必要な数よりも指数関数的に小さい。 We show that top-down decision tree learning heuristics are amenable to highly efficient learnability estimation: for monotone target functions, the error of the decision tree hypothesis constructed by these heuristics can be estimated with polylogarithmically many labeled examples, exponentially smaller than the number necessary to run these heuristics, and indeed, exponentially smaller than information-theoretic minimum required to learn a good decision tree. This adds to a small but growing list of fundamental learning algorithms that have been shown to be amenable to learnability estimation. En route to this result, we design and analyze sample-efficient minibatch versions of top-down decision tree learning heuristics and show that they achieve the same provable guarantees as the full-batch versions. We further give "active local" versions of these heuristics: given a test point $x^\star$, we show how the label $T(x^\star)$ of the decision tree hypothesis $T$ can be computed with polylogarithmically many labeled examples, exponentially smaller than the number necessary to learn $T$. | 翻訳日:2022-09-30 06:04:15 公開日:2020-11-03 |
# 分散最適化のための線形収束アルゴリズム: 少ないビットを無料で送る! A Linearly Convergent Algorithm for Decentralized Optimization: Sending Less Bits for Free! ( http://arxiv.org/abs/2011.01697v1 ) ライセンス: Link先を確認 | Dmitry Kovalev and Anastasia Koloskova and Martin Jaggi and Peter Richtarik and Sebastian U. Stich | (参考訳) 分散最適化手法は、中央コーディネータなしで機械学習モデルのオンデバイストレーニングを可能にする。
多くのシナリオにおいて、デバイス間の通信はエネルギー要求と時間消費であり、システム全体のボトルネックを形成します。
通信メッセージにランダム化圧縮演算子を適用することにより,通信ボトルネックに対処する新しいランダム化一階法を提案する。
提案手法と, 繰り返しを通じて段階的に量子化雑音の悪影響を低減する新しい分散低減手法を組み合わせることにより, 圧縮通信のみを使用しながら, 強い凸分散問題に線形収束する第1のスキームを得る。
本手法は,ネットワークの条件やトポロジに依存する重要な圧縮係数を許容しながら,通信圧縮を行わないベースラインと比較して,通信数の増加を伴わずに解決できることを実証する。
我々の重要な理論的知見は数値実験によって裏付けられている。 Decentralized optimization methods enable on-device training of machine learning models without a central coordinator. In many scenarios communication between devices is energy demanding and time consuming and forms the bottleneck of the entire system. We propose a new randomized first-order method which tackles the communication bottleneck by applying randomized compression operators to the communicated messages. By combining our scheme with a new variance reduction technique that progressively throughout the iterations reduces the adverse effect of the injected quantization noise, we obtain the first scheme that converges linearly on strongly convex decentralized problems while using compressed communication only. We prove that our method can solve the problems without any increase in the number of communications compared to the baseline which does not perform any communication compression while still allowing for a significant compression factor which depends on the conditioning of the problem and the topology of the network. Our key theoretical findings are supported by numerical experiments. | 翻訳日:2022-09-30 06:03:38 公開日:2020-11-03 |
# 実世界のオフラインモデルに基づく強化学習のための微分可能な物理モデル Differentiable Physics Models for Real-world Offline Model-based Reinforcement Learning ( http://arxiv.org/abs/2011.01734v1 ) ライセンス: Link先を確認 | Michael Lutter, Johannes Silberbauer, Joe Watson, Jan Peters | (参考訳) モデルベース強化学習(MBRL)の限界は、学習モデルにおける誤りの活用である。
ブラックボックスモデルは複雑なダイナミクスと高い忠実性に適合するが、その振る舞いはデータ分布の外では定義されていない。物理学に基づくモデルは、インフォームドな構造が一般的に有効であるため、外挿する上では優れているが、非モデリング現象の存在により実世界では不適当である。
本研究では,オフラインモデルに基づく強化学習環境において,機械構造が分かっている場合,高容量関数近似器と比較して物理モデルが有益であることを実験的に示す。
物理モデルに基づくモデルは、オフラインのMBRLを使用してサンプルデータのわずか4分で物理マニピュレータ上のカップ(BiC)タスクでボールを実行できる。
ブラックボックスモデルは、物理ベースモデルよりも多くのデータにアクセスできたにもかかわらず、予測されるすべての軌道が物理的に不可能な状態に分岐するので、常にビックに対して不可能なポリシーを生成する。
さらに、ホロノミック多体系のモデリングから、エンドツーエンドの自動微分を用いた非ホロノミック力学系への物理パラメータ同定のアプローチを一般化する。
ビデオ: https://sites.google.com/view/ball-in-a-cup-in-4- minutes/ A limitation of model-based reinforcement learning (MBRL) is the exploitation of errors in the learned models. Black-box models can fit complex dynamics with high fidelity, but their behavior is undefined outside of the data distribution.Physics-based models are better at extrapolating, due to the general validity of their informed structure, but underfit in the real world due to the presence of unmodeled phenomena. In this work, we demonstrate experimentally that for the offline model-based reinforcement learning setting, physics-based models can be beneficial compared to high-capacity function approximators if the mechanical structure is known. Physics-based models can learn to perform the ball in a cup (BiC) task on a physical manipulator using only 4 minutes of sampled data using offline MBRL. We find that black-box models consistently produce unviable policies for BiC as all predicted trajectories diverge to physically impossible state, despite having access to more data than the physics-based model. In addition, we generalize the approach of physics parameter identification from modeling holonomic multi-body systems to systems with nonholonomic dynamics using end-to-end automatic differentiation. Videos: https://sites.google.com/view/ball-in-a-cup-in-4-minutes/ | 翻訳日:2022-09-30 06:03:22 公開日:2020-11-03 |
# エンド・ツー・エンド話者型ASRにおける最小ベイズリスクトレーニング Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR ( http://arxiv.org/abs/2011.02921v1 ) ライセンス: Link先を確認 | Naoyuki Kanda, Zhong Meng, Liang Lu, Yashesh Gaur, Xiaofei Wang, Zhuo Chen, Takuya Yoshioka | (参考訳) 近年,単声重畳音声に対する話者カウント,音声認識,話者識別の結合モデルとして,エンド・ツー・エンド話者分散自動音声認識(E2E SA-ASR)モデルが提案されている。
前報では, 話者対応最大相互情報(SA-MMI)基準に基づいて, モデルパラメータを訓練し, 学習データを用いて, 多話者転写と話者識別の結合後確率を最大化する。
SA-MMI訓練は, 話者数による重なり合う音声に対して有望な結果を示したが, トレーニング基準は最終評価基準, すなわち話者対応単語誤り率(SA-WER)に直接関連しない。
本稿では,学習データ上で想定されるsa-werを直接最小化するようにパラメータを訓練する,話者帰属最小ベイズリスク(sa-mbr)トレーニング手法を提案する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。 Recently, an end-to-end speaker-attributed automatic speech recognition (E2E SA-ASR) model was proposed as a joint model of speaker counting, speech recognition and speaker identification for monaural overlapped speech. In the previous study, the model parameters were trained based on the speaker-attributed maximum mutual information (SA-MMI) criterion, with which the joint posterior probability for multi-talker transcription and speaker identification are maximized over training data. Although SA-MMI training showed promising results for overlapped speech consisting of various numbers of speakers, the training criterion was not directly linked to the final evaluation metric, i.e., speaker-attributed word error rate (SA-WER). In this paper, we propose a speaker-attributed minimum Bayes risk (SA-MBR) training method where the parameters are trained to directly minimize the expected SA-WER over the training data. Experiments using the LibriSpeech corpus show that the proposed SA-MBR training reduces the SA-WER by 9.0 % relative compared with the SA-MMI-trained model. | 翻訳日:2022-09-30 05:57:07 公開日:2020-11-03 |
# 医用画像像定位における不確かさ推定 : 深部脳刺激に対するロバスト前視床目標に向けて Uncertainty Estimation in Medical Image Localization: Towards Robust Anterior Thalamus Targeting for Deep Brain Stimulation ( http://arxiv.org/abs/2011.02067v1 ) ライセンス: Link先を確認 | Han Liu, Can Cui, Dario J. Englot, Benoit M. Dawant | (参考訳) アトラス法は、深部脳刺激(DBS)のための視床前核(ANT)の自動的ターゲティングの標準手法であるが、アトラスと被験者の解剖学的差異が大きい場合には、堅牢性が欠如していることが知られている。
局所化の堅牢性を改善するために,第1段階が脳MRI全体から視床領域を特定して収穫し,第2段階が収穫された体積に対して1ボクセルレグレッションを行い,目標を最も解像度の高いスケールでローカライズする,新たな2段階ディープラーニング(DL)フレームワークを提案する。
データ不足の問題に対処するために,マルチアトラス登録を用いて利用可能なラベル付きデータに基づいて作成した擬似ラベルを用いてモデルをトレーニングする。
提案手法の性能を評価するため,モンテカルロ・ドロップアウト (MCDO) とテスト時間拡張 (TTA) という2つのサンプリングベース不確実性推定手法を2段階のローカライゼーションネットワーク上で検証した。
さらに,局所化タスクのイメージワイド不確実性を推定するために,最大アクティベーション分散(MAD)と呼ばれる新しい不確実性推定指標を提案する。
提案手法は従来のマルチアトラス法よりもロバストなローカライズ性能を実現し,TTAはロバスト性をさらに向上できることを示した。
さらに,MADが推定した疫学的およびハイブリッド的不確実性は,信頼性の低い局所化の検出に利用することができ,MADが推定した不確実性の大きさは,拒絶された予測に対する信頼性の程度を反映することができた。 Atlas-based methods are the standard approaches for automatic targeting of the Anterior Nucleus of the Thalamus (ANT) for Deep Brain Stimulation (DBS), but these are known to lack robustness when anatomic differences between atlases and subjects are large. To improve the localization robustness, we propose a novel two-stage deep learning (DL) framework, where the first stage identifies and crops the thalamus regions from the whole brain MRI and the second stage performs per-voxel regression on the cropped volume to localize the targets at the finest resolution scale. To address the issue of data scarcity, we train the models with the pseudo labels which are created based on the available labeled data using multi-atlas registration. To assess the performance of the proposed framework, we validate two sampling-based uncertainty estimation techniques namely Monte Carlo Dropout (MCDO) and Test-Time Augmentation (TTA) on the second-stage localization network. Moreover, we propose a novel uncertainty estimation metric called maximum activation dispersion (MAD) to estimate the image-wise uncertainty for localization tasks. Our results show that the proposed method achieved more robust localization performance than the traditional multi-atlas method and TTA could further improve the robustness. Moreover, the epistemic and hybrid uncertainty estimated by MAD could be used to detect the unreliable localizations and the magnitude of the uncertainty estimated by MAD could reflect the degree of unreliability for the rejected predictions. | 翻訳日:2022-09-30 05:55:29 公開日:2020-11-03 |
# 特性係数を用いた航海中の経路品質測定と経路洗練の試み An approach to measure route quality and refine the route during the voyage using characteristic coefficients ( http://arxiv.org/abs/2011.01607v1 ) ライセンス: Link先を確認 | Ivan Yanchin, Oleg Petrov | (参考訳) 本論文は、航海中の船の航路を検証・洗練する方法を提案する。
この手法は経路特性を表現・測定するいくつかの特性係数の計算に基づく。
提案する特性係数, 経路改良の過程, 今後の経路変化の予測と検証の方法について述べる。 The paper presents a method to validate and refine the ship's route during the voyage. The method is based on computing several characteristic coefficients that represent and measure route properties. Thru the analysis of the values of these coefficient, one can analyse the overall route quality and detect possibly dangerous discrepancies between the actual route and the planned route.The paper describes the proposed characteristic coefficients, the process of route refinement and the method for prediction and validation of the route's future changes. | 翻訳日:2022-09-30 05:54:34 公開日:2020-11-03 |
# UAVにおけるインテリジェントリフレクタを用いたミリ波通信のための分散強化学習 Distributional Reinforcement Learning for mmWave Communications with Intelligent Reflectors on a UAV ( http://arxiv.org/abs/2011.01840v1 ) ライセンス: Link先を確認 | Qianqian Zhang, Walid Saad, Mehdi Bennis | (参考訳) 本稿では,無人航空機 (uav) 搭載のインテリジェントリフレクタ (ir) を用いた,ミリ波(ミリ波)周波数でのマルチユーザダウンリンク伝送の高速化を目的とした新しい通信枠組みを提案する。
ダウンリンク和率を最大化するために、最適なプリコーディング行列(基地局)と反射係数(ir)を共同で導出する。
次に、mWaveチャネルの不確実性に対処し、リアルタイムに視線リンクを維持するために、量子レグレッション最適化に基づく分散強化学習手法を提案し、この方法を用いて、mWave通信の伝搬環境を学習し、UAV-IRの位置を最適化し、長期ダウンリンク通信容量を最大化する。
シミュレーションの結果,UAV-IRの学習に基づく展開は,非学習型UAV-IR,静的IR,および直接伝送方式と比較して,平均データレートと,ダウンリンクmmWave通信の到達可能な視線確率の点で有意な優位性を示した。 In this paper, a novel communication framework that uses an unmanned aerial vehicle (UAV)-carried intelligent reflector (IR) is proposed to enhance multi-user downlink transmissions over millimeter wave (mmWave) frequencies. In order to maximize the downlink sum-rate, the optimal precoding matrix (at the base station) and reflection coefficient (at the IR) are jointly derived. Next, to address the uncertainty of mmWave channels and maintain line-of-sight links in a real-time manner, a distributional reinforcement learning approach, based on quantile regression optimization, is proposed to learn the propagation environment of mmWave communications, and, then, optimize the location of the UAV-IR so as to maximize the long-term downlink communication capacity. Simulation results show that the proposed learning-based deployment of the UAV-IR yields a significant advantage, compared to a non-learning UAV-IR, a static IR, and a direct transmission schemes, in terms of the average data rate and the achievable line-of-sight probability of downlink mmWave communications. | 翻訳日:2022-09-30 05:54:16 公開日:2020-11-03 |
# プロセスマイニングによるプロセスモデルの自動シミュレーションと検証 Automated simulation and verification of process models discovered by process mining ( http://arxiv.org/abs/2011.01646v1 ) ライセンス: Link先を確認 | Ivona Zakarija, Frano \v{S}kopljanac-Ma\v{c}ina and Bruno Bla\v{s}kovi\'c | (参考訳) 本稿では,プロセスマイニング技術を用いたプロセスモデルの自動解析手法を提案する。
プロセスマイニングは、さまざまなデバイスによって生成されたイベントデータに隠された基本的なプロセスを探索する。
提案手法は,ホテルの不動産管理システム(PMS)から得られた実際のイベントログデータに基づいて,ビジネスプロセスモデルを構築するために提案した。
PMSは、様々な外部システムやIoTデバイスと統合されているため、マルチエージェントシステム(MAS)とみなすことができる。
収集されたイベントログは、ホテルのスタッフが記録した宿泊客のデータと、電話交換やその他の外部IoTデバイスから取得したデータストリームを組み合わせる。
次に,形式的手法を用いてプロセスモデルの自動解析を行った。
spin model checkerはプロセスモデルの実行をシミュレートし、プロセスモデルを自動的に検証するために使われた。
本研究では,検出されたプロセスモデルの検証モデルへの自動変換アルゴリズムを提案する。
さらに, 正例と負例のジェネレータを開発した。
検証段階では、要求されたシステム仕様を定義するためにLTL(Linear temporal logic)も使用しています。
分析結果がプロセスモデルの修復に適していることが分かりました。 This paper presents a novel approach for automated analysis of process models discovered using process mining techniques. Process mining explores underlying processes hidden in the event data generated by various devices. Our proposed Inductive machine learning method was used to build business process models based on actual event log data obtained from a hotel's Property Management System (PMS). The PMS can be considered as a Multi Agent System (MAS) because it is integrated with a variety of external systems and IoT devices. Collected event log combines data on guests stay recorded by hotel staff, as well as data streams captured from telephone exchange and other external IoT devices. Next, we performed automated analysis of the discovered process models using formal methods. Spin model checker was used to simulate process model executions and automatically verify the process model. We proposed an algorithm for the automatic transformation of the discovered process model into a verification model. Additionally, we developed a generator of positive and negative examples. In the verification stage, we have also used Linear temporal logic (LTL) to define requested system specifications. We find that the analysis results will be well suited for process model repair. | 翻訳日:2022-09-30 05:47:23 公開日:2020-11-03 |
# 確率に基づく文脈計画の評価 Provenance-Based Assessment of Plans in Context ( http://arxiv.org/abs/2011.01774v1 ) ライセンス: Link先を確認 | Scott E. Friedman, Robert P. Goldman, Richard G. Freedman, Ugur Kuter, Christopher Geib, Jeffrey Rye | (参考訳) 多くの現実世界の計画ドメインには、様々な情報ソース、外部エンティティ、可変信頼度エージェントが含まれており、これらすべてが計画の信頼性、リスク、感度に影響する可能性がある。
計画の見直しには、これらの要因に関する文脈が欠落している可能性があるが、この情報はドメイン生成時に利用可能であり、プランナーとその計画に織り込むこともできる。
本稿では,自動計画を説明するための証明に基づくアプローチを提案する。
提案手法は,SHOP3 HTNプランナを拡張して依存性情報を生成し,(2)依存情報を確立したPROV-O表現に変換し,(3)グラフ伝搬とTMSにインスパイアされたアルゴリズムを用いて情報フロー,信頼,サポートの動的および反実的評価を支援する。
我々は,自動計画文献と情報分析文献からの説明対象について,提案手法の解説範囲を適格化させ,計画の正当性,敏感性,リスク,仮定支援,多様性,相対信頼度を評価する能力を示した。 Many real-world planning domains involve diverse information sources, external entities, and variable-reliability agents, all of which may impact the confidence, risk, and sensitivity of plans. Humans reviewing a plan may lack context about these factors; however, this information is available during the domain generation, which means it can also be interwoven into the planner and its resulting plans. This paper presents a provenance-based approach to explaining automated plans. Our approach (1) extends the SHOP3 HTN planner to generate dependency information, (2) transforms the dependency information into an established PROV-O representation, and (3) uses graph propagation and TMS-inspired algorithms to support dynamic and counter-factual assessment of information flow, confidence, and support. We qualified our approach's explanatory scope with respect to explanation targets from the automated planning literature and the information analysis literature, and we demonstrate its ability to assess a plan's pertinence, sensitivity, risk, assumption support, diversity, and relative confidence. | 翻訳日:2022-09-30 05:47:08 公開日:2020-11-03 |
# 衝突に対する抵抗性を持つシングルトン混雑ゲームについて On Singleton Congestion Games with Resilience Against Collusion ( http://arxiv.org/abs/2011.01791v1 ) ライセンス: Link先を確認 | Bugra Caskurlu, Ozgun Ekici, Fatih Erdem Kizilkaya | (参考訳) 同一かつコスト関数の増大を伴うシングルトン混雑ゲーム(英語版)のサブクラス、すなわち、各エージェントは、アクセス可能なリソースのサブセットの中で、最も混み合ったリソースから利用しようとする。
我々の主な貢献は、偏差を弱く改善する回復力のある平衡結果の存在を証明する新しいアプローチである。
(i)$ by singletons (Nash equilibria)$
(ii)大連立による$(パレート効率)、および$
(iii)予め与えられた分割連立構造(分割平衡)に関する連立による$
我々の知る限りでは、これは連立による偏差を弱く改善する弾力性のある混雑ゲーム文学における最強の存在保証である。 We study the subclass of singleton congestion games with identical and increasing cost functions, i.e., each agent tries to utilize from the least crowded resource in her accessible subset of resources. Our main contribution is a novel approach for proving the existence of equilibrium outcomes that are resilient to weakly improving deviations: $(i)$ by singletons (Nash equilibria), $(ii)$ by the grand coalition (Pareto efficiency), and $(iii)$ by coalitions with respect to an a priori given partition coalition structure (partition equilibria). To the best of our knowledge, this is the strongest existence guarantee in the literature of congestion games that is resilient to weakly improving deviations by coalitions. | 翻訳日:2022-09-30 05:46:49 公開日:2020-11-03 |
# インセンティブアウェア評価機構による福祉の最大化 Maximizing Welfare with Incentive-Aware Evaluation Mechanisms ( http://arxiv.org/abs/2011.01956v1 ) ライセンス: Link先を確認 | Nika Haghtalab, Nicole Immorlica, Brendan Lucier, Jack Z. Wang | (参考訳) 大学進学や保険率決定などの応用に動機づけられ,入力を,その特徴を低コストで修正可能な戦略的個人によって制御される評価問題を提案する。
学習者は特徴を部分的にのみ観察することができ、品質スコアに関して個人を分類することを目的としている。
目標は、集団における全体的な品質スコア、すなわち福祉を最大化し、戦略的更新を考慮に入れた評価メカニズムを設計することである。
さらに,本モデルにおける2つの具体的条件下での福祉最大化評価機構のアルゴリズム的側面について検討した。
スコアが線形であり,観測可能な特徴に対する線形スコアリングルールを用いる機構では,最適評価機構が品質スコアの適切な投影であることを示す。
機構が線形しきい値を使用する必要があるとき、基礎となる特徴分布が十分に滑らかであるときに(1/4)近似保証を持つ多項式時間アルゴリズムを設計し、密度の高い領域を見つけるための神託を認める。
結果は、以前の分布が不明で、サンプルから学ぶ必要がある設定にまで拡張します。 Motivated by applications such as college admission and insurance rate determination, we propose an evaluation problem where the inputs are controlled by strategic individuals who can modify their features at a cost. A learner can only partially observe the features, and aims to classify individuals with respect to a quality score. The goal is to design an evaluation mechanism that maximizes the overall quality score, i.e., welfare, in the population, taking any strategic updating into account. We further study the algorithmic aspect of finding the welfare maximizing evaluation mechanism under two specific settings in our model. When scores are linear and mechanisms use linear scoring rules on the observable features, we show that the optimal evaluation mechanism is an appropriate projection of the quality score. When mechanisms must use linear thresholds, we design a polynomial time algorithm with a (1/4)-approximation guarantee when the underlying feature distribution is sufficiently smooth and admits an oracle for finding dense regions. We extend our results to settings where the prior distribution is unknown and must be learned from samples. | 翻訳日:2022-09-30 05:46:13 公開日:2020-11-03 |
# 多言語ボトルネック特徴に基づくテーマ音声アーカイブからの教師なしパターン発見 Unsupervised Pattern Discovery from Thematic Speech Archives Based on Multilingual Bottleneck Features ( http://arxiv.org/abs/2011.01986v1 ) ライセンス: Link先を確認 | Man-Ling Sung and Siyuan Feng and Tan Lee | (参考訳) 本研究では,自動音声認識(ASR)技術を用いて,音声の書き起こしを必要とせず,音声アーカイブから音声キーワードを自動的に検出する問題に取り組む。
この問題は、低リソース言語や多言語データや多言語データなど、音声分析の多くの応用において実用的な意味を持つ。
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
プロセス全体は、非転写データによるサブワードレベルの音声ユニットのセットを導出し、モデル化することから始まる。
教師なしの音響モデルでは、与えられたオーディオアーカイブは擬似転写によって表現され、そこから文字列マイニングアルゴリズムによって音声キーワードが検出される。
教師なし音響モデリングでは、多言語音声コーパスによって訓練されたディープニューラルネットワークを用いて音声分割とセグメントクラスタリングのボトルネック特徴を生成する。
実験の結果,本システムはmitオープンコースウェアを用いた講義記録からトピック関連語句を効果的に抽出できることがわかった。 The present study tackles the problem of automatically discovering spoken keywords from untranscribed audio archives without requiring word-by-word speech transcription by automatic speech recognition (ASR) technology. The problem is of practical significance in many applications of speech analytics, including those concerning low-resource languages, and large amount of multilingual and multi-genre data. We propose a two-stage approach, which comprises unsupervised acoustic modeling and decoding, followed by pattern mining in acoustic unit sequences. The whole process starts by deriving and modeling a set of subword-level speech units with untranscribed data. With the unsupervisedly trained acoustic models, a given audio archive is represented by a pseudo transcription, from which spoken keywords can be discovered by string mining algorithms. For unsupervised acoustic modeling, a deep neural network trained by multilingual speech corpora is used to generate speech segmentation and compute bottleneck features for segment clustering. Experimental results show that the proposed system is able to effectively extract topic-related words and phrases from the lecture recordings on MIT OpenCourseWare. | 翻訳日:2022-09-30 05:45:27 公開日:2020-11-03 |
# 音声における感情要素の分散と分解のためのVAW-GAN VAW-GAN for Disentanglement and Recomposition of Emotional Elements in Speech ( http://arxiv.org/abs/2011.02314v1 ) ライセンス: Link先を確認 | Kun Zhou, Berrak Sisman, Haizhou Li | (参考訳) 感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
本稿では,ワッサーシュタイン生成逆数ネットワーク(VAW-GAN)を用いて,音声中の感情要素の歪みと分解について検討する。
本稿では,スペクトル変換用と韻律変換用の2つのvaw-ganパイプラインを含む,vaw-ganに基づく話者依存型evcフレームワークを提案する。
スペクトル特徴から感情と韻律(f0)情報を分離するスペクトルエンコーダを訓練し、言語的韻律から韻律(感情的韻律)の感情変調を解消する韻律エンコーダを訓練する。
実行時には、韻律VAW-GANの出力にスペクトルVAW-GANの復号器を条件付ける。
ボコーダは、変換されたスペクトルと韻律的特徴を利用して、対象の感情音声を生成する。
提案手法の有効性を客観評価と主観評価の両方で検証した。 Emotional voice conversion (EVC) aims to convert the emotion of speech from one state to another while preserving the linguistic content and speaker identity. In this paper, we study the disentanglement and recomposition of emotional elements in speech through variational autoencoding Wasserstein generative adversarial network (VAW-GAN). We propose a speaker-dependent EVC framework based on VAW-GAN, that includes two VAW-GAN pipelines, one for spectrum conversion, and another for prosody conversion. We train a spectral encoder that disentangles emotion and prosody (F0) information from spectral features; we also train a prosodic encoder that disentangles emotion modulation of prosody (affective prosody) from linguistic prosody. At run-time, the decoder of spectral VAW-GAN is conditioned on the output of prosodic VAW-GAN. The vocoder takes the converted spectral and prosodic features to generate the target emotional speech. Experiments validate the effectiveness of our proposed method in both objective and subjective evaluations. | 翻訳日:2022-09-30 05:45:09 公開日:2020-11-03 |
# 流体力学設計問題に対する周波数補償ピン Frequency-compensated PINNs for Fluid-dynamic Design Problems ( http://arxiv.org/abs/2011.01456v1 ) ライセンス: Link先を確認 | Tongtao Zhang, Biswadip Dey, Pratik Kakkar, Arindam Dasgupta, Amit Chakraborty | (参考訳) シリンダー周りの非圧縮性流体の流れは、例えばオフショア構造の設計やピンフィン熱交換器の設計など、多くの現実の工学的問題と強い関係を持つ流体力学の古典的な問題の一つである。
したがって、この問題に対する高精度なサロゲートの学習は、新しい機械学習アプローチの有効性を示すことができる。
本研究では,シミュレーション出力と基礎となる幾何学と境界条件の関係を学習するための物理インフォームドニューラルネットワーク(PINN)アーキテクチャを提案する。
物理学に基づく正規化項を用いるのに加えて、提案手法は基礎となる物理学を利用してフーリエ特徴、すなわち周波数と位相オフセットパラメータを学習し、それを時空間領域上の流れ速度と圧力の予測に用いる。
提案手法は,範囲時間間隔内および新規設計条件に対するシミュレーション結果の予測によって実証される。
この結果から,フーリエ特徴の組み入れにより時間領域および設計空間の一般化性能が向上することが示された。 Incompressible fluid flow around a cylinder is one of the classical problems in fluid-dynamics with strong relevance with many real-world engineering problems, for example, design of offshore structures or design of a pin-fin heat exchanger. Thus learning a high-accuracy surrogate for this problem can demonstrate the efficacy of a novel machine learning approach. In this work, we propose a physics-informed neural network (PINN) architecture for learning the relationship between simulation output and the underlying geometry and boundary conditions. In addition to using a physics-based regularization term, the proposed approach also exploits the underlying physics to learn a set of Fourier features, i.e. frequency and phase offset parameters, and then use them for predicting flow velocity and pressure over the spatio-temporal domain. We demonstrate this approach by predicting simulation results over out of range time interval and for novel design conditions. Our results show that incorporation of Fourier features improves the generalization performance over both temporal domain and design space. | 翻訳日:2022-09-30 05:39:20 公開日:2020-11-03 |
# 属性ミスグラフの学習 Learning on Attribute-Missing Graphs ( http://arxiv.org/abs/2011.01623v1 ) ライセンス: Link先を確認 | Xu Chen and Siheng Chen and Jiangchao Yao and Huangjie Zheng and Ya Zhang and Ivor W Tsang | (参考訳) ノード属性の完全なグラフは近年広く研究されている。
実際には、部分ノードのみの属性が利用可能であり、他の属性が完全に欠落している可能性があるグラフがある。
この属性欠落グラフは多くの実世界の応用に関係しており、対応する学習問題の研究は限られている。
GNNを含む既存のグラフ学習手法は,属性欠落グラフに指定されていないため,満足度の高い学習性能を提供できない。
したがって、これらのグラフのための新しいgnnの設計は、グラフ学習コミュニティにとって燃える問題である。
本稿では,グラフ上の共有遅延空間を仮定し,属性欠落グラフのための構造属性変換器(SAT)と呼ばれる新しい分布マッチングベースGNNを開発する。
satは分離スキームで構造と属性を活用し、分散マッチング技術により構造と属性の合同分布モデリングを実現する。
リンク予測タスクだけでなく,新たに導入されたノード属性補完タスクも実行できた。
さらに,ノード属性補完の性能を定量化するために,実測値を導入する。
7つの実世界のデータセットに対する大規模な実験は、SATがリンク予測とノード属性完了タスクの両方で他の方法よりも優れた性能を示すことを示している。
コードとデータはオンラインで入手できる。 https://github.com/xuChenSJTU/SAT-master-online Graphs with complete node attributes have been widely explored recently. While in practice, there is a graph where attributes of only partial nodes could be available and those of the others might be entirely missing. This attribute-missing graph is related to numerous real-world applications and there are limited studies investigating the corresponding learning problems. Existing graph learning methods including the popular GNN cannot provide satisfied learning performance since they are not specified for attribute-missing graphs. Thereby, designing a new GNN for these graphs is a burning issue to the graph learning community. In this paper, we make a shared-latent space assumption on graphs and develop a novel distribution matching based GNN called structure-attribute transformer (SAT) for attribute-missing graphs. SAT leverages structures and attributes in a decoupled scheme and achieves the joint distribution modeling of structures and attributes by distribution matching techniques. It could not only perform the link prediction task but also the newly introduced node attribute completion task. Furthermore, practical measures are introduced to quantify the performance of node attribute completion. Extensive experiments on seven real-world datasets indicate SAT shows better performance than other methods on both link prediction and node attribute completion tasks. Codes and data are available online: https://github.com/xuChenSJTU/SAT-master-online | 翻訳日:2022-09-30 05:38:28 公開日:2020-11-03 |
# 医薬品注文の薬剤師評価と機械学習モデルによる予測の比較 Comparison of pharmacist evaluation of medication orders with predictions of a machine learning model ( http://arxiv.org/abs/2011.01925v1 ) ライセンス: Link先を確認 | Sophie-Camille Hogue, Flora Chen, Genevi\`eve Brassard, Denis Lebel, Jean-Fran\c{c}ois Bussi\`eres, Audrey Durand, Maxime Thibault | (参考訳) この研究の目的は、異常な薬の注文と薬理学的プロファイルを特定することを目的とした教師なし機械学習モデルの臨床的性能を評価することである。
我々は2020年4月から2020年8月までに25名の臨床薬剤師(典型的または非典型的)が12,471名、薬理学的プロファイルが1,356名であった。
AUPRに基づくと、パフォーマンスは注文に乏しかったが、プロファイルに満足していた。
薬剤師はこのモデルが有用なスクリーニングツールだと考えた。 The objective of this work was to assess the clinical performance of an unsupervised machine learning model aimed at identifying unusual medication orders and pharmacological profiles. We conducted a prospective study between April 2020 and August 2020 where 25 clinical pharmacists dichotomously (typical or atypical) rated 12,471 medication orders and 1,356 pharmacological profiles. Based on AUPR, performance was poor for orders, but satisfactory for profiles. Pharmacists considered the model a useful screening tool. | 翻訳日:2022-09-30 05:37:21 公開日:2020-11-03 |
# 適応型q-learningによる制御 Control with adaptive Q-learning ( http://arxiv.org/abs/2011.02141v1 ) ライセンス: Link先を確認 | Jo\~ao Pedro Ara\'ujo and M\'ario A. T. Figueiredo and Miguel Ayala Botto | (参考訳) 本稿では,適応Q-ラーニング(AQL)と単一分割適応Q-ラーニング(SPAQL)を2つの古典的制御問題(PendulumとCartpole)で評価した。
AQLは、制御ポリシーを学習しながら、マルコフ決定プロセス(MDP)の状態-アクション空間を適応的に分割する。
e.
状態からアクションへのマッピング。
AQLとSPAQLの主な違いは、状態からアクションへのマッピングがタイムステップに明示的に依存しない、時間不変のポリシを学ぶことだ。
本稿では,制御問題に対するレギュレータの設計に適したSPAQLの改良版である端末状態付きSPAQL(SPAQL-TS)を提案する。
時間不変ポリシーは、どちらの問題においても、時間不変ポリシーよりも優れたパフォーマンスをもたらすことが示されている。
これらのアルゴリズムは、カルトポール問題と同様に、作用空間が有限であるRL問題に特に適合する。
SPAQL-TSはOpenAI Gym Cartpole問題を解決すると同時に、コントロールタスクを解決するための標準RLアルゴリズムである信頼領域ポリシー最適化(TRPO)よりも高いサンプリング効率を示す。
さらに、SPAQLで学んだポリシーは解釈可能であり、TRPOポリシーは一般的にニューラルネットワークとしてエンコードされるため、解釈が困難である。
SPAQLの大きなメリットは、解釈可能なポリシをサンプル効率で取得することです。 This paper evaluates adaptive Q-learning (AQL) and single-partition adaptive Q-learning (SPAQL), two algorithms for efficient model-free episodic reinforcement learning (RL), in two classical control problems (Pendulum and Cartpole). AQL adaptively partitions the state-action space of a Markov decision process (MDP), while learning the control policy, i. e., the mapping from states to actions. The main difference between AQL and SPAQL is that the latter learns time-invariant policies, where the mapping from states to actions does not depend explicitly on the time step. This paper also proposes the SPAQL with terminal state (SPAQL-TS), an improved version of SPAQL tailored for the design of regulators for control problems. The time-invariant policies are shown to result in a better performance than the time-variant ones in both problems studied. These algorithms are particularly fitted to RL problems where the action space is finite, as is the case with the Cartpole problem. SPAQL-TS solves the OpenAI Gym Cartpole problem, while also displaying a higher sample efficiency than trust region policy optimization (TRPO), a standard RL algorithm for solving control tasks. Moreover, the policies learned by SPAQL are interpretable, while TRPO policies are typically encoded as neural networks, and therefore hard to interpret. Yielding interpretable policies while being sample-efficient are the major advantages of SPAQL. | 翻訳日:2022-09-30 05:37:11 公開日:2020-11-03 |
# 局所SGD:統一理論と新しい効率的な方法 Local SGD: Unified Theory and New Efficient Methods ( http://arxiv.org/abs/2011.02828v1 ) ライセンス: Link先を確認 | Eduard Gorbunov, Filip Hanzely, Peter Richt\'arik | (参考訳) 本稿では,教師付き機械学習モデルの分散/フェデレートトレーニングのための,凸型および強凸型の局所的なSGD手法を解析するための統一フレームワークを提案する。
我々は、Local-SGD/FedAvg、SCAFFOLDなどの一般的なフレームワークの特殊なケースとして、いくつかの既知のメソッドを復元する。
このフレームワークは、同一データと異種データの両方をカバーし、ランダムおよび決定論的数の両方のローカルステップをサポートし、より高速な収束のために局所反復の固定点を調整できるシフト推定器を含む、幅広い局所確率勾配推定器で動作する。
本フレームワークの適用例として,既存の手法よりも優れた新しいFLオプティマイザを複数開発する。
特に、データ同質性や他の強い仮定を必要としない最初の線形収束型局所sgd法を開発した。 We present a unified framework for analyzing local SGD methods in the convex and strongly convex regimes for distributed/federated training of supervised machine learning models. We recover several known methods as a special case of our general framework, including Local-SGD/FedAvg, SCAFFOLD, and several variants of SGD not originally designed for federated learning. Our framework covers both the identical and heterogeneous data settings, supports both random and deterministic number of local steps, and can work with a wide array of local stochastic gradient estimators, including shifted estimators which are able to adjust the fixed points of local iterations for faster convergence. As an application of our framework, we develop multiple novel FL optimizers which are superior to existing methods. In particular, we develop the first linearly converging local SGD method which does not require any data homogeneity or other strong assumptions. | 翻訳日:2022-09-30 05:36:44 公開日:2020-11-03 |
# 定性的空間推論を用いた多視点誘導ナビゲーション Guided Navigation from Multiple Viewpoints using Qualitative Spatial Reasoning ( http://arxiv.org/abs/2011.01397v1 ) ライセンス: Link先を確認 | Danilo Perico and Paulo E. Santos and Reinaldo Bianchi | (参考訳) ナビゲーションは、モバイルエージェントが完全に自律し、複雑なアクションを実行するために必要な機能である。
しかし、世界の限られた(または全く)知覚を持つエージェントや、完全に定義されたモーションモデルがないエージェントのナビゲーション問題は、AIとロボティクスの研究からほとんど注目を集めていない。
この問題に対処する1つの方法は、他の自律的なエージェントに知覚を付与した誘導ナビゲーションを使用することで、それぞれの視点を組み合わせることで、局所化を推測し、知覚不足エージェントを特定の経路を導く適切な命令を導くことができる。
誘導エージェントの物理的および知覚的特性に関する知識が限られているため、このタスクは、人間を含む任意の種類の自律エージェントが適用可能な汎用運動モデルとハイレベルコマンドの使用を可能にする抽象レベルで実行されるべきである。
本研究で考慮される主な課題は,自発的なエージェント群が,自発的,自発的,局所的な視覚センサと共通の環境を認識すれば,知覚を欠いたロボットを目標位置まで導くことのできる,一連の高レベルコマンド(定性的な方向:例えば左へ移動する,直進する)を生成可能なアルゴリズムの開発と評価を行うことである。 Navigation is an essential ability for mobile agents to be completely autonomous and able to perform complex actions. However, the problem of navigation for agents with limited (or no) perception of the world, or devoid of a fully defined motion model, has received little attention from research in AI and Robotics. One way to tackle this problem is to use guided navigation, in which other autonomous agents, endowed with perception, can combine their distinct viewpoints to infer the localisation and the appropriate commands to guide a sensory deprived agent through a particular path. Due to the limited knowledge about the physical and perceptual characteristics of the guided agent, this task should be conducted on a level of abstraction allowing the use of a generic motion model, and high-level commands, that can be applied by any type of autonomous agents, including humans. The main task considered in this work is, given a group of autonomous agents perceiving their common environment with their independent, egocentric and local vision sensors, the development and evaluation of algorithms capable of producing a set of high-level commands (involving qualitative directions: e.g. move left, go straight ahead) capable of guiding a sensory deprived robot to a goal location. | 翻訳日:2022-09-30 05:36:28 公開日:2020-11-03 |
# NAS-FAS: 顔アンチスプーフィングのための静的動的中央差分ネットワーク検索 NAS-FAS: Static-Dynamic Central Difference Network Search for Face Anti-Spoofing ( http://arxiv.org/abs/2011.02062v1 ) ライセンス: Link先を確認 | Zitong Yu, Jun Wan, Yunxiao Qin, Xiaobai Li, Stan Z. Li, Guoying Zhao | (参考訳) 対面防止(FAS)は、顔認識システムを保護する上で重要な役割を担っている。
既存の手法は専門家が設計したネットワークに大きく依存しており、FASタスクのサブ最適化ソリューションにつながる可能性がある。
本稿では,NAS-FASと呼ばれるニューラルアーキテクチャ探索(NAS)に基づく最初のFAS手法を提案する。
従来のnasは汎用オブジェクト分類における効率的な検索戦略の開発に重点を置いているが、fasタスクの検索空間の研究にはより注意を払っている。
NASをFASに活用する上での課題は2つある。
1)特定取得条件は、見当たらない条件下では不十分であり得る。
2) 特定のスプーフィング攻撃は, 目に見えない攻撃に対して著しく一般化する可能性がある。
この2つの問題を克服するために,中央差分畳み込みとプーリング演算子からなる新しい探索空間を開発した。
さらに、FASを意識した時空間差の完全なマイニングに効率的な静的力学表現を用いる。
さらに,クロスドメイン/タイプ知識を活用したドメイン/タイプ対応メタNASを提案する。
最後に, クロスデータセットと未知の攻撃型に対するNAS転送性を評価するため, 新しい"クロスデータセットクロスタイプ"テストプロトコルをサポートする大規模3次元マスクデータセットであるCASIA-SURF 3DMaskをリリースする。
実験により,提案したNAS-FASは,テストプロトコルが4つある9つのFASベンチマークデータセットに対して,最先端のパフォーマンスを実現することが示された。 Face anti-spoofing (FAS) plays a vital role in securing face recognition systems. Existing methods heavily rely on the expert-designed networks, which may lead to a sub-optimal solution for FAS task. Here we propose the first FAS method based on neural architecture search (NAS), called NAS-FAS, to discover the well-suited task-aware networks. Unlike previous NAS works mainly focus on developing efficient search strategies in generic object classification, we pay more attention to study the search spaces for FAS task. The challenges of utilizing NAS for FAS are in two folds: the networks searched on 1) a specific acquisition condition might perform poorly in unseen conditions, and 2) particular spoofing attacks might generalize badly for unseen attacks. To overcome these two issues, we develop a novel search space consisting of central difference convolution and pooling operators. Moreover, an efficient static-dynamic representation is exploited for fully mining the FAS-aware spatio-temporal discrepancy. Besides, we propose Domain/Type-aware Meta-NAS, which leverages cross-domain/type knowledge for robust searching. Finally, in order to evaluate the NAS transferability for cross datasets and unknown attack types, we release a large-scale 3D mask dataset, namely CASIA-SURF 3DMask, for supporting the new 'cross-dataset cross-type' testing protocol. Experiments demonstrate that the proposed NAS-FAS achieves state-of-the-art performance on nine FAS benchmark datasets with four testing protocols. | 翻訳日:2022-09-30 05:29:37 公開日:2020-11-03 |
# wsl-ds: 遠隔管理による弱い教師付き学習 : クエリ中心のマルチドキュメント要約 WSL-DS: Weakly Supervised Learning with Distant Supervision for Query Focused Multi-Document Abstractive Summarization ( http://arxiv.org/abs/2011.01421v1 ) ライセンス: Link先を確認 | Md Tahmid Rahman Laskar, Enamul Hoque, Jimmy Xiangji Huang | (参考訳) Query Focused Multi-Document Summarization (QF-MDS)タスクでは、与えられたクエリに基づいてこれらのドキュメントから要約を生成することを目標とするドキュメントのセットとクエリが与えられる。
しかしながら、このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
この問題を克服するために,本稿では,遠隔監視を利用した弱教師付き学習手法を提案する。
特に、ターゲットデータセットに似たデータセットをトレーニングデータとして使用し、トレーニング済みの文類似モデルを利用して、複数文書のゴールド参照要約から設定された文書に個々の文書の弱い参照要約を生成する。
次に,複数の文書(つまり長いシーケンス)において,ニューラルネットワークの要約モデルをトレーニングしながら発生する計算複雑性の問題を軽減するために,各文書の要約モデルを反復的に訓練する。
document understanding conferences (duc) データセットにおける実験結果から,提案手法により,評価指標の多種多様さから新たな結果が得られた。 In the Query Focused Multi-Document Summarization (QF-MDS) task, a set of documents and a query are given where the goal is to generate a summary from these documents based on the given query. However, one major challenge for this task is the lack of availability of labeled training datasets. To overcome this issue, in this paper, we propose a novel weakly supervised learning approach via utilizing distant supervision. In particular, we use datasets similar to the target dataset as the training data where we leverage pre-trained sentence similarity models to generate the weak reference summary of each individual document in a document set from the multi-document gold reference summaries. Then, we iteratively train our summarization model on each single-document to alleviate the computational complexity issue that occurs while training neural summarization models in multiple documents (i.e., long sequences) at once. Experimental results in Document Understanding Conferences (DUC) datasets show that our proposed approach sets a new state-of-the-art result in terms of various evaluation metrics. | 翻訳日:2022-09-30 05:28:48 公開日:2020-11-03 |
# BioNerFlair: フィア埋め込みとシークエンスタグを用いた生物医学名実体認識 BioNerFlair: biomedical named entity recognition using flair embedding and sequence tagger ( http://arxiv.org/abs/2011.01504v1 ) ライセンス: Link先を確認 | Harsh Patel | (参考訳) モチベーション: 生物医学研究記事の急増により、情報検索のタスクはこれまで以上に重要になっている。
科学者や研究者は、それらに関連する情報を含む記事を見つけるのに苦労している。
疾患、薬物/化学、種、遺伝子/タンパク質などの生物医学的実体の適切な抽出は、関連する情報の抽出に繋がる記事のフィルタリングを大幅に改善することができる。
BioNerベンチマークのパフォーマンスは、BERT、XLNet、OpenAI、GPT2といったトランスフォーマーベースのモデルの進歩により、徐々に改善されている。
これらのモデルは計算コストが高く,他の文脈文字列ベースモデルやLSTM-CRFベースのシーケンスタグを用いて,ドメイン固有のタスクのスコアを向上することができる。
結果:BioNerFlairはFrairとGloVeの埋め込みと双方向LSTM-CRFに基づくシーケンスタグを用いた生物医学的実体認識モデルのトレーニング手法である。
名前付きエンティティ認識に広く使われているほぼ同じ汎用アーキテクチャで、BioNerFlairは従来の最先端モデルより優れている。
バイオメディカルなエンティティ認識のための8つのベンチマークデータセットの実験を行った。
Compared to current state-of-the-art models, BioNerFlair achieves the best F1-score of 90.17 beyond 84.72 on the BioCreative II gene mention (BC2GM) corpus, best F1-score of 94.03 beyond 92.36 on the BioCreative IV chemical and drug (BC4CHEMD) corpus, best F1-score of 88.73 beyond 78.58 on the JNLPBA corpus, best F1-score of 91.1 beyond 89.71 on the NCBI disease corpus, best F1-score of 85.48 beyond 78.98 on the Species-800 corpus, while near best results was observed on BC5CDR-chem, BC3CDR-disease, and LINNAEUS corpus. Motivation: The proliferation of Biomedical research articles has made the task of information retrieval more important than ever. Scientists and Researchers are having difficulty in finding articles that contain information relevant to them. Proper extraction of biomedical entities like Disease, Drug/chem, Species, Gene/protein, can considerably improve the filtering of articles resulting in better extraction of relevant information. Performance on BioNer benchmarks has progressively improved because of progression in transformers-based models like BERT, XLNet, OpenAI, GPT2, etc. These models give excellent results; however, they are computationally expensive and we can achieve better scores for domain-specific tasks using other contextual string-based models and LSTM-CRF based sequence tagger. Results: We introduce BioNerFlair, a method to train models for biomedical named entity recognition using Flair plus GloVe embeddings and Bidirectional LSTM-CRF based sequence tagger. With almost the same generic architecture widely used for named entity recognition, BioNerFlair outperforms previous state-of-the-art models. I performed experiments on 8 benchmarks datasets for biomedical named entity recognition. Compared to current state-of-the-art models, BioNerFlair achieves the best F1-score of 90.17 beyond 84.72 on the BioCreative II gene mention (BC2GM) corpus, best F1-score of 94.03 beyond 92.36 on the BioCreative IV chemical and drug (BC4CHEMD) corpus, best F1-score of 88.73 beyond 78.58 on the JNLPBA corpus, best F1-score of 91.1 beyond 89.71 on the NCBI disease corpus, best F1-score of 85.48 beyond 78.98 on the Species-800 corpus, while near best results was observed on BC5CDR-chem, BC3CDR-disease, and LINNAEUS corpus. | 翻訳日:2022-09-30 05:28:32 公開日:2020-11-03 |
# trec-covid ラウンド2: web から特殊ドメイン検索への一般化ギャップの緩和 CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web to Special Domain Search ( http://arxiv.org/abs/2011.01580v1 ) ライセンス: Link先を確認 | Chenyan Xiong, Zhenghao Liu, Si Sun, Zhuyun Dai, Kaitao Zhang, Shi Yu, Zhiyuan Liu, Hoifung Poon, Jianfeng Gao and Paul Bennett | (参考訳) 深層事前学習言語モデル(LM)に基づくニューラルネットワークローカは,多くの情報検索ベンチマークを改善することが示されている。
しかし,これらの手法は,事前学習ドメインと対象ドメインの相関関係の影響を受け,大規模な微調整関連ラベルに依存している。
特定のドメインに事前訓練手法を直接適用すると、COVIDドメインのようなドメイン適応の問題があるため、検索品質が最適以下になる可能性がある。
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を緩和し、ラベル不足の問題を緩和する。
また,従来の分散検索の語彙ミスマッチを緩和するために,高密度検索を統合する。
本システムは,新型コロナウイルスに関する学術文献から有用な情報を取得することを目的として,TREC-COVIDタスクの第2ラウンドの非マニュアル実行の中で,最善を尽くしている。
私たちのコードはhttps://github.com/thunlp/OpenMatch.comで公開されています。 Neural rankers based on deep pretrained language models (LMs) have been shown to improve many information retrieval benchmarks. However, these methods are affected by their the correlation between pretraining domain and target domain and rely on massive fine-tuning relevance labels. Directly applying pretraining methods to specific domains may result in suboptimal search quality because specific domains may have domain adaption problems, such as the COVID domain. This paper presents a search system to alleviate the special domain adaption problem. The system utilizes the domain-adaptive pretraining and few-shot learning technologies to help neural rankers mitigate the domain discrepancy and label scarcity problems. Besides, we also integrate dense retrieval to alleviate traditional sparse retrieval's vocabulary mismatch obstacle. Our system performs the best among the non-manual runs in Round 2 of the TREC-COVID task, which aims to retrieve useful information from scientific literature related to COVID-19. Our code is publicly available at https://github.com/thunlp/OpenMatch. | 翻訳日:2022-09-30 05:28:03 公開日:2020-11-03 |
# copticのための完ぺきなエンティティ認識:挑戦と解決 Exhaustive Entity Recognition for Coptic: Challenges and Solutions ( http://arxiv.org/abs/2011.02068v1 ) ライセンス: Link先を確認 | Amir Zeldes, Lance Martin and Sichang Tu | (参考訳) エンティティ認識は、デジタル人文科学における古代の資料に意味的なアクセスを提供する: 徹底的に読めないテキストに人や興味のある場所を露出させ、リンクリソースを容易にし、翻訳のないテキストでもテキストコンテンツにウィンドウを提供する。
本稿では,エジプトのヘレニズム時代の言語であるコプトの実体認識について述べる。
タスクに対するNLPアプローチを評価し、低リソースで形態学的に複雑な言語に適用することの難しさを概観する。
我々は、ウィキペディアにリンクするネスト付きエンティリティ認識と半自動エンティティを、堅牢な依存関係パーシング、特徴ベースのCRFモデル、手作りの知識ベースリソースに依存して、高リソース言語で使用されるものよりも桁違いに少ないデータで高精度なNERを実現するためのソリューションを提案する。 Entity recognition provides semantic access to ancient materials in the Digital Humanities: itexposes people and places of interest in texts that cannot be read exhaustively, facilitates linkingresources and can provide a window into text contents, even for texts with no translations. Inthis paper we present entity recognition for Coptic, the language of Hellenistic era Egypt. Weevaluate NLP approaches to the task and lay out difficulties in applying them to a low-resource,morphologically complex language. We present solutions for named and non-named nested en-tity recognition and semi-automatic entity linking to Wikipedia, relying on robust dependencyparsing, feature-based CRF models, and hand-crafted knowledge base resources, enabling highaccuracy NER with orders of magnitude less data than those used for high resource languages.The results suggest avenues for research on other languages in similar settings. | 翻訳日:2022-09-30 05:27:46 公開日:2020-11-03 |
# 単一ターゲットドメインによるメタラーニング転送可能表現 Meta-learning Transferable Representations with a Single Target Domain ( http://arxiv.org/abs/2011.01418v1 ) ライセンス: Link先を確認 | Hong Liu, Jeff Z. HaoChen, Colin Wei, Tengyu Ma | (参考訳) 近年の研究では、微調整と共同学習が、下流タスクの精度を常に向上させるわけではない。
まず, 微調整と関節訓練が転帰学習に最適か有害かについて, より深く理解することを目的とする。
我々は、ソースタスクがソース固有の特徴または転送可能な特徴によって解決できる半合成データセットを設計する。
1) 転置可能な特徴を学習するインセンティブが与えられず, (2) 共同訓練はソース固有の特徴を学習し, 目標に過度に適合する可能性がある。
第2に,微調整と合同学習の両立を改善するために,メタ表現学習(merlin)を提案する。
MeRLinメタ学習表現は、目標トレーニングデータによる表現の上部にヘッドが収まることを保証し、目標検証データでも良好に動作する。
また,MeRLinは2次ニューラルネットパラメータ化と,転送可能な特徴とソース固有の特徴の両方を含むソース分布を用いて,目的の地中構造モデルを復元することを示した。
同じ分布において、事前訓練と共同訓練は確実に伝達可能な特徴を学習できない。
MeRLinは、様々な実世界のビジョンとNLP転送学習ベンチマークにおいて、従来の最先端のトランスファー学習アルゴリズムを実証的に上回っている。 Recent works found that fine-tuning and joint training---two popular approaches for transfer learning---do not always improve accuracy on downstream tasks. First, we aim to understand more about when and why fine-tuning and joint training can be suboptimal or even harmful for transfer learning. We design semi-synthetic datasets where the source task can be solved by either source-specific features or transferable features. We observe that (1) pre-training may not have incentive to learn transferable features and (2) joint training may simultaneously learn source-specific features and overfit to the target. Second, to improve over fine-tuning and joint training, we propose Meta Representation Learning (MeRLin) to learn transferable features. MeRLin meta-learns representations by ensuring that a head fit on top of the representations with target training data also performs well on target validation data. We also prove that MeRLin recovers the target ground-truth model with a quadratic neural net parameterization and a source distribution that contains both transferable and source-specific features. On the same distribution, pre-training and joint training provably fail to learn transferable features. MeRLin empirically outperforms previous state-of-the-art transfer learning algorithms on various real-world vision and NLP transfer learning benchmarks. | 翻訳日:2022-09-30 05:27:27 公開日:2020-11-03 |
# CooGAN: 高分解能顔属性編集のためのメモリ効率の良いフレームワーク CooGAN: A Memory-Efficient Framework for High-Resolution Facial Attribute Editing ( http://arxiv.org/abs/2011.01563v1 ) ライセンス: Link先を確認 | Xuanhong Chen, Bingbing Ni, Naiyuan Liu, Ziang Liu, Yiliu Jiang, Loc Truong, and Qi Tian | (参考訳) 低解像度でメモリ消費の顔編集手法を成功させるのとは対照的に、高解像度 (HR) の顔画像を操作することは、通常7682ピクセルより大きい。
これは理由からである。
1) 難解な膨大なメモリ需要
2)非効率なマルチスケール機能融合。
これらの問題に対処するため、HR顔画像編集のための協調ガン(CooGAN)と呼ばれるNOVELピクセル翻訳フレームワークを提案する。
このフレームワークは、きめ細かい局所的な顔パッチ生成のためのローカルパス(パッチレベルのHR、ローメモリ)と、グローバルな低解像度(LR)顔構造監視のためのグローバルパス(画像レベルのLR、ローメモリ)を備えており、メモリ要求を大幅に削減している。
どちらの経路も、局所からグローバルへの一貫性の目標(すなわち滑らかな縫い合わせのための)の下で協調的に機能する。
さらに,より効率的なマルチスケール機能融合を実現するための,より軽量な選択的転送ユニットを提案する。
celebahqに関する広範な実験は、提案フレームワークのメモリ効率と高い画像生成品質を示している。 In contrast to great success of memory-consuming face editing methods at a low resolution, to manipulate high-resolution (HR) facial images, i.e., typically larger than 7682 pixels, with very limited memory is still challenging. This is due to the reasons of 1) intractable huge demand of memory; 2) inefficient multi-scale features fusion. To address these issues, we propose a NOVEL pixel translation framework called Cooperative GAN(CooGAN) for HR facial image editing. This framework features a local path for fine-grained local facial patch generation (i.e., patch-level HR, LOW memory) and a global path for global lowresolution (LR) facial structure monitoring (i.e., image-level LR, LOW memory), which largely reduce memory requirements. Both paths work in a cooperative manner under a local-to-global consistency objective (i.e., for smooth stitching). In addition, we propose a lighter selective transfer unit for more efficient multi-scale features fusion, yielding higher fidelity facial attributes manipulation. Extensive experiments on CelebAHQ well demonstrate the memory efficiency as well as the high image generation quality of the proposed framework. | 翻訳日:2022-09-30 05:21:01 公開日:2020-11-03 |
# 仮想残差を用いた分離定式化によるアレタリック不確かさ推定 The Aleatoric Uncertainty Estimation Using a Separate Formulation with Virtual Residuals ( http://arxiv.org/abs/2011.01655v1 ) ライセンス: Link先を確認 | Takumi Kawashima and Qing Yu and Akari Asai and Daiki Ikami and Kiyoharu Aizawa | (参考訳) 回帰問題におけるアレータティック不確実性推定のための新しい最適化フレームワークを提案する。
既存のメソッドは、ターゲット推定のエラーを定量化できるが、過小評価する傾向がある。
観測に固有の予測的不確実性を得るため,信号の推定と不確実性に関する新たな分離可能な定式化を提案し,オーバーフィッティングの影響を回避した。
また,目標推定と不確実性推定を分離することにより,信号推定と不確実性推定のバランスを制御する。
シミュレーションデータを用いた回帰,年齢推定,深さ推定の3種類の実験を行った。
提案手法は信号および不確実性推定のための最先端技術より優れていることを示す。 We propose a new optimization framework for aleatoric uncertainty estimation in regression problems. Existing methods can quantify the error in the target estimation, but they tend to underestimate it. To obtain the predictive uncertainty inherent in an observation, we propose a new separable formulation for the estimation of a signal and of its uncertainty, avoiding the effect of overfitting. By decoupling target estimation and uncertainty estimation, we also control the balance between signal estimation and uncertainty estimation. We conduct three types of experiments: regression with simulation data, age estimation, and depth estimation. We demonstrate that the proposed method outperforms a state-of-the-art technique for signal and uncertainty estimation. | 翻訳日:2022-09-30 05:20:25 公開日:2020-11-03 |
# 色調評価のための空間的色相類似度尺度 A spatial hue similarity measure for assessment of colourisation ( http://arxiv.org/abs/2011.01700v1 ) ライセンス: Link先を確認 | Se\'an Mullery and Paul F. Whelan | (参考訳) グレースケール画像の自動色付けは不適切なマルチモーダル問題である。
フル参照画像が存在する場合、客観的な性能測定は、MSEやPSNRのような画素差分技術に依存する。
これらの測定は、基準の地対面以外の可算モードをペナルティとし、それらが地対面に近いピクセル距離にある場合、しばしば適切なペナルシブルモードをペナルティに失敗し、ピクセル拡散法であるため、空間的コヒーレンスを評価できない。
我々は、CIEL*a*b*色空間からa*b*チャネルの極形を用いて、hueチャネルに限定する多重モード問題と、クロマチャネルに適用する共通モードを分離する。
我々はSSIMをクロマチャネルに適用するが、hueチャネルのSSIMをSSM(Spatial Hue similarity Measure)と呼ぶ尺度に再構成する。
この再構成により、空間的不整合モードを解析しながら、空間的不整合チャネルが高いスコアを達成することができる。
本手法は,SOTAカラー化手法の質的,定量的な性能比較を可能にし,主観的視覚検査への依存を低減する。 Automatic colourisation of grey-scale images is an ill-posed multi-modal problem. Where full-reference images exist, objective performance measures rely on pixel-difference techniques such as MSE and PSNR. These measures penalise any plausible modes other than the reference ground-truth; They often fail to adequately penalise implausible modes if they are close in pixel distance to the ground-truth; As these are pixel-difference methods they cannot assess spatial coherency. We use the polar form of the a*b* channels from the CIEL*a*b* colour space to separate the multi-modal problems, which we confine to the hue channel, and the common-mode which applies to the chroma channel. We apply SSIM to the chroma channel but reformulate SSIM for the hue channel to a measure we call the Spatial Hue Similarity Measure (SHSM). This reformulation allows spatially-coherent hue channels to achieve a high score while penalising spatially-incoherent modes. This method allows qualitative and quantitative performance comparison of SOTA colourisation methods and reduces reliance on subjective human visual inspection. | 翻訳日:2022-09-30 05:20:15 公開日:2020-11-03 |
# 視覚空間アライメントによる学習表現 Learning Representations from Audio-Visual Spatial Alignment ( http://arxiv.org/abs/2011.01819v1 ) ライセンス: Link先を確認 | Pedro Morgado, Yi Li and Nuno Vasconcelos | (参考訳) 音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
視聴覚表現学習の先行研究は、映像レベルでの対応を活用している。
音声-視覚対応(AVC)に基づくアプローチは、音声とビデオクリップが同一または異なるビデオインスタンスに由来するかどうかを予測する。
音声-視覚的時間同期(AVTS)は、同じビデオインスタンスに由来する負のペアを、異なるタイミングで識別する。
これらの手法は、アクション認識などの下流タスクの高品質な表現を学習する一方で、その訓練目的は、音声や視覚信号で自然に発生する空間的手がかりを無視している。
これらの空間的手がかりから学習するために,360{\deg}ビデオと空間的オーディオのコントラスト的な空間的アライメントを行うネットワークを課題とした。
変換器アーキテクチャを用いて360{\deg}ビデオの全空間コンテンツを推論し、複数の視点からの表現を組み合わせることで空間アライメントを行う能力を向上させる。
提案課題の利点は,音声-視覚対応,空間的アライメント,行動認識,映像意味セグメンテーションなど,様々な音声および視覚的下流タスクで実証される。 We introduce a novel self-supervised pretext task for learning representations from audio-visual content. Prior work on audio-visual representation learning leverages correspondences at the video level. Approaches based on audio-visual correspondence (AVC) predict whether audio and video clips originate from the same or different video instances. Audio-visual temporal synchronization (AVTS) further discriminates negative pairs originated from the same video instance but at different moments in time. While these approaches learn high-quality representations for downstream tasks such as action recognition, their training objectives disregard spatial cues naturally occurring in audio and visual signals. To learn from these spatial cues, we tasked a network to perform contrastive audio-visual spatial alignment of 360{\deg} video and spatial audio. The ability to perform spatial alignment is enhanced by reasoning over the full spatial content of the 360{\deg} video using a transformer architecture to combine representations from multiple viewpoints. The advantages of the proposed pretext task are demonstrated on a variety of audio and visual downstream tasks, including audio-visual correspondence, spatial alignment, action recognition, and video semantic segmentation. | 翻訳日:2022-09-30 05:19:17 公開日:2020-11-03 |
# 人物再同定のための教師なし注意型インスタンス判別学習 Unsupervised Attention Based Instance Discriminative Learning for Person Re-Identification ( http://arxiv.org/abs/2011.01888v1 ) ライセンス: Link先を確認 | Kshitij Nikhal and Benjamin S. Riggan | (参考訳) 近年の人物再同定の進歩により、特に教師付き学習や転校学習において、識別性が向上している。
しかし、データ要件(データキュレーションの程度を含む)はますます複雑でつらいものになっているため、視点の変化、照明、調音運動、解像度など、大規模なクラス内での変動に対して堅牢な教師なしの手法が不可欠である。
そこで本研究では,事前学習を行わずにエンドツーエンドで訓練された人物再識別のための教師なしフレームワークを提案する。
提案手法は,(1)複数スケールでの空間的注意力の向上,(2)練習可能なパラメータの数を59.6%削減するために,グループ畳み込みを組み合わせる新しい注意力機構を活用する。
さらに,本フレームワークは,集約クラスタリングとインスタンス学習を併用してネットワークを最適化し,ハードサンプルに対処する。
我々はmarket1501とdukemtmc-reidデータセットを用いて広範囲な分析を行い、この手法が(事前訓練された重みで)最先端の手法を一貫して上回っていることを示す。 Recent advances in person re-identification have demonstrated enhanced discriminability, especially with supervised learning or transfer learning. However, since the data requirements---including the degree of data curations---are becoming increasingly complex and laborious, there is a critical need for unsupervised methods that are robust to large intra-class variations, such as changes in perspective, illumination, articulated motion, resolution, etc. Therefore, we propose an unsupervised framework for person re-identification which is trained in an end-to-end manner without any pre-training. Our proposed framework leverages a new attention mechanism that combines group convolutions to (1) enhance spatial attention at multiple scales and (2) reduce the number of trainable parameters by 59.6%. Additionally, our framework jointly optimizes the network with agglomerative clustering and instance learning to tackle hard samples. We perform extensive analysis using the Market1501 and DukeMTMC-reID datasets to demonstrate that our method consistently outperforms the state-of-the-art methods (with and without pre-trained weights). | 翻訳日:2022-09-30 05:18:28 公開日:2020-11-03 |
# モデルベースおよびモデルフリー手法によるゴール認識 Goal recognition via model-based and model-free techniques ( http://arxiv.org/abs/2011.01832v1 ) ライセンス: Link先を確認 | Daniel Borrajo, Sriram Gopalakrishnan, Vamsi K. Potluru | (参考訳) 目標認識は、観察の痕跡から人間の意図を予測することを目的としている。
この能力により、人々や組織が将来の行動を予測し、ポジティブな(協力的な)あるいはネガティブな(敵対的な)方法で介入することができる。
ゴール認識は、多くのドメインでうまく使われているが、金融機関ではほとんど使われていない。
我々は、金融関連のタスクで広く使われている技術が熟成していると主張している。
目標認識を行う主な2つのアプローチは、モデルベース(計画ベース)とモデルフリー(学習ベース)である。
本稿では,最先端学習手法を目標認識に適用し,異なる領域におけるモデルベースとモデルフリーのアプローチを比較する。
両手法のトレードオフを理解するために,実験データを分析した。
実験により、計画に基づくアプローチは、目標認識金融タスクの準備が整っていることが示された。 Goal recognition aims at predicting human intentions from a trace of observations. This ability allows people or organizations to anticipate future actions and intervene in a positive (collaborative) or negative (adversarial) way. Goal recognition has been successfully used in many domains, but it has been seldom been used by financial institutions. We claim the techniques are ripe for its wide use in finance-related tasks. The main two approaches to perform goal recognition are model-based (planning-based) and model-free (learning-based). In this paper, we adapt state-of-the-art learning techniques to goal recognition, and compare model-based and model-free approaches in different domains. We analyze the experimental data to understand the trade-offs of using both types of methods. The experiments show that planning-based approaches are ready for some goal-recognition finance tasks. | 翻訳日:2022-09-30 05:12:10 公開日:2020-11-03 |
# ドメインに依存しない行動トレースの生成と分類 Domain-independent generation and classification of behavior traces ( http://arxiv.org/abs/2011.02918v1 ) ライセンス: Link先を確認 | Daniel Borrajo, Manuela Veloso | (参考訳) 金融機関は主に人を扱う。
そのため、異なる種類の人的行動の特徴付けは、顧客や規制機関との関係改善に大いに役立ちます。
このような相互作用の多くにおいて、人間はいくつかの内部目標を持ち、その目標を達成するための金融システム内でいくつかの行動を実行する。
本稿では,これらのタスクを行動トラス分類タスクとして扱う。
オブザーバエージェントは、所定の環境で行動を取る際の行動を観察して、他のエージェントの特性を学習しようとする。
他のエージェントはいくつかのタイプで構成されており、オブザーバーのゴールは観察の痕跡から他のエージェントのタイプを特定することである。
本研究では,行動が観察されているプランニングエージェントのオンライン分類を行うための学習手法CABBOTを提案する。
この研究では、観測エージェントは環境(他のエージェントの状態と動作)の部分的かつノイズの多い観測性を有する。
学習手法の性能を評価するために,エージェントのドメインに依存しない目標ベースシミュレータを開発した。
我々は、有望な結果をもたらすいくつかの(金融と非金融の両方)領域で実験を行う。 Financial institutions mostly deal with people. Therefore, characterizing different kinds of human behavior can greatly help institutions for improving their relation with customers and with regulatory offices. In many of such interactions, humans have some internal goals, and execute some actions within the financial system that lead them to achieve their goals. In this paper, we tackle these tasks as a behavior-traces classification task. An observer agent tries to learn characterizing other agents by observing their behavior when taking actions in a given environment. The other agents can be of several types and the goal of the observer is to identify the type of the other agent given a trace of observations. We present CABBOT, a learning technique that allows the agent to perform on-line classification of the type of planning agent whose behavior is observing. In this work, the observer agent has partial and noisy observability of the environment (state and actions of the other agents). In order to evaluate the performance of the learning technique, we have generated a domain-independent goal-based simulator of agents. We present experiments in several (both financial and non-financial) domains with promising results. | 翻訳日:2022-09-30 05:11:59 公開日:2020-11-03 |
# 専門的な負荷とタスクカバレッジのバランスをとるチームを見つける Finding teams that balance expert load and task coverage ( http://arxiv.org/abs/2011.04428v1 ) ライセンス: Link先を確認 | Sofia Maria Nikolakaki, Mingxiang Cai, Evimaria Terzi | (参考訳) オンライン労働市場(フリーランサー、グル、アップワークなど)の台頭は、チーム形成に関する多くの研究に火をつけた。
この一連の作業の中核的な考え方は、与えられたタスクを完了するために割り当てられた専門家のチームが、タスクに必要なスキルのスーパーセットを含むべきであるという厳格な要件である。
しかし、多くのアプリケーションでは、必要なスキルは、タスクをポストするエンティティのウィッシュリストであり、すべてのスキルが絶対必要ではないことが多い。
したがって、私たちの設定では、完全なカバレッジ要件を緩和し、タスクの完成度がタスク毎のカバースキルのごく一部に比例していると仮定して、タスクが部分的に構成されたチームによってカバーされるようにします。
同時に、複数のタスクを実行する必要がある場合、専門家の負荷が少ないほどパフォーマンスが良くなると仮定する。
これら2つの高レベルな目標をひとつにまとめて、 BalancedTA問題を定義します。
また、各タスクが必須スキルとオプションスキルから構成されるこの問題の一般化についても検討する。
この設定では、私たちの目標はすべての必要なスキルをカバーすべきという制約の下で同じです。
技術的観点からは、 BalancedTA 問題(およびその変種)が NP-hard であり、実際にそれを解決するための効率的なヒューリスティックであることを示す。
Freelancer、Guru、Upworkの3つのオンラインマーケットプレースの実際のデータセットを使用して、我々の手法の効率とフレームワークの実用性を実証する。 The rise of online labor markets (e.g., Freelancer, Guru and Upwork) has ignited a lot of research on team formation, where experts acquiring different skills form teams to complete tasks. The core idea in this line of work has been the strict requirement that the team of experts assigned to complete a given task should contain a superset of the skills required by the task. However, in many applications the required skills are often a wishlist of the entity that posts the task and not all of the skills are absolutely necessary. Thus, in our setting we relax the complete coverage requirement and we allow for tasks to be partially covered by the formed teams, assuming that the quality of task completion is proportional to the fraction of covered skills per task. At the same time, we assume that when multiple tasks need to be performed, the less the load of an expert the better the performance. We combine these two high-level objectives into one and define the BalancedTA problem. We also consider a generalization of this problem where each task consists of required and optional skills. In this setting, our objective is the same under the constraint that all required skills should be covered. From the technical point of view, we show that the BalancedTA problem (and its variant) is NP-hard and design efficient heuristics for solving it in practice. Using real datasets from three online market places, Freelancer, Guru and Upwork we demonstrate the efficiency of our methods and the practical utility of our framework. | 翻訳日:2022-09-30 05:11:44 公開日:2020-11-03 |
# 双線型射影を用いたパラメータ効率の高いディープニューラルネットワーク Parameter Efficient Deep Neural Networks with Bilinear Projections ( http://arxiv.org/abs/2011.01391v1 ) ライセンス: Link先を確認 | Litao Yu, Yongsheng Gao, Jun Zhou, Jian Zhang | (参考訳) ディープニューラルネットワーク(DNN)に関する最近の研究は、主にモデルの精度の向上に焦点を当てている。
適切なディープラーニングフレームワークが与えられると、一般的に深度や層幅を増やして高い精度を達成することができる。
しかし、膨大な数のモデルパラメータは計算とメモリ使用のオーバーヘッドを増大させ、パラメータの冗長性につながる。
本稿では,従来の全射影を双線型射影に置き換え,dnnのパラメータ冗長性問題に対処する。
入力ノードが$d$、出力ノードが$d$である完全連結層の場合、双線型射影を適用するとモデル空間の複雑さが$\mathcal{o}(d^2)$から$\mathcal{o}(2d)$に減少し、サブリニアな層サイズを持つ深いモデルが得られる。
しかしながら、構造化射影は全射影と比較して程度の自由度が低く、不適合問題を引き起こす。
したがって、出力チャネルの数を増やしてマッピングのサイズを拡大するだけで、モデルの精度を維持および向上することができます。
これにより、パラメータ効率が非常に良く、メモリ制限のあるモバイルシステムにそのようなディープモデルをデプロイできる。
4つのベンチマークデータセットの実験により、提案された双線形プロジェクションをディープニューラルネットワークに適用すると、従来のフルDNNよりも精度が向上し、モデルサイズを大幅に削減できることが示された。 Recent research on deep neural networks (DNNs) has primarily focused on improving the model accuracy. Given a proper deep learning framework, it is generally possible to increase the depth or layer width to achieve a higher level of accuracy. However, the huge number of model parameters imposes more computational and memory usage overhead and leads to the parameter redundancy. In this paper, we address the parameter redundancy problem in DNNs by replacing conventional full projections with bilinear projections. For a fully-connected layer with $D$ input nodes and $D$ output nodes, applying bilinear projection can reduce the model space complexity from $\mathcal{O}(D^2)$ to $\mathcal{O}(2D)$, achieving a deep model with a sub-linear layer size. However, structured projection has a lower freedom of degree compared to the full projection, causing the under-fitting problem. So we simply scale up the mapping size by increasing the number of output channels, which can keep and even boosts the model accuracy. This makes it very parameter-efficient and handy to deploy such deep models on mobile systems with memory limitations. Experiments on four benchmark datasets show that applying the proposed bilinear projection to deep neural networks can achieve even higher accuracies than conventional full DNNs, while significantly reduces the model size. | 翻訳日:2022-09-30 05:11:19 公開日:2020-11-03 |
# yelpの画像広告を最適化する「you eat with your eyes first」 "You eat with your eyes first": Optimizing Yelp Image Advertising ( http://arxiv.org/abs/2011.01434v1 ) ライセンス: Link先を確認 | Gaurab Banerjee, Samuel Spinner, Yasmine Mitchell | (参考訳) ビジネスのオンライン写真表現はその成功や失敗において重要な役割を果たす。
Yelpのイメージデータセットとスターベースのレビューシステムを、ビジネスを推進するためのイメージの有効性の測定に使用しています。
Yelpデータセットを前処理した後、転送学習を使用して、Yelpイメージを受け入れて星座を予測する分類器をトレーニングします。
さらに,ganを訓練し,高効率画像の共通特性を定性的に検討する。
様々な画像カテゴリの星格分類において90~98%の精度を達成し、青い空、オープンな環境、多くの窓を含む画像がYelpのレビューと相関していることを確認する。 A business's online, photographic representation can play a crucial role in its success or failure. We use Yelp's image dataset and star-based review system as a measurement of an image's effectiveness in promoting a business. After preprocessing the Yelp dataset, we use transfer learning to train a classifier which accepts Yelp images and predicts star-ratings. Additionally, we then train a GAN to qualitatively investigate the common properties of highly effective images. We achieve 90-98% accuracy in classifying simplified star ratings for various image categories and observe that images containing blue skies, open surroundings, and many windows are correlated with higher Yelp reviews. | 翻訳日:2022-09-30 05:10:36 公開日:2020-11-03 |
# 医用画像分割のための分布対応マージン校正 Distribution-aware Margin Calibration for Medical Image Segmentation ( http://arxiv.org/abs/2011.01462v1 ) ライセンス: Link先を確認 | Zhibin Li, Litao Yu, Jian Zhang | (参考訳) IoUスコア(Intersection-over-Union)とも呼ばれるジャカード指数は、医用画像のセグメンテーションにおいて最も重要な評価指標の一つである。
しかしながら、平均IoU(mIoU)スコアを複数の目的クラスに対して直接最適化することは、オープンな問題である。
サロゲートを最適化するためにいくつかのアルゴリズムが提案されているが、その一般化能力に関する保証はない。
本稿では,データ分布全体に対するmIoUのより優れた一般化のための,データ分布を考慮した新たなマージンキャリブレーション手法を提案する。
このスキームは、実際のIoUスコアにおいて、より優れたセグメンテーション性能を保証する。
本研究では,2つの医用画像セグメンテーションデータセットに対するマージン校正手法の有効性を評価し,深部セグメンテーションモデルを用いた他の学習手法と比較して,IoUスコアを大幅に改善したことを示す。 The Jaccard index, also known as Intersection-over-Union (IoU score), is one of the most critical evaluation metrics in medical image segmentation. However, directly optimizing the mean IoU (mIoU) score over multiple objective classes is an open problem. Although some algorithms have been proposed to optimize its surrogates, there is no guarantee provided for their generalization ability. In this paper, we present a novel data-distribution-aware margin calibration method for a better generalization of the mIoU over the whole data-distribution, underpinned by a rigid lower bound. This scheme ensures a better segmentation performance in terms of IoU scores in practice. We evaluate the effectiveness of the proposed margin calibration method on two medical image segmentation datasets, showing substantial improvements of IoU scores over other learning schemes using deep segmentation models. | 翻訳日:2022-09-30 05:09:44 公開日:2020-11-03 |
# 深部LSTMモデルによる小麦作物収量予測 Wheat Crop Yield Prediction Using Deep LSTM Model ( http://arxiv.org/abs/2011.01498v1 ) ライセンス: Link先を確認 | Sagarika Sharma, Sujit Rai, Narayanan C. Krishnan | (参考訳) 収穫前の早期収量予測は、農家が生産を改善するのに役立ち、様々な機関がそれに従って計画を立てることができる。
衛星画像から収穫量を予測するための信頼性が高く安価な手法を提案する。
提案手法は,手作りの特徴を抽出したり,画像の次元的低減を行うことなく,衛星画像を直接処理する。
このアプローチは、成長期の異なるステップと衛星画像の様々なバンドの関係を暗黙的にモデル化する。
インドのいくつかの州におけるテフシル(ブロック)レベルのコムギ予測に対する提案手法の評価を行い,既存手法を50%以上上回る性能を示した。
また, 農地, 水域, 都市部の位置などの付加的な文脈情報の導入が, 収量推定の改善に有効であることを示す。 An in-season early crop yield forecast before harvest can benefit the farmers to improve the production and enable various agencies to devise plans accordingly. We introduce a reliable and inexpensive method to predict crop yields from publicly available satellite imagery. The proposed method works directly on raw satellite imagery without the need to extract any hand-crafted features or perform dimensionality reduction on the images. The approach implicitly models the relevance of the different steps in the growing season and the various bands in the satellite imagery. We evaluate the proposed approach on tehsil (block) level wheat predictions across several states in India and demonstrate that it outperforms existing methods by over 50\%. We also show that incorporating additional contextual information such as the location of farmlands, water bodies, and urban areas helps in improving the yield estimates. | 翻訳日:2022-09-30 05:09:26 公開日:2020-11-03 |
# モデル非依存的攻撃に対する機械翻訳における単語センスの曖昧さ検出 Detecting Word Sense Disambiguation Biases in Machine Translation for Model-Agnostic Adversarial Attacks ( http://arxiv.org/abs/2011.01846v1 ) ライセンス: Link先を確認 | Denis Emelin, Ivan Titov, Rico Sennrich | (参考訳) word sense disambiguationはnmtでよく知られた翻訳エラーの源である。
間違った曖昧な選択のいくつかは、トレーニングデータ、特に表面的な単語の共起によるデータセットアーティファクトに対するモデルの過度な信頼によるものであると仮定する。
本稿では,統計データ特性に基づく曖昧な誤りの予測手法を提案し,その有効性を複数の領域やモデルタイプで示す。
さらに,不明瞭な誤りを招き,翻訳モデルのロバスト性をさらに探究するために,文を最小限に摂動する単純な対角攻撃戦略を開発する。
以上の結果から,曖昧性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。 Word sense disambiguation is a well-known source of translation errors in NMT. We posit that some of the incorrect disambiguation choices are due to models' over-reliance on dataset artifacts found in training data, specifically superficial word co-occurrences, rather than a deeper understanding of the source text. We introduce a method for the prediction of disambiguation errors based on statistical data properties, demonstrating its effectiveness across several domains and model types. Moreover, we develop a simple adversarial attack strategy that minimally perturbs sentences in order to elicit disambiguation errors to further probe the robustness of translation models. Our findings indicate that disambiguation robustness varies substantially between domains and that different models trained on the same data are vulnerable to different attacks. | 翻訳日:2022-09-30 05:02:59 公開日:2020-11-03 |
# 友人の発見とフリップフネミー:グラフ理論を用いた自動パラフレーズデータセット拡張 Finding Friends and Flipping Frenemies: Automatic Paraphrase Dataset Augmentation Using Graph Theory ( http://arxiv.org/abs/2011.01856v1 ) ライセンス: Link先を確認 | Hannah Chen, Yangfeng Ji, David Evans | (参考訳) ほとんどのNLPデータセットは手動でラベル付けされているため、一貫性のないラベル付けや制限されたサイズに悩まされている。
本稿では,データセットを期待される意味特性を持つグラフとして見ることにより,データセットを自動的に改善する手法を提案する。
提案する文ペアラベルからパラフレーズグラフを構築し,推移性特性を用いて原文ペアから直接ラベルを推測することにより,拡張データセットを作成する。
構造的バランス理論を使って、グラフの誤ったラベルを識別し、ラベルをひっくり返します。
本手法は,事前学習されたbertモデルから学習したパラフレーズモデルを用いて評価し,自動学習によりより正確なモデルが得られることを示す。 Most NLP datasets are manually labeled, so suffer from inconsistent labeling or limited size. We propose methods for automatically improving datasets by viewing them as graphs with expected semantic properties. We construct a paraphrase graph from the provided sentence pair labels, and create an augmented dataset by directly inferring labels from the original sentence pairs using a transitivity property. We use structural balance theory to identify likely mislabelings in the graph, and flip their labels. We evaluate our methods on paraphrase models trained using these datasets starting from a pretrained BERT model, and find that the automatically-enhanced training sets result in more accurate models. | 翻訳日:2022-09-30 05:02:45 公開日:2020-11-03 |
# ディープニューラルネットワークを用いた一貫性の分離 Decoupling entrainment from consistency using deep neural networks ( http://arxiv.org/abs/2011.01860v1 ) ライセンス: Link先を確認 | Andreas Weise, Rivka Levitan | (参考訳) ヒトのインターロカクターは、エントレーメントとして知られる適応行動にかかわる傾向があり、互いにより類似している。
一貫性の効果、すなわち個々のスタイルに固執する話者の分離は、学習の分析において重要な部分である。
話者の最初の発声特徴を,その後の出力予測の基盤として扱うことを提案する。
既存の2つのニューラルアプローチを用いて、一貫性を制御するエントレインメントの新しい尺度を定義した。
これらは偽物と実際の相互作用を識別することに成功した。
興味深いことに、我々の厳密な手法は、一貫性を考慮しない以前の尺度と反対方向の社会的変数と相関している。
これらの結果は,ニューラルネットワークによるトレーニングのモデル化のメリットを示し,一貫性を考慮しないトレーニング尺度を用いて,会話品質の事前関連を解釈する方法に関する疑問を提起する。 Human interlocutors tend to engage in adaptive behavior known as entrainment to become more similar to each other. Isolating the effect of consistency, i.e., speakers adhering to their individual styles, is a critical part of the analysis of entrainment. We propose to treat speakers' initial vocal features as confounds for the prediction of subsequent outputs. Using two existing neural approaches to deconfounding, we define new measures of entrainment that control for consistency. These successfully discriminate real interactions from fake ones. Interestingly, our stricter methods correlate with social variables in opposite direction from previous measures that do not account for consistency. These results demonstrate the advantages of using neural networks to model entrainment, and raise questions regarding how to interpret prior associations of conversation quality with entrainment measures that do not account for consistency. | 翻訳日:2022-09-30 05:02:33 公開日:2020-11-03 |
# 構成言語資源のコード変更型分類に向けて Towards Code-switched Classification Exploiting Constituent Language Resources ( http://arxiv.org/abs/2011.01913v1 ) ライセンス: Link先を確認 | Tanvi Dadu and Kartikey Pant | (参考訳) コードスイッチング(code-switching)は、ある言語から別の言語への移動を同じ音声交換で示す、一般的に観察されるコミュニケーション現象である。
コード切り換えデータの分析は、データの可用性が限られているため、しばしば明らかなタスクになる。
本研究は,単言語とクロス言語の両方の設定を活用すべく,コード交換されたデータをその構成高リソース言語に変換することを提案する。
この変換により、複数のダウンストリームタスク用の構成言語に対して、より高いリソース可用性を活用できます。
我々は,英語とヒンディー語における2つの下流タスク,サルカズム検出とヘイトスピーチ検出の実験を行った。
これらの実験では, F1スコアの22%と42.5%が, サルカズム検出とヘイトスピーチ検出で増加傾向を示した。 Code-switching is a commonly observed communicative phenomenon denoting a shift from one language to another within the same speech exchange. The analysis of code-switched data often becomes an assiduous task, owing to the limited availability of data. We propose converting code-switched data into its constituent high resource languages for exploiting both monolingual and cross-lingual settings in this work. This conversion allows us to utilize the higher resource availability for its constituent languages for multiple downstream tasks. We perform experiments for two downstream tasks, sarcasm detection and hate speech detection, in the English-Hindi code-switched setting. These experiments show an increase in 22% and 42.5% in F1-score for sarcasm detection and hate speech detection, respectively, compared to the state-of-the-art. | 翻訳日:2022-09-30 05:02:20 公開日:2020-11-03 |
# SimulMT to SimulST: エンドツーエンドの同時音声翻訳に同時テキスト翻訳を適用する SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation ( http://arxiv.org/abs/2011.02048v1 ) ライセンス: Link先を確認 | Xutai Ma, Juan Pino, Philipp Koehn | (参考訳) テキスト翻訳とエンドツーエンドの音声翻訳は、最近大きな進歩を遂げているが、これらのタスクを組み合わせた作業はほとんどない。
我々は,事前決定モジュールを導入することで,待ち時間や単調マルチヘッドといった同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適用する方法を検討する。
固定およびフレキシブルな事前決定と固定およびフレキシブルなポリシーを組み合わせることで、レイテンシ品質のトレードオフを詳細に分析する。
また、Average Laggingから適応した新しい計算対応レイテンシメトリックも設計する。 Simultaneous text translation and end-to-end speech translation have recently made great progress but little work has combined these tasks together. We investigate how to adapt simultaneous text translation methods such as wait-k and monotonic multihead attention to end-to-end simultaneous speech translation by introducing a pre-decision module. A detailed analysis is provided on the latency-quality trade-offs of combining fixed and flexible pre-decision with fixed and flexible policies. We also design a novel computation-aware latency metric, adapted from Average Lagging. | 翻訳日:2022-09-30 05:02:06 公開日:2020-11-03 |
# 階層表現を用いたタスク指向意味解析のための合成データの生成 Generating Synthetic Data for Task-Oriented Semantic Parsing with Hierarchical Representations ( http://arxiv.org/abs/2011.02050v1 ) ライセンス: Link先を確認 | Ke Tran, Ming Tan | (参考訳) 現代の会話型AIシステムは、さまざまな能力に対して自然言語理解をサポートする。
これらのタスクの大部分は、インテントとスロットの単純でフラットな表現を使って実現可能だが、より高度な機能には、セマンティック解析によってサポートされる複雑な階層表現が必要になる。
最先端のセマンティックパーザは、階層スキーマに従ってラベル付けされたデータによる教師付き学習を使用して訓練される。
本研究では,事前学習されたdenoising sequence-to-sequenceモデル(BART)を用いて,ニューラルセマンティック解析のための合成データを生成する可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて抽出したテンプレートに合成音声を生成する。
最後に、生成された発話をフィルタリングするために補助パーサ(AP)を用いる。
APは生成されたデータの品質を保証する。
ナビゲーションドメインのためのfacebook top datasetの評価において、我々のアプローチの可能性を示す。 Modern conversational AI systems support natural language understanding for a wide variety of capabilities. While a majority of these tasks can be accomplished using a simple and flat representation of intents and slots, more sophisticated capabilities require complex hierarchical representations supported by semantic parsing. State-of-the-art semantic parsers are trained using supervised learning with data labeled according to a hierarchical schema which might be costly to obtain or not readily available for a new domain. In this work, we explore the possibility of generating synthetic data for neural semantic parsing using a pretrained denoising sequence-to-sequence model (i.e., BART). Specifically, we first extract masked templates from the existing labeled utterances, and then fine-tune BART to generate synthetic utterances conditioning on the extracted templates. Finally, we use an auxiliary parser (AP) to filter the generated utterances. The AP guarantees the quality of the generated data. We show the potential of our approach when evaluating on the Facebook TOP dataset for navigation domain. | 翻訳日:2022-09-30 05:01:54 公開日:2020-11-03 |
# ツリーバンクによるユーザ生成コンテンツ: UDによるガイドライン・コーパス・統一勧告の概要 Treebanking User-Generated Content: a UD Based Overview of Guidelines, Corpora and Unified Recommendations ( http://arxiv.org/abs/2011.02063v1 ) ライセンス: Link先を確認 | Manuela Sanguinetti, Lauren Cassidy, Cristina Bosco, \"Ozlem \c{C}etino\u{g}lu, Alessandra Teresa Cignarella, Teresa Lynn, Ines Rehbein, Josef Ruppenhofer, Djam\'e Seddah, Amir Zeldes | (参考訳) 本稿では,Web やソーシャルメディアにおけるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じるとともに,構文解析のユニバーサル依存(UD)フレームワーク内での扱いに関するガイドラインのセットを提案する。
Given on the one hand the increasing number of treebanks featuring user-generated content, and its somewhat inconsistent treatment in these resources on the other, the aim of this article is twofold: (1) to provide a condensed, though comprehensive, overview of such treebanks -- based on available literature -- along with their main features and a comparative analysis of their annotation criteria, and (2) to propose a set of tentative UD-based annotation guidelines, to promote consistent treatment of the particular phenomena found in these types of texts.
本稿の総括目標は、UDの精神の中心にある原則である言語間整合性を促進するために、UDで類似のリソースを開発することに関心を持つ研究者に共通のフレームワークを提供することである。 This article presents a discussion on the main linguistic phenomena which cause difficulties in the analysis of user-generated texts found on the web and in social media, and proposes a set of annotation guidelines for their treatment within the Universal Dependencies (UD) framework of syntactic analysis. Given on the one hand the increasing number of treebanks featuring user-generated content, and its somewhat inconsistent treatment in these resources on the other, the aim of this article is twofold: (1) to provide a condensed, though comprehensive, overview of such treebanks -- based on available literature -- along with their main features and a comparative analysis of their annotation criteria, and (2) to propose a set of tentative UD-based annotation guidelines, to promote consistent treatment of the particular phenomena found in these types of texts. The overarching goal of this article is to provide a common framework for researchers interested in developing similar resources in UD, thus promoting cross-linguistic consistency, which is a principle that has always been central to the spirit of UD. | 翻訳日:2022-09-30 05:01:39 公開日:2020-11-03 |
# エンド・ツー・エンド音声認識のための拡張メモリを用いたストリーミングアテンションモデル Streaming Attention-Based Models with Augmented Memory for End-to-End Speech Recognition ( http://arxiv.org/abs/2011.07120v1 ) ライセンス: Link先を確認 | Ching-Feng Yeh, Yongqiang Wang, Yangyang Shi, Chunyang Wu, Frank Zhang, Julian Chan, Michael L. Seltzer | (参考訳) 近年,機械翻訳や音声認識などの分野での強い性能から,注意に基づくモデルが人気を集めている。
注意に基づくモデルの大きな課題の1つは、全シーケンスへのアクセスの必要性と、シーケンスの長さに関する二次的に増加する計算コストである。
これらの特徴は、特に低レイテンシのシナリオでは、システムがストリーミングを必要とすることが多い。
本稿では,コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築する。
提案するシステムは,ストリーミング機能を備えたエンドツーエンドモデルを実装し,拡張メモリを用いたストリーミング注目モデルから大きなフットプリントを削減できる。
librispeechデータセットでは,提案手法はテストクリーンでは2.7%,テストその他では5.8%の単語誤り率を達成している。 Attention-based models have been gaining popularity recently for their strong performance demonstrated in fields such as machine translation and automatic speech recognition. One major challenge of attention-based models is the need of access to the full sequence and the quadratically growing computational cost concerning the sequence length. These characteristics pose challenges, especially for low-latency scenarios, where the system is often required to be streaming. In this paper, we build a compact and streaming speech recognition system on top of the end-to-end neural transducer architecture with attention-based modules augmented with convolution. The proposed system equips the end-to-end models with the streaming capability and reduces the large footprint from the streaming attention-based model using augmented memory. On the LibriSpeech dataset, our proposed system achieves word error rates 2.7% on test-clean and 5.8% on test-other, to our best knowledge the lowest among streaming approaches reported so far. | 翻訳日:2022-09-30 05:01:23 公開日:2020-11-03 |
# 行動状態トレースに基づく敵対的環境における行動のシミュレーションと分類:マネーロンダリングへの適用 Simulating and classifying behavior in adversarial environments based on action-state traces: an application to money laundering ( http://arxiv.org/abs/2011.01826v1 ) ライセンス: Link先を確認 | Daniel Borrajo, Manuela Veloso, Sameena Shah | (参考訳) 多くのビジネスアプリケーションは、対立する利益を最適化するために双方が戦略に適応する敵関係を含む。
これらのアプリケーションの主な特徴の1つは、敵が利益の維持と権威の回避のために戦略を動的に適応する際に選択できる幅広い戦略である。
本稿では,このようなアプリケーション,特にアンチマネーロンダリングの文脈において,新たなアプローチ手法を提案する。
組織がこれらのリスクを事前に軽減するために、多様性があり、現実的で、新しく観察されていない行動を生成するメカニズムを提供する。
この点において、主な貢献は3つある。
(a)金融機関が現在使用している個別取引に基づくモデルとは対照的に、新たな行動に基づくモデルを提案する。
観察された人間の行動を表現するために,行動トレースを豊富な関係表現として導入する。
(b)これらの痕跡を観測し、有意な活動に拘わらずマネーロンダリングや標準的な行動に分類することにより、アクターの目標を正確に推測することができるモデリングアプローチ。
そして
(c)未確認の新たなトレースを生成する合成行動シミュレータ。
このシミュレータは行動パラメータに高いレベルの柔軟性を組み込んでおり、検出アルゴリズムに挑戦できる。
最後に、部分的可観測性しか持たない学習モジュール(自動調査員)が、依然として行動の種類を推測し、それによってシミュレーションされた目標を達成できることを示す実験結果を提供する。 Many business applications involve adversarial relationships in which both sides adapt their strategies to optimize their opposing benefits. One of the key characteristics of these applications is the wide range of strategies that an adversary may choose as they adapt their strategy dynamically to sustain benefits and evade authorities. In this paper, we present a novel way of approaching these types of applications, in particular in the context of Anti-Money Laundering. We provide a mechanism through which diverse, realistic and new unobserved behavior may be generated to discover potential unobserved adversarial actions to enable organizations to preemptively mitigate these risks. In this regard, we make three main contributions. (a) Propose a novel behavior-based model as opposed to individual transactions-based models currently used by financial institutions. We introduce behavior traces as enriched relational representation to represent observed human behavior. (b) A modelling approach that observes these traces and is able to accurately infer the goals of actors by classifying the behavior into money laundering or standard behavior despite significant unobserved activity. And (c) a synthetic behavior simulator that can generate new previously unseen traces. The simulator incorporates a high level of flexibility in the behavioral parameters so that we can challenge the detection algorithm. Finally, we provide experimental results that show that the learning module (automated investigator) that has only partial observability can still successfully infer the type of behavior, and thus the simulated goals, followed by customers based on traces - a key aspiration for many applications today. | 翻訳日:2022-09-30 05:00:51 公開日:2020-11-03 |
# オランダ小説とニュースにおけるルールベースおよびニューラルコリファレンス解決のベンチマーク A Benchmark of Rule-Based and Neural Coreference Resolution in Dutch Novels and News ( http://arxiv.org/abs/2011.01615v1 ) ライセンス: Link先を確認 | Corb\`en Poot, Andreas van Cranenburgh | (参考訳) 文芸小説とニュース/Wikipediaテキストという2つのドメインのオランダのデータセットに基づいてルールベース(Lee et al., 2013)とニューラル(Lee et al., 2018)のコア推論システムを評価する。
その結果、データ駆動型および知識駆動型システムの相対的強みや、ドメイン、文書の長さ、アノテーションスキームの影響についての知見が得られる。
ニューラルシステムはニュース/wikipediaのテキストでベスト、ルールベースのシステムは文学でベストだ。
ニューラルネットワークは、限られたトレーニングデータと長いドキュメントを持つ弱点を示し、ルールベースのシステムはアノテーションの違いの影響を受けます。
本論文で使用されるコードとモデルは、https://github.com/andreasvc/crac2020で利用可能である。 We evaluate a rule-based (Lee et al., 2013) and neural (Lee et al., 2018) coreference system on Dutch datasets of two domains: literary novels and news/Wikipedia text. The results provide insight into the relative strengths of data-driven and knowledge-driven systems, as well as the influence of domain, document length, and annotation schemes. The neural system performs best on news/Wikipedia text, while the rule-based system performs best on literature. The neural system shows weaknesses with limited training data and long documents, while the rule-based system is affected by annotation differences. The code and models used in this paper are available at https://github.com/andreasvc/crac2020 | 翻訳日:2022-09-30 04:54:07 公開日:2020-11-03 |
# 短い匿名化小説断片を用いた盲目文芸味試験の結果 Results of a Single Blind Literary Taste Test with Short Anonymized Novel Fragments ( http://arxiv.org/abs/2011.01624v1 ) ライセンス: Link先を確認 | Andreas van Cranenburgh, Corina Koolen | (参考訳) 文学的品質の認識が、テキストイントリンシズムと社会的要因からどの程度派生しているかは、公然の疑問である。
教師付きモデルは、文学的品質プロジェクト(koolen et al., 2020)の謎にあるように、テキスト的要因から文学的品質評価をかなりうまく予測することができるが、これは社会的要因が重要ではないことや、読者が文学的品質を同じように判断し、機械学習モデルと同じ情報に基づいて判断できると仮定することができない。
オランダ語小説の文体的特徴が文学的評価に及ぼす影響を,48人の被験者による対照実験で評価した。
探索的分析では,社会的要因を除外しない大規模リドル調査と,それらの文学的評価の機械学習予測を比較した。
アンケート評価と調査評価との相関は中程度から強かったが,その予測は調査評価に近かった。
コードとデータ: https://github.com/andreasvc/litquest It is an open question to what extent perceptions of literary quality are derived from text-intrinsic versus social factors. While supervised models can predict literary quality ratings from textual factors quite successfully, as shown in the Riddle of Literary Quality project (Koolen et al., 2020), this does not prove that social factors are not important, nor can we assume that readers make judgments on literary quality in the same way and based on the same information as machine learning models. We report the results of a pilot study to gauge the effect of textual features on literary ratings of Dutch-language novels by participants in a controlled experiment with 48 participants. In an exploratory analysis, we compare the ratings to those from the large reader survey of the Riddle in which social factors were not excluded, and to machine learning predictions of those literary ratings. We find moderate to strong correlations of questionnaire ratings with the survey ratings, but the predictions are closer to the survey ratings. Code and data: https://github.com/andreasvc/litquest | 翻訳日:2022-09-30 04:53:50 公開日:2020-11-03 |
# ゼロショット機械翻訳を超える言語間単語埋め込み Cross-lingual Word Embeddings beyond Zero-shot Machine Translation ( http://arxiv.org/abs/2011.01682v1 ) ライセンス: Link先を確認 | Shifei Chen and Ali Basirat | (参考訳) 本稿では,言語間単語埋め込みのみを基礎とした多言語ニューラルマシン翻訳モデルの未知言語への変換可能性について検討する。
実験の結果,翻訳知識は他の言語に弱く伝達でき,翻訳可能性の程度は言語の関連性に依存することがわかった。
また、弱い翻訳伝達を引き起こす多言語アーキテクチャの制限面についても論じ、その制限を緩和する方法を提案する。 We explore the transferability of a multilingual neural machine translation model to unseen languages when the transfer is grounded solely on the cross-lingual word embeddings. Our experimental results show that the translation knowledge can transfer weakly to other languages and that the degree of transferability depends on the languages' relatedness. We also discuss the limiting aspects of the multilingual architectures that cause weak translation transfer and suggest how to mitigate the limitations. | 翻訳日:2022-09-30 04:53:08 公開日:2020-11-03 |
# Anamnesis Summarizationの自動化に向けて: BERTに基づく症状抽出モデル Towards Automated Anamnesis Summarization: BERT-based Models for Symptom Extraction ( http://arxiv.org/abs/2011.01696v1 ) ライセンス: Link先を確認 | Anton Sch\"afer, Nils Blach, Oliver Rausch, Maximilian Warm, Nils Kr\"uger | (参考訳) 現代の医療システムのプロフェッショナルは、ドキュメントのワークロードによってますます負担がかかっている。
初期の患者の文書は特に関係があり、さらなる診断方法の確立の基盤を形成している。
しかし手書きの音符は本質的に非構造であり、しばしば不完全である。
本稿では,現代NLP技術による医師支援の可能性について検討する。
本稿では,ドイツの患者モノローグのデータセットを提示し,実世界の実用性と実用性の制約のもとによく定義された情報抽出タスクを定式化する。
さらに,この課題を解決するため,BERTに基づくモデルを提案する。
症状識別と症状属性抽出の両方において,モデルの有望な性能を示すことができる。 Professionals in modern healthcare systems are increasingly burdened by documentation workloads. Documentation of the initial patient anamnesis is particularly relevant, forming the basis of successful further diagnostic measures. However, manually prepared notes are inherently unstructured and often incomplete. In this paper, we investigate the potential of modern NLP techniques to support doctors in this matter. We present a dataset of German patient monologues, and formulate a well-defined information extraction task under the constraints of real-world utility and practicality. In addition, we propose BERT-based models in order to solve said task. We can demonstrate promising performance of the models in both symptom identification and symptom attribute extraction, significantly outperforming simpler baselines. | 翻訳日:2022-09-30 04:52:44 公開日:2020-11-03 |
# サブワードセグメンテーションとシングルブリッジ言語がゼロショットニューラルマシン翻訳に及ぼす影響 Subword Segmentation and a Single Bridge Language Affect Zero-Shot Neural Machine Translation ( http://arxiv.org/abs/2011.01703v1 ) ライセンス: Link先を確認 | Annette Rios and Mathias M\"uller and Rico Sennrich | (参考訳) ゼロショットニューラルマシン翻訳は、データを取得し、新しい翻訳方向のための翻訳システムを構築するコストが高いため、魅力的な目標である。
しかし、以前の論文はゼロショット翻訳の成功を報告している。
どの設定が効果的か、どれが完全に監督されたシステムよりも性能が制限されるかを予測するのは難しい。
本稿では,WMTデータに基づいて学習した多言語EN$\leftrightarrow${FR,CS,DE,FI}システムのゼロショット性能について検討する。
ゼロショット性能は非常に不安定であり、トレーニング実行中に6 BLEU以上で変化する可能性があるため、改善を確実に追跡することは困難である。
ゼロショット翻訳におけるソースのコピーに対するバイアスを観察し,サブワードセグメンテーションの選択がこのバイアスにどのように影響するかを検討する。
言語固有のサブワードセグメンテーションは、トレーニング時にサブワードのコピーが少なくなり、共同訓練されたセグメンテーションよりもゼロショットのパフォーマンスが向上することがわかった。
最近の多言語モデルのトレンドは、すべての言語ペア間の並列データをトレーニングするのではなく、例えば英語のような単一のブリッジ言語を持つことだ。
これはゼロショット翻訳に悪影響を及ぼし、モデルが言語タグを無視してゼロショット方向の英語出力を生成する失敗モードにつながる。
英語に対する偏りは、一部の非英語ペアにおいて、少量の並列データであっても効果的に低減できることを示す。 Zero-shot neural machine translation is an attractive goal because of the high cost of obtaining data and building translation systems for new translation directions. However, previous papers have reported mixed success in zero-shot translation. It is hard to predict in which settings it will be effective, and what limits performance compared to a fully supervised system. In this paper, we investigate zero-shot performance of a multilingual EN$\leftrightarrow${FR,CS,DE,FI} system trained on WMT data. We find that zero-shot performance is highly unstable and can vary by more than 6 BLEU between training runs, making it difficult to reliably track improvements. We observe a bias towards copying the source in zero-shot translation, and investigate how the choice of subword segmentation affects this bias. We find that language-specific subword segmentation results in less subword copying at training time, and leads to better zero-shot performance compared to jointly trained segmentation. A recent trend in multilingual models is to not train on parallel data between all language pairs, but have a single bridge language, e.g. English. We find that this negatively affects zero-shot translation and leads to a failure mode where the model ignores the language tag and instead produces English output in zero-shot directions. We show that this bias towards English can be effectively reduced with even a small amount of parallel data in some of the non-English pairs. | 翻訳日:2022-09-30 04:52:33 公開日:2020-11-03 |
# Barthes' Cardinal Function を用いた物語のイベント・サリエンスモデリング Modeling Event Salience in Narratives via Barthes' Cardinal Functions ( http://arxiv.org/abs/2011.01785v1 ) ライセンス: Link先を確認 | Takaki Otake, Sho Yokoi, Naoya Inoue, Ryo Takahashi, Tatsuki Kuribayashi, Kentaro Inui | (参考訳) 物語の中の出来事は、敬礼によって異なる:ある出来事は他の物語よりも物語にとって重要である。
物語生成などのタスクや、ナラトロジーや民俗学におけるテキスト分析のツールとして、イベントサルジェンスの推定は有用である。
アノテーションを使わずにイベントサリエンスを計算するために,Barthes氏のイベントサリエンスの定義を採用し,事前訓練された言語モデルのみを必要とする教師なしメソッドをいくつか提案する。
提案手法をイベントサルジェンスアノテーションを用いて評価し,提案手法がベースライン手法を上回り,物語文による言語モデルの微調整を見いだすことが,提案手法を改善する上で重要な要因であることを示す。 Events in a narrative differ in salience: some are more important to the story than others. Estimating event salience is useful for tasks such as story generation, and as a tool for text analysis in narratology and folkloristics. To compute event salience without any annotations, we adopt Barthes' definition of event salience and propose several unsupervised methods that require only a pre-trained language model. Evaluating the proposed methods on folktales with event salience annotation, we show that the proposed methods outperform baseline methods and find fine-tuning a language model on narrative texts is a key factor in improving the proposed methods. | 翻訳日:2022-09-30 04:52:10 公開日:2020-11-03 |
# Web Argument Corpora の半監督的クリーニング Semi-Supervised Cleansing of Web Argument Corpora ( http://arxiv.org/abs/2011.01798v1 ) ライセンス: Link先を確認 | Jonas Dorsch and Henning Wachsmuth | (参考訳) 議論ポータルと類似のWebプラットフォームは、計算議論研究における主要なテキストソースの1つである。
これらのソース上に構築されたコーパスは議論的な内容や構造に富んでいるが、それらの目的に無関係で有害なテキストも含まれている。
本稿では,そのような無関係テキストを半教師付きで検出する精度指向のアプローチを提案する。
いくつか例を挙げると、このアプローチは、関連性と非関連性の基本的な語彙パターンを自動的に学習し、パターンにマッチする文から新たなパターンを段階的にブートストラップする。
400kの議論テキストを持つ既存のargs.meコーパスでは、手作業による評価により、約87kの無関係文を精度0.97で検出する。
低い労力で、アプローチは他のWeb引数コーパスに適応することができ、コーパスの品質を改善する汎用的な方法を提供する。 Debate portals and similar web platforms constitute one of the main text sources in computational argumentation research and its applications. While the corpora built upon these sources are rich of argumentatively relevant content and structure, they also include text that is irrelevant, or even detrimental, to their purpose. In this paper, we present a precision-oriented approach to detecting such irrelevant text in a semi-supervised way. Given a few seed examples, the approach automatically learns basic lexical patterns of relevance and irrelevance and then incrementally bootstraps new patterns from sentences matching the patterns. In the existing args.me corpus with 400k argumentative texts, our approach detects almost 87k irrelevant sentences, at a precision of 0.97 according to manual evaluation. With low effort, the approach can be adapted to other web argument corpora, providing a generic way to improve corpus quality. | 翻訳日:2022-09-30 04:51:54 公開日:2020-11-03 |
# 共有値における多重線形補正と複合特徴効果 Multicollinearity Correction and Combined Feature Effect in Shapley Values ( http://arxiv.org/abs/2011.01661v1 ) ライセンス: Link先を確認 | Indranil Basu and Subhadip Maji | (参考訳) モデル解釈性は、多くの機械学習モデルにおいて最も興味深い問題の一つであり、特に数学的に洗練された問題である。
共有価値の計算は、モデル内の各機能の重要性を行レベルで見つけるのに、これまでで最高のアプローチであることは間違いない。
言い換えれば、Shapley値は特定の行、特に分類や回帰の問題における機能の重要性を表している。
Shapley valesの最大の制限の1つは、Shapley値計算はすべての特徴が(互いに独立して)非相関であると仮定するので、この仮定はしばしば正しくない。
この問題に対処するために,shapley値と相関した特徴量を計算するための統一フレームワークを提案する。
より具体的には、行の独立シェープリー値を計算しながら特徴量の調整(行列定式化)を行う。
さらに、これらの調整に対して数学的に証明した。
これらの調整により、特徴に対するシェープ値(重要度)は、それらの間の相関から独立する。
また、この調整の概念を機能以上に強化しました。
Shapley値が付加的であるため、2つの特徴の組合せ効果を計算するには、それぞれのShapley値を追加するだけでよい。
ひとつ以上の特徴(組み合わせで使用される)が他の特徴(組み合わせで使用されるものではない)と相関している場合、これは再び正しくない。
我々はまた,シャプリー値を決定する組み合わせにおいて,ある特徴の相関調整を複数の特徴に拡張することでこの問題に対処した。
本手法の実装により,shapley法と比較して計算効率も高いことが証明された。 Model interpretability is one of the most intriguing problems in most of the Machine Learning models, particularly for those that are mathematically sophisticated. Computing Shapley Values are arguably the best approach so far to find the importance of each feature in a model, at the row level. In other words, Shapley values represent the importance of a feature for a particular row, especially for Classification or Regression problems. One of the biggest limitations of Shapley vales is that, Shapley value calculations assume all the features are uncorrelated (independent of each other), this assumption is often incorrect. To address this problem, we present a unified framework to calculate Shapley values with correlated features. To be more specific, we do an adjustment (Matrix formulation) of the features while calculating Independent Shapley values for the rows. Moreover, we have given a Mathematical proof against the said adjustments. With these adjustments, Shapley values (Importance) for the features become independent of the correlations existing between them. We have also enhanced this adjustment concept for more than features. As the Shapley values are additive, to calculate combined effect of two features, we just have to add their individual Shapley values. This is again not right if one or more of the features (used in the combination) are correlated with the other features (not in the combination). We have addressed this problem also by extending the correlation adjustment for one feature to multiple features in the said combination for which Shapley values are determined. Our implementation of this method proves that our method is computationally efficient also, compared to original Shapley method. | 翻訳日:2022-09-30 04:45:14 公開日:2020-11-03 |
# プライバシー保護型協調機械学習のためのスケーラブルなアプローチ A Scalable Approach for Privacy-Preserving Collaborative Machine Learning ( http://arxiv.org/abs/2011.01963v1 ) ライセンス: Link先を確認 | Jinhyun So, Basak Guler, A. Salman Avestimehr | (参考訳) 我々は,複数のデータ所有者が協調的にロジスティック回帰モデルを訓練し,個々のデータセットを相互にプライベートにしたいという協調学習シナリオを検討する。
我々は,スケーラビリティとプライバシ保護を同時に実現する,完全に分散化されたトレーニングフレームワークCOPMLを提案する。
COPMLのキーとなる考え方は、個々のデータセットをセキュアにエンコードして、多くのパーティに効率的に計算負荷を分散させ、セキュアにエンコードされたデータに対して、トレーニング計算とモデルの更新を分散的に行うことである。
我々はCOPMLのプライバシー分析を行い、その収束性を証明する。
さらに,ベンチマークプロトコル上でのトレーニングにおいてCOPMLが大幅に高速化できることを実験的に実証した。
当社のプロトコルは,非有界な計算能力を持つ当事者(管理者)に対する強力な統計的プライバシ保証を提供すると同時に,ベンチマークプロトコルに対するトレーニング時間の最大16\times$スピードアップを実現している。 We consider a collaborative learning scenario in which multiple data-owners wish to jointly train a logistic regression model, while keeping their individual datasets private from the other parties. We propose COPML, a fully-decentralized training framework that achieves scalability and privacy-protection simultaneously. The key idea of COPML is to securely encode the individual datasets to distribute the computation load effectively across many parties and to perform the training computations as well as the model updates in a distributed manner on the securely encoded data. We provide the privacy analysis of COPML and prove its convergence. Furthermore, we experimentally demonstrate that COPML can achieve significant speedup in training over the benchmark protocols. Our protocol provides strong statistical privacy guarantees against colluding parties (adversaries) with unbounded computational power, while achieving up to $16\times$ speedup in the training time against the benchmark protocols. | 翻訳日:2022-09-30 04:44:48 公開日:2020-11-03 |
# ヘリンジャー距離におけるロバスト仮説検定と分布推定 Robust hypothesis testing and distribution estimation in Hellinger distance ( http://arxiv.org/abs/2011.01848v1 ) ライセンス: Link先を確認 | Ananda Theertha Suresh | (参考訳) 我々は,最適なネマン・ピアソン検定と同一のサンプル複雑性を持つ単純な頑健な仮説テストを提案するが,ヘリンジャー距離下での分布摂動には頑健である。
ヘリンガー距離の分布推定におけるロバストなテストの適用性について検討する。
正準分布に対する試験のパワーを実証的に示す。 We propose a simple robust hypothesis test that has the same sample complexity as that of the optimal Neyman-Pearson test up to constants, but robust to distribution perturbations under Hellinger distance. We discuss the applicability of such a robust test for estimating distributions in Hellinger distance. We empirically demonstrate the power of the test on canonical distributions. | 翻訳日:2022-09-30 04:44:33 公開日:2020-11-03 |
# ニューラルマシン翻訳のための階層型マルチビュー学習 Layer-Wise Multi-View Learning for Neural Machine Translation ( http://arxiv.org/abs/2011.01482v1 ) ライセンス: Link先を確認 | Qiang Wang, Changliang Li, Yue Zhang, Tong Xiao, Jingbo Zhu | (参考訳) 従来のニューラルマシン翻訳は最上位のエンコーダ層のコンテキスト表現に限定されており、下位のエンコーダ層を直接認識することはできない。
既存のソリューションは通常、ネットワークアーキテクチャの調整に依存しており、計算をより複雑にするか、追加の構造的制約を導入する。
本研究では,モデル構造を変更する必要性を回避するため,レイヤワイドな多視点学習を提案する。
我々は,各エンコーダ層のオフザシェルフ出力,すなわち層単位のエンコーディングの副産物を,入力文の冗長ビューとみなす。
このように、最上位エンコーダ層(一次ビューとして参照)に加えて、中間エンコーダ層を補助ビューとして組み込む。
2つのビューを部分的に共有したデコーダに供給して、独立した予測を行ないます。
KLの発散に基づく一貫性の規則化は、2つの視点が互いに学習することを奨励するために用いられる。
5つの翻訳タスクに関する広範な実験結果から,複数の強いベースラインに対して安定した改善が得られた。
また,提案手法はネットワークアーキテクチャに非依存であり,従来のモデルと同じ推論速度を維持することができる。 Traditional neural machine translation is limited to the topmost encoder layer's context representation and cannot directly perceive the lower encoder layers. Existing solutions usually rely on the adjustment of network architecture, making the calculation more complicated or introducing additional structural restrictions. In this work, we propose layer-wise multi-view learning to solve this problem, circumventing the necessity to change the model structure. We regard each encoder layer's off-the-shelf output, a by-product in layer-by-layer encoding, as the redundant view for the input sentence. In this way, in addition to the topmost encoder layer (referred to as the primary view), we also incorporate an intermediate encoder layer as the auxiliary view. We feed the two views to a partially shared decoder to maintain independent prediction. Consistency regularization based on KL divergence is used to encourage the two views to learn from each other. Extensive experimental results on five translation tasks show that our approach yields stable improvements over multiple strong baselines. As another bonus, our method is agnostic to network architectures and can maintain the same inference speed as the original model. | 翻訳日:2022-09-30 04:44:26 公開日:2020-11-03 |
# CharBERT: 文字認識事前学習言語モデル CharBERT: Character-aware Pre-trained Language Model ( http://arxiv.org/abs/2011.01513v1 ) ライセンス: Link先を確認 | Wentao Ma, Yiming Cui, Chenglei Si, Ting Liu, Shijin Wang, Guoping Hu | (参考訳) 多くの事前訓練された言語モデル (PLM) は、Byte-Pair Encoding (BPE) またはそのバリエーションを用いてサブワードレベルで単語表現を構築する。
しかし、これらの手法は単語をサブワード単位に分割し、表現を不完全かつ脆弱にする。
本稿では,従来の手法(BERTやRoBERTaなど)を改良したCharBERTという文字認識事前学習言語モデルを提案する。
まず, 逐次的な文字表現から各トークンに対する文脈的単語埋め込みを構築し, 新たな不均質な対話モジュールにより, 文字表現とサブワード表現を融合する。
また,教師なし文字表現学習のためのNLM(Noisy LM)という事前学習タスクを提案する。
本手法は,質問応答,シーケンスラベリング,テキスト分類のタスクにおいて,元のデータセットと逆スペルテストセットの両方で評価する。
実験の結果,plmの性能とロバスト性を同時に向上できることがわかった。
事前訓練されたモデル、評価セット、コードはhttps://github.com/wtma/CharBERTで入手できる。 Most pre-trained language models (PLMs) construct word representations at subword level with Byte-Pair Encoding (BPE) or its variations, by which OOV (out-of-vocab) words are almost avoidable. However, those methods split a word into subword units and make the representation incomplete and fragile. In this paper, we propose a character-aware pre-trained language model named CharBERT improving on the previous methods (such as BERT, RoBERTa) to tackle these problems. We first construct the contextual word embedding for each token from the sequential character representations, then fuse the representations of characters and the subword representations by a novel heterogeneous interaction module. We also propose a new pre-training task named NLM (Noisy LM) for unsupervised character representation learning. We evaluate our method on question answering, sequence labeling, and text classification tasks, both on the original datasets and adversarial misspelling test sets. The experimental results show that our method can significantly improve the performance and robustness of PLMs simultaneously. Pretrained models, evaluation sets, and code are available at https://github.com/wtma/CharBERT | 翻訳日:2022-09-30 04:44:07 公開日:2020-11-03 |
# AraWEAT:アラビア語単語埋め込みにおけるビアーゼの多次元解析 AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings ( http://arxiv.org/abs/2011.01575v1 ) ライセンス: Link先を確認 | Anne Lauscher, Rafik Takieddin, Simone Paolo Ponzetto, and Goran Glava\v{s} | (参考訳) 最近の研究によると、分布的な単語ベクトル空間は、しばしば性差別や人種差別のような人間のバイアスを符号化している。
本研究では,アラビア語のコーパスから誘導される様々な埋め込み空間に対して,最近導入されたバイアステストを適用し,アラビア語の単語埋め込みにおけるバイアスの広範囲な分析を行う。
複数の次元にわたるバイアス、すなわち、埋め込みモデル(スキップグラム、cbow、fasttext)、ベクターサイズ、テキストの種類(百科事典テキストとニュース対ユーザ生成コンテンツ)、方言(エジプト語アラビア語と現代標準アラビア語)、時間(異なる時期のコーパス上での2次解析)の存在を測定する。
我々の分析は、例えば、アラビアニュースコーパスで訓練された埋め込みにおいて、暗黙の性別バイアスが時間とともに着実に増加するという興味深い発見をもたらす(2007年から2017年まで)。
アラビアバイアス仕様(AraWEAT)を公開しています。 Recent work has shown that distributional word vector spaces often encode human biases like sexism or racism. In this work, we conduct an extensive analysis of biases in Arabic word embeddings by applying a range of recently introduced bias tests on a variety of embedding spaces induced from corpora in Arabic. We measure the presence of biases across several dimensions, namely: embedding models (Skip-Gram, CBOW, and FastText) and vector sizes, types of text (encyclopedic text, and news vs. user-generated content), dialects (Egyptian Arabic vs. Modern Standard Arabic), and time (diachronic analyses over corpora from different time periods). Our analysis yields several interesting findings, e.g., that implicit gender bias in embeddings trained on Arabic news corpora steadily increases over time (between 2007 and 2017). We make the Arabic bias specifications (AraWEAT) publicly available. | 翻訳日:2022-09-30 04:43:47 公開日:2020-11-03 |
# 理論に基づく議論品質評価のためのドメイン多様性コーパスの作成 Creating a Domain-diverse Corpus for Theory-based Argument Quality Assessment ( http://arxiv.org/abs/2011.01589v1 ) ライセンス: Link先を確認 | Lily Ng, Anne Lauscher, Joel Tetreault, Courtney Napoles | (参考訳) 議論品質の計算モデル(AQ)は、主に、その説得力や明快さなど、議論の全体的な品質または1つの特定の特性を評価することに焦点を当てている。
しかし、以前の研究は、議論の理論的な次元に基づく評価は作家にとって有益であると主張したが、そのようなモデルの開発は注釈付きデータの欠如によって制限されている。
本稿では,理論に基づくAQの最初の大域多言語コーパスであるGAQCorpusについて述べる。
我々は,AQの主観的判断をより客観的にするための理論に基づくガイドラインを定式化した,クラウドソーシングによる多数の判断を確実に収集するアノテーションタスクを設計した方法について論じる。
3つの異なるドメインに対して、引数を識別し、アノテーションタスクを適用する方法を示します。
本研究は,理論に基づく議論アノテーションの研究を報告し,より多様なコーパスの作成により,計算AQアセスメントを支援する。 Computational models of argument quality (AQ) have focused primarily on assessing the overall quality or just one specific characteristic of an argument, such as its convincingness or its clarity. However, previous work has claimed that assessment based on theoretical dimensions of argumentation could benefit writers, but developing such models has been limited by the lack of annotated data. In this work, we describe GAQCorpus, the first large, domain-diverse annotated corpus of theory-based AQ. We discuss how we designed the annotation task to reliably collect a large number of judgments with crowdsourcing, formulating theory-based guidelines that helped make subjective judgments of AQ more objective. We demonstrate how to identify arguments and adapt the annotation task for three diverse domains. Our work will inform research on theory-based argumentation annotation and enable the creation of more diverse corpora to support computational AQ assessment. | 翻訳日:2022-09-30 04:43:29 公開日:2020-11-03 |
# クラスタリング符号ネットワークのための正規化スペクトル法 Regularized spectral methods for clustering signed networks ( http://arxiv.org/abs/2011.01737v1 ) ライセンス: Link先を確認 | Mihai Cucuringu, Apoorv Vikram Singh, D\'eborah Sulem, Hemant Tyagi | (参考訳) 署名付きグラフにおける$k$-wayクラスタリングの問題について検討する。
近年の注目は、ノード間の親和性尺度が正または負の値を取る符号付きグラフの分析とモデル化に向けられている。
最近はCucuringuなど。
そこで, [CDGT 2019] はSPONGE (Signed Positive over Negative Generalized Eigenproblem) というスペクトル法を提案した。
このアプローチは、クラスタ化タスクが所定のネットワークを非結合グループに分解することを目的としている社会バランス理論によって動機付けられており、同じグループ内の個人は可能な限り多くの正のエッジで接続され、異なるグループの個人は主に負のエッジによって接続される。
広範な数値シミュレーションにより、SPONGEは最先端の実証的な性能を達成できた。
理論的な面では、[cdgt 2019]はグラフが適度に密集している状態において、ssbm(signed stochastic block model)をk=2$等サイズのクラスタに設定して、スポンジと一般的なラプラシアン法を解析した。
本研究では,SPONGE の正規化バージョンと Signed Laplacian の2つの面で [CDGT 2019] の結果に基づいて構築する。
まず、両方のアルゴリズムに対して、[CDGT 2019]の理論的解析を、適度に高密度な状態にある$k \geq 2$不等サイズのクラスターの一般的な設定に拡張する。
第二に、スパースグラフを扱うための2つの手法の正規化バージョン(標準スペクトル法が性能が劣る体制)を導入し、同じSSBMモデルの下で理論的保証を提供する。
我々の知る限りでは、クラスタリング符号グラフの設定において正規化スペクトル法は検討されていない。
我々は, 理論結果を合成データに関する広範な数値実験で補完する。 We study the problem of $k$-way clustering in signed graphs. Considerable attention in recent years has been devoted to analyzing and modeling signed graphs, where the affinity measure between nodes takes either positive or negative values. Recently, Cucuringu et al. [CDGT 2019] proposed a spectral method, namely SPONGE (Signed Positive over Negative Generalized Eigenproblem), which casts the clustering task as a generalized eigenvalue problem optimizing a suitably defined objective function. This approach is motivated by social balance theory, where the clustering task aims to decompose a given network into disjoint groups, such that individuals within the same group are connected by as many positive edges as possible, while individuals from different groups are mainly connected by negative edges. Through extensive numerical simulations, SPONGE was shown to achieve state-of-the-art empirical performance. On the theoretical front, [CDGT 2019] analyzed SPONGE and the popular Signed Laplacian method under the setting of a Signed Stochastic Block Model (SSBM), for $k=2$ equal-sized clusters, in the regime where the graph is moderately dense. In this work, we build on the results in [CDGT 2019] on two fronts for the normalized versions of SPONGE and the Signed Laplacian. Firstly, for both algorithms, we extend the theoretical analysis in [CDGT 2019] to the general setting of $k \geq 2$ unequal-sized clusters in the moderately dense regime. Secondly, we introduce regularized versions of both methods to handle sparse graphs -- a regime where standard spectral methods underperform -- and provide theoretical guarantees under the same SSBM model. To the best of our knowledge, regularized spectral methods have so far not been considered in the setting of clustering signed graphs. We complement our theoretical results with an extensive set of numerical experiments on synthetic data. | 翻訳日:2022-09-30 04:36:53 公開日:2020-11-03 |
# 機械学習認定のためのデータセット品質の確保 Ensuring Dataset Quality for Machine Learning Certification ( http://arxiv.org/abs/2011.01799v1 ) ライセンス: Link先を確認 | Sylvaine Picard, Camille Chapdelaine, Cyril Cappi, Laurent Gardes, Eric Jenn, Baptiste Lef\`evre, Thomas Soumarmon | (参考訳) 本稿では,機械学習(ML)に基づくクリティカルシステムにおいて,データセットの品質の問題に対処する。
我々は、データを扱う既存の標準の適用性を短時間で分析し、MLコンテキストの特異性は適切にキャプチャされず、cカウントにも適用されないことを示す。
この状況に対する第1の答えとして,我々は,データセットの仕様と検証プロセスを提案し,鉄道ドメインからの信号認識システムに適用する。
addi-tionでは、データセットの収集と管理のための推奨リストも提供します。
この作業は、MLが安全クリティカルシステムで使用されるために必要なデータセットエンジニアリングプロセスへの一歩です。 In this paper, we address the problem of dataset quality in the context of Machine Learning (ML)-based critical systems. We briefly analyse the applicability of some existing standards dealing with data and show that the specificities of the ML context are neither properly captured nor taken into ac-count. As a first answer to this concerning situation, we propose a dataset specification and verification process, and apply it on a signal recognition system from the railway domain. In addi-tion, we also give a list of recommendations for the collection and management of datasets. This work is one step towards the dataset engineering process that will be required for ML to be used on safety critical systems. | 翻訳日:2022-09-30 04:36:22 公開日:2020-11-03 |
# 有効処理効果推定のための高次元特徴選択 High-Dimensional Feature Selection for Sample Efficient Treatment Effect Estimation ( http://arxiv.org/abs/2011.01979v1 ) ライセンス: Link先を確認 | Kristjan Greenewald, Dmitriy Katz-Rogozhnikov, Karthik Shanmugam | (参考訳) 観察データからの因果治療効果の推定は因果推論の根本的な問題である。
バイアスを避けるために、エフェクト推定器はすべての共同ファウンダーを制御しなければならない。
したがって、実践者は、しばしば、関係する共同設立者を含める可能性を高めるために、できるだけ多くの共変数のデータを収集する。
これはバイアスに対処するが、次元の増大による効果を正確に推定するために必要なデータサンプルの数を著しく増加させる副作用がある。
この研究において、強い無知性を満たす多数の共変量$X$のうち、未知のスパース部分集合$S$がゼロバイアスを達成するのに十分であるような設定、すなわち$X$と等価な$c$を考える。
治療コホート毎にy$とsubgaussian covariateの線形結果モデルの下で高い確率で$s$を回収することが保証される,非凸関節スパーシティ正規化を伴う治療コホート間の結果に関する共通の客観的関数を提案する。
これにより、効果推定のサンプル複雑性が改善され、sparse 部分集合 $s$ と $\log |x|$ の濃度にスケールし、完全な集合 $x$ の濃度とは対照的である。
治療効果評価実験によるアプローチの検証を行った。 The estimation of causal treatment effects from observational data is a fundamental problem in causal inference. To avoid bias, the effect estimator must control for all confounders. Hence practitioners often collect data for as many covariates as possible to raise the chances of including the relevant confounders. While this addresses the bias, this has the side effect of significantly increasing the number of data samples required to accurately estimate the effect due to the increased dimensionality. In this work, we consider the setting where out of a large number of covariates $X$ that satisfy strong ignorability, an unknown sparse subset $S$ is sufficient to include to achieve zero bias, i.e. $c$-equivalent to $X$. We propose a common objective function involving outcomes across treatment cohorts with nonconvex joint sparsity regularization that is guaranteed to recover $S$ with high probability under a linear outcome model for $Y$ and subgaussian covariates for each of the treatment cohort. This improves the effect estimation sample complexity so that it scales with the cardinality of the sparse subset $S$ and $\log |X|$, as opposed to the cardinality of the full set $X$. We validate our approach with experiments on treatment effect estimation. | 翻訳日:2022-09-30 04:35:43 公開日:2020-11-03 |
# 組合せ空間に対するベイズ変分最適化 Bayesian Variational Optimization for Combinatorial Spaces ( http://arxiv.org/abs/2011.02004v1 ) ライセンス: Link先を確認 | Tony C. Wu, Daniel Flam-Shepherd, Al\'an Aspuru-Guzik | (参考訳) 本稿では,組合せ空間におけるベイズ最適化について述べる。
自然科学の多くの分野に応用できます
幅広い応用例としては、分子、タンパク質、dna、デバイス構造、量子回路設計の研究、最適あるいはパレート最適解を見つけるためには組合せ圏上の最適化が必要である。
しかし、この問題に取り組むために、限られた量の方法しか提案されていない。
それらの多くは、組合せベイズ最適化にガウス過程を用いる。
Gaussian Processsは、データポイントの数に関して、スケールが立方体であるため、大規模なデータサイズのスケーラビリティの問題に悩まされる。
これはしばしば大きな探索空間を最適化するのに実用的ではない。
本稿では,変分最適化と連続緩和を併用した変分ベイズ最適化法とベイズ最適化のための獲得関数の最適化を提案する。
批判的に、この方法は勾配に基づく最適化を可能にし、大きなデータサイズとデータ次元の問題を最適化する能力を有する。
本手法の性能は最先端の手法に匹敵するが,スケーラビリティの優位性は維持できる。
また分子最適化にも本手法を適用した。 This paper focuses on Bayesian Optimization in combinatorial spaces. In many applications in the natural science. Broad applications include the study of molecules, proteins, DNA, device structures and quantum circuit designs, a on optimization over combinatorial categorical spaces is needed to find optimal or pareto-optimal solutions. However, only a limited amount of methods have been proposed to tackle this problem. Many of them depend on employing Gaussian Process for combinatorial Bayesian Optimizations. Gaussian Processes suffer from scalability issues for large data sizes as their scaling is cubic with respect to the number of data points. This is often impractical for optimizing large search spaces. Here, we introduce a variational Bayesian optimization method that combines variational optimization and continuous relaxations to the optimization of the acquisition function for Bayesian optimization. Critically, this method allows for gradient-based optimization and has the capability of optimizing problems with large data size and data dimensions. We have shown the performance of our method is comparable to state-of-the-art methods while maintaining its scalability advantages. We also applied our method in molecular optimization. | 翻訳日:2022-09-30 04:35:15 公開日:2020-11-03 |
# マルチビューカメラのための深部関節伝達認識 Deep Joint Transmission-Recognition for Multi-View Cameras ( http://arxiv.org/abs/2011.01902v1 ) ライセンス: Link先を確認 | Ezgi Ozyilkan, Mikolaj Jankowski | (参考訳) 無線エッジにおける効率的な推論のための共同送信認識方式を提案する。
無線カメラを用いた監視アプリケーションにより、エッジデバイスとして動作するマルチビューカメラによって行われる無線チャネル上の人物分類タスクについて検討する。
本稿では,デジタルトランスミッションとジョイントソースチャネル符号化(JSCC)を併用したディープニューラルネットワーク(DNN)に基づく圧縮手法を提案する。
本研究では,異なるチャネルSNR,帯域幅,電力制約下でのデバイスエッジ通信方式の評価を行う。
JSCC方式はエンド・ツー・エンドの精度を向上するだけでなく、符号化処理を簡素化し、チャネルの品質を向上する。 We propose joint transmission-recognition schemes for efficient inference at the wireless edge. Motivated by the surveillance applications with wireless cameras, we consider the person classification task over a wireless channel carried out by multi-view cameras operating as edge devices. We introduce deep neural network (DNN) based compression schemes which incorporate digital (separate) transmission and joint source-channel coding (JSCC) methods. We evaluate the proposed device-edge communication schemes under different channel SNRs, bandwidth and power constraints. We show that the JSCC schemes not only improve the end-to-end accuracy but also simplify the encoding process and provide graceful degradation with channel quality. | 翻訳日:2022-09-30 04:33:59 公開日:2020-11-03 |
# ドメイン適応型エンドツーエンド音声認識のための内部言語モデル推定 Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition ( http://arxiv.org/abs/2011.01991v1 ) ライセンス: Link先を確認 | Zhong Meng, Sarangarajan Parthasarathy, Eric Sun, Yashesh Gaur, Naoyuki Kanda, Liang Lu, Xie Chen, Rui Zhao, Jinyu Li, Yifan Gong | (参考訳) 外部言語モデル(LM)の統合は、音響モデルと言語モデルを明確に区別しないエンドツーエンド(E2E)自動音声認識(ASR)の課題である。
本研究では,既存のすべてのE2Eモデルと,最も一般的なリカレントニューラルネットワークトランスデューサ(RNN-T)やアテンションベースのエンコーダデコーダ(AED)モデルを含む,追加のモデルトレーニングを伴わない外部LMのより効率的な統合を容易にする内部LM推定(ILME)手法を提案する。
オーディオとテキストのペアで訓練されたE2Eモデルは、ソースドメイン内のトレーニングデータを特徴付ける内部LMを暗黙的に学習する。
ILMEでは、E2Eモデルの内部LMスコアを推定し、E2Eモデルと外部LMとの対数線形補間から減算する。
内部のLMスコアは、音響成分を除去する際にE2Eモデルの出力として近似される。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
30K時間トレーニングされたRNN-TとAEDモデルを用いて、ILMEはShallow Fusionからそれぞれ15.5%と6.8%の相対的な単語エラー率の削減を実現している。 The external language models (LM) integration remains a challenging task for end-to-end (E2E) automatic speech recognition (ASR) which has no clear division between acoustic and language models. In this work, we propose an internal LM estimation (ILME) method to facilitate a more effective integration of the external LM with all pre-existing E2E models with no additional model training, including the most popular recurrent neural network transducer (RNN-T) and attention-based encoder-decoder (AED) models. Trained with audio-transcript pairs, an E2E model implicitly learns an internal LM that characterizes the training data in the source domain. With ILME, the internal LM scores of an E2E model are estimated and subtracted from the log-linear interpolation between the scores of the E2E model and the external LM. The internal LM scores are approximated as the output of an E2E model when eliminating its acoustic components. ILME can alleviate the domain mismatch between training and testing, or improve the multi-domain E2E ASR. Experimented with 30K-hour trained RNN-T and AED models, ILME achieves up to 15.5% and 6.8% relative word error rate reductions from Shallow Fusion on out-of-domain LibriSpeech and in-domain Microsoft production test sets, respectively. | 翻訳日:2022-09-30 04:29:30 公開日:2020-11-03 |
# 科学・ニュース記事のトピック中心非教師なしマルチドキュメント要約 Topic-Centric Unsupervised Multi-Document Summarization of Scientific and News Articles ( http://arxiv.org/abs/2011.08072v1 ) ライセンス: Link先を確認 | Amanuel Alambo, Cori Lohstroh, Erik Madaus, Swati Padhee, Brandy Foster, Tanvi Banerjee, Krishnaprasad Thirunarayan, Michael Raymer | (参考訳) 最近の自然言語処理の進歩により、機械翻訳、名前付きエンティティ認識、感情分析など、幅広いタスクの自動化が可能になった。
しかし、文書の自動要約や文書群は、キーワード、キーワード、キーフレーズ、キー文の抽出に限られているため、いまだ解明されていない。
問題の本質的な難易度とトレーニングデータの可用性の制限のため、正確な抽象要約はまだ達成されていない。
本稿では,microsoft academic graph (mag) とduc-2004 task 2 のニュース記事を対象に,20分野の学術論文 (fos) に対して,抽出的および抽象的な要約文を生成するためのトピック中心型非教師なしマルチドキュメント要約フレームワークを提案する。
提案手法は, 高度言語単位選択とテキスト生成技術を用いて要約要約を生成する。
提案手法は,自動抽出評価指標で評価した場合の最先端と一致し,5つの評価指標(補足,コヒーレンス,簡潔さ,可読性,文法)の抽象的要約をよりよく行う。
2人の共著者言語学者のカッパスコアは0.68である。
我々は,抽象的な要約研究を促進するために,話題にまとめられた研究論文とその要約の人為的な金標準データセットであるMAG-20を公開する計画である。 Recent advances in natural language processing have enabled automation of a wide range of tasks, including machine translation, named entity recognition, and sentiment analysis. Automated summarization of documents, or groups of documents, however, has remained elusive, with many efforts limited to extraction of keywords, key phrases, or key sentences. Accurate abstractive summarization has yet to be achieved due to the inherent difficulty of the problem, and limited availability of training data. In this paper, we propose a topic-centric unsupervised multi-document summarization framework to generate extractive and abstractive summaries for groups of scientific articles across 20 Fields of Study (FoS) in Microsoft Academic Graph (MAG) and news articles from DUC-2004 Task 2. The proposed algorithm generates an abstractive summary by developing salient language unit selection and text generation techniques. Our approach matches the state-of-the-art when evaluated on automated extractive evaluation metrics and performs better for abstractive summarization on five human evaluation metrics (entailment, coherence, conciseness, readability, and grammar). We achieve a kappa score of 0.68 between two co-author linguists who evaluated our results. We plan to publicly share MAG-20, a human-validated gold standard dataset of topic-clustered research articles and their summaries to promote research in abstractive summarization. | 翻訳日:2022-09-30 04:29:03 公開日:2020-11-03 |
# GAIN:大規模グラフを用いたインダクティブ半教師付き学習のためのグラフアテンションとインタラクションネットワーク GAIN: Graph Attention & Interaction Network for Inductive Semi-Supervised Learning over Large-scale Graphs ( http://arxiv.org/abs/2011.01393v1 ) ライセンス: Link先を確認 | Yunpeng Weng and Xu Chen and Liang Chen and Wei Liu | (参考訳) グラフニューラルネットワーク(GNN)は、推薦、ノード分類、リンク予測など、さまざまな機械学習タスクにおいて最先端のパフォーマンスを実現している。
グラフニューラルネットワークモデルは、集約された隣接ノード情報とノード機能をマージすることでノード埋め込みを生成する。
既存のGNNモデルは、一つのタイプのアグリゲータ(平均プーリングなど)を利用して、隣接するノード情報を集約し、アグリゲータの出力を中心ノードの現在の表現ベクトルに追加または連結する。
しかし, 一つのアグリゲータのみを用いることで, 隣接する情報の異なる側面を捉えることは困難であり, 単純な付加・連結更新手法はGNNの表現能力を制限している。
それだけでなく、ノードラベルの損失関数に基づいて既存の教師付きまたは半教師付きGNNモデルを訓練し、グラフ構造情報を無視する。
本稿では,グラフ上の帰納学習のための新しいグラフニューラルネットワークアーキテクチャであるグラフ注意’&インタラクションネットワーク(GAIN)を提案する。
単一種類のアグリゲータのみを使用する従来のgnnモデルとは異なり、複数のタイプのアグリゲータを使用して、異なる側面の隣接情報を収集し、アグリゲータレベルのアグリゲータの出力を統合する。
さらに、グラフ内のノードのトポロジ的関係をよりよく捉えるために、グラフ正規化損失を設計する。
さらに,まずグラフ特徴相互作用の概念を提示し,ノード埋め込みを更新するためのベクトル的明示的な特徴相互作用機構を提案する。
2つのノード分類ベンチマークと実世界の金融ニュースデータセットに関する包括的な実験を行う。
実験では、GAINモデルがすべてのタスクで現在の最先端のパフォーマンスより優れています。 Graph Neural Networks (GNNs) have led to state-of-the-art performance on a variety of machine learning tasks such as recommendation, node classification and link prediction. Graph neural network models generate node embeddings by merging nodes features with the aggregated neighboring nodes information. Most existing GNN models exploit a single type of aggregator (e.g., mean-pooling) to aggregate neighboring nodes information, and then add or concatenate the output of aggregator to the current representation vector of the center node. However, using only a single type of aggregator is difficult to capture the different aspects of neighboring information and the simple addition or concatenation update methods limit the expressive capability of GNNs. Not only that, existing supervised or semi-supervised GNN models are trained based on the loss function of the node label, which leads to the neglect of graph structure information. In this paper, we propose a novel graph neural network architecture, Graph Attention \& Interaction Network (GAIN), for inductive learning on graphs. Unlike the previous GNN models that only utilize a single type of aggregation method, we use multiple types of aggregators to gather neighboring information in different aspects and integrate the outputs of these aggregators through the aggregator-level attention mechanism. Furthermore, we design a graph regularized loss to better capture the topological relationship of the nodes in the graph. Additionally, we first present the concept of graph feature interaction and propose a vector-wise explicit feature interaction mechanism to update the node embeddings. We conduct comprehensive experiments on two node-classification benchmarks and a real-world financial news dataset. The experiments demonstrate our GAIN model outperforms current state-of-the-art performances on all the tasks. | 翻訳日:2022-09-30 04:28:11 公開日:2020-11-03 |
# 深層強化学習に基づく旅行時間最小化のための動的経路計画 Deep Reinforcement Learning Based Dynamic Route Planning for Minimizing Travel Time ( http://arxiv.org/abs/2011.01771v1 ) ライセンス: Link先を確認 | Yuanzhe Geng, Erwu Liu, Rui Wang and Yiming Liu | (参考訳) 交通では経路計画が重要である。
既存の作業は、最も短い経路ソリューションを見つけることや、計画を決定するために安全やエネルギー消費などのメトリクスを使用することに重点を置いています。
これらの研究のほとんどは、特定の状況では利用できない道路網の事前知識に依存している。
本稿では,歩行者のための深部強化学習(DRL)に基づく経路計画アルゴリズムを設計する。
交通時間消費を指標として,道路網における歩行者の流れを予測して経路計画を行う。
私たちは、インテリジェントなロボットであるエージェントを仮想マップに配置しました。
従来の研究と異なり, エージェントは道路ネットワークに関する事前情報を必要としないが, 環境との相互作用にのみ依存している。
本稿では,道路渋滞を回避するため,エージェントが深層Qネットワークを通じて戦略を学習する動的調整可能な経路計画法を提案する。
シミュレーションの結果、darpアルゴリズムは従来の最短経路計画アルゴリズムと比較して混雑条件下で52%の時間を節約できることがわかった。 Route planning is important in transportation. Existing works focus on finding the shortest path solution or using metrics such as safety and energy consumption to determine the planning. It is noted that most of these studies rely on prior knowledge of road network, which may be not available in certain situations. In this paper, we design a route planning algorithm based on deep reinforcement learning (DRL) for pedestrians. We use travel time consumption as the metric, and plan the route by predicting pedestrian flow in the road network. We put an agent, which is an intelligent robot, on a virtual map. Different from previous studies, our approach assumes that the agent does not need any prior information about road network, but simply relies on the interaction with the environment. We propose a dynamically adjustable route planning (DARP) algorithm, where the agent learns strategies through a dueling deep Q network to avoid congested roads. Simulation results show that the DARP algorithm saves 52% of the time under congestion condition when compared with traditional shortest path planning algorithms. | 翻訳日:2022-09-30 04:27:39 公開日:2020-11-03 |
# 信頼による公正への洞察:金融深層学習のためのマルチスケール信頼定量化 Insights into Fairness through Trust: Multi-scale Trust Quantification for Financial Deep Learning ( http://arxiv.org/abs/2011.01961v1 ) ライセンス: Link先を確認 | Alexander Wong, Andrew Hryniowski, and Xiao Yu Wang | (参考訳) 近年のディープラーニングの成功は、金融サービスの課題に取り組むための採用への関心と普及の著しい増加につながった。
金融サービスへのディープラーニング導入の障壁としてしばしば発生する問題のひとつは、先進的な金融深層学習モデルが、特に金融サービス業界における強力なガバナンスと規制遵守要件に照らして、彼らの予測において公平であるかどうかである。
金融深層学習において研究されていない公平性の基本的な側面は信頼の概念であり、その変動は公正性の自我中心的な見方を指し、したがってモデルの公正性に関する洞察を与える。
本研究では、金融深層学習モデルの公平性、特に異なるスケールのシナリオにおいて、マルチスケール信頼度定量化戦略の実現可能性と有用性について考察する。
具体的には、クレジットカードのデフォルト予測を目的とし、深層ニューラルネットワーク上でマルチスケール信頼度定量化を行う。
1)モデル全体の信頼性
2)すべての可能な予測と真実の関係における信頼レベル。
3)可能な予測の範囲をまたがる信頼レベル。
4)異なる人口集団(年齢、性別、教育など)の信頼度、及び
5)個々の予測シナリオに対する総合信頼の分布。
この概念実証研究の洞察は、こうしたマルチスケールの信頼定量化戦略が、金融深層学習ソリューションの検証と認定の一環として、金融サービスのデータサイエンティストや規制当局にとって、これらのソリューションの公正性と信頼に関する洞察を得るのに役立つことを実証している。 The success of deep learning in recent years have led to a significant increase in interest and prevalence for its adoption to tackle financial services tasks. One particular question that often arises as a barrier to adopting deep learning for financial services is whether the developed financial deep learning models are fair in their predictions, particularly in light of strong governance and regulatory compliance requirements in the financial services industry. A fundamental aspect of fairness that has not been explored in financial deep learning is the concept of trust, whose variations may point to an egocentric view of fairness and thus provide insights into the fairness of models. In this study we explore the feasibility and utility of a multi-scale trust quantification strategy to gain insights into the fairness of a financial deep learning model, particularly under different scenarios at different scales. More specifically, we conduct multi-scale trust quantification on a deep neural network for the purpose of credit card default prediction to study: 1) the overall trustworthiness of the model 2) the trust level under all possible prediction-truth relationships, 3) the trust level across the spectrum of possible predictions, 4) the trust level across different demographic groups (e.g., age, gender, and education), and 5) distribution of overall trust for an individual prediction scenario. The insights for this proof-of-concept study demonstrate that such a multi-scale trust quantification strategy may be helpful for data scientists and regulators in financial services as part of the verification and certification of financial deep learning solutions to gain insights into fairness and trust of these solutions. | 翻訳日:2022-09-30 04:27:25 公開日:2020-11-03 |
# SGB:分割関数最適化のための確率勾配境界法 SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions ( http://arxiv.org/abs/2011.01474v1 ) ライセンス: Link先を確認 | Jing Wang, Anna Choromanska | (参考訳) 本稿では,確率学習環境において分割関数を最適化する問題に対処する。
本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの確率的変種を提案する。
提案手法の更新はStochastic Partition Function Bound (SPFB) と呼ばれ、スケーリング係数がヘシアンと異なる2次項に依存するようなスケールされた確率勾配勾配に類似している。
準ニュートンスキームと同様に、この用語は関数の値とその勾配の確率近似を用いて構成される。
本稿では,提案手法の線形収束速度を証明し,その低ランク変種(lspfb)の構成を示す。
ロジスティック回帰実験は,提案手法がsgdを有意に上回っていることを示す。
また、ディープラーニングモデルの効率的なトレーニングや非凸最適化に2次分割関数をバウンダリングする方法についても論じる。 This paper addresses the problem of optimizing partition functions in a stochastic learning setting. We propose a stochastic variant of the bound majorization algorithm that relies on upper-bounding the partition function with a quadratic surrogate. The update of the proposed method, that we refer to as Stochastic Partition Function Bound (SPFB), resembles scaled stochastic gradient descent where the scaling factor relies on a second order term that is however different from the Hessian. Similarly to quasi-Newton schemes, this term is constructed using the stochastic approximation of the value of the function and its gradient. We prove sub-linear convergence rate of the proposed method and show the construction of its low-rank variant (LSPFB). Experiments on logistic regression demonstrate that the proposed schemes significantly outperform SGD. We also discuss how to use quadratic partition function bound for efficient training of deep learning models and in non-convex optimization. | 翻訳日:2022-09-30 04:26:59 公開日:2020-11-03 |
# 極端学習機械における不確かさの定量化:分析的展開、変数推定、信頼区間 Uncertainty Quantification in Extreme Learning Machine: Analytical Developments, Variance Estimates and Confidence Intervals ( http://arxiv.org/abs/2011.01704v1 ) ライセンス: Link先を確認 | Fabian Guignard, Federico Amato and Mikhail Kanevski | (参考訳) 不確実性定量化は、機械学習モデルの予測品質を評価するために重要である。
エクストリームラーニングマシン(ELM)の場合、文献で提案されるほとんどの手法は、データに対して強い仮定を行い、入力重みのランダム性を無視するか、信頼区間推定におけるバイアス寄与を無視する。
本稿では,これらの制約を克服し,elm変動の理解を改善する新しい推定手法を提案する。
解析的導出は一般的な仮定の下で提供され、異なる変数源の同定と解釈を支援する。
ホモスケプタスティック性およびヘテロスケプタスティック性の両方の下で,予測分散挙動の再現性を示すいくつかの分散推定,検討,数値実験を行った。
最後に, 信頼区間推定の実現可能性について, 批判的アプローチを採用して考察し, 落とし穴のいくつかについて, ELM利用者の意識を高めた。
この論文にはscikit-learn互換のpythonライブラリが付属しており、ここで議論されているすべての見積もりを効率的に計算することができる。 Uncertainty quantification is crucial to assess prediction quality of a machine learning model. In the case of Extreme Learning Machines (ELM), most methods proposed in the literature make strong assumptions on the data, ignore the randomness of input weights or neglect the bias contribution in confidence interval estimations. This paper presents novel estimations that overcome these constraints and improve the understanding of ELM variability. Analytical derivations are provided under general assumptions, supporting the identification and the interpretation of the contribution of different variability sources. Under both homoskedasticity and heteroskedasticity, several variance estimates are proposed, investigated, and numerically tested, showing their effectiveness in replicating the expected variance behaviours. Finally, the feasibility of confidence intervals estimation is discussed by adopting a critical approach, hence raising the awareness of ELM users concerning some of their pitfalls. The paper is accompanied with a scikit-learn compatible Python library enabling efficient computation of all estimates discussed herein. | 翻訳日:2022-09-30 04:25:01 公開日:2020-11-03 |
# ノイズラベルデータから学習する自己半教師型学習 Self-semi-supervised Learning to Learn from NoisyLabeled Data ( http://arxiv.org/abs/2011.01429v1 ) ライセンス: Link先を確認 | Jiacheng Wang, Yue Ma, and Shuang Gao | (参考訳) 今日のディープニューラルネットワークの驚くべき成功は、大量の正しくラベル付けされたデータに依存する。
しかし、高品質な人間ラベルデータを得るにはコストがかかるため、ノイズの多いラベルに頑健なトレーニングモデルの活発な研究領域に繋がる。
この目的を達成するために、ノイズラベルとクリーンラベルを区別してdnnの一般化を促進するために多くの論文が発行されている。
一方, 自己半教師付き学習は, ラベルが不完全である場合の作業に有効であることが証明されている。
semi」はラベルなしデータとして検出された誤ったラベル付きデータを考慮し、「自己」は半教師付き学習を行うための自己教師付き手法を選択する。
本研究では,クリーンラベルとノイズラベルをより正確に区別する手法を考案し,ノイズラベルデータを学習するための自己教師あり学習の知識を借用した。 The remarkable success of today's deep neural networks highly depends on a massive number of correctly labeled data. However, it is rather costly to obtain high-quality human-labeled data, leading to the active research area of training models robust to noisy labels. To achieve this goal, on the one hand, many papers have been dedicated to differentiating noisy labels from clean ones to increase the generalization of DNN. On the other hand, the increasingly prevalent methods of self-semi-supervised learning have been proven to benefit the tasks when labels are incomplete. By 'semi' we regard the wrongly labeled data detected as un-labeled data; by 'self' we choose a self-supervised technique to conduct semi-supervised learning. In this project, we designed methods to more accurately differentiate clean and noisy labels and borrowed the wisdom of self-semi-supervised learning to train noisy labeled data. | 翻訳日:2022-09-30 04:17:21 公開日:2020-11-03 |
# 深部ニューラルネットワークの対向ロバスト性理解の最近の進歩 Recent Advances in Understanding Adversarial Robustness of Deep Neural Networks ( http://arxiv.org/abs/2011.01539v1 ) ライセンス: Link先を確認 | Tao Bai, Jinqi Luo, Jun Zhao | (参考訳) ディープニューラルネットワーク(DNN)の広汎な応用の過程では、敵の例は避けられない。
自然サンプルに適用される知覚不能な摂動は、DNNベースの分類器を公平な信頼スコアで誤った予測を出力させる。
敵対的な例に抵抗する高い堅牢性を持つモデルを得ることがますます重要である。
本稿では,このような興味をそそる性質,すなわち,逆ロバスト性を理解するための最近の進歩について,異なる視点から調査する。
我々は、敵の攻撃と堅牢性について予備的な定義を与える。
その後、頻繁に使用されるベンチマークを調査し、逆ロバスト性に対する理論的に証明された境界について言及する。
次に,dnnモデルの逆ロバスト性と他の重要な指標との相関解析について概説する。
最後に,研究コミュニティから注目されている対人訓練の潜在的コストに関する最近の議論を紹介する。 Adversarial examples are inevitable on the road of pervasive applications of deep neural networks (DNN). Imperceptible perturbations applied on natural samples can lead DNN-based classifiers to output wrong prediction with fair confidence score. It is increasingly important to obtain models with high robustness that are resistant to adversarial examples. In this paper, we survey recent advances in how to understand such intriguing property, i.e. adversarial robustness, from different perspectives. We give preliminary definitions on what adversarial attacks and robustness are. After that, we study frequently-used benchmarks and mention theoretically-proved bounds for adversarial robustness. We then provide an overview on analyzing correlations among adversarial robustness and other critical indicators of DNN models. Lastly, we introduce recent arguments on potential costs of adversarial training which have attracted wide attention from the research community. | 翻訳日:2022-09-30 04:17:07 公開日:2020-11-03 |
# 2レベル多様性アプローチに基づく分類プール生成 Classifier Pool Generation based on a Two-level Diversity Approach ( http://arxiv.org/abs/2011.01908v1 ) ライセンス: Link先を確認 | Marcos Monteiro, Alceu S. Britto Jr, Jean P. Barddal, Luiz S. Oliveira, Robert Sabourin | (参考訳) 本稿では,データ複雑性と分類器決定から推定される多様性を導いた分類器プール生成手法について述べる。
まず、データセットのいくつかのサブサンプルを考慮し、複雑性尺度の挙動を評価する。
進化的アルゴリズムが複雑性と決定空間の両方で多様性を最適化する後方プール適応のために、サブサンプル全体に高い変動性を持つ複雑性測度が選択される。
提案手法の評価には,28のデータセットと20のレプリケーションを備えた堅牢な実験プロトコルを用いる。
その結果,動的分類器選択法と動的アンサンブル選択法を適用した場合,69.4%の精度向上が得られた。 This paper describes a classifier pool generation method guided by the diversity estimated on the data complexity and classifier decisions. First, the behavior of complexity measures is assessed by considering several subsamples of the dataset. The complexity measures with high variability across the subsamples are selected for posterior pool adaptation, where an evolutionary algorithm optimizes diversity in both complexity and decision spaces. A robust experimental protocol with 28 datasets and 20 replications is used to evaluate the proposed method. Results show significant accuracy improvements in 69.4% of the experiments when Dynamic Classifier Selection and Dynamic Ensemble Selection methods are applied. | 翻訳日:2022-09-30 04:16:00 公開日:2020-11-03 |
# Brain Predictability Toolbox: ニューロイメージングベースの機械学習のためのPythonライブラリ Brain Predictability toolbox: a Python library for neuroimaging based machine learning ( http://arxiv.org/abs/2011.01715v1 ) ライセンス: Link先を確認 | Sage Hahn, Dekang Yuan, Wesley Thompson, Max M Owens, Nicholas Allgaier and Hugh Garavan | (参考訳) 要約 brain predictability toolbox (bpt) は、集計されたデータ(特に脳、精神、行動、生理変数)と、特定の派生データ(例えば脳容積と表面)の両方を扱うように設計された機械学習(ml)ツールの統一フレームワークである。
このパッケージは、幅広い種類のニューロイメージングに基づくML質問、特に大きな人間のデータセットからクエリされた質問を調査するのに適しています。
可用性と実装 BPtは、MITライセンス下でhttps://github.com/sahahn/BPtでホストされているオープンソースのPython 3.6+パッケージとして開発され、ドキュメントはhttps://bpt.readthedocs.io/en/latest/で提供されている。
このプロジェクトはgithubのリンクからダウンロードできる。
同じコードに基づくweb gui インターフェースは現在開発中で,docker 経由で https://github.com/sahahn/bpt_app.com に指示して設定することができる。
sahahn@uvm.eduのsage hahnに連絡してください。 Summary Brain Predictability toolbox (BPt) represents a unified framework of machine learning (ML) tools designed to work with both tabulated data (in particular brain, psychiatric, behavioral, and physiological variables) and neuroimaging specific derived data (e.g., brain volumes and surfaces). This package is suitable for investigating a wide range of different neuroimaging based ML questions, in particular, those queried from large human datasets. Availability and Implementation BPt has been developed as an open-source Python 3.6+ package hosted at https://github.com/sahahn/BPt under MIT License, with documentation provided at https://bpt.readthedocs.io/en/latest/, and continues to be actively developed. The project can be downloaded through the github link provided. A web GUI interface based on the same code is currently under development and can be set up through docker with instructions at https://github.com/sahahn/BPt_app. Contact Please contact Sage Hahn at sahahn@uvm.edu | 翻訳日:2022-09-30 04:08:39 公開日:2020-11-03 |
# ディープニューラルネットワークによる低次元マニフォールドの二重ロバストオフポリティ学習 Doubly Robust Off-Policy Learning on Low-Dimensional Manifolds by Deep Neural Networks ( http://arxiv.org/abs/2011.01797v1 ) ライセンス: Link先を確認 | Minshuo Chen, Hao Liu, Wenjing Liao, Tuo Zhao | (参考訳) 因果推論は共変集合上の行動とその後の報酬の間の因果関係を探索する。
近年、深層学習は因果推論において顕著な成果を上げているが、既存の統計的理論ではそのような経験的成功をうまく説明できない。
因果推論のほとんどの理論的な結果は漸近的であり、次元の呪いに苦しめられ、有限作用シナリオでのみ機能する。
このような理論と実践のギャップを埋めるため,本論文では,ディープニューラルネットワークによるオフポリシー学習を二重に検討する。
共変量体が低次元多様体上にあるとき、その多様体の内在次元に依存する高速な速度で収束する漸近的後悔境界を証明する。
この結果は,有限作用シナリオと連続作用シナリオの両方をカバーする。
本理論は,深層ニューラルネットワークが共変量の低次元幾何構造に適応していることを示し,因果推論における深層学習の成功を部分的に説明している。 Causal inference explores the causation between actions and the consequent rewards on a covariate set. Recently deep learning has achieved a remarkable performance in causal inference, but existing statistical theories cannot well explain such an empirical success, especially when the covariates are high-dimensional. Most theoretical results in causal inference are asymptotic, suffer from the curse of dimensionality, and only work for the finite-action scenario. To bridge such a gap between theory and practice, this paper studies doubly robust off-policy learning by deep neural networks. When the covariates lie on a low-dimensional manifold, we prove nonasymptotic regret bounds, which converge at a fast rate depending on the intrinsic dimension of the manifold. Our results cover both the finite- and continuous-action scenarios. Our theory shows that deep neural networks are adaptive to the low-dimensional geometric structures of the covariates, and partially explains the success of deep learning for causal inference. | 翻訳日:2022-09-30 04:08:14 公開日:2020-11-03 |
# Minimax Pareto Fairness:多目的視点 Minimax Pareto Fairness: A Multi Objective Perspective ( http://arxiv.org/abs/2011.01821v1 ) ライセンス: Link先を確認 | Natalia Martinez, Martin Bertran, Guillermo Sapiro | (参考訳) 本研究では,グループフェアネスを多目的最適化問題として定式化し,形式的に特徴付ける。
我々は,分類器が最小限のリスクを達成し,不必要な害を回避し,すべての群に対してパレート効率のw.r.t.であるフェアネス基準を提案する。
これらの制約を満たすために、ディープニューラルネットワークと互換性のある簡単な最適化アルゴリズムを提供する。
本手法は,機密属性に対するテスト時間アクセスを必要としないため,不均衡分類問題における結果間の最悪の分類誤差を低減できる。
提案手法は, 所得予測, icu患者死亡率, 皮膚病変分類, 信用リスク評価の実際のケーススタディについて検証し, 他のアプローチと比較した。 In this work we formulate and formally characterize group fairness as a multi-objective optimization problem, where each sensitive group risk is a separate objective. We propose a fairness criterion where a classifier achieves minimax risk and is Pareto-efficient w.r.t. all groups, avoiding unnecessary harm, and can lead to the best zero-gap model if policy dictates so. We provide a simple optimization algorithm compatible with deep neural networks to satisfy these constraints. Since our method does not require test-time access to sensitive attributes, it can be applied to reduce worst-case classification errors between outcomes in unbalanced classification problems. We test the proposed methodology on real case-studies of predicting income, ICU patient mortality, skin lesions classification, and assessing credit risk, demonstrating how our framework compares favorably to other approaches. | 翻訳日:2022-09-30 04:07:56 公開日:2020-11-03 |
# 階層型学習システムにおける特殊化 Specialization in Hierarchical Learning Systems ( http://arxiv.org/abs/2011.01845v1 ) ライセンス: Link先を確認 | Heinke Hihn and Daniel A. Braun | (参考訳) 複数の意思決定者を統合することは、より洗練された意思決定システムを得る強力な方法であるが、労働分業と専門化の問題に対処する必要がある。
我々は,専門家の階層における情報制約が,正規化の原則的方法を提供するだけでなく,専門化の強制にもどの程度役立つかを検討する。
特に,個々の専門家が解決可能な問題空間を複数のサブ問題に分割することを可能にする,情報理論に動機づけられたオンライン学習ルールを考案する。
方法を適用するための2つの異なる方法を示します。
(i)個別データサンプルに基づく分割問題、及び
(ii)タスクを表すデータサンプルの集合に基づく。
アプローチ
(i)地域の専門家意思決定者の最適な組み合わせを見つけることにより、複雑な意思決定問題を解決する能力を備える。
アプローチ
(ii) 課題のファミリーの解決を専門とする意思決定者につながり, メタラーニング問題を解く能力を備える。
本手法は,標準的な機械学習設定とメタ学習設定の両方において,分類,回帰,密度推定,強化学習問題など幅広い問題に適用できることを示す。 Joining multiple decision-makers together is a powerful way to obtain more sophisticated decision-making systems, but requires to address the questions of division of labor and specialization. We investigate in how far information constraints in hierarchies of experts not only provide a principled method for regularization but also to enforce specialization. In particular, we devise an information-theoretically motivated on-line learning rule that allows partitioning of the problem space into multiple sub-problems that can be solved by the individual experts. We demonstrate two different ways to apply our method: (i) partitioning problems based on individual data samples and (ii) based on sets of data samples representing tasks. Approach (i) equips the system with the ability to solve complex decision-making problems by finding an optimal combination of local expert decision-makers. Approach (ii) leads to decision-makers specialized in solving families of tasks, which equips the system with the ability to solve meta-learning problems. We show the broad applicability of our approach on a range of problems including classification, regression, density estimation, and reinforcement learning problems, both in the standard machine learning setup and in a meta-learning setting. | 翻訳日:2022-09-30 04:07:39 公開日:2020-11-03 |
# 混合一貫性深層クラスタリング Mixing Consistent Deep Clustering ( http://arxiv.org/abs/2011.01977v1 ) ライセンス: Link先を確認 | Daniel Lutscher, Ali el Hassouni, Maarten Stol, Mark Hoogendoorn | (参考訳) データ内の明確に定義されたクラスタを見つけることは、多くのデータ駆動アプリケーションにとって根本的な課題であり、データ表現に大きく依存する。
表現学習に関する文献から,2つの潜在表現の線形補間を復号する際に,有意な潜在表現の1つの重要な特徴が意味混合出力を生成できることが示唆された。
2つのデータポイントの補間を2つの入力のうちの1つに見せなければならないという制約を加えながら、補間を現実的に見えるように促す混合一貫性のある深層クラスタリング法を提案する。
このトレーニング手法を様々なクラスタリング(非特定のオートエンコーダモデル)に適用することにより,提案手法を用いて学習したモデルの表現構造を体系的に変更し,MNIST,SVHN,CIFAR-10データセット上で試験されたACAI,IDEC,VAEモデルのクラスタリング性能を改善した。
これらの結果は,クラスタリング性能を向上させるために,既存のオートエンコーダに提案手法を付加できることが示されている。 Finding well-defined clusters in data represents a fundamental challenge for many data-driven applications, and largely depends on good data representation. Drawing on literature regarding representation learning, studies suggest that one key characteristic of good latent representations is the ability to produce semantically mixed outputs when decoding linear interpolations of two latent representations. We propose the Mixing Consistent Deep Clustering method which encourages interpolations to appear realistic while adding the constraint that interpolations of two data points must look like one of the two inputs. By applying this training method to various clustering (non-)specific autoencoder models we found that using the proposed training method systematically changed the structure of learned representations of a model and it improved clustering performance for the tested ACAI, IDEC, and VAE models on the MNIST, SVHN, and CIFAR-10 datasets. These outcomes have practical implications for numerous real-world clustering tasks, as it shows that the proposed method can be added to existing autoencoders to further improve clustering performance. | 翻訳日:2022-09-30 04:07:13 公開日:2020-11-03 |
# グラフ強化高次元カーネル回帰 Graph Enhanced High Dimensional Kernel Regression ( http://arxiv.org/abs/2011.01990v1 ) ライセンス: Link先を確認 | E. Pei, E. Fokou\'e | (参考訳) 本稿では,カーネル回帰の柔軟性,汎用性,予測能力とネットワークデータとの結合により,より高い予測性能を持つ回帰モデルを構築する。
ネットワーク結合データの存在下で構築された一般化線形モデルを取り入れた先行研究から,超高次元空間における微妙な非線形性をキャプチャするカーネル化拡張を構築し,より優れた予測性能を実現する。
シミュレーションデータと実生活データへのシームレスかつ実質的な適応の適用は,我々の研究の魅力と強みを示している。 In this paper, the flexibility, versatility and predictive power of kernel regression are combined with now lavishly available network data to create regression models with even greater predictive performances. Building from previous work featuring generalized linear models built in the presence of network cohesion data, we construct a kernelized extension that captures subtler nonlinearities in extremely high dimensional spaces and also produces far better predictive performances. Applications of seamless yet substantial adaptation to simulated and real-life data demonstrate the appeal and strength of our work. | 翻訳日:2022-09-30 04:06:52 公開日:2020-11-03 |
# サブスペースクラスタリングのためのカーネル2次元リッジ回帰 Kernel Two-Dimensional Ridge Regression for Subspace Clustering ( http://arxiv.org/abs/2011.01477v1 ) ライセンス: Link先を確認 | Chong Peng, Qian Zhang, Zhao Kang, Chenglizhao Chen, and Qiang Cheng | (参考訳) サブスペースクラスタリング法は近年広く研究されている。
入力が2次元(2D)データである場合、既存のサブスペースクラスタリング法は通常ベクトルに変換し、元のデータから固有の構造や関係を著しく損なう。
本稿では,2次元データに対する新しいサブスペースクラスタリング手法を提案する。
2Dデータを入力として直接使用するので、表現の学習はデータ固有の構造や関係から恩恵を受ける。
画像投影係数と表現係数を同時に求め、互いに互いに強化し、強力なデータ表現をもたらす。
提案する目的関数に対して,減算と収束性が証明可能な効率的なアルゴリズムを開発した。
広範な実験結果により,新しい手法の有効性が検証された。 Subspace clustering methods have been widely studied recently. When the inputs are 2-dimensional (2D) data, existing subspace clustering methods usually convert them into vectors, which severely damages inherent structures and relationships from original data. In this paper, we propose a novel subspace clustering method for 2D data. It directly uses 2D data as inputs such that the learning of representations benefits from inherent structures and relationships of the data. It simultaneously seeks image projection and representation coefficients such that they mutually enhance each other and lead to powerful data representations. An efficient algorithm is developed to solve the proposed objective function with provable decreasing and convergence property. Extensive experimental results verify the effectiveness of the new method. | 翻訳日:2022-09-30 04:00:29 公開日:2020-11-03 |
# RealHePoNet: 野生における頭部ポーズ推定のための堅牢なシングルステージConvNet RealHePoNet: a robust single-stage ConvNet for head pose estimation in the wild ( http://arxiv.org/abs/2011.01890v1 ) ライセンス: Link先を確認 | Rafael Berral-Soler, Francisco J. Madrid-Cuevas, Rafael Mu\~noz-Salinas, Manuel J. Mar\'in-Jim\'enez | (参考訳) 画像中の人間の頭ポーズ推定は、人-コンピュータインタラクションやビデオ監視タスクなど、多くの分野で応用されている。
本研究では,1つの畳み込みニューラルネットワーク(ConvNet)モデルを用いて,垂直(チルト/ピッチ)角度と水平(パン/ヨー)角度の両方を推定し,実世界のアプリケーションにおけるユーザビリティを最大化するために,精度と推論速度のバランスをとろうとする。
我々のモデルは、2つのデータセット、すなわち「ポインティング」04(さまざまなポーズをカバー)と「野生における注釈付き顔のランドマーク」の組み合わせで訓練されている(実際の画像に使用するために、我々のモデルの堅牢性を改善するために)。
複合データセットの3つの異なるパーティションが定義され、トレーニング、検証、テストの目的で使用される。
この結果,低分解能グレースケールの入力画像が与えられ,顔のランドマークを使わずに,傾きとパン角の両方で低い誤差で推定できる,RealHePoNetと呼ばれるトレーニング済みのConvNetモデルが得られた(テスト分割における平均誤差~4.4{\deg})。
また,低推論時間 (1ヘッドあたり約6ms) を考えると,中型ハードウェア (GTX 1060 GPU) と組み合わせても,我々のモデルは利用可能であると考えられる。
https://github.com/rafabs97/headpose_final * Demo video at: https://www.youtube.com/watch?
v=2UeuXh5DjAE Human head pose estimation in images has applications in many fields such as human-computer interaction or video surveillance tasks. In this work, we address this problem, defined here as the estimation of both vertical (tilt/pitch) and horizontal (pan/yaw) angles, through the use of a single Convolutional Neural Network (ConvNet) model, trying to balance precision and inference speed in order to maximize its usability in real-world applications. Our model is trained over the combination of two datasets: 'Pointing'04' (aiming at covering a wide range of poses) and 'Annotated Facial Landmarks in the Wild' (in order to improve robustness of our model for its use on real-world images). Three different partitions of the combined dataset are defined and used for training, validation and testing purposes. As a result of this work, we have obtained a trained ConvNet model, coined RealHePoNet, that given a low-resolution grayscale input image, and without the need of using facial landmarks, is able to estimate with low error both tilt and pan angles (~4.4{\deg} average error on the test partition). Also, given its low inference time (~6 ms per head), we consider our model usable even when paired with medium-spec hardware (i.e. GTX 1060 GPU). * Code available at: https://github.com/rafabs97/headpose_final * Demo video at: https://www.youtube.com/watch?v=2UeuXh5DjAE | 翻訳日:2022-09-30 04:00:18 公開日:2020-11-03 |
# ノイズ・OR関係を持つベイズネットワーク学習のためのスコア・アンド・サーチ手法 A Score-and-Search Approach to Learning Bayesian Networks with Noisy-OR Relations ( http://arxiv.org/abs/2011.01444v1 ) ライセンス: Link先を確認 | Charupriya Sharma, Zhenyu A. Liao, James Cussens, Peter van Beek | (参考訳) ベイズネットワーク(英: bayesian network)は、有向非巡回グラフ(dag)からなる確率論的グラフィカルモデルであり、各ノードは確率変数であり、各ノードは条件確率分布(cpd)である。
ベイズネットワークは、よく知られたスコア・アンド・サーチ手法を用いてデータから学習することができ、このアプローチにおいて、基礎となるDAGの形式とCDDの局所構造を同時に学習する方法が重要である。
文献ではいくつかの有用な局所構造が同定されているが、これまでのところ、スコア・アンド・リサーチのアプローチは文脈固有の独立性の形で局所構造を扱うように拡張されている。
本稿では,楽譜検索の手法を,ノイズとORの関係の重要かつ広く有用な事例に拡張する方法を示す。
広範に使用されているBICスコアを用いて、候補ノイズORをスコアする効果的な勾配降下アルゴリズムを提供し、中規模ネットワークへの探索を成功させるプルーニングルールを提供する。
実験結果から,ノイズ・or関係を組み込んだベイズネットワーク学習へのアプローチの成功の証拠が得られた。 A Bayesian network is a probabilistic graphical model that consists of a directed acyclic graph (DAG), where each node is a random variable and attached to each node is a conditional probability distribution (CPD). A Bayesian network can be learned from data using the well-known score-and-search approach, and within this approach a key consideration is how to simultaneously learn the global structure in the form of the underlying DAG and the local structure in the CPDs. Several useful forms of local structure have been identified in the literature but thus far the score-and-search approach has only been extended to handle local structure in form of context-specific independence. In this paper, we show how to extend the score-and-search approach to the important and widely useful case of noisy-OR relations. We provide an effective gradient descent algorithm to score a candidate noisy-OR using the widely used BIC score and we provide pruning rules that allow the search to successfully scale to medium sized networks. Our empirical results provide evidence for the success of our approach to learning Bayesian networks that incorporate noisy-OR relations. | 翻訳日:2022-09-30 03:59:39 公開日:2020-11-03 |
# MAIRE -- 説明型分類器のためのモデルに依存しない解釈可能なルール抽出法 MAIRE -- A Model-Agnostic Interpretable Rule Extraction Procedure for Explaining Classifiers ( http://arxiv.org/abs/2011.01506v1 ) ライセンス: Link先を確認 | Rajat Sharma, Nikhil Reddy, Vidhya Kamakshi, Narayanan C Krishnan, Shweta Jain | (参考訳) 本稿では,モデル非依存な人間の解釈可能なルールを抽出し,分類器の出力を説明するための新しい枠組みを提案する。
ヒトの解釈可能な規則は、分類決定を説明すべきインスタンスを含む軸方向の超立方体として定義される。
提案手法では, 最大 (high \textit{coverage}) 軸方向の超立方体が, 高立方体内の高割合のインスタンスが説明対象のインスタンスと同じクラスラベルを持つことを示す(high \textit{precision} )。
超キューブイドのパラメータの観点からのカバレッジと精度に関する新しい近似が定義されている。
これらは勾配に基づく最適化によって最大化される。
近似の質は理論的および実験的に厳密に解析される。
より良い解釈性を達成するために生成された説明を単純化するためのヒューリスティックスや、インスタンス空間の大部分をカバーするモデルのグローバル説明を作成するための局所的な説明を組み合わせた欲望選択アルゴリズムも提案されている。
フレームワークはモデル非依存であり、任意の分類器やすべての属性(連続、順序、順序のない離散性を含む)に適用することができる。
フレームワークの広範な適用性は、さまざまなドメイン(表、テキスト、画像)のさまざまな合成および実世界のデータセット上で検証される。 The paper introduces a novel framework for extracting model-agnostic human interpretable rules to explain a classifier's output. The human interpretable rule is defined as an axis-aligned hyper-cuboid containing the instance for which the classification decision has to be explained. The proposed procedure finds the largest (high \textit{coverage}) axis-aligned hyper-cuboid such that a high percentage of the instances in the hyper-cuboid have the same class label as the instance being explained (high \textit{precision}). Novel approximations to the coverage and precision measures in terms of the parameters of the hyper-cuboid are defined. They are maximized using gradient-based optimizers. The quality of the approximations is rigorously analyzed theoretically and experimentally. Heuristics for simplifying the generated explanations for achieving better interpretability and a greedy selection algorithm that combines the local explanations for creating global explanations for the model covering a large part of the instance space are also proposed. The framework is model agnostic, can be applied to any arbitrary classifier, and all types of attributes (including continuous, ordered, and unordered discrete). The wide-scale applicability of the framework is validated on a variety of synthetic and real-world datasets from different domains (tabular, text, and image). | 翻訳日:2022-09-30 03:58:59 公開日:2020-11-03 |
# Causal Shapley Values:複雑なモデルの個々の予測を説明するためにCausal Knowledgeを爆発させる Causal Shapley Values: Exploiting Causal Knowledge to Explain Individual Predictions of Complex Models ( http://arxiv.org/abs/2011.01625v1 ) ライセンス: Link先を確認 | Tom Heskes, Evi Sijben, Ioan Gabriel Bucur, Tom Claassen | (参考訳) shapleyの価値観は、説明可能な人工知能の中で最も一般的なモデルに依存しない手法の1つだ。
これらの値は、モデルの予測と平均ベースラインの差をモデルへの入力として使用する異なる特徴に関連付けるように設計されている。
ソリッドゲーム理論の原則に基づいて、Shapleyの値はいくつかの望ましい性質を独特に満たしている。
シャプリーの値は、特徴が独立であるときにユーザの直感によく調整されるが、独立性仮定に違反した場合、望ましくない、直観に反する説明につながる可能性がある。
本稿では,独立仮説を回避しようとする最近の研究を一般化したshapley値計算のための新しい枠組みを提案する。
パールの do-calculus を用いて、これらの 'causal' Shapley 値は、それらの望ましい性質を犠牲にすることなく、一般的な因果グラフに対してどのように導出できるかを示す。
さらに、因果シェープの値は直接効果と間接効果の寄与を分離することができる。
部分的な情報しか得られない場合の因果連鎖グラフに基づいて因果シャプリー値を計算するための実用的な実装を提供し、実例でその有用性を示す。 Shapley values underlie one of the most popular model-agnostic methods within explainable artificial intelligence. These values are designed to attribute the difference between a model's prediction and an average baseline to the different features used as input to the model. Being based on solid game-theoretic principles, Shapley values uniquely satisfy several desirable properties, which is why they are increasingly used to explain the predictions of possibly complex and highly non-linear machine learning models. Shapley values are well calibrated to a user's intuition when features are independent, but may lead to undesirable, counterintuitive explanations when the independence assumption is violated. In this paper, we propose a novel framework for computing Shapley values that generalizes recent work that aims to circumvent the independence assumption. By employing Pearl's do-calculus, we show how these 'causal' Shapley values can be derived for general causal graphs without sacrificing any of their desirable properties. Moreover, causal Shapley values enable us to separate the contribution of direct and indirect effects. We provide a practical implementation for computing causal Shapley values based on causal chain graphs when only partial information is available and illustrate their utility on a real-world example. | 翻訳日:2022-09-30 03:58:39 公開日:2020-11-03 |
# 術後合併症予測モデルにおける(un)fairness (Un)fairness in Post-operative Complication Prediction Models ( http://arxiv.org/abs/2011.02036v1 ) ライセンス: Link先を確認 | Sandhya Tripathi, Bradley A. Fritz, Mohamed Abdelhack, Michael S. Avidan, Yixin Chen, Christopher R. King | (参考訳) 現在進行中の機械学習モデルの公平性、説明可能性、透明性に関する議論では、ハイインパクトな臨床意思決定システムへの応用を精査する必要がある。
手術前のリスク推定の実生活例を考察し,様々なアルゴリズムのバイアスや不公平性の可能性について検討する。
我々のアプローチは潜在的なバイアスの透明なドキュメントを作成し、ユーザがモデルを慎重に適用できるようにします。
我々は,モデルの予測的欠点を識別するクリニックのための決定木に基づくガイドを用いて,確率スコアを用いたモデルカードのような分析を増強する。
ユーザのためのガイドとしての機能に加えて,これらの問題点に対処可能なデータソースや構造に重点を置くために,アルゴリズム開発と情報処理チームを指導することを提案する。 With the current ongoing debate about fairness, explainability and transparency of machine learning models, their application in high-impact clinical decision-making systems must be scrutinized. We consider a real-life example of risk estimation before surgery and investigate the potential for bias or unfairness of a variety of algorithms. Our approach creates transparent documentation of potential bias so that the users can apply the model carefully. We augment a model-card like analysis using propensity scores with a decision-tree based guide for clinicians that would identify predictable shortcomings of the model. In addition to functioning as a guide for users, we propose that it can guide the algorithm development and informatics team to focus on data sources and structures that can address these shortcomings. | 翻訳日:2022-09-30 03:58:04 公開日:2020-11-03 |
# 再配置: 身体的AIへの挑戦 Rearrangement: A Challenge for Embodied AI ( http://arxiv.org/abs/2011.01975v1 ) ライセンス: Link先を確認 | Dhruv Batra, Angel X. Chang, Sonia Chernova, Andrew J. Davison, Jia Deng, Vladlen Koltun, Sergey Levine, Jitendra Malik, Igor Mordatch, Roozbeh Mottaghi, Manolis Savva, Hao Su | (参考訳) Embodied AIの研究と評価のためのフレームワークについて述べる。
我々の提案は正統的な課題である再配置に基づいている。
標準タスクは、新しい技術の開発に集中し、他の設定に転送可能なトレーニングされたモデルのソースとして機能する。
再配置タスクでは、特定の物理的環境を特定の状態にすることを目的としている。
ゴール状態は、オブジェクトのポーズ、画像、言語による記述、あるいはエージェントにゴール状態の環境を体験させることによって指定することができる。
我々は、異なる軸に沿って再配置シナリオを特徴付け、再配置性能をベンチマークするためのメトリクスを記述する。
本研究では,4つの異なるシミュレーション環境における再配置シナリオの実験的なテストベッドを提案する。
我々は、他のデータセットがリリースされ、再配置エージェントのトレーニングと物理システムへのデプロイをサポートする新しいシミュレーションプラットフォームが構築されることを期待している。 We describe a framework for research and evaluation in Embodied AI. Our proposal is based on a canonical task: Rearrangement. A standard task can focus the development of new techniques and serve as a source of trained models that can be transferred to other settings. In the rearrangement task, the goal is to bring a given physical environment into a specified state. The goal state can be specified by object poses, by images, by a description in language, or by letting the agent experience the environment in the goal state. We characterize rearrangement scenarios along different axes and describe metrics for benchmarking rearrangement performance. To facilitate research and exploration, we present experimental testbeds of rearrangement scenarios in four different simulation environments. We anticipate that other datasets will be released and new simulation platforms will be built to support training of rearrangement agents and their deployment on physical systems. | 翻訳日:2022-09-30 03:51:54 公開日:2020-11-03 |
# 専門家の混合のためのユニバーサルゲーティングネットワークを目指して Towards a Universal Gating Network for Mixtures of Experts ( http://arxiv.org/abs/2011.01613v1 ) ライセンス: Link先を確認 | Chen Wen Kang, Chua Meng Hong, Tomas Maul | (参考訳) 複数のニューラルネットワークからの知識の組み合わせと集約は、専門家の混合の形で一般的に見られる。
しかしながら、そのような組み合わせは、通常同じタスクで訓練されたネットワークを使用して行われ、特にデータフリーなシステムにおいて、異種事前訓練されたネットワークの組み合わせについてはほとんど言及されていない。
本稿では、単純な出力ロジット統計の活用から特殊なゲーティングネットワークの訓練まで、異種ニューラルネットワークの組み合わせのためのデータフリーな複数の手法を提案する。
ゲーティングネットワークは、生成されたエキスパートアクティベーションの性質に基づいて、特定の入力が特定のネットワークに属するか否かを決定する。
実験の結果,ユニバーサル・ゲーティング・アプローチを含むゲーティング・ネットワークが最も正確なアプローチであり,データフリー・レジームにおける専門家の異種混合アプリケーションに対する実用的なステップであることが明らかになった。
このプロジェクトのコードはgithubのhttps://github.com/cwkang1998/network-mergingにホストされている。 The combination and aggregation of knowledge from multiple neural networks can be commonly seen in the form of mixtures of experts. However, such combinations are usually done using networks trained on the same tasks, with little mention of the combination of heterogeneous pre-trained networks, especially in the data-free regime. This paper proposes multiple data-free methods for the combination of heterogeneous neural networks, ranging from the utilization of simple output logit statistics, to training specialized gating networks. The gating networks decide whether specific inputs belong to specific networks based on the nature of the expert activations generated. The experiments revealed that the gating networks, including the universal gating approach, constituted the most accurate approach, and therefore represent a pragmatic step towards applications with heterogeneous mixtures of experts in a data-free regime. The code for this project is hosted on github at https://github.com/cwkang1998/network-merging. | 翻訳日:2022-09-30 03:51:41 公開日:2020-11-03 |
# DAGA:低リソースタグタスクの生成アプローチによるデータ拡張 DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks ( http://arxiv.org/abs/2011.01549v1 ) ライセンス: Link先を確認 | Bosheng Ding, Linlin Liu, Lidong Bing, Canasai Kruengkrai, Thien Hai Nguyen, Shafiq Joty, Luo Si, Chunyan Miao | (参考訳) データ拡張技術は、モデルの一般化能力を高めるため、機械学習の性能向上に広く利用されている。
本研究では,低リソースタグ処理のための高品質な合成データを生成するために,線形ラベル付き文を用いた言語モデルを用いた新しい拡張手法を提案する。
本手法は,教師付き設定と半教師付き設定の両方に適用できる。
教師付き設定では、名前付きエンティティ認識(NER)、音声認識(POS)タグ付け、エンドツーエンドのターゲットベース感情分析(E2E-TBSA)タスクについて広範な実験を行う。
半教師なしの設定では,与えられたラベルなしデータのみとラベルなしデータと知識ベースを条件としてnerタスクの手法を評価する。
以上の結果から,金のトレーニングデータが少ない場合,本手法はベースラインを一貫して上回ることを示す。 Data augmentation techniques have been widely used to improve machine learning performance as they enhance the generalization capability of models. In this work, to generate high quality synthetic data for low-resource tagging tasks, we propose a novel augmentation method with language models trained on the linearized labeled sentences. Our method is applicable to both supervised and semi-supervised settings. For the supervised settings, we conduct extensive experiments on named entity recognition (NER), part of speech (POS) tagging and end-to-end target based sentiment analysis (E2E-TBSA) tasks. For the semi-supervised settings, we evaluate our method on the NER task under the conditions of given unlabeled data only and unlabeled data plus a knowledge base. The results show that our method can consistently outperform the baselines, particularly when the given gold training data are less. | 翻訳日:2022-09-30 03:51:26 公開日:2020-11-03 |
# 雑音ロバスト言語理解のためのワープ言語モデル Warped Language Models for Noise Robust Language Understanding ( http://arxiv.org/abs/2011.01900v1 ) ライセンス: Link先を確認 | Mahdi Namazifar, Gokhan Tur, Dilek Hakkani T\"ur | (参考訳) Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋めるように訓練された自己教師型ニューラルネットワークである。
様々なテキストベースのタスクにおいてMLMが驚くほど成功したにもかかわらず、言語理解、特に自然発声音声認識の雑音に対して堅牢ではない。
この作業では、トレーニング時の入力文がMLMと同じ修正を経て、ランダムトークンの挿入とドロップという2つの追加的な修正を行うWLM(Warped Language Models)を導入しました。
これらの2つの修正は、MLMの修正に加えて文を拡張して収縮させるため、名前の「ウォープ」が用いられる。
WLMのトレーニング中の入力テキストの挿入とドロップ修正は、自動音声認識(ASR)エラーによるノイズの種類に似ており、その結果、WLMはASRノイズに対してより堅牢である可能性が高い。
計算結果から,WLM上に構築された自然言語理解システムは,特にASRエラーの存在下では,MLMをベースとしたシステムよりも優れていることを示す。 Masked Language Models (MLM) are self-supervised neural networks trained to fill in the blanks in a given sentence with masked tokens. Despite the tremendous success of MLMs for various text based tasks, they are not robust for spoken language understanding, especially for spontaneous conversational speech recognition noise. In this work we introduce Warped Language Models (WLM) in which input sentences at training time go through the same modifications as in MLM, plus two additional modifications, namely inserting and dropping random tokens. These two modifications extend and contract the sentence in addition to the modifications in MLMs, hence the word "warped" in the name. The insertion and drop modification of the input text during training of WLM resemble the types of noise due to Automatic Speech Recognition (ASR) errors, and as a result WLMs are likely to be more robust to ASR noise. Through computational results we show that natural language understanding systems built on top of WLMs perform better compared to those built based on MLMs, especially in the presence of ASR errors. | 翻訳日:2022-09-30 03:51:09 公開日:2020-11-03 |
# クロスメディア・キーフレーズ予測:マルチモダリティ・マルチヘッド・アテンションと画像単語を用いた統一フレームワーク Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings ( http://arxiv.org/abs/2011.01565v1 ) ライセンス: Link先を確認 | Yue Wang, Jing Li, Michael R. Lyu, and Irwin King | (参考訳) ソーシャルメディアは毎日大量のコンテンツを生み出している。
ユーザが必要なものを素早く捉えるために、keyphraseの予測が注目を集めている。
しかしながら、これまでのほとんどの取り組みはテキストモデリングに重点を置いており、マッチング画像に埋め込まれたリッチな機能を無視している。
本研究では,マルチメディア投稿におけるキーフレーズの予測におけるテキストと画像の併用効果について検討する。
1) 複雑なメディア間インタラクションを捉えるための新しいマルチモダリティマルチヘッドアテンション (m3h-att) と, (2) 光学的文字と画像属性の形でのイメージワーキングによって,2つのモダリティを橋渡しする手法を提案する。
さらに,キーフレーズ分類と生成の出力を活用するための統一フレームワークを設計し,それらの利点を組み合わせる。
twitterから新たに収集された大規模データセットに関する広範囲な実験により,従来のアテンションネットワークに基づく先行技術を大幅に上回っていることが示された。
さらなる分析により,多面的注意が様々な側面の情報に適応し,多様なシナリオにおける分類や生成を促進できることが示されている。 Social media produces large amounts of contents every day. To help users quickly capture what they need, keyphrase prediction is receiving a growing attention. Nevertheless, most prior efforts focus on text modeling, largely ignoring the rich features embedded in the matching images. In this work, we explore the joint effects of texts and images in predicting the keyphrases for a multimedia post. To better align social media style texts and images, we propose: (1) a novel Multi-Modality Multi-Head Attention (M3H-Att) to capture the intricate cross-media interactions; (2) image wordings, in forms of optical characters and image attributes, to bridge the two modalities. Moreover, we design a unified framework to leverage the outputs of keyphrase classification and generation and couple their advantages. Extensive experiments on a large-scale dataset newly collected from Twitter show that our model significantly outperforms the previous state of the art based on traditional attention networks. Further analyses show that our multi-head attention is able to attend information from various aspects and boost classification or generation in diverse scenarios. | 翻訳日:2022-09-30 03:50:50 公開日:2020-11-03 |
# 弱弱・半教師付きエビデンス抽出 Weakly- and Semi-supervised Evidence Extraction ( http://arxiv.org/abs/2011.01459v1 ) ライセンス: Link先を確認 | Danish Pruthi, Bhuwan Dhingra, Graham Neubig, Zachary C. Lipton | (参考訳) 多くの予測タスクでは、利害関係者は予測だけでなく、その正確性を検証するために人間が使える証拠も望んでいる。
しかし、実際には、証拠を支持する追加のアノテーションは、(まったく利用可能であれば)少数のトレーニング例でしか利用できない。
本稿では,エビデンス抽出の課題として,エビデンスアノテーション(強固な半スーパービジョン)と豊富な文書レベルラベル(弱監督)を組み合わせる新しい手法を提案する。
提案手法は,エビデンスアノテーションを特徴とする2つの分類タスクを評価した結果,解釈可能性文献からタスクに適応したベースラインよりも優れていることがわかった。
私たちのアプローチは数百のエビデンスアノテーションでかなりの利益をもたらします。
私たちの作品を再現するためのコードとデータセットは、https://github.com/danishpruthi/evidence-extractionで利用可能です。 For many prediction tasks, stakeholders desire not only predictions but also supporting evidence that a human can use to verify its correctness. However, in practice, additional annotations marking supporting evidence may only be available for a minority of training examples (if available at all). In this paper, we propose new methods to combine few evidence annotations (strong semi-supervision) with abundant document-level labels (weak supervision) for the task of evidence extraction. Evaluating on two classification tasks that feature evidence annotations, we find that our methods outperform baselines adapted from the interpretability literature to our task. Our approach yields substantial gains with as few as hundred evidence annotations. Code and datasets to reproduce our work are available at https://github.com/danishpruthi/evidence-extraction. | 翻訳日:2022-09-30 03:50:05 公開日:2020-11-03 |
# DeL-haTE: ヘイト音声検出のためのディープラーニング可変アンサンブル DeL-haTE: A Deep Learning Tunable Ensemble for Hate Speech Detection ( http://arxiv.org/abs/2011.01861v1 ) ライセンス: Link先を確認 | Joshua Melton, Arunkumar Bagavathi, Siddharth Krishnan | (参考訳) ソーシャルメディア上でのヘイトスピーチは、近年急速に増加している問題となっている。
悪質なグループは、複数のメインストリーム(twitterやfacebook)とfringe(gab、4chan、8chanなど)にまたがる大規模なコンテンツ配信ネットワークを開発し、個人やコミュニティに向けられたヘイトメッセージのカスケードを配信している。
したがって、こうした問題に対処することは、大規模ソーシャルメディアにとって最優先事項となっている。
ヘイトフルなコンテンツの自動検出と分類における3つの重要な課題は、明確なラベル付きデータの欠如、進化する語彙と語彙、ハッシュタグ、絵文字などである。
そして、gabのようなフリンジアウトレットのベースラインモデルが欠如している。
本稿では,3つの大きな貢献をもつ新しい枠組みを提案する。
(a)最先端アプローチの強みを組み合わせた深層学習モデルのアンサンブルを設計する。
b)gabのようなラベルのないデータセット上で自動ヘイトスピーチ分類を行うために、トランスファーラーニングを利用するこのフレームワークにチューニング係数を組み込む。
(c) 弱教師付き学習手法を開発し, フレームワークがラベルなしデータで学習できるようにする。
私たちのアンサンブルモデルは、HONデータセット上で83%のヘイトリコールを実現し、最先端のディープモデルのパフォーマンスを上回っています。
分類器チューニングと組み合わせた弱教師付きトレーニングはガブのラベルなしデータのモデル性能を著しく向上させ、67%のヘイトリコールを達成した。 Online hate speech on social media has become a fast-growing problem in recent times. Nefarious groups have developed large content delivery networks across several main-stream (Twitter and Facebook) and fringe (Gab, 4chan, 8chan, etc.) outlets to deliver cascades of hate messages directed both at individuals and communities. Thus addressing these issues has become a top priority for large-scale social media outlets. Three key challenges in automated detection and classification of hateful content are the lack of clearly labeled data, evolving vocabulary and lexicon - hashtags, emojis, etc. - and the lack of baseline models for fringe outlets such as Gab. In this work, we propose a novel framework with three major contributions. (a) We engineer an ensemble of deep learning models that combines the strengths of state-of-the-art approaches, (b) we incorporate a tuning factor into this framework that leverages transfer learning to conduct automated hate speech classification on unlabeled datasets, like Gab, and (c) we develop a weak supervised learning methodology that allows our framework to train on unlabeled data. Our ensemble models achieve an 83% hate recall on the HON dataset, surpassing the performance of the state-of-the-art deep models. We demonstrate that weak supervised training in combination with classifier tuning significantly increases model performance on unlabeled data from Gab, achieving a hate recall of 67%. | 翻訳日:2022-09-30 03:49:54 公開日:2020-11-03 |
# 音声自然:対話システムにおける内容表現 Sound Natural: Content Rephrasing in Dialog Systems ( http://arxiv.org/abs/2011.01993v1 ) ライセンス: Link先を確認 | Arash Einolghozati, Anchit Gupta, Keith Diedrick, Sonal Gupta | (参考訳) より自然な仮想アシスタントのためのリフレージングという新しいタスクを導入する。
現在、仮想アシスタントはインテントスロットタグのパラダイムで動作しており、スロット値は実行エンジンに直接渡される。
しかし、この設定は、繰り返したり、他のユーザに送信する前に、ユーザが与えたクエリを変更する必要がある場合のメッセージングのような、いくつかのシナリオでは失敗する。
例えば、「子どもを拾えるかどうか妻に尋ねる」や「薬を飲ませる」といった質問では、「子供たちを拾えるか」や「薬を取るか」といった内容の言い換えが必要であり、この論文では、メッセージングをユースケースとして言い換えることの問題を考察し、3000対のオリジナルクエリと言い換えたクエリのデータセットをリリースする。
自動回帰デコーディングを備えた事前学習型トランスフォーマーに基づくマスク付き言語モデルであるBARTは,タスクの強力なベースラインであり,コピーポインターの追加とコピー損失による改善を示す。
バルト系およびlstm系seq2seqモデルの異なるトレードオフを分析し,最適な実用モデルとして蒸留lstm系seq2seqを提案する。 We introduce a new task of rephrasing for a more natural virtual assistant. Currently, virtual assistants work in the paradigm of intent slot tagging and the slot values are directly passed as-is to the execution engine. However, this setup fails in some scenarios such as messaging when the query given by the user needs to be changed before repeating it or sending it to another user. For example, for queries like 'ask my wife if she can pick up the kids' or 'remind me to take my pills', we need to rephrase the content to 'can you pick up the kids' and 'take your pills' In this paper, we study the problem of rephrasing with messaging as a use case and release a dataset of 3000 pairs of original query and rephrased query. We show that BART, a pre-trained transformers-based masked language model with auto-regressive decoding, is a strong baseline for the task, and show improvements by adding a copy-pointer and copy loss to it. We analyze different tradeoffs of BART-based and LSTM-based seq2seq models, and propose a distilled LSTM-based seq2seq as the best practical model. | 翻訳日:2022-09-30 03:49:28 公開日:2020-11-03 |
# デバイスロバスト音響シーン分類における2段階アプローチ A Two-Stage Approach to Device-Robust Acoustic Scene Classification ( http://arxiv.org/abs/2011.01447v1 ) ライセンス: Link先を確認 | Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee | (参考訳) デバイスロバスト性を改善するため,完全畳み込みニューラルネットワーク(CNN)に基づく新たな2段階システムである競争データ駆動型音響シーン分類(ASC)システムの,極めて望ましい鍵となる機能を提案する。
我々の2段階システムは、2つのCNN分類器に基づくアドホックスコアの組み合わせを利用する。
i)第1のCNNは、音響入力を3つの広いクラスのうちの1つに分類し、
(ii)第2のcnnは、同じ入力を10のきめ細かいクラスのうちの1つに分類する。
2段階分類器を実装するために3つの異なるCNNアーキテクチャを探索し,周波数サブサンプリング方式を検討した。
また,新しいascデータ拡張方式についても検討した。
dcase 2020タスク1aで評価した結果,提案するascシステムは,cnnアンサンブルの2段階融合方式により,マルチデバイステストデータにおいて81.9%の精度を実現し,未認識のデバイスに対して有意な改善が得られた。
最後に,クラスアクティベーションマッピング(cam)を用いたニューラルサリエンシー解析によって,モデルが学習したパターンに関する新たな洞察が得られます。 To improve device robustness, a highly desirable key feature of a competitive data-driven acoustic scene classification (ASC) system, a novel two-stage system based on fully convolutional neural networks (CNNs) is proposed. Our two-stage system leverages on an ad-hoc score combination based on two CNN classifiers: (i) the first CNN classifies acoustic inputs into one of three broad classes, and (ii) the second CNN classifies the same inputs into one of ten finer-grained classes. Three different CNN architectures are explored to implement the two-stage classifiers, and a frequency sub-sampling scheme is investigated. Moreover, novel data augmentation schemes for ASC are also investigated. Evaluated on DCASE 2020 Task 1a, our results show that the proposed ASC system attains a state-of-the-art accuracy on the development set, where our best system, a two-stage fusion of CNN ensembles, delivers a 81.9% average accuracy among multi-device test data, and it obtains a significant improvement on unseen devices. Finally, neural saliency analysis with class activation mapping (CAM) gives new insights on the patterns learnt by our models. | 翻訳日:2022-09-30 03:42:33 公開日:2020-11-03 |
# 連続学習フレームワークによる自然言語理解のためのメタラーニング Meta-Learning for Natural Language Understanding under Continual Learning Framework ( http://arxiv.org/abs/2011.01452v1 ) ライセンス: Link先を確認 | Jiacheng Wang, Yong Fan, Duo Jiang, Shiqing Li | (参考訳) ニューラルネットワークは、様々な自然言語理解(NLU)タスクに取り組むことで達成されている。
テキストの一般的な表現を得るために、複数のタスクを処理する頑健なモデルを訓練する手法が開発されている。
本稿では,NLUタスクの連続的な枠組みの下で,モデル非依存メタ学習(MAML)とオンライン認知メタ学習(OML)のメタオブジェクトを実装する。
提案手法を選択したSuperGLUEおよびGLUEベンチマークで検証する。 Neural network has been recognized with its accomplishments on tackling various natural language understanding (NLU) tasks. Methods have been developed to train a robust model to handle multiple tasks to gain a general representation of text. In this paper, we implement the model-agnostic meta-learning (MAML) and Online aware Meta-learning (OML) meta-objective under the continual framework for NLU tasks. We validate our methods on selected SuperGLUE and GLUE benchmark. | 翻訳日:2022-09-30 03:42:14 公開日:2020-11-03 |
# クローズドドメイン対話システムのためのトランスファー付き条件付きテキスト生成 Conditioned Text Generation with Transfer for Closed-Domain Dialogue Systems ( http://arxiv.org/abs/2011.02143v1 ) ライセンス: Link先を確認 | St\'ephane d'Ascoli, Alice Coucke, Francesco Caltagirone, Alexandre Caulier, Marc Lelarge | (参考訳) タスク指向対話システムのトレーニングデータの不足は、通常、コストと時間を要する手動データアノテーションで対処される、よく知られた問題である。
代替の解決策は、人間の監督よりも正確ではないが、安価で高速であるという利点がある自動テキスト生成に頼ることである。
私たちの貢献は2倍です。
まず,条件付き変分オートエンコーダを用いて意図特異的文の生成を最適に訓練し制御する方法を示す。
そして、クエリ転送と呼ばれる新しいプロトコルを導入し、おそらく無関係なクエリを含む大きなラベルのないデータセットを活用し、関連する情報を抽出する。
2つの異なるベースラインと比較すると、この手法は、適切な方法では、品質を損なうことなく、生成されたクエリの多様性を一貫して改善することを示している。
また, 言語モデリングタスクにおけるデータ拡張手法として, 生成手法の有効性を示す。 Scarcity of training data for task-oriented dialogue systems is a well known problem that is usually tackled with costly and time-consuming manual data annotation. An alternative solution is to rely on automatic text generation which, although less accurate than human supervision, has the advantage of being cheap and fast. Our contribution is twofold. First we show how to optimally train and control the generation of intent-specific sentences using a conditional variational autoencoder. Then we introduce a new protocol called query transfer that allows to leverage a large unlabelled dataset, possibly containing irrelevant queries, to extract relevant information. Comparison with two different baselines shows that this method, in the appropriate regime, consistently improves the diversity of the generated queries without compromising their quality. We also demonstrate the effectiveness of our generation method as a data augmentation technique for language modelling tasks. | 翻訳日:2022-09-30 03:42:04 公開日:2020-11-03 |
# 学習信頼度スコアを用いたソーシャルメディアテキストからの抑うつの早期発見 Detecting Early Onset of Depression from Social Media Text using Learned Confidence Scores ( http://arxiv.org/abs/2011.01695v1 ) ライセンス: Link先を確認 | Ana-Maria Bucur and Liviu P. Dinu | (参考訳) テキストからのメンタルヘルス障害に関する計算的研究は、自然言語処理と心理学の学際領域をカバーする。
この問題の重要な側面は予防と早期診断であり、自殺は若者にとって第二の死因であるうつ病によるものである。
本研究では,ソーシャルメディアテキスト,特にRedditからの抑うつの早期発生を検出する手法に焦点を当てた。
この目的のために,eRisk 2018データセットを探索し,トピック分析を活用し,信頼度スコアを学習して意思決定プロセスのガイドを行うことにより,技術状況に関する良好な結果を得る。 Computational research on mental health disorders from written texts covers an interdisciplinary area between natural language processing and psychology. A crucial aspect of this problem is prevention and early diagnosis, as suicide resulted from depression being the second leading cause of death for young adults. In this work, we focus on methods for detecting the early onset of depression from social media texts, in particular from Reddit. To that end, we explore the eRisk 2018 dataset and achieve good results with regard to the state of the art by leveraging topic analysis and learned confidence scores to guide the decision process. | 翻訳日:2022-09-30 03:41:50 公開日:2020-11-03 |
# Amortized Variational Deep Q Network Amortized Variational Deep Q Network ( http://arxiv.org/abs/2011.01706v1 ) ライセンス: Link先を確認 | Haotian Zhang, Yuhao Wang, Jianyong Sun, Zongben Xu | (参考訳) 効率的な探索は、深層強化学習において最も重要な問題の1つです。
この問題に対処するために、近年の手法では値関数パラメータをランダム変数とみなし、パラメータの後方を近似するために変分推論を用いる。
本稿では、ディープQネットワークにおける動作値関数の後方分布を近似するアモータイズされた変分推論フレームワークを提案する。
我々は,新しいモデルの損失と不定形変分推論損失との等価性を確立する。
我々は,2段階の訓練プロセスにおいて,後部をコーシー,ガウシアンと仮定することで,探索と搾取のバランスを実現する。
本稿では,amortizedフレームワークは,既存の最先端手法に比べて学習パラメータが大幅に低下することを示す。
OpenAI Gymと連鎖マルコフ決定プロセスにおける古典的制御タスクの実験結果から,提案手法は最先端の手法よりもはるかに優れた性能を示し,訓練時間をはるかに短縮することを示した。 Efficient exploration is one of the most important issues in deep reinforcement learning. To address this issue, recent methods consider the value function parameters as random variables, and resort variational inference to approximate the posterior of the parameters. In this paper, we propose an amortized variational inference framework to approximate the posterior distribution of the action value function in Deep Q Network. We establish the equivalence between the loss of the new model and the amortized variational inference loss. We realize the balance of exploration and exploitation by assuming the posterior as Cauchy and Gaussian, respectively in a two-stage training process. We show that the amortized framework can results in significant less learning parameters than existing state-of-the-art method. Experimental results on classical control tasks in OpenAI Gym and chain Markov Decision Process tasks show that the proposed method performs significantly better than state-of-art methods and requires much less training time. | 翻訳日:2022-09-30 03:41:20 公開日:2020-11-03 |
# 強化学習における新しい行動への一般化 Generalization to New Actions in Reinforcement Learning ( http://arxiv.org/abs/2011.01928v1 ) ライセンス: Link先を確認 | Ayush Jain, Andrew Szot, Joseph J. Lim | (参考訳) インテリジェンスの基本的な特徴は、新しい行動選択から決定を下すなど、新しい状況に直面して目標を達成する能力である。
しかし、標準強化学習は一定のアクションセットを前提としており、新しいアクションセットが与えられると高価なリトレーニングが必要になる。
学習エージェントの適応性を高めるため,新しいアクションにゼロショット一般化の問題を導入する。
エージェントがタスクから独立して取得したアクション情報からアクション表現を推論する2段階フレームワークを提案する。
様々なアクションセットに柔軟なポリシーは、一般化の目的によって訓練される。
物理推論パズルを解くためのツールセットの選択や,新しい3次元形状の積み重ねタワーなど,逐次タスクの一般化をベンチマークする。
ビデオとコードはhttps://sites.google.com/view/action-generalizationで入手できる。 A fundamental trait of intelligence is the ability to achieve goals in the face of novel circumstances, such as making decisions from new action choices. However, standard reinforcement learning assumes a fixed set of actions and requires expensive retraining when given a new action set. To make learning agents more adaptable, we introduce the problem of zero-shot generalization to new actions. We propose a two-stage framework where the agent first infers action representations from action information acquired separately from the task. A policy flexible to varying action sets is then trained with generalization objectives. We benchmark generalization on sequential tasks, such as selecting from an unseen tool-set to solve physical reasoning puzzles and stacking towers with novel 3D shapes. Videos and code are available at https://sites.google.com/view/action-generalization | 翻訳日:2022-09-30 03:40:41 公開日:2020-11-03 |
# MACE:画像分類のためのモデル非依存概念エクストラクタ MACE: Model Agnostic Concept Extractor for Explaining Image Classification Networks ( http://arxiv.org/abs/2011.01472v1 ) ライセンス: Link先を確認 | Ashish Kumar, Karan Sehgal, Prerna Garg, Vidhya Kamakshi, and Narayanan C Krishnan | (参考訳) 深層畳み込みネットワークは様々な画像分類タスクで成功している。
事前学習されたモデルの予測を説明する現在の方法は勾配情報に依存しており、しばしば前景の物体全体に焦点を当てた塩分マップとなる。
しかし、人間はイメージを解剖し、より小さな概念の存在を指摘することで推論する。
最終的な出力は、しばしばこれらの小さな概念の存在または欠如の集約である。
本研究では,より小さな概念を通した畳み込みネットワークの動作を説明するモデル非依存概念エクストラクタ MACEを提案する。
MACEフレームワークは、画像の畳み込みネットワークによって生成された特徴マップを識別し、概念に基づくプロトタイプの説明を抽出する。
さらに、既存のアプローチに欠けている個々のクラス予測を説明するのに必要な重要な側面である、事前学習されたモデルの予測に対する抽出された概念の関連性を推定する。
VGG16やResNet50 CNNアーキテクチャ、Animals With Attributes 2(AWA2)やPlaces365といったデータセットを使って、私たちのフレームワークを検証する。
実験の結果,メイスフレームワークによって抽出された概念は説明の解釈性を高め,基礎となるブラックボックスモデルに忠実であることが示された。 Deep convolutional networks have been quite successful at various image classification tasks. The current methods to explain the predictions of a pre-trained model rely on gradient information, often resulting in saliency maps that focus on the foreground object as a whole. However, humans typically reason by dissecting an image and pointing out the presence of smaller concepts. The final output is often an aggregation of the presence or absence of these smaller concepts. In this work, we propose MACE: a Model Agnostic Concept Extractor, which can explain the working of a convolutional network through smaller concepts. The MACE framework dissects the feature maps generated by a convolution network for an image to extract concept based prototypical explanations. Further, it estimates the relevance of the extracted concepts to the pre-trained model's predictions, a critical aspect required for explaining the individual class predictions, missing in existing approaches. We validate our framework using VGG16 and ResNet50 CNN architectures, and on datasets like Animals With Attributes 2 (AWA2) and Places365. Our experiments demonstrate that the concepts extracted by the MACE framework increase the human interpretability of the explanations, and are faithful to the underlying pre-trained black-box model. | 翻訳日:2022-09-30 03:40:27 公開日:2020-11-03 |