このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210128となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ファイナンスのための量子コンピューティングの現状と将来展望 Quantum Computing for Finance: State of the Art and Future Prospects ( http://arxiv.org/abs/2006.14510v3 ) ライセンス: Link先を確認 | Daniel J. Egger, Claudio Gambella, Jakub Marecek, Scott McFaddin, Martin Mevissen, Rudy Raymond, Andrea Simonetto, Stefan Woerner, Elena Yndurain | (参考訳) 本稿では,金融問題に対する量子コンピューティングの適用可能性,最新技術,可能性について概説する。
我々は、量子コンピューティングの入門と、古典的に計算的に挑戦し、量子コンピューティングアルゴリズムが有望である金融問題のクラスに関する調査を提供する。
主に、シミュレーション、最適化、機械学習の問題など、金融サービスで発生する特定のアプリケーションのための量子アルゴリズムについて詳述する。
さらに,ibm量子バックエンドにおける量子アルゴリズムの実証を行い,金融サービスにおける問題に対する量子アルゴリズムの潜在的メリットについて論じる。
技術的課題と今後の展望をまとめて結論付けます。 This article outlines our point of view regarding the applicability, state-of-the-art, and potential of quantum computing for problems in finance. We provide an introduction to quantum computing as well as a survey on problem classes in finance that are computationally challenging classically and for which quantum computing algorithms are promising. In the main part, we describe in detail quantum algorithms for specific applications arising in financial services, such as those involving simulation, optimization, and machine learning problems. In addition, we include demonstrations of quantum algorithms on IBM Quantum back-ends and discuss the potential benefits of quantum algorithms for problems in financial services. We conclude with a summary of technical challenges and future prospects. | 翻訳日:2023-05-12 19:56:05 公開日:2021-01-28 |
# 熱力学的に安定な長距離相互作用系における高速スクランブルの欠如 Absence of fast scrambling in thermodynamically stable long-range interacting systems ( http://arxiv.org/abs/2009.10124v3 ) ライセンス: Link先を確認 | Tomotaka Kuwahara and Keiji Saito | (参考訳) 本研究では,R^{-\alpha}$,$R$が距離であるような,ゆるい相互作用を持つシステムにおける時間外相関器(OTOC)について検討する。
このようなシステムでは、量子情報の高速なスクランブルや情報伝播の指数的成長は、崩壊率$\alpha$に応じて起こりうる。
この点で重要なオープンチャレンジは、高速なスクランブルが起こらないような$\alpha$の最適条件を特定することである。
本研究では, 総エネルギーがシステムサイズ, 熱力学限界が十分に定義されているような, 一般的な長距離相互作用系において, $\alpha>D$$$(D$:空間次元)で高速なスクランブルを解き明かす。
OTOC は $\alpha>D$ の多項式成長を示し、R$ の所要スクランブル時間は $t\gtrsim R^{\frac{2\alpha-2D}{2\alpha-D+1}}$ より大きいことを厳密に証明する。 In this study, we investigate out-of-time-order correlators (OTOCs) in systems with power-law decaying interactions such as $R^{-\alpha}$, where $R$ is the distance. In such systems, the fast scrambling of quantum information or the exponential growth of information propagation can potentially occur according to the decay rate $\alpha$. In this regard, a crucial open challenge is to identify the optimal condition for $\alpha$ such that fast scrambling cannot occur. In this study, we disprove fast scrambling in generic long-range interacting systems with $\alpha>D$ ($D$: spatial dimension), where the total energy is extensive in terms of system size and the thermodynamic limit is well-defined. We rigorously demonstrate that the OTOC shows a polynomial growth over time as long as $\alpha>D$ and the necessary scrambling time over a distance $R$ is larger than $t\gtrsim R^{\frac{2\alpha-2D}{2\alpha-D+1}}$. | 翻訳日:2023-05-01 09:03:16 公開日:2021-01-28 |
# 崩壊と意識の尺度 Collapse and Measures of Consciousness ( http://arxiv.org/abs/2009.13224v3 ) ライセンス: Link先を確認 | Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge, Perimeter Institute for Theoretical Physics) | (参考訳) ワイグナーの仮説では、意識が重ね合わせに抵抗するある種の定量化可能な側面を探索することで、意識的な観察が崩壊を引き起こすという仮説が近年浮上している。
kremnizer-ranchin、chalmers-mcqueen、okon-sebasti\'anは、崩壊は意識の数値的尺度と関連付けられるかもしれないという考えを探求した。
より最近では、カルマーズ=マックイーンは、いかなる1つの測度も等意識測度の異なる状態の重ね合わせが持続することを許すため不適切であると主張した。
彼らは、崩壊を、意識の「統合情報理論」(IIT)においてトノニらによって定義された「Q-shapes」のような意識の側面を定量化する一連の尺度と結びつける必要があることを示唆している。
ここで、カルマーズ=マックイーンの単一測度を崩壊と関連付ける議論は、異なる経験に関連した脳の状態間の正確な対称性を必要としているため、人間(または他の地上生物)の観察者という強い直観を持つ場合にのみ適用されない。
Chalmers-McQueenの立場を擁護する上で、理想的な人工情報処理ネットワークはそのような対称性を表示できると主張しているのかもしれない。
しかし、ネットワーク状態からマインド状態への写像を仮定する理論(IITなど)は、同じマインド状態を(IITのように)同型ネットワーク状態に割り当てるべきである、と私は論じる。
これは、そのような地図が存在するならば、異なる色を見たり、喜びや痛みを感じたりといった心の状態の見慣れた要素が対称性によって関連付けられることはないことを示唆している。 There has been an upsurge of interest lately in developing Wigner's hypothesis that conscious observation causes collapse by exploring dynamical collapse models in which some purportedly quantifiable aspect(s) of consciousness resist superposition. Kremnizer-Ranchin, Chalmers-McQueen and Okon-Sebasti\'an have explored the idea that collapse may be associated with a numerical measure of consciousness. More recently, Chalmers-McQueen have argued that any single measure is inadequate because it will allow superpositions of distinct states of equal consciousness measure to persist. They suggest a satisfactory model needs to associate collapse with a set of measures quantifying aspects of consciousness, such as the "Q-shapes" defined by Tononi et al. in their "integrated information theory" (IIT) of consciousness. I argue here that Chalmers-McQueen's argument against associating a single measure with collapse requires a precise symmetry between brain states associated with different experiences and thus does not apply to the only case where we have strong intuitions, namely human (or other terrestrial biological) observers. In defence of Chalmers-McQueen's stance, it might be argued that idealized artificial information processing networks could display such symmetries. However, I argue that any theory (such as IIT) that postulates a map from network states to mind states should assign identical mind states to isomorphic network states (as IIT does). This suggests that, if such a map exists, no familiar components of mind states, such as viewing different colours, or experiencing pleasure or pain, are likely to be related by symmetries. | 翻訳日:2023-04-30 18:50:02 公開日:2021-01-28 |
# 位相空間不等式による非古典性の実験的証明 Experimental certification of nonclassicality via phase-space inequalities ( http://arxiv.org/abs/2010.00259v2 ) ライセンス: Link先を確認 | Nicola Biagi, Martin Bohmann, Elizabeth Agudelo, Marco Bellini, Alessandro Zavatta | (参考訳) 量子科学と技術における基本的な重要性にもかかわらず、非古典性の実験的証明は依然として困難な課題であり、特に、損失とノイズがシステムを模倣する現実的なシナリオにおいてである。
本稿では,最近導入された非古典性証明のための位相空間不等式の最初の実験的実装について述べる。
光の雑音と損失量子状態の族における非古典性を研究することによって、このアプローチの実用性と感度を実証する。
この目的のために, 種々の熱平均光子数を持つ単一光子付加熱状態を生成し, 異なる損失レベルで検出する実験を行った。
再構成されたウィグナー関数とフシミq関数に基づいて、不等式条件は、関連する分布が非負であるにもかかわらず、高い損失(93%)と他の確立された方法が非古典性を明らかにしていない場合を含む非古典性を検出する。
本稿では,実装手法の利点を示し,量子科学と技術に広く適用可能な拡張の可能性について議論する。 In spite of its fundamental importance in quantum science and technology, the experimental certification of nonclassicality is still a challenging task, especially in realistic scenarios where losses and noise imbue the system. Here, we present the first experimental implementation of the recently introduced phase-space inequalities for nonclassicality certification, which conceptually unite phase-space representations with correlation conditions. We demonstrate the practicality and sensitivity of this approach by studying nonclassicality of a family of noisy and lossy quantum states of light. To this end, we experimentally generate single-photon-added thermal states with various thermal mean photon numbers and detect them at different loss levels. Based on the reconstructed Wigner and Husimi Q functions, the inequality conditions detect nonclassicality despite the fact that the involved distributions are nonnegative, which includes cases of high losses (93%) and cases where other established methods do not reveal nonclassicality. We show the advantages of the implemented approach and discuss possible extensions that assure a wide applicability for quantum science and technologies. | 翻訳日:2023-04-30 12:08:11 公開日:2021-01-28 |
# 測定事象近傍の量子重力の実験 Tests of Quantum Gravity near Measurement Events ( http://arxiv.org/abs/2010.11811v3 ) ライセンス: Link先を確認 | Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge and Perimeter Institute for Theoretical Physics) | (参考訳) 量子重力相互作用が位置重ね合わせ状態において隣接する質量同士の絡み合いを生じさせるかどうかの試験が近年提案されている。
半古典的重力(または同様のスケールの古典的効果)をメソスコピック系に仮定して定義される古典的時空を持つ理論に対して、量子重力をテストできる可能性の低い実験を提案する。 Experiments have recently been proposed testing whether quantum gravitational interactions generate entanglement between adjacent masses in position superposition states. We propose potentially less challenging experiments that test quantum gravity against theories with classical space-times defined by postulating semi-classical gravity (or classical effects of similar scale) for mesoscopic systems. | 翻訳日:2023-04-28 00:56:44 公開日:2021-01-28 |
# bitcoinの未来のカーボンフットプリント Bitcoin's future carbon footprint ( http://arxiv.org/abs/2011.02612v2 ) ライセンス: Link先を確認 | Shize Qin, Lena Klaa{\ss}en, Ulrich Gallersd\"orfer, Christian Stoll, Da Zhang | (参考訳) Bitcoinのカーボンフットプリントは広く注目を集めているが、Bitcoinの長期的影響は依然として不明だ。
ここでは、以前の見積もりの不確実性を克服し、Bitcoinの電力消費と炭素フットプリントを長期的に計画する枠組みを示す。
もしBitcoinの時価総額が金と同程度に増加すると仮定すれば、2020年から2100年の間にBitcoinの年間電力消費量は60から400TWhに増加する可能性がある。
将来のbitcoinの炭素フットプリントは、電力セクターの脱炭素経路に大きく依存する。
2050年までに電力部門が炭素中立性を達成すれば、ビットコインの炭素フットプリントは既にピークに達している。
しかし、ビジネス・アズ・ユース・シナリオでは、2019年の世界の排出量の7%に相当する2100ギガトンまで排出される。
しかし、2020年末のbitcoin価格の急騰は、市場資本の進歩的な発展が2021年に既に100 twh以上の電力消費をもたらし、2100年までに5ギガトン以上の累積排出量を発生させる可能性があることを示している。
したがって、Bitcoinの将来的なカーボンフットプリントを減らすための政策手段についても論じる。 The carbon footprint of Bitcoin has drawn wide attention, but Bitcoin's long-term impact on the climate remains uncertain. Here we present a framework to overcome uncertainties in previous estimates and project Bitcoin's electricity consumption and carbon footprint in the long term. If we assume Bitcoin's market capitalization grows in line with the one of gold, we find that the annual electricity consumption of Bitcoin may increase from 60 to 400 TWh between 2020 and 2100. The future carbon footprint of Bitcoin strongly depends on the decarbonization pathway of the electricity sector. If the electricity sector achieves carbon neutrality by 2050, Bitcoin's carbon footprint has peaked already. However, in the business-as-usual scenario, emissions sum up to 2 gigatons until 2100, an amount comparable to 7% of global emissions in 2019. The Bitcoin price spike at the end of 2020 shows, however, that progressive development of market capitalization could yield an electricity consumption of more than 100 TWh already in 2021, and lead to cumulative emissions of over 5 gigatons by 2100. Therefore, we also discuss policy instruments to reduce Bitcoin's future carbon footprint. | 翻訳日:2023-04-25 05:39:20 公開日:2021-01-28 |
# 駆動型ハバードモデルの定常状態の解析解 Analytical Solution for the Steady States of the Driven Hubbard model ( http://arxiv.org/abs/2011.04417v2 ) ライセンス: Link先を確認 | Joseph Tindall, Frank Schlawin, Michael A. Sentef and Dieter Jaksch | (参考訳) コヒーレント周期駆動の作用により、汎用量子系はフロケット加熱を行い、特徴のない熱状態に達するまで連続的にエネルギーを吸収する。
しかし、ある対称性によって誘導される位相空間の制約は、これを防止し、システムは非対角長距離順序で動的に安定な状態を形成することができる。
本研究では、任意の充足を持つ任意の格子上にハバードモデルを配置し、系の2つのSu(2)対称性を同時に対角化することにより、異なる対称クラスに対する相関定常状態を解析的に構築する。
この構成により、これらの状態が持つことができる長距離粒子ホールとスピン交換相関に関する検証可能かつ定量的な予測が可能になる。
両方のsu(2)対称性が熱力学的極限に保存されている場合、この駆動は粒子ホールとスピン波の順序を同時に持つ一意な凝縮物を形成するのにどのように用いられるかを示す。 Under the action of coherent periodic driving a generic quantum system will undergo Floquet heating and continously absorb energy until it reaches a featureless thermal state. The phase-space constraints induced by certain symmetries can, however, prevent this and allow the system to dynamically form robust steady states with off-diagonal long-range order. In this work, we take the Hubbard model on an arbitrary lattice with arbitrary filling and, by simultaneously diagonalising the two possible SU(2) symmetries of the system, we analytically construct the correlated steady states for different symmetry classes of driving. This construction allows us to make verifiable, quantitative predictions about the long-range particle-hole and spin-exchange correlations that these states can possess. In the case when both SU(2) symmetries are preserved in the thermodynamic limit we show how the driving can be used to form a unique condensate which simultaneously hosts particle-hole and spin-wave order. | 翻訳日:2023-04-24 21:28:34 公開日:2021-01-28 |
# Bose-Hubbardモデルにおける不純物劣化 Impurity dephasing in a Bose-Hubbard model ( http://arxiv.org/abs/2011.13757v3 ) ライセンス: Link先を確認 | Fabio Caleffi, Massimo Capone, In\'es de Vega, Alessio Recati | (参考訳) 開量子系の観点から, 2次元ボース・ハバード模型に埋め込まれた2段階不純物の力学をゼロ温度で研究する。
相図全体のデコヒーレンスの結果は、超流動とモット絶縁体間の遷移に近い臨界領域に焦点を当てたものである。
特に,非一貫性とマルコフ的行動からの逸脱は,遷移が交叉するかどうか,あるいは非交叉密度にどのように敏感かを示す。
ボース=ハバード環境のスペクトルの役割と、標準独立ボソンモデルを超えた非ゲージ統計学が強調されている。
本研究は,近年開発されたスレーブボソン法(phys. rev. research 2, 033276 (2020))を用いて,位相図全体の相関を捉える手法である。
この半解析法は、超流動相とモット相におけるスピン脱コヒーレンスの物理学の深い洞察を与え、相転移に近づいた。 We study the dynamics of a two-level impurity embedded in a two-dimensional Bose-Hubbard model at zero temperature from an open quantum system perspective. Results for the decoherence across the whole phase diagram are presented, with a focus on the critical region close to the transition between superfluid and Mott insulator. In particular, we show how the decoherence and the deviation from a Markovian behaviour are sensitive to whether the transition is crossed at commensurate or incommensurate densities. The role of the spectrum of the Bose-Hubbard environment and its non-Gaussian statistics, beyond the standard independent boson model, is highlighted. Our analysis resorts on a recently developed method [Phys. Rev. Research 2, 033276 (2020)] - closely related to slave boson approaches - that enables us to capture the correlations across the whole phase diagram. This semi-analytical method provides us with a deep insight into the physics of the spin decoherence in the superfluid and Mott phases as well as close to the phase transitions. | 翻訳日:2023-04-22 20:38:35 公開日:2021-01-28 |
# 量子コンピュータによるプロトン量の決定 Determining the proton content with a quantum computer ( http://arxiv.org/abs/2011.13934v2 ) ライセンス: Link先を確認 | Adri\'an P\'erez-Salinas, Juan Cruz-Martinez, Abdulla A. Alhajri, Stefano Carrazza | (参考訳) 本稿では、高エネルギー物理学(HEP)の文脈において、パルトン分布関数(PDF)の推定により、陽子のパルトン含量を決定するための量子回路を設計するための最初の試みを示す。
量子コンピューティングへの関心の高まりと、新しいアルゴリズムと量子ハードウェアデバイスの開発は、HEPに適用された方法論の研究を動機付けている。
本稿では、pdfs表現(qpdfs)に適した変分量子回路のアーキテクチャを特定する。
実量子デバイスへのqPDFの展開に関する実験を行い、現状の実験的制約を考慮した。
最後に,古典的ハードウェア上での量子コンピュータシミュレーションによるコライダーデータからグローバルなqPDF判定を行い,ハドロン過程を含む粒子と関連する現象予測を現代のPDFと比較した。 We present a first attempt to design a quantum circuit for the determination of the parton content of the proton through the estimation of parton distribution functions (PDFs), in the context of high energy physics (HEP). The growing interest in quantum computing and the recent developments of new algorithms and quantum hardware devices motivates the study of methodologies applied to HEP. In this work we identify architectures of variational quantum circuits suitable for PDFs representation (qPDFs). We show experiments about the deployment of qPDFs on real quantum devices, taking into consideration current experimental limitations. Finally, we perform a global qPDF determination from collider data using quantum computer simulation on classical hardware and we compare the obtained partons and related phenomenological predictions involving hadronic processes to modern PDFs. | 翻訳日:2023-04-22 20:30:41 公開日:2021-01-28 |
# 量子ネットワーク設計のためのツール Tools for quantum network design ( http://arxiv.org/abs/2012.06764v2 ) ライセンス: Link先を確認 | Koji Azuma, Stefan B\"auml, Tim Coopmans, David Elkouss, Boxi Li | (参考訳) 量子ネットワークは、今日の通信ネットワークに関して、質的な優位性を持つ通信タスクの実装を可能にする。
小規模量子ネットワークの最初の実証は短期的に行われることが期待されているが、その規模拡大には多くの課題が残っている。
異なる解を比較し、パラメータ空間を最適化し、実験を知らせるためには、具体的な量子ネットワークシナリオの性能を評価する必要がある。
本稿では,量子ネットワークの性能評価ツールの現状について概観する。
我々は,情報理論ベンチマーク,分析ツール,シミュレーションという3つの角度からそれらを提示する。 Quantum networks will enable the implementation of communication tasks with qualitative advantages with respect to the communication networks we know today. While it is expected that the first demonstrations of small scale quantum networks will take place in the near term, many challenges remain to scale them. To compare different solutions, optimize over parameter space and inform experiments, it is necessary to evaluate the performance of concrete quantum network scenarios. Here, we review the state of the art of tools for evaluating the performance of quantum networks. We present them from three different angles: information-theoretic benchmarks, analytical tools, and simulation. | 翻訳日:2023-04-21 01:12:51 公開日:2021-01-28 |
# 困難問題と自由意志:情報理論的アプローチ Hard Problem and Free Will: an information-theoretical approach ( http://arxiv.org/abs/2012.06580v2 ) ライセンス: Link先を確認 | Giacomo Mauro D'Ariano and Federico Faggin | (参考訳) 我々は、デビッド・カルマースの「ハード問題」の非還元的精神情報解から始まる、意識に関する明確な理論的主張を、「情報」の基本的な性質は、支持する「システム」によるその経験であるという仮説に基づいて検討する。
意識に関わる情報は、固有のプライバシーや、クォーリア状態に絡み合うことによって思考を構築する能力など、さまざまな理由で量子化されなければならない。
その結果、量子情報に基づく汎心理学に到達し、古典物理学は量子物理学、量子物理学は量子情報、量子情報は意識を重んじる。
そして、外から予測可能な状態(つまり、外的オブザーバの観点から経験の知識を記述する状態)とは対照的に、ランダムな選択が純粋でないという明確な経験に該当するため、内部的に経験した量子状態は、疫学と呼ばれ、一般的に混ざり合っている。
オンティック状態の純粋性は、純粋性を保存する進化、すなわち「原子」量子演算を必要とする。
後者は一般に確率的であり、その特定の結果が自由意志として解釈されるが、量子確率は知識の欠如として解釈できないため、原理上予測不可能である。
状態と進化の純粋さは、汎心理学の「結合問題」を解決できる。
量子状態の進化は短期的な経験のバッファーであり、それ自体が量子-古典的および古典-量子情報伝達を含んでいる。
一方、長期記憶は古典的であり、それぞれ量子-古典的、古典-量子的、古典-量子的な記憶過程を必要とする。 We explore definite theoretical assertions about consciousness, starting from a non-reductive psycho-informational solution of David Chalmers's 'hard problem', based on the hypothesis that a fundamental property of 'information' is its experience by the supporting 'system'. The kind of information involved in consciousness needs to be quantum for multiple reasons, including its intrinsic privacy and its power of building up thoughts by entangling qualia states. As a result we reach a quantum-information-based panpsychism, with classical physics supervening on quantum physics, quantum physics supervening on quantum information, and quantum information supervening on consciousness. We then argue that the internally experienced quantum state, since it corresponds to a definite experience-not to a random choice-must be pure, and we call it ontic, in contrast with the state predictable from the outside (i.e. the state describing the knowledge of the experience from the point of view of an external observer) which we call epistemic and is generally mixed. Purity of the ontic state requires an evolution that is purity preserving, namely a so-called 'atomic' quantum operation. The latter is generally probabilistic, and its particular outcome is interpreted as the free will, which is unpredictable even in principle since quantum probability cannot be interpreted as lack of knowledge. The same purity of state and evolution allows solving the 'combination problem' of panpsychism. Quantum state evolution accounts for a short-term buffer of experience and contains itself quantum-to-classical and classical-to-quantum information transfers. Long term memory, on the other hand, is classical, and needs memorization and recall processes that are quantum-to-classical and classical-to-quantum, respectively... | 翻訳日:2023-04-20 21:36:05 公開日:2021-01-28 |
# 絡み合いを解消する絡み合い支援安定化器符号の局所次元変化 Changing the Local-Dimension of an Entanglement-Assisted Stabilizer Code Removes Entanglement Need ( http://arxiv.org/abs/2012.13395v2 ) ライセンス: Link先を確認 | Lane G. Gunderman | (参考訳) 保護された量子情報を持つことは量子計算を行うのに不可欠である。
1つの可能性として、ノイズから保護される必要のある粒子の数を減らし、より多くの状態を持つシステムを使う、すなわちqudit量子コンピュータである。
本稿では,これらのシステムのための符号が既知の符号から導出できることを示し,特にこの手法は,エンタングルメント支援の量子誤り訂正符号における共有絡み合いの必要性をなくし,フォールトトレラント量子コンピュータや量子コンピュータにも有用であることを示す結果である。 Having protected quantum information is essential to perform quantum computations. One possibility is to reduce the number of particles needing to be protected from noise and instead use systems with more states, so called qudit quantum computers. In this paper we show that codes for these systems can be derived from already known codes, and in particular this procedure removes the need for shared entanglement in entanglement-assisted quantum error-correcting codes, which is a result which could prove to be useful for fault-tolerant qudit, and even qubit, quantum computers. | 翻訳日:2023-04-19 11:43:07 公開日:2021-01-28 |
# 可変結合超伝導回路における共振ゲートに対する観客の摂動効果 Perturbation impact of spectators on a cross-resonance gate in a tunable coupling superconducting circuit ( http://arxiv.org/abs/2101.01854v2 ) ライセンス: Link先を確認 | T.-Q. Cai, X.-Y. Han, Y.-K. Wu, Y.-L. Ma, J.-H. Wang, Z.-L. Wang, H.-Y Zhang, H.-Y Wang, Y.-P. Song, L.-M. Duan | (参考訳) クロス共振(CR)ゲートは、固定周波数量子ビットを用いたフォールトトレラント量子計算の有望なスキームとして登場した。
可変結合超伝導回路においてマイクロ波のみ制御を用いてcrゲートの絡み合いを実験的に実装し,可変結合回路はcrゲート構築の最適条件を検証するために余分な自由度を与える。
3量子ビットcrハミルトニックトモグラフィプロトコルを開発し,スプリアス量子ビット相互作用に対するゲートフィダリティの依存性を体系的に検討し,スペクタ量子ビットに起因する摂動影響の評価に最初の実験的アプローチを提案する。
以上の結果から,spectator qubitsはzz相互作用に依存するcrゲートの忠実度と,spectator と gate qubits間の特定の周波数のデチューニングに寄与することが明らかとなった。
実験により最適CR動作条件が明らかになり,不要な量子ビット相互作用の抑制によるCRゲートの改善に関する知見が得られた。 Cross-resonance (CR) gate has emerged as a promising scheme for fault-tolerant quantum computation with fixed-frequency qubits. We experimentally implement entangling CR gate by using a microwave-only control in a tunable coupling superconducting circuit, where the tunable coupler provides extra degrees of freedom to verify optimal condition for constructing CR gate. By developing three-qubit CR Hamiltonian tomography protocol, we systematically investigate the dependency of gate fidelities on spurious qubit interactions and present the first experimental approach to the evaluation of the perturbation impact arising from spectator qubits. Our results reveal that the spectator qubits lead to reductions in CR gate fidelity dependent on ZZ interaction and particular frequency detunings between spectator and gate qubits, demonstrating a more serious impact from the target spectator than from the control spectator. Our experiments uncover optimal CR operation regime and provide insight into an improvement of the CR gate by suppression of unwanted qubit interactions. | 翻訳日:2023-04-17 17:58:55 公開日:2021-01-28 |
# adaptive decision forest: インクリメンタルな機械学習フレームワーク Adaptive Decision Forest: An Incremental Machine Learning Framework ( http://arxiv.org/abs/2101.11828v1 ) ライセンス: Link先を確認 | Md Geaur Rahman and Md Zahidul Islam | (参考訳) 本研究では,新しいレコードを分類するための決定フォレストを生成するadaptive decision forest(adf)と呼ばれるインクリメンタルな機械学習フレームワークを提案する。
2つの新しい定理に基づいて,従来の未確認クラスに関連付けられていても,ADFが新たなレコードを分類できるiSATという新たな分割戦略を導入する。
ADFは概念の漂流を識別し処理する能力があるが、これまで得られた知識を忘れることはない。
さらに、ADFは、データがバッチに分割された場合、ビッグデータを処理できる。
ADFを利用可能な5つの自然データセットと1つの合成データセットで評価し、8つの最先端技術の性能と比較した。
統計的手話検査やネメニイテスト分析を含む実験結果から,提案手法が最先端技術よりも優れていることが示唆された。 In this study, we present an incremental machine learning framework called Adaptive Decision Forest (ADF), which produces a decision forest to classify new records. Based on our two novel theorems, we introduce a new splitting strategy called iSAT, which allows ADF to classify new records even if they are associated with previously unseen classes. ADF is capable of identifying and handling concept drift; it, however, does not forget previously gained knowledge. Moreover, ADF is capable of handling big data if the data can be divided into batches. We evaluate ADF on five publicly available natural data sets and one synthetic data set, and compare the performance of ADF against the performance of eight state-of-the-art techniques. Our experimental results, including statistical sign test and Nemenyi test analyses, indicate a clear superiority of the proposed framework over the state-of-the-art techniques. | 翻訳日:2023-04-13 12:08:38 公開日:2021-01-28 |
# 不連続ガレルキン近似に基づく不均一媒質の多孔質弾性の非侵入還元次数モデル Non-intrusive reduced order modeling of poroelasticity of heterogeneous media based on a discontinuous Galerkin approximation ( http://arxiv.org/abs/2101.11810v1 ) ライセンス: Link先を確認 | T. Kadeethum, F. Ballarin, N. Bouklas | (参考訳) 正直交分解(POD)とニューラルネットワークを用いた不均一多孔質媒体における線形多弾性問題に対する非侵襲的モデル縮小フレームワークを提案する。
多孔質媒体の導電性は非常に均一であり、数桁のオーダーにまたがるので、不連続なガラキン(DG)法をフルオーダーソルバとして利用し、不連続を処理し、オフライン段階で局所的な質量保存を確保する。
次に、データ圧縮ツールとしてPODを使用し、時間と不確実なパラメータ領域を連続的に圧縮するネストされたPOD技術と、すべてのドメインを同時に圧縮する古典的なPOD手法を比較する。
ニューラルネットワークは最終的に、材料特性、境界条件、または幾何学的特性に対応する不確実なパラメータの集合を、還元基底上の$L^2$射影から計算された係数の集まりにマッピングするように訓練される。
次に、ニューラルネットワークの非侵入的評価を行い、オンライン段階における不確実なパラメータの新しい値に対応する係数を求める。
我々のフレームワークは、DGソリューションの妥当な近似を提供するが、かなり高速である。
さらに, 媒体導電率の不均一性に起因する変位, 圧力場の急激な不連続性も, 一般的には侵入的縮小順序法では困難である。
ネストされたPOD手法は計算的に有利であり、古典的なPOD法に匹敵する精度を提供することを示す。
また、ニューラルネットワークのハイパーパラメータの異なる選択がフレームワークのパフォーマンスに与える影響についても検討する。 We present a non-intrusive model reduction framework for linear poroelasticity problems in heterogeneous porous media using proper orthogonal decomposition (POD) and neural networks, based on the usual offline-online paradigm. As the conductivity of porous media can be highly heterogeneous and span several orders of magnitude, we utilize the interior penalty discontinuous Galerkin (DG) method as a full order solver to handle discontinuity and ensure local mass conservation during the offline stage. We then use POD as a data compression tool and compare the nested POD technique, in which time and uncertain parameter domains are compressed consecutively, to the classical POD method in which all domains are compressed simultaneously. The neural networks are finally trained to map the set of uncertain parameters, which could correspond to material properties, boundary conditions, or geometric characteristics, to the collection of coefficients calculated from an $L^2$ projection over the reduced basis. We then perform a non-intrusive evaluation of the neural networks to obtain coefficients corresponding to new values of the uncertain parameters during the online stage. We show that our framework provides reasonable approximations of the DG solution, but it is significantly faster. Moreover, the reduced order framework can capture sharp discontinuities of both displacement and pressure fields resulting from the heterogeneity in the media conductivity, which is generally challenging for intrusive reduced order methods. The sources of error are presented, showing that the nested POD technique is computationally advantageous and still provides comparable accuracy to the classical POD method. We also explore the effect of different choices of the hyperparameters of the neural network on the framework performance. | 翻訳日:2023-04-13 12:08:05 公開日:2021-01-28 |
# AdaSpring: モバイルアプリケーションのためのコンテキスト適応型およびランタイム進化型ディープモデル圧縮 AdaSpring: Context-adaptive and Runtime-evolutionary Deep Model Compression for Mobile Applications ( http://arxiv.org/abs/2101.11800v1 ) ライセンス: Link先を確認 | Sicong Liu, Bin Guo, Ke Ma, Zhiwen Yu, Junzhao Du | (参考訳) 現在、多くのディープラーニング(DNNなど)がモバイルおよびウェアラブルアプリケーションに使われており、人間の生活のあらゆる側面を強化するために周囲の環境を継続的に、控えめに感知している。
堅牢でプライベートなモバイルセンシングを可能にするため、DNNはモデル圧縮を通じてリソース制約のあるモバイルデバイスにローカルにデプロイされる傾向にある。
現在、手作りのDNN圧縮技術、すなわちDNN相対的性能(パラメータサイズなど)の最適化や、ハードウェア依存のメトリクス(例えばレイテンシ)の最適化といったオンデマンドDNN圧縮手法は、正確性を確保するためにオフラインリトレーニングを必要とするため、ローカルでは利用できない。
また、モバイルアプリケーションのデプロイメントコンテキストの動的な性質を考慮するために、ランタイム適応圧縮と彼らの取り組みを関連付けるものはない。
これらの課題に対処するため、コンテキスト適応的で自己進化的なDNN圧縮フレームワークであるAdaSpringを紹介します。
ランタイムアダプティブDNN圧縮をオンラインでローカルに行うことができる。
具体的には、複数の代替DNN圧縮構成(すなわち、圧縮されたアーキテクチャと重み)を統合するために、トレーニング不要で自己進化的なネットワークのアンサンブルトレーニングを示す。
次にランタイム検索戦略を導入し、最も適切な圧縮構成を素早く検索し、対応する重みを進化させる。
3つのプラットフォームにわたる5つのタスクの評価と実世界のケーススタディにより、実験の結果、AdaSpringはDNNの最大3.1倍のレイテンシ削減、4.2倍のエネルギー効率向上を実現している。 There are many deep learning (e.g., DNN) powered mobile and wearable applications today continuously and unobtrusively sensing the ambient surroundings to enhance all aspects of human lives. To enable robust and private mobile sensing, DNN tends to be deployed locally on the resource-constrained mobile devices via model compression. The current practice either hand-crafted DNN compression techniques, i.e., for optimizing DNN-relative performance (e.g., parameter size), or on-demand DNN compression methods, i.e., for optimizing hardware-dependent metrics (e.g., latency), cannot be locally online because they require offline retraining to ensure accuracy. Also, none of them have correlated their efforts with runtime adaptive compression to consider the dynamic nature of the deployment context of mobile applications. To address those challenges, we present AdaSpring, a context-adaptive and self-evolutionary DNN compression framework. It enables the runtime adaptive DNN compression locally online. Specifically, it presents the ensemble training of a retraining-free and self-evolutionary network to integrate multiple alternative DNN compression configurations (i.e., compressed architectures and weights). It then introduces the runtime search strategy to quickly search for the most suitable compression configurations and evolve the corresponding weights. With evaluation on five tasks across three platforms and a real-world case study, experiment outcomes show that AdaSpring obtains up to 3.1x latency reduction, 4.2 x energy efficiency improvement in DNNs, compared to hand-crafted compression techniques, while only incurring <= 6.2ms runtime-evolution latency. | 翻訳日:2023-04-13 12:07:33 公開日:2021-01-28 |
# フェデレーション学習に対する隠れモデル中毒:アルゴリズム設計と最適化 Covert Model Poisoning Against Federated Learning: Algorithm Design and Optimization ( http://arxiv.org/abs/2101.11799v1 ) ライセンス: Link先を確認 | Kang Wei, Jun Li, Ming Ding, Chuan Ma, Yo-Seb Jeon and H. Vincent Poor | (参考訳) 分散機械学習フレームワークの一種である連合学習(federated learning, fl)は、パラメータ伝達中のflモデルの外部攻撃に対して脆弱である。
FLの攻撃者は、多数のクライアントを制御でき、アップロードされたモデルパラメータを意図的に作成して、システム出力、すなわちモデル中毒(MP)を操作できる。
本稿では,サーバに実装された最先端の防御アグリゲーション機構(例えば,Krum と Trimmed の平均値)に対して,隠蔽MP (CMP) に気付かない効果的なMPアルゴリズムを提案する。
具体的には,制御されたモデルと指定されたモデルとのユークリッド距離を最小化することにより,まずMPを最適化問題として定式化する。
そこで我々は,対応する最適化問題の解に基づいて,異なる防御機構に対するCMPアルゴリズムを開発した。
さらに,最適化の複雑さを低減するため,性能劣化の少ない低複雑性CMPアルゴリズムを提案する。
攻撃者が防御アグリゲーション機構を知らない場合、未知の防御アグリゲーションによって生成された集約モデルに従って操作されたモデルを適切に調整するブラインドCMPアルゴリズムを設計する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。 Federated learning (FL), as a type of distributed machine learning frameworks, is vulnerable to external attacks on FL models during parameters transmissions. An attacker in FL may control a number of participant clients, and purposely craft the uploaded model parameters to manipulate system outputs, namely, model poisoning (MP). In this paper, we aim to propose effective MP algorithms to combat state-of-the-art defensive aggregation mechanisms (e.g., Krum and Trimmed mean) implemented at the server without being noticed, i.e., covert MP (CMP). Specifically, we first formulate the MP as an optimization problem by minimizing the Euclidean distance between the manipulated model and designated one, constrained by a defensive aggregation rule. Then, we develop CMP algorithms against different defensive mechanisms based on the solutions of their corresponding optimization problems. Furthermore, to reduce the optimization complexity, we propose low complexity CMP algorithms with a slight performance degradation. In the case that the attacker does not know the defensive aggregation mechanism, we design a blind CMP algorithm, in which the manipulated model will be adjusted properly according to the aggregated model generated by the unknown defensive aggregation. Our experimental results demonstrate that the proposed CMP algorithms are effective and substantially outperform existing attack mechanisms. | 翻訳日:2023-04-13 12:07:03 公開日:2021-01-28 |
# 超伝導量子回路におけるLandau-Zener-St\"uckelberg干渉 Phase sensitive Landau-Zener-St\"uckelberg interference in superconducting quantum circuit ( http://arxiv.org/abs/2101.11792v1 ) ライセンス: Link先を確認 | Zhi-Xuan Yang, Yi-Meng Zhang, Yu-Xuan Zhou, Li-Bo Zhang, Fei Yan, Song Liu, Yuan Xu, Jian Li | (参考訳) 超伝導量子力学(英語版)(QED)アーキテクチャは、量子物理学と量子情報処理を探索するための強力なプラットフォームである。
超伝導量子コンピューティングのために開発された技術を用いて,回路QEDにおける位相感受性ランダウ・ツェナー・シュタッケルベルク干渉現象を実験的に研究した。
実験では、LZS遷移パラメータを広範囲にカバーし、LZS誘起ラビ様振動と相依存定常状態の集団を実証した。 Superconducting circuit quantum electrodynamics (QED) architecture composed of superconducting qubit and resonator is a powerful platform for exploring quantum physics and quantum information processing. By employing techniques developed for superconducting quantum computing, we experimentally investigate phase-sensitive Landau-Zener-St\"uckelberg (LZS) interference phenomena in a circuit QED. Our experiments cover a large range of LZS transition parameters, and demonstrate the LZS induced Rabi-like oscillation as well as phase-dependent steady-state population. | 翻訳日:2023-04-13 12:06:39 公開日:2021-01-28 |
# 電波伝搬モデリングのための機械学習技術の概要 An Overview of Machine Learning Techniques for Radiowave Propagation Modeling ( http://arxiv.org/abs/2101.11760v1 ) ライセンス: Link先を確認 | Aristeidis Seretis, Costas D. Sarris | (参考訳) 本稿では,機械学習アルゴリズムに基づく電波伝搬のモデル化における最近の展開について概観する。
我々は、モデルの入出力仕様とアーキテクチャを、機械学習駆動の伝播モデルに関連する主な課題として特定する。
これらの課題に対するそれぞれのアプローチに基づいて、関連論文を論じ、分類する。
この有望で急速に発展する領域における展望とオープンな問題を提示することに焦点を当てている。 We give an overview of recent developments in the modeling of radiowave propagation, based on machine learning algorithms. We identify the input and output specification and the architecture of the model as the main challenges associated with machine learning-driven propagation models. Relevant papers are discussed and categorized based on their approach to each of these challenges. Emphasis is given on presenting the prospects and open problems in this promising and rapidly evolving area. | 翻訳日:2023-04-13 12:06:01 公開日:2021-01-28 |
# 量子速度限界と力学写像の可分性 Quantum speed limit and divisibility of the dynamical map ( http://arxiv.org/abs/2101.11900v1 ) ライセンス: Link先を確認 | Jose Teittinen, Sabrina Maniscalco | (参考訳) 量子速度限界 (QSL) は、量子系が与えられた状態から別の状態へ進化する時間の理論的な下限である。
興味深いことに、非マルコフ性はダイナミクスのスピードアップやqsl時間の短縮に利用できることが示されているが、この挙動は普遍的ではない。
本稿では,量子速度限界に対する動的写像の p- および cp-分割可能性の影響を考察し,qsl と非マルコフ性との関係についてさらに検討する。
P-およびCP-divisible dynamicsの下でもスピードアップは観察でき、P-divisible から non-P-divisible dynamics への遷移と必ずしも結びついていないことを示す。 The quantum speed limit (QSL) is the theoretical lower limit of the time for a quantum system to evolve from a given state to another one. Interestingly, it has been shown that non-Markovianity can be used to speed-up the dynamics and to lower the QSL time, although this behavior is not universal. In this paper we further carry on the investigation on the connection between QSL and non-Markovianity by looking at the effects of P- and CP-divisibility of the dynamical map to the quantum speed limit. We show that the speed-up can also be observed under P- and CP-divisible dynamics, and that the speed-up is not necessarily tied to the transition from P-divisible to non-P-divisible dynamics. | 翻訳日:2023-04-13 11:59:21 公開日:2021-01-28 |
# 近似乗算を支援する進化的ニューラルネットワーク探索 Evolutionary Neural Architecture Search Supporting Approximate Multipliers ( http://arxiv.org/abs/2101.11883v1 ) ライセンス: Link先を確認 | Michal Pinos and Vojtech Mrazek and Lukas Sekanina | (参考訳) 自動ニューラルネットワーク検索(nas)メソッドへの関心が高まっている。
さまざまな挑戦的なデータセットに対して、高品質なニューラルネットワークアーキテクチャを日常的に提供し、デザイナの労力を削減するために使用される。
多目的進化アルゴリズムを用いたNAS法は、ネットワークエラーを最小限に抑えるだけでなく、パラメータ(重み)の数や推論フェーズの消費電力を最小化するためにも特に有用である。
本稿では,進化的畳み込みニューラルネットワーク(CNN)のための遺伝的プログラミングに基づく多目的NAS法を提案する。
この方法では、ターゲットハードウェアの実装の消費電力を減らすためにcnnで近似演算を使うことができる。
nasプロセスの間、適切なcnnアーキテクチャと近似乗算器が進化し、正確性、ネットワークサイズ、電力消費の間の最良のトレードオフを提供する。
最も適切な近似乗算器は、近似乗算器のライブラリから自動的に選択される。
進化したCNNは、CIFAR-10ベンチマーク問題に類似した複雑さを持つ一般的なCNNと比較される。 There is a growing interest in automated neural architecture search (NAS) methods. They are employed to routinely deliver high-quality neural network architectures for various challenging data sets and reduce the designer's effort. The NAS methods utilizing multi-objective evolutionary algorithms are especially useful when the objective is not only to minimize the network error but also to minimize the number of parameters (weights) or power consumption of the inference phase. We propose a multi-objective NAS method based on Cartesian genetic programming for evolving convolutional neural networks (CNN). The method allows approximate operations to be used in CNNs to reduce the power consumption of a target hardware implementation. During the NAS process, a suitable CNN architecture is evolved together with approximate multipliers to deliver the best trade-offs between the accuracy, network size, and power consumption. The most suitable approximate multipliers are automatically selected from a library of approximate multipliers. Evolved CNNs are compared with common human-created CNNs of a similar complexity on the CIFAR-10 benchmark problem. | 翻訳日:2023-04-13 11:59:07 公開日:2021-01-28 |
# 遠隔会議におけるマルチタスク行動の大規模解析 Large Scale Analysis of Multitasking Behavior During Remote Meetings ( http://arxiv.org/abs/2101.11865v1 ) ライセンス: Link先を確認 | Hancheng Cao, Chia-Jung Lee, Shamsi Iqbal, Mary Czerwinski, Priscilla Wong, Sean Rintel, Brent Hecht, Jaime Teevan, Longqi Yang | (参考訳) 仮想ミーティングは、対人インタラクションがない場合に同期的なコラボレーションを必要とするため、リモートワークにとって重要なものです。
インミーティングのマルチタスクは、人々の生産性と幸福と密接に関連しています。
しかし、現在、リモートミーティングにおけるマルチタスクの理解と、その潜在的な影響は限られています。
本稿では,2020年2月から5月にかけて米国microsoft社員が収集した大規模テレメトリデータセットと715人のダイアリースタディを用いて,リモートミーティングのマルチタスク行動に関する最も包括的な研究について述べる。
以上の結果から, サイズ, 長さ, 時間, タイプなどの内在的ミーティング特性は, マルチタスクやマルチタスクが, 肯定的, 否定的な結果に大きく相関することが示された。
本研究は,リモートミーティング(朝の重要ミーティング回避など)と生産性ツール(ポジティブなリモートマルチタスキング支援など)の設計に関する重要なベストプラクティスガイドラインを示唆する。 Virtual meetings are critical for remote work because of the need for synchronous collaboration in the absence of in-person interactions. In-meeting multitasking is closely linked to people's productivity and wellbeing. However, we currently have limited understanding of multitasking in remote meetings and its potential impact. In this paper, we present what we believe is the most comprehensive study of remote meeting multitasking behavior through an analysis of a large-scale telemetry dataset collected from February to May 2020 of U.S. Microsoft employees and a 715-person diary study. Our results demonstrate that intrinsic meeting characteristics such as size, length, time, and type, significantly correlate with the extent to which people multitask, and multitasking can lead to both positive and negative outcomes. Our findings suggest important best-practice guidelines for remote meetings (e.g., avoid important meetings in the morning) and design implications for productivity tools (e.g., support positive remote multitasking). | 翻訳日:2023-04-13 11:57:45 公開日:2021-01-28 |
# 最適化フレームワークによるグラフニューラルネットワークの解釈と統一 Interpreting and Unifying Graph Neural Networks with An Optimization Framework ( http://arxiv.org/abs/2101.11859v1 ) ライセンス: Link先を確認 | Meiqi Zhu, Xiao Wang, Chuan Shi, Houye Ji, Peng Cui | (参考訳) グラフニューラルネットワーク(gnns)は、さまざまなタスクでグラフ構造化データ学習に多大な注目を集めている。
十分に設計された伝播機構はGNNの最も基本的な部分である。
ほとんどのGNNは基本的にメッセージパッシングのやり方に従っているが、彼らの本質的な関係を発見し、分析する努力が続けられている。
本稿では,様々なgnnの増殖にもかかわらず,それらの伝播機構がグラフ正規化項を持つ多種多様なグラフカーネル上で特徴適合関数を最適化する最適解であることを示す,統一最適化問題と異なる伝播機構の驚くべき関係を確立する。
提案する統一最適化フレームワークは,複数の代表的GNN間の共通性を要約し,異なるGNN間の関係を調査するマクロビューを提供するだけでなく,新しいGNNを柔軟に設計する新たな機会を開く。
提案手法により,提案手法では,通常,有理グラフ畳み込みカーネルを特徴フィッティング関数として利用し,低域および高域フィルタ機能を有する調整可能なグラフカーネルをそれぞれ考慮した2つの新たな目的関数を新たに開発する。
さらに,提案したモデルに対して収束証明と表現力比較を行う。
ベンチマークデータセットの大規模な実験は、提案したGNNが最先端の手法を上回るだけでなく、過度なスムース化を緩和し、GNNを統一最適化フレームワークで設計する可能性も検証できることを示している。 Graph Neural Networks (GNNs) have received considerable attention on graph-structured data learning for a wide variety of tasks. The well-designed propagation mechanism which has been demonstrated effective is the most fundamental part of GNNs. Although most of GNNs basically follow a message passing manner, litter effort has been made to discover and analyze their essential relations. In this paper, we establish a surprising connection between different propagation mechanisms with a unified optimization problem, showing that despite the proliferation of various GNNs, in fact, their proposed propagation mechanisms are the optimal solution optimizing a feature fitting function over a wide class of graph kernels with a graph regularization term. Our proposed unified optimization framework, summarizing the commonalities between several of the most representative GNNs, not only provides a macroscopic view on surveying the relations between different GNNs, but also further opens up new opportunities for flexibly designing new GNNs. With the proposed framework, we discover that existing works usually utilize naive graph convolutional kernels for feature fitting function, and we further develop two novel objective functions considering adjustable graph kernels showing low-pass or high-pass filtering capabilities respectively. Moreover, we provide the convergence proofs and expressive power comparisons for the proposed models. Extensive experiments on benchmark datasets clearly show that the proposed GNNs not only outperform the state-of-the-art methods but also have good ability to alleviate over-smoothing, and further verify the feasibility for designing GNNs with our unified optimization framework. | 翻訳日:2023-04-13 11:57:13 公開日:2021-01-28 |
# 広帯域雑音抑圧のための高帯域レーザー周波数同期 High bandwidth laser-frequency-locking for wideband noise suppression ( http://arxiv.org/abs/2101.11847v1 ) ライセンス: Link先を確認 | Mingyong Jing, Peng Zhang, Shaoxin Yuan, Linjie Zhang, Liantuan Xiao, and Suotang Jia | (参考訳) 超低周波ノイズレーザーはレーザーベースの実験で広く用いられている。
多くの狭帯域レーザーは、周波数ノイズサーボループ(FNSL)を介して周波数ノイズを積極的に抑制することで実装される。
FNSLのループ帯域幅(LBW)は現在メガヘルツ以下であり、特に広帯域量子センシング実験において応用要件を満たすことは次第に困難になっている。
本稿では、ループ遅延制限3.5MHz LBWのFNSLを実験的に実装した。
このFNSLを用いて、100kHzのフーリエ周波数範囲で70dBのレーザー周波数ノイズ抑圧を実現した。
この技術は広帯域レーザー周波数ノイズ抑圧が避けられない広い分野に広く応用されている。 Ultra-low frequency noise lasers have been widely used in laser-based experiments. Most narrow-linewidth lasers are implemented by actively suppressing their frequency noise through a frequency noise servo loop (FNSL). The loop bandwidths (LBW) of FNSLs are currently below megahertz, which is gradually tricky to meet application requirements, especially for wideband quantum sensing experiments. This article has experimentally implemented an FNSL with loop-delay-limited 3.5 MHz LBW, which is an order higher than the usual FNSLs. Using this FNSL, we achieved 70 dB laser frequency noise suppression over 100 kHz Fourier frequency range. This technology has broad applications in vast fields where wideband laser frequency noise suppression is inevitable. | 翻訳日:2023-04-13 11:56:47 公開日:2021-01-28 |
# POD-DL-ROM:正規直交分解による非線形パラメトリゼーションPDEの深層学習に基づく縮小順序モデルの改善 POD-DL-ROM: enhancing deep learning-based reduced order models for nonlinear parametrized PDEs by proper orthogonal decomposition ( http://arxiv.org/abs/2101.11845v1 ) ライセンス: Link先を確認 | Stefania Fresca, Andrea Manzoni | (参考訳) 深層学習に基づくリダクションオーダーモデル(DL-ROM)は、例えば非線形時間依存性のパラメトリック偏微分方程式(PDE)に適用された適切な直交分解(POD)を通じて、従来のリダクションオーダーモデル(ROM)で共有される共通の制限を克服するために最近提案されている。
関連があるかもしれません
(i)高次元線形近似公理多様体への射影を扱う必要性。
(ii)高価なハイパーリダクション戦略、又は
(三)モードの線形重ね合わせで物理的複雑性を扱うことの本質的な困難。
これらの側面はすべて、ディープニューラルネットワーク(例えばフィードフォワード、畳み込み、オートエンコーダ)に依存することで、非線形試行多様体と還元力学の両方を非インタラクティブな方法で学習するdl-romを使用する際に避けられる。
テスト時には非常に効率的であるが、新しいテストパラメーターインスタンスに対してPDEソリューションを評価する場合、DL-ROMは非常に多くのネットワークパラメータを推定するため、高価なトレーニングステージが必要である。
本稿では,DL-ROMの高価なトレーニング段階を回避するための方法を提案する。
(i)PODによる事前の次元縮小を行い、
(2) 異なる物理モデルを効率的に組み合わせることのできる多要素事前学習ステージに依存する。
提案するpod-dl-romは(スカラーおよびベクトル、線型および非線形の両方)時間依存パラメトリゼーションpdes(例えば、線形移流拡散反応、非線形拡散-反応、非線形楕円力学、ナビエ-ストークス方程式)上でテストされ、このアプローチの一般性とその顕著な計算節約を示す。 Deep learning-based reduced order models (DL-ROMs) have been recently proposed to overcome common limitations shared by conventional reduced order models (ROMs) - built, e.g., through proper orthogonal decomposition (POD) - when applied to nonlinear time-dependent parametrized partial differential equations (PDEs). These might be related to (i) the need to deal with projections onto high dimensional linear approximating trial manifolds, (ii) expensive hyper-reduction strategies, or (iii) the intrinsic difficulty to handle physical complexity with a linear superimposition of modes. All these aspects are avoided when employing DL-ROMs, which learn in a non-intrusive way both the nonlinear trial manifold and the reduced dynamics, by relying on deep (e.g., feedforward, convolutional, autoencoder) neural networks. Although extremely efficient at testing time, when evaluating the PDE solution for any new testing-parameter instance, DL-ROMs require an expensive training stage, because of the extremely large number of network parameters to be estimated. In this paper we propose a possible way to avoid an expensive training stage of DL-ROMs, by (i) performing a prior dimensionality reduction through POD, and (ii) relying on a multi-fidelity pretraining stage, where different physical models can be efficiently combined. The proposed POD-DL-ROM is tested on several (both scalar and vector, linear and nonlinear) time-dependent parametrized PDEs (such as, e.g., linear advection-diffusion-reaction, nonlinear diffusion-reaction, nonlinear elastodynamics, and Navier-Stokes equations) to show the generality of this approach and its remarkable computational savings. | 翻訳日:2023-04-13 11:56:34 公開日:2021-01-28 |
# 理想多モード光子数または電力計数検出器による真空変動と平衡ホモダイン検出 Vacuum fluctuations and balanced homodyne detection through ideal multi-mode photon number or power counting detectors ( http://arxiv.org/abs/2101.11838v1 ) ライセンス: Link先を確認 | Kouji Nakamura | (参考訳) 重力波検出器の読み出しスキームとしての平衡ホモダイン検出を慎重に検討し、検出における直接測定された量子演算子を特定する。
この仕様は重力波検出に量子計測理論を適用する必要がある。
2光子定式化を使わずにノイズスペクトル密度に対する真空揺らぎの寄与を明らかにする。
2光子定式化における雑音スペクトル密度は主干渉計からの真空ゆらぎを含むが、直接測定された演算子に依存する局所振動子からのノイズは含まない。 The balanced homodyne detection as a readout scheme of gravitational-wave detectors is carefully examined, which specifies the directly measured quantum operator in the detection. This specification is necessary to apply the quantum measurement theory to gravitational-wave detections. We clarify the contribution of vacuum fluctuations to the noise spectral density without using the two-photon formulation. We found that the noise spectral density in the two-photon formulation includes vacuum fluctuations from the main interferometer but does not includes those from the local oscillator which depends on the directly measured operators. | 翻訳日:2023-04-13 11:56:00 公開日:2021-01-28 |
# 粒子群最適化における係数の設定:洞察とガイドライン Coefficients' Settings in Particle Swarm Optimization: Insight and Guidelines ( http://arxiv.org/abs/2101.11944v1 ) ライセンス: Link先を確認 | Mauro S. Innocente, Johann Sienz | (参考訳) 粒子群最適化(Particle Swam Optimization)は、自然界で観察された社会行動の模倣によって開発された人口ベースで勾配のない最適化手法である。
最適化の能力は特に実装されていないが、局所的な相互作用からグローバルレベルで現れる。
標準的なバージョンでは、粒子の軌道を支配する3つの要因がある。
1) 前の変位からの慣性
2) 最高の経験に惹かれること,及び
3)隣人の最高の体験への魅力。
これらの因子のそれぞれに与えられる重要性は、3つの係数によって制御される。
1) 慣性
2) 個人性,及び
3)社会性の重み。
彼らの設定は、これら2つのアトラクタに引っ張られた時の粒子の軌道を決定する。
異なる速度と粒子のアトラクタへの収束形態は、係数の異なる設定のために行われる。
組込みランダム性のより良い制御を目的とした、より一般的な定式化が提示される。
望ましい行動を得るために係数の設定を選択するガイドラインが提供される。
アルゴリズムの収束速度は、Swarm内の情報の拡散速度にも依存する。
後者は、研究が本論文の範囲を超えている近所の構造によって管理されている。
ここでの目標は、粒子の軌跡の形式に関する洞察を提供することにより、psoパラダイムのコアをボトムアップから理解することであり、提案する定式化において粒子の速度更新方程式における係数の設定をどのように決定するかを、手元の問題に望ましい振る舞いの種類を得るためのガイドラインを提供することである。
汎用設定も提案されている。
提案された定式化と古典的および制限的PSO定式化の関係も提供される。 Particle Swam Optimization is a population-based and gradient-free optimization method developed by mimicking social behaviour observed in nature. Its ability to optimize is not specifically implemented but emerges in the global level from local interactions. In its canonical version, there are three factors that govern a particle's trajectory: 1) inertia from its previous displacement; 2) attraction to its best experience; and 3) attraction to a given neighbour's best experience. The importance given to each of these factors is regulated by three coefficients: 1) the inertia; 2) the individuality; and 3) the sociality weights. Their settings rule the trajectory of the particle when pulled by these two attractors. Different speeds and forms of convergence of a particle towards its attractor(s) take place for different settings of the coefficients. A more general formulation is presented aiming for a better control of the embedded randomness. Guidelines to select the coefficients' settings to obtain the desired behaviour are offered. The convergence speed of the algorithm also depends on the speed of spread of information within the swarm. The latter is governed by the structure of the neighbourhood, whose study is beyond the scope of this paper. The objective here is to help understand the core of the PSO paradigm from the bottom up by offering some insight into the form of the particles' trajectories, and to provide some guidelines as to how to decide upon the settings of the coefficients in the particles' velocity update equation in the proposed formulation to obtain the type of behaviour desired for the problem at hand. General-purpose settings are also suggested. The relationship between the proposed formulation and both the classical and constricted PSO formulations are also provided. | 翻訳日:2023-04-13 11:49:36 公開日:2021-01-28 |
# 多モードデータを用いた頭頸部癌予後モデルのための機械学習チャレンジ A Machine Learning Challenge for Prognostic Modelling in Head and Neck Cancer Using Multi-modal Data ( http://arxiv.org/abs/2101.11935v1 ) ライセンス: Link先を確認 | Michal Kazmierski, Mattea Welch, Sejin Kim, Chris McIntosh, Princess Margaret Head and Neck Cancer Group, Katrina Rey-McIntyre, Shao Hui Huang, Tirth Patel, Tony Tadic, Michael Milosevic, Fei-Fei Liu, Andrew Hope, Scott Bratman and Benjamin Haibe-Kains | (参考訳) 個々の患者の正確な予後は、精密腫瘍学の重要な要素である。
機械学習の最近の進歩により、イメージングを含む幅広いデータを用いたモデルの開発が可能になった。
放射線医学は、日常的な医療画像から定量的な予測と予後のバイオマーカーを抽出することを目的としている。
本研究は, 頭頸部癌における全身生存予測の精度を, 電子カルテおよび放射線治療前画像から抽出した臨床データを用いて評価し, 頭頸部癌予後に対する放射線治療の真に付加されたメリットを評価するために, 機関的機械学習挑戦を行った。
2,552人の患者の大規模なふりかえりデータセットと厳密な評価フレームワークを用いて,画像と臨床データを用いて,別々に,あるいは組み合わせて12種類の投稿を比較した。
勝利のアプローチは、臨床データと腫瘍体積の非線形マルチタスク学習を使用し、2年間の予後予測と生存率予測と臨床データのみに依存するモデル、工学的放射線工学、深層学習を高い精度で達成した。
すべての入力をアンサンブルモデルに組み合わせることで精度が向上し、画像ベースのディープラーニングモデルから最も高いゲインを得た。
以上の結果から, パーソナライズされたがんケアをガイドするツールとして, 大規模データセットと組み合わせることで, 機械学習の可能性を示唆した。 Accurate prognosis for an individual patient is a key component of precision oncology. Recent advances in machine learning have enabled the development of models using a wider range of data, including imaging. Radiomics aims to extract quantitative predictive and prognostic biomarkers from routine medical imaging, but evidence for computed tomography radiomics for prognosis remains inconclusive. We have conducted an institutional machine learning challenge to develop an accurate model for overall survival prediction in head and neck cancer using clinical data etxracted from electronic medical records and pre-treatment radiological images, as well as to evaluate the true added benefit of radiomics for head and neck cancer prognosis. Using a large, retrospective dataset of 2,552 patients and a rigorous evaluation framework, we compared 12 different submissions using imaging and clinical data, separately or in combination. The winning approach used non-linear, multitask learning on clinical data and tumour volume, achieving high prognostic accuracy for 2-year and lifetime survival prediction and outperforming models relying on clinical data only, engineered radiomics and deep learning. Combining all submissions in an ensemble model resulted in improved accuracy, with the highest gain from a image-based deep learning model. Our results show the potential of machine learning and simple, informative prognostic factors in combination with large datasets as a tool to guide personalized cancer care. | 翻訳日:2023-04-13 11:49:14 公開日:2021-01-28 |
# 機械学習による将来の南方広視野ガンマ線観測装置のチェレンコフ検出器問題におけるミューオン同定に取り組む Tackling the muon identification in water Cherenkov detectors problem for the future Southern Wide-field Gamma-ray Observatory by means of Machine Learning ( http://arxiv.org/abs/2101.11924v1 ) ライセンス: Link先を確認 | B.S. Gonz\'alez, R. Concei\c{c}\~ao, M. Pimenta, B. Tom\'e, A. Guill\'en | (参考訳) 本稿では,水量と4PMTを低減した水量チェレンコフ検出器におけるミューオンの同定問題に対処するいくつかの手法を提案する。
情報表現の異なる視点を使用し、特定のドメイン知識を使って新しい機能を設計する。
結果が示すように、これらの新機能は畳み込み層と組み合わせて、オーバーフィッティングを回避する優れたパフォーマンスを達成でき、テストセットに対して適切に一般化することができる。
また,最先端の機械学習解析手法と低水深の水チェレンコフ検出器を組み合わせることでミューオンの効率的な識別が可能であり,高水位で必要とされる水量の削減による巨額の投資削減につながる可能性がある。
この成果は、ミューオンを判別剤として、ガンマとハドロンによるシャワーを区別するために、さらなる研究で使用できる。 This paper presents several approaches to deal with the problem of identifying muons in a water Cherenkov detector with a reduced water volume and 4 PMTs. Different perspectives of information representation are used and new features are engineered using the specific domain knowledge. As results show, these new features, in combination with the convolutional layers, are able to achieve a good performance avoiding overfitting and being able to generalise properly for the test set. The results also prove that the combination of state-of-the-art Machine Learning analysis techniques and water Cherenkov detectors with low water depth can be used to efficiently identify muons, which may lead to huge investment savings due to the reduction of the amount of water needed at high altitudes. This achievement can be used in further research to be able to discriminate between gamma and hadron induced showers using muons as discriminant. | 翻訳日:2023-04-13 11:48:26 公開日:2021-01-28 |
# 重力光学における分数schr\"odinger方程式 Fractional Schr\"odinger equation in gravitational optics ( http://arxiv.org/abs/2101.11920v1 ) ライセンス: Link先を確認 | Alexander Iomin | (参考訳) 本稿では,不均質非線形媒質中の光伝播に関する分数量子力学の概念に関する問題,特に重力光学と呼ばれるものに制限される問題について述べる。
Schr\"odinger Newton 方程式以外にも、平面空間および曲線空間およびフラクタルフォトニクスにおける非線形および非線形エアリービーム加速度についても関心があり、これは分数ラプラシアンの影響について論じられている。
重力光学の実装のもう一つの重要な特徴は同軸近似による幾何学であり、量子力学、特に分数量子力学が光学効果の効果的な記述である。
この場合、分数時間微分もこの幾何学効果を反射する。 This paper addresses issues surrounding the concept of fractional quantum mechanics, related to lights propagation in inhomogeneous nonlinear media, specifically restricted to a so called gravitational optics. Besides Schr\"odinger Newton equation, we have also concerned with linear and nonlinear Airy beam accelerations in flat and curved spaces and fractal photonics, related to nonlinear Schr\"odinger equation, where impact of the fractional Laplacian is discussed. Another important feature of the gravitational optics' implementation is its geometry with the paraxial approximation, when quantum mechanics, in particular, fractional quantum mechanics, is an effective description of optical effects. In this case, fractional-time differentiation reflexes this geometry effect as well. | 翻訳日:2023-04-13 11:48:10 公開日:2021-01-28 |
# 無許可ブロックチェーンの逆挙動を示す悪意アカウントの検出 Detecting Malicious Accounts showing Adversarial Behavior in Permissionless Blockchains ( http://arxiv.org/abs/2101.11915v1 ) ライセンス: Link先を確認 | Rachit Agarwal, Tanmay Thapliyal, Sandeep K. Shukla | (参考訳) さまざまな種類の悪意のあるアクティビティが、bitcoinやEthereumなど、複数のパーミッションレスブロックチェーンにフラグ付けされている。
一部の悪意あるアクティビティはブロックチェーンのインフラストラクチャの脆弱性を悪用するが、一部はソーシャルエンジニアリング技術を通じてユーザをターゲットにしている。
これらの問題に対処するため、他の参加者のアカウントを悪用したブロックチェーンアカウントを自動的にフラグ付けすることを目指している。
そのために、利用可能なデータセットにおける特定の悪意のあるアクティビティの過剰表現によって引き起こされるバイアスに抵抗する堅牢な教師付き機械学習(ML)アルゴリズムを特定し、敵の攻撃に対して堅牢である。
Ethereumのブロックチェーンエコシステムでは、これまで報告された悪意あるアクティビティのほとんどは、統計的に類似している。
さらに、悪意のあるアカウントを識別するmlアルゴリズムは、過剰に表示された特定の悪意のあるアクティビティに対するバイアスを示す。
続編では、ニューラルネットワーク(NN)が、特定の敵攻撃に対して堅牢であると同時に、そのようなバイアスを誘発するデータセットに対して、最善を尽くしていることを確認している。 Different types of malicious activities have been flagged in multiple permissionless blockchains such as bitcoin, Ethereum etc. While some malicious activities exploit vulnerabilities in the infrastructure of the blockchain, some target its users through social engineering techniques. To address these problems, we aim at automatically flagging blockchain accounts that originate such malicious exploitation of accounts of other participants. To that end, we identify a robust supervised machine learning (ML) algorithm that is resistant to any bias induced by an over representation of certain malicious activity in the available dataset, as well as is robust against adversarial attacks. We find that most of the malicious activities reported thus far, for example, in Ethereum blockchain ecosystem, behaves statistically similar. Further, the previously used ML algorithms for identifying malicious accounts show bias towards a particular malicious activity which is over-represented. In the sequel, we identify that Neural Networks (NN) holds up the best in the face of such bias inducing dataset at the same time being robust against certain adversarial attacks. | 翻訳日:2023-04-13 11:47:43 公開日:2021-01-28 |
# 有効複素数値ベクトルポテンシャルを持つアハロノフ・ボーム効果 Aharonov-Bohm effect with an effective complex-valued vector potential ( http://arxiv.org/abs/2101.11914v1 ) ライセンス: Link先を確認 | Ismael L. Paiva, Yakir Aharonov, Jeff Tollaksen, Mordecai Waegell | (参考訳) 量子電荷と磁場の量子化源との相互作用は、アハロノフ・ボームのシナリオで考慮される。
粒子が周囲を囲む間、ソースが比較的不確実性が小さい場合、効果的な磁気ベクトルポテンシャルが発生し、ジョイントシステムの最終的な状態はテンソル積に近いことが示されている。
さらに、ソースのポスト選択を考慮すれば、有効ベクトルポテンシャルは一般に複素値である。
これは、開量子系におけるベリー位相と平行な磁場が完全に閉じられる前に、アハロノフ・ボームのシナリオにおいて新たな予測をもたらす。
また、古典システムの研究に関係のある複素ベクトルポテンシャルを創出する対応原理に関する新たな知見について論じる。 The interaction between a quantum charge and a quantized source of a magnetic field is considered in the Aharonov-Bohm scenario. It is shown that, if the source has a relatively small uncertainty while the particle encircles it, an effective magnetic vector potential arises and the final state of the joint system is approximately a tensor product. Furthermore, if a post-selection of the source is considered, the effective vector potential is, in general, complex-valued. This leads to a new prediction in the Aharonov-Bohm scenario before the magnetic field is fully enclosed that has a parallel with Berry phases in open quantum systems. Also, new insights into the correspondence principle, which makes complex vector potentials relevant in the study of classical systems, are discussed. | 翻訳日:2023-04-13 11:47:24 公開日:2021-01-28 |
# 形状意味GANによる脳活動からの知覚画像再構成 Reconstructing Perceptive Images from Brain Activity by Shape-Semantic GAN ( http://arxiv.org/abs/2101.12083v1 ) ライセンス: Link先を確認 | Tao Fang, Yu Qi and Gang Pan | (参考訳) fMRI記録からの画像の再構成は神経科学の吸収研究領域であり、潜在的な脳読取技術を提供する。
脳の視覚的エンコーディングは非常に複雑で、完全には明らかになっていない。
視覚機能は皮質で階層的に表されるという理論に触発されて、複雑な視覚信号を多レベルコンポーネントに分解し、各コンポーネントを別々にデコードすることを提案する。
具体的には,下大脳皮質と上大脳皮質から形状と意味表現をデコードし,生成的対向ネットワーク(Shape-Semantic GAN)により画像に形状と意味情報をマージする。
この「分割と征服」戦略は視覚情報をより正確に捉える。
実験により,形状セマンティックGANは再現の類似性と画質を向上し,最先端の画像再構成性能を実現する。 Reconstructing seeing images from fMRI recordings is an absorbing research area in neuroscience and provides a potential brain-reading technology. The challenge lies in that visual encoding in brain is highly complex and not fully revealed. Inspired by the theory that visual features are hierarchically represented in cortex, we propose to break the complex visual signals into multi-level components and decode each component separately. Specifically, we decode shape and semantic representations from the lower and higher visual cortex respectively, and merge the shape and semantic information to images by a generative adversarial network (Shape-Semantic GAN). This 'divide and conquer' strategy captures visual information more accurately. Experiments demonstrate that Shape-Semantic GAN improves the reconstruction similarity and image quality, and achieves the state-of-the-art image reconstruction performance. | 翻訳日:2023-04-13 11:40:15 公開日:2021-01-28 |
# 固体スピンによる環境条件下での標準量子限界の破れ Beating the Standard Quantum Limit under Ambient Conditions with Solid-State Spins ( http://arxiv.org/abs/2101.12048v1 ) ライセンス: Link先を確認 | Tianyu Xie, Zhiyuan Zhao, Xi Kong, Wenchao Ma, Mengqi Wang, Xiangyu Ye, Pei Yu, Zhiping Yang, Shaoyi Xu, Pengfei Wang, Ya Wang, Fazhan Shi, and Jiangfeng Du | (参考訳) 精密測定は科学のあらゆる分野において重要な役割を果たす。
量子計測における絡み合ったセンサの使用は、標準量子限界(sql)からハイゼンベルク限界(hl)までの精度の限界を改善する。
現在、ほとんどの実験は、極端な条件下で十分に分離されたセンサー上でSQLを叩く。
しかし、純粋な量子状態と絡み合った状態の準備と生存に固有の複雑さのため、周囲の条件下で固体スピン系では実現されていない。
ここでは, ダイヤモンド中の窒素空孔(NV)欠陥をハイブリッドマルチスピンシステムを用いてSQLに打ち勝つ全干渉計シーケンスを示す。
干渉計のシーケンスは決定論的およびジョイント初期化から始まり、複数のスピンの絡み合いと絡み合いを経て、射影的測定に終わる。
特に、NV陰状態、NV電子スピン、および2つの核スピンの決定論的および共同初期化は、初めて室温で実現される。
最適制御により、フォールトトレラント量子計算のしきい値よりも高い精度で非局所ゲートを実装する。
これらの手法を組み合わせることで、SQLを超える位相感度1.79 \pm 0.06 dBと3スピン2.77 \pm 0.10 dBの2スピン干渉を実現する。
さらに、実験不完全性によって引き起こされるhlからの偏差は、完全に説明可能である。
ここで用いられる技術は量子センシングと計算において基本的な重要性があり、他の固体スピン系にも自然に適用できる。 Precision measurement plays a crucial role in all fields of science. The use of entangled sensors in quantum metrology improves the precision limit from the standard quantum limit (SQL) to the Heisenberg limit (HL). To date, most experiments beating the SQL are performed on the sensors which are well isolated under extreme conditions. However, it has not been realized in solid-state spin systems at ambient conditions, owing to its intrinsic complexity for the preparation and survival of pure and entangled quantum states. Here we show a full interferometer sequence beating the SQL by employing a hybrid multi-spin system, namely the nitrogen-vacancy (NV) defect in diamond. The interferometer sequence starts from a deterministic and joint initialization, undergoes entanglement and disentanglement of multiple spins, and ends up with projective measurement. In particular, the deterministic and joint initialization of NV negative state, NV electron spin, and two nuclear spins is realized at room temperature for the first time. By means of optimal control, non-local gates are implemented with an estimated fidelity above the threshold for fault-tolerant quantum computation. With these techniques combined, we achieve two-spin interference with a phase sensitivity of 1.79 \pm 0.06 dB beyond the SQL and three-spin 2.77 \pm 0.10 dB. Moreover, the deviations from the HL induced by experimental imperfections are completely accountable. The techniques used here are of fundamental importance for quantum sensing and computing, and naturally applicable to other solid-state spin systems. | 翻訳日:2023-04-13 11:39:12 公開日:2021-01-28 |
# BENDR:大量の脳波データから学ぶためのトランスフォーマーと対照的な自己教師型学習タスク BENDR: using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data ( http://arxiv.org/abs/2101.12037v1 ) ライセンス: Link先を確認 | Demetres Kostas, Stephane Aroca-Ouellette, Frank Rudzicz | (参考訳) 脳-コンピュータ-インタフェース(BCI)分類に使用されるディープニューラルネットワーク(DNN)は、様々なコンテキストでトレーニングされたときに一般的な特徴を学習することが一般的に期待されている。
このようなアプローチではいくつかの成功例があるが、この解釈は限定的であり、新たな(パブリックに)利用可能な大規模なEEGデータセットを活用する方がよいと提案する。
我々は,膨大な量のデータを取り込むことができると思われる言語モデリング(lm)に使用される手法やアーキテクチャを,同一静脈にdnnを組み込んだ脳幹モデリング(em)の開発に適応させる方法について検討する。
同様に(LMに対して)自己教師付き学習目標を用いて生データ信号の圧縮表現を学習する自動音声認識の手法を効果的に適用する。
脳波に適応すると、1つの事前学習されたモデルが、異なるハードウェアで記録された全く新しい生の脳波シーケンスをモデル化し、異なるタスクを実行する。
さらに、このモデルの内部表現とアーキテクチャ全体の表現は、様々な下流のBCIおよびEEG分類タスクに微調整することができ、よりタスク固有の(スリープステージ分類)自己監督において、以前の作業よりも優れています。 Deep neural networks (DNNs) used for brain-computer-interface (BCI) classification are commonly expected to learn general features when trained across a variety of contexts, such that these features could be fine-tuned to specific contexts. While some success is found in such an approach, we suggest that this interpretation is limited and an alternative would better leverage the newly (publicly) available massive EEG datasets. We consider how to adapt techniques and architectures used for language modelling (LM), that appear capable of ingesting awesome amounts of data, towards the development of encephalography modelling (EM) with DNNs in the same vein. We specifically adapt an approach effectively used for automatic speech recognition, which similarly (to LMs) uses a self-supervised training objective to learn compressed representations of raw data signals. After adaptation to EEG, we find that a single pre-trained model is capable of modelling completely novel raw EEG sequences recorded with differing hardware, and different subjects performing different tasks. Furthermore, both the internal representations of this model and the entire architecture can be fine-tuned to a variety of downstream BCI and EEG classification tasks, outperforming prior work in more task-specific (sleep stage classification) self-supervision. | 翻訳日:2023-04-13 11:38:49 公開日:2021-01-28 |
# クラウドリソース管理のための機械学習 -- 概要 Machine learning for cloud resources management -- An overview ( http://arxiv.org/abs/2101.11984v1 ) ライセンス: Link先を確認 | V.N. Tsakalidou, P. Mitsou, G.A. Papakostas | (参考訳) 現在、重要なトピックとして、機械学習(ml)をクラウドリソース管理に統合する方法が挙げられている。
本研究の目的は,MLと組み合わされたクラウドリソース管理の最も重要な課題と,多くの有望な成果を提示することである。
これを実現するために、我々は重要と思われるいくつかのキーワードに基づいて時系列チャートを使用し、疑問に答えようとした: MLはクラウドのリソース管理問題に適しているか?
さらに、利用可能なデータとそれに関するオープンな課題について、短い議論が行われます。
各種のクラウドリソース管理分野で使用されるML技術と,それぞれの分野に最適なMLモデルとの合理的な比較を行うために,大規模な研究コレクションが使用されている。
1 Nowadays, an important topic that is considered a lot is how to integrate Machine Learning(ML) to cloud resources management. In this study, our goal is to explore the most important cloud resources management issues that have been combined with ML and which present many promising results. To accomplish this, we used chronological charts based on some keywords that we considered important and tried to answer the question: is ML suitable for resources management problems in the cloud? Furthermore, a short discussion takes place on the data that are available and the open challenges on it. A big collection of researches is used to make sensible comparisons between the ML techniques that are used in the different kinds of cloud resources management fields and we propose the most suitable ML model for each field. 1 | 翻訳日:2023-04-13 11:38:00 公開日:2021-01-28 |
# PSpan:ペトリネットの周波数サブネットのマイニング PSpan:Mining Frequent Subnets of Petri Nets ( http://arxiv.org/abs/2101.11972v1 ) ライセンス: Link先を確認 | Ruqian Lu and Shuhan Zhang | (参考訳) 本稿では,ペトリネットの集合から頻繁な完全サブネットをマイニングするアルゴリズムpspanを初めて提案する。
我々は完全部分ネットの概念とネットグラフ表現を導入した。
PSpanはペトリネットをネットグラフに変換し、サブネットグラフマイニングを行い、その結果を頻繁なサブネットに変換する。
PSpanはパターン成長アプローチに従い、グラフマイニングにおけるgSpanと同様の複雑さを持つ。
PSpanの信頼性と複雑さを確認する実験が行われた。
c/eネットの他に、他のペトリネットのサブクラスにも適用される。 This paper proposes for the first time an algorithm PSpan for mining frequent complete subnets from a set of Petri nets. We introduced the concept of complete subnets and the net graph representation. PSpan transforms Petri nets in net graphs and performs sub-net graph mining on them, then transforms the results back to frequent subnets. PSpan follows the pattern growth approach and has similar complexity like gSpan in graph mining. Experiments have been done to confirm PSpan's reliability and complexity. Besides C/E nets, it applies also to a set of other Petri net subclasses. | 翻訳日:2023-04-13 11:37:49 公開日:2021-01-28 |
# 強化学習に基づくMIMOシステムのためのアンテナごとの離散電力制御 Reinforcement Learning based Per-antenna Discrete Power Control for Massive MIMO Systems ( http://arxiv.org/abs/2101.12154v1 ) ライセンス: Link先を確認 | Navneet Garg, Mathini Sellathurai and Tharmalingam Ratnarajah | (参考訳) 電力消費は大規模mimo(multiple input multi output)システムの主要な問題の一つであり、長期運用コストの増加と過熱の原因となっている。
本稿では,マルチユーザシステムの長期的エネルギー効率を最大化するために,与えられた有限個の電力レベルによる電力割り当てを検討するとともに,チャネル情報に依存するsinrs(signal-to-interference-plus-noise ratio)の観点から,エンドユーザのqos制約を満たす。
チャネル状態がマルコフ過程として変化すると仮定すると、制約問題は矛盾しない問題としてモデル化され、q-learningアルゴリズムに基づく電力割当が行われる。
シミュレーションの結果は、SINR閾値を達成しつつ、消費電力の最小化に成功したことを示す。 Power consumption is one of the major issues in massive MIMO (multiple input multiple output) systems, causing increased long-term operational cost and overheating issues. In this paper, we consider per-antenna power allocation with a given finite set of power levels towards maximizing the long-term energy efficiency of the multi-user systems, while satisfying the QoS (quality of service) constraints at the end users in terms of required SINRs (signal-to-interference-plus-noise ratio), which depends on channel information. Assuming channel states to vary as a Markov process, the constraint problem is modeled as an unconstraint problem, followed by the power allocation based on Q-learning algorithm. Simulation results are presented to demonstrate the successful minimization of power consumption while achieving the SINR threshold at users. | 翻訳日:2023-04-13 11:31:10 公開日:2021-01-28 |
# 量子メソロジーを用いた重力場のニュートン後パラメータの古典的推定 Outperforming classical estimation of Post-Newtonian parameters of Earth's gravitational field using quantum metrology ( http://arxiv.org/abs/2101.12126v1 ) ライセンス: Link先を確認 | Marco Rivera-Tapia and Marcel I. Y\'a\~nez Reyes and A. Delgado and G. Rubilar | (参考訳) 香港・ウー・マンデル効果(HOM)は、2つの粒子が異なる重力ポテンシャルを経験し、後にビームスプリッターを用いて再結合する修正マッハ・ツェンダーの光子に対して分析される。
HOM効果は、セットアップのアーム間の相対論的時間拡張に直接依存していることが判明した。
この時間的拡張は、パラメータ化されたポストニュートン形式論の$\gamma$と$\beta$パラメータを推定するのに使うことができる。
パラメータ $\gamma$ と $\beta$ の不確実性は、使用される量子状態に応じて、$ 10^{-8}-10^{-12}$ の順序である。 The Hong-Ou-Mandel (HOM) effect is analyzed for photons in a modified Mach-Zehnder setup with two particles experiencing different gravitational potentials, which are later recombined using a beam-splitter. It is found that the HOM effect depends directly on the relativistic time dilation between the arms of the setup. This temporal dilation can be used to estimate the $\gamma$ and $\beta$ parameters of the parameterized post-Newtonian formalism. The uncertainty in the parameters $\gamma$ and $\beta$ are of the order $ 10^{-8}-10^{-12}$, depending on the quantum state employed. | 翻訳日:2023-04-13 11:30:28 公開日:2021-01-28 |
# Convex と Min-Max 最適化における勾配最小化のためのポテンシャル関数ベースフレームワーク Potential Function-based Framework for Making the Gradients Small in Convex and Min-Max Optimization ( http://arxiv.org/abs/2101.12101v1 ) ライセンス: Link先を確認 | Jelena Diakonikolas and Puqian Wang | (参考訳) 勾配を小さくすることは、一階最適化において統一的かつ単純な収束論証を導いた基本的な最適化問題であり、これまでは最適性ギャップの減少など他の収束基準に留意されていた。
本研究では,スムーズな凸最適化および凸凹最小値最適化における勾配を小さくするための標準手法の収束について検討する。
我々のフレームワークは直感的であり、勾配基準の削減と最適性ギャップの特定の概念のトレードオフによって駆動されるように勾配を小さくするアルゴリズムを見るためのレンズを提供する。
下界側では、凸構成に対する得られた収束結果の厳密性について議論し、min-max構成におけるメソッドの最適性について議論できるコヒーレンシブ作用素のノルムを最小化する新しい下界を提供する。 Making the gradients small is a fundamental optimization problem that has eluded unifying and simple convergence arguments in first-order optimization, so far primarily reserved for other convergence criteria, such as reducing the optimality gap. We introduce a novel potential function-based framework to study the convergence of standard methods for making the gradients small in smooth convex optimization and convex-concave min-max optimization. Our framework is intuitive and it provides a lens for viewing algorithms that make the gradients small as being driven by a trade-off between reducing either the gradient norm or a certain notion of an optimality gap. On the lower bounds side, we discuss tightness of the obtained convergence results for the convex setup and provide a new lower bound for minimizing norm of cocoercive operators that allows us to argue about optimality of methods in the min-max setup. | 翻訳日:2023-04-13 11:29:54 公開日:2021-01-28 |
# 大規模MIMOネットワークにおける深層学習に基づくパワーアロケーションの逆攻撃 Adversarial Attacks on Deep Learning Based Power Allocation in a Massive MIMO Network ( http://arxiv.org/abs/2101.12090v1 ) ライセンス: Link先を確認 | B. R. Manoj, Meysam Sadeghi, Erik G. Larsson | (参考訳) 無線通信システムにおける多くのアプリケーションのための新しいツールとして,ディープラーニング(DL)が普及している。
しかし、多くの分類タスク(例えば、変調分類)において、DLベースの無線システムは敵の例に影響を受けやすいことが示されている。
本稿では,これを回帰問題に拡張し,mamimo(multi-input-multiple-output)ネットワークのダウンリンクにおけるdlベースの電力割当を敵の攻撃が破ることを示す。
具体的には,ファスト勾配符号法 (FGSM) やモーメント反復FGSM, 投射勾配降下対逆攻撃を,maMIMOシステムにおける電力配分の文脈で拡張する。
我々はこれらの攻撃のパフォーマンスをベンチマークし、NNの入力に小さな摂動がある場合、ホワイトボックス攻撃は最大86%まで実現不可能な解決策をもたらすことを示した。
さらに,ブラックボックス攻撃の性能について検討する。
この研究で実施された評価はすべて、公開可能なオープンデータセットとNNモデルに基づいている。 Deep learning (DL) is becoming popular as a new tool for many applications in wireless communication systems. However, for many classification tasks (e.g., modulation classification) it has been shown that DL-based wireless systems are susceptible to adversarial examples; adversarial examples are well-crafted malicious inputs to the neural network (NN) with the objective to cause erroneous outputs. In this paper, we extend this to regression problems and show that adversarial attacks can break DL-based power allocation in the downlink of a massive multiple-input-multiple-output (maMIMO) network. Specifically, we extend the fast gradient sign method (FGSM), momentum iterative FGSM, and projected gradient descent adversarial attacks in the context of power allocation in a maMIMO system. We benchmark the performance of these attacks and show that with a small perturbation in the input of the NN, the white-box attacks can result in infeasible solutions up to 86%. Furthermore, we investigate the performance of black-box attacks. All the evaluations conducted in this work are based on an open dataset and NN models, which are publicly available. | 翻訳日:2023-04-13 11:29:14 公開日:2021-01-28 |
# Eye: CS2のプログラムビジュアライザ Eye: Program Visualizer for CS2 ( http://arxiv.org/abs/2101.12089v1 ) ライセンス: Link先を確認 | Aman Bansal, Preey Shah, and Sahil Shah | (参考訳) 近年、プログラミングは標準ライブラリをブラックボックスとして使うようになった。
しかし、一般的なプログラムでそのようなライブラリの動作を実証するのに役立つツールの同時開発は存在せず、学習結果の改善とデバッグの効率化に障害をもたらしている。
我々は,プログラムの実行を可視化する対話型教育ツールeyeを紹介する。
一般的な環境でのデータ構造の性質と利用を示し、学習、論理的デバッグ、コードの理解を支援する。
eyeは実行時、実行スタックとデータ構造の状態を含む各ステージの包括的な概要を提供する。
モジュール実装は、他の言語への拡張と、必要に応じてグラフィックの変更を可能にする。
EyeはCS2の学生がオンラインプログラミングのWebサイトで利用できる無数のプログラムをより容易に理解し、プログラミングの自己学習の障壁を低くするゲートウェイを開く。
標準的なアルゴリズムから一般的なケースまで、データ構造を視覚化する範囲を広げ、教師とデバッグで問題に直面するプログラマの両方にメリットをもたらします。
行毎の解釈により、Eyeは現在の状態だけでなく実行を記述できる。
また、新しいコードをデバッグし、理解するためのEyeの有効性を評価する実験も行います。
このツールを使えば、特定の問題をデバッグするのに、より速く、よりフラストレーションを減らし、新しいコードを理解することをより快適な体験にします。 In recent years, programming has witnessed a shift towards using standard libraries as a black box. However, there has not been a synchronous development of tools that can help demonstrate the working of such libraries in general programs, which poses an impediment to improved learning outcomes and makes debugging exasperating. We introduce Eye, an interactive pedagogical tool that visualizes a program's execution as it runs. It demonstrates properties and usage of data structures in a general environment, thereby helping in learning, logical debugging, and code comprehension. Eye provides a comprehensive overview at each stage during run time including the execution stack and the state of data structures. The modular implementation allows for extension to other languages and modification of the graphics as desired. Eye opens up a gateway for CS2 students to more easily understand myriads of programs that are available on online programming websites, lowering the barrier towards self-learning of coding. It expands the scope of visualizing data structures from standard algorithms to general cases, benefiting both teachers as well as programmers who face issues in debugging. Line by line interpreting allows Eye to describe the execution and not only the current state. We also conduct experiments to evaluate the efficacy of Eye for debugging and comprehending a new piece of code. Our findings show that it becomes faster and less frustrating to debug certain problems using this tool, and also makes understanding new code a much more pleasant experience. | 翻訳日:2023-04-13 11:28:55 公開日:2021-01-28 |
# 非特異的シンドロミックサーベイランスの再検討 Revisiting Non-Specific Syndromic Surveillance ( http://arxiv.org/abs/2101.12246v1 ) ライセンス: Link先を確認 | Moritz Kulessa, Eneldo Loza Menc\'ia, Johannes F\"urnkranz | (参考訳) 感染性疾患の監視は、大流行の予防に非常に重要である。
syndromic surveillanceは、特定の疾患の発生を捉えるデータソースを監視することで、可能な限り早期にアウトブレイクを検出できるアルゴリズムの開発を目指している。
近年の研究は主に特定の既知の疾患の監視に焦点を合わせ、監視下の疾患パターンの定義に焦点をあてている。
これまでは、非特異的シンドローム監視(non-specific syndromic surveillance、非特異的シンドローム監視)と呼ばれるもの、すなわち、事前に未知の感染症を含むあらゆる種類のアウトブレイクを検出するために利用可能なデータの使用に、ほとんど努力が払われていなかった。
本研究では,非特異なシンドロミック監視のためのアプローチを再検討し,より精巧な機械学習手法のベンチマークとして機能する,単純な統計モデリング手法を提案する。
確立された合成データと合成アウトブレイクを注入した実データに関する実験的比較により、これらのベンチマークは、既に非常に競争力のある結果を達成しており、しばしばより精巧なアルゴリズムよりも優れています。 Infectious disease surveillance is of great importance for the prevention of major outbreaks. Syndromic surveillance aims at developing algorithms which can detect outbreaks as early as possible by monitoring data sources which allow to capture the occurrences of a certain disease. Recent research mainly focuses on the surveillance of specific, known diseases, putting the focus on the definition of the disease pattern under surveillance. Until now, only little effort has been devoted to what we call non-specific syndromic surveillance, i.e., the use of all available data for detecting any kind of outbreaks, including infectious diseases which are unknown beforehand. In this work, we revisit published approaches for non-specific syndromic surveillance and present a set of simple statistical modeling techniques which can serve as benchmarks for more elaborate machine learning approaches. Our experimental comparison on established synthetic data and real data in which we injected synthetic outbreaks shows that these benchmarks already achieve very competitive results and often outperform more elaborate algorithms. | 翻訳日:2023-04-13 11:22:28 公開日:2021-01-28 |
# ディファレンシャルプライバシがコミュニケーション制約下での連合学習を満たす Differential Privacy Meets Federated Learning under Communication Constraints ( http://arxiv.org/abs/2101.12240v1 ) ライセンス: Link先を確認 | Nima Mohammadi, Jianan Bai, Qiang Fan, Yifei Song, Yang Yi, Lingjia Liu | (参考訳) 連合学習システムの性能は、通信コストと訓練分散によってボトルネックとなる。
通信オーバーヘッド問題は通常、トレーニング分散の増大を犠牲にして、モデル圧縮、部分的デバイス参加、定期集約という3つの通信還元技術によって対処される。
従来の分散学習システムとは異なり、フェデレーション学習はデータ不均一性(デバイスがおそらく異なる分布からデータをサンプリングするため)に悩まされ、トレーニング中にデバイス間でさらなるばらつきを引き起こす。
様々な分散再現型トレーニングアルゴリズムがデータ不均一性に対処するために導入され、通常は必要な制御情報を提供するために追加の通信リソースがかかる。
さらに、データプライバシは依然としてflの重大な問題であり、ユーティリティ要件とプライバシ要件の仲介者として、このフレームワークに差分プライバシを導入する試みがある。
本稿では,資源制約型フェデレーションシステムにおける通信コストと訓練のばらつきのトレードオフを理論的・実験的に検討し,通信の低減技術がどのように相互作用するかについて述べる。
その結果,実践的なプライバシを意識したフェデレーション学習システムの設計に関する重要な知見が得られた。 The performance of federated learning systems is bottlenecked by communication costs and training variance. The communication overhead problem is usually addressed by three communication-reduction techniques, namely, model compression, partial device participation, and periodic aggregation, at the cost of increased training variance. Different from traditional distributed learning systems, federated learning suffers from data heterogeneity (since the devices sample their data from possibly different distributions), which induces additional variance among devices during training. Various variance-reduced training algorithms have been introduced to combat the effects of data heterogeneity, while they usually cost additional communication resources to deliver necessary control information. Additionally, data privacy remains a critical issue in FL, and thus there have been attempts at bringing Differential Privacy to this framework as a mediator between utility and privacy requirements. This paper investigates the trade-offs between communication costs and training variance under a resource-constrained federated system theoretically and experimentally, and how communication reduction techniques interplay in a differentially private setting. The results provide important insights into designing practical privacy-aware federated learning systems. | 翻訳日:2023-04-13 11:22:11 公開日:2021-01-28 |
# 量子ネットワークにおけるスケーラブルな認証と最適フラッディング Scalable authentication and optimal flooding in a quantum network ( http://arxiv.org/abs/2101.12225v1 ) ライセンス: Link先を確認 | Naomi R. Solomons, Alasdair I. Fletcher, Djeylan Aktas, Natarajan Venkatachalam, S\"oren Wengerowsky, Martin Lon\v{c}ari\'c, Sebastian P. Neumann, Bo Liu, \v{Z}eljko Samec, Mario Stip\v{c}evi\'c, Rupert Ursin, Stefano Pirandola, John G. Rarity, Siddarth Koduru Joshi | (参考訳) 量子ネットワークに対する世界的な関心は、物理学の法則によって保証されるセキュリティに由来する。
量子ネットワークの展開は、物理ハードウェアのスケールアップという課題に直面し、さらに重要なのは、他のすべてのネットワークレイヤのスケールアップと、ネットワークリソースの最適活用だ。
ここでは2つの関連プロトコルについて検討し,8ユーザ量子ネットワークテストベッド上での実験実験を行い,その有用性について事例を用いて考察する。
まず、量子通信の基本的な制限を管理するための認証転送プロトコル -- 量子ネットワーク上でリンクされた各2つのユーザ間の事前共有キーの必要性。
いくつかの中間ノードを短時間(我々のネットワークでは35分)一時的に信頼することで、これらの初期認証キーを非常に高いレベルのセキュリティで生成および配布することができる。
第二に、エンドユーザが中間ノードに対する信頼度を定量化する場合、我々のフラッディングプロトコルは、エンドツーエンドの通信速度を改善し、悪意のあるノードに対するセキュリティを高めるために使用できます。 The global interest in quantum networks stems from the security guaranteed by the laws of physics. Deploying quantum networks means facing the challenges of scaling up the physical hardware and, more importantly, of scaling up all other network layers and optimally utilising network resources. Here we consider two related protocols, their experimental demonstrations on an 8-user quantum network test-bed, and discuss their usefulness with the aid of example use cases. First, an authentication transfer protocol to manage a fundamental limitation of quantum communication -- the need for a pre-shared key between every pair of users linked together on the quantum network. By temporarily trusting some intermediary nodes for a short period of time (<35 min in our network), we can generate and distribute these initial authentication keys with a very high level of security. Second, when end users quantify their trust in intermediary nodes, our flooding protocol can be used to improve both end-to-end communication speeds and increase security against malicious nodes. | 翻訳日:2023-04-13 11:21:06 公開日:2021-01-28 |
# Peptipedia: 集合予測モデルとデータマイニングアプローチがサポートするペプチド研究のための総合データベース Peptipedia: a comprehensive database for peptide research supported by Assembled predictive models and Data Mining approaches ( http://arxiv.org/abs/2101.12210v1 ) ライセンス: Link先を確認 | Cristofer Quiroz, Yasna Barrera Saavedra, Benjam\'in Armijo-Galdames, Juan Amado-Hinojosa, \'Alvaro Olivera-Nappa, Anamaria Sanchez-Daza, and David Medina-Ortiz | (参考訳) モチベーション: ペプチドは、その優れた治療的性質から、今世紀において注目を集めてきた。
既存の情報を活用するために計算ツールが開発されており、知識をカプセル化し、一般向けに簡単に利用できるようにしている。
しかしながら、これらはプロパティ固有の冗長データシステムであり、通常は明確な方法でデータを表示しない。
場合によっては、情報のダウンロードすら不可能である。
このデータは、ドラッグデザインやその他のバイオテクノロジーの応用のために、簡単な形で利用できる必要がある。
結果: Peptipediaは,ペプチド配列を検索,解析,解析するためのユーザフレンドリーなデータベースおよびWebアプリケーションである。
これまでに報告された30のデータベースから情報を統合し,これまでに記録された活動を持つペプチドのリポジトリとしては最大である。
さらに、ツールのユーザビリティを高めるために、さまざまなサービスを実装しました。
我々のツールと既存の他の代替品との大きな違いは、ペプチドのバイオテクノロジーおよびバイオエンジニアリング応用の開発に大きく貢献する。
可用性: Peptipediaはオープンアクセスソフトウェアとして非商用で利用可能であり、GNU General Public License、GPL 3.0でライセンスされている。
WebプラットフォームはPesb2.cl/peptipediaで公開されている。
ソースコードとサンプルデータセットは、GitHubリポジトリ https://github.com/CristoferQ/PeptideDatabaseで入手できる。
コンタクト: david.medina@cebib.cl, ana.sanchez@ing.uchile.cl Motivation: Peptides have attracted the attention in this century due to their remarkable therapeutic properties. Computational tools are being developed to take advantage of existing information, encapsulating knowledge and making it available in a simple way for general public use. However, these are property-specific redundant data systems, and usually do not display the data in a clear way. In some cases, information download is not even possible. This data needs to be available in a simple form for drug design and other biotechnological applications. Results: We developed Peptipedia, a user-friendly database and web application to search, characterise and analyse peptide sequences. Our tool integrates the information from thirty previously reported databases, making it the largest repository of peptides with recorded activities so far. Besides, we implemented a variety of services to increase our tool's usability. The significant differences of our tools with other existing alternatives becomes a substantial contribution to develop biotechnological and bioengineering applications for peptides. Availability: Peptipedia is available for non-commercial use as an open-access software, licensed under the GNU General Public License, version GPL 3.0. The web platform is publicly available at pesb2.cl/peptipedia. Both the source code and sample datasets are available in the GitHub repository https://github.com/CristoferQ/PeptideDatabase. Contact: david.medina@cebib.cl, ana.sanchez@ing.uchile.cl | 翻訳日:2023-04-13 11:20:02 公開日:2021-01-28 |
# CML-COVID: トピック、センチメント、位置情報を備えた大規模COVID-19 Twitterデータセット CML-COVID: A Large-Scale COVID-19 Twitter Dataset with Latent Topics, Sentiment and Location Information ( http://arxiv.org/abs/2101.12202v1 ) ライセンス: Link先を確認 | Hassan Dashtian, Dhiraj Murthy | (参考訳) プラットフォームとしてTwitterは、新型コロナウイルス(COVID-19)パンデミックに関する議論のための重要な公共空間となっている。
Twitterのような公共ソーシャルメディアプラットフォームは、パンデミックに関する重要なエンゲージメントの場所であり、これらのデータは研究チームによって社会、健康、その他の研究に利用することができる。
新型コロナウイルスに関する世論とソーシャルメディアにおける情報拡散の理解は、政府や研究機関にとって重要である。
Twitterはユビキタスな公共プラットフォームであり、COVID-19に関連する大衆の認識、行動、態度を理解するのに非常に便利だ。
本研究では,5,977,653人の独特な個人による19,298,967万ツイートのcml-covid(cml-covid)と,それらの属性を要約した。
これらのツイートは、2020年3月から7月にかけて、新型コロナウイルスに関連する質問文、コビッド、マスクを使って収集された。
トピックモデリング、感情分析、記述統計を用いて、私たちが収集した新型コロナウイルスに関連するツイートと、利用可能なツイートの地理的位置を記述します。
ツイートデータセット(twarcを使って構築された)へのアクセス方法に関する情報を提供する。 As a platform, Twitter has been a significant public space for discussion related to the COVID-19 pandemic. Public social media platforms such as Twitter represent important sites of engagement regarding the pandemic and these data can be used by research teams for social, health, and other research. Understanding public opinion about COVID-19 and how information diffuses in social media is important for governments and research institutions. Twitter is a ubiquitous public platform and, as such, has tremendous utility for understanding public perceptions, behavior, and attitudes related to COVID-19. In this research, we present CML-COVID, a COVID-19 Twitter data set of 19,298,967 million tweets from 5,977,653 unique individuals and summarize some of the attributes of these data. These tweets were collected between March 2020 and July 2020 using the query terms coronavirus, covid and mask related to COVID-19. We use topic modeling, sentiment analysis, and descriptive statistics to describe the tweets related to COVID-19 we collected and the geographical location of tweets, where available. We provide information on how to access our tweet dataset (archived using twarc). | 翻訳日:2023-04-13 11:19:40 公開日:2021-01-28 |
# oracleのポリシー蒸留による注文実行のためのユニバーサル取引 Universal Trading for Order Execution with Oracle Policy Distillation ( http://arxiv.org/abs/2103.10860v1 ) ライセンス: Link先を確認 | Yuchen Fang, Kan Ren, Weiqing Liu, Dong Zhou, Weinan Zhang, Jiang Bian, Yong Yu, Tie-Yan Liu | (参考訳) アルゴリズム取引における基本的な問題として、注文実行は、特定の商品の清算または取得という特定の取引順序を満たすことを目的としている。
近年、効果的な実行戦略に向けて、モデルに基づく市場仮定による分析的視点からモデルなし視点、すなわち強化学習への転換を、シーケンシャルな決定最適化の性質から見てきた。
しかし、この政策で活用できる不完全な市場情報は、効率的な注文実行を実現するための効率的な強化学習手法のサンプルを構築することを非常に困難にしている。
本稿では,うるさいが不完全な市場状態と注文実行の最適なアクションシーケンスとのギャップを埋めるための,新たなユニバーサル取引政策最適化フレームワークを提案する。
特に、このフレームワークはポリシー蒸留法を活用し、最適な取引戦略を近似する完璧な情報を持つオラクルの教師による事実上の最適な実行に向けて、共通のポリシーの学習を導くことができる。
大規模な実験により, 様々な強塩基性に対して, 合理的な取引行動により, 提案手法の大幅な改善が示された。 As a fundamental problem in algorithmic trading, order execution aims at fulfilling a specific trading order, either liquidation or acquirement, for a given instrument. Towards effective execution strategy, recent years have witnessed the shift from the analytical view with model-based market assumptions to model-free perspective, i.e., reinforcement learning, due to its nature of sequential decision optimization. However, the noisy and yet imperfect market information that can be leveraged by the policy has made it quite challenging to build up sample efficient reinforcement learning methods to achieve effective order execution. In this paper, we propose a novel universal trading policy optimization framework to bridge the gap between the noisy yet imperfect market states and the optimal action sequences for order execution. Particularly, this framework leverages a policy distillation method that can better guide the learning of the common policy towards practically optimal execution by an oracle teacher with perfect information to approximate the optimal trading strategy. The extensive experiments have shown significant improvements of our method over various strong baselines, with reasonable trading actions. | 翻訳日:2023-04-13 11:13:10 公開日:2021-01-28 |
# 機械学習による計算流体力学の高速化 Machine learning accelerated computational fluid dynamics ( http://arxiv.org/abs/2102.01010v1 ) ライセンス: Link先を確認 | Dmitrii Kochkov, Jamie A. Smith, Ayya Alieva, Qing Wang, Michael P. Brenner, Stephan Hoyer | (参考訳) 流体の数値シミュレーションは、気象、気候、空力学、プラズマ物理学など多くの物理現象のモデル化において重要な役割を果たす。
流体はナヴィエ・ストークス方程式によってよく説明されるが、これらの方程式を大規模に解くことは、最小の時空間的特徴を解く計算コストによって制限される。
これは正確性と扱いやすさの間の不利なトレードオフにつながる。
ここでは,2次元乱流のモデリングにエンド・ツー・エンドのディープラーニングを用いて計算流体力学の近似を改良する。
乱流の直接数値シミュレーションと大規模渦シミュレーションでは,各空間次元の8~10倍の分解能を持つベースラインソルバと同じ精度で計算速度が40~80倍に向上した。
提案手法は, 長期シミュレーションにおいて安定であり, ブラックボックス機械学習のアプローチとは対照的に, トレーニングフロー外の強制関数やレイノルズ数に一般化する。
提案手法は,機械学習とハードウェアアクセラレータを応用して,精度や一般化を犠牲にすることなくシミュレーションを改善する方法を示す。 Numerical simulation of fluids plays an essential role in modeling many physical phenomena, such as weather, climate, aerodynamics and plasma physics. Fluids are well described by the Navier-Stokes equations, but solving these equations at scale remains daunting, limited by the computational cost of resolving the smallest spatiotemporal features. This leads to unfavorable trade-offs between accuracy and tractability. Here we use end-to-end deep learning to improve approximations inside computational fluid dynamics for modeling two-dimensional turbulent flows. For both direct numerical simulation of turbulence and large eddy simulation, our results are as accurate as baseline solvers with 8-10x finer resolution in each spatial dimension, resulting in 40-80x fold computational speedups. Our method remains stable during long simulations, and generalizes to forcing functions and Reynolds numbers outside of the flows where it is trained, in contrast to black box machine learning approaches. Our approach exemplifies how scientific computing can leverage machine learning and hardware accelerators to improve simulations without sacrificing accuracy or generalization. | 翻訳日:2023-04-13 11:12:35 公開日:2021-01-28 |
# 光格子中のビアルカリ分子の多重回転状態に対するマジック条件 Magic Conditions for Multiple Rotational States of Bialkali Molecules in Optical Lattices ( http://arxiv.org/abs/2101.12291v1 ) ライセンス: Link先を確認 | Q. Guan, S. L. Cornish, and S. Kotochigova | (参考訳) 本研究では,x$^1\sigma^+$ポテンシャルの振動基底状態からb$^3\pi_0$ポテンシャルの低次振動状態への弱光遷移近傍における超低温ビアルカリ分子のマジック波長トラップについて検討し,b=181\,$gの磁場中における$^{87}$rb$^{133}$cs分子について考察する。
複数の回転状態のトラッピングポテンシャルが同時に"near magic"となるダイナミックポーラライザビリティにおいて、近接する2つの振動極の間に周波数窓が存在することを示す。
e=0.13\,\text{kv}/\text{cm}$ の控えめな直流電界を加えると、x$^1\sigma^+ (v=0, j=0)\rightarrow$ b$^3\pi_0 (v'=0, j=1)$ から2\pi\times 218.22$\,ghz の角周波数デチューニングで最低3つの回転状態の正確なマジック・波長トラップが得られる。
このような魔法の周波数窓の存在を保証するために満たさなければならない一連の分析基準を導出し、実験的に測定可能なパラメータの集合の観点で周波数窓の位置の解析式を提示する。
これらの結果は、極低温分子の多重回転遷移に長いコヒーレンス時間を必要とする将来の実験に役立てる。 We investigate magic-wavelength trapping of ultracold bialkali molecules in the vicinity of weak optical transitions from the vibrational ground state of the X$^1\Sigma^+$ potential to low-lying rovibrational states of the b$^3\Pi_0$ potential, focussing our discussion on the $^{87}$Rb$^{133}$Cs molecule in a magnetic field of $B=181\,$G. We show that a frequency window exists between two nearest neighbor vibrational poles in the dynamic polarizability where the trapping potential is "near magic" for multiple rotational states simultaneously. We show that the addition of a modest DC electric field of $E=0.13\,\text{kV}/\text{cm}$ leads to an exact magic-wavelength trap for the lowest three rotational states at a angular-frequency detuning of $\Delta_{v'=0} = 2\pi\times 218.22$\,GHz from the X$^1\Sigma^+ (v=0, J=0)\rightarrow$ b$^3\Pi_0 (v'=0, J=1)$ transition. We derive a set of analytical criteria that must be fulfilled to ensure the existence of such magic frequency windows and present an analytic expression for the position of the frequency window in terms of a set of experimentally measurable parameters. These results should inform future experiments requiring long coherence times on multiple rotational transitions in ultracold polar molecules. | 翻訳日:2023-04-13 11:11:15 公開日:2021-01-28 |
# ガウス過程潜在クラス選択モデル Gaussian Process Latent Class Choice Models ( http://arxiv.org/abs/2101.12252v1 ) ライセンス: Link先を確認 | Georges Sfeir, Filipe Rodrigues, Maya Abou-Zeid | (参考訳) 本稿では,非パラメトリックな確率的機械学習のクラスを個別選択モデル(DCM)に組み込むために,ガウス過程-潜在クラス選択モデル(GP-LCCM)を提案する。
ガウス過程(英: Gaussian Processs、GP)は、パラメータよりも先行関数よりも先行関数を仮定することで、専門家の知識を取り入れたカーネルベースのアルゴリズムである。
LCCM構造にガウス過程を統合することにより、観測されていない不均一性の離散表現を改善することを目指す。
提案モデルでは,GPを用いた行動均質クラスタ(遅延クラス)に確率的に個人を割り当て,ランダムなユーティリティモデルによるクラス固有の選択モデルを同時に推定する。
さらに,ラプラス近似と勾配に基づく数値最適化法に依拠して,gpカーネル関数のハイパーパラメータとクラス固有選択パラメータを同時推定する期待最大化(em)アルゴリズムを導出し,実装する。
モデルは2つの異なるモード選択アプリケーションでテストされ、異なるLCCMベンチマークと比較される。
その結果,GP-LCCMは不均一性のより複雑で柔軟な表現を可能にし,サンプル内適合性とサンプル外予測力の両方を改善した。
さらに,gpsの非パラメトリックな特性はモデルの透明性を低下させるが,潜在クラスの局所的な解釈は依然として達成できるものの,行動的および経済的解釈性はクラス固有の選択モデルレベルで維持される。 We present a Gaussian Process - Latent Class Choice Model (GP-LCCM) to integrate a non-parametric class of probabilistic machine learning within discrete choice models (DCMs). Gaussian Processes (GPs) are kernel-based algorithms that incorporate expert knowledge by assuming priors over latent functions rather than priors over parameters, which makes them more flexible in addressing nonlinear problems. By integrating a Gaussian Process within a LCCM structure, we aim at improving discrete representations of unobserved heterogeneity. The proposed model would assign individuals probabilistically to behaviorally homogeneous clusters (latent classes) using GPs and simultaneously estimate class-specific choice models by relying on random utility models. Furthermore, we derive and implement an Expectation-Maximization (EM) algorithm to jointly estimate/infer the hyperparameters of the GP kernel function and the class-specific choice parameters by relying on a Laplace approximation and gradient-based numerical optimization methods, respectively. The model is tested on two different mode choice applications and compared against different LCCM benchmarks. Results show that GP-LCCM allows for a more complex and flexible representation of heterogeneity and improves both in-sample fit and out-of-sample predictive power. Moreover, behavioral and economic interpretability is maintained at the class-specific choice model level while local interpretation of the latent classes can still be achieved, although the non-parametric characteristic of GPs lessens the transparency of the model. | 翻訳日:2023-04-13 11:10:12 公開日:2021-01-28 |
# 相関量子論と相関制約 Correlational quantum theory and correlation constraints ( http://arxiv.org/abs/2001.03142v2 ) ライセンス: Link先を確認 | Ding Jia | (参考訳) 相関弁証法は、有限次元情報/演算量子論、無限次元相対論的量子論、量子重力を統一的に扱うために量子理論言語内で導入される。
理論は相関型と重みを規定する相関図によって記述される。
類似の相関図をグループ化することで一般化されたファインマン図形が導かれ、特に量子場理論から見慣れたファインマン図形に還元される。
相関形式は相関制約の研究に応用され、一般的な量子過程の以前の特徴を回避した新しい量子過程のクラスを明らかにする。
この結果は、時間非対称理論、時間対称理論、事前定義された時間を持たない理論、不定因果構造を持つ理論など、様々な種類の量子理論に適用できる。 A correlational dialect is introduced within the quantum theory language to give a unified treatment of finite-dimensional informational/operational quantum theories, infinite-dimensional relativistic quantum theories, and quantum gravity. Theories are written in terms of correlation diagrams which specify correlation types and weights. Grouping similar correlation diagrams leads to generalized Feynman diagrams, which in special cases reduce to the familiar Feynman diagrams from quantum field theories. The correlational formalism is applied in a study of correlation constraints, revealing new classes of quantum processes that evade previous characterizations of general quantum processes. The results apply to quantum theories of various kinds, including time-asymmetric theories, time-symmetric theories, theories without predefined time, and theories with indefinite causal structures. | 翻訳日:2023-01-13 05:42:06 公開日:2021-01-28 |
# ビデオとテキストペア識別による時空間特徴の学習 Learning Spatiotemporal Features via Video and Text Pair Discrimination ( http://arxiv.org/abs/2001.05691v3 ) ライセンス: Link先を確認 | Tianhao Li, Limin Wang | (参考訳) 現在のビデオ表現は、手動で注釈付けされたビデオデータセットからの学習に大きく依存している。
ビデオには、YouTubeのタイトルやInstagramのキャプションなどの豊富なテキスト情報が添付されている。
本稿では,この視覚的・テクスチャ的接続を利用して,効率的な弱教師付き手法で時空間的特徴を学習する。
本稿では,ビデオとその関連テキスト間の相関を捉えるために,cpd(general cross-modal pair discrimination)フレームワークを提案する。
具体的には,大量のペアインスタンスクラスによって課される計算問題に対処し,実用的なカリキュラム学習戦略を設計するために,ノイズコントラスト推定を採用する。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(Instagram-300k)でCDDモデルをトレーニングし、その効果を実証する。
さらに微調整を行わずに、学習者は線形分類プロトコルの下での運動分類の競合結果を得る。
さらに,我々の視覚モデルは,既存の最先端の自己教師型訓練手法と比較して,UCF101とHMDB51の動作認識において顕著な性能向上をもたらす,下流タスクの微調整に有効な初期化を提供する。
さらに,本モデルでは,学習した視覚テキストの埋め込みを直接利用することにより,UCF101上でのゼロショット動作認識の新たな状態が得られる。
コードはhttps://github.com/MCG-NJU/CPD-Videoで公開される。 Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video. | 翻訳日:2023-01-11 00:22:18 公開日:2021-01-28 |
# AutoFCL: 小さなデータセットを扱うための完全な接続層を自動的に調整する AutoFCL: Automatically Tuning Fully Connected Layers for Handling Small Dataset ( http://arxiv.org/abs/2001.11951v4 ) ライセンス: Link先を確認 | S.H.Shabbeer Basha, Sravan Kumar Vinakota, Shiv Ram Dubey, Viswanath Pulabaigari, Snehasis Mukherjee | (参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、入力画像から直接問題固有の特徴を学習する能力により、過去数年間、画像分類のための一般的な機械学習モデルとして進化してきた。
ディープラーニングモデルの成功は、機能を手動で設計するよりも、アーキテクチャエンジニアリングに寄与する。
しかしながら、与えられたタスクに対して最先端のCNNを設計することは、特にトレーニングデータのサイズが小さくなると、簡単で困難なタスクである。
この現象に対処するために、転写学習は広く採用されている技術である。
あるタスクから別のタスクに学習知識を転送する一方で、ターゲットに依存した完全接続(fc)層による微調整は、一般的にターゲットタスクよりも優れた結果を生み出す。
本稿では,ベイズ最適化を用いてCNNのFC層構造を自動学習するAutoFCLモデルを提案する。
提案するAutoFCLの性能評価には,VGG-16,ResNet,DenseNet,MobileNet,NASNetMobileの5つの事前学習CNNモデルを利用する。
実験は、CalTech-101、Oxford-102 Flowers、UC Merced Land Useデータセットの3つのベンチマークデータセットで実施された。
本研究で実施した実験によれば、新たに学習した(ターゲットに依存しない)fc層の微調整は最先端のパフォーマンスをもたらす。
提案手法はそれぞれ94.38%と98.89%の精度でcaltech-101とoxford-102の花データセットよりも優れている。
しかし、本手法は、96.83%の精度でUC Merced Land Useデータセットで同等の性能を達成する。
この研究のソースコードはhttps://github.com/shabbeersh/autofcl.comで入手できる。 Deep Convolutional Neural Networks (CNN) have evolved as popular machine learning models for image classification during the past few years, due to their ability to learn the problem-specific features directly from the input images. The success of deep learning models solicits architecture engineering rather than hand-engineering the features. However, designing state-of-the-art CNN for a given task remains a non-trivial and challenging task, especially when training data size is less. To address this phenomena, transfer learning has been used as a popularly adopted technique. While transferring the learned knowledge from one task to another, fine-tuning with the target-dependent Fully Connected (FC) layers generally produces better results over the target task. In this paper, the proposed AutoFCL model attempts to learn the structure of FC layers of a CNN automatically using Bayesian optimization. To evaluate the performance of the proposed AutoFCL, we utilize five pre-trained CNN models such as VGG-16, ResNet, DenseNet, MobileNet, and NASNetMobile. The experiments are conducted on three benchmark datasets, namely CalTech-101, Oxford-102 Flowers, and UC Merced Land Use datasets. Fine-tuning the newly learned (target-dependent) FC layers leads to state-of-the-art performance, according to the experiments carried out in this research. The proposed AutoFCL method outperforms the existing methods over CalTech-101 and Oxford-102 Flowers datasets by achieving the accuracy of 94.38% and 98.89%, respectively. However, our method achieves comparable performance on the UC Merced Land Use dataset with 96.83% accuracy. The source codes of this research are available at https://github.com/shabbeersh/AutoFCL. | 翻訳日:2023-01-07 18:31:25 公開日:2021-01-28 |
# ネットワークレベル最適化のための薄型アンテナアレイの機械学習支援設計 Machine Learning-aided Design of Thinned Antenna Arrays for Optimized Network Level Performance ( http://arxiv.org/abs/2001.09335v2 ) ライセンス: Link先を確認 | Mattia Lecci, Paolo Testolina, Mattia Rebato, Alberto Testolin, Michele Zorzi | (参考訳) ミリ波通信(mmWave)の出現に伴い,複雑なセルシナリオの現実的な性能を解析するために,詳細な5Gネットワークシミュレータと正確なアンテナ放射モデルを組み合わせる必要がある。
しかし、電磁モデルとネットワークモデルの両方の複雑さのため、アンテナアレイの設計と最適化は一般に必要となる計算資源とシミュレーション時間のために不可能である。
本稿では,アンテナ設計のシミュレーションに基づく最適化を実現する機械学習フレームワークを提案する。
本稿では,学習手法が複雑なシミュレータをモデストデータセットでエミュレートし,膨大な多次元パラメータ空間をある程度の時間で大域的に数値的に最適化できることを示す。
以上の結果から,提案手法をアンテナアレイの最適化に有効に適用できることが示唆された。 With the advent of millimeter wave (mmWave) communications, the combination of a detailed 5G network simulator with an accurate antenna radiation model is required to analyze the realistic performance of complex cellular scenarios. However, due to the complexity of both electromagnetic and network models, the design and optimization of antenna arrays is generally infeasible due to the required computational resources and simulation time. In this paper, we propose a Machine Learning framework that enables a simulation-based optimization of the antenna design. We show how learning methods are able to emulate a complex simulator with a modest dataset obtained from it, enabling a global numerical optimization over a vast multi-dimensional parameter space in a reasonable amount of time. Overall, our results show that the proposed methodology can be successfully applied to the optimization of thinned antenna arrays. | 翻訳日:2023-01-07 00:24:52 公開日:2021-01-28 |
# 高精度マイズショット分類のための特徴ベクトルのグラフベース補間 Graph-based Interpolation of Feature Vectors for Accurate Few-Shot Classification ( http://arxiv.org/abs/2001.09849v4 ) ライセンス: Link先を確認 | Yuqing Hu, Vincent Gripon, St\'ephane Pateux | (参考訳) 少数の分類では、少数のラベル付き例だけでクラスを識別できるモデルを学ぶことが目的である。
この文脈では、グラフニューラルネットワーク(gnns)の導入が提案されており、同時に処理された他のサンプルに含まれる情報を活用することを目的としている。
これらのGNNはバックボーンの特徴抽出器と共に訓練される。
本稿では,特徴ベクトルを補間するグラフのみに依存する新しい手法を提案する。
提案手法は2つのレベルの情報を利用する。
a) 汎用データセット上で得られる転送機能
b) 分類対象とする他の試料から得られた導入情報
標準的な数ショットの視覚分類データセットを用いて、他の研究と比べて大きな利得をもたらす能力を示す。 In few-shot classification, the aim is to learn models able to discriminate classes using only a small number of labeled examples. In this context, works have proposed to introduce Graph Neural Networks (GNNs) aiming at exploiting the information contained in other samples treated concurrently, what is commonly referred to as the transductive setting in the literature. These GNNs are trained all together with a backbone feature extractor. In this paper, we propose a new method that relies on graphs only to interpolate feature vectors instead, resulting in a transductive learning setting with no additional parameters to train. Our proposed method thus exploits two levels of information: a) transfer features obtained on generic datasets, b) transductive information obtained from other samples to be classified. Using standard few-shot vision classification datasets, we demonstrate its ability to bring significant gains compared to other works. | 翻訳日:2023-01-06 07:39:55 公開日:2021-01-28 |
# 深部ニューラルネットワークの混合学習の校正について On Calibration of Mixup Training for Deep Neural Networks ( http://arxiv.org/abs/2003.09946v4 ) ライセンス: Link先を確認 | Juan Maro\~nas and Daniel Ramos and Roberto Paredes | (参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのタスクにおける最先端技術である。
しかし、その過度パラメータ化のため、それらの一般化能力は疑わしく、まだ研究中の分野である。
その結果、dnnは、信頼できないデータに割り当てられた信頼感のキャリブレーションに影響を与えることが示されているような、自信過剰な予測を過度に適合させ、割り当てることができる。
データ拡張(DA)戦略はこれらのモデルを標準化するために提案されており、Mixupは精度、不確かさの定量化、DNNの校正などにより最も人気がある。
しかし、本研究では、Mixupが必ずしも校正を改善していないという実証的な証拠を論じ、提示する。
我々は,このda手法を用いて訓練したdnnのキャリブレーションと精度を向上させる新たな損失関数を提案する。
我々の損失はベイズ決定理論に触発され、確率的モデリングの損失を設計するための新しいトレーニングフレームワークが導入された。
キャリブレーション性能を一貫して改善し,最先端の精度を提供する。
付録とコードはここで提供される。 https://github.com/jmaronas/calibration_mixupdnn_arcloss.pytorch.git Deep Neural Networks (DNN) represent the state of the art in many tasks. However, due to their overparameterization, their generalization capabilities are in doubt and still a field under study. Consequently, DNN can overfit and assign overconfident predictions -- effects that have been shown to affect the calibration of the confidences assigned to unseen data. Data Augmentation (DA) strategies have been proposed to regularize these models, being Mixup one of the most popular due to its ability to improve the accuracy, the uncertainty quantification and the calibration of DNN. In this work however we argue and provide empirical evidence that, due to its fundamentals, Mixup does not necessarily improve calibration. Based on our observations we propose a new loss function that improves the calibration, and also sometimes the accuracy, of DNN trained with this DA technique. Our loss is inspired by Bayes decision theory and introduces a new training framework for designing losses for probabilistic modelling. We provide state-of-the-art accuracy with consistent improvements in calibration performance. Appendix and code are provided here: https://github.com/jmaronas/calibration_MixupDNN_ARCLoss.pytorch.git | 翻訳日:2022-12-21 05:15:15 公開日:2021-01-28 |
# ファッションがコンピュータービジョンと出会う:調査 Fashion Meets Computer Vision: A Survey ( http://arxiv.org/abs/2003.13988v2 ) ライセンス: Link先を確認 | Wen-Huang Cheng, Sijie Song, Chieh-Yun Chen, Shintami Chusnul Hidayati, and Jiaying Liu | (参考訳) ファッションは私たちが世界に提示する方法であり、世界最大級の産業のひとつになっています。
主に視覚によって伝えられるファッションは、近年コンピュータビジョン研究者から多くの注目を集めている。
Given the rapid development, this paper provides a comprehensive survey of more than 200 major fashion-related works covering four main aspects for enabling intelligent fashion: (1) Fashion detection includes landmark detection, fashion parsing, and item retrieval, (2) Fashion analysis contains attribute recognition, style learning, and popularity prediction, (3) Fashion synthesis involves style transfer, pose transformation, and physical simulation, and (4) Fashion recommendation comprises fashion compatibility, outfit matching, and hairstyle suggestion.
各タスクについて、ベンチマークデータセットと評価プロトコルを要約する。
さらに,今後の研究に期待できる方向性を強調した。 Fashion is the way we present ourselves to the world and has become one of the world's largest industries. Fashion, mainly conveyed by vision, has thus attracted much attention from computer vision researchers in recent years. Given the rapid development, this paper provides a comprehensive survey of more than 200 major fashion-related works covering four main aspects for enabling intelligent fashion: (1) Fashion detection includes landmark detection, fashion parsing, and item retrieval, (2) Fashion analysis contains attribute recognition, style learning, and popularity prediction, (3) Fashion synthesis involves style transfer, pose transformation, and physical simulation, and (4) Fashion recommendation comprises fashion compatibility, outfit matching, and hairstyle suggestion. For each task, the benchmark datasets and the evaluation protocols are summarized. Furthermore, we highlight promising directions for future research. | 翻訳日:2022-12-18 01:15:27 公開日:2021-01-28 |
# NBDT: ニューラルネットワークによる決定木 NBDT: Neural-Backed Decision Trees ( http://arxiv.org/abs/2004.00221v3 ) ライセンス: Link先を確認 | Alvin Wan, Lisa Dunlap, Daniel Ho, Jihan Yin, Scott Lee, Henry Jin, Suzanne Petryk, Sarah Adel Bargal, Joseph E. Gonzalez | (参考訳) ファイナンスや医療などの機械学習アプリケーションは正確で正当化可能な予測を必要とし、最も深い学習方法の使用を禁止している。
これに対し,従来の研究は決定木を深層学習と組み合わせ,(1)正確性に対する解釈性を犠牲にするモデル,あるいは(2)正確性に対する解釈性を犠牲にするモデルを生み出した。
このジレンマをニューラルネットワークによる決定木(nbdts)を用いた精度と解釈性の向上により解消する。
NBDTはニューラルネットワークの最終線形層を、決定の異なる順序と代理損失で置き換える。
精度: NBDT は CIFAR や ImageNet 上で近代的なニューラルネットワークにマッチまたは性能を向上し、未確認のクラスに最大 16% まで一般化する。
さらに、サロゲート損失は、元のモデルの精度を最大2%向上させる。
NBDTはまた、(2)解釈可能性: モデルのミスを明確に識別し、データセットのデバッグを支援する人間の信頼を改善する。
コードと事前訓練されたNBDTはhttps://github.com/alvinwan/neural-backed-decision-treesにある。 Machine learning applications such as finance and medicine demand accurate and justifiable predictions, barring most deep learning methods from use. In response, previous work combines decision trees with deep learning, yielding models that (1) sacrifice interpretability for accuracy or (2) sacrifice accuracy for interpretability. We forgo this dilemma by jointly improving accuracy and interpretability using Neural-Backed Decision Trees (NBDTs). NBDTs replace a neural network's final linear layer with a differentiable sequence of decisions and a surrogate loss. This forces the model to learn high-level concepts and lessens reliance on highly-uncertain decisions, yielding (1) accuracy: NBDTs match or outperform modern neural networks on CIFAR, ImageNet and better generalize to unseen classes by up to 16%. Furthermore, our surrogate loss improves the original model's accuracy by up to 2%. NBDTs also afford (2) interpretability: improving human trustby clearly identifying model mistakes and assisting in dataset debugging. Code and pretrained NBDTs are at https://github.com/alvinwan/neural-backed-decision-trees. | 翻訳日:2022-12-17 17:43:57 公開日:2021-01-28 |
# 圧縮センシングにおける$\ell_1$および$\ell_2$ノルム比の解析 Analysis of The Ratio of $\ell_1$ and $\ell_2$ Norms in Compressed Sensing ( http://arxiv.org/abs/2004.05873v2 ) ライセンス: Link先を確認 | Yiming Xu, Akil Narayan, Hoang Tran and Clayton G. Webster | (参考訳) まず,$s$-sparse信号が$\ell_1/\ell_2$目的の局所最小値であることを保証する新しい基準を提案する。
また, 測定行列の零空間の幾何学的特徴を用いた最初の均一回復条件を与え, ランダム行列のクラスに対して, この条件が容易に満たされることを示す。
また,ノイズがデータを汚染する場合のロバスト性について解析する。
圧縮センシングにおいて、$\ell_1/\ell_2$と他の一般的な非凸法を比較する数値実験が提供される。
最後に,数値最適化手法を高速化する新しい初期化手法を提案する。
この初期化手法をemph{ Support selection}と呼び、既存の$\ell_1/\ell_2$アルゴリズムの性能を実証的に改善することを示した。 We first propose a novel criterion that guarantees that an $s$-sparse signal is the local minimizer of the $\ell_1/\ell_2$ objective; our criterion is interpretable and useful in practice. We also give the first uniform recovery condition using a geometric characterization of the null space of the measurement matrix, and show that this condition is easily satisfied for a class of random matrices. We also present analysis on the robustness of the procedure when noise pollutes data. Numerical experiments are provided that compare $\ell_1/\ell_2$ with some other popular non-convex methods in compressed sensing. Finally, we propose a novel initialization approach to accelerate the numerical optimization procedure. We call this initialization approach \emph{support selection}, and we demonstrate that it empirically improves the performance of existing $\ell_1/\ell_2$ algorithms. | 翻訳日:2022-12-14 00:38:07 公開日:2021-01-28 |
# 高階論理用ヒンティッカ集合の還元について On Reductions of Hintikka Sets for Higher-Order Logic ( http://arxiv.org/abs/2004.07506v3 ) ライセンス: Link先を確認 | Alexander Steen and Christoph Benzm\"uller | (参考訳) Steen's (2018) Hintikka set properties for Church's type theory based on primitive equality is reduce to the Hintikka set properties of Brown (2007)。
この還元を用いて、Steenの特性のモデル存在定理が導出される。 Steen's (2018) Hintikka set properties for Church's type theory based on primitive equality are reduced to the Hintikka set properties of Brown (2007). Using this reduction, a model existence theorem for Steen's properties is derived. | 翻訳日:2022-12-12 22:13:53 公開日:2021-01-28 |
# 並列貯留層計算実現装置としてのファブリペロレーザー Fabry-Perot Lasers as Enablers for Parallel Reservoir Computing ( http://arxiv.org/abs/2005.14261v2 ) ライセンス: Link先を確認 | Adonis Bogris, Charis Mesaritakis, Stavros Deligiannidis, Pu Li | (参考訳) 本稿では,Fabry-Perot(FP)レーザーを並列処理機能を有するニューロモルフィックコンピューティングマシンとして活用する。
マスタfpレーザとスレーブfpレーザーとの光注入をフィードバックとして使用することにより、縦モード粒度で処理パワーをスケールアップし、25gbaud強度変調直接検出光通信システムにおいて信号等化のリアルタイム処理を行う可能性を実証する。
本稿では,ノード数の増加に伴う分類性能の向上と,任意のデータストリームの同時処理能力を示す。
広範囲な数値シミュレーションにより、典型的なファブリペロレーザーでは最大8つの縦モードを活用でき、分類性能を向上させることができる。 We introduce the use of Fabry-Perot (FP) lasers as potential neuromorphic computing machines with parallel processing capabilities. With the use of optical injection between a master FP laser and a slave FP laser under feedback we demonstrate the potential for scaling up the processing power at longitudinal mode granularity and perform real-time processing for signal equalization in 25 Gbaud intensity modulation direct detection optical communication systems. We demonstrate the improvement of classification performance as the number of nodes increases and the capability of simultaneous processing of arbitrary data streams. Extensive numerical simulations show that up to 8 longitudinal modes in typical Fabry-Perot lasers can be leveraged so as to enhance classification performance. | 翻訳日:2022-12-07 01:12:42 公開日:2021-01-28 |
# 変圧器の文字レベル変換への応用 Applying the Transformer to Character-level Transduction ( http://arxiv.org/abs/2005.10213v2 ) ライセンス: Link先を確認 | Shijie Wu, Ryan Cotterell, Mans Hulden | (参考訳) このトランスフォーマーは、様々な単語レベルのnlpタスクにおいて、リカレントニューラルネットワークに基づくシーケンスツーシーケンスモデルを上回ることが示されている。
しかし、形態素変換生成や歴史的なテキスト正規化といった文字レベルの変換タスクでは、トランスフォーマを使用してリカレントモデルを上回るものはほとんどない。
実験の結果,再帰シーケンスからシーケンスへのモデルとは対照的に,バッチサイズが文字レベルのタスクにおけるトランスフォーマーの性能において重要な役割を担っていることが明らかとなった。
また,特徴誘導型文字レベル変換の簡単な手法を導入し,性能の向上を図る。
これらの知見を活かし,形態変化と歴史的テキストの正規化において最先端のパフォーマンスを実現する。
また、トランスフォーマは、他の2つの文字レベルのトランスダクションタスク(grapheme-to-phoneme変換とtransliteration)において、強いベースラインを上回っていることも示しています。 The transformer has been shown to outperform recurrent neural network-based sequence-to-sequence models in various word-level NLP tasks. Yet for character-level transduction tasks, e.g. morphological inflection generation and historical text normalization, there are few works that outperform recurrent models using the transformer. In an empirical study, we uncover that, in contrast to recurrent sequence-to-sequence models, the batch size plays a crucial role in the performance of the transformer on character-level tasks, and we show that with a large enough batch size, the transformer does indeed outperform recurrent models. We also introduce a simple technique to handle feature-guided character-level transduction that further improves performance. With these insights, we achieve state-of-the-art performance on morphological inflection and historical text normalization. We also show that the transformer outperforms a strong baseline on two other character-level transduction tasks: grapheme-to-phoneme conversion and transliteration. | 翻訳日:2022-12-01 05:31:44 公開日:2021-01-28 |
# 眼球運動とSLAM初期化のための視覚慣性構造の再検討 Revisiting visual-inertial structure from motion for odometry and SLAM initialization ( http://arxiv.org/abs/2006.06017v2 ) ライセンス: Link先を確認 | Georgios Evangelidis, Branislav Micusik | (参考訳) 本稿では,視覚慣性オドメトリー(VIO)と同時局所化・マッピング(SLAM)における状態初期化のための効率的な閉形式解を提案する。
最先端とは違って、三角点観測の対から線形方程式を導出しない。
その代わり、未知の3D$ポイントをそれぞれの観測値と組み合わせた直接三角測量を構築します。
このような単純な違いによる高い影響を示し、検証する。
結果として得られる線形系はより単純な構造を持ち、解析的除去による解は6\times 6$の線形系(加速度計バイアスを含むと9 \times 9$)を解く必要がある。
さらに、すべてのシーンポイントのすべての観察は共同で関連しており、バイアスが少なくより堅牢なソリューションとなる。
提案された定式化は、標準のクローズドフォームソルバと比較して最大50$%の速度低下とポイント再構成誤差を達成するが、$7のフレームセットでは$4\times$である。
本質的に効率性は別として、パラメータ初期化の改善により、さらに非線形なリファインメントで必要なイテレーションは少なくなる。
この文脈では、初期パラメータを任意に洗練する非線形最適化器に対して解析的ヤコビアンを提供する。
提案した解法の性能は,最先端解法と定量的に比較して評価する。 In this paper, an efficient closed-form solution for the state initialization in visual-inertial odometry (VIO) and simultaneous localization and mapping (SLAM) is presented. Unlike the state-of-the-art, we do not derive linear equations from triangulating pairs of point observations. Instead, we build on a direct triangulation of the unknown $3D$ point paired with each of its observations. We show and validate the high impact of such a simple difference. The resulting linear system has a simpler structure and the solution through analytic elimination only requires solving a $6\times 6$ linear system (or $9 \times 9$ when accelerometer bias is included). In addition, all the observations of every scene point are jointly related, thereby leading to a less biased and more robust solution. The proposed formulation attains up to $50$ percent decreased velocity and point reconstruction error compared to the standard closed-form solver, while it is $4\times$ faster for a $7$-frame set. Apart from the inherent efficiency, fewer iterations are needed by any further non-linear refinement thanks to better parameter initialization. In this context, we provide the analytic Jacobians for a non-linear optimizer that optionally refines the initial parameters. The superior performance of the proposed solver is established by quantitative comparisons with the state-of-the-art solver. | 翻訳日:2022-11-23 06:18:44 公開日:2021-01-28 |
# セキュアなマルチパーティ計算による個人音声分類 Private Speech Classification with Secure Multiparty Computation ( http://arxiv.org/abs/2007.00253v2 ) ライセンス: Link先を確認 | Kyle Bittner, Martine De Cock, Rafael Dowsley | (参考訳) 人間の音声信号分類のような音声信号処理における深層学習は、機械学習の豊富な応用分野である。
正当なユースケースには、音声認証、銃声検出、感情認識などがある。
自動化された人間の音声分類には明確な利点があるが、アプリケーション開発者は保護されていない音声信号処理から熟練した範囲を超えて知識を得ることができる。
本稿では,深層学習に基づく音声分類のための,最初のプライバシー保護ソリューションを提案する。
我々のアプローチはセキュアなマルチパーティ計算に基づいており、BobがAliceの音声信号を暗号化されていない方法で見ることなく、あるパーティ(Alice)の音声信号を別のパーティ(Bob)のディープニューラルネットワークで分類することができる。
脅威モデルとして、受動的セキュリティ、すなわち暗号プロトコルの指示に従う半正統なパーティと、プロトコルから逸脱する悪意のあるパーティの両方を考慮する。
畳み込みニューラルネットワークを用いた音声からのプライバシー保護感情検出のユースケースにおいて,提案手法の効率・セキュリティ・正確性トレードオフを評価する。
半正統な場合には0.3秒以下で音声信号を分類でき、悪意のある場合は$\sim$1.6秒かかる。
いずれの場合も情報の漏洩はなく,暗号化されていないデータ上で計算を行う場合と同じ分類精度を達成する。 Deep learning in audio signal processing, such as human voice audio signal classification, is a rich application area of machine learning. Legitimate use cases include voice authentication, gunfire detection, and emotion recognition. While there are clear advantages to automated human speech classification, application developers can gain knowledge beyond the professed scope from unprotected audio signal processing. In this paper we propose the first privacy-preserving solution for deep learning-based audio classification that is provably secure. Our approach, which is based on Secure Multiparty Computation, allows to classify a speech signal of one party (Alice) with a deep neural network of another party (Bob) without Bob ever seeing Alice's speech signal in an unencrypted manner. As threat models, we consider both passive security, i.e. with semi-honest parties who follow the instructions of the cryptographic protocols, as well as active security, i.e. with malicious parties who deviate from the protocols. We evaluate the efficiency-security-accuracy trade-off of the proposed solution in a use case for privacy-preserving emotion detection from speech with a convolutional neural network. In the semi-honest case we can classify a speech signal in under 0.3 sec; in the malicious case it takes $\sim$1.6 sec. In both cases there is no leakage of information, and we achieve classification accuracies that are the same as when computations are done on unencrypted data. | 翻訳日:2022-11-14 23:54:40 公開日:2021-01-28 |
# テンポラルグラフ特性を用いた無許可ブロックチェーンの悪意アカウントの検出 Detecting Malicious Accounts in Permissionless Blockchains using Temporal Graph Properties ( http://arxiv.org/abs/2007.05169v2 ) ライセンス: Link先を確認 | Rachit Agarwal, Shikhar Barve, Sandeep K. Shukla | (参考訳) 有向グラフのエッジとしてノードとトランザクションとしてアカウントをモデル化する時間的性質 -- ブロックチェーンでは、アカウントの振る舞い(悪意または良性)を理解することができます。
不正ないし良質なアカウントの予測的分類は、パーミッションレスブロックチェーンプラットフォームのユーザによるセキュアな運用を支援するものだ。
そこで本研究では,ノード次数やクラスタリング係数など,すでに使用済みのグラフプロパティの上に,バーストや魅力といった時間的特徴を導入する。
特定された特徴を用いて、さまざまな機械学習(ML)アルゴリズムを訓練し、どのアカウントが悪意があるかを検出するアルゴリズムを識別する。
次に、悪意のあるタグを割り当てる前に、データセットの異なる時間的粒度に対するアカウントの振る舞いを調べる。
ethereumブロックチェーンでは、データセット全体 - extratreesclassifierが教師付きmlアルゴリズムの中で最高のパフォーマンスを示す。
一方、データセット全体のK-Meansのような教師なしMLアルゴリズムによって提供される結果に加えて、コサイン類似性を用いて、554以上の不審なアカウントを検出することができた。
さらに,アカウントに対する行動変化分析を用いて,異なる時間的粒度にわたる814種類の不審なアカウントを同定した。 The temporal nature of modeling accounts as nodes and transactions as directed edges in a directed graph -- for a blockchain, enables us to understand the behavior (malicious or benign) of the accounts. Predictive classification of accounts as malicious or benign could help users of the permissionless blockchain platforms to operate in a secure manner. Motivated by this, we introduce temporal features such as burst and attractiveness on top of several already used graph properties such as the node degree and clustering coefficient. Using identified features, we train various Machine Learning (ML) algorithms and identify the algorithm that performs the best in detecting which accounts are malicious. We then study the behavior of the accounts over different temporal granularities of the dataset before assigning them malicious tags. For Ethereum blockchain, we identify that for the entire dataset - the ExtraTreesClassifier performs the best among supervised ML algorithms. On the other hand, using cosine similarity on top of the results provided by unsupervised ML algorithms such as K-Means on the entire dataset, we were able to detect 554 more suspicious accounts. Further, using behavior change analysis for accounts, we identify 814 unique suspicious accounts across different temporal granularities. | 翻訳日:2022-11-11 21:33:26 公開日:2021-01-28 |
# FADACS: コンテキスト認識型パーキングアベイラビリティセンシングのための対向ドメイン適応アーキテクチャ FADACS: A Few-shot Adversarial Domain Adaptation Architecture for Context-Aware Parking Availability Sensing ( http://arxiv.org/abs/2007.08551v2 ) ライセンス: Link先を確認 | Wei Shao, Sichen Zhao, Zhen Zhang, Shiyu Wang, Mohammad Saiedur Rahaman, Andy Song, Flora Dilys Salim | (参考訳) パーキング・アベイラビリティーに関する既存の研究は、主に広い文脈と歴史的情報に依存している。
実際には、感覚信号の連続収集を必要とするため、そのような情報の入手は困難である。
本研究では,駐車データが不十分な地域での駐車状況を予測するために,駐車状況検知のためのエンドツーエンドの移動学習フレームワークを設計する。
このフレームワークは2つの大きな課題を克服する。
1)多くの実世界のケースでは、既存のほとんどのデータ駆動モデルに十分なデータを提供できない。
2)都市構造や空間特性が異なるため,センサデータと異質な状況情報を融合することは困難である。
本研究は,類似した特徴を持つ他の領域のデータを活用することで,センサデータのない地域での駐車状況を予測するために,広く利用されている概念である敵領域適応を採用する。
本稿では,都市中心都市と沿岸観光町という2つの異なる都市に設置されたセンサから,3500万件以上の駐車データを利用する。
また,天気や関心点など外部資源からの異種時空間情報を利用する。
提案するフレームワークの強度を異なるケースで定量化し,既存のデータ駆動アプローチと比較する。
その結果,提案フレームワークは既存の最先端手法に匹敵するものとなり,パーキングアベイラビリティ予測に関する貴重な知見が得られた。 Existing research on parking availability sensing mainly relies on extensive contextual and historical information. In practice, the availability of such information is a challenge as it requires continuous collection of sensory signals. In this study, we design an end-to-end transfer learning framework for parking availability sensing to predict parking occupancy in areas in which the parking data is insufficient to feed into data-hungry models. This framework overcomes two main challenges: 1) many real-world cases cannot provide enough data for most existing data-driven models, and 2) it is difficult to merge sensor data and heterogeneous contextual information due to the differing urban fabric and spatial characteristics. Our work adopts a widely-used concept, adversarial domain adaptation, to predict the parking occupancy in an area without abundant sensor data by leveraging data from other areas with similar features. In this paper, we utilise more than 35 million parking data records from sensors placed in two different cities, one a city centre and the other a coastal tourist town. We also utilise heterogeneous spatio-temporal contextual information from external resources, including weather and points of interest. We quantify the strength of our proposed framework in different cases and compare it to the existing data-driven approaches. The results show that the proposed framework is comparable to existing state-of-the-art methods and also provide some valuable insights on parking availability prediction. | 翻訳日:2022-11-10 23:50:11 公開日:2021-01-28 |
# 動き速度と動き速度:音声駆動型自動ジェスチャー生成における表現と後処理の分析 Moving fast and slow: Analysis of representations and post-processing in speech-driven automatic gesture generation ( http://arxiv.org/abs/2007.09170v3 ) ライセンス: Link先を確認 | Taras Kucherenko, Dai Hasegawa, Naoshi Kaneko, Gustav Eje Henter, Hedvig Kjellstr\"om | (参考訳) 本稿では,仮想エージェントに適用可能な,音声によるジェスチャー生成のための新しいフレームワークを提案する。
具体的には,表現学習を組み込んだ音声駆動ジェスチャ生成のための,近年のディープラーニングに基づくデータ駆動手法を拡張する。
我々のモデルは音声を入力とし、3次元座標列の形式でジェスチャーを出力として生成する。
客観的評価と主観評価の両方により,ネットワークの入力(音声)と出力(動き)の異なる表現の分析を行う。
また,生成した動きの平滑化の重要性も分析した。
その結果,提案手法は客観的な尺度でベースラインに改善が見られた。
例えば、動きのダイナミクスをよりよく捉え、動き速度分布に合致させる。
さらに,2つの異なるデータセットのユーザスタディを行った。
本研究は,提案手法がベースラインよりも自然であると考えられたが,適切な後処理によって研究の相違が排除された。
自動ジェスチャー生成法の設計においては,動作表現と後処理の両方を考慮することが重要である。 This paper presents a novel framework for speech-driven gesture production, applicable to virtual agents to enhance human-computer interaction. Specifically, we extend recent deep-learning-based, data-driven methods for speech-driven gesture generation by incorporating representation learning. Our model takes speech as input and produces gestures as output, in the form of a sequence of 3D coordinates. We provide an analysis of different representations for the input (speech) and the output (motion) of the network by both objective and subjective evaluations. We also analyse the importance of smoothing of the produced motion. Our results indicated that the proposed method improved on our baseline in terms of objective measures. For example, it better captured the motion dynamics and better matched the motion-speed distribution. Moreover, we performed user studies on two different datasets. The studies confirmed that our proposed method is perceived as more natural than the baseline, although the difference in the studies was eliminated by appropriate post-processing: hip-centering and smoothing. We conclude that it is important to take both motion representation and post-processing into account when designing an automatic gesture-production method. | 翻訳日:2022-11-09 22:57:17 公開日:2021-01-28 |
# リッジ関数推定のための良性過剰フィッティング現象の有限サンプル解析 A finite sample analysis of the benign overfitting phenomenon for ridge function estimation ( http://arxiv.org/abs/2007.12882v3 ) ライセンス: Link先を確認 | Emmanuel Caron and Stephane Chretien | (参考訳) 近年、機械学習における大規模な数値実験により、サンプルサイズとモデルのパラメータ数との比の関数として、非常に直観的な位相遷移が明らかになった。
パラメータ数 $p$ がサンプルサイズ $n$ に近づくにつれて、一般化エラー(つまりテストエラー)が増加するが、多くの場合、閾値 $p=n$ を越えて再び減少し始める。
この驚くべき現象は、近ごろ cite{belkin2019reconciling} において理論的なコミュニティの注意を惹き付け、より具体的には、より単純なモデル、例えばパラメータが最小二乗問題に対する最小のノルム解であるとする線形モデル(主に、$p$ と $n$ が$+\infty$ となる漸近的な状態において)において、ディープニューラルネットワークよりもより単純なモデルに対して徹底的に研究されている。
そこで,本論文では,2重降下現象の「textit{overparametrised regime}」と「textit{prediction}」の両問題に対する「textit{overparametrised regime}」の非線形モデルの有限サンプル解析を提案する。
この結果は、真パラメータから最適推定器の距離を正確に解析し、また、近年の \cite{bartlett2020benign} と \cite{chinot2020benign} を補完する一般化境界を与える。
本分析は, 連続ニュートン法に密接に関連した, 効率的だが初等的なツールに基づく。 Recent extensive numerical experiments in high scale machine learning have allowed to uncover a quite counterintuitive phase transition, as a function of the ratio between the sample size and the number of parameters in the model. As the number of parameters $p$ approaches the sample size $n$, the generalisation error (a.k.a. testing error) increases, but in many cases, it starts decreasing again past the threshold $p=n$. This surprising phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-square problem, mostly in the asymptotic regime when $p$ and $n$ tend to $+\infty$; see e.g. \cite{hastie2019surprises}. In the present paper, we propose a finite sample analysis of non-linear models of \textit{ridge} type, where we investigate the \textit{overparametrised regime} of the double descent phenomenon for both the \textit{estimation problem} and the \textit{prediction} problem. Our results provide a precise analysis of the distance of the best estimator from the true parameter as well as a generalisation bound which complements recent works of \cite{bartlett2020benign} and \cite{chinot2020benign}. Our analysis is based on efficient but elementary tools closely related to the continuous Newton method \cite{neuberger2007continuous}. | 翻訳日:2022-11-07 00:43:44 公開日:2021-01-28 |
# Pseudoinverse Graph Convolutional Networks:Dense GraphsとHypergraphsの大規模固有ギャップのための高速フィルタ Pseudoinverse Graph Convolutional Networks: Fast Filters Tailored for Large Eigengaps of Dense Graphs and Hypergraphs ( http://arxiv.org/abs/2008.00720v2 ) ライセンス: Link先を確認 | Dominik Alfke, Martin Stoll | (参考訳) グラフ畳み込みネットワーク(gcns)は、グラフベースのデータセットの半教師付き分類に成功している。
本稿では,三部フィルタ空間が高密度グラフを対象とする新しいGCN変種を提案する。
例えば、非局所的な情報に注目する3Dポイントクラウド用のガウスグラフや、カテゴリデータに基づくハイパーグラフなどがある。
これらのグラフは、グラフラプラシアンのスペクトル特性の観点から、一般的なスパースベンチマークグラフとは異なる。
最も注目すべきは、一般的なGCNアーキテクチャでは好ましくない大きな固有ギャップである。
本手法はラプラシアンの擬逆法を用いてこれらの問題を克服する。
もう一つの重要な要素は、畳み込み行列の低ランク近似であり、計算効率と精度を同時に向上させる。
各アプリケーションで必要な固有情報をどのように効率的に計算できるかを概説し、唯一のメタパラメータである近似ランクの適切な選択について論じる。
実世界のデータセットを用いた各種実験において,ランタイムと精度に関する手法の性能を示す。 Graph Convolutional Networks (GCNs) have proven to be successful tools for semi-supervised classification on graph-based datasets. We propose a new GCN variant whose three-part filter space is targeted at dense graphs. Examples include Gaussian graphs for 3D point clouds with an increased focus on non-local information, as well as hypergraphs based on categorical data. These graphs differ from the common sparse benchmark graphs in terms of the spectral properties of their graph Laplacian. Most notably we observe large eigengaps, which are unfavorable for popular existing GCN architectures. Our method overcomes these issues by utilizing the pseudoinverse of the Laplacian. Another key ingredient is a low-rank approximation of the convolutional matrix, ensuring computational efficiency and increasing accuracy at the same time. We outline how the necessary eigeninformation can be computed efficiently in each applications and discuss the appropriate choice of the only metaparameter, the approximation rank. We finally showcase our method's performance regarding runtime and accuracy in various experiments with real-world datasets. | 翻訳日:2022-11-03 05:47:04 公開日:2021-01-28 |
# GRIT: ドキュメントレベルのイベントエンティティ抽出のための生成ロールフィラー変換器 GRIT: Generative Role-filler Transformers for Document-level Event Entity Extraction ( http://arxiv.org/abs/2008.09249v2 ) ライセンス: Link先を確認 | Xinya Du, Alexander M. Rush, Claire Cardie | (参考訳) テンプレートフィリングのための文書レベルのロールフィラーエンティティ抽出(REE)の古典的問題を再考する。
文レベルのアプローチはタスクに不適合であり、文書レベルでコンテキストをモデル化するように設計された生成トランスフォーマベースのエンコーダ-デコーダフレームワーク(grit)を導入する。
我々は,MUC-4データセットに対する我々のアプローチを評価し,我々のモデルが先行作業よりもかなり優れていることを示す。
また、コアフェレントエンティティの言及を認識するなどの言語知識を暗黙的に捉えることによって、モデリング選択がモデル性能に寄与することを示す。 We revisit the classic problem of document-level role-filler entity extraction (REE) for template filling. We argue that sentence-level approaches are ill-suited to the task and introduce a generative transformer-based encoder-decoder framework (GRIT) that is designed to model context at the document level: it can make extraction decisions across sentence boundaries; is implicitly aware of noun phrase coreference structure, and has the capacity to respect cross-role dependencies in the template structure. We evaluate our approach on the MUC-4 dataset, and show that our model performs substantially better than prior work. We also show that our modeling choices contribute to model performance, e.g., by implicitly capturing linguistic knowledge such as recognizing coreferent entity mentions. | 翻訳日:2022-10-26 21:38:44 公開日:2021-01-28 |
# ニューラルネットワーク微分方程式解法における局所誤差定量化 Local error quantification for Neural Network Differential Equation solvers ( http://arxiv.org/abs/2008.12190v3 ) ライセンス: Link先を確認 | Akshunna S. Dogra, William T Redman | (参考訳) ニューラルネットワークは複雑なシステムの研究のための強力なツールとして認識されている。
注目すべき例として、ニューラルネットワーク微分方程式(NN DE)の解法があり、様々な微分方程式の解に関数近似を与えることができる。
このような解法はロバストな関数表現を生成し、興味の量(例えば微分を取るなど)のさらなる操作に適しており、並列化と計算能力の現代的進歩を活用することができる。
しかし、その予測において正確な誤差定量化が果たす役割についての研究は乏しく、通常、損失関数のような不明瞭でグローバルな性能測定や、その予測に関連するエラーのグローバルな境界の獲得に焦点が当てられている。
正確な局所誤差定量化は、外部の手段や真の解の完全な知識がなければ不可能である。
我々は、これらの懸念を動的システムnn deソルバの文脈で解決し、nn deソルバ内の学習情報を活用して、より正確で効率的な方法を開発しながら、外部のツールやデータに依存しない教師なしのアプローチを追求する。
本手法は,NNDEの精度の高い予測誤差をポイントワイズで推定する手法により実現し,ユーザが効率よく目標となる誤り訂正を行うことができる。
非線形系とカオス系をそれぞれテストすることにより,提案手法の有用性を実証する。 Neural networks have been identified as powerful tools for the study of complex systems. A noteworthy example is the neural network differential equation (NN DE) solver, which can provide functional approximations to the solutions of a wide variety of differential equations. Such solvers produce robust functional expressions, are well suited for further manipulations on the quantities of interest (for example, taking derivatives), and capable of leveraging the modern advances in parallelization and computing power. However, there is a lack of work on the role precise error quantification can play in their predictions: usually, the focus is on ambiguous and/or global measures of performance like the loss function and/or obtaining global bounds on the errors associated with the predictions. Precise, local error quantification is seldom possible without external means or outright knowledge of the true solution. We address these concerns in the context of dynamical system NN DE solvers, leveraging learnt information within the NN DE solvers to develop methods that allow them to be more accurate and efficient, while still pursuing an unsupervised approach that does not rely on external tools or data. We achieve this via methods that can precisely estimate NN DE solver prediction errors point-wise, thus allowing the user the capacity for efficient and targeted error correction. We exemplify the utility of our methods by testing them on a nonlinear and a chaotic system each. | 翻訳日:2022-10-25 12:43:30 公開日:2021-01-28 |
# ハイブリッドPAC強化学習アルゴリズム A Hybrid PAC Reinforcement Learning Algorithm ( http://arxiv.org/abs/2009.02602v2 ) ライセンス: Link先を確認 | Ashkan Zehfroosh and Herbert G. Tanner | (参考訳) 本稿では,マルコフ決定過程(mdps)に対して,親の好適な特徴をインテリジェントに維持する,ほぼ正解(pac)強化学習(rl)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
本論文は,DDQアルゴリズムのPAC解析とサンプル複雑性の導出を含む。
新しいアルゴリズムのサンプル効率に関する主張を両親と比較し,最もよく知られたモデルフリーおよびモデルベースアルゴリズムを応用するために,数値的な結果が提供される。 This paper offers a new hybrid probably approximately correct (PAC) reinforcement learning (RL) algorithm for Markov decision processes (MDPs) that intelligently maintains favorable features of its parents. The designed algorithm, referred to as the Dyna-Delayed Q-learning (DDQ) algorithm, combines model-free and model-based learning approaches while outperforming both in most cases. The paper includes a PAC analysis of the DDQ algorithm and a derivation of its sample complexity. Numerical results are provided to support the claim regarding the new algorithm's sample efficiency compared to its parents as well as the best known model-free and model-based algorithms in application. | 翻訳日:2022-10-21 20:44:35 公開日:2021-01-28 |
# UAV対応無線ネットワークのための人工知能:調査 Artificial Intelligence for UAV-enabled Wireless Networks: A Survey ( http://arxiv.org/abs/2009.11522v2 ) ライセンス: Link先を確認 | Mohamed-Amine Lahmeri, Mustafa A.Kishk, and Mohamed-Slim Alouini | (参考訳) 無人航空機(UAV)は次世代無線通信ネットワークにおいて有望な技術であると考えられている。
彼らのモビリティとユーザとの line of sight (los) リンクを確立する能力は、多くの潜在的なアプリケーションにとって鍵となるソリューションとなった。
同じ分野では、人工知能(AI)は近年急速に成長しており、特に大量の利用可能なデータのために非常に成功している。
その結果、研究コミュニティのかなりの部分は、ドローンに関連するいくつかの問題を解決するためにAIアルゴリズムを適用して、UAVネットワークのコアでインテリジェンスを統合するようになった。
本稿では,UAVベースのネットワークにおけるAIの潜在的な応用について概観する。
また、既存の作業の限界を強調し、UAVネットワークにおけるAIの潜在的な応用について概説する。 Unmanned aerial vehicles (UAVs) are considered as one of the promising technologies for the next-generation wireless communication networks. Their mobility and their ability to establish line of sight (LOS) links with the users made them key solutions for many potential applications. In the same vein, artificial intelligence (AI) is growing rapidly nowadays and has been very successful, particularly due to the massive amount of the available data. As a result, a significant part of the research community has started to integrate intelligence at the core of UAVs networks by applying AI algorithms in solving several problems in relation to drones. In this article, we provide a comprehensive overview of some potential applications of AI in UAV-based networks. We also highlight the limits of the existing works and outline some potential future applications of AI for UAV networks. | 翻訳日:2022-10-15 05:23:41 公開日:2021-01-28 |
# 破壊ロバスト性向上のためのバッチ正規化の再検討 Revisiting Batch Normalization for Improving Corruption Robustness ( http://arxiv.org/abs/2010.03630v4 ) ライセンス: Link先を確認 | Philipp Benz, Chaoning Zhang, Adil Karjauv, In So Kweon | (参考訳) クリーンな画像でトレーニングされたDNNの性能は、テスト画像が共通の腐敗を経験すると低下することが示されている。
本研究では,腐敗のロバスト性をドメインシフトとして解釈し,モデルロバスト性を改善するためにバッチ正規化(bn)統計の修正を提案する。
これはbn統計で表されるスタイルシフトとしてクリーンドメインから汚職ドメインへのシフトを知覚することで動機付けられたものである。
モデルの再トレーニングを行わずに、いくつかの(例えば32の)表現サンプルでbn統計を推定し、適応するだけで、広範囲のモデルアーキテクチャを持ついくつかのベンチマークデータセットにおいて、腐敗の堅牢性を大きなマージンで改善できることがわかった。
例えばimagenet-cでは、統計適応によってresnet50のトップ1の精度が39.2%から48.7%に向上している。
さらに、この手法は最先端のロバストモデルをさらに58.1%から63.3%に改善できることがわかった。 The performance of DNNs trained on clean images has been shown to decrease when the test images have common corruptions. In this work, we interpret corruption robustness as a domain shift and propose to rectify batch normalization (BN) statistics for improving model robustness. This is motivated by perceiving the shift from the clean domain to the corruption domain as a style shift that is represented by the BN statistics. We find that simply estimating and adapting the BN statistics on a few (32 for instance) representation samples, without retraining the model, improves the corruption robustness by a large margin on several benchmark datasets with a wide range of model architectures. For example, on ImageNet-C, statistics adaptation improves the top1 accuracy of ResNet50 from 39.2% to 48.7%. Moreover, we find that this technique can further improve state-of-the-art robust models from 58.1% to 63.3%. | 翻訳日:2022-10-09 23:47:34 公開日:2021-01-28 |
# クラッシュ制約によるロボット学習 Robot Learning with Crash Constraints ( http://arxiv.org/abs/2010.08669v3 ) ライセンス: Link先を確認 | Alonso Marco, Dominik Baumann, Majid Khadiv, Philipp Hennig, Ludovic Righetti, Sebastian Trimpe | (参考訳) 過去10年間で、多くの機械学習アルゴリズムが、実際のロボットシステムを制御するための最適なポリシーを学習することに成功した。
しかし、学習ループが進むにつれて失敗する行動に遭遇することが一般的である。
特に、失敗が望ましくないが破滅的ではないロボットアプリケーションでは、多くのアルゴリズムが失敗から得られたデータを活用するのに苦労している。
これは通常原因である
(i)失敗実験が早期に終わること、又は
二 取得したデータが不足又は破損すること。
どちらも障害を罰する適切な報酬関数の設計を複雑にする。
本稿では,これらの問題に対処する枠組みを提案する。
我々は,障害動作を制約に違反する動作として捉え,制約違反時にデータが得られないクラッシュ制約で学習する問題に対処する。
no-dataケースは、離散事象(障害/障害)と連続観測(成功時にのみ得られる)を組み合わせた制約のための新しいGPモデル(GPCR)によって対処される。
本手法は,シミュレーションベンチマークおよび実跳躍4乗法において,制約しきい値が予め不明な場合に有効であることを示す。
実験データは、拘束されたベイズ最適化によって、実際のロボットに直接収集される。
その結果,手動チューニングとGPCRは制約閾値の推定に有用であることが判明した。 In the past decade, numerous machine learning algorithms have been shown to successfully learn optimal policies to control real robotic systems. However, it is common to encounter failing behaviors as the learning loop progresses. Specifically, in robot applications where failing is undesired but not catastrophic, many algorithms struggle with leveraging data obtained from failures. This is usually caused by (i) the failed experiment ending prematurely, or (ii) the acquired data being scarce or corrupted. Both complicate the design of proper reward functions to penalize failures. In this paper, we propose a framework that addresses those issues. We consider failing behaviors as those that violate a constraint and address the problem of learning with crash constraints, where no data is obtained upon constraint violation. The no-data case is addressed by a novel GP model (GPCR) for the constraint that combines discrete events (failure/success) with continuous observations (only obtained upon success). We demonstrate the effectiveness of our framework on simulated benchmarks and on a real jumping quadruped, where the constraint threshold is unknown a priori. Experimental data is collected, by means of constrained Bayesian optimization, directly on the real robot. Our results outperform manual tuning and GPCR proves useful on estimating the constraint threshold. | 翻訳日:2022-10-06 22:06:10 公開日:2021-01-28 |
# 中レベルの入力特徴の関連性を計算する一般的なアプローチ A general approach to compute the relevance of middle-level input features ( http://arxiv.org/abs/2010.08639v2 ) ライセンス: Link先を確認 | Andrea Apicella, Salvatore Giugliano, Francesco Isgr\`o, Roberto Prevete | (参考訳) この研究は、機械学習(ML)モデルの振る舞いを中間的な特徴の観点から説明するために、eXplainable Artificial Intelligence(XAI)の文脈で、新しい一般的なフレームワークを提案する。
XAIの文脈で説明を提供するための2つの異なる方法を分離することができる。
画像分類の文脈において、人間のユーザーが重要な解釈的負担を負うという事実のような低レベルの説明のいくつかの欠点を緩和するために、中間レベルの説明が導入された。
しかし,中レベル説明の要素をmlモデル応答に関連づけて正しく評価する一般的なアプローチは文献に提案されていない。 This work proposes a novel general framework, in the context of eXplainable Artificial Intelligence (XAI), to construct explanations for the behaviour of Machine Learning (ML) models in terms of middle-level features. One can isolate two different ways to provide explanations in the context of XAI: low and middle-level explanations. Middle-level explanations have been introduced for alleviating some deficiencies of low-level explanations such as, in the context of image classification, the fact that human users are left with a significant interpretive burden: starting from low-level explanations, one has to identify properties of the overall input that are perceptually salient for the human visual system. However, a general approach to correctly evaluate the elements of middle-level explanations with respect ML model responses has never been proposed in the literature. | 翻訳日:2022-10-06 20:29:08 公開日:2021-01-28 |
# 逆境に面した最適性:逆境ロバスト性による深層学習の理解と改善 Optimism in the Face of Adversity: Understanding and Improving Deep Learning through Adversarial Robustness ( http://arxiv.org/abs/2010.09624v2 ) ライセンス: Link先を確認 | Guillermo Ortiz-Jimenez, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard | (参考訳) 大量のデータと計算資源の重要な進歩によって駆動される新しいディープラーニングシステムは、幅広いアプリケーションにおいて優れた成果を上げている。
それでも、ディープラーニングの数学的基礎に関する現在の理論的理解は、その経験的成功よりもはるかに遅れている。
しかし、ニューラルネットワークの脆弱性を解決するために、近ごろ、敵対的堅牢性の分野が、私たちの深層モデルの主要な説明源となっている。
本稿では,深層学習における敵対的堅牢性の分野を詳細に検討し,その主な概念を自己完結的に紹介する。
しかし、敵意の強固さの主流の悲観主義的な見方とは対照的に、私たちはそれが伴う主なポジティブな側面に焦点を当てています。
我々は,敵の例とディープニューラルネットワークの幾何との関係を直感的に強調し,最終的には,敵の例の幾何学的研究が,ディープラーニングを理解するための強力なツールとしてどのように役立つかを考察する。
さらに,敵の強固性に対する幅広い適用可能性を示し,セキュリティを超えた敵の強固性の主な応用について概説する。
この記事では、ディープラーニングを理解するための新しい視点を読者に提供し、直感的なツールと、それを改善するための敵の堅牢性の使用方法に関する洞察を提供する。 Driven by massive amounts of data and important advances in computational resources, new deep learning systems have achieved outstanding results in a large spectrum of applications. Nevertheless, our current theoretical understanding on the mathematical foundations of deep learning lags far behind its empirical success. Towards solving the vulnerability of neural networks, however, the field of adversarial robustness has recently become one of the main sources of explanations of our deep models. In this article, we provide an in-depth review of the field of adversarial robustness in deep learning, and give a self-contained introduction to its main notions. But, in contrast to the mainstream pessimistic perspective of adversarial robustness, we focus on the main positive aspects that it entails. We highlight the intuitive connection between adversarial examples and the geometry of deep neural networks, and eventually explore how the geometric study of adversarial examples can serve as a powerful tool to understand deep learning. Furthermore, we demonstrate the broad applicability of adversarial robustness, providing an overview of the main emerging applications of adversarial robustness beyond security. The goal of this article is to provide readers with a set of new perspectives to understand deep learning, and to supply them with intuitive tools and insights on how to use adversarial robustness to improve it. | 翻訳日:2022-10-05 20:20:56 公開日:2021-01-28 |
# 科学的文献におけるメソッドとデータセットエンティティマイニング:自己注意型CNN+Bi-LSTMモデル Method and Dataset Entity Mining in Scientific Literature: A CNN + Bi-LSTM Model with Self-attention ( http://arxiv.org/abs/2010.13583v2 ) ライセンス: Link先を確認 | Linlin Hou, Ji Zhang, Ou Wu, Ting Yu, Zhen Wang, Zhao Li, Jianliang Gao, Yingchun Ye, Rujing Yao | (参考訳) 文献分析は、研究者が科学と技術の発達をよく理解することを促進する。
従来の文献分析は、主にトピック、著者、要約、キーワード、参照など文学のメタデータに焦点が当てられ、論文の主要な内容にはほとんど注目されなかった。
科学、計算、工学などの多くの科学分野において、これらの領域で発行される科学論文にかかわる方法やデータセットは重要な情報を持ち、アルゴリズムやデータセットの推薦と同様にドメイン分析に非常に役立つ。
本稿では,科学論文の主文内容から,その方法とデータセットを効果的に抽出できる,mderと呼ばれる新しいエンティティ認識モデルを提案する。
このモデルはルール埋め込みを利用し、自己保持機構を備えたCNNとBi-LSTMの並列構造を採用する。
計算機科学における4つの研究領域(nlp,cv,データマイニング,ai)の論文から得られたデータセットに関する提案モデルを評価する。
実験結果から,本モデルは4分野すべてで良好に動作し,クロスエリア学習と認識に優れた学習能力を有することが示された。
また、モデル内の異なるビルディングモジュールの有効性を評価する実験を行い、異なるビルディングモジュールの重要性が全体として優れたエンティティ認識性能に寄与していることを示します。
私たちのモデルにおけるデータ拡張実験は、データ拡張がモデルのトレーニングにプラスに寄与することを示しました。
2009~2019年に発行されたPAKDD論文に、最終的に我々のモデルを適用し、より長い時間で発行された科学論文から洞察に富んだ結果を得る。 Literature analysis facilitates researchers to acquire a good understanding of the development of science and technology. The traditional literature analysis focuses largely on the literature metadata such as topics, authors, abstracts, keywords, references, etc., and little attention was paid to the main content of papers. In many scientific domains such as science, computing, engineering, etc., the methods and datasets involved in the scientific papers published in those domains carry important information and are quite useful for domain analysis as well as algorithm and dataset recommendation. In this paper, we propose a novel entity recognition model, called MDER, which is able to effectively extract the method and dataset entities from the main textual content of scientific papers. The model utilizes rule embedding and adopts a parallel structure of CNN and Bi-LSTM with the self-attention mechanism. We evaluate the proposed model on datasets which are constructed from the published papers of four research areas in computer science, i.e., NLP, CV, Data Mining and AI. The experimental results demonstrate that our model performs well in all the four areas and it features a good learning capacity for cross-area learning and recognition. We also conduct experiments to evaluate the effectiveness of different building modules within our model which indicate that the importance of different building modules in collectively contributing to the good entity recognition performance as a whole. The data augmentation experiments on our model demonstrated that data augmentation positively contributes to model training, making our model much more robust in dealing with the scenarios where only small number of training samples are available. We finally apply our model on PAKDD papers published from 2009-2019 to mine insightful results from scientific papers published in a longer time span. | 翻訳日:2022-10-02 19:05:31 公開日:2021-01-28 |
# SIDARTHEエピデミックモデルにおける学習の最適制御手法 An Optimal Control Approach to Learning in SIDARTHE Epidemic model ( http://arxiv.org/abs/2010.14878v2 ) ライセンス: Link先を確認 | Andrea Zugarini, Enrico Meloni, Alessandro Betti, Andrea Panizza, Marco Corneli, Marco Gori | (参考訳) 新型コロナウイルス(covid-19)の流行は、感染経路を予測する新しい疫学モデルの提案を刺激し、効果的な管理戦略の立案を支援する。
特に、利用可能なデータを適切に解釈するためには、ほとんどの古典的な疫学モデルを超えて、最近提案されたSIDARTHEと同様、感染ステージのより豊かな記述を提供するモデルを考える必要があることが明らかになっている。
これらのモデルのパラメータを学習する問題は、時間が変化していると仮定した場合に特に重要である。
本稿では,疫病データから動的コンパートメンタルモデルの時間変動パラメータを学習するための一般的な手法を提案する。
我々は、動的システムの解を通して学習変数に依存する機能的リスクの観点から問題を定式化する。
得られた変分問題は、適切な正規化関数上の勾配流を用いて解決される。
我々はイタリアとフランスの疫病の進化を予測する。
結果は、このモデルが利用可能なすべてのデータに対して信頼性と挑戦的な予測を提供し、時間変動パラメータにおける選択された戦略の基本的役割を提供することを示している。 The COVID-19 outbreak has stimulated the interest in the proposal of novel epidemiological models to predict the course of the epidemic so as to help planning effective control strategies. In particular, in order to properly interpret the available data, it has become clear that one must go beyond most classic epidemiological models and consider models that, like the recently proposed SIDARTHE, offer a richer description of the stages of infection. The problem of learning the parameters of these models is of crucial importance especially when assuming that they are time-variant, which further enriches their effectiveness. In this paper we propose a general approach for learning time-variant parameters of dynamic compartmental models from epidemic data. We formulate the problem in terms of a functional risk that depends on the learning variables through the solutions of a dynamic system. The resulting variational problem is then solved by using a gradient flow on a suitable, regularized functional. We forecast the epidemic evolution in Italy and France. Results indicate that the model provides reliable and challenging predictions over all available data as well as the fundamental role of the chosen strategy on the time-variant parameters. | 翻訳日:2022-10-02 06:13:13 公開日:2021-01-28 |
# ニューラルネットワークの適応モデル分割によるキャリブレーション支援エッジ推論オフロード Calibration-Aided Edge Inference Offloading via Adaptive Model Partitioning of Deep Neural Networks ( http://arxiv.org/abs/2010.16335v2 ) ライセンス: Link先を確認 | Roberto G. Pacheco, Rodrigo S. Couto and Osvaldo Simeone | (参考訳) モバイルデバイスは、ディープニューラルネットワーク(DNN)ベースの推論をクラウドにオフロードし、ローカルハードウェアとエネルギー制限を克服することができる。
しかし、オフロードは通信遅延を増し、全体としての推測時間が増加し、必要なときにのみ使用すべきである。
この問題に対処するためのアプローチは、早期のDNNに基づく適応モデル分割の利用である。
したがって、推測はモバイルデバイスから始まり、中間層は精度を推定する: 推定精度が十分であれば、デバイスは推論決定を受け、そうでなければ、DNNの残りの層はクラウドで実行される。
したがって、高い信頼性でサンプルを分類できない場合に限り、デバイスは推論をクラウドにオフロードする。
このオフロードはデバイスで正確な精度の予測を必要とする。
それでも、DNNは一般的に誤解され、過度な決定を下す。
本研究は,モデル分割によるオフロードにおける誤校正初期DNNの利用が,推論精度を著しく低下させることを示した。
対照的に、デプロイ前にキャリブレーションアルゴリズムを実装することでこの問題を解決し、より信頼性の高いオフロード決定が可能になると論じる。 Mobile devices can offload deep neural network (DNN)-based inference to the cloud, overcoming local hardware and energy limitations. However, offloading adds communication delay, thus increasing the overall inference time, and hence it should be used only when needed. An approach to address this problem consists of the use of adaptive model partitioning based on early-exit DNNs. Accordingly, the inference starts at the mobile device, and an intermediate layer estimates the accuracy: If the estimated accuracy is sufficient, the device takes the inference decision; Otherwise, the remaining layers of the DNN run at the cloud. Thus, the device offloads the inference to the cloud only if it cannot classify a sample with high confidence. This offloading requires a correct accuracy prediction at the device. Nevertheless, DNNs are typically miscalibrated, providing overconfident decisions. This work shows that the employment of a miscalibrated early-exit DNN for offloading via model partitioning can significantly decrease inference accuracy. In contrast, we argue that implementing a calibration algorithm prior to deployment can solve this problem, allowing for more reliable offloading decisions. | 翻訳日:2022-10-01 17:29:01 公開日:2021-01-28 |
# 反復テキスト編集によるデータ間テキスト生成 Data-to-Text Generation with Iterative Text Editing ( http://arxiv.org/abs/2011.01694v2 ) ライセンス: Link先を確認 | Zden\v{e}k Kasner and Ond\v{r}ej Du\v{s}ek | (参考訳) 本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
提案手法は,テキスト編集(LaserTagger)と言語モデリング(GPT-2)の事前学習モデルの能力を活用しながら,出力テキストの完全性と意味的精度を最大化し,テキスト流速を改善する。
この目的のために、我々はまず自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純なヒューリスティックでフィルタリングされ、既製の事前学習言語モデルで再帰される。
我々は2つの主要なデータ・テキスト・データセット(WebNLG, Cleaned E2E)に対するアプローチを評価し,その問題点とメリットを分析した。
さらに,データ対テキスト生成の定式化により,文融合のための汎用ドメインデータセットを用いたゼロショット領域適応の可能性も開けた。 We present a novel approach to data-to-text generation based on iterative text editing. Our approach maximizes the completeness and semantic accuracy of the output text while leveraging the abilities of recent pre-trained models for text editing (LaserTagger) and language modeling (GPT-2) to improve the text fluency. To this end, we first transform data items to text using trivial templates, and then we iteratively improve the resulting text by a neural model trained for the sentence fusion task. The output of the model is filtered by a simple heuristic and reranked with an off-the-shelf pre-trained language model. We evaluate our approach on two major data-to-text datasets (WebNLG, Cleaned E2E) and analyze its caveats and benefits. Furthermore, we show that our formulation of data-to-text generation opens up the possibility for zero-shot domain adaptation using a general-domain dataset for sentence fusion. | 翻訳日:2022-09-30 04:53:00 公開日:2021-01-28 |
# 2ホップ協調中継網におけるリレー選択と電力最適化のための階層的強化学習 Hierarchical Reinforcement Learning for Relay Selection and Power Optimization in Two-Hop Cooperative Relay Network ( http://arxiv.org/abs/2011.04891v2 ) ライセンス: Link先を確認 | Yuanzhe Geng, Erwu Liu, Rui Wang, and Yiming Liu | (参考訳) 協調通信はスペクトル利用を改善する効果的なアプローチである。
通信システムの停止確率を低減するために、多くの研究はチャネル状態情報(csi)の仮定に基づく中継選択と電力割当に関する様々なスキームを提案する。
しかし、実際には正確なcsiを得ることは困難である。
本稿では,2ホップ協調型リレーネットワークにおける全伝送電力制約による停止確率最小化問題について検討する。
我々は,CSIの事前知識を必要とせず,通信環境とのインタラクションにのみ依存するリレー選択と電力配分の戦略を学ぶために,強化学習法(RL)を用いる。
多くの深層強化学習(drl)法を含む従来のrl法では,検索空間が大きすぎるとうまく動作しない点が注目される。
そこで我々はまず,障害に基づく報酬関数をベースラインとして使用するDRLフレームワークを提案する。
さらに,階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
既存の文献における他のRL法との大きな違いは、提案手法がリレー選択と電力配分を2つの階層的最適化目標に分解し、異なるレベルで訓練することである。
探索空間の単純化により、従来のRL法は失敗するが、HRL法はスパース報酬の問題を解くことができる。
シミュレーションの結果,従来のdrl法と比較して,hrl訓練アルゴリズムはより早く収束30回に到達でき,同じ停止閾値の2ホップリレーネットワークにおいて停止確率を5%低減できることがわかった。 Cooperative communication is an effective approach to improve spectrum utilization. In order to reduce outage probability of communication system, most studies propose various schemes for relay selection and power allocation, which are based on the assumption of channel state information (CSI). However, it is difficult to get an accurate CSI in practice. In this paper, we study the outage probability minimizing problem subjected to a total transmission power constraint in a two-hop cooperative relay network. We use reinforcement learning (RL) methods to learn strategies for relay selection and power allocation, which do not need any prior knowledge of CSI but simply rely on the interaction with communication environment. It is noted that conventional RL methods, including most deep reinforcement learning (DRL) methods, cannot perform well when the search space is too large. Therefore, we first propose a DRL framework with an outage-based reward function, which is then used as a baseline. Then, we further propose a hierarchical reinforcement learning (HRL) framework and training algorithm. A key difference from other RL-based methods in existing literatures is that, our proposed HRL approach decomposes relay selection and power allocation into two hierarchical optimization objectives, which are trained in different levels. With the simplification of search space, the HRL approach can solve the problem of sparse reward, while the conventional RL method fails. Simulation results reveal that compared with traditional DRL method, the HRL training algorithm can reach convergence 30 training iterations earlier and reduce the outage probability by 5% in two-hop relay network with the same outage threshold. | 翻訳日:2022-09-27 08:42:07 公開日:2021-01-28 |
# レーンヘッド補助損失を有する自律走行における軌道予測 Trajectory Prediction in Autonomous Driving with a Lane Heading Auxiliary Loss ( http://arxiv.org/abs/2011.06679v2 ) ライセンス: Link先を確認 | Ross Greer, Nachiket Deo, and Mohan Trivedi | (参考訳) 車両の軌道を予測することは、複雑な都市交通シーンを走行する自動運転車にとって必須の機能である。
鳥の目視ロードマップ情報は、軌跡予測を行う上で有用な情報を提供し、最先端のモデルでは画像畳み込みによってこの情報を抽出するが、補助的損失関数は、社会的および法的な運転行動の共通知識をさらにエンコードすることで、ディープラーニングから推定されるパターンを増大させることができる。
人間の運転行動は本質的にマルチモーダルであるため、マルチモーダルアウトプットを許容するモデルは標準メトリクスのシングル予測モデルを上回る傾向がある。
そこで本研究では,すべての予測モードで予測駆動ルールを強制することにより,モデルを強化する損失関数を提案する。
軌道予測への貢献は2倍であり, 走行車線の進行方向(流れ方向)に逆らう軌道をペナルタライズすることにより, オフロードレートメトリックの障害事例に対処する新しい指標を提案し, この指標を微分可能であり, 補助損失関数として適することを示す。
次に、この補助損失を利用して、標準的なマルチトラジェクトリ予測(MTP)とマルチパスモデルを拡張し、道路のレーン追従規則に適合したトラジェクトリを予測することにより、nuScenes予測ベンチマークの改善結果を達成する。 Predicting a vehicle's trajectory is an essential ability for autonomous vehicles navigating through complex urban traffic scenes. Bird's-eye-view roadmap information provides valuable information for making trajectory predictions, and while state-of-the-art models extract this information via image convolution, auxiliary loss functions can augment patterns inferred from deep learning by further encoding common knowledge of social and legal driving behaviors. Since human driving behavior is inherently multimodal, models which allow for multimodal output tend to outperform single-prediction models on standard metrics. We propose a loss function which enhances such models by enforcing expected driving rules on all predicted modes. Our contribution to trajectory prediction is twofold; we propose a new metric which addresses failure cases of the off-road rate metric by penalizing trajectories that oppose the ascribed heading (flow direction) of a driving lane, and we show this metric to be differentiable and therefore suitable as an auxiliary loss function. We then use this auxiliary loss to extend the the standard multiple trajectory prediction (MTP) and MultiPath models, achieving improved results on the nuScenes prediction benchmark by predicting trajectories which better conform to the lane-following rules of the road. | 翻訳日:2022-09-26 07:34:14 公開日:2021-01-28 |
# ニューラルネットワークポリシにおけるロバストな制御保証の実施 Enforcing robust control guarantees within neural network policies ( http://arxiv.org/abs/2011.08105v2 ) ライセンス: Link先を確認 | Priya L. Donti, Melrose Roderick, Mahyar Fazlyab, J. Zico Kolter | (参考訳) 安全クリティカルなシステムのためにコントローラを設計する場合、実践者は堅牢性とパフォーマンスの間の難しいトレードオフに直面します。
ロバストな制御手法は、特定の最悪の場合の障害の下でシステムの安定性を厳格に保証するが、平均的な(非標準)ケースで性能の悪い単純なコントローラをしばしば得る。
対照的に、ディープラーニングを使ってトレーニングされた非線形制御方法は、多くの制御タスクで最先端のパフォーマンスを達成しているが、しばしば堅牢性保証を欠いている。
本稿では,これら2つの手法の強みを組み合わせる手法を提案する。ニューラルネットワークによってパラメータ化される汎用非線形制御ポリシクラスを構築することで,ロバスト制御と同じ証明可能なロバスト性基準を強制する。
具体的には、カスタム凸最適化ベースのプロジェクション層をニューラルネットワークベースのポリシーに統合する。
我々は,このアプローチのパワーを複数の領域で実証し,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)ディープrl法よりも最悪の場合安定性が向上した。 When designing controllers for safety-critical systems, practitioners often face a challenging tradeoff between robustness and performance. While robust control methods provide rigorous guarantees on system stability under certain worst-case disturbances, they often yield simple controllers that perform poorly in the average (non-worst) case. In contrast, nonlinear control methods trained using deep learning have achieved state-of-the-art performance on many control tasks, but often lack robustness guarantees. In this paper, we propose a technique that combines the strengths of these two approaches: constructing a generic nonlinear control policy class, parameterized by neural networks, that nonetheless enforces the same provable robustness criteria as robust control. Specifically, our approach entails integrating custom convex-optimization-based projection layers into a neural network-based policy. We demonstrate the power of this approach on several domains, improving in average-case performance over existing robust control methods and in worst-case stability over (non-robust) deep RL methods. | 翻訳日:2022-09-25 01:07:47 公開日:2021-01-28 |
# k$-densest sub-hypergraph問題に対する統計的および計算的しきい値 Statistical and computational thresholds for the planted $k$-densest sub-hypergraph problem ( http://arxiv.org/abs/2011.11500v2 ) ライセンス: Link先を確認 | Luca Corinzia and Paolo Penna and Wojciech Szpankowski and Joachim M. Buhmann | (参考訳) 本研究では,$d$-uniformハイパーグラフ上の$k$-densestサブハイパーグラフのリカバリ問題について考察する。
この根本的な問題は、例えば、コミュニティ検出、平均ケースの複雑さ、神経科学の応用など、テンソルPCA問題の構造的変種として異なる文脈に現れる。
近似メッセージパッシングアルゴリズムに基づいて,最大類似度推定器による正確な回復しきい値の上限と下限の厳密な \emph{information-theoretic} と \emph{algorithmic} 境界を与える。
この問題は、問題の範囲が拡大するにつれて広がる類似のスパース設定で観測される典型的な統計的-計算的ギャップを示す。
境界は、信号構造がテンソルPCAモデルに対する既知の有界が捉えない統計的および計算的相転移の位置に影響を与えることを示している。
この効果は、後者のモデルが参照する前の一般的な植込み信号によるものである。 In this work, we consider the problem of recovery a planted $k$-densest sub-hypergraph on $d$-uniform hypergraphs. This fundamental problem appears in different contexts, e.g., community detection, average-case complexity, and neuroscience applications as a structural variant of tensor-PCA problem. We provide tight \emph{information-theoretic} upper and lower bounds for the exact recovery threshold by the maximum-likelihood estimator, as well as \emph{algorithmic} bounds based on approximate message passing algorithms. The problem exhibits a typical statistical-to-computational gap observed in analogous sparse settings that widen with increasing sparsity of the problem. The bounds show that the signal structure impacts the location of the statistical and computational phase transition that the known existing bounds for the tensor-PCA model do not capture. This effect is due to the generic planted signal prior that this latter model addresses. | 翻訳日:2022-09-22 03:31:43 公開日:2021-01-28 |
# 組織学的ヒト脳切片における全脳細胞構造マッピングのためのコントラスト表現学習 Contrastive Representation Learning for Whole Brain Cytoarchitectonic Mapping in Histological Human Brain Sections ( http://arxiv.org/abs/2011.12865v2 ) ライセンス: Link先を確認 | Christian Schiffer, Katrin Amunts, Stefan Harmeling, Timo Dickscheid | (参考訳) 細胞architectonic mapsは、組織学的組織断面から測定した神経細胞体の空間配置の観点から、脳のミクロ構造的参照配列を提供する。
最近の研究は、畳み込みニューラルネットワークを用いた視覚系における細胞構造的領域の自動セグメンテーションを初めて提供した。
我々は、このアプローチを拡張して、より広い範囲の脳領域に適用し、完全な人間の脳をマッピングするためのソリューションを構想する。
近年の画像分類の成功に触発されて, 細胞構造学的領域の分類に有効である, 顕微鏡画像パッチを頑健な微細構造特徴に符号化するための対照的な学習目標を提案する。
この学習タスクを用いて事前学習したモデルが,最近提案された補助タスクで事前学習されたモデルと同様に,スクラッチからトレーニングされたモデルよりも優れていることを示す。
特徴空間においてクラスター分析を行い,学習表現が解剖学的に有意なグループを形成することを示す。 Cytoarchitectonic maps provide microstructural reference parcellations of the brain, describing its organization in terms of the spatial arrangement of neuronal cell bodies as measured from histological tissue sections. Recent work provided the first automatic segmentations of cytoarchitectonic areas in the visual system using Convolutional Neural Networks. We aim to extend this approach to become applicable to a wider range of brain areas, envisioning a solution for mapping the complete human brain. Inspired by recent success in image classification, we propose a contrastive learning objective for encoding microscopic image patches into robust microstructural features, which are efficient for cytoarchitectonic area classification. We show that a model pre-trained using this learning task outperforms a model trained from scratch, as well as a model pre-trained on a recently proposed auxiliary task. We perform cluster analysis in the feature space to show that the learned representations form anatomically meaningful groups. | 翻訳日:2022-09-21 03:57:11 公開日:2021-01-28 |
# NEOLIXによる自動運転のためのオープンデータセット The NEOLIX Open Dataset for Autonomous Driving ( http://arxiv.org/abs/2011.13528v2 ) ライセンス: Link先を確認 | Lichao Wang, Lanxin Lei, Hongli Song, Weibao Wang | (参考訳) 5g技術の段階的な成熟により、自動運転技術は研究機関の間でますます注目を集めている。
自動運転車は、人工知能、視覚計算、レーダー、監視機器、gpsの協力により、人間の干渉なしに自動かつ安全に自動車を操作することができるが、しかしながら、トレーニングおよびシステム評価のための大規模データセットは、ロバストな知覚モデルのデベルオプションにおいて依然としてホットポテトである。
本稿では,自律走行領域におけるNEOLIXデータセットとその応用について述べる。
私たちのデータセットには、ポイントクラウドのラベル付き約30,000フレームと、注釈付き600k以上の3Dバウンディングボックスが含まれています。
データ収集には複数の地域があり、昼、夜、夜明け、夕暮れ、晴れた日など様々な運転条件がある。
この完全なデータセットをラベル付けするために、各タスクに指定された可変ツールとアルゴリズムを開発し、ラベル付けプロセスを高速化した。
コンピュータビジョンの分野における自動運転のさらなる発展のために、データセットと関連するアルゴリズムが研究者を支援し、動機付けることが期待されている。 With the gradual maturity of 5G technology,autonomous driving technology has attracted moreand more attention among the research commu-nity. Autonomous driving vehicles rely on the co-operation of artificial intelligence, visual comput-ing, radar, monitoring equipment and GPS, whichenables computers to operate motor vehicles auto-matically and safely without human interference.However, the large-scale dataset for training andsystem evaluation is still a hot potato in the devel-opment of robust perception models. In this paper,we present the NEOLIX dataset and its applica-tions in the autonomous driving area. Our datasetincludes about 30,000 frames with point cloud la-bels, and more than 600k 3D bounding boxes withannotations. The data collection covers multipleregions, and various driving conditions, includingday, night, dawn, dusk and sunny day. In orderto label this complete dataset, we developed vari-ous tools and algorithms specified for each task tospeed up the labelling process. It is expected thatour dataset and related algorithms can support andmotivate researchers for the further developmentof autonomous driving in the field of computer vi-sion. | 翻訳日:2022-09-20 02:14:42 公開日:2021-01-28 |
# Causal BERT : テキストで表現された事象間の因果検出のための言語モデル Causal BERT : Language models for causality detection between events expressed in text ( http://arxiv.org/abs/2012.05453v2 ) ライセンス: Link先を確認 | Vivek Khetan, Roshni Ramnani, Mayuresh Anand, Shubhashis Sengupta and Andrew E.Fano | (参考訳) イベント間の因果関係の理解は重要な自然言語処理タスクであり、医療、ビジネスリスク管理、金融など多くの分野において有用である。
精査すると、形式的な文書か、あるいはtwitterのようなソーシャルメディアから発生したコンテンツの両方で、現実世界における様々な種類の因果関係のコミュニケーションと探索を専門とする、膨大な量のテキストコンテンツを見つけることができる。
自然言語イベント間の「因果関係」を認識することは、しばしば暗黙的に表現されるため、依然として課題である。
暗黙の因果関係は文学で使われる技法のほとんどを通して検出することは困難であり、時には曖昧さや曖昧さと見なされることもある。
また、この問題にはよく知られたデータセットが存在するが、それらの例では、特に暗黙的な関係に関係づけられた場合の因果関係の範囲や複雑さが制限されている。
現代のメソッドのほとんどはlexico-semanticパターンマッチングに基づいているか、機能駆動の教師付きメソッドである。
したがって, これらの手法は, 暗黙的な関係を限定的に扱えるよう, 明確な因果関係を扱うことを目的としており, 一般化が困難である。
本稿では,文コンテキストとイベント情報を組み合わせて自然言語テキストで表現されたイベント間の因果関係を関連づける言語モデルの能力について検討し,マスキングされたイベントコンテキストをドメイン内およびドメイン外データ分散に活用する。
提案手法は,3つの異なるデータ分布において最先端のパフォーマンスを実現し,因果図の抽出や非構造化テキストからのイベント連鎖の構築に利用できる。 Causality understanding between events is a critical natural language processing task that is helpful in many areas, including health care, business risk management and finance. On close examination, one can find a huge amount of textual content both in the form of formal documents or in content arising from social media like Twitter, dedicated to communicating and exploring various types of causality in the real world. Recognizing these "Cause-Effect" relationships between natural language events continues to remain a challenge simply because it is often expressed implicitly. Implicit causality is hard to detect through most of the techniques employed in literature and can also, at times be perceived as ambiguous or vague. Also, although well-known datasets do exist for this problem, the examples in them are limited in the range and complexity of the causal relationships they depict especially when related to implicit relationships. Most of the contemporary methods are either based on lexico-semantic pattern matching or are feature-driven supervised methods. Therefore, as expected these methods are more geared towards handling explicit causal relationships leading to limited coverage for implicit relationships and are hard to generalize. In this paper, we investigate the language model's capabilities for causal association among events expressed in natural language text using sentence context combined with event information, and by leveraging masked event context with in-domain and out-of-domain data distribution. Our proposed methods achieve the state-of-art performance in three different data distributions and can be leveraged for extraction of a causal diagram and/or building a chain of events from unstructured text. | 翻訳日:2021-05-15 06:40:04 公開日:2021-01-28 |
# デジタル双子はモノ接合性ではない -- 業界レベル2の自動車シミュレーターにおけるクロス複製adasテスト Digital Twins Are Not Monozygotic -- Cross-Replicating ADAS Testing in Two Industry-Grade Automotive Simulators ( http://arxiv.org/abs/2012.06822v2 ) ライセンス: Link先を確認 | Markus Borg, Raja Ben Abdessalem, Shiva Nejati, Francois-Xavier Jegeden, Donghwan Shin | (参考訳) ソフトウェアとデータ集約的な運転自動化のレベルが増加すると、自動車ソフトウェアテストの進化が求められる。
iso/pas 21448の検証検証(v&v)プロセスの推奨プラクティスとして、自動車の意図する機能の安全性の候補であるシミュレーションベースのテストでは、リスクとコストの両方を削減できる可能性がある。
adas(advanced driver-assistance systems)のためのシミュレータを用いたテスト自動化技術開発に関する研究が増えている。
しかし、同じテストシナリオが異なるシミュレータで実行される場合、結果はどの程度似ていますか?
本研究では, TASS/Siemens PreScan と ESI Pro-SiVIC の2種類の商用シミュレータを用いて, 現実のADAS (PeVi) に検索ベースソフトウェアテスト (SBST) ソリューションを適用した再現実験を行った。
この2つのシミュレータでSBSTソリューションを用いて生成した臨界テストシナリオを最小限のシーンで比較する。
両シミュレータにおいて,SBSTを用いて重要なテストシナリオを効果的かつ効率的に生成できることを示し,この2つのシミュレータから得られたテスト結果は,試験中のADASのいくつかの弱点を明らかにすることができる。
しかし、2つのシミュレータで同じテストシナリオを実行すると、テストアウトプットの詳細、特に(1)テストによって明らかになった安全性違反、(2)車と歩行者のダイナミックスに顕著な違いが生じる。
今後のV&V計画では、堅牢なシミュレーションベースのテストをサポートする複数のシミュレータと、シミュレータの内部に依存しない測定のベースとなるテスト目標を含むことを推奨する。 The increasing levels of software- and data-intensive driving automation call for an evolution of automotive software testing. As a recommended practice of the Verification and Validation (V&V) process of ISO/PAS 21448, a candidate standard for safety of the intended functionality for road vehicles, simulation-based testing has the potential to reduce both risks and costs. There is a growing body of research on devising test automation techniques using simulators for Advanced Driver-Assistance Systems (ADAS). However, how similar are the results if the same test scenarios are executed in different simulators? We conduct a replication study of applying a Search-Based Software Testing (SBST) solution to a real-world ADAS (PeVi, a pedestrian vision detection system) using two different commercial simulators, namely, TASS/Siemens PreScan and ESI Pro-SiVIC. Based on a minimalistic scene, we compare critical test scenarios generated using our SBST solution in these two simulators. We show that SBST can be used to effectively and efficiently generate critical test scenarios in both simulators, and the test results obtained from the two simulators can reveal several weaknesses of the ADAS under test. However, executing the same test scenarios in the two simulators leads to notable differences in the details of the test outputs, in particular, related to (1) safety violations revealed by tests, and (2) dynamics of cars and pedestrians. Based on our findings, we recommend future V&V plans to include multiple simulators to support robust simulation-based testing and to base test objectives on measures that are less dependant on the internals of the simulators. | 翻訳日:2021-05-10 05:14:55 公開日:2021-01-28 |
# VLSP 2020におけるベトナム関係抽出作業における事前学習BERTモデルの適用に関する実証的研究 An Empirical Study of Using Pre-trained BERT Models for Vietnamese Relation Extraction Task at VLSP 2020 ( http://arxiv.org/abs/2012.10275v2 ) ライセンス: Link先を確認 | Pham Quang Nhat Minh | (参考訳) 本稿では,VLSP 2020 評価キャンペーンにおいて,事前学習した BERT モデルを用いて関係抽出を行う実験的検討を行った。
R-BERTモデルとBERTモデルという,最先端のBERTモデルを適用した。
各モデルについて、FPTAI/vibertとNlpHUST/vibert4newsの2モデルを比較した。
NlpHUST/vibert4news モデルはベトナム関係抽出作業において FPTAI/vibert よりも優れていた。
最後に,R-BERTとBERTを組み合わせたアンサンブルモデルを提案する。
提案するアンサンブルモデルは,開発データ上の2つの単一モデルとタスクオーガナイザが提供するテストデータに対してわずかに改善した。 In this paper, we present an empirical study of using pre-trained BERT models for the relation extraction task at the VLSP 2020 Evaluation Campaign. We applied two state-of-the-art BERT-based models: R-BERT and BERT model with entity starts. For each model, we compared two pre-trained BERT models: FPTAI/vibert and NlpHUST/vibert4news. We found that NlpHUST/vibert4news model significantly outperforms FPTAI/vibert for the Vietnamese relation extraction task. Finally, we proposed an ensemble model that combines R-BERT and BERT with entity starts. Our proposed ensemble model slightly improved against two single models on the development data and the test data provided by the task organizers. | 翻訳日:2021-05-01 18:17:20 公開日:2021-01-28 |
# (参考訳) RBM流とD流:離散エネルギーベース空間を持つ可逆流 RBM-Flow and D-Flow: Invertible Flows with Discrete Energy Base Spaces ( http://arxiv.org/abs/2012.13196v2 ) ライセンス: CC BY 4.0 | Daniel O'Connor, Walter Vinci | (参考訳) 複雑なデータ分布の効率的なサンプリングは、トレーニングされた非可逆流(IF)を用いて達成され、モデル分布は、複数の非線形ビジェクティブ変換を通じて単純なベース分布をプッシュすることによって生成される。
しかし、IFにおける変換の反復性は、ターゲット分布への近似を制限することができる。
本稿では,連続平滑化を適用した制限ボルツマン機械(rbm)を基本分布とするifモデルであるrbm-flowを実装することで,この問題を緩和する。
RBM-Flowを用いることで,同じIF変換を持つベースラインモデル上でのインセプションスコア(IS)とFrechet Inception Distance(FID)によって定量化されるサンプルの品質を向上させることができるが,表現力の低いベース分布では得られないことを示す。
さらに,非相関な離散潜在変数を持つIFモデルであるD-Flowも得られる。
D-Flow はガウス基底変数を持つ典型的な IF と同様の確率と FID/IS スコアを得るが、グローバルな特徴が潜在空間における離散ラベルとして有意に符号化されているという利点がある。 Efficient sampling of complex data distributions can be achieved using trained invertible flows (IF), where the model distribution is generated by pushing a simple base distribution through multiple non-linear bijective transformations. However, the iterative nature of the transformations in IFs can limit the approximation to the target distribution. In this paper we seek to mitigate this by implementing RBM-Flow, an IF model whose base distribution is a Restricted Boltzmann Machine (RBM) with a continuous smoothing applied. We show that by using RBM-Flow we are able to improve the quality of samples generated, quantified by the Inception Scores (IS) and Frechet Inception Distance (FID), over baseline models with the same IF transformations, but with less expressive base distributions. Furthermore, we also obtain D-Flow, an IF model with uncorrelated discrete latent variables. We show that D-Flow achieves similar likelihoods and FID/IS scores to those of a typical IF with Gaussian base variables, but with the additional benefit that global features are meaningfully encoded as discrete labels in the latent space. | 翻訳日:2021-04-25 15:38:23 公開日:2021-01-28 |
# 不確かさウィザード:高速でユーザフレンドリーなニューラルネットワーク不確かさの定量化 Uncertainty-Wizard: Fast and User-Friendly Neural Network Uncertainty Quantification ( http://arxiv.org/abs/2101.00982v2 ) ライセンス: Link先を確認 | Michael Weiss and Paolo Tonella | (参考訳) 不確かさと信頼性は、テストデータの選択やシステム監視など、ディープラーニングテストで提案されているさまざまなテクニックにおいて有用な指標であることが示されている。我々は、このような不確実性とニューラルネットワークの信頼性を定量化するためのツールである不確実性ウィザードを提案する。
業界をリードするtf.kerasディープラーニングAPI上に構築されており、ほぼ透明で分かりやすいインターフェースを提供する。
同時に、2つの異なるマシンと異なる構成でベンチマークした大きなパフォーマンス最適化も含まれています。 Uncertainty and confidence have been shown to be useful metrics in a wide variety of techniques proposed for deep learning testing, including test data selection and system supervision.We present uncertainty-wizard, a tool that allows to quantify such uncertainty and confidence in artificial neural networks. It is built on top of the industry-leading tf.keras deep learning API and it provides a near-transparent and easy to understand interface. At the same time, it includes major performance optimizations that we benchmarked on two different machines and different configurations. | 翻訳日:2021-04-18 20:27:45 公開日:2021-01-28 |
# 新型コロナウイルス診断のための胸部x線画像分類のための深部視覚単語の新たな袋 New Bag of Deep Visual Words based features to classify chest x-ray images for COVID-19 diagnosis ( http://arxiv.org/abs/2012.15413v2 ) ライセンス: Link先を確認 | Chiranjibi Sitaula and Sunil Aryal | (参考訳) 重症急性呼吸症候群によるコロナウイルス2(COVID-19)感染は肺の肺炎様効果を引き起こすため、胸部X線検査は疾患の診断に役立つ。
画像の自動解析には、一連の意味的特徴によって機械で表現される。
ディープラーニング(DL)モデルは画像から特徴を引き出すために広く利用されている。
一般的な深部特徴は、いくつかの意味領域を持つため、胸部x線を表すのに適さないかもしれない。
バグ・オブ・ビジュアルワード(Bag of Visual Words、BVW)ベースの機能はX線画像に適していることが示されているが、既存のBoVW機能は新型コロナウイルス感染症と他の肺炎関連感染症を区別するのに十分な情報を取得できない可能性がある。
本稿では,特徴マップ正規化ステップを取り除き,生特徴マップに深部特徴正規化ステップを追加することにより,深部特徴量に対する新しいbovw手法であるbag of deep visual words (bodvw)を提案する。
これにより、covid-19と肺炎を区別するための重要な手がかりとなる、各フィーチャーマップのセマンティクスを維持することができる。
支援ベクターマシン(svm)を用いた胸部x線診断におけるbodvw特徴の有用性について検討した。
以上の結果から,我々の特徴が安定かつ顕著な分類精度,特に他の肺炎との鑑別を,最先端の方法と比較して計算時間を短縮できることが判明した。
そこで本手法は,大規模に新型コロナウイルスの迅速診断に有用であると考えられた。 Because the infection by Severe Acute Respiratory Syndrome Coronavirus 2 (COVID-19) causes the pneumonia-like effect in the lungs, the examination of chest x-rays can help to diagnose the diseases. For automatic analysis of images, they are represented in machines by a set of semantic features. Deep Learning (DL) models are widely used to extract features from images. General deep features may not be appropriate to represent chest x-rays as they have a few semantic regions. Though the Bag of Visual Words (BoVW) based features are shown to be more appropriate for x-ray type of images, existing BoVW features may not capture enough information to differentiate COVID-19 infection from other pneumonia-related infections. In this paper, we propose a new BoVW method over deep features, called Bag of Deep Visual Words (BoDVW), by removing the feature map normalization step and adding deep features normalization step on the raw feature maps. This helps to preserve the semantics of each feature map that may have important clues to differentiate COVID-19 from pneumonia. We evaluate the effectiveness of our proposed BoDVW features in chest x-rays classification using Support Vector Machine (SVM) to diagnose COVID-19. Our results on a publicly available COVID-19 x-ray dataset reveal that our features produce stable and prominent classification accuracy, particularly differentiating COVID-19 infection from other pneumonia, in shorter computation time compared to the state-of-the-art methods. Thus, our method could be a very useful tool for quick diagnosis of COVID-19 patients on a large scale. | 翻訳日:2021-04-17 17:20:29 公開日:2021-01-28 |
# 内視鏡データチャレンジのステレオ対応と再構成 Stereo Correspondence and Reconstruction of Endoscopic Data Challenge ( http://arxiv.org/abs/2101.01133v4 ) ライセンス: Link先を確認 | Max Allan and Jonathan Mcleod and Congcong Wang and Jean Claude Rosenthal and Zhenglei Hu and Niklas Gard and Peter Eisert and Ke Xue Fu and Trevor Zeffiro and Wenyao Xia and Zhanshi Zhu and Huoling Luo and Fucang Jia and Xiran Zhang and Xiaohong Li and Lalith Sharan and Tom Kurmann and Sebastian Schmid and Raphael Sznitman and Dimitris Psychogyios and Mahdi Azizian and Danail Stoyanov and Lena Maier-Hein and Stefanie Speidel | (参考訳) 中国深センで開かれたMICCAI 2019において, 内視鏡的サブチャレンジのステレオ対応と再構築を行った。
作業は、ブタのケーダバーで捉えた7つのトレーニングデータセットと2つの構造化光データのテストセットを用いて、深度推定を行うことであった。
これらはIntuitive surgeryのチームによって提供された。
チャレンジデイには10チームが参加した。
本論文は,課題終了後に提出された3つの追加手法と,これらのチームによるデータセットで見つかった問題に関する補足セクションを含む。 The stereo correspondence and reconstruction of endoscopic data sub-challenge was organized during the Endovis challenge at MICCAI 2019 in Shenzhen, China. The task was to perform dense depth estimation using 7 training datasets and 2 test sets of structured light data captured using porcine cadavers. These were provided by a team at Intuitive Surgical. 10 teams participated in the challenge day. This paper contains 3 additional methods which were submitted after the challenge finished as well as a supplemental section from these teams on issues they found with the dataset. | 翻訳日:2021-04-11 22:55:50 公開日:2021-01-28 |
# (参考訳) 確率プログラムの効率的な推論のための制御-データ分離と論理条件伝達 Control-Data Separation and Logical Condition Propagation for Efficient Inference on Probabilistic Programs ( http://arxiv.org/abs/2101.01502v2 ) ライセンス: CC BY 4.0 | Ichiro Hasuo, Yuichiro Oyabu, Clovis Eberhart, Kohei Suenaga, Kenta Cho, Shin-ya Katsumata | (参考訳) 命令確率プログラムに対するベイズ推定のための新しいサンプリングアルゴリズムを提案する。
コントロールフローをデータから分離する階層アーキテクチャを備えている。トップレベルがコントロールフローをサンプリングし、ボトムレベルがトップレベルが選択したコントロールフローに沿ってデータ値をサンプリングする。
この分離により,確率的プログラムサンプリングにおいて,様々な言語に基づく解析手法を接続することが可能となる。
私たちはAnglican上にアルゴリズムを実装した。
実験結果は,特に while ループやまれな観測を行うプログラムに対して,アルゴリズムの効率性を示す。 We introduce a novel sampling algorithm for Bayesian inference on imperative probabilistic programs. It features a hierarchical architecture that separates control flows from data: the top-level samples a control flow, and the bottom level samples data values along the control flow picked by the top level. This separation allows us to plug various language-based analysis techniques in probabilistic program sampling; specifically, we use logical backward propagation of observations for sampling efficiency. We implemented our algorithm on top of Anglican. The experimental results demonstrate our algorithm's efficiency, especially for programs with while loops and rare observations. | 翻訳日:2021-04-11 17:28:46 公開日:2021-01-28 |
# TrackMPNN: マルチオブジェクト追跡のためのメッセージパッシンググラフニューラルアーキテクチャ TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object Tracking ( http://arxiv.org/abs/2101.04206v3 ) ライセンス: Link先を確認 | Akshay Rangesh, Pranav Maheshwari, Mez Gebre, Siddhesh Mhatre, Vahid Ramezani, Mohan M. Trivedi | (参考訳) 本研究は、グラフベースのデータ構造を用いて問題をモデル化するマルチオブジェクトトラッキング(mot)に対する従来の多くのアプローチに従い、この定式化を現代のニューラルネットワークに応用する。
この研究の主な貢献は、複数のタイムステップにまたがるデータアソシエーション問題を表す動的無方向性グラフに基づくフレームワークの作成と、それらのグラフ上で動作するメッセージパッシンググラフニューラルネットワーク(GNN)を使用して、すべてのアソシエーションに対して望ましい可能性を生み出すことである。
我々はさらに,複数の時間ステップを推論し,以前の誤りを訂正し,信念を更新し,長期記憶を有し,ミス/フェイル検出を処理できる,メモリ効率のよいリアルタイムオンラインアルゴリズムを作成するために対処しなければならない計算問題に対する解決策と提案を提供する。
これに加えて、当社のフレームワークは、時間的ウィンドウサイズの選択と、トレーニングに使用する損失の柔軟性を提供します。
本質的に、本研究では、教師付き学習から従来の手法を用いて学習すべきグラフベースのニューラルネットワークの種類をトレーニングするためのフレームワークを提供し、これらのトレーニングされたモデルを使用して、オンライン、リアルタイム、計算的に抽出可能な方法で新しいシーケンスを推論する。
提案手法の有効性とロバスト性を示すため、2Dボックスの位置とオブジェクトカテゴリのみを使用して各オブジェクトインスタンスのディスクリプタを構築する。
それにもかかわらず、我々のモデルは、複数の手作りや学習機能を利用する最先端のアプローチと同等に機能する。
自律運転のための人気のあるMOTベンチマークの実験、定性的な例、および競争結果は、提案手法の可能性を実証している。 This study follows many previous approaches to multi-object tracking (MOT) that model the problem using graph-based data structures, and adapts this formulation to make it amenable to modern neural networks. Our main contributions in this work are the creation of a framework based on dynamic undirected graphs that represent the data association problem over multiple timesteps, and a message passing graph neural network (GNN) that operates on these graphs to produce the desired likelihood for every association therein. We further provide solutions and propositions for the computational problems that need to be addressed to create a memory-efficient, real-time, online algorithm that can reason over multiple timesteps, correct previous mistakes, update beliefs, possess long-term memory, and handle missed/false detections. In addition to this, our framework provides flexibility in the choice of temporal window sizes to operate on and the losses used for training. In essence, this study provides a framework for any kind of graph based neural network to be trained using conventional techniques from supervised learning, and then use these trained models to infer on new sequences in an online, real-time, computationally tractable manner. To demonstrate the efficacy and robustness of our approach, we only use the 2D box location and object category to construct the descriptor for each object instance. Despite this, our model performs on par with state-of-the-art approaches that make use of multiple hand-crafted and/or learned features. Experiments, qualitative examples and competitive results on popular MOT benchmarks for autonomous driving demonstrate the promise and uniqueness of the proposed approach. | 翻訳日:2021-04-04 14:32:13 公開日:2021-01-28 |
# 拡張自然言語間の翻訳としての構造化予測 Structured Prediction as Translation between Augmented Natural Languages ( http://arxiv.org/abs/2101.05779v2 ) ライセンス: Link先を確認 | Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, Rishita Anubhai, Cicero Nogueira dos Santos, Bing Xiang, Stefano Soatto | (参考訳) 本稿では,複合エンティティと関係抽出,ネスト名前付きエンティティ認識,関係分類,意味的役割ラベリング,イベント抽出,コリファレンス解決,対話状態追跡など,多くの構造化予測言語タスクを解決するための新しいフレームワークである拡張自然言語間翻訳(tanl)を提案する。
タスク固有の識別分類器を訓練することで問題に取り組む代わりに、タスク関連情報を容易に抽出できる拡張自然言語間の翻訳タスクとして構成する。
提案手法は,すべてのタスクにおいてタスク固有モデルに適合し,特に,結合エンティティと関係抽出(CoNLL04,ADE,NYT,ACE2005データセット),関係分類(FewRel,TACRED),セマンティックロールラベル(CoNLL-2005,CoNLL-2012)に関する新たな最先端結果が得られる。
すべてのタスクに対して同じアーキテクチャとハイパーパラメータを使用して、同時にひとつのモデルをトレーニングしてすべてのタスクを解決する場合(マルチタスク学習)、これを実現する。
最後に,このフレームワークはラベルセマンティクスの活用により,低リソース方式の性能を著しく向上させることができることを示す。 We propose a new framework, Translation between Augmented Natural Languages (TANL), to solve many structured prediction language tasks including joint entity and relation extraction, nested named entity recognition, relation classification, semantic role labeling, event extraction, coreference resolution, and dialogue state tracking. Instead of tackling the problem by training task-specific discriminative classifiers, we frame it as a translation task between augmented natural languages, from which the task-relevant information can be easily extracted. Our approach can match or outperform task-specific models on all tasks, and in particular, achieves new state-of-the-art results on joint entity and relation extraction (CoNLL04, ADE, NYT, and ACE2005 datasets), relation classification (FewRel and TACRED), and semantic role labeling (CoNLL-2005 and CoNLL-2012). We accomplish this while using the same architecture and hyperparameters for all tasks and even when training a single model to solve all tasks at the same time (multi-task learning). Finally, we show that our framework can also significantly improve the performance in a low-resource regime, thanks to better use of label semantics. | 翻訳日:2021-03-29 00:58:09 公開日:2021-01-28 |
# (参考訳) 点雲の悪魔 : 点雲畳み込みのロバスト性の研究 The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions ( http://arxiv.org/abs/2101.07832v2 ) ライセンス: CC BY 4.0 | Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, and Li Fuxin | (参考訳) 近年,不規則にサンプリングされた点雲に対して畳み込みを行うことが注目されている。
点雲は通常のラスター像とは大きく異なるため、畳み込みネットワークのより緊密な一般化、特に入力データのスケールや回転の変動下でのロバスト性の研究が不可欠である。
本稿では,点雲上の畳み込みネットワークであるpointconvの異なる変種を調査し,入力スケールと回転変化に対するロバスト性について検討する。
私たちが調査した変種のうち、2つは新奇であり、大幅な改善をもたらした。
1つ目は、多層パーセプトロンに基づく重み関数を、ソボレフノルム正規化とともにより単純な3次多項式に置き換えることである。
次に, 3次元データ集合に対して, 3次元幾何学的性質を点convへの入力として, 正規な3次元座標に加えて, 新たな視点不変ディスクリプタを導出する。
また, 活性化関数の選択, 近傍, サブサンプリング法についても検討した。
2D MNISTとCIFAR-10データセットと3D SemanticKITTIとScanNetデータセットで実験が行われた。
その結果、第3次多項式を用いることで、MNISTデータセットの従来の2D CNNを超え、変化や回転をスケールするためのPointConvのロバスト性を大幅に向上することがわかった。
3Dデータセットでは、新しい視点不変記述子により、PointConvの堅牢性とパフォーマンスが大幅に向上する。
我々は、セマンティックKITTIデータセットの最先端セマンティックセマンティックセマンティクス性能と、ポイントベースアプローチのScanNetデータセット上で現在最高のフレームワークと同等のパフォーマンスを達成する。 Recently, there has been a significant interest in performing convolution over irregularly sampled point clouds. Since point clouds are very different from regular raster images, it is imperative to study the generalization of the convolution networks more closely, especially their robustness under variations in scale and rotations of the input data. This paper investigates different variants of PointConv, a convolution network on point clouds, to examine their robustness to input scale and rotation changes. Of the variants we explored, two are novel and generated significant improvements. The first is replacing the multilayer perceptron based weight function with much simpler third degree polynomials, together with a Sobolev norm regularization. Secondly, for 3D datasets, we derive a novel viewpoint-invariant descriptor by utilizing 3D geometric properties as the input to PointConv, in addition to the regular 3D coordinates. We have also explored choices of activation functions, neighborhood, and subsampling methods. Experiments are conducted on the 2D MNIST & CIFAR-10 datasets as well as the 3D SemanticKITTI & ScanNet datasets. Results reveal that on 2D, using third degree polynomials greatly improves PointConv's robustness to scale changes and rotations, even surpassing traditional 2D CNNs for the MNIST dataset. On 3D datasets, the novel viewpoint-invariant descriptor significantly improves the performance as well as robustness of PointConv. We achieve the state-of-the-art semantic segmentation performance on the SemanticKITTI dataset, as well as comparable performance with the current highest framework on the ScanNet dataset among point-based approaches. | 翻訳日:2021-03-22 13:15:19 公開日:2021-01-28 |
# (参考訳) 抽象的タスク表現の学習 Learning Abstract Task Representations ( http://arxiv.org/abs/2101.07852v3 ) ライセンス: CC BY 4.0 | Mikhail M. Meskhi, Adriano Rivolli, Rafael G. Mantovani, Ricardo Vilalta | (参考訳) データキャラクタリゼーションの適切な形態は、学習アルゴリズムの選択とモデル性能推定のプロセスを導くことができる。
メタラーニングの分野は、さまざまなメタ特徴(統計学、モデルベース、情報理論、トポロジーなど)を用いた効果的なデータキャラクタリゼーション形式を記述する豊富な研究体系を提供している。
本稿では,既存のメタ機能集合から始め,深層ニューラルネットワークにおける潜伏変数としての新たな抽象メタ機能を実現する手法を提案する。
従来のメタ機能を直接使用する際の落とし穴について論じ、ハイレベルなタスク特性の学習の重要性を論じる。
機能抽出器としてディープニューラルネットワークを用いた手法を実証する。
1) 抽象メタモデルによる抽象メタモデルマッピングにより, 平均18%程度の性能が向上し, 2) 抽象メタモデルでは高い特徴値が得られた。 A proper form of data characterization can guide the process of learning-algorithm selection and model-performance estimation. The field of meta-learning has provided a rich body of work describing effective forms of data characterization using different families of meta-features (statistical, model-based, information-theoretic, topological, etc.). In this paper, we start with the abundant set of existing meta-features and propose a method to induce new abstract meta-features as latent variables in a deep neural network. We discuss the pitfalls of using traditional meta-features directly and argue for the importance of learning high-level task properties. We demonstrate our methodology using a deep neural network as a feature extractor. We demonstrate that 1) induced meta-models mapping abstract meta-features to generalization performance outperform other methods by ~18% on average, and 2) abstract meta-features attain high feature-relevance scores. | 翻訳日:2021-03-22 12:50:36 公開日:2021-01-28 |
# 教師付きディープラーニングのための変数ベースサンプル重み付け Variance Based Samples Weighting for Supervised Deep Learning ( http://arxiv.org/abs/2101.07561v2 ) ライセンス: Link先を確認 | Paul Novello (CEA, X, Inria), Ga\"el Po\"ette (CEA), David Lugato (CEA), Pietro Congedo (X, Inria) | (参考訳) ニューラルネットワーク(NN)による関数の教師付き学習の文脈において、データセットの分布が学習する関数がより急な領域に焦点を当てたとき、NNがより良い結果をもたらすことを実証的に正当化する。
最初にこの仮定をテイラー展開を用いて数学的に動作する方法で記述する。
次に、理論的導出により、私たちがVBSW(Variance Based Samples Weighting)と呼ぶ方法論を構築することができる。
VBSWはトレーニングポイントの重み付けにラベルの局所的な分散を使用する。
この手法は、画像、テキスト、多変量データに対する様々な分類および回帰タスクのための大規模なNNの性能を大幅に向上させる。
我々はその利点を、浅い線形NNからResnetやBertまでNNを巻き込んだ実験で強調する。 In the context of supervised learning of a function by a Neural Network (NN), we claim and empirically justify that a NN yields better results when the distribution of the data set focuses on regions where the function to learn is steeper. We first traduce this assumption in a mathematically workable way using Taylor expansion. Then, theoretical derivations allow to construct a methodology that we call Variance Based Samples Weighting (VBSW). VBSW uses local variance of the labels to weight the training points. This methodology is general, scalable, cost effective, and significantly increases the performances of a large class of NNs for various classification and regression tasks on image, text and multivariate data. We highlight its benefits with experiments involving NNs from shallow linear NN to Resnet or Bert. | 翻訳日:2021-03-22 11:26:42 公開日:2021-01-28 |
# (参考訳) SparseDNN: CPU上での高速なスパースディープラーニング推論 SparseDNN: Fast Sparse Deep Learning Inference on CPUs ( http://arxiv.org/abs/2101.07948v2 ) ライセンス: CC BY 4.0 | Ziheng Wang | (参考訳) ここ数年、効率的なディープラーニング推論をサポートするアルゴリズムやシステムに大きな飛躍を遂げてきた。
プルーニングと量子化アルゴリズムは、ニューラルネットワークを桁違いに圧縮することができるようになった。
圧縮ニューラルネットワークでは、ターゲットハードウェアの性能を最大化するために、多数の推論フレームワークが設計されている。
OpenVINOやMNNのようなプロダクションフレームワークにおける量子化ニューラルネットワークの成熟したサポートはありますが、刈り取ったスパースニューラルネットワークのサポートはまだ不足しています。
この課題に対処するために、CPUを対象としたスパース深層学習推論エンジンであるSparseDNNを紹介する。
スパース演算子を高速化するスパースコード生成器を備えたカーネルレベルの最適化と、スパースネットワークに対応する新しいネットワークレベルの最適化を提案する。
我々のスパースコードジェネレータは最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。
Huggingface pruneBERTのようなエンドツーエンドのベンチマークでは、SparseDNNは最先端のOpenVINOによる高密度推論よりも最大5倍のスループット向上を実現している。 The last few years have seen gigantic leaps in algorithms and systems to support efficient deep learning inference. Pruning and quantization algorithms can now consistently compress neural networks by an order of magnitude. For a compressed neural network, a multitude of inference frameworks have been designed to maximize the performance of the target hardware. While we find mature support for quantized neural networks in production frameworks such as OpenVINO and MNN, support for pruned sparse neural networks is still lacking. To tackle this challenge, we present SparseDNN, a sparse deep learning inference engine targeting CPUs. We present both kernel-level optimizations with a sparse code generator to accelerate sparse operators and novel network-level optimizations catering to sparse networks. We show that our sparse code generator can achieve significant speedups over state-of-the-art sparse and dense libraries. On end-to-end benchmarks such as Huggingface pruneBERT, SparseDNN achieves up to 5x throughput improvement over dense inference with state-of-the-art OpenVINO. | 翻訳日:2021-03-22 09:16:55 公開日:2021-01-28 |
# 非識別的誤測の非単調性について On the Non-Monotonicity of a Non-Differentially Mismeasured Binary Confounder ( http://arxiv.org/abs/2101.08007v3 ) ライセンス: Link先を確認 | Jose M. Pe\~na | (参考訳) この関係がバイナリ共同設立者によって結合された結果に対するバイナリ処理の平均因果効果に興味があるとする。
共同創設者は観察されていないが、その非微分バイナリプロキシが観察されていると仮定する。
我々は、プロキシの調整が計算不能な真の平均因果効果に近づく条件を、まったく調整しないよりも特定する。
他の作品と異なり、共同創設者の成果に対する平均因果効果は、治療と未治療の間に同じ方向にあるとは考えていない。 Suppose that we are interested in the average causal effect of a binary treatment on an outcome when this relationship is confounded by a binary confounder. Suppose that the confounder is unobserved but a non-differential binary proxy of it is observed. We identify conditions under which adjusting for the proxy comes closer to the incomputable true average causal effect than not adjusting at all. Unlike other works, we do not assume that the average causal effect of the confounder on the outcome is in the same direction among treated and untreated. | 翻訳日:2021-03-22 01:31:20 公開日:2021-01-28 |
# 二次残留ネットワーク:PDEを含む物理学における前方および逆問題の解法のためのニューラルネットワークの新しいクラス Quadratic Residual Networks: A New Class of Neural Networks for Solving Forward and Inverse Problems in Physics Involving PDEs ( http://arxiv.org/abs/2101.08366v2 ) ライセンス: Link先を確認 | Jie Bu, Anuj Karpatne | (参考訳) 活性化関数を適用する前に入力の重み付け和に2次残差項を追加することにより、パラメータ効率のよいニューラルネットアーキテクチャの新たなタイプとして2次残差ネットワーク(QRes)を提案する。
十分に高い機能能力(あるいは表現力)で、偏微分方程式(PDE)を含む前方および逆物理問題を解くには特に強力であることを示す。
代数幾何学のツールを用いて、従来のニューラルネットワークとは対照的に、qreは各ニューロンの非線形性が高いため、ネットワーク幅と深さの点でより良いパラメータ効率を示すことを理論的に証明する。
最後に、特に複雑なパターンの学習において、qreはトレーニング回数の点で収束速度が速いことを実証的に示す。 We propose quadratic residual networks (QRes) as a new type of parameter-efficient neural network architecture, by adding a quadratic residual term to the weighted sum of inputs before applying activation functions. With sufficiently high functional capacity (or expressive power), we show that it is especially powerful for solving forward and inverse physics problems involving partial differential equations (PDEs). Using tools from algebraic geometry, we theoretically demonstrate that, in contrast to plain neural networks, QRes shows better parameter efficiency in terms of network width and depth thanks to higher non-linearity in every neuron. Finally, we empirically show that QRes shows faster convergence speed in terms of number of training epochs especially in learning complex patterns. | 翻訳日:2021-03-22 01:16:55 公開日:2021-01-28 |
# 計算物理学における機械学習のためのtaylorに基づくサンプリングスキーム A Taylor Based Sampling Scheme for Machine Learning in Computational Physics ( http://arxiv.org/abs/2101.11105v2 ) ライセンス: Link先を確認 | Paul Novello (CEA, Inria, X), Ga\"el Po\"ette (CEA), David Lugato (CEA), Pietro Congedo (Inria, X) | (参考訳) 機械学習(ML)は、物理シミュレーションのための代理モデルを構築するためにますます使われる。
数値シミュレーションプログラムによるデータ生成の利点を生かして,機械学習モデルのトレーニングを効率化し,性能コストを伴わずに精度向上を実現する。
本稿では,通常の微分方程式(ODE)システムの解を学習する際のディープニューラルネットワーク(DNN)の誤差を低減するために,テイラー近似に基づく新しいデータサンプリング手法について述べる。 Machine Learning (ML) is increasingly used to construct surrogate models for physical simulations. We take advantage of the ability to generate data using numerical simulations programs to train ML models better and achieve accuracy gain with no performance cost. We elaborate a new data sampling scheme based on Taylor approximation to reduce the error of a Deep Neural Network (DNN) when learning the solution of an ordinary differential equations (ODE) system. | 翻訳日:2021-03-22 01:15:58 公開日:2021-01-28 |
# (参考訳) 時間的動作定位のためのアクティビティグラフトランスフォーマー Activity Graph Transformer for Temporal Action Localization ( http://arxiv.org/abs/2101.08540v2 ) ライセンス: CC BY 4.0 | Megha Nawhal, Greg Mori | (参考訳) 本稿では,時間的行動ローカライゼーションのためのエンドツーエンドの学習可能なモデルであるActivity Graph Transformerを紹介し,映像を入力として受信し,ビデオに現れる一連のアクションインスタンスを直接予測する。
非トリミングビデオにおけるアクションインスタンスの検出とローカライズには、ビデオ内の複数のアクションインスタンスを推論する必要がある。
文学における支配的なパラダイムは、動画を時間的に処理し、アクション領域を提案するか、フレームレベルの検出を直接生成する。
しかし、ビデオの逐次処理は、アクションインスタンスが重複したアクションインスタンスや、ビデオの経過中にアクションインスタンスが再帰するなど、非シーケンス依存および/または非線形の一時的な順序を持つ場合に問題となる。
本研究では,この非線形時間構造をグラフ形式で非系列エンティティとして推論することで捉えた。
我々は,挑戦的データセット(THUMOS14,Charades,EPIC-Kitchens-100。
以上の結果から,提案モデルが最先端モデルに匹敵する可能性が示唆された。 We introduce Activity Graph Transformer, an end-to-end learnable model for temporal action localization, that receives a video as input and directly predicts a set of action instances that appear in the video. Detecting and localizing action instances in untrimmed videos requires reasoning over multiple action instances in a video. The dominant paradigms in the literature process videos temporally to either propose action regions or directly produce frame-level detections. However, sequential processing of videos is problematic when the action instances have non-sequential dependencies and/or non-linear temporal ordering, such as overlapping action instances or re-occurrence of action instances over the course of the video. In this work, we capture this non-linear temporal structure by reasoning over the videos as non-sequential entities in the form of graphs. We evaluate our model on challenging datasets: THUMOS14, Charades, and EPIC-Kitchens-100. Our results show that our proposed model outperforms the state-of-the-art by a considerable margin. | 翻訳日:2021-03-21 16:24:22 公開日:2021-01-28 |
# 自家用スパースRNNトレーニング Selfish Sparse RNN Training ( http://arxiv.org/abs/2101.09048v2 ) ライセンス: Link先を確認 | Shiwei Liu, Decebal Constantin Mocanu, Yulong Pei, Mykola Pechenizkiy | (参考訳) スパースニューラルネットワークは、オーバーパラメータ化されたディープニューラルネットワークのトレーニングとデプロイに必要なリソース要件を減らすために広く応用されている。
推論加速には、事前訓練された高密度ネットワーク(dense-to-sparse)から空間性を誘導する手法が効果的に働く。
近年,密度の高いネットワーク(スパースからスパース)を事前学習することなくスパースニューラルネットワークをトレーニングするために動的スパーストレーニング(dst)が提案されている。
しかし,従来のスパース・ツー・スパース法は主にマルチレイヤ・パーセプトロン・ネットワーク(MLP)と畳み込みニューラルネットワーク(CNN)に重点を置いており,リカレント・ニューラルネットワーク(RNN)設定における密分・スパース法の性能にマッチしない。
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
トレーニング中、より良い正規化のために、rnn層がセルゲートを横断する非一様再分配を許可する。
さらに,SNT-ASGDを導入することで,RNNのスパース学習手法の性能を大幅に向上させる。
これらの戦略を用いて,penn treebank と wikitext-2 データセット上の様々なタイプの rnn を用いて,最先端のスパーストレーニング結果を得る。 Sparse neural networks have been widely applied to reduce the necessary resource requirements to train and deploy over-parameterized deep neural networks. For inference acceleration, methods that induce sparsity from a pre-trained dense network (dense-to-sparse) work effectively. Recently, dynamic sparse training (DST) has been proposed to train sparse neural networks without pre-training a dense network (sparse-to-sparse), so that the training process can also be accelerated. However, previous sparse-to-sparse methods mainly focus on Multilayer Perceptron Networks (MLPs) and Convolutional Neural Networks (CNNs), failing to match the performance of dense-to-sparse methods in Recurrent Neural Networks (RNNs) setting. In this paper, we propose an approach to train sparse RNNs with a fixed parameter count in one single run, without compromising performance. During training, we allow RNN layers to have a non-uniform redistribution across cell gates for a better regularization. Further, we introduce SNT-ASGD, a variant of the averaged stochastic gradient optimizer, which significantly improves the performance of all sparse training methods for RNNs. Using these strategies, we achieve state-of-the-art sparse training results with various types of RNNs on Penn TreeBank and Wikitext-2 datasets. | 翻訳日:2021-03-20 17:30:08 公開日:2021-01-28 |
# 行動検証によるフェデレーション学習における無標的中毒攻撃検出 Untargeted Poisoning Attack Detection in Federated Learning via Behavior Attestation ( http://arxiv.org/abs/2101.10904v2 ) ライセンス: Link先を確認 | Ranwa Al Mallah, David Lopez, Bilal Farooq | (参考訳) Federated Learning(FL)は機械学習(ML)のパラダイムであり、分散ノードを使用してグローバルモデルをトレーニングすることで、データのプライバシ、セキュリティ、アクセス権、異種情報へのアクセスに対処する。
その利点にもかかわらず、flベースのml技術によるサイバー攻撃は利益を損なう可能性がある。
FLに対するモデルポゾニング攻撃はモデルの可用性を目標とする。
敵対的な目的は訓練を中断することです。
悪意のあるワーカを検出するために,状態永続化を通じて個々のノードのトレーニングを監視する防御機構であるattestedflを提案する。
作業者の履歴のきめ細かい評価は、その行動の時間的評価を可能にし、革新的な検出戦略をもたらす。
ノードが本当に訓練されているかを観察し、目標に向かって進むことにより、作業者が信頼できるかどうかを評価することを目的とした3つの防衛線を示す。
我々の防御は攻撃者の悪意ある振る舞いを露呈し、信頼できないノードを集約プロセスから取り除き、FLプロセスはより早く収束する。
広範囲な評価とさまざまな敵対的設定により、AttestedFLは、収束の異なる段階で実行される攻撃、攻撃者が衝突し、連続攻撃などの異なるシナリオの下で、モデルの精度を12%から58%に向上させた。 Federated Learning (FL) is a paradigm in Machine Learning (ML) that addresses data privacy, security, access rights and access to heterogeneous information issues by training a global model using distributed nodes. Despite its advantages, there is an increased potential for cyberattacks on FL-based ML techniques that can undermine the benefits. Model-poisoning attacks on FL target the availability of the model. The adversarial objective is to disrupt the training. We propose attestedFL, a defense mechanism that monitors the training of individual nodes through state persistence in order to detect a malicious worker. A fine-grained assessment of the history of the worker permits the evaluation of its behavior in time and results in innovative detection strategies. We present three lines of defense that aim at assessing if the worker is reliable by observing if the node is really training, advancing towards a goal. Our defense exposes an attacker's malicious behavior and removes unreliable nodes from the aggregation process so that the FL process converge faster. Through extensive evaluations and against various adversarial settings, attestedFL increased the accuracy of the model between 12% to 58% under different scenarios such as attacks performed at different stages of convergence, attackers colluding and continuous attacks. | 翻訳日:2021-03-16 09:16:56 公開日:2021-01-28 |
# (参考訳) El Volumen Louder Por Favor:タスク指向セマンティックパーシングにおけるコードスイッチング El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic Parsing ( http://arxiv.org/abs/2101.10524v3 ) ライセンス: CC BY 4.0 | Arash Einolghozati, Abhinav Arora, Lorena Sainz-Maza Lecanda, Anuj Kumar, Sonal Gupta | (参考訳) スペイン語+英語やヒンディー語+英語などのコードスイッチト(CS)音声を解析できることは、タスク指向のセマンティックパーシングシステムを特定のローカル向けに民主化する上で不可欠である。
本研究では,スパングリッシュ(スペイン語+英語)に焦点を当て,セマンティックパースと合わせて5800のCS発話を含むデータセットCSTOPをリリースする。
各種言語間(XL)モデルのCS一般化性について検討し,1つの言語のみのデータが存在する場合,事前学習したXL言語モデルの利点を示す。
そのため、ゼロまたはいくつかのCSトレーニングインスタンスが利用可能な英語のコーパスのみの場合のトレーニング済みモデルの改善に重点を置いています。
本研究では,0ショットと数ショットの2つのデータ拡張手法を提案する。翻訳と整列による微調整と,生成モデルによる拡張と,それに続くマッチングとフィルタである。
上記の改善と数ショット設定を組み合わせることで、ゼロショットとフルデータ設定の間の最初の30ポイント精度のギャップを2/3減らすことができる。 Being able to parse code-switched (CS) utterances, such as Spanish+English or Hindi+English, is essential to democratize task-oriented semantic parsing systems for certain locales. In this work, we focus on Spanglish (Spanish+English) and release a dataset, CSTOP, containing 5800 CS utterances alongside their semantic parses. We examine the CS generalizability of various Cross-lingual (XL) models and exhibit the advantage of pre-trained XL language models when data for only one language is present. As such, we focus on improving the pre-trained models for the case when only English corpus alongside either zero or a few CS training instances are available. We propose two data augmentation methods for the zero-shot and the few-shot settings: fine-tune using translate-and-align and augment using a generation model followed by match-and-filter. Combining the few-shot setting with the above improvements decreases the initial 30-point accuracy gap between the zero-shot and the full-data settings by two thirds. | 翻訳日:2021-03-14 14:50:54 公開日:2021-01-28 |
# (参考訳) EPIC-Survival: end-to-end Part Inferred Clustering for Survival Analysis, Featuring Prognostic Stratification Boosting EPIC-Survival: End-to-end Part Inferred Clustering for Survival Analysis, Featuring Prognostic Stratification Boosting ( http://arxiv.org/abs/2101.11085v2 ) ライセンス: CC BY 4.0 | Hassan Muhammad, Chensu Xie, Carlie S. Sigel, Michael Doukas, Lindsay Alpert, and Thomas J. Fuchs | (参考訳) 組織病理に基づく生存モデルには2つの大きなハードルがある。
第一に、がん患者コホートが異なるリスクグループに成層化に寄与しない場合、好ましくは組織学的形態によって誘導される場合、良好な生存モデルが最小限の臨床応用を有する。
臨床環境では、個人は特定の予後予測を与えられるのではなく、一般的な生存傾向を持つリスクグループ内にあると予測される。
したがって、生存モデルが十分にストラティファイドされたリスクグループを生成することは不可欠です。
第二に、これまで生存モデリングは、2段階のアプローチ(エンコーディングとアグリゲーション)で行われていました。
デジタル化されたスライド画像中の大量のピクセルは、データ処理の技術的制約のために最大限に活用されることはなかった。
EPIC-Survival Bridges encoding and aggregate into a end-to-endvivment modelling approach, while introduced Stratification boosting to the model to encourage the top top, and to discrimination between risk group。
本研究では、肝内胆管癌のモデル化においてEPIC-Survivalが他のアプローチよりも優れていることを示した。
さらに、成層化促進はモデル性能をさらに改善し、ホールドアウトテストセットで0.880の整合インデクスをもたらすことを示した。
また,ICCでは,低リスク群と高リスク群では,特に組織学的差異は認められなかった。 Histopathology-based survival modelling has two major hurdles. Firstly, a well-performing survival model has minimal clinical application if it does not contribute to the stratification of a cancer patient cohort into different risk groups, preferably driven by histologic morphologies. In the clinical setting, individuals are not given specific prognostic predictions, but are rather predicted to lie within a risk group which has a general survival trend. Thus, It is imperative that a survival model produces well-stratified risk groups. Secondly, until now, survival modelling was done in a two-stage approach (encoding and aggregation). The massive amount of pixels in digitized whole slide images were never utilized to their fullest extent due to technological constraints on data processing, forcing decoupled learning. EPIC-Survival bridges encoding and aggregation into an end-to-end survival modelling approach, while introducing stratification boosting to encourage the model to not only optimize ranking, but also to discriminate between risk groups. In this study we show that EPIC-Survival performs better than other approaches in modelling intrahepatic cholangiocarcinoma, a historically difficult cancer to model. Further, we show that stratification boosting improves further improves model performance, resulting in a concordance-index of 0.880 on a held-out test set. Finally, we were able to identify specific histologic differences, not commonly sought out in ICC, between low and high risk groups. | 翻訳日:2021-03-14 01:30:41 公開日:2021-01-28 |
# リモートセンシングのための量子機械学習の利点とボトルネック Advantages and Bottlenecks of Quantum Machine Learning for Remote Sensing ( http://arxiv.org/abs/2101.10657v2 ) ライセンス: Link先を確認 | Daniela A. Zaidenberg, Alessandro Sebastianelli, Dario Spiller, Silvia Liberata Ullo | (参考訳) 本稿では,量子コンピュータの概要,量子画像分類手法の既存手法の探求,リモートセンシングアプリケーションを中心に,これらのアルゴリズムを現在利用可能なオープンソースプラットフォーム上で実行するボトルネックについて論じる。
最初の結果は実現可能性を示す。
次のステップでは、量子隠蔽層のサイズを拡大し、さまざまな出力イメージオプションを拡大する。 This concept paper aims to provide a brief outline of quantum computers, explore existing methods of quantum image classification techniques, so focusing on remote sensing applications, and discuss the bottlenecks of performing these algorithms on currently available open source platforms. Initial results demonstrate feasibility. Next steps include expanding the size of the quantum hidden layer and increasing the variety of output image options. | 翻訳日:2021-03-13 20:01:17 公開日:2021-01-28 |
# CPTR:画像キャプチャのためのフルトランスネットワーク CPTR: Full Transformer Network for Image Captioning ( http://arxiv.org/abs/2101.10804v3 ) ライセンス: Link先を確認 | Wei Liu, Sihan Chen, Longteng Guo, Xinxin Zhu, Jing Liu | (参考訳) 本稿では,画像キャプションタスクを新しいシーケンスからシーケンスへ予測する視点から検討し,逐次的なraw画像をトランスフォーマティブに入力するキャプショントランスフォーマ(cptr)を提案する。
cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化でき,完全に畳み込み不要である。
MSCOCOデータセット上で,提案モデルの有効性を実証し,従来のCNN+Transformer法を超越した実験を行った。
さらに、エンコーダのパッチとデコーダの"words-to-patches"注意の間の自己アテンションを、完全なトランスフォーマアーキテクチャによって詳細に可視化する。 In this paper, we consider the image captioning task from a new sequence-to-sequence prediction perspective and propose CaPtion TransformeR (CPTR) which takes the sequentialized raw images as the input to Transformer. Compared to the "CNN+Transformer" design paradigm, our model can model global context at every encoder layer from the beginning and is totally convolution-free. Extensive experiments demonstrate the effectiveness of the proposed model and we surpass the conventional "CNN+Transformer" methods on the MSCOCO dataset. Besides, we provide detailed visualizations of the self-attention between patches in the encoder and the "words-to-patches" attention in the decoder thanks to the full Transformer architecture. | 翻訳日:2021-03-13 19:51:43 公開日:2021-01-28 |
# ドメイン適応セマンティックセマンティックセグメンテーションのためのPseudo Label Denoisingとターゲット構造学習 Prototypical Pseudo Label Denoising and Target Structure Learning for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2101.10979v2 ) ライセンス: Link先を確認 | Pan Zhang, Bo Zhang, Ting Zhang, Dong Chen, Yong Wang, Fang Wen | (参考訳) 自己トレーニングは、ターゲットドメイン上の擬似ラベルでネットワークを訓練するドメイン適応セグメンテーションにおける競争的なアプローチです。
しかし、必然的に、擬似ラベルは騒々しく、ソースとターゲットドメインの相違のためにターゲット特徴は分散されます。
本稿では,教師なしドメイン適応のための2つの問題に対処するために,クラスの特徴センタロイドである代表的なプロトタイプに依存する。
特に、さらに一歩進めて、単なるプロトタイプよりも豊富な情報を提供するプロトタイプからの特徴距離を活用します。
具体的には、擬似ラベルの可能性を推定し、トレーニング中のオンライン修正を容易にする。
一方、同じターゲットの2つの異なるビューに対して、相対的特徴距離に基づいて原型割り当てを調整し、よりコンパクトなターゲット特徴空間を生成する。
さらに,学習済みの知識を自己教師付き事前学習モデルに蒸留することで,さらなる性能向上が期待できる。
本手法は最先端手法よりも優れた性能を示す。
私たちはそのコードを公開します。 Self-training is a competitive approach in domain adaptive segmentation, which trains the network with the pseudo labels on the target domain. However inevitably, the pseudo labels are noisy and the target features are dispersed due to the discrepancy between source and target domains. In this paper, we rely on representative prototypes, the feature centroids of classes, to address the two issues for unsupervised domain adaptation. In particular, we take one step further and exploit the feature distances from prototypes that provide richer information than mere prototypes. Specifically, we use it to estimate the likelihood of pseudo labels to facilitate online correction in the course of training. Meanwhile, we align the prototypical assignments based on relative feature distances for two different views of the same target, producing a more compact target feature space. Moreover, we find that distilling the already learned knowledge to a self-supervised pretrained model further boosts the performance. Our method shows tremendous performance advantage over state-of-the-art methods. We will make the code publicly available. | 翻訳日:2021-03-13 19:50:48 公開日:2021-01-28 |
# (参考訳) LSTM-SAKT: LSTMエンコードSAKTライクトランス for Knowledge Tracing, 2位ソリューション for Riiid!
答えの正確性予測 LSTM-SAKT: LSTM-Encoded SAKT-like Transformer for Knowledge Tracing, 2nd place solution for Riiid! Answer Correctness Prediction ( http://arxiv.org/abs/2102.00845v1 ) ライセンス: CC BY 4.0 | Takashi Oya and Shigeo Morishima | (参考訳) 本稿では,Riiid!の2位解について紹介する。
Answer Correctness Prediction in Kaggle - 世界最大のデータサイエンスコンペティションサイト。
この大会は2020年10月16日から2021年1月7日まで開催され、3395チームと4387の競技者が参加した。
本論文の主な洞察と貢献は以下のとおりである。
(i)既存のトランスフォーマーモデルでは、クエリー/キー/値が含んでいる情報が限られていることが指摘されている。
そこで我々は,LSTMを用いてクエリ/キー/値を得る手法を提案し,その有効性を検証した。
(ii) 質問が混在するデータセットで発生する‘コンテナ間’リーク問題について指摘した。
この問題を解決するために、RNN-variants と Transformer を使用する際に有用な特別なインデックス化/マスキング手法を示した。
(iii) 変圧器の限界を克服するために手作りの付加的な特徴が有効であり, シーケンス長よりも古いサンプルは考慮できないことがわかった。 This paper introduces the 2nd place solution for the Riiid! Answer Correctness Prediction in Kaggle, the world's largest data science competition website. This competition was held from October 16, 2020, to January 7, 2021, with 3395 teams and 4387 competitors. The main insights and contributions of this paper are as follows. (i) We pointed out existing Transformer-based models are suffering from a problem that the information which their query/key/value can contain is limited. To solve this problem, we proposed a method that uses LSTM to obtain query/key/value and verified its effectiveness. (ii) We pointed out 'inter-container' leakage problem, which happens in datasets where questions are sometimes served together. To solve this problem, we showed special indexing/masking techniques that are useful when using RNN-variants and Transformer. (iii) We found additional hand-crafted features are effective to overcome the limits of Transformer, which can never consider the samples older than the sequence length. | 翻訳日:2021-02-03 04:57:26 公開日:2021-01-28 |
# (参考訳) VRoC:テキストに基づく変分オートエンコーダ支援マルチタスク噂分類器 VRoC: Variational Autoencoder-aided Multi-task Rumor Classifier Based on Text ( http://arxiv.org/abs/2102.00816v1 ) ライセンス: CC BY 4.0 | Mingxi Cheng, Shahin Nazarian, Paul Bogdan | (参考訳) ソーシャルメディアが普及し、私たちの日常生活のほぼすべての側面に浸透した。
オンライン投稿は個々のユーザーにとって非常に便利だが、様々な噂の流布を促進する。
噂の迅速かつ広い浸透は、永続的な有害または有害な影響を引き起こす可能性があります。
したがって、研究者は噂のネガティブな影響を減らすことに多大な努力を払っている。
この目的のために、噂分類システムはソーシャルメディアの噂を検出し、追跡し、検証することを目的としています。
このようなシステムは通常、 (i) 噂検出器、 (ii) 噂追跡器、 (iii) 姿勢分類器、 (iv) 精度分類器の4つの構成要素を含む。
噂検出,追跡,検証の最先端性を改善するために,ツイートレベルの変分自動エンコーダに基づく噂分類システムであるVRoCを提案する。
VRoCは、変分オートエンコーダ(VAE)と噂の分類コンポーネントを訓練するコトレインエンジンで構成されている。
コトレインエンジンは、VAEが潜在表現を分類器フレンドリに調整するのに役立ちます。
また、VRoCが未確認の噂を高い精度で分類できることも示しています。
PHEMEデータセットでは、VRoCは観測された噂と観測されていない噂の両方において、マクロF1スコアで最大26.9%の最先端技術より一貫して優れている。 Social media became popular and percolated almost all aspects of our daily lives. While online posting proves very convenient for individual users, it also fosters fast-spreading of various rumors. The rapid and wide percolation of rumors can cause persistent adverse or detrimental impacts. Therefore, researchers invest great efforts on reducing the negative impacts of rumors. Towards this end, the rumor classification system aims to detect, track, and verify rumors in social media. Such systems typically include four components: (i) a rumor detector, (ii) a rumor tracker, (iii) a stance classifier, and (iv) a veracity classifier. In order to improve the state-of-the-art in rumor detection, tracking, and verification, we propose VRoC, a tweet-level variational autoencoder-based rumor classification system. VRoC consists of a co-train engine that trains variational autoencoders (VAEs) and rumor classification components. The co-train engine helps the VAEs to tune their latent representations to be classifier-friendly. We also show that VRoC is able to classify unseen rumors with high levels of accuracy. For the PHEME dataset, VRoC consistently outperforms several state-of-the-art techniques, on both observed and unobserved rumors, by up to 26.9%, in terms of macro-F1 scores. | 翻訳日:2021-02-03 01:01:28 公開日:2021-01-28 |
# (参考訳) CoordiQ : 電気自動車充電レコメンデーションのための協調Qラーニング CoordiQ : Coordinated Q-learning for Electric Vehicle Charging Recommendation ( http://arxiv.org/abs/2102.00847v1 ) ライセンス: CC BY 4.0 | Carter Blum, Hao Liu, Hui Xiong | (参考訳) 電気自動車の利用は急速に増加しているが、充電するステーションは需要に応えてはいないため、効率のよいステーションへの車両のルーティングは、最大効率で運用するには不可欠である。
どの駅にドライバーを推薦するかを決めることは、多くの可能性のある推奨事項、揮発性利用パターン、および時間的に推奨の延長結果を伴う複雑な問題です。
強化学習は、シーケンシャルな意思決定問題を解決するための強力なパラダイムを提供するが、従来の手法は、起こりうるアクションの数が多いため、サンプル効率に苦しむことがある。
動作の複雑な表現を可能にするモデルを開発することにより,シミュレーションにおける既存のベースラインと比較して,システム利用者の成果を30%以上改善する。
広く実装されれば、これらのより良い推奨事項は、毎年400万人以上の待ち時間や運転時間を節約できます。 Electric vehicles have been rapidly increasing in usage, but stations to charge them have not always kept up with demand, so efficient routing of vehicles to stations is critical to operating at maximum efficiency. Deciding which stations to recommend drivers to is a complex problem with a multitude of possible recommendations, volatile usage patterns and temporally extended consequences of recommendations. Reinforcement learning offers a powerful paradigm for solving sequential decision-making problems, but traditional methods may struggle with sample efficiency due to the high number of possible actions. By developing a model that allows complex representations of actions, we improve outcomes for users of our system by over 30% when compared to existing baselines in a simulation. If implemented widely, these better recommendations can globally save over 4 million person-hours of waiting and driving each year. | 翻訳日:2021-02-02 19:30:13 公開日:2021-01-28 |
# Jane Jacobs in the Sky: Predicting Urban Vitality with Open Satellite Data Jane Jacobs in the Sky: Predicting Urban Vitality with Open Satellite Data ( http://arxiv.org/abs/2102.00848v1 ) ライセンス: Link先を確認 | Sanja \v{S}\'cepanovi\'c, Sagar Joglekar, Stephen Law, Daniele Quercia | (参考訳) 一日中の都市部の人々の存在(しばしば「都市活力」と呼ばれる)は、世界クラスの都市が最も熱望する質の1つだが、達成するのが最も難しいことの1つである。
1970年代に、ジェーン・ジェイコブスは都市活力を理論化し、都市における生活の促進に必要な4つの条件があることを発見した:土地利用の多様性、小さなブロックサイズ、経済活動の混合、人々の集中。
これら4つの条件のプロキシを構築し、最終的にジェーン・ジェイコブスの理論を大規模に検証するために、研究者は様々なソースからプライベートデータとパブリックデータの両方を収集しなければならなかった。
ここでは、Sentinel-2衛星画像が一般に公開されている1つのデータソースの使用を提案します。
特に,最初の2つの条件(土地利用の多様性と小ブロックサイズ)は衛星画像から肉眼で見られるため,最先端のディープラーニングフレームワークで自動的に抽出できるかどうか,最終的に抽出した特徴が活力を予測できるかどうかを検証した。
イタリアの6都市でデータ記録を呼び出したところ、我々の枠組みは、これらの記録から抽出された都市活力の変動の55%を平均で説明できることがわかった。 The presence of people in an urban area throughout the day -- often called 'urban vitality' -- is one of the qualities world-class cities aspire to the most, yet it is one of the hardest to achieve. Back in the 1970s, Jane Jacobs theorized urban vitality and found that there are four conditions required for the promotion of life in cities: diversity of land use, small block sizes, the mix of economic activities, and concentration of people. To build proxies for those four conditions and ultimately test Jane Jacobs's theory at scale, researchers have had to collect both private and public data from a variety of sources, and that took decades. Here we propose the use of one single source of data, which happens to be publicly available: Sentinel-2 satellite imagery. In particular, since the first two conditions (diversity of land use and small block sizes) are visible to the naked eye from satellite imagery, we tested whether we could automatically extract them with a state-of-the-art deep-learning framework and whether, in the end, the extracted features could predict vitality. In six Italian cities for which we had call data records, we found that our framework is able to explain on average 55% of the variance in urban vitality extracted from those records. | 翻訳日:2021-02-02 15:34:00 公開日:2021-01-28 |
# (参考訳) 事前学習言語モデルと構造化知識の組み合わせ Combining pre-trained language models and structured knowledge ( http://arxiv.org/abs/2101.12294v1 ) ライセンス: CC BY 4.0 | Pedro Colon-Hernandez, Catherine Havasi, Jason Alonso, Matthew Huggins, Cynthia Breazeal | (参考訳) 近年、トランスフォーマーベースの言語モデルが様々なnlpベンチマークで最先端の技術性能を達成している。
これらのモデルは、非構造化テキストから、ほとんど分布的情報といくつかの意味論を抽出できるが、知識グラフなどの構造化情報をこれらのモデルに統合することは困難であることが証明されている。
我々は、構造化知識を現在の言語モデルに統合し、課題を特定し、構造化情報と非構造化情報の両方を活用するための様々なアプローチを検討する。
私たちの調査から、アダプターベースのインジェクションを活用する機会がまだあり、探索されたさまざまなアプローチを1つのシステムにさらに組み合わせることが可能であることが分かりました。 In recent years, transformer-based language models have achieved state of the art performance in various NLP benchmarks. These models are able to extract mostly distributional information with some semantics from unstructured text, however it has proven challenging to integrate structured information, such as knowledge graphs into these models. We examine a variety of approaches to integrate structured knowledge into current language models and determine challenges, and possible opportunities to leverage both structured and unstructured information sources. From our survey, we find that there are still opportunities at exploiting adapter-based injections and that it may be possible to further combine various of the explored approaches into one system. | 翻訳日:2021-02-02 04:27:25 公開日:2021-01-28 |
# (参考訳) 位置、パディング、予測:CNNにおける位置情報のより深い考察 Position, Padding and Predictions: A Deeper Look at Position Information in CNNs ( http://arxiv.org/abs/2101.12322v1 ) ライセンス: CC0 1.0 | Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, and Neil D. B. Bruce | (参考訳) 完全接続されたネットワークとは対照的に、畳み込みニューラルネットワーク(cnns)は、有限の空間範囲の局所フィルタに関連する重みを学習することで効率を上げる。
この意味は、フィルタが見ているものを知っているかもしれないが、それが画像に配置されている場所ではないということです。
本稿では,まずこの仮説を検証し,一般的なCNNにおいて絶対位置情報が符号化されていることを示す。
ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。
これはCNNにおける位置情報の役割についてのより深い質問を引き起こします。(i) 下流タスクに最適な位置エンコーディングを可能にする境界ヒューリスティックは?
; (ii) 位置エンコーディングは意味表現の学習に影響を与えるか?
; (iii) 位置エンコーディングは常にパフォーマンスを改善しますか?
そこで我々は,CNNにおけるパディングと境界ヒューリスティックスの役割について,これまでで最大規模のケーススタディを実施している。
境界までの距離の関数として境界効果を定量化できる新しいタスクを設計します。
多くの意味的目的が境界が意味表現に与える影響を明らかにしている。
最後に、これらの発見が複数の実世界のタスクに与える影響を実証し、位置情報がパフォーマンスの助けになるか、あるいは損なうかを示す。 In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. In this paper, we first test this hypothesis and reveal that a surprising degree of absolute position information is encoded in commonly used CNNs. We show that zero padding drives CNNs to encode position information in their internal representations, while a lack of padding precludes position encoding. This gives rise to deeper questions about the role of position information in CNNs: (i) What boundary heuristics enable optimal position encoding for downstream tasks?; (ii) Does position encoding affect the learning of semantic representations?; (iii) Does position encoding always improve performance? To provide answers, we perform the largest case study to date on the role that padding and border heuristics play in CNNs. We design novel tasks which allow us to quantify boundary effects as a function of the distance to the border. Numerous semantic objectives reveal the effect of the border on semantic representations. Finally, we demonstrate the implications of these findings on multiple real-world tasks to show that position information can both help or hurt performance. | 翻訳日:2021-02-02 02:46:38 公開日:2021-01-28 |
# (参考訳) 複雑値ニューラルネットワークに関する研究 A Survey of Complex-Valued Neural Networks ( http://arxiv.org/abs/2101.12249v1 ) ライセンス: CC BY 4.0 | Joshua Bassey, Lijun Qian, Xianfang Li | (参考訳) 人工知能ニューラルネットワーク(ANN)ベースの機械学習モデル、特にディープラーニングモデルは、コンピュータビジョン、信号処理、無線通信など、複雑な数値が自然あるいは設計によって発生する多くの分野に広く適用されている。
しかし、現在のANNと機械学習フレームワークの実装のほとんどは、複素数ではなく実数を使っている。
複素数を用いてANNを構築することに関心が高まり、現実値のそれに対するいわゆる複素値ニューラルネットワーク(CVNN)の潜在的なアドバンテージを探求する。
本稿では,CVNNの最近の発展について,文献におけるCVNNに関する研究を実践して論じる。
具体的には、アクティベーション機能、学習と最適化、入力と出力の表現、および信号処理やコンピュータビジョンなどのタスクにおけるそれらの応用に関する詳細なレビューを行い、それに続くいくつかの課題と今後の研究方向性について論じる。 Artificial neural networks (ANNs) based machine learning models and especially deep learning models have been widely applied in computer vision, signal processing, wireless communications, and many other domains, where complex numbers occur either naturally or by design. However, most of the current implementations of ANNs and machine learning frameworks are using real numbers rather than complex numbers. There are growing interests in building ANNs using complex numbers, and exploring the potential advantages of the so-called complex-valued neural networks (CVNNs) over their real-valued counterparts. In this paper, we discuss the recent development of CVNNs by performing a survey of the works on CVNNs in the literature. Specifically, a detailed review of various CVNNs in terms of activation function, learning and optimization, input and output representations, and their applications in tasks such as signal processing and computer vision are provided, followed by a discussion on some pertinent challenges and future research directions. | 翻訳日:2021-02-02 00:05:16 公開日:2021-01-28 |
# (参考訳) 幾何学からトポロジーへ:分散持続性に対する逆定理 From Geometry to Topology: Inverse Theorems for Distributed Persistence ( http://arxiv.org/abs/2101.12288v1 ) ライセンス: CC BY-SA 4.0 | Elchanan Solomon, Alex Wagner, Paul Bendich | (参考訳) 大点雲 X の「右」位相不変量は何ですか。
それまでの研究は、計算するのに非常に高価で、外れ値に不安定で、十分な統計量からは程遠いXの完全な永続化図の推定に重点を置いていた。
したがって、正しい不変量は X の永続化図ではなく、多くの小さな部分集合の永続化図の集合であることを提案する。
この不変量は「分散永続性」と呼ばれ、自明に並列化可能であり、外れ値に対してより安定であり、リッチな逆理論を持つ。
点群の空間(準アイソメトリーメトリックを持つ)から分散永続不変量の空間(ハウスドルフ・ボトルネック距離を持つ)への写像は、グローバルな準アイソメトリーである。
これは単に注入的であるよりもはるかに強い性質であり、小さな近傍の逆元は小さな近傍であり、我々の知識がtdaの文献においてこの種の結果の唯一のものであることを意味する。
さらに、準等方性境界は取られた部分集合のサイズに依存するので、これらの部分集合のサイズが小さいから大きいほど、不変量は純粋に幾何学的なものと位相的なものの間を補間する。
最後に、我々の逆結果は、実際には固定サイズのすべての部分集合(巨大なコレクション)を考える必要はなく、ランダムに部分集合をサンプリングする際に高い確率で生じる被覆特性を満たす比較的小さな集合である。
これらの理論的結果は、実際に分散持続性の使用を実証する2つの合成実験によって補完される。 What is the "right" topological invariant of a large point cloud X? Prior research has focused on estimating the full persistence diagram of X, a quantity that is very expensive to compute, unstable to outliers, and far from a sufficient statistic. We therefore propose that the correct invariant is not the persistence diagram of X, but rather the collection of persistence diagrams of many small subsets. This invariant, which we call "distributed persistence," is trivially parallelizable, more stable to outliers, and has a rich inverse theory. The map from the space of point clouds (with the quasi-isometry metric) to the space of distributed persistence invariants (with the Hausdorff-Bottleneck distance) is a global quasi-isometry. This is a much stronger property than simply being injective, as it implies that the inverse of a small neighborhood is a small neighborhood, and is to our knowledge the only result of its kind in the TDA literature. Moreover, the quasi-isometry bounds depend on the size of the subsets taken, so that as the size of these subsets goes from small to large, the invariant interpolates between a purely geometric one and a topological one. Lastly, we note that our inverse results do not actually require considering all subsets of a fixed size (an enormous collection), but a relatively small collection satisfying certain covering properties that arise with high probability when randomly sampling subsets. These theoretical results are complemented by two synthetic experiments demonstrating the use of distributed persistence in practice. | 翻訳日:2021-02-01 21:50:02 公開日:2021-01-28 |
# Puzzle-CAM: 部分機能とフル機能のマッチングによるローカリゼーションの改善 Puzzle-CAM: Improved localization via matching partial and full features ( http://arxiv.org/abs/2101.11253v2 ) ライセンス: Link先を確認 | Sanghyun Jo, In-Jae Yu | (参考訳) ピクセルレベルの監督から画像レベルの監督までセマンティックセグメンテーションのパフォーマンスのギャップを狭めるために、Wakly-supervised semantic segmentation (WSSS)が導入された。
ほとんどの高度なアプローチは、セグメンテーションネットワークをトレーニングするために擬似ラベルを生成するクラスアクティベーションマップ(CAM)に基づいている。
WSSSの主な制限は、画像分類器を使用するCAMから擬似ラベルを生成するプロセスが、主にオブジェクトの最も識別性の高い部分に焦点を当てていることである。
そこで本研究では,異なるパッチと画像全体の特徴の違いを最小限に抑えるプロセスであるPuzzle-CAMを提案する。
本手法はパズルモジュールと2つの正規化項からなり,物体の最も統合された領域を探索する。
Puzzle-CAMは、余分なパラメータを必要とせずに、画像レベルの監視を使用してオブジェクトの全体領域を活性化することができる。
実験では,pascal voc 2012テストデータセットの監視に同じラベルを用いた従来の最先端手法を上回っていた。
実験では、Puzzle-CAMはPASCAL VOC 2012データセットの監視のために同じラベルを使用した従来の最先端手法よりも優れていた。
実験に関連するコードは \url{https://github.com/OFRIN/PuzzleCAM} で入手できます。 Weakly-supervised semantic segmentation (WSSS) is introduced to narrow the gap for semantic segmentation performance from pixel-level supervision to image-level supervision. Most advanced approaches are based on class activation maps (CAMs) to generate pseudo-labels to train the segmentation network. The main limitation of WSSS is that the process of generating pseudo-labels from CAMs that use an image classifier is mainly focused on the most discriminative parts of the objects. To address this issue, we propose Puzzle-CAM, a process that minimizes differences between the features from separate patches and the whole image. Our method consists of a puzzle module and two regularization terms to discover the most integrated region in an object. Puzzle-CAM can activate the overall region of an object using image-level supervision without requiring extra parameters. % In experiments, Puzzle-CAM outperformed previous state-of-the-art methods using the same labels for supervision on the PASCAL VOC 2012 test dataset. In experiments, Puzzle-CAM outperformed previous state-of-the-art methods using the same labels for supervision on the PASCAL VOC 2012 dataset. Code associated with our experiments is available at \url{https://github.com/OFRIN/PuzzleCAM}. | 翻訳日:2021-02-01 19:46:44 公開日:2021-01-28 |
# 制約グラフに基づくニューラル文順序付け Neural Sentence Ordering Based on Constraint Graphs ( http://arxiv.org/abs/2101.11178v2 ) ライセンス: Link先を確認 | Yutao Zhu, Kun Zhou, Jian-Yun Nie, Shengchao Liu, Zhicheng Dou | (参考訳) 文順序付けは、正しい順序で文のリストを整理することを目的としている。
異なる距離の文順が異なる種類の情報に依存する可能性があるという観測に基づいて、文間の多粒秩序に基づく新しいアプローチを考案する。
これらの順序は複数の制約グラフを形成し、グラフ同型ネットワークによってエンコードされ、文表現に融合される。
最後に、順序付き文表現を用いて文順を決定する。
5つのベンチマークデータセットを用いた実験により,提案手法は既存のベースラインを著しく上回り,新しい最先端性能を実現していることがわかった。
その結果,複数の順序情報を考慮したグラフニューラルネットワークを用いて文の内容と順序情報を統合するという利点が得られた。
私たちのコードはhttps://github.com/DaoD/ConstraintGraph4NSOで利用可能です。 Sentence ordering aims at arranging a list of sentences in the correct order. Based on the observation that sentence order at different distances may rely on different types of information, we devise a new approach based on multi-granular orders between sentences. These orders form multiple constraint graphs, which are then encoded by Graph Isomorphism Networks and fused into sentence representations. Finally, sentence order is determined using the order-enhanced sentence representations. Our experiments on five benchmark datasets show that our method outperforms all the existing baselines significantly, achieving a new state-of-the-art performance. The results demonstrate the advantage of considering multiple types of order information and using graph neural networks to integrate sentence content and order information for the task. Our code is available at https://github.com/DaoD/ConstraintGraph4NSO. | 翻訳日:2021-02-01 19:41:46 公開日:2021-01-28 |
# 生成型マルチラベルゼロショット学習 Generative Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2101.11606v2 ) ライセンス: Link先を確認 | Akshita Gupta, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Ling Shao, Joost van de Weijer | (参考訳) マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
テストサンプルは、一般化変種に見られるカテゴリも追加で含めることができる。
既存のアプローチは、見たクラスから共有またはラベル固有の注意を学習することに依存します。
それでも、マルチラベル設定での推論中に見つからないクラスに対する信頼性の高い注意マップの計算は依然として課題である。
対照的に、最先端の単一ラベル生成敵対ネットワーク(GAN)ベースのアプローチは、対応するクラス属性埋め込みからクラス固有の視覚機能を直接合成することを学びます。
しかし、gansからマルチラベル機能を合成することは、ゼロショット設定の文脈ではまだ未検討である。
本稿では,属性レベル,機能レベル,クロスレベル(across属性と機能レベル)で異なる融合アプローチを導入し,対応するマルチラベルクラス埋め込みからマルチラベル機能を合成する。
私たちの知識を最大限に活かすために、私たちの仕事は(一般化された)ゼロショット設定におけるマルチラベル機能合成の問題に取り組む最初のものです。
NUS-WIDE、Open Images、MS COCOの3つのゼロショット画像分類ベンチマークで包括的な実験を行います。
当社のクロスレベル融合ベースのジェネレーティブアプローチは、すべての3つのデータセットの最先端を上回ります。
さらに、MS COCOのゼロショット検出タスクにおけるフュージョンアプローチの一般化能力を示し、既存の手法に対して良好な性能を発揮します。
ソースコードはhttps://github.com/akshitac8/Generative_MLZSLで入手できる。 Multi-label zero-shot learning strives to classify images into multiple unseen categories for which no data is available during training. The test samples can additionally contain seen categories in the generalized variant. Existing approaches rely on learning either shared or label-specific attention from the seen classes. Nevertheless, computing reliable attention maps for unseen classes during inference in a multi-label setting is still a challenge. In contrast, state-of-the-art single-label generative adversarial network (GAN) based approaches learn to directly synthesize the class-specific visual features from the corresponding class attribute embeddings. However, synthesizing multi-label features from GANs is still unexplored in the context of zero-shot setting. In this work, we introduce different fusion approaches at the attribute-level, feature-level and cross-level (across attribute and feature-levels) for synthesizing multi-label features from their corresponding multi-label class embedding. To the best of our knowledge, our work is the first to tackle the problem of multi-label feature synthesis in the (generalized) zero-shot setting. Comprehensive experiments are performed on three zero-shot image classification benchmarks: NUS-WIDE, Open Images and MS COCO. Our cross-level fusion-based generative approach outperforms the state-of-the-art on all three datasets. Furthermore, we show the generalization capabilities of our fusion approach in the zero-shot detection task on MS COCO, achieving favorable performance against existing methods. The source code is available at https://github.com/akshitac8/Generative_MLZSL. | 翻訳日:2021-02-01 19:31:11 公開日:2021-01-28 |
# D3DLO:深部3次元LiDARオドメトリー D3DLO: Deep 3D LiDAR Odometry ( http://arxiv.org/abs/2101.12242v1 ) ライセンス: Link先を確認 | Philipp Adis, Nicolas Horst, Mathias Wien | (参考訳) LiDAR odometry (LO) は、その後の LiDAR 点群のアライメントを見つけるタスクを記述する。
このアライメントは、LiDARセンサーが取り付けられているプラットフォームの動きを推定するために使用できます。
現在、有名なKITTI Vision Benchmark Suiteでは、最先端のアルゴリズムが非学習アプローチです。
3Dポイントクラウドを直接処理することでLOを学習するネットワークアーキテクチャを提案します。
KITTIデータセット上で、対応する点のペアを事前に定義することなく、エンドツーエンドでトレーニングされる。
KITTI Vision Benchmark Suiteの評価では、ネットワークパラメータの3.56%しか使用していないにもかかわらず、以前発表されたDeepCLR [1]と同じような性能を示している。
さらに、平面点抽出を適用し、同時に入力サイズを最大50%削減しながら、限界性能が低下する。 LiDAR odometry (LO) describes the task of finding an alignment of subsequent LiDAR point clouds. This alignment can be used to estimate the motion of the platform where the LiDAR sensor is mounted on. Currently, on the well-known KITTI Vision Benchmark Suite state-of-the-art algorithms are non-learning approaches. We propose a network architecture that learns LO by directly processing 3D point clouds. It is trained on the KITTI dataset in an end-to-end manner without the necessity of pre-defining corresponding pairs of points. An evaluation on the KITTI Vision Benchmark Suite shows similar performance to a previously published work, DeepCLR [1], even though our model uses only around 3.56% of the number of network parameters thereof. Furthermore, a plane point extraction is applied which leads to a marginal performance decrease while simultaneously reducing the input size by up to 50%. | 翻訳日:2021-02-01 19:30:27 公開日:2021-01-28 |
# 一様オブジェクト再構成:完全モノトンプリミティブから効率的な非モノトンインフォームド検索へ Uniform Object Rearrangement: From Complete Monotone Primitives to Efficient Non-Monotone Informed Search ( http://arxiv.org/abs/2101.12241v1 ) ライセンス: Link先を確認 | Rui Wang, Kai Gao, Daniel Nakhimovich, Jingjin Yu, Kostas E. Bekris | (参考訳) オブジェクト再配置は、ロボットにとって広く適用可能で挑戦的なタスクです。
幾何学的制約は、物体の数が増えるにつれて衝突や組合せの問題を避けるために慎重に検討されなければならない。
ロボットと物体の衝突は起こらないが、物体と物体の衝突は避けなければならない、均一な物体を並べ替えるアルゴリズム構造を研究する。
目的は、ロボットが一度に1つのオブジェクトを操作できるという前提の下で、オブジェクト転送数を最小化することである。
構成空間の効率的な計算可能な分解は、等価な衝突可能性の連続経路を全て分類する「領域グラフ」を作成するために用いられる。
このコンパクトだがリッチな表現に基づいて、完全な動的プログラミングプリミティブDFSDPは、モノトーン問題、すなわちオブジェクトを最初に中間バッファに移動する必要がないインスタンスを迅速に解決するために、再帰的深度ファーストサーチを実行する。
DFSDPは、オブジェクトとバッファの選択によって、単一バッファ、非モノトンインスタンスを解決するために拡張される。
この作業では、これらのプリミティブをローカルプランナーとして、より一般的な非モノトーンインスタンスのインフォメーション検索フレームワークに活用する。
検索はプリミティブからの部分解を利用して、オブジェクトとバッファの最も有望な選択を識別する。
実験により、提案手法は、他の主要な代替手段よりも、非モノトンインスタンスに挑戦しても、成功率の高い準最適経路を返すことが示された。 Object rearrangement is a widely-applicable and challenging task for robots. Geometric constraints must be carefully examined to avoid collisions and combinatorial issues arise as the number of objects increases. This work studies the algorithmic structure of rearranging uniform objects, where robot-object collisions do not occur but object-object collisions have to be avoided. The objective is minimizing the number of object transfers under the assumption that the robot can manipulate one object at a time. An efficiently computable decomposition of the configuration space is used to create a "region graph", which classifies all continuous paths of equivalent collision possibilities. Based on this compact but rich representation, a complete dynamic programming primitive DFSDP performs a recursive depth first search to solve monotone problems quickly, i.e., those instances that do not require objects to be moved first to an intermediate buffer. DFSDP is extended to solve single-buffer, non-monotone instances, given a choice of an object and a buffer. This work utilizes these primitives as local planners in an informed search framework for more general, non-monotone instances. The search utilizes partial solutions from the primitives to identify the most promising choice of objects and buffers. Experiments demonstrate that the proposed solution returns near-optimal paths with higher success rate, even for challenging non-monotone instances, than other leading alternatives. | 翻訳日:2021-02-01 19:24:33 公開日:2021-01-28 |
# 時間系列回帰と予測のためのニューラルネットワークの自動相関誤差の調整 Adjusting for Autocorrelated Errors in Neural Networks for Time Series Regression and Forecasting ( http://arxiv.org/abs/2101.12578v1 ) ライセンス: Link先を確認 | Fan-Keng Sun and Christopher I. Lang and Duane S. Boning | (参考訳) 多くの場合、既知のパラメトリックモデル構造を用いて時系列データの高精度なモデルを生成することは困難である。
これに対し、ニューラルネットワークを用いて時系列を概ねモデル化する研究が増えている。
時系列でニューラルネットワークをトレーニングする一般的な前提は、異なる時間ステップでのエラーは非相関であるということである。
しかし、データの時間性のため、多くのケースでエラーは自己相関しており、そのような最大推定は不正確である。
本稿では,自己相関係数をモデルパラメータと協調して学習し,自己相関誤差に適応することを提案する。
時系列回帰の場合, 大規模実験では, 特に自己相関が強い場合に, プライス-ウィンステン法を上回っていることが示された。
さらに,本手法を時系列予測に拡張し,様々な最先端モデルで適用する。
実世界のデータセットの広範囲にわたる結果から,本手法はほぼすべてのケースで性能が向上することが示された。 In many cases, it is difficult to generate highly accurate models for time series data using a known parametric model structure. In response, an increasing body of research focuses on using neural networks to model time series approximately. A common assumption in training neural networks on time series is that the errors at different time steps are uncorrelated. However, due to the temporality of the data, errors are actually autocorrelated in many cases, which makes such maximum likelihood estimation inaccurate. In this paper, we propose to learn the autocorrelation coefficient jointly with the model parameters in order to adjust for autocorrelated errors. For time series regression, large-scale experiments indicate that our method outperforms the Prais-Winsten method, especially when the autocorrelation is strong. Furthermore, we broaden our method to time series forecasting and apply it with various state-of-the-art models. Results across a wide range of real-world datasets show that our method enhances performance in almost all cases. | 翻訳日:2021-02-01 19:21:26 公開日:2021-01-28 |
# 胸部X線画像を用いた新型コロナウイルスの信頼性検出 Reliable COVID-19 Detection Using Chest X-ray Images ( http://arxiv.org/abs/2101.12254v1 ) ライセンス: Link先を確認 | Aysen Degerli, Mete Ahishali, Serkan Kiranyaz, Muhammad E. H. Chowdhury, Moncef Gabbouj | (参考訳) コロナウイルス病2019(COVID-19)は、自動、正確、高速なアルゴリズムによるコンピュータ支援診断の必要性が浮上しています。
近年の研究では、胸部X線(CXR)画像上のCOVID-19診断に機械学習アルゴリズムを適用している。
しかし、これらの研究のデータ不足は、オーバーフィットの可能性と深いネットワークのパフォーマンスを制限する信頼性の高い評価を妨げます。
さらに、これらのネットワークは、通常、健康な人からのみ、または時々、限定された肺炎タイプから、covid-19肺炎を区別することができる。
したがって、大規模なCXRデータセット上で評価される堅牢で正確なCOVID-19検出器が必要である。
そこで本研究では,14の異なる胸部疾患と健常者からcovid-19肺炎を識別可能なrecovnetという信頼性の高い検出ネットワークを提案する。
これを達成するために、我々は最大のCOVID-19 CXRデータセットをコンパイルしました:QaTa-COV19 4603 COVID-19サンプルを含む12,616画像。
提案手法は98.57%の感度と99.77%の特異性を持つ検出性能を達成した。 Coronavirus disease 2019 (COVID-19) has emerged the need for computer-aided diagnosis with automatic, accurate, and fast algorithms. Recent studies have applied Machine Learning algorithms for COVID-19 diagnosis over chest X-ray (CXR) images. However, the data scarcity in these studies prevents a reliable evaluation with the potential of overfitting and limits the performance of deep networks. Moreover, these networks can discriminate COVID-19 pneumonia usually from healthy subjects only or occasionally, from limited pneumonia types. Thus, there is a need for a robust and accurate COVID-19 detector evaluated over a large CXR dataset. To address this need, in this study, we propose a reliable COVID-19 detection network: ReCovNet, which can discriminate COVID-19 pneumonia from 14 different thoracic diseases and healthy subjects. To accomplish this, we have compiled the largest COVID-19 CXR dataset: QaTa-COV19 with 124,616 images including 4603 COVID-19 samples. The proposed ReCovNet achieved a detection performance with 98.57% sensitivity and 99.77% specificity. | 翻訳日:2021-02-01 19:09:33 公開日:2021-01-28 |
# 非パラメトリックインストゥルメンタル変数モデルにおける二次関数の適応推定 Adaptive Estimation of Quadratic Functionals in Nonparametric Instrumental Variable Models ( http://arxiv.org/abs/2101.12282v1 ) ライセンス: Link先を確認 | Christoph Breunig, Xiaohong Chen | (参考訳) 本稿では,非パラメトリックインストゥルメンタル変数(NPIV)モデルにおける二次関数の適応的推定について検討する。
NPIVの二次関数の最小値推定は、1つのランダムサンプルを用いた未知演算子による不測の逆回帰の非線形関数の最適推定における重要な問題である。
まず, 四次関数の既約なシーブnpiv推定器は, \cite{bc2020} によって提案される収束率を, 以前に \cite{chenchristensen2017} によって導かれた下限値と一致させる。
minimaxレートは、未知のnpivモデルの特徴に依存する鍵チューニングパラメータ(シーブ次元)の最適選択によって達成される。
次に、Lepskiの手法に基づくチューニングパラメータのデータ駆動選択を提案する。
適応推定器は、重度の不適切な場合には最小値の最適値が得られるが、不規則で軽度の不適切な場合には、乗法的な$\sqrt{\log n}$まで到達する。 This paper considers adaptive estimation of quadratic functionals in the nonparametric instrumental variables (NPIV) models. Minimax estimation of a quadratic functional of a NPIV is an important problem in optimal estimation of a nonlinear functional of an ill-posed inverse regression with an unknown operator using one random sample. We first show that a leave-one-out, sieve NPIV estimator of the quadratic functional proposed by \cite{BC2020} attains a convergence rate that coincides with the lower bound previously derived by \cite{ChenChristensen2017}. The minimax rate is achieved by the optimal choice of a key tuning parameter (sieve dimension) that depends on unknown NPIV model features. We next propose a data driven choice of the tuning parameter based on Lepski's method. The adaptive estimator attains the minimax optimal rate in the severely ill-posed case and in the regular, mildly ill-posed case, but up to a multiplicative $\sqrt{\log n}$ in the irregular, mildly ill-posed case. | 翻訳日:2021-02-01 19:08:57 公開日:2021-01-28 |
# (参考訳) 多人数会話における共同一致解決と文字リンク Joint Coreference Resolution and Character Linking for Multiparty Conversation ( http://arxiv.org/abs/2101.11204v2 ) ライセンス: CC BY 4.0 | Jiaxin Bai, Hongming Zhang, Yangqiu Song, and Kun Xu | (参考訳) 会話で言及された人々を現実世界に結びつけるタスクである文字リンクは、会話を理解するために重要です。
コミュニケーションの効率性のために、人間はしばしば代名詞(例:「彼女」または通常のフレーズ(例:「あの女の子」)を話し言葉で名前付き実体(例:「レイチェル」)ではなく使用することを選びます。
この課題を解決するために、リンクを支援するために、異なる言及間のコアファレンス関係からよりリッチなコンテキストを組み込むことを提案します。
一方,共同参照クラスタ自体の発見は自明な作業ではなく,グローバルキャラクタ情報によるメリットがあると考えられるため,これら2つの課題を共同で解決することを提案する。
具体的には、C$^2$, Coreference resolution と Character linking の連立学習モデルを提案する。
実験結果は、C$^2$が両方のタスクで以前の作業を大幅に上回ることを実証した。
さらに,提案モデルにおける全モジュールの寄与と全ハイパーパラメータの効果を解析するために解析を行った。 Character linking, the task of linking mentioned people in conversations to the real world, is crucial for understanding the conversations. For the efficiency of communication, humans often choose to use pronouns (e.g., "she") or normal phrases (e.g., "that girl") rather than named entities (e.g., "Rachel") in the spoken language, which makes linking those mentions to real people a much more challenging than a regular entity linking task. To address this challenge, we propose to incorporate the richer context from the coreference relations among different mentions to help the linking. On the other hand, considering that finding coreference clusters itself is not a trivial task and could benefit from the global character information, we propose to jointly solve these two tasks. Specifically, we propose C$^2$, the joint learning model of Coreference resolution and Character linking. The experimental results demonstrate that C$^2$ can significantly outperform previous works on both tasks. Further analyses are conducted to analyze the contribution of all modules in the proposed model and the effect of all hyper-parameters. | 翻訳日:2021-02-01 18:56:58 公開日:2021-01-28 |
# (参考訳) タイポロジーブラインドは言語間共有を妨げるか? Does Typological Blinding Impede Cross-Lingual Sharing? ( http://arxiv.org/abs/2101.11888v1 ) ライセンス: CC BY 4.0 | Johannes Bjerva and Isabelle Augenstein | (参考訳) 高リソース言語と低リソース言語のパフォーマンスギャップを埋めることは、これまでの作業の焦点でした。
World Atlas of Language Structures (WALS) のようなデータベースの分類学的な特徴は、非常に低リソースの言語でさえ存在するため、その主要な候補である。
しかし、以前の研究はタイプ学的な情報を使うことから小さな利点しか得られていない。
我々の仮説は、言語横断的な設定で訓練されたモデルが入力データから類型的手がかりを拾い上げ、そのような特徴を明示的に利用することの有用性を誇張するものである。
この仮説を,タイポロジー情報に対するモデル盲目化によって検証し,言語間共有とパフォーマンスへの影響について検討する。
我々のモデルは、言語間の共有を規定する潜在重みを訓練中に学習する言語間アーキテクチャに基づいている。
i)このモデルがタイポロジーを悪用することを防ぐことはパフォーマンスを著しく低下させるが、制御実験では、(ii)タイポロジーによる共有がパフォーマンスを多少改善することを再確認している。 Bridging the performance gap between high- and low-resource languages has been the focus of much previous work. Typological features from databases such as the World Atlas of Language Structures (WALS) are a prime candidate for this, as such data exists even for very low-resource languages. However, previous work has only found minor benefits from using typological information. Our hypothesis is that a model trained in a cross-lingual setting will pick up on typological cues from the input data, thus overshadowing the utility of explicitly using such features. We verify this hypothesis by blinding a model to typological information, and investigate how cross-lingual sharing and performance is impacted. Our model is based on a cross-lingual architecture in which the latent weights governing the sharing between languages is learnt during training. We show that (i) preventing this model from exploiting typology severely reduces performance, while a control experiment reaffirms that (ii) encouraging sharing according to typology somewhat improves performance. | 翻訳日:2021-02-01 01:00:49 公開日:2021-01-28 |
# (参考訳) 完全適応型力学系における因果性と独立性 Causality and independence in perfectly adapted dynamical systems ( http://arxiv.org/abs/2101.11885v1 ) ライセンス: CC BY 4.0 | Tineke Blom and Joris M. Mooij | (参考訳) 力学系における完全適応は、1つ以上の変数が外部刺激の持続的な変化に対して初期過渡応答を持つが、系が平衡に収束すると元の値に戻る現象である。
因果順序付けアルゴリズムは、因果関係を表す平衡因果順序付けグラフと、一連の平衡方程式から条件付き独立を示すマルコフ順序付けグラフを構築するのに使用できる。
これに基づいて、一階微分方程式の集合から完全適応を特定するのに十分なグラフィカル条件を定式化する。
さらに,実験平衡データにおける完全適応の存在を試験するための十分な条件を与える。
我々は,タンパク質シグナル伝達経路の簡単なモデルに適用し,その予測をシミュレーションと実世界のタンパク質発現データの両方で検証する。
このモデルにおける完全適応は、なぜ因果探索アルゴリズムの出力におけるエッジの存在と方向が、生物学的コンセンサスネットワークにおけるエッジの方向と必ずしも一致しないのかを説明することができる。 Perfect adaptation in a dynamical system is the phenomenon that one or more variables have an initial transient response to a persistent change in an external stimulus but revert to their original value as the system converges to equilibrium. The causal ordering algorithm can be used to construct an equilibrium causal ordering graph that represents causal relations and a Markov ordering graph that implies conditional independences from a set of equilibrium equations. Based on this, we formulate sufficient graphical conditions to identify perfect adaptation from a set of first-order differential equations. Furthermore, we give sufficient conditions to test for the presence of perfect adaptation in experimental equilibrium data. We apply our ideas to a simple model for a protein signalling pathway and test its predictions both in simulations and on real-world protein expression data. We demonstrate that perfect adaptation in this model can explain why the presence and orientation of edges in the output of causal discovery algorithms does not always appear to agree with the direction of edges in biological consensus networks. | 翻訳日:2021-02-01 00:52:08 公開日:2021-01-28 |
# (参考訳) ソーシャルメディア上での偽ニュースの特定 Identifying COVID-19 Fake News in Social Media ( http://arxiv.org/abs/2101.11954v1 ) ライセンス: CC BY 4.0 | Tathagata Raha, Vijayasaradhi Indurthi, Aayush Upadhyaya, Jeevesh Kataria, Pramud Bommakanti, Vikram Keswani, Vasudeva Varma | (参考訳) ソーシャルメディアプラットフォームの発展により、誰もが簡単に情報にアクセスできるようになる。
ソーシャルメディアのユーザーは、世界中と簡単に情報を共有できる。
これは時にフェイクニュースの拡散を促し、望ましくない結果をもたらすことがある。
本研究では、新型コロナウイルスのパンデミックに関連する健康ニュースを本物または偽物として識別できるモデルを訓練する。
我々のモデルは98.64%のF1スコアを達成した。
我々のモデルはリーダーボードで2位となり、最初のポジションを非常に狭いマージン0.05%ポイントで追い詰めた。 The evolution of social media platforms have empowered everyone to access information easily. Social media users can easily share information with the rest of the world. This may sometimes encourage spread of fake news, which can result in undesirable consequences. In this work, we train models which can identify health news related to COVID-19 pandemic as real or fake. Our models achieve a high F1-score of 98.64%. Our models achieve second place on the leaderboard, tailing the first position with a very narrow margin 0.05% points. | 翻訳日:2021-02-01 00:51:01 公開日:2021-01-28 |
# (参考訳) インドにおける新型コロナウイルス感染予測のためのLSTMモデルによる深層学習 Deep learning via LSTM models for COVID-19 infection forecasting in India ( http://arxiv.org/abs/2101.11881v1 ) ライセンス: CC BY 4.0 | Rohitash Chandra, Ayush Jain, Divyanshu Singh Chauhan | (参考訳) 私たちは、医療システム、経済、農業に大きな影響を与えて世界を揺るがしたパンデミックの時代に入りました。
伝染の広がりの複雑さのために顕著な計算および数学的モデルは信頼できませんでした。
さらに、データ収集とレポートの欠如により、そのようなモデリングの試みは信頼できない。
したがって、最新のデータソースと最も包括的な予測モデルで状況を見直す必要がある。
リカレントニューラルネットワークなどのディープラーニングモデルは、時間シーケンスのモデリングに適しています。
本稿では,インドにおける新型コロナウイルスの感染拡大を予知する多段階(短期)のニューラルネットワーク,特に‘textit{long short term memory}(LSTM)ネットワーク,双方向LSTM,エンコーダデコーダLSTMモデルについて述べる。
感染率の面では、新型コロナウイルスのホットポットを持つ状態を選択し、感染がピークに達した状態と比較し、症例が徐々に減少することを示す2ヶ月の予測を提供します。
以上の結果から,他の国や地域での手法の適用を動機づける長期予測が期待されていることが示唆された。
予測はある程度進展したが,人口密度,旅行物流,文化や生活習慣といった社会的側面といった要因の把握が困難であることから,モデリングの課題は残る。 We have entered an era of a pandemic that has shaken the world with major impact to medical systems, economics and agriculture. Prominent computational and mathematical models have been unreliable due to the complexity of the spread of infections. Moreover, lack of data collection and reporting makes any such modelling attempts unreliable. Hence we need to re-look at the situation with the latest data sources and most comprehensive forecasting models. Deep learning models such as recurrent neural networks are well suited for modelling temporal sequences. In this paper, prominent recurrent neural networks, in particular \textit{long short term memory} (LSTMs) networks, bidirectional LSTM, and encoder-decoder LSTM models for multi-step (short-term) forecasting the spread of COVID-infections among selected states in India. We select states with COVID-19 hotpots in terms of the rate of infections and compare with states where infections have been contained or reached their peak and provide two months ahead forecast that shows that cases will slowly decline. Our results show that long-term forecasts are promising which motivates the application of the method in other countries or areas. We note that although we made some progress in forecasting, the challenges in modelling remain due to data and difficulty in capturing factors such as population density, travel logistics, and social aspects such culture and lifestyle. | 翻訳日:2021-02-01 00:45:48 公開日:2021-01-28 |
# (参考訳) copula-based conformal prediction for multi-target regression Copula-based conformal prediction for Multi-Target Regression ( http://arxiv.org/abs/2101.12002v1 ) ライセンス: CC BY 4.0 | Soundouss Messoudi, S\'ebastien Destercke, Sylvain Rousseau | (参考訳) マルチタスク学習の問題に対する共形予測を扱う作業は比較的少なく、これは特にマルチターゲット回帰に当てはまる。
本稿では、有効(周波数校正)な多変量予測を提供することの課題に焦点をあてる。
そこで本研究では,深層ニューラルネットワークに適用したcopula関数を用いたインダクティブ共形予測を提案する。
提案手法は,様々なデータセット上のマルチターゲット回帰問題に対する効率性と妥当性を保証する。 There are relatively few works dealing with conformal prediction for multi-task learning issues, and this is particularly true for multi-target regression. This paper focuses on the problem of providing valid (i.e., frequency calibrated) multi-variate predictions. To do so, we propose to use copula functions applied to deep neural networks for inductive conformal prediction. We show that the proposed method ensures efficiency and validity for multi-target regression problems on various data sets. | 翻訳日:2021-02-01 00:19:19 公開日:2021-01-28 |
# (参考訳) 数値推論のための弱改良型ニューロシンボリックモジュールネットワーク Weakly Supervised Neuro-Symbolic Module Networks for Numerical Reasoning ( http://arxiv.org/abs/2101.11802v1 ) ライセンス: CC BY 4.0 | Amrita Saha, Shafiq Joty, Steven C.H. Hoi | (参考訳) ニューラルモジュールネットワーク(nmns)は,マシンリーディング理解(mrc)におけるテキスト上の数値推論の最も一般的な形式を含む,さまざまな質問応答タスクにおいて,学習可能なモジュールとして明示的な推論を取り入れることに成功している。
しかし、これを実現するには、現代のNMNは、モジュールの推論に関する特別なプログラムとしてクエリを実行する上で強力な監督を必要とし、そのような監督なしによりオープンエンドの設定に一般化できない。
そこで本研究では,数値推論に基づくMRCのための唯一の監視手法として,WNSMN(Weakly Supervised Neuro-Symbolic Module Network)を提案する。
クエリの依存性解析から得られたノイズの多いヒューリスティックプログラムを、ニューラルおよびシンボリック推論モジュールの両方に対する離散的なアクションとして実行し、応答マッチングからの離散的な報酬で強化学習フレームワークでエンドツーエンドにトレーニングする。
DROPの数値回答サブセットでは、WNSMNはNMNを32%上回り、推論自由言語モデルGenBERTは、同等の弱い教師付き設定下でトレーニングされた場合、正確なマッチング精度を8%上回る。
これは、ノイズの多いプログラムに対する明示的な離散的推論をエンドツーエンドで処理できるモジュラーネットワークの有効性と一般化性を示す。 Neural Module Networks (NMNs) have been quite successful in incorporating explicit reasoning as learnable modules in various question answering tasks, including the most generic form of numerical reasoning over text in Machine Reading Comprehension (MRC). However, to achieve this, contemporary NMNs need strong supervision in executing the query as a specialized program over reasoning modules and fail to generalize to more open-ended settings without such supervision. Hence we propose Weakly-Supervised Neuro-Symbolic Module Network (WNSMN) trained with answers as the sole supervision for numerical reasoning based MRC. It learns to execute a noisy heuristic program obtained from the dependency parsing of the query, as discrete actions over both neural and symbolic reasoning modules and trains it end-to-end in a reinforcement learning framework with discrete reward from answer matching. On the numerical-answer subset of DROP, WNSMN out-performs NMN by 32% and the reasoning-free language model GenBERT by 8% in exact match accuracy when trained under comparable weak supervised settings. This showcases the effectiveness and generalizability of modular networks that can handle explicit discrete reasoning over noisy programs in an end-to-end manner. | 翻訳日:2021-02-01 00:04:20 公開日:2021-01-28 |
# (参考訳) LESA:オンラインコンテンツからの一般化クレーム検出に基づく言語カプセル化とセマンティックアマゲーション LESA: Linguistic Encapsulation and Semantic Amalgamation Based Generalised Claim Detection from Online Content ( http://arxiv.org/abs/2101.11891v1 ) ライセンス: CC BY 4.0 | Shreya Gupta, Parantak Singh, Megha Sundriyal, Md Shad Akhtar, Tanmoy Chakraborty | (参考訳) 主張の概念化は、議論マイニングの核心にあります。
クレームの分離は、異なる分布にわたるテキスト構文とコンテキストの相違のため、複雑である。
もうひとつの課題は,実験用のラベル付き非構造化テキストが利用できないことだ。
本稿では,音声と依存性の埋め込みによる構文的特徴の収集と,微調整言語モデルによる文脈的特徴の収集により,従来の問題を解消することを目的としたフレームワークLESAを提案する。
大規模な非構造化データセットにテスト基盤を提供することを目的としたTwitterデータセットをアノテートすることで、後者の問題を解決します。
実験の結果、lesaは6つのベンチマーククレームデータセットにおける最先端のパフォーマンスを、ドメイン内実験で平均3つのクレーム-f1ポイント、一般ドメイン実験で2つのクレーム-f1ポイントで改善した。
我々のデータセットでも、LESAは既存のベースラインを1つのドメイン実験で1つのクレーム-F1ポイント、一般ドメイン実験で2つのクレーム-F1ポイントで上回ります。
また、アノテーションフェーズ(現在の文献に欠けている)にコンパイルされた包括的なデータアノテーションガイドラインもリリースします。 The conceptualization of a claim lies at the core of argument mining. The segregation of claims is complex, owing to the divergence in textual syntax and context across different distributions. Another pressing issue is the unavailability of labeled unstructured text for experimentation. In this paper, we propose LESA, a framework which aims at advancing headfirst into expunging the former issue by assembling a source-independent generalized model that captures syntactic features through part-of-speech and dependency embeddings, as well as contextual features through a fine-tuned language model. We resolve the latter issue by annotating a Twitter dataset which aims at providing a testing ground on a large unstructured dataset. Experimental results show that LESA improves upon the state-of-the-art performance across six benchmark claim datasets by an average of 3 claim-F1 points for in-domain experiments and by 2 claim-F1 points for general-domain experiments. On our dataset too, LESA outperforms existing baselines by 1 claim-F1 point on the in-domain experiments and 2 claim-F1 points on the general-domain experiments. We also release comprehensive data annotation guidelines compiled during the annotation phase (which was missing in the current literature). | 翻訳日:2021-01-31 23:30:08 公開日:2021-01-28 |
# (参考訳) 新型コロナウイルスのフェイクニュースと戦うトランスフォーマーベースのアプローチ A transformer based approach for fighting COVID-19 fake news ( http://arxiv.org/abs/2101.12027v1 ) ライセンス: CC BY-SA 4.0 | S.M. Sadiq-Ur-Rahman Shifath, Mohammad Faiyaz Khan, and Md. Saiful Islam | (参考訳) 新型コロナウイルス(covid-19)の急速な流行によって人類は行き詰まり、他の多くの問題を引き起こした。
新型コロナウイルスは、人類が最も技術的に進歩し、接続性やその他の利益のためにソーシャルメディアプラットフォームに大きく依存している歴史上初のパンデミックだ。
残念ながら、このウイルスに関する偽のニュースや誤報は、人々にも利用可能であり、いくつかの大きな問題を引き起こします。
そのため、このインフォデミックと戦うことは大きな課題となっている。
本研究では、"Constraint@AAAI2021 - COVID19 Fake News Detection in English"という課題に対するソリューションを提示する。
多数のアーキテクチャや技術を用いた広範囲な実験を経て,8種類のトランスフォーマティブベースの事前学習モデルと層を追加して,スタック型アンサンブル分類器を構築し,その目的を微調整した。
試験データセットでは0.979906542精度, 0.979913119精度, 0.979906542リコール, 0.979907901 f1-scoreを達成した。 The rapid outbreak of COVID-19 has caused humanity to come to a stand-still and brought with it a plethora of other problems. COVID-19 is the first pandemic in history when humanity is the most technologically advanced and relies heavily on social media platforms for connectivity and other benefits. Unfortunately, fake news and misinformation regarding this virus is also available to people and causing some massive problems. So, fighting this infodemic has become a significant challenge. We present our solution for the "Constraint@AAAI2021 - COVID19 Fake News Detection in English" challenge in this work. After extensive experimentation with numerous architectures and techniques, we use eight different transformer-based pre-trained models with additional layers to construct a stacking ensemble classifier and fine-tuned them for our purpose. We achieved 0.979906542 accuracy, 0.979913119 precision, 0.979906542 recall, and 0.979907901 f1-score on the test dataset of the competition. | 翻訳日:2021-01-31 23:15:12 公開日:2021-01-28 |
# (参考訳) 外部リソースを用いたシーケンシャル・トゥ・シーケンス・ニューラル・レムマティゼーションの強化 Enhancing Sequence-to-Sequence Neural Lemmatization with External Resources ( http://arxiv.org/abs/2101.12056v1 ) ライセンス: CC BY 4.0 | Kirill Milintsevich and Kairit Sirts | (参考訳) 本稿では,外部レキシコンやルールベースシステムから抽出した補題を用いて,seq2seqニューラルモデルを拡張した新たな補間手法を提案する。
トレーニング中、強化されたlemmatizerは、シーケンシャルデコーダを介して補題を生成し、実行時に供給される外部候補からの補題文字をコピーすることの両方を学ぶ。
Apertium morphological analysisr から抽出した候補で強化された補間器は、追加の補間情報を使用しないベースラインモデルと比較して統計的に有意な改善を達成し、同じ言語群におけるスタンフォード・スタンザモデルよりも0.55%高い23のUD言語に対して平均精度97.25%を達成する。
また、外部データを補間化に統合する他の手法と比較し、Stanzaシステムに基づく単純な辞書拡張手法よりも大幅に性能が向上し、補間的な改善を実現していることを示す。
データ増強法です We propose a novel hybrid approach to lemmatization that enhances the seq2seq neural model with additional lemmas extracted from an external lexicon or a rule-based system. During training, the enhanced lemmatizer learns both to generate lemmas via a sequential decoder and copy the lemma characters from the external candidates supplied during run-time. Our lemmatizer enhanced with candidates extracted from the Apertium morphological analyzer achieves statistically significant improvements compared to baseline models not utilizing additional lemma information, achieves an average accuracy of 97.25% on a set of 23 UD languages, which is 0.55% higher than obtained with the Stanford Stanza model on the same set of languages. We also compare with other methods of integrating external data into lemmatization and show that our enhanced system performs considerably better than a simple lexicon extension method based on the Stanza system, and it achieves complementary improvements w.r.t. the data augmentation method. | 翻訳日:2021-01-31 23:07:38 公開日:2021-01-28 |
# (参考訳) 説明可能なベイズネットワークの分類 A Taxonomy of Explainable Bayesian Networks ( http://arxiv.org/abs/2101.11844v1 ) ライセンス: CC BY 4.0 | Iena Petronella Derks and Alta de Waal | (参考訳) 人工知能(AI)、特にその説明可能性は、ここ数年で驚異的な注目を集めています。
結果のみが関心のある状況では、通常はこれらのシステムの意思決定プロセスに疑問を呈さないが、決定が人間の生活に直接影響を及ぼす領域において、これらのシステムが適用される場合には、注意を払っている。
特に、エンドユーザー間の不信感を助長する可能性のある必ずしも説明できない予測を導く決定境界の近くで不確実で不確定な観察である。
これにより、結果を説明できるAI手法に注意が向けられた。
ベイズネットワークは、不確実性を管理するツールとして使用できる確率的グラフィカルモデルである。
ベイジアンネットワークの確率的枠組みは、モデル、推論、および証拠の説明可能性を可能にします。
これらの手法の使用は、主にアドホックであり、より広いAI研究分野における説明可能性の方法ほど組織化されていない。
そこで,ベイズネットワークにおける説明可能性の分類を導入した。
モデルにおける説明可能性の既存の分類、推論、または決定の説明を含む証拠を拡張します。
説明可能性法から得られた説明は, 簡単な診断シナリオを用いて説明する。
本論文で導入された分類学は, エンドユーザーに対して, 結果の効率的な伝達を促すだけでなく, 特定の予測が下された理由の理解を支援する可能性を持っている。 Artificial Intelligence (AI), and in particular, the explainability thereof, has gained phenomenal attention over the last few years. Whilst we usually do not question the decision-making process of these systems in situations where only the outcome is of interest, we do however pay close attention when these systems are applied in areas where the decisions directly influence the lives of humans. It is especially noisy and uncertain observations close to the decision boundary which results in predictions which cannot necessarily be explained that may foster mistrust among end-users. This drew attention to AI methods for which the outcomes can be explained. Bayesian networks are probabilistic graphical models that can be used as a tool to manage uncertainty. The probabilistic framework of a Bayesian network allows for explainability in the model, reasoning and evidence. The use of these methods is mostly ad hoc and not as well organised as explainability methods in the wider AI research field. As such, we introduce a taxonomy of explainability in Bayesian networks. We extend the existing categorisation of explainability in the model, reasoning or evidence to include explanation of decisions. The explanations obtained from the explainability methods are illustrated by means of a simple medical diagnostic scenario. The taxonomy introduced in this paper has the potential not only to encourage end-users to efficiently communicate outcomes obtained, but also support their understanding of how and, more importantly, why certain predictions were made. | 翻訳日:2021-01-31 22:52:25 公開日:2021-01-28 |
# (参考訳) VAE^2:野生における変分映像予測の後方崩壊防止 VAE^2: Preventing Posterior Collapse of Variational Video Predictions in the Wild ( http://arxiv.org/abs/2101.12050v1 ) ライセンス: CC BY 4.0 | Yizhou Zhou, Chong Luo, Xiaoyan Sun, Zheng-Jun Zha and Wenjun Zeng | (参考訳) ビデオシーケンスの将来フレームの予測は、問題の複雑で確率的な性質のため困難である。
可変オートエンコーダ(VAEs)に基づくビデオ予測手法は大きな成功を収めているが、観察されたビデオシーケンスの複数の将来をトレーニングデータに含める必要がある。
これは、特定の観察が決定的な未来しか持たない野生でビデオが撮影されるとき、達成することは難しい。
その結果、これらのビデオでバニラVAEモデルを訓練すると、必然的に後部崩壊を引き起こす。
この問題を軽減するために,新しいVAE構造,VAE-in-VAE,VAE$^2$を提案する。
鍵となるアイデアは、vaeに確率性を明確に導入することだ。
観測されたビデオシーケンスの一部を過去と未来を橋渡しするランダムな遷移状態として扱い、全ての可能な遷移状態の下でビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
この難解な目的関数に対してトラクタブルな下界を提案し,それに応じてエンドツーエンド最適化アルゴリズムを設計する。
VAE$^2$は、将来と観測の間の直接的な依存を破り、トレーニングデータによって提供される決定的な未来を直接無視しないため、後方崩壊問題を大幅に緩和することができる。
cityscapes(都市景観)と呼ばれる大規模データセットで実験を行い、多くの都市から収集されたビデオを含む。
VAE$^2$は様々な未来を予測することができ、他の最先端のVAEベースのアプローチよりも後部崩壊に対する耐性が高い。
VAE$^2$は、トレーニングデータが確率性の欠如である他の確率列予測問題にも適用できると考えている。 Predicting future frames of video sequences is challenging due to the complex and stochastic nature of the problem. Video prediction methods based on variational auto-encoders (VAEs) have been a great success, but they require the training data to contain multiple possible futures for an observed video sequence. This is hard to be fulfilled when videos are captured in the wild where any given observation only has a determinate future. As a result, training a vanilla VAE model with these videos inevitably causes posterior collapse. To alleviate this problem, we propose a novel VAE structure, dabbed VAE-in-VAE or VAE$^2$. The key idea is to explicitly introduce stochasticity into the VAE. We treat part of the observed video sequence as a random transition state that bridges its past and future, and maximize the likelihood of a Markov Chain over the video sequence under all possible transition states. A tractable lower bound is proposed for this intractable objective function and an end-to-end optimization algorithm is designed accordingly. VAE$^2$ can mitigate the posterior collapse problem to a large extent, as it breaks the direct dependence between future and observation and does not directly regress the determinate future provided by the training data. We carry out experiments on a large-scale dataset called Cityscapes, which contains videos collected from a number of urban cities. Results show that VAE$^2$ is capable of predicting diverse futures and is more resistant to posterior collapse than the other state-of-the-art VAE-based approaches. We believe that VAE$^2$ is also applicable to other stochastic sequence prediction problems where training data are lack of stochasticity. | 翻訳日:2021-01-31 22:41:50 公開日:2021-01-28 |
# (参考訳) ProtoDA:Few-Shot Intent分類のための効率的な転送学習 ProtoDA: Efficient Transfer Learning for Few-Shot Intent Classification ( http://arxiv.org/abs/2101.11753v1 ) ライセンス: CC BY 4.0 | Manoj Kumar, Varun Kumar, Hadrien Glaude, Cyprien delichy, Aman Alok and Rahul Gupta | (参考訳) 自然言語処理における実用的なシーケンス分類タスクは、しばしばターゲットクラスのトレーニングデータ可用性の低下に苦しむ。
この問題の緩和に向けた最近の研究は、しばしば無関係なタスク、例えば言語モデリングで事前訓練された埋め込みを用いたトランスファーラーニングに焦点を当てている。
我々は,メタラーニングパラダイムの下で,原型ネットワークを用いた関連するタスクのアンサンブル上での伝達学習による代替的アプローチを採用する。
意図分類をケーススタディとして,トレーニングタスクのバラツキの増加が分類性能を有意に改善できることを実証した。
さらに,データ拡張とメタラーニングを併用してサンプリングバイアスを低減する。
我々は,メタラーニング目的とプロトタイプネットワークを併用して直接訓練されたデータ拡張のための条件付きジェネレータを用いて,データ拡張がタスクにカスタマイズされることを保証する。
文埋め込み空間および原型埋め込み空間における拡張について検討する。
メタラーニングと拡張を組み合わせることで、F1スコアは5ショット学習と10ショット学習のベストパフォーマンスシステムよりも6.49%と8.53%向上する。 Practical sequence classification tasks in natural language processing often suffer from low training data availability for target classes. Recent works towards mitigating this problem have focused on transfer learning using embeddings pre-trained on often unrelated tasks, for instance, language modeling. We adopt an alternative approach by transfer learning on an ensemble of related tasks using prototypical networks under the meta-learning paradigm. Using intent classification as a case study, we demonstrate that increasing variability in training tasks can significantly improve classification performance. Further, we apply data augmentation in conjunction with meta-learning to reduce sampling bias. We make use of a conditional generator for data augmentation that is trained directly using the meta-learning objective and simultaneously with prototypical networks, hence ensuring that data augmentation is customized to the task. We explore augmentation in the sentence embedding space as well as prototypical embedding space. Combining meta-learning with augmentation provides upto 6.49% and 8.53% relative F1-score improvements over the best performing systems in the 5-shot and 10-shot learning, respectively. | 翻訳日:2021-01-31 22:39:42 公開日:2021-01-28 |
# (参考訳) OcclusionとLanguage Modelingによる自然言語処理分類器の説明 Explaining Natural Language Processing Classifiers with Occlusion and Language Modeling ( http://arxiv.org/abs/2101.11889v1 ) ライセンス: CC BY 4.0 | David Harbecke | (参考訳) ディープニューラルネットワークは強力な統計学習者です。
しかし、彼らの予測は、その過程の説明を伴わない。
これらのモデルを分析するために、説明手法が開発されている。
本稿では,自然言語処理分類器のための新しい説明法olmを提案する。
この方法は、それぞれ説明可能性とNLPの中心的な技術である閉塞と言語モデリングを結合する。
OLMは理論的に健全で理解しやすい説明を与える。
私達は説明方法の理論にいくつかの貢献をします。
説明手法の公理は、基礎を探求し、メソッドを推論する興味深い理論概念である。
我々は新しい公理を導入し、直観を与え、既存の公理と矛盾することを示す。
さらに、自然言語処理における既存のグラデーションベースおよびオブクルージョンベースの説明方法の理論的困難さを指摘する。
説明方法の評価が難しい理由について,広範な議論を行う。
olmを他の説明法と比較し,その一意性を実験的に強調する。
最後にolmのコーナーケースを調査し,その妥当性と改善の可能性について考察する。 Deep neural networks are powerful statistical learners. However, their predictions do not come with an explanation of their process. To analyze these models, explanation methods are being developed. We present a novel explanation method, called OLM, for natural language processing classifiers. This method combines occlusion and language modeling, which are techniques central to explainability and NLP, respectively. OLM gives explanations that are theoretically sound and easy to understand. We make several contributions to the theory of explanation methods. Axioms for explanation methods are an interesting theoretical concept to explore their basics and deduce methods. We introduce a new axiom, give its intuition and show it contradicts another existing axiom. Additionally, we point out theoretical difficulties of existing gradient-based and some occlusion-based explanation methods in natural language processing. We provide an extensive argument why evaluation of explanation methods is difficult. We compare OLM to other explanation methods and underline its uniqueness experimentally. Finally, we investigate corner cases of OLM and discuss its validity and possible improvements. | 翻訳日:2021-01-31 22:28:21 公開日:2021-01-28 |
# (参考訳) ガウス過程の高速カーネル補間 Faster Kernel Interpolation for Gaussian Processes ( http://arxiv.org/abs/2101.11751v1 ) ライセンス: CC BY 4.0 | Mohit Yadav, Daniel Sheldon, Cameron Musco | (参考訳) ガウス過程(GP)の回帰を大規模データセットにスケールする上で重要な課題は、正確な推論には、n がデータポイントの数である密度の高い n x n カーネル行列による計算が必要であることである。
重要な仕事は、m誘導点の小さなセットを使用して補間を介してカーネル行列を近似することに焦点を当てている。
SKI(Structured kernel Interpolation)は、高密度格子上に点を配置し、構造化行列代数を用いて、近似推論のためのO(n + m log m)の定位時間を達成する、最もスケーラブルな方法の一つである。
このnの線形スケーリングは、非常に大きなデータセットの推論を可能にするが、コストは、非常に大きなnの限界のままである。我々は、SKIをMコンパクト基底関数の固定セットで自然ベイズ線形回帰問題を解決するものとして置き換えることによって、単一のO(n)時間前処理ステップの後に、SKI毎のイテレーション時間がO(m log m)に削減できることを示した。
固定格子のデータセットサイズnとは無関係に、本手法は真の大規模データセットにスケールする。
我々は, m と n の広い範囲で実際に高速化を実演し, 1億点を超える3次元気象レーダデータセット上でGP推定に適用した。 A key challenge in scaling Gaussian Process (GP) regression to massive datasets is that exact inference requires computation with a dense n x n kernel matrix, where n is the number of data points. Significant work focuses on approximating the kernel matrix via interpolation using a smaller set of m inducing points. Structured kernel interpolation (SKI) is among the most scalable methods: by placing inducing points on a dense grid and using structured matrix algebra, SKI achieves per-iteration time of O(n + m log m) for approximate inference. This linear scaling in n enables inference for very large data sets; however the cost is per-iteration, which remains a limitation for extremely large n. We show that the SKI per-iteration time can be reduced to O(m log m) after a single O(n) time precomputation step by reframing SKI as solving a natural Bayesian linear regression problem with a fixed set of m compact basis functions. With per-iteration complexity independent of the dataset size n for a fixed grid, our method scales to truly massive data sets. We demonstrate speedups in practice for a wide range of m and n and apply the method to GP inference on a three-dimensional weather radar dataset with over 100 million points. | 翻訳日:2021-01-31 22:27:24 公開日:2021-01-28 |
# (参考訳) 多変量確率時系列予測のための自己回帰消音拡散モデル Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2101.12072v1 ) ライセンス: CC BY 4.0 | Kashif Rasul, Calvin Seward, Ingmar Schuster, Roland Vollgraf | (参考訳) 本研究では,その勾配を推定し,各タイミングにおけるデータ分布からのサンプルを多変量確率時系列予測のための自己回帰モデルである「texttt{TimeGrad}」を提案する。
この目的のために,スコアマッチングやエネルギーベース手法と密接な関係を持つ潜在変数モデルのクラスである拡散確率モデルを用いる。
モデルでは,データ可能性の変動境界を最適化して勾配を学習し,推定時に白色雑音をLangevinサンプリングを用いてマルコフ連鎖を介して興味の分布のサンプルに変換する。
提案手法は,数千の相関次元を持つ実世界のデータセット上での,最先端の多変量確率予測手法であることを示す。
我々は,本手法が実践者にとって有用なツールであり,今後の研究の基盤となることを願っている。 In this work, we propose \texttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area. | 翻訳日:2021-01-31 21:55:27 公開日:2021-01-28 |
# (参考訳) S++: プライバシー保護ニューラルネットワークトレーニングのための高速でデプロイ可能なセキュアな計算フレームワーク S++: A Fast and Deployable Secure-Computation Framework for Privacy-Preserving Neural Network Training ( http://arxiv.org/abs/2101.12078v1 ) ライセンス: CC BY 4.0 | Prashanthi Ramachandran, Shivam Agarwal, Arup Mondal, Aastha Shah, Debayan Gupta | (参考訳) S++は、秘密共有のセキュア関数評価を使用して、複数のソースからのプライベートデータを使用してニューラルネットワーク(NN)を訓練するためのシンプルで堅牢でデプロイ可能なフレームワークです。
要するに、すべてのデータ所有者が入力を送信し、ニューラルネットワークを計算する仮想サードパーティを考えてみましょう。私たちの場合、この仮想サードパーティは実際には、悪意のある(しかし非クラスタリング)敵であっても、個別に何も学ばないサーバーのセットです。
この領域でのこれまでの作業は、1つの特定のアクティベーション機能(ReLU)に限定されており、多くのユースケースでアプローチが実用的ではない。
はじめに、すべての共通アクティベーション関数に対して高速かつ検証可能なプロトコルを提供し、それらを秘密の方法で実行するために最適化する。
exponentiation、softmax、sgmoidなどの高速で検証可能で、堅牢な計算能力により、以前書かれたnnを変更せずに使用することができ、開発者の労力とコードの複雑さを大幅に削減できます。
近年、ReLUはシグモイドやタンのような非線形関数と比較してはるかに速く収束し、より計算効率が高いことが判明している。
しかし,出力を確率として表現する能力と普遍近似性から,ロジスティックなsgmoid,tanh,softmaxといった非線形関数に機構を拡張しないことは許容できないと論じた。
rnnへの貢献と、最近のいくつかの進歩は、それらをより関連づける。 We introduce S++, a simple, robust, and deployable framework for training a neural network (NN) using private data from multiple sources, using secret-shared secure function evaluation. In short, consider a virtual third party to whom every data-holder sends their inputs, and which computes the neural network: in our case, this virtual third party is actually a set of servers which individually learn nothing, even with a malicious (but non-colluding) adversary. Previous work in this area has been limited to just one specific activation function: ReLU, rendering the approach impractical for many use-cases. For the first time, we provide fast and verifiable protocols for all common activation functions and optimize them for running in a secret-shared manner. The ability to quickly, verifiably, and robustly compute exponentiation, softmax, sigmoid, etc., allows us to use previously written NNs without modification, vastly reducing developer effort and complexity of code. In recent times, ReLU has been found to converge much faster and be more computationally efficient as compared to non-linear functions like sigmoid or tanh. However, we argue that it would be remiss not to extend the mechanism to non-linear functions such as the logistic sigmoid, tanh, and softmax that are fundamental due to their ability to express outputs as probabilities and their universal approximation property. Their contribution in RNNs and a few recent advancements also makes them more relevant. | 翻訳日:2021-01-31 21:37:24 公開日:2021-01-28 |
# (参考訳) 責任あるaiを例外ではなく規範にする Making Responsible AI the Norm rather than the Exception ( http://arxiv.org/abs/2101.11832v1 ) ライセンス: CC BY 4.0 | Abhishek Gupta (Montreal AI Ethics Institute and Microsoft) | (参考訳) モントリオールAI倫理研究所が作成したこのレポートは、人工知能に関する国家安全保障委員会(National Security Commission on Artificial Intelligence (NSCAI) Key considerations for Responsible Development and Fielding of Artificial Intelligence documentに応答して推奨している。
報告書は、責任あるAIは例外ではなくノルムを作るべきだという考えを中心にしている。
それは、(1)既存のワークフローの摩擦を軽減する、(2)利害関係者に購入を許可する、(3)抽象的な標準を実行可能なエンジニアリングプラクティスに効果的な変換を行う、というガイド原則を活用することによって実現される。
NSCAIからドキュメントに関する包括的なコメントを提供した後、レポートは、NSCAIから文書に提示されたアイデアを運用するのに役立つ、実行可能なフレームワークの主な貢献について掘り下げる。
フレームワークは,(1)学習,知識,情報交換(LKIE),(2)責任AIの3つの方法,(3)経験的に駆動されるリスク優先化行列,(4)適切な複雑性レベルを達成することから構成される。
すべてのコンポーネントは相互に強化され、Responsible AIを例外ではなく規範とする上での原則から実践へと移行する。 This report prepared by the Montreal AI Ethics Institute provides recommendations in response to the National Security Commission on Artificial Intelligence (NSCAI) Key Considerations for Responsible Development and Fielding of Artificial Intelligence document. The report centres on the idea that Responsible AI should be made the Norm rather than an Exception. It does so by utilizing the guiding principles of: (1) alleviating friction in existing workflows, (2) empowering stakeholders to get buy-in, and (3) conducting an effective translation of abstract standards into actionable engineering practices. After providing some overarching comments on the document from the NSCAI, the report dives into the primary contribution of an actionable framework to help operationalize the ideas presented in the document from the NSCAI. The framework consists of: (1) a learning, knowledge, and information exchange (LKIE), (2) the Three Ways of Responsible AI, (3) an empirically-driven risk-prioritization matrix, and (4) achieving the right level of complexity. All components reinforce each other to move from principles to practice in service of making Responsible AI the norm rather than the exception. | 翻訳日:2021-01-31 21:22:34 公開日:2021-01-28 |
# (参考訳) 条件ベースメンテナンス能力の逆機械学習攻撃 Adversarial Machine Learning Attacks on Condition-Based Maintenance Capabilities ( http://arxiv.org/abs/2101.12097v1 ) ライセンス: CC BY 4.0 | Hamidreza Habibollahi Najaf Abadi | (参考訳) 条件ベースのメンテナンス(CBM)戦略は、物理的な環境から収集したデータに基づいてシステムの健康状態を評価するために機械学習モデルを利用する。
悪意のある敵は収集したデータを操作して機械学習モデルを欺き、cbmシステムのパフォーマンスに影響を与えることができる。
コンピュータビジョン領域で導入された敵対的機械学習技術は、トレーニングされたモデルを混乱させるためにデータに摂動を加えることによって、cbmシステムに対するステルス攻撃に使用できる。
ステルスな性質は、攻撃の検出の困難と遅延を引き起こす。
本稿では,cbm領域における逆機械学習について述べる。
ケーススタディでは、CBM能力に対する対向機械学習の使用方法が示されている。
敵のサンプルはFast Gradient Sign法を用いて作成され、攻撃中のCLMシステムの性能が調査される。
その結果,cbmシステムは敵対的機械学習攻撃に対して脆弱であり,防衛戦略を検討する必要があることが明らかとなった。 Condition-based maintenance (CBM) strategies exploit machine learning models to assess the health status of systems based on the collected data from the physical environment, while machine learning models are vulnerable to adversarial attacks. A malicious adversary can manipulate the collected data to deceive the machine learning model and affect the CBM system's performance. Adversarial machine learning techniques introduced in the computer vision domain can be used to make stealthy attacks on CBM systems by adding perturbation to data to confuse trained models. The stealthy nature causes difficulty and delay in detection of the attacks. In this paper, adversarial machine learning in the domain of CBM is introduced. A case study shows how adversarial machine learning can be used to attack CBM capabilities. Adversarial samples are crafted using the Fast Gradient Sign method, and the performance of a CBM system under attack is investigated. The obtained results reveal that CBM systems are vulnerable to adversarial machine learning attacks and defense strategies need to be considered. | 翻訳日:2021-01-31 21:05:17 公開日:2021-01-28 |
# (参考訳) パーソナリティ・アウェア・レコメンデーションシステムに関する調査 A Survey on Personality-Aware Recommendation Systems ( http://arxiv.org/abs/2101.12153v1 ) ライセンス: CC BY 4.0 | Sahraoui Dhelim, Nyothiri Aung, Mohammed Amine Bouras, Huansheng Ning and Erik Cambria | (参考訳) 人工知能とパーソナリティ心理学に関する新たな研究分野としてパーソナリティコンピューティングの出現に伴い、私たちは、パーソナリティを意識したレコメンデーションシステムの前例のない増殖を目撃した。
従来のレコメンデーションシステムとは異なり、これらの新システムはコールドスタートやデータの分散といった従来の問題を解決する。
本調査は,パーソナリティを意識した推薦システムの研究と分類を目的とする。
我々の知る限りでは、この調査はパーソナリティを意識したレコメンデーションシステムに焦点を当てた初めてのものである。
パーソナリティ認識型推薦システムの異なるデザイン選択について,パーソナリティモデリング手法とレコメンデーション手法を比較して検討する。
さらに,一般的なデータセットを提示し,パーソナリティ認識型推薦システムの課題を指摘する。 With the emergence of personality computing as a new research field related to artificial intelligence and personality psychology, we have witnessed an unprecedented proliferation of personality-aware recommendation systems. Unlike conventional recommendation systems, these new systems solve traditional problems such as the cold start and data sparsity problems. This survey aims to study and systematically classify personality-aware recommendation systems. To the best of our knowledge, this survey is the first that focuses on personality-aware recommendation systems. We explore the different design choices of personality-aware recommendation systems, by comparing their personality modeling methods, as well as their recommendation techniques. Furthermore, we present the commonly used datasets and point out some of the challenges of personality-aware recommendation systems. | 翻訳日:2021-01-31 20:57:20 公開日:2021-01-28 |
# (参考訳) CTスキャンによるCOVID-19自動評価と病変分類のための説明可能なAIシステム An Explainable AI System for Automated COVID-19 Assessment and Lesion Categorization from CT-scans ( http://arxiv.org/abs/2101.11943v1 ) ライセンス: CC BY 4.0 | Matteo Pennisi, Isaak Kavasidis, Concetto Spampinato, Vincenzo Schinin\`a, Simone Palazzo, Francesco Rundo, Massimo Cristofaro, Paolo Campioni, Elisa Pianura, Federica Di Stefano, Ada Petrone, Fabrizio Albarello, Giuseppe Ippolito, Salvatore Cuzzocrea, Sabrina Conoci | (参考訳) SARS-CoV-2病原体によって引き起こされるCOVID-19感染は、確認された症例の指数関数的に増加し、残念ながら、世界中の壊滅的なパンデミックの発生です。
本研究では、CTスキャンから自動COVID-19検出と病変分類を行うためのディープラーニングパラダイムに基づくAI駆動パイプラインを提案する。
まず,肺小葉と葉を自動的に同定する新しいセグメンテーションモジュールを提案する。
次に、このようなセグメンテーションネットワークと、COVID-19の同定と病変分類のための分類ネットワークを組み合わせる。
162個のctスキャンデータから得られた分類結果と3人の専門家放射線科医による分類結果を比較した。
その結果、90%の感度と93.5%の特異性を示し、専門家の放射線学者による感度よりも優れ、84%以上の病変分類精度が得られた。
また,前肺と葉の分画によって重要な役割が果たされ,20%以上のパフォーマンスが向上した。
訓練されたAIモデルの解釈は、さらに、新型コロナウイルスの同定に関する決定を支援するための最も重要な領域は、ウイルス、すなわち狂気の舗装、統合および接地ガラスに臨床的に関連した病変と一致していることを明らかにする。
これは、人工モデルが陰性患者(コントロールと間質性肺炎患者の両方が新型コロナウイルスに陰性である)をCTスキャンで評価することで、正の患者を識別することができることを意味している。
最後に、AIモデルはユーザーフレンドリーなGUIに統合され、放射線科医のためのAI説明性をサポートする。 COVID-19 infection caused by SARS-CoV-2 pathogen is a catastrophic pandemic outbreak all over the world with exponential increasing of confirmed cases and, unfortunately, deaths. In this work we propose an AI-powered pipeline, based on the deep-learning paradigm, for automated COVID-19 detection and lesion categorization from CT scans. We first propose a new segmentation module aimed at identifying automatically lung parenchyma and lobes. Next, we combined such segmentation network with classification networks for COVID-19 identification and lesion categorization. We compare the obtained classification results with those obtained by three expert radiologists on a dataset consisting of 162 CT scans. Results showed a sensitivity of 90\% and a specificity of 93.5% for COVID-19 detection, outperforming those yielded by the expert radiologists, and an average lesion categorization accuracy of over 84%. Results also show that a significant role is played by prior lung and lobe segmentation that allowed us to enhance performance by over 20 percent points. The interpretation of the trained AI models, moreover, reveals that the most significant areas for supporting the decision on COVID-19 identification are consistent with the lesions clinically associated to the virus, i.e., crazy paving, consolidation and ground glass. This means that the artificial models are able to discriminate a positive patient from a negative one (both controls and patients with interstitial pneumonia tested negative to COVID) by evaluating the presence of those lesions into CT scans. Finally, the AI models are integrated into a user-friendly GUI to support AI explainability for radiologists, which is publicly available at http://perceivelab.com/covid-ai. | 翻訳日:2021-01-31 20:06:42 公開日:2021-01-28 |
# (参考訳) 自己教師型クロスサイロフェデレーションニューラルアーキテクチャサーチ Self-supervised Cross-silo Federated Neural Architecture Search ( http://arxiv.org/abs/2101.11896v1 ) ライセンス: CC BY 4.0 | Xinle Liang, Yang Liu, Jiahuan Luo, Yuanqin He, Tianjian Chen, Qiang Yang | (参考訳) Federated Learning (FL)は、サンプルや機能が異なるパーティ間で分散される機械学習タスクに、モデルパフォーマンスとデータプライバシーの両方を提供する。
flのトレーニングプロセスでは、他のパーティのデータ分散やモデルアーキテクチャに関するグローバルな見解を持っていません。
したがって、手動設計のアーキテクチャは最適ではないかもしれない。
過去には、この重要な問題に対処するために、ニューラルネットワーク検索(NAS)がFLに適用されました。
しかし、既存のFederated NASアプローチでは、通信や計算の禁止、高品質なラベルの入手が要求される。
本研究では、参加者が特徴分断データを保持するFLを自動化するための自己監視型垂直フェデレーションニューラルネットワークサーチ(SS-VFNAS)を提案する。
提案フレームワークでは,各パーティが自己教師付きアプローチでnasを実行し,独自のデータを用いた局所的最適アーキテクチャを求める。
次に,vflフレームワークにおける局所最適アーキテクチャを協調的に改善する。
我々は,本手法がフェデレートnasに比べて優れた性能,通信効率,プライバシを有することを実験的に実証し,重複サンプルが不足してもハイパフォーマンスで高転送性な異種アーキテクチャを生成できることを示した。 Federated Learning (FL) provides both model performance and data privacy for machine learning tasks where samples or features are distributed among different parties. In the training process of FL, no party has a global view of data distributions or model architectures of other parties. Thus the manually-designed architectures may not be optimal. In the past, Neural Architecture Search (NAS) has been applied to FL to address this critical issue. However, existing Federated NAS approaches require prohibitive communication and computation effort, as well as the availability of high-quality labels. In this work, we present Self-supervised Vertical Federated Neural Architecture Search (SS-VFNAS) for automating FL where participants hold feature-partitioned data, a common cross-silo scenario called Vertical Federated Learning (VFL). In the proposed framework, each party first conducts NAS using self-supervised approach to find a local optimal architecture with its own data. Then, parties collaboratively improve the local optimal architecture in a VFL framework with supervision. We demonstrate experimentally that our approach has superior performance, communication efficiency and privacy compared to Federated NAS and is capable of generating high-performance and highly-transferable heterogeneous architectures even with insufficient overlapping samples, providing automation for those parties without deep learning expertise. | 翻訳日:2021-01-31 19:45:49 公開日:2021-01-28 |
# 私たち vs.
Them:ポピュリストの態度、ニュースバイアス、感情のデータセット Us vs. Them: A Dataset of Populist Attitudes, News Bias and Emotions ( http://arxiv.org/abs/2101.11956v1 ) ライセンス: Link先を確認 | Pere-Llu\'is Huguet Cabot, David Abadi, Agneta Fischer, Ekaterina Shutova | (参考訳) 政治対話タスクの計算モデリングは、自然言語処理における研究のますます重要な領域となっています。
近年、ポピュリストの修辞学は政治界に広まりつつあるが、その複雑な性質から計算的なアプローチは乏しい。
本稿では,新しいUs vs.について述べる。
6861のRedditコメントからなるThemデータセットは、ポピュリストの態度と、この現象の最初の大規模計算モデルに注釈を付けた。
我々は、ポピュリストマインドセットと社会グループとの関係や、それらと典型的に関連する感情について検討する。
ポピュリストの態度に関連する2つのタスクのベースラインを設定し,感情とグループ識別の重要性を補助タスクとして活用し,実証するマルチタスク学習モデルを提案する。 Computational modelling of political discourse tasks has become an increasingly important area of research in natural language processing. Populist rhetoric has risen across the political sphere in recent years; however, computational approaches to it have been scarce due to its complex nature. In this paper, we present the new Us vs. Them dataset, consisting of 6861 Reddit comments annotated for populist attitudes and the first large-scale computational models of this phenomenon. We investigate the relationship between populist mindsets and social groups, as well as a range of emotions typically associated with these. We set a baseline for two tasks related to populist attitudes and present a set of multi-task learning models that leverage and demonstrate the importance of emotion and group identification as auxiliary tasks. | 翻訳日:2021-01-31 18:30:12 公開日:2021-01-28 |
# 合成画像キャプションにおける構文計画の役割 The Role of Syntactic Planning in Compositional Image Captioning ( http://arxiv.org/abs/2101.11911v1 ) ライセンス: Link先を確認 | Emanuele Bugliarello, Desmond Elliott | (参考訳) 画像キャプションは、トレーニングセットと同じ分布から描かれた画像に一般化することに注力しており、画像の異なる分布に一般化するより難しい問題ではない。
最近、ニコラウスら。
(2019) は画像キャプションにおける合成一般化を評価するデータセットを導入し, 未知の形容詞・名詞・動詞の合成で画像を記述する能力をモデルに評価した。
本研究では,キャプションの構文構造を計画し,構成一般化を改善するための様々な手法について検討する。
実験の結果,トークンと構文タグを併用することにより,RNNモデルとTransformerモデルの両方での一般化が促進され,標準メトリクスの性能も向上することがわかった。 Image captioning has focused on generalizing to images drawn from the same distribution as the training set, and not to the more challenging problem of generalizing to different distributions of images. Recently, Nikolaus et al. (2019) introduced a dataset to assess compositional generalization in image captioning, where models are evaluated on their ability to describe images with unseen adjective-noun and noun-verb compositions. In this work, we investigate different methods to improve compositional generalization by planning the syntactic structure of a caption. Our experiments show that jointly modeling tokens and syntactic tags enhances generalization in both RNN- and Transformer-based models, while also improving performance on standard metrics. | 翻訳日:2021-01-31 18:29:38 公開日:2021-01-28 |
# vx2text:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習 Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs ( http://arxiv.org/abs/2101.12059v1 ) ライセンス: Link先を確認 | Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani | (参考訳) ビデオ+テキスト、音声、音声からなるマルチモーダル入力からテキストを生成するためのフレームワークである \textsc{vx2text} を提案する。
言語モデリングに有効であることが示されているトランスフォーマーネットワークを活用するために、各モダリティはまず学習可能なトークン化器によって言語埋め込みのセットに変換される。
これにより、言語空間におけるマルチモーダル融合が可能となり、アドホックなクロスモーダル融合モジュールの必要性がなくなる。
連続入力(ビデオやオーディオなど)におけるトークン化の非微分性に対処するために、エンドツーエンドのトレーニングを可能にするリラクゼーションスキームを利用する。
さらに,従来のエンコーダのみのモデルとは異なり,言語エンコーダが融合したマルチモーダル埋め込みからオープンなテキストを生成する自動回帰デコーダも網羅している。
これは、我々のアプローチを完全に生成し、タスクごとに特別なネットワークヘッドを設計する必要なしに、異なる「ビデオ+x$ to text」問題に直接適用します。
提案するフレームワークは概念的に単純であるだけでなく,極めて効果的である。単一のアーキテクチャに基づくアプローチは,映像ベースの3つのテキスト生成タスク – キャプション,質問応答,音声視覚シーン認識ダイアログ – において,最先端の作業よりも優れている,という実験結果が得られた。 We present \textsc{Vx2Text}, a framework for text generation from multimodal inputs consisting of video plus text, speech, or audio. In order to leverage transformer networks, which have been shown to be effective at modeling language, each modality is first converted into a set of language embeddings by a learnable tokenizer. This allows our approach to perform multimodal fusion in the language space, thus eliminating the need for ad-hoc cross-modal fusion modules. To address the non-differentiability of tokenization on continuous inputs (e.g., video or audio), we utilize a relaxation scheme that enables end-to-end training. Furthermore, unlike prior encoder-only models, our network includes an autoregressive decoder to generate open-ended text from the multimodal embeddings fused by the language encoder. This renders our approach fully generative and makes it directly applicable to different "video+$x$ to text" problems without the need to design specialized network heads for each task. The proposed framework is not only conceptually simple but also remarkably effective: experiments demonstrate that our approach based on a single architecture outperforms the state-of-the-art on three video-based text-generation tasks -- captioning, question answering and audio-visual scene-aware dialog. | 翻訳日:2021-01-31 18:29:03 公開日:2021-01-28 |
# Gassian Wasserstein Distance Lossによる回転物体検出の再考 Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss ( http://arxiv.org/abs/2101.11952v1 ) ライセンス: Link先を確認 | Xue Yang, Junchi Yan, Qi Ming, Wentao Wang, Xiaopeng Zhang, Qi Tian | (参考訳) 境界不連続性と最終検出基準の不整合性は, 回転検出回帰損失設計のボトルネックとなっている。
本稿では,ガウス・ワッサーシュタイン距離に基づく新しい回帰損失を,この問題に対する基本的なアプローチとして提案する。
具体的には、回転バウンディングボックスを2次元ガウス分布に変換し、グラデーションバックプロパゲーションによって効率的に学習できるガウスワッサースタイン距離(GWD)によって、不可分回転IoU誘発損失を近似することができる。
GWDは、2つの回転バウンディングボックスの間に重複がなくても学習に有益であり、これはしばしば小さな物体検出の場合である。
3つの独特な性質のおかげで、gwdは境界の不連続性や、境界ボックスの定義方法に関わらず正方形の問題をエレガントに解くことができる。
異なる検出器を用いた5つのデータセットの実験は、我々のアプローチの有効性を示している。
コードはhttps://github.com/yangxue0827/RotationDetectionで入手できる。 Boundary discontinuity and its inconsistency to the final detection metric have been the bottleneck for rotating detection regression loss design. In this paper, we propose a novel regression loss based on Gaussian Wasserstein distance as a fundamental approach to solve the problem. Specifically, the rotated bounding box is converted to a 2-D Gaussian distribution, which enables to approximate the indifferentiable rotational IoU induced loss by the Gaussian Wasserstein distance (GWD) which can be learned efficiently by gradient back-propagation. GWD can still be informative for learning even there is no overlapping between two rotating bounding boxes which is often the case for small object detection. Thanks to its three unique properties, GWD can also elegantly solve the boundary discontinuity and square-like problem regardless how the bounding box is defined. Experiments on five datasets using different detectors show the effectiveness of our approach. Codes are available at https://github.com/yangxue0827/RotationDetection. | 翻訳日:2021-01-31 18:28:18 公開日:2021-01-28 |
# 再生可能なビデオ生成 Playable Video Generation ( http://arxiv.org/abs/2101.12195v1 ) ライセンス: Link先を確認 | Willi Menapace, St\'ephane Lathuili\`ere, Sergey Tulyakov, Aliaksandr Siarohin, Elisa Ricci | (参考訳) 本稿では,再生可能ビデオ生成(PVG)の教師なし学習問題を紹介する。
pvgでは、ゲームプレイ時のように、時間ステップ毎に離散アクションを選択して、ユーザが生成した映像を制御できるようにする。
タスクの難しさは、意味的に一貫したアクションを学習することと、ユーザ入力に基づいて条件付けられた現実的なビデオを生成することにある。
本稿では,非ラベルビデオの大規模データセット上で自己教師あり方式で学習するpvgのための新しいフレームワークを提案する。
予測されたアクションラベルがボトルネックとなるエンコーダ・デコーダアーキテクチャを採用している。
ネットワークは、生成したビデオの再生損失を主駆動損失として、リッチなアクション空間を学習することを制約される。
提案手法の有効性を,幅広い環境変数を持つ複数のデータセットに示す。
詳細はプロジェクトページ willi-menapace.github.io/playable-video-generation-website をご覧ください。 This paper introduces the unsupervised learning problem of playable video generation (PVG). In PVG, we aim at allowing a user to control the generated video by selecting a discrete action at every time step as when playing a video game. The difficulty of the task lies both in learning semantically consistent actions and in generating realistic videos conditioned on the user input. We propose a novel framework for PVG that is trained in a self-supervised manner on a large dataset of unlabelled videos. We employ an encoder-decoder architecture where the predicted action labels act as bottleneck. The network is constrained to learn a rich action space using, as main driving loss, a reconstruction loss on the generated video. We demonstrate the effectiveness of the proposed approach on several datasets with wide environment variety. Further details, code and examples are available on our project page willi-menapace.github.io/playable-video-generation-website. | 翻訳日:2021-01-31 18:27:42 公開日:2021-01-28 |
# DRAG:非並列オーサリングのためのディレクタージェネレータ言語モデリングフレームワーク DRAG: Director-Generator Language Modelling Framework for Non-Parallel Author Stylized Rewriting ( http://arxiv.org/abs/2101.11836v1 ) ライセンス: Link先を確認 | Hrituraj Singh, Gaurav Verma, Aparna Garimella, Balaji Vasan Srinivasan | (参考訳) 著者のスタイル化された書き換えは、特定の著者のスタイルで入力テキストを書き換える作業である。
この領域の最近の研究は、Transformerベースの言語モデルを利用して、並列コーパスに頼ることなく、自動エンコーダをデノナイズして作者のスタイル化されたテキストを生成する。
しかしながら、これらのアプローチは、ターゲット属性の明示的な制御の欠如と、完全にデータ駆動であるために制限されている。
本稿では,特定のターゲット属性に着目して,ターゲット著者のスタイルでコンテンツを書き直すためのDirector-Generatorフレームワークを提案する。
提案するフレームワークは,限定サイズのターゲットコーパスでも有効であることを示す。
3人の異なる著者による比較的小さなテキストからなるコーパスの実験では,既存のテキストを対象著者のスタイルで書き直す方法が大幅に改善されている。
さらに, 定量的・質的分析により, 継続性が向上し, より流動的な世代が得られた。 Author stylized rewriting is the task of rewriting an input text in a particular author's style. Recent works in this area have leveraged Transformer-based language models in a denoising autoencoder setup to generate author stylized text without relying on a parallel corpus of data. However, these approaches are limited by the lack of explicit control of target attributes and being entirely data-driven. In this paper, we propose a Director-Generator framework to rewrite content in the target author's style, specifically focusing on certain target attributes. We show that our proposed framework works well even with a limited-sized target author corpus. Our experiments on corpora consisting of relatively small-sized text authored by three distinct authors show significant improvements upon existing works to rewrite input texts in target author's style. Our quantitative and qualitative analyses further show that our model has better meaning retention and results in more fluent generations. | 翻訳日:2021-01-31 18:27:09 公開日:2021-01-28 |
# 離体型機械学習:NLPにおける客観性のイリュージョンについて Disembodied Machine Learning: On the Illusion of Objectivity in NLP ( http://arxiv.org/abs/2101.11974v1 ) ライセンス: Link先を確認 | Zeerak Waseem, Smarika Lulz, Joachim Bingel, Isabelle Augenstein | (参考訳) 機械学習は、与えられたデータセット内の知識のボディを特定し、エンコードする。
しかし、データは主観的なコンテンツをエンコードし、トレーニングされたモデルの可能な結果を決定します。
このような主観性は社会の一部の限界化を可能にするため、(社会的)「バイアス」と呼ばれ、取り除こうとする。
本稿では,開発プロセスにおける主観的選択に対するmlコミュニティのバイアスの議論を文脈的に検討する。
データおよびモデル開発における選択が、モデルで表される主観性やバイアスをどのように構成するかを考慮することで、バイアスへの対処と緩和はほぼ不可能であると論じる。
これは、データモデルとMLモデルの両方が、アノテーションによるデータ選択からモデルトレーニングと分析に至るまで、開発パイプラインの各ステップで意味を持つオブジェクトであるからである。
したがって、社会的な限界化に対処する能力にバイアス制限の一般的な言説があります。
我々は、これに精通し、偏見の方法が一部のバイアスに対してのみ正しいことを受け入れることを推奨する。 Machine Learning seeks to identify and encode bodies of knowledge within provided datasets. However, data encodes subjective content, which determines the possible outcomes of the models trained on it. Because such subjectivity enables marginalisation of parts of society, it is termed (social) `bias' and sought to be removed. In this paper, we contextualise this discourse of bias in the ML community against the subjective choices in the development process. Through a consideration of how choices in data and model development construct subjectivity, or biases that are represented in a model, we argue that addressing and mitigating biases is near-impossible. This is because both data and ML models are objects for which meaning is made in each step of the development pipeline, from data selection over annotation to model training and analysis. Accordingly, we find the prevalent discourse of bias limiting in its ability to address social marginalisation. We recommend to be conscientious of this, and to accept that de-biasing methods only correct for a fraction of biases. | 翻訳日:2021-01-31 18:26:29 公開日:2021-01-28 |
# BERTa\'u: Ita\'u BERT デジタルカスタマーサービス用。 BERTa\'u: Ita\'u BERT for digital customer service ( http://arxiv.org/abs/2101.12015v1 ) ライセンス: Link先を確認 | Paulo Finardi, Jos\'e Di\'e Viegas, Gustavo T. Ferreira, Alex F. Mansano, Vinicius F. Carid\'a | (参考訳) ここ数年、ディープラーニング、NLP、会話エージェントの3つの主要なトピックが関心を集めました。
これら3つのトピックを組み合わせることで、素晴らしいデジタル顧客エクスペリエンスを実現し、実運用環境に展開し、現実世界の問題を解決することは、革新的で破壊的です。
BERTa\'uと呼ばれる新しいポルトガルの金融ドメイン言語表現モデルを紹介します。
BERTa\'uは、Ita\'u仮想アシスタントチャットボットソリューションのデータをスクラッチからトレーニングした未使用のBERTベースである。
私たちの新しい貢献は、BERTa\'uプリトレーニング言語モデルは、より少ないデータを必要とし、3つのNLPタスクで最先端のパフォーマンスを達成し、デプロイを可能にする小さくて軽量なモデルを生成することです。
ita\'u bankからの頻繁な質問(faq)による情報検索,仮想アシスタントデータからの感情分析,nerソリューションの3つのタスクを開発した。
提案したタスクはすべて実環境における実環境ソリューションであり、Hugging Faceで利用可能なGoogle BERTマルチ言語とFacebookのDPRQuestionEncoderと比較して、スペシャリストモデルの使用が有効であることが証明された。
BERTa\'u は FAQ Retrieval MRR の22%、感性分析 F1 の2.1%、NER F1 の4.4% のパフォーマンスを改善し、「シェルフモデル」と比較して最大66%少ないトークンで同じシーケンスを表現できる。 In the last few years, three major topics received increased interest: deep learning, NLP and conversational agents. Bringing these three topics together to create an amazing digital customer experience and indeed deploy in production and solve real-world problems is something innovative and disruptive. We introduce a new Portuguese financial domain language representation model called BERTa\'u. BERTa\'u is an uncased BERT-base trained from scratch with data from the Ita\'u virtual assistant chatbot solution. Our novel contribution is that BERTa\'u pretrained language model requires less data, reached state-of-the-art performance in three NLP tasks, and generates a smaller and lighter model that makes the deployment feasible. We developed three tasks to validate our model: information retrieval with Frequently Asked Questions (FAQ) from Ita\'u bank, sentiment analysis from our virtual assistant data, and a NER solution. All proposed tasks are real-world solutions in production on our environment and the usage of a specialist model proved to be effective when compared to Google BERT multilingual and the DPRQuestionEncoder from Facebook, available at Hugging Face. The BERTa\'u improves the performance in 22% of FAQ Retrieval MRR metric, 2.1% in Sentiment Analysis F1 score, 4.4% in NER F1 score and can also represent the same sequence in up to 66% fewer tokens when compared to "shelf models". | 翻訳日:2021-01-31 18:25:51 公開日:2021-01-28 |
# SwingBot:動的スイングアップマニピュレーションのための手持ちの触覚探索から物理的特徴を学ぶ SwingBot: Learning Physical Features from In-hand Tactile Exploration for Dynamic Swing-up Manipulation ( http://arxiv.org/abs/2101.11812v1 ) ライセンス: Link先を確認 | Chen Wang, Shaoxiong Wang, Branden Romero, Filipe Veiga, Edward Adelson | (参考訳) いくつかのロボット操作タスクは、操作対象の物理的性質の変化に非常に敏感である。
そのようなタスクの1つは、重力または腕の加速度を使用してオブジェクトを操作し、質量、質量の中心、および摩擦情報の重要性を高めます。
触覚探索によって保持された物体の物理的特徴を学習できるロボットであるswingbotを提案する。
2つの探索行動(傾きと揺れ)は、物理的特徴埋め込み空間を作るために使用される触覚情報を提供する。
この埋め込みにより、SwingBotは、これまで見えない物体上で動的にスイングアップ操作を行うロボットによって達成されたスイング角を予測することができる。
これらの予測を用いて、所望のスイングアップ角度に対する最適制御パラメータを探索することができる。
学習された物理機能により、エンドツーエンドの自己監視学習パイプラインは、見えない物体を揺るがす精度を大幅に向上させることができます。
また、同様のダイナミクスを持つ物体は埋め込み空間上で互いに近接しており、埋め込みは特定の物理的性質の値に切り離すことができることを示す。 Several robot manipulation tasks are extremely sensitive to variations of the physical properties of the manipulated objects. One such task is manipulating objects by using gravity or arm accelerations, increasing the importance of mass, center of mass, and friction information. We present SwingBot, a robot that is able to learn the physical features of a held object through tactile exploration. Two exploration actions (tilting and shaking) provide the tactile information used to create a physical feature embedding space. With this embedding, SwingBot is able to predict the swing angle achieved by a robot performing dynamic swing-up manipulations on a previously unseen object. Using these predictions, it is able to search for the optimal control parameters for a desired swing-up angle. We show that with the learned physical features our end-to-end self-supervised learning pipeline is able to substantially improve the accuracy of swinging up unseen objects. We also show that objects with similar dynamics are closer to each other on the embedding space and that the embedding can be disentangled into values of specific physical properties. | 翻訳日:2021-01-31 18:25:04 公開日:2021-01-28 |
# PIG-Net: 3Dポイントクラウドセグメンテーションのためのインセプションベースのディープラーニングアーキテクチャ PIG-Net: Inception based Deep Learning Architecture for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2101.11987v1 ) ライセンス: Link先を確認 | Sindhu Hegde and Shankar Gangisetty | (参考訳) 3次元オブジェクトの表面幾何の単純かつコンパクトな表現であるポイントクラウドは、分類と分割タスクのためのディープラーニングネットワークの進化によって人気が高まっている。
人間とは異なり、物体のセグメントを分析するために機械を教えることは困難な作業であり、さまざまな機械ビジョンアプリケーションに非常に不可欠です。
本稿では,PIG-Netと呼ばれるインセプションに基づく深層ネットワークアーキテクチャを提案し,その局所的および大域的幾何学的詳細を効果的に特徴付けることで,3次元点雲のセグメンテーションとラベリングの問題に対処する。
pig-netでは、提案するインセプション層を用いて変換入力点から局所的な特徴を抽出し、特徴変換によりアライメントする。
これらのローカル機能はグローバル平均プーリング層を使用して集約され、グローバル機能を得る。
最後に、連結したローカルおよびグローバル機能を畳み込み層に供給し、3Dポイントクラウドをセグメント化します。
本研究では,2つの最先端データセットであるShapeNet [1] と PartNet [2] 上で,PIG-Net アーキテクチャの徹底的な実験的解析を行う。
アブレーション研究により,ネットワークの有効性を評価する。 Point clouds, being the simple and compact representation of surface geometry of 3D objects, have gained increasing popularity with the evolution of deep learning networks for classification and segmentation tasks. Unlike human, teaching the machine to analyze the segments of an object is a challenging task and quite essential in various machine vision applications. In this paper, we address the problem of segmentation and labelling of the 3D point clouds by proposing a inception based deep network architecture called PIG-Net, that effectively characterizes the local and global geometric details of the point clouds. In PIG-Net, the local features are extracted from the transformed input points using the proposed inception layers and then aligned by feature transform. These local features are aggregated using the global average pooling layer to obtain the global features. Finally, feed the concatenated local and global features to the convolution layers for segmenting the 3D point clouds. We perform an exhaustive experimental analysis of the PIG-Net architecture on two state-of-the-art datasets, namely, ShapeNet [1] and PartNet [2]. We evaluate the effectiveness of our network by performing ablation study. | 翻訳日:2021-01-31 18:24:27 公開日:2021-01-28 |
# 継続学習のための自己注意型メタラーニング Self-Attention Meta-Learner for Continual Learning ( http://arxiv.org/abs/2101.12136v1 ) ライセンス: Link先を確認 | Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy | (参考訳) 連続学習は、ニューラルネットワークで複数のタスクを順次学習できるインテリジェントなエージェントを提供することを目指しています。
その主な挑戦的な、壊滅的な忘れの1つは、非定常分布で学習するニューラルネットワークの非最適能力によって引き起こされます。
現在のアプローチのほとんどの設定では、エージェントはランダムに初期化パラメータから始まり、将来のタスクに対する学習された表現の有用性に関係なく、現在のタスクをマスターするように最適化される。
さらに、将来のタスクは、この知識の一部が学習に役に立たないかもしれないが、事前に学習した知識を全て使用する。
これは特に以前のタスクのデータにアクセスできない場合に、タスク間の干渉を引き起こす。
本稿では,タスクの順序を学習し,破滅的な忘れを回避しつつ,継続学習の事前知識を学習する,自己認識メタラーナー(SAM)という新しい手法を提案する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶ注意メカニズムが組み込まれています。
各タスクは選択した知識の上に特定の表現ブランチを構築し、タスク間の干渉を避ける。
提案手法をタスク非依存推論における分割CIFAR-10/100および分割MNISTベンチマーク上で評価する。
SAMによって学習された選択表現の上部に構築することで,いくつかの最先端学習手法よりも優れた性能を達成できることを実証的に示す。
また、メタアテンション機構は、入力データに対応する情報的特徴を増強し、タスク非依存推論における正しいターゲットを識別する役割も示す。
最後に、SAMを出発点として採用すると、既存の一般的な連続学習手法が性能の向上を実証する。 Continual learning aims to provide intelligent agents capable of learning multiple tasks sequentially with neural networks. One of its main challenging, catastrophic forgetting, is caused by the neural networks non-optimal ability to learn in non-stationary distributions. In most settings of the current approaches, the agent starts from randomly initialized parameters and is optimized to master the current task regardless of the usefulness of the learned representation for future tasks. Moreover, each of the future tasks uses all the previously learned knowledge although parts of this knowledge might not be helpful for its learning. These cause interference among tasks, especially when the data of previous tasks is not accessible. In this paper, we propose a new method, named Self-Attention Meta-Learner (SAM), which learns a prior knowledge for continual learning that permits learning a sequence of tasks, while avoiding catastrophic forgetting. SAM incorporates an attention mechanism that learns to select the particular relevant representation for each future task. Each task builds a specific representation branch on top of the selected knowledge, avoiding the interference between tasks. We evaluate the proposed method on the Split CIFAR-10/100 and Split MNIST benchmarks in the task agnostic inference. We empirically show that we can achieve a better performance than several state-of-the-art methods for continual learning by building on the top of selected representation learned by SAM. We also show the role of the meta-attention mechanism in boosting informative features corresponding to the input data and identifying the correct target in the task agnostic inference. Finally, we demonstrate that popular existing continual learning methods gain a performance boost when they adopt SAM as a starting point. | 翻訳日:2021-01-31 18:23:46 公開日:2021-01-28 |
# スパース監督による注意誘導対話状態追跡 Attention Guided Dialogue State Tracking with Sparse Supervision ( http://arxiv.org/abs/2101.11958v1 ) ライセンス: Link先を確認 | Shuailong Liang, Lahari Poddar, Gyuri Szarvas | (参考訳) 既存のダイアログ状態追跡(DST)アプローチはターンレベルのダイアログ状態アノテーションに依存しており、大規模な取得にはコストがかかる。
コールセンタでは、予約やサブスクリプションの管理といったタスクに対して、ユーザ目標をカスタマーサービスエージェントが発行するアクション(例えばAPIコール)に関連付けることができる。
これらのアクションログは大量に利用可能で、対話状態の学習に利用できます。
しかし、ターンレベルのアノテーションとは異なり、そのようなログされたアクションは対話全体でしか利用できず、DSTモデルに対する弱い監督形態のみを提供する。
スパースラベルでDSTを効率的に学習するため,最先端エンコーダデコーダモデルを拡張した。
モデルは対話履歴のスロット認識表現を学習し、関連するターンに着目してデコーダを誘導する。
本稿では,2つの公開マルチドメインDSTデータセット(MultiWOZとSchema Guided Dialogue)について,両設定で結果を示す。
ターンレベルとまばらな監督によるトレーニング。
提案手法は,両設定のベースラインを改良する。
さらに重要なのは、スパースな監督で訓練された私たちのモデルは、よりデータとコスト効率が高くながら、完全に監視されたベースラインのパフォーマンスに競争力があります。 Existing approaches to Dialogue State Tracking (DST) rely on turn level dialogue state annotations, which are expensive to acquire in large scale. In call centers, for tasks like managing bookings or subscriptions, the user goal can be associated with actions (e.g.~API calls) issued by customer service agents. These action logs are available in large volumes and can be utilized for learning dialogue states. However, unlike turn-level annotations, such logged actions are only available sparsely across the dialogue, providing only a form of weak supervision for DST models. To efficiently learn DST with sparse labels, we extend a state-of-the-art encoder-decoder model. The model learns a slot-aware representation of dialogue history, which focuses on relevant turns to guide the decoder. We present results on two public multi-domain DST datasets (MultiWOZ and Schema Guided Dialogue) in both settings i.e. training with turn-level and with sparse supervision. The proposed approach improves over baseline in both settings. More importantly, our model trained with sparse supervision is competitive in performance to fully supervised baselines, while being more data and cost efficient. | 翻訳日:2021-01-31 18:22:59 公開日:2021-01-28 |
# 係り受け解析における構文核 ---多言語探索 Syntactic Nuclei in Dependency Parsing -- A Multilingual Exploration ( http://arxiv.org/abs/2101.11959v1 ) ライセンス: Link先を確認 | Ali Basirat and Joakim Nivre | (参考訳) 構文的依存解析の標準モデルは、依存関係に入る基本単位として単語を取る。
本論文では,Tesni\`{e}reによって提案された核のより抽象的な概念を用いて,これらのモデルを強化することのメリットについて検討する。
我々は、核の概念をUniversal Dependenciesのフレームワークで定義する方法と、コンポジション関数を使って遷移ベースの依存性パーサにこの概念を認識させる方法を示す。
12言語の実験では、核組成が解析精度の小さいが有意な改善をもたらすことが示されている。
さらなる分析により、改良は主に、名目修飾子、調整の関係、主述語、直接対象を含む少数の依存関係に関係していることが明らかとなった。 Standard models for syntactic dependency parsing take words to be the elementary units that enter into dependency relations. In this paper, we investigate whether there are any benefits from enriching these models with the more abstract notion of nucleus proposed by Tesni\`{e}re. We do this by showing how the concept of nucleus can be defined in the framework of Universal Dependencies and how we can use composition functions to make a transition-based dependency parser aware of this concept. Experiments on 12 languages show that nucleus composition gives small but significant improvements in parsing accuracy. Further analysis reveals that the improvement mainly concerns a small number of dependency relations, including nominal modifiers, relations of coordination, main predicates, and direct objects. | 翻訳日:2021-01-31 18:22:18 公開日:2021-01-28 |
# Twitterにおけるスタンス検出のための多言語データセットの半自動生成 Semi-automatic Generation of Multilingual Datasets for Stance Detection in Twitter ( http://arxiv.org/abs/2101.11978v1 ) ライセンス: Link先を確認 | Elena Zotova, Rodrigo Agerri, German Rigau | (参考訳) 人気のソーシャルメディアネットワークは、ユーザーが表現した意見や態度を研究するのに最適な環境を提供します。
twitterのようなソーシャルメディアでのやりとりは多くの自然言語で起こるが、自然言語処理分野におけるスタンス検出(特定の話題に関して表現された位置や態度)の研究は、主に英語で行われている。
最近、他の言語で注釈付きデータを開発する取り組みが行われていますが、スタンス検出に関する多言語とクロスリンガルの研究を促進するためのリソースが不足しています。
これは部分的には、ソーシャルメディアテキストのコーパスを手動で注釈付けすることが難しく、遅く、コストがかかるプロセスであるという事実による。
さらに、スタンスは非常にドメインとトピック特有の現象であるため、注釈付きデータの必要性が特に要求される。
その結果、手作業でラベル付けされたリソースのほとんどは、比較的小さなサイズとスキュークラス分布によって妨げられる。
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ツイートごとに手動でアノテートするのではなく、ユーザーベースの情報を利用して大量のツイートを半自動ラベル付けします。
経験的モノリンガルおよびクロスリンガル実験および定性分析は、私たちの方法は、大規模でバランスの取れた多言語ラベル付きコーポラを構築するのに前述の困難を克服するのに役立ちます。
本手法は,他の自然言語処理タスクやドメインに対して,ラベル付きソーシャルメディアデータを容易に生成できると考えられる。 Popular social media networks provide the perfect environment to study the opinions and attitudes expressed by users. While interactions in social media such as Twitter occur in many natural languages, research on stance detection (the position or attitude expressed with respect to a specific topic) within the Natural Language Processing field has largely been done for English. Although some efforts have recently been made to develop annotated data in other languages, there is a telling lack of resources to facilitate multilingual and crosslingual research on stance detection. This is partially due to the fact that manually annotating a corpus of social media texts is a difficult, slow and costly process. Furthermore, as stance is a highly domain- and topic-specific phenomenon, the need for annotated data is specially demanding. As a result, most of the manually labeled resources are hindered by their relatively small size and skewed class distribution. This paper presents a method to obtain multilingual datasets for stance detection in Twitter. Instead of manually annotating on a per tweet basis, we leverage user-based information to semi-automatically label large amounts of tweets. Empirical monolingual and cross-lingual experimentation and qualitative analysis show that our method helps to overcome the aforementioned difficulties to build large, balanced and multilingual labeled corpora. We believe that our method can be easily adapted to easily generate labeled social media data for other Natural Language Processing tasks and domains. | 翻訳日:2021-01-31 18:21:42 公開日:2021-01-28 |
# Neural Few-Shot Text Classification Reality Check A Neural Few-Shot Text Classification Reality Check ( http://arxiv.org/abs/2101.12073v1 ) ライセンス: Link先を確認 | Thomas Dopierre, Christophe Gravier, Wilfried Logerais | (参考訳) 現代の分類モデルは、注釈付きデータの量が少ないと苦労する傾向があります。
この問題を解決するために、いくつかのニューラルな数発の分類モデルが登場し、コンピュータビジョンと自然言語処理の両方において、時間とともに大きな進歩をもたらした。
後者では、そのようなモデルはトランスフォーマーの出現前に固定語埋め込みに依存していた。
さらに、Computer Visionで使用されるいくつかのモデルはまだNLPアプリケーションでテストされていません。
本稿では,これらのモデルを全て比較し,まず画像処理分野のモデルをNLPに適応させ,次にトランスにアクセスできるようにした。
次に,多数のクラスを持つことで知られるインテント検出タスクにおいて,同じトランスフォーマーベースのエンコーダを備えたモデルをテストする。
提案手法はarscデータセット上でほぼ等しく振る舞うが,最も最近かつ最も優れた競合であると思われるインテント検出タスクは,(すべてトランスフォーマーへのアクセスが与えられているが)旧型や単純型よりもパフォーマンスが悪くなる。
また、単純なベースラインが驚くほど強いことも示しています。
すべての新しい開発モデル、および評価フレームワークは、一般公開されています。 Modern classification models tend to struggle when the amount of annotated data is scarce. To overcome this issue, several neural few-shot classification models have emerged, yielding significant progress over time, both in Computer Vision and Natural Language Processing. In the latter, such models used to rely on fixed word embeddings before the advent of transformers. Additionally, some models used in Computer Vision are yet to be tested in NLP applications. In this paper, we compare all these models, first adapting those made in the field of image processing to NLP, and second providing them access to transformers. We then test these models equipped with the same transformer-based encoder on the intent detection task, known for having a large number of classes. Our results reveal that while methods perform almost equally on the ARSC dataset, this is not the case for the Intent Detection task, where the most recent and supposedly best competitors perform worse than older and simpler ones (while all are given access to transformers). We also show that a simple baseline is surprisingly strong. All the new developed models, as well as the evaluation framework, are made publicly available. | 翻訳日:2021-01-31 18:20:59 公開日:2021-01-28 |
# 遅延予算に基づく文選択システムにおける文脈のモデル化 Modeling Context in Answer Sentence Selection Systems on a Latency Budget ( http://arxiv.org/abs/2101.12093v1 ) ライセンス: Link先を確認 | Rujun Han, Luca Soldaini, Alessandro Moschitti | (参考訳) 回答文選択(AS2)は、オープンドメインの質問回答(QA)システムを設計するための効率的なアプローチです。
低レイテンシを実現するため、従来のAS2モデルは質問応答ペアを個別にスコアし、各潜在的な回答が抽出された文書から情報を無視する。
対照的に、機械読解タスク用に設計されたより計算的に高価なモデルは、通常、入力として1つ以上の通路を受け取ります。
本稿では,AS2モデルに文脈情報を効率的に組み込む手法を提案する。
回答候補ごとに、まず教師なしの類似技術を使用してソース文書から関連する文を抽出し、次にAS2用に微調整された効率的なトランスフォーマーアーキテクチャに供給します。
マルチウェイアテンションアーキテクチャを利用してコンテキストを効率的にエンコードする私たちのベストなアプローチは、AS2の非コンテキスト状態よりも6%から11%改善し、システムのレイテンシに最小限の影響を与えます。
この研究のすべての実験は英語で行われた。 Answer Sentence Selection (AS2) is an efficient approach for the design of open-domain Question Answering (QA) systems. In order to achieve low latency, traditional AS2 models score question-answer pairs individually, ignoring any information from the document each potential answer was extracted from. In contrast, more computationally expensive models designed for machine reading comprehension tasks typically receive one or more passages as input, which often results in better accuracy. In this work, we present an approach to efficiently incorporate contextual information in AS2 models. For each answer candidate, we first use unsupervised similarity techniques to extract relevant sentences from its source document, which we then feed into an efficient transformer architecture fine-tuned for AS2. Our best approach, which leverages a multi-way attention architecture to efficiently encode context, improves 6% to 11% over noncontextual state of the art in AS2 with minimal impact on system latency. All experiments in this work were conducted in English. | 翻訳日:2021-01-31 18:20:17 公開日:2021-01-28 |
# LOME: 大規模オントロジー多言語抽出 LOME: Large Ontology Multilingual Extraction ( http://arxiv.org/abs/2101.12175v1 ) ライセンス: Link先を確認 | Patrick Xia, Guanghui Qin, Siddharth Vashishtha, Yunmo Chen, Tongfei Chen, Chandler May, Craig Harman, Kyle Rawlins, Aaron Steven White, Benjamin Van Durme | (参考訳) 本稿では,多言語情報抽出システムlomeを提案する。
入力としてテキスト文書が与えられると、コアシステムはテキストエンティティとイベント参照のスパンをフレームネット(baker et al., 1998)パーサで識別する。
その後、コア参照解決、きめ細かいエンティティタイピング、イベント間の時間的関係予測を行う。
これにより、システムはイベントとエンティティに焦点を当てた知識グラフを構築する。
さらに、関係抽出など、他のタイプのアノテーションにもサードパーティモジュールを適用できます。
当社の(多言語)ファーストパーティモジュールは、(多言語)最新技術に匹敵するか、競争力があります。
我々は、xlm-r (conneau et al., 2020) のような多言語エンコーダを用いてこれを実現し、多言語トレーニングデータを活用する。
LOMEはDocker Hub上のDockerコンテナとして利用できる。
さらに、システムの軽量バージョンは、Webデモとしてアクセスできます。 We present LOME, a system for performing multilingual information extraction. Given a text document as input, our core system identifies spans of textual entity and event mentions with a FrameNet (Baker et al., 1998) parser. It subsequently performs coreference resolution, fine-grained entity typing, and temporal relation prediction between events. By doing so, the system constructs an event and entity focused knowledge graph. We can further apply third-party modules for other types of annotation, like relation extraction. Our (multilingual) first-party modules either outperform or are competitive with the (monolingual) state-of-the-art. We achieve this through the use of multilingual encoders like XLM-R (Conneau et al., 2020) and leveraging multilingual training data. LOME is available as a Docker container on Docker Hub. In addition, a lightweight version of the system is accessible as a web demo. | 翻訳日:2021-01-31 18:19:41 公開日:2021-01-28 |
# 説得のための戦略的議論対話--説得の信念と懸念のモデル化に基づく枠組みと実験 Strategic Argumentation Dialogues for Persuasion: Framework and Experiments Based on Modelling the Beliefs and Concerns of the Persuadee ( http://arxiv.org/abs/2101.11870v1 ) ライセンス: Link先を確認 | Emmanuel Hadoux and Anthony Hunter and Sylwia Polberg | (参考訳) 説得は人間の知性の重要かつ複雑な側面である。
対話を通じて行われる場合、良い議論の展開、それゆえ反論は、説得に成功する能力に明らかに大きな影響を与える。
議論が特定の対話で良いかどうかを決定するための2つの重要な寸法は、意図した聴衆が議論と反論を信じる程度であり、議論が意図した聴衆の懸念に与える影響である。
本稿では,その信念と懸念をモデル化し,これらのモデルを用いて説得対話における移動の選択を最適化するための枠組みを提案する。
我々のアプローチはモンテカルロ木探索に基づいており、リアルタイムに最適化できる。
我々は、この技術に基づく自動説得システムが、その戦略における信念や懸念を考慮しないベースラインシステムよりも優れていることを示す、人間の参加者による研究の実証結果を提供する。 Persuasion is an important and yet complex aspect of human intelligence. When undertaken through dialogue, the deployment of good arguments, and therefore counterarguments, clearly has a significant effect on the ability to be successful in persuasion. Two key dimensions for determining whether an argument is good in a particular dialogue are the degree to which the intended audience believes the argument and counterarguments, and the impact that the argument has on the concerns of the intended audience. In this paper, we present a framework for modelling persuadees in terms of their beliefs and concerns, and for harnessing these models in optimizing the choice of move in persuasion dialogues. Our approach is based on the Monte Carlo Tree Search which allows optimization in real-time. We provide empirical results of a study with human participants showing that our automated persuasion system based on this technology is superior to a baseline system that does not take the beliefs and concerns into account in its strategy. | 翻訳日:2021-01-31 18:19:06 公開日:2021-01-28 |
# ヒューリスティックNMSの除去による簡易な物体検出 Object Detection Made Simpler by Eliminating Heuristic NMS ( http://arxiv.org/abs/2101.11782v1 ) ライセンス: Link先を確認 | Qiang Zhou and Chaohui Yu and Chunhua Shen and Zhibin Wang and Hao Li | (参考訳) FCOS検出モデル[Tian et al.]のようなワンステージオブジェクト検出器へのネットワーク変更を最小限に抑えた、シンプルなNMSフリーのエンドツーエンドオブジェクト検出フレームワークを紹介します。
2019].
従来の1段検出器と同等かそれ以上に検出精度が向上した。
ほぼ同じ推論速度で検出を行うが、さらに単純化され、推論中に後処理のNMS(non-maximum suppress)が排除される。
ネットワークが画像内の各接地対象インスタンスの予測のために1つの正のサンプルのみを識別することができる場合、NMSは不要になります。
これは、各インスタンスに対して単一の正のサンプルを自動的に選択するためにコンパクトなpssヘッドを取り付けることで可能となる(図参照)。
1).
学習目的は1対1のラベル割り当てと1対1のラベル割り当ての両方を含むため、いくつかのトレーニング例のラベルには矛盾があり、学習を困難にします。
ストップグレード操作を用いることで,この問題に対処し,検出器を訓練できることを示す。
COCOデータセットでは, NMS後処理によるFCOSベースライン検出器と, 最新のエンドツーエンドNMSフリー検出器と比較して, 簡便な設計が優れている。
当社の広範なアブレーション研究は、設計選択の合理性を正当化します。 We show a simple NMS-free, end-to-end object detection framework, of which the network is a minimal modification to a one-stage object detector such as the FCOS detection model [Tian et al. 2019]. We attain on par or even improved detection accuracy compared with the original one-stage detector. It performs detection at almost the same inference speed, while being even simpler in that now the post-processing NMS (non-maximum suppression) is eliminated during inference. If the network is capable of identifying only one positive sample for prediction for each ground-truth object instance in an image, then NMS would become unnecessary. This is made possible by attaching a compact PSS head for automatic selection of the single positive sample for each instance (see Fig. 1). As the learning objective involves both one-to-many and one-to-one label assignments, there is a conflict in the labels of some training examples, making the learning challenging. We show that by employing a stop-gradient operation, we can successfully tackle this issue and train the detector. On the COCO dataset, our simple design achieves superior performance compared to both the FCOS baseline detector with NMS post-processing and the recent end-to-end NMS-free detectors. Our extensive ablation studies justify the rationale of the design choices. | 翻訳日:2021-01-31 18:18:31 公開日:2021-01-28 |
# 検出器自身による提案の増強 Augmenting Proposals by the Detector Itself ( http://arxiv.org/abs/2101.11789v1 ) ライセンス: Link先を確認 | Xiaopei Wan, Zhenhua Guo, Chao He, Yujiu Yang, Fangbo Tao | (参考訳) RoIの箱の頭部のための十分な良質の提案が長い間2段階および多段階の目的の探知器に妨げられ、多くの前の仕事はRPNの性能を改善するか、または地上の真実から提案を手動で作り出すことによってそれを解決しようとします。
しかし、これらの手法は大きなトレーニングと推論コストを必要とするか、あるいはほとんど改善しない。
本論文では,検出器自体による提案を増強し,高品質で提案を生成できる,APDIという新しいトレーニング手法を設計する。
さらに、APDIはIoUヘッドをRoIボックスヘッドに統合することを可能にする。
また、ハイパーパラメータは追加されず、将来の研究やダウンストリームタスクに有用である。
COCOデータセットに関する広範な実験は、私たちの方法が複数のバックボーンを持つ高速R-CNNに少なくとも2.7 APの改善をもたらすことを示し、APDIはGA-RPNやカスケードRPNなどの高度なRPNと協力して余分な利益を得ることができます。
さらに、カスケードR-CNNに大幅な改善をもたらします。 Lacking enough high quality proposals for RoI box head has impeded two-stage and multi-stage object detectors for a long time, and many previous works try to solve it via improving RPN's performance or manually generating proposals from ground truth. However, these methods either need huge training and inference costs or bring little improvements. In this paper, we design a novel training method named APDI, which means augmenting proposals by the detector itself and can generate proposals with higher quality. Furthermore, APDI makes it possible to integrate IoU head into RoI box head. And it does not add any hyperparameter, which is beneficial for future research and downstream tasks. Extensive experiments on COCO dataset show that our method brings at least 2.7 AP improvements on Faster R-CNN with various backbones, and APDI can cooperate with advanced RPNs, such as GA-RPN and Cascade RPN, to obtain extra gains. Furthermore, it brings significant improvements on Cascade R-CNN. | 翻訳日:2021-01-31 18:17:49 公開日:2021-01-28 |
# doc2ppt: 科学文書からの自動プレゼンテーションスライド生成 DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents ( http://arxiv.org/abs/2101.11796v1 ) ライセンス: Link先を確認 | Tsu-Jui Fu, William Yang Wang, Daniel McDuff, Yale Song | (参考訳) プレゼンテーション資料の作成には,重要な概念を要約し,論理的かつ視覚的に整理するための複雑なマルチモーダル推論技術が必要である。
機械はこの面倒なプロセスをエミュレートできるか?
文書からスライド生成のための新しいタスクとアプローチを紹介します。
これを解決するには、文書の要約、画像とテキストの検索、スライド構造、レイアウト予測を伴い、キー要素をプレゼンテーションに適した形式で配置する。
エンドツーエンドでタスクに取り組むための階層的シーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
この領域の研究を加速するために、実験で使用される6Kペアドドキュメントとスライドデッキに関するデータセットをリリースします。
提案手法は,強いベースラインを上回り,リッチコンテンツとアライメントされた画像のスライドを生成する。 Creating presentation materials requires complex multimodal reasoning skills to summarize key concepts and arrange them in a logical and visually pleasing manner. Can machines learn to emulate this laborious process? We present a novel task and approach for document-to-slide generation. Solving this involves document summarization, image and text retrieval, slide structure, and layout prediction to arrange key elements in a form suitable for presentation. We propose a hierarchical sequence-to-sequence approach to tackle our task in an end-to-end manner. Our approach exploits the inherent structures within documents and slides and incorporates paraphrasing and layout prediction modules to generate slides. To help accelerate research in this domain, we release a dataset about 6K paired documents and slide decks used in our experiments. We show that our approach outperforms strong baselines and produces slides with rich content and aligned imagery. | 翻訳日:2021-01-31 18:17:11 公開日:2021-01-28 |
# ランダムラベルを用いたニューラルアーキテクチャ検索 Neural Architecture Search with Random Labels ( http://arxiv.org/abs/2101.11834v1 ) ライセンス: Link先を確認 | Xuanyang Zhang, Pengfei Hou, Xiangyu Zhang, Jian Sun | (参考訳) 本稿では、ランダムラベル(RLNAS)による探索というニューラルアーキテクチャ探索(NAS)パラダイムの新しい変種について検討する。
ランダムラベルは各候補アーキテクチャのパフォーマンスに関する情報が少ないため、ほとんどの既存のNASアルゴリズムでは直感に反してタスクが聞こえる。
そこで我々は,検索中にランダムラベルのみを必要とする,収束の容易性仮説に基づく新しいNASフレームワークを提案する。
アルゴリズムには2つのステップがある: まず、ランダムなラベルを使ってスーパーネットを訓練する; 第二に、スーパーネットから、トレーニング中に重みが最も大きく変化するサブネットワークを抽出する。
大規模な実験は複数のデータセットで評価される。
NAS-Bench-201とImageNet)と複数の検索スペース(例)
DARTSライクとMobileNetライク)。
非常に驚くべきことに、RLNASはPC-DARTS、Single Path One-Shotなどの最先端のNAS法と比較して、同等の結果を達成しています。
われわれの発見がNASの本質に関する新たな理解を刺激することを期待している。 In this paper, we investigate a new variant of neural architecture search (NAS) paradigm -- searching with random labels (RLNAS). The task sounds counter-intuitive for most existing NAS algorithms since random label provides few information on the performance of each candidate architecture. Instead, we propose a novel NAS framework based on ease-of-convergence hypothesis, which requires only random labels during searching. The algorithm involves two steps: first, we train a SuperNet using random labels; second, from the SuperNet we extract the sub-network whose weights change most significantly during the training. Extensive experiments are evaluated on multiple datasets (e.g. NAS-Bench-201 and ImageNet) and multiple search spaces (e.g. DARTS-like and MobileNet-like). Very surprisingly, RLNAS achieves comparable or even better results compared with state-of-the-art NAS methods such as PC-DARTS, Single Path One-Shot, even though the counterparts utilize full ground truth labels for searching. We hope our finding could inspire new understandings on the essential of NAS. | 翻訳日:2021-01-31 18:16:37 公開日:2021-01-28 |
# COMPAS: Few-Shot Classificationのための構成部分共有による表現学習 COMPAS: Representation Learning with Compositional Part Sharing for Few-Shot Classification ( http://arxiv.org/abs/2101.11878v1 ) ライセンス: Link先を確認 | Ju He, Adam Kortylewski, Alan Yuille | (参考訳) 少数の画像分類は、2つの連続学習プロセスで構成されています。1)メタラーニング段階では、モデルは一連のトレーニングクラスから知識ベースを取得します。
2) メタテスト中, 獲得した知識は, ごく少数の例から見知らぬクラスを認識するのに使用される。
人間のオブジェクトの合成表現に着想を得て、オブジェクトを部分の集合とその空間構成として明示的に表現するニューラルネットワークアーキテクチャを訓練する。
特にメタラーニングでは,部分表現の辞書と部分活性化マップの辞書からなる知識ベースを訓練し,部分の頻繁な空間活性化パターンを符号化する。
両方の辞書の要素は、トレーニングクラスで共有される。
メタテスト中、未知のクラスの表現は、知識ベースから部分表現と部分活性化マップを用いて学習される。
最後に、各カテゴリで最も重要な部分を強化するために注意機構が使用される。
我々は,MiniImageNet,ticredImageNet,CIFAR-FS,FC100を用いた数ショット分類のための合成学習フレームワークの価値を実証した。 Few-shot image classification consists of two consecutive learning processes: 1) In the meta-learning stage, the model acquires a knowledge base from a set of training classes. 2) During meta-testing, the acquired knowledge is used to recognize unseen classes from very few examples. Inspired by the compositional representation of objects in humans, we train a neural network architecture that explicitly represents objects as a set of parts and their spatial composition. In particular, during meta-learning, we train a knowledge base that consists of a dictionary of part representations and a dictionary of part activation maps that encode frequent spatial activation patterns of parts. The elements of both dictionaries are shared among the training classes. During meta-testing, the representation of unseen classes is learned using the part representations and the part activation maps from the knowledge base. Finally, an attention mechanism is used to strengthen those parts that are most important for each category. We demonstrate the value of our compositional learning framework for a few-shot classification using miniImageNet, tieredImageNet, CIFAR-FS, and FC100, where we achieve state-of-the-art performance. | 翻訳日:2021-01-31 18:15:58 公開日:2021-01-28 |
# セマンティックセグメンテーションのためのクロスイメージピクセルコントラストの探索 Exploring Cross-Image Pixel Contrast for Semantic Segmentation ( http://arxiv.org/abs/2101.11939v1 ) ライセンス: Link先を確認 | Wenguan Wang, Tianfei Zhou, Fisher Yu, Jifeng Dai, Ender Konukoglu, Luc Van Gool | (参考訳) 現在のセマンティックセグメンテーション手法は、個々の画像内のピクセル間の依存関係(例えば、拡張畳み込み、ニューラルアテンションなど)や構造対応最適化基準(例えば、IoUのような損失)によってのみ「局所的」コンテキストをマイニングすることに焦点を当てている。
しかし、それらはトレーニングデータの「グローバル」コンテキスト、すなわち異なる画像のピクセル間の豊富な意味的関係を無視します。
教師なしコントラスト表現学習の最近の進歩に触発されて,完全教師付きセグメンテーションにおけるセグメンテーションのための画素単位のコントラスト表現フレームワークを提案する。
コアのアイデアは、同じセマンティッククラスに属するピクセル埋め込みを、異なるクラスからの埋め込みよりも類似するように強制することです。
セマンティックセグメンテーションのためのピクセル単位のメートル法学習パラダイムを提起し、フィールドで長い間無視されてきたラベル付きピクセルの構造を明示的に探求する。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
有名なセグメンテーションモデル(DeepLabV3、HRNet、OCRなど)とバックボーン(ResNet、HR-Netなど)によって、当社の手法はさまざまなデータセット(Cityscapes、PASCAL-Context、COCO-Stuffなど)で一貫したパフォーマンス向上を実現します。
この作業は、コミュニティが完全に監視されたセマンティックセグメンテーションにおける現在のデファクトトレーニングパラダイムを再考するのを奨励することを期待しています。 Current semantic segmentation methods focus only on mining "local" context, i.e., dependencies between pixels within individual images, by context-aggregation modules (e.g., dilated convolution, neural attention) or structure-aware optimization criteria (e.g., IoU-like loss). However, they ignore "global" context of the training data, i.e., rich semantic relations between pixels across different images. Inspired by the recent advance in unsupervised contrastive representation learning, we propose a pixel-wise contrastive framework for semantic segmentation in the fully supervised setting. The core idea is to enforce pixel embeddings belonging to a same semantic class to be more similar than embeddings from different classes. It raises a pixel-wise metric learning paradigm for semantic segmentation, by explicitly exploring the structures of labeled pixels, which are long ignored in the field. Our method can be effortlessly incorporated into existing segmentation frameworks without extra overhead during testing. We experimentally show that, with famous segmentation models (i.e., DeepLabV3, HRNet, OCR) and backbones (i.e., ResNet, HR-Net), our method brings consistent performance improvements across diverse datasets (i.e., Cityscapes, PASCAL-Context, COCO-Stuff). We expect this work will encourage our community to rethink the current de facto training paradigm in fully supervised semantic segmentation. | 翻訳日:2021-01-31 18:15:19 公開日:2021-01-28 |
# tokens-to-token vit: training vision transformers from scratch on imagenet Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet ( http://arxiv.org/abs/2101.11986v1 ) ライセンス: Link先を確認 | Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, Shuicheng Yan | (参考訳) 言語モデリングに人気があるトランスフォーマーは、画像分類のためのビジョントランスフォーマー(ViT)など、近年では視覚タスクの解決のために研究されている。
ViTモデルは、各画像を一定長さのトークン列に分割し、次に複数のトランスフォーマー層を適用して、分類のためのグローバルな関係をモデル化する。
しかし、ViTは中規模データセット(イメージネットなど)でスクラッチからトレーニングされた場合、CNNと比較してパフォーマンスが劣る。
1)入力画像の単純なトークン化は隣接画素間の重要な局所構造(エッジ、ラインなど)のモデル化に失敗し、そのトレーニングサンプル効率が低下すること、2) vitの冗長な注意バックボーン設計は、固定された計算予算と限られたトレーニングサンプルの機能が限られていることに起因している。
To overcome such limitations, we propose a new Tokens-To-Token Vision Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T) transformation to progressively structurize the image to tokens by recursively aggregating neighboring Tokens into one Token (Tokens-to-Token), such that local structure presented by surrounding tokens can be modeled and tokens length can be reduced; 2) an efficient backbone with a deep-narrow structure for vision transformers motivated by CNN architecture design after extensive study.
特に、T2T-ViT はバニラ ViT のパラメータ数と MAC を 200 % 削減し、ImageNet でゼロから訓練すると 2.5 % 以上の改善を達成します。
また、ResNetsを上回り、ImageNetで直接トレーニングする際にMobileNetsと匹敵するパフォーマンスを実現します。
例えば、ResNet50と同等のサイズのT2T-ViTは、ImageNet上で80.7\%のtop-1精度を達成できる。
コード: https://github.com/yitu-opensource/T2T-ViT) Transformers, which are popular for language modeling, have been explored for solving vision tasks recently, e.g., the Vision Transformers (ViT) for image classification. The ViT model splits each image into a sequence of tokens with fixed length and then applies multiple Transformer layers to model their global relation for classification. However, ViT achieves inferior performance compared with CNNs when trained from scratch on a midsize dataset (e.g., ImageNet). We find it is because: 1) the simple tokenization of input images fails to model the important local structure (e.g., edges, lines) among neighboring pixels, leading to its low training sample efficiency; 2) the redundant attention backbone design of ViT leads to limited feature richness in fixed computation budgets and limited training samples. To overcome such limitations, we propose a new Tokens-To-Token Vision Transformers (T2T-ViT), which introduces 1) a layer-wise Tokens-to-Token (T2T) transformation to progressively structurize the image to tokens by recursively aggregating neighboring Tokens into one Token (Tokens-to-Token), such that local structure presented by surrounding tokens can be modeled and tokens length can be reduced; 2) an efficient backbone with a deep-narrow structure for vision transformers motivated by CNN architecture design after extensive study. Notably, T2T-ViT reduces the parameter counts and MACs of vanilla ViT by 200\%, while achieving more than 2.5\% improvement when trained from scratch on ImageNet. It also outperforms ResNets and achieves comparable performance with MobileNets when directly training on ImageNet. For example, T2T-ViT with ResNet50 comparable size can achieve 80.7\% top-1 accuracy on ImageNet. (Code: https://github.com/yitu-opensource/T2T-ViT) | 翻訳日:2021-01-31 18:14:30 公開日:2021-01-28 |
# トポロジー正規化によるドメイン適応 Domain Adaptation by Topology Regularization ( http://arxiv.org/abs/2101.12102v1 ) ライセンス: Link先を確認 | Deborah Weeks and Samuel Rivera | (参考訳) ディープラーニングは、目標認識を補助する主要なアプローチとなっている。
通常、これらの手法は大量のラベル付きトレーニングデータを必要とするが、ドメイン適応(DA)または転送学習(TL)により、ラベル付き(ソース)データセットから興味のある(学習対象)データセットに知識を転送することができる。
DAにより、ネットワークはソースとターゲット間の分散ミスマッチを克服し、ターゲットドメインの一般化が不十分になります。
daテクニックは、ソースとターゲット間の分岐計測を最小化し、ソースからターゲットへの知識の転送を可能にすることで、これらの分布を調整する。
これらのアルゴリズムは近年大きく進歩しているが、ほとんどはソースとターゲットの整合においてグローバルデータ多様体構造を明示的に活用していない。
本稿では,TLに永続的ホモロジーと呼ばれるトポロジ的データ解析(TDA)手法を適用し,グローバルなデータ構造を活用することを提案する。
本稿では,ドメイン逆転(DAd)畳み込みニューラルネットワーク(CNN)アーキテクチャにおける永続的ホモロジーの利用について検討する。
実験では、持続性のみを並べることは移動には不十分であるが、位相特異点の寿命とともに考慮されなければならない。
さらに,長寿命はロバストな判別的特徴を示し,データ構造がより良好であることを見出した。
これらの正規化手法を使わずにベースライン上に示すように、DAに対する既存の発散最小化に基づくアプローチが位相構造を改善することを発見した。
これらの実験は、TLタスクのパフォーマンスを高めるために、トポロジカルな構造をどのように活用できるかを強調したい。 Deep learning has become the leading approach to assisted target recognition. While these methods typically require large amounts of labeled training data, domain adaptation (DA) or transfer learning (TL) enables these algorithms to transfer knowledge from a labelled (source) data set to an unlabelled but related (target) data set of interest. DA enables networks to overcome the distribution mismatch between the source and target that leads to poor generalization in the target domain. DA techniques align these distributions by minimizing a divergence measurement between source and target, making the transfer of knowledge from source to target possible. While these algorithms have advanced significantly in recent years, most do not explicitly leverage global data manifold structure in aligning the source and target. We propose to leverage global data structure by applying a topological data analysis (TDA) technique called persistent homology to TL. In this paper, we examine the use of persistent homology in a domain adversarial (DAd) convolutional neural network (CNN) architecture. The experiments show that aligning persistence alone is insufficient for transfer, but must be considered along with the lifetimes of the topological singularities. In addition, we found that longer lifetimes indicate robust discriminative features and more favorable structure in data. We found that existing divergence minimization based approaches to DA improve the topological structure, as indicated over a baseline without these regularization techniques. We hope these experiments highlight how topological structure can be leveraged to boost performance in TL tasks. | 翻訳日:2021-01-31 18:13:37 公開日:2021-01-28 |
# マルチトラックプールを用いたリアルタイムマルチオブジェクトトラッキングのための識別的外観モデル Discriminative Appearance Modeling with Multi-track Pooling for Real-time Multi-object Tracking ( http://arxiv.org/abs/2101.12159v1 ) ライセンス: Link先を確認 | Chanho Kim, Li Fuxin, Mazen Alotaibi, James M. Rehg | (参考訳) マルチオブジェクトトラッキングでは、トラッカーはそのメモリにシーン内の各オブジェクトの外観とモーション情報を維持します。
このメモリは、トラックと検出の一致を見つけるために利用され、マッチング結果に基づいて更新される。
多くのアプローチでは、各ターゲットを分離してモデル化し、シーン内のすべてのターゲットを一緒にメモリを更新するために使用できない。
シーンに類似したオブジェクトがある場合、これは問題となる可能性がある。
本稿では,新しいマルチトラックプーリングモジュールを用いて,メモリ更新中のすべてのトラックを同時に考慮し,空間的なオーバーヘッドを小さくする問題を解く。
さらに,オンライン上でハードトラッキングエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
以上の結果から,これらの技術の組み合わせは強力な差別的外見モデルとなり,グリーディデータアソシエーションを生かしてオンライン追跡性能を達成できることが示唆された。
我々の実験は、パブリックマルチオブジェクト追跡(MOT)データセット上でのリアルタイム、最先端のパフォーマンスを実証した。 In multi-object tracking, the tracker maintains in its memory the appearance and motion information for each object in the scene. This memory is utilized for finding matches between tracks and detections and is updated based on the matching result. Many approaches model each target in isolation and lack the ability to use all the targets in the scene to jointly update the memory. This can be problematic when there are similar looking objects in the scene. In this paper, we solve the problem of simultaneously considering all tracks during memory updating, with only a small spatial overhead, via a novel multi-track pooling module. We additionally propose a training strategy adapted to multi-track pooling which generates hard tracking episodes online. We show that the combination of these innovations results in a strong discriminative appearance model, enabling the use of greedy data association to achieve online tracking performance. Our experiments demonstrate real-time, state-of-the-art performance on public multi-object tracking (MOT) datasets. | 翻訳日:2021-01-31 18:12:52 公開日:2021-01-28 |
# 自動車の道徳的・社会的影響 Moral and Social Ramifications of Autonomous Vehicles ( http://arxiv.org/abs/2101.11775v1 ) ライセンス: Link先を確認 | Veljko Dubljevi\'c (1), Sean Douglas (1), Jovan Milojevich (2), Nirav Ajmeri (3), William A. Bauer (1), George F. List (1) and Munindar P. Singh (1) ((1) North Carolina State University, (2) Oklahoma State University, (3) University of Bristol) | (参考訳) 自動運転車(AV)は、特に説明責任、尊厳、正義に関する重要な社会的および倫理的な懸念を提起します。
私たちは、AV技術がプロフェッショナルおよびセミプロフェッショナルドライバーの生活と生活にどのように影響を与えるかから生じる特定の懸念に焦点を当てています。
そのような懸念の以前の研究は専門家の意見に焦点を当てていますが、私たちはこれらの倫理的および社会的課題をドライバー自身の視点から理解するよう努めています。
そこで我々は,半構造化インタビューに基づく質的研究手法を採用した。
これは、調査などの表面的な方法のバイアスを回避することによって、ステークホルダーのコア懸念を深く理解するのに役立つ確立された社会科学方法論です。
運転者は、avが交通システムに大きな影響を与えるという専門家の意見に同意する一方で、生活の見通しを理解し、運転職が不十分で職業が保護に値するものではないという提案を否定する。
ドライバーが専門家とどう違うかを示すことで、私たちの研究はavとaiや他の先進技術との差を広げています。
以上の結果から,新たな技術が倫理的に導入されるためには,ステークホルダーの質的研究が不可欠であることが示唆された。 Autonomous Vehicles (AVs) raise important social and ethical concerns, especially about accountability, dignity, and justice. We focus on the specific concerns arising from how AV technology will affect the lives and livelihoods of professional and semi-professional drivers. Whereas previous studies of such concerns have focused on the opinions of experts, we seek to understand these ethical and societal challenges from the perspectives of the drivers themselves. To this end, we adopted a qualitative research methodology based on semi-structured interviews. This is an established social science methodology that helps understand the core concerns of stakeholders in depth by avoiding the biases of superficial methods such as surveys. We find that whereas drivers agree with the experts that AVs will significantly impact transportation systems, they are apprehensive about the prospects for their livelihoods and dismiss the suggestions that driving jobs are unsatisfying and their profession does not merit protection. By showing how drivers differ from the experts, our study has ramifications beyond AVs to AI and other advanced technologies. Our findings suggest that qualitative research applied to the relevant, especially disempowered, stakeholders is essential to ensuring that new technologies are introduced ethically. | 翻訳日:2021-01-31 18:12:17 公開日:2021-01-28 |
# 組合せオークションにおける平衡学習--擬次力学による近似ベイズナッシュ平衡計算 Equilibrium Learning in Combinatorial Auctions: Computing Approximate Bayesian Nash Equilibria via Pseudogradient Dynamics ( http://arxiv.org/abs/2101.11946v1 ) ライセンス: Link先を確認 | Stefan Heidekr\"uger, Paul Sutterer, Nils Kohring, Maximilian Fichtl, and Martin Bichler | (参考訳) 市場メカニズムとしての組合せオークション(CA)の適用は実際には普及していますが、ベイズナッシュ平衡(BNE)は理解が不十分です。
解析解は、問題が可搬偏微分方程式 (pde) として再定式化できるいくつかのケースでのみ知られている。
一般の場合、BNEの発見は計算が難しいことが知られている。
オークションにおけるBNEの数値計算に関するこれまでの研究は、これらのPDEを明示的に解いたり、戦略空間におけるポイントワイズ最適応答を計算したり、制限されたサブゲームを反復的に解いたりしていた。
本研究では,戦略をニューラルネットワークとして表現し,自己遊びにおける勾配ダイナミクスに基づく政策イテレーションを適用する,汎用的かつスケーラブルなマルチエージェント均衡学習手法を提案する。
ほとんどのオークションは元ポスト微分不可能であるため、勾配は使用できないか誤解を招く可能性がある。
勾配力学は一般に NE への収束を保証できないことはよく知られているが、多種多様なオークションにおいて近似 BNE への高速で堅牢な収束を観察し、収束のための十分条件を示す。 Applications of combinatorial auctions (CA) as market mechanisms are prevalent in practice, yet their Bayesian Nash equilibria (BNE) remain poorly understood. Analytical solutions are known only for a few cases where the problem can be reformulated as a tractable partial differential equation (PDE). In the general case, finding BNE is known to be computationally hard. Previous work on numerical computation of BNE in auctions has relied either on solving such PDEs explicitly, calculating pointwise best-responses in strategy space, or iteratively solving restricted subgames. In this study, we present a generic yet scalable alternative multi-agent equilibrium learning method that represents strategies as neural networks and applies policy iteration based on gradient dynamics in self-play. Most auctions are ex-post nondifferentiable, so gradients may be unavailable or misleading, and we rely on suitable pseudogradient estimates instead. Although it is well-known that gradient dynamics cannot guarantee convergence to NE in general, we observe fast and robust convergence to approximate BNE in a wide variety of auctions and present a sufficient condition for convergence | 翻訳日:2021-01-31 18:11:39 公開日:2021-01-28 |
# 逐次的社会的ジレンマにおけるチューナブルエージェントの効果の検討 Exploring the Impact of Tunable Agents in Sequential Social Dilemmas ( http://arxiv.org/abs/2101.11967v1 ) ライセンス: Link先を確認 | David O'Callaghan and Patrick Mannion | (参考訳) 強化学習エージェントを開発する場合、標準的なアプローチは、単一の固定報酬関数に対して可能な限り最適な固定ポリシーに収束するようにエージェントを訓練することです。
将来、異なるエージェントの振る舞いが必要な場合、この方法で訓練されたエージェントは通常、完全にまたは部分的に再訓練され、貴重な時間とリソースを浪費しなければならない。
本研究では,多目的強化学習を活用し,調整可能なエージェントを創り出す。
再トレーニングを必要とせずに、デザイナーの好みに応じてさまざまな振る舞いを適用できるエージェント。
この手法を、個人と集団の合理性の間に固有の緊張がある一連の社会的ジレンマ、設定に適用する。
このような設定で一つの固定ポリシーを学習すると、学習が完了すると相手の戦略が変わると大きな不利になる。
本研究は, 調整可能なエージェント・フレームワークにより, 逐次的社会的ジレンマにおける協調行動と競争行動の適応が容易であり, トレーニングを必要とせず, 幅広い行動や対戦戦略に対応できるように, 単一の訓練されたエージェント・モデルを調整できることを実証的に実証した。 When developing reinforcement learning agents, the standard approach is to train an agent to converge to a fixed policy that is as close to optimal as possible for a single fixed reward function. If different agent behaviour is required in the future, an agent trained in this way must normally be either fully or partially retrained, wasting valuable time and resources. In this study, we leverage multi-objective reinforcement learning to create tunable agents, i.e. agents that can adopt a range of different behaviours according to the designer's preferences, without the need for retraining. We apply this technique to sequential social dilemmas, settings where there is inherent tension between individual and collective rationality. Learning a single fixed policy in such settings leaves one at a significant disadvantage if the opponents' strategies change after learning is complete. In our work, we demonstrate empirically that the tunable agents framework allows easy adaption between cooperative and competitive behaviours in sequential social dilemmas without the need for retraining, allowing a single trained agent model to be adjusted to cater for a wide range of behaviours and opponent strategies. | 翻訳日:2021-01-31 18:10:57 公開日:2021-01-28 |
# 非定常マルコフ政策による遅延環境における行動 Acting in Delayed Environments with Non-Stationary Markov Policies ( http://arxiv.org/abs/2101.11992v1 ) ライセンス: Link先を確認 | Esther Derman, Gal Dalal, Shie Mannor | (参考訳) 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。
しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融などのアプリケーションで壊滅的な失敗につながる可能性があります。
MDPの学習と計画のためのフレームワークを紹介し、意思決定者が$m$ステップの遅延で実行されるアクションをコミットします。
状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。
そして、実行遅延により、元の状態空間におけるマルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。
定常マルコフポリシーについては、一般に準最適であることを示す。
そこで我々は,非定常型Q学習型モデルベースアルゴリズムを考案し,状態拡張に頼らずに遅延実行タスクを解く。
表型、物理的、およびアタリ領域に関する実験では、遅延を無視するか、状態-拡張の闘争に依存している標準アプローチまたは発散のために失敗する一方、かなりの遅延でも高速にハイパフォーマンスに収束することが明らかになった。
コードはhttps://github.com/galdl/rl_delay_basic.gitで入手できる。 The standard Markov Decision Process (MDP) formulation hinges on the assumption that an action is executed immediately after it was chosen. However, assuming it is often unrealistic and can lead to catastrophic failures in applications such as robotic manipulation, cloud computing, and finance. We introduce a framework for learning and planning in MDPs where the decision-maker commits actions that are executed with a delay of $m$ steps. The brute-force state augmentation baseline where the state is concatenated to the last $m$ committed actions suffers from an exponential complexity in $m$, as we show for policy iteration. We then prove that with execution delay, Markov policies in the original state-space are sufficient for attaining maximal reward, but need to be non-stationary. As for stationary Markov policies, we show they are sub-optimal in general. Consequently, we devise a non-stationary Q-learning style model-based algorithm that solves delayed execution tasks without resorting to state-augmentation. Experiments on tabular, physical, and Atari domains reveal that it converges quickly to high performance even for substantial delays, while standard approaches that either ignore the delay or rely on state-augmentation struggle or fail due to divergence. The code is available at https://github.com/galdl/rl_delay_basic.git. | 翻訳日:2021-01-31 18:10:14 公開日:2021-01-28 |
# カバレッジ分析によるディープニューラルネットワークの信頼性向上 Increasing the Confidence of Deep Neural Networks by Coverage Analysis ( http://arxiv.org/abs/2101.12100v1 ) ライセンス: Link先を確認 | Giulio Rossolini, Alessandro Biondi, Giorgio Carlo Buttazzo | (参考訳) 機械学習アルゴリズムとディープニューラルネットワークのいくつかの認識と制御タスクにおける優れたパフォーマンスは、自動運転ロボットや自動運転車などの安全クリティカルなアプリケーションでそのような技術を採用する業界を推し進めています。
しかし、現在、深層学習手法をより信頼し、予測可能で、安全で、敵の攻撃に対して安全なものにするために、いくつかの課題を解決する必要がある。
ディープニューラルネットワークの信頼性を改善するためにいくつかの方法が提案されているが、そのほとんどは特定の対向的な例のクラスに適合しており、訓練サンプルから大きく逸脱する他のコーナーケースや安全でない入力を検出することができない。
本稿では,異なる安全でない入力に対するモデルのロバスト性を高めるために,カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
特に、4つのカバレッジ分析手法が提案され、複数の検出ロジックを評価するためのアーキテクチャでテストされている。
実験の結果,提案手法は,実行時間とメモリ要求の制限を伴い,強力な逆例と分散入力の両方を検出するのに有効であることがわかった。 The great performance of machine learning algorithms and deep neural networks in several perception and control tasks is pushing the industry to adopt such technologies in safety-critical applications, as autonomous robots and self-driving vehicles. At present, however, several issues need to be solved to make deep learning methods more trustworthy, predictable, safe, and secure against adversarial attacks. Although several methods have been proposed to improve the trustworthiness of deep neural networks, most of them are tailored for specific classes of adversarial examples, hence failing to detect other corner cases or unsafe inputs that heavily deviate from the training samples. This paper presents a lightweight monitoring architecture based on coverage paradigms to enhance the model robustness against different unsafe inputs. In particular, four coverage analysis methods are proposed and tested in the architecture for evaluating multiple detection logics. Experimental results show that the proposed approach is effective in detecting both powerful adversarial examples and out-of-distribution inputs, introducing limited extra-execution time and memory requirements. | 翻訳日:2021-01-31 18:09:31 公開日:2021-01-28 |
# 個別臓器移植割り当てのための$\mathbf{\mathit{Matching}}$表現の学習 Learning $\mathbf{\mathit{Matching}}$ Representations for Individualized Organ Transplantation Allocation ( http://arxiv.org/abs/2101.11769v1 ) ライセンス: Link先を確認 | Can Xu, Ahmed M. Alaa, Ioana Bica, Brent D. Ershoff, Maxime Cannesson, Mihaela van der Schaar | (参考訳) 臓器移植は終末期の病気を治療する最後の手段であるが、移植の成功の確率はドナーと受け手の互換性に大きく依存する。
現在の医療実践はドナー・レプリエントマッチングのための粗い規則に依存しているが、臓器の互換性の基礎となる複雑な要因に関するドメイン知識が不足している。
本稿では,臓器のアロケーションと移植結果の観察データを用いて,臓器マッチングのためのデータ駆動ルールの学習問題を定式化する。
この問題は、2つの機能空間(ドナーと受信者)をマッチングすることを含む標準の教師付き学習セットアップから出発し、データに観察されていない非実用一致の下での移植結果を推定する必要がある。
これらの問題に対処するために,本モデルでは,ドナー応答性を予測するための表現学習に基づくモデルを提案する。このモデルでは,クラスタドナー特徴の表現を学習し,ドナー不変変換を受け手特徴に適用して,特定のドナー応答性特徴インスタンスの結果を予測する。
半合成および実世界のデータセットに関する実験は、私たちのモデルが人間の専門家によって実行される最先端の割り当て方法とポリシーを上回っていることを示しています。 Organ transplantation is often the last resort for treating end-stage illness, but the probability of a successful transplantation depends greatly on compatibility between donors and recipients. Current medical practice relies on coarse rules for donor-recipient matching, but is short of domain knowledge regarding the complex factors underlying organ compatibility. In this paper, we formulate the problem of learning data-driven rules for organ matching using observational data for organ allocations and transplant outcomes. This problem departs from the standard supervised learning setup in that it involves matching the two feature spaces (i.e., donors and recipients), and requires estimating transplant outcomes under counterfactual matches not observed in the data. To address these problems, we propose a model based on representation learning to predict donor-recipient compatibility; our model learns representations that cluster donor features, and applies donor-invariant transformations to recipient features to predict outcomes for a given donor-recipient feature instance. Experiments on semi-synthetic and real-world datasets show that our model outperforms state-of-art allocation methods and policies executed by human experts. | 翻訳日:2021-01-31 18:08:52 公開日:2021-01-28 |
# データの欠如による確率時系列の推定 Inference of stochastic time series with missing data ( http://arxiv.org/abs/2101.11816v1 ) ライセンス: Link先を確認 | Sangwon Lee and Vipul Periwal and Junghyo Jo | (参考訳) 時系列からダイナミクスを推測することは、データ分析の重要な目的である。
特に不完全データから確率力学を推測することは困難である。
E-stepは欠落したデータポイントを復元し、M-stepは復元されたデータの基盤となるネットワークモデルを推論する。
キネティックイジングモデルによって生成された合成データを用いて,このアルゴリズムが欠落したデータ点の復元や基礎となるモデルの推定に有効であることを確認した。
emアルゴリズムの最初のイテレーションでは、モデル推論はデータポイントの欠如よりも観測されたデータポイントとのモデルデータ一貫性を示す。
しかし、繰り返し続けるにつれて、欠落したデータポイントはモデルデータの一貫性が向上します。
観測されたデータポイントと欠落したデータポイントの整合性を要求することは、最も正確なモデル推論をオーバーシュートするのを防ぐために、イテレーションの効果的な停止基準となる。
この停止基準でこのEMアルゴリズムを用いて、実際の神経活動の時系列データから欠落したデータポイントと基盤となるネットワークを推定する。
本手法は,これまで適応に最適化されていない時間相関や発火統計などのニューロン活動の集団的特性を回復する。 Inferring dynamics from time series is an important objective in data analysis. In particular, it is challenging to infer stochastic dynamics given incomplete data. We propose an expectation maximization (EM) algorithm that iterates between alternating two steps: E-step restores missing data points, while M-step infers an underlying network model of restored data. Using synthetic data generated by a kinetic Ising model, we confirm that the algorithm works for restoring missing data points as well as inferring the underlying model. At the initial iteration of the EM algorithm, the model inference shows better model-data consistency with observed data points than with missing data points. As we keep iterating, however, missing data points show better model-data consistency. We find that demanding equal consistency of observed and missing data points provides an effective stopping criterion for the iteration to prevent overshooting the most accurate model inference. Armed with this EM algorithm with this stopping criterion, we infer missing data points and an underlying network from a time-series data of real neuronal activities. Our method recovers collective properties of neuronal activities, such as time correlations and firing statistics, which have previously never been optimized to fit. | 翻訳日:2021-01-31 18:07:44 公開日:2021-01-28 |
# スパースオンライン学習における低複雑性近似ベイズロジスティック回帰 Low Complexity Approximate Bayesian Logistic Regression for Sparse Online Learning ( http://arxiv.org/abs/2101.12113v1 ) ライセンス: Link先を確認 | Gil I. Shamir and Wojciech Szpankowski | (参考訳) 理論的には、ベイズ法はオンラインロジスティック回帰に対する後悔の限界を低くすることができる。
しかし実際には、このようなテクニックは特に大きな機能セットでは実現できないかもしれない。
膨大なスパース特徴集合に対して、理論上の利点を減少させる様々な近似を用いる必要がある。
しばしば、超パラメータを持つ確率勾配法を適用し、ある種の代理損失を調整し、ベイズ法の理論上の優位性を破る。
混合を近似するために定義されるサロゲート損失はモンテカルロサンプリングのような手法を必要とし、例えば計算量を増加させる。
疎度なオンラインロジスティックおよびプロビット回帰に対する低複雑性解析近似を提案する。
変分推論や他の手法とは異なり, 解析的閉形式を用い, 計算量を大幅に減少させる。
Gaussian Mixturesのような密なソリューションとは異なり、私たちのメソッドは複雑さを増すことなく巨大な機能セットでスパース問題を可能にします。
解析的閉形式を用いることで、確率勾配法をサロゲート損失に適用したり、学習と正規化ハイパーパラメータのチューニングとバランスをとる必要もない。
実験結果は、より計算にかかわる手法のパフォーマンスを上回ります。
このような手法と同様に、我々の手法も特徴や例による不確かさの度合いを明らかにしている。 Theoretical results show that Bayesian methods can achieve lower bounds on regret for online logistic regression. In practice, however, such techniques may not be feasible especially for very large feature sets. Various approximations that, for huge sparse feature sets, diminish the theoretical advantages, must be used. Often, they apply stochastic gradient methods with hyper-parameters that must be tuned on some surrogate loss, defeating theoretical advantages of Bayesian methods. The surrogate loss, defined to approximate the mixture, requires techniques as Monte Carlo sampling, increasing computations per example. We propose low complexity analytical approximations for sparse online logistic and probit regressions. Unlike variational inference and other methods, our methods use analytical closed forms, substantially lowering computations. Unlike dense solutions, as Gaussian Mixtures, our methods allow for sparse problems with huge feature sets without increasing complexity. With the analytical closed forms, there is also no need for applying stochastic gradient methods on surrogate losses, and for tuning and balancing learning and regularization hyper-parameters. Empirical results top the performance of the more computationally involved methods. Like such methods, our methods still reveal per feature and per example uncertainty measures. | 翻訳日:2021-01-31 18:07:05 公開日:2021-01-28 |
# 確率勾配の老化における帰納規則化の起源について On the Origin of Implicit Regularization in Stochastic Gradient Descent ( http://arxiv.org/abs/2101.12176v1 ) ライセンス: Link先を確認 | Samuel L. Smith, Benoit Dherin, David G. T. Barrett and Soham De | (参考訳) 無限小学習率について、確率的勾配降下 (sgd) は全バッチ損失関数上の勾配流の経路に従う。
しかし,テスト精度を最大化する学習率はしばしば学習損失を最小限にする学習率よりも大きいため,この一般化の利点は収束限界では説明できない。
この現象を解釈するために、ランダムなシャフリングを持つSGDの場合、学習率が小さくて有限である場合、平均SGD反復も勾配流の経路の近くに留まることを証明します。
この修正された損失は、元の損失関数と、ミニバッチ勾配のノルムをペナルティ化する暗黙の正規化からなる。
軽度の仮定では、バッチサイズが小さい場合には、暗黙の正規化項のスケールは、学習率とバッチサイズとの比率に比例する。
損失に暗黙の正則化器を明示的に含めることで、学習率が小さい場合にテスト精度を高めることを実証的に検証する。 For infinitesimal learning rates, stochastic gradient descent (SGD) follows the path of gradient flow on the full batch loss function. However moderately large learning rates can achieve higher test accuracies, and this generalization benefit is not explained by convergence bounds, since the learning rate which maximizes test accuracy is often larger than the learning rate which minimizes training loss. To interpret this phenomenon we prove that for SGD with random shuffling, the mean SGD iterate also stays close to the path of gradient flow if the learning rate is small and finite, but on a modified loss. This modified loss is composed of the original loss function and an implicit regularizer, which penalizes the norms of the minibatch gradients. Under mild assumptions, when the batch size is small the scale of the implicit regularization term is proportional to the ratio of the learning rate to the batch size. We verify empirically that explicitly including the implicit regularizer in the loss can enhance the test accuracy when the learning rate is small. | 翻訳日:2021-01-31 18:06:27 公開日:2021-01-28 |
# 新規ポテンシャル3CL$^{\text{pro}}$とPL$^{\text{pro}}$阻害剤の自動設計 Automatic design of novel potential 3CL$^{\text{pro}}$ and PL$^{\text{pro}}$ inhibitors ( http://arxiv.org/abs/2101.11890v1 ) ライセンス: Link先を確認 | Timothy Atkinson, Saeed Saremi, Faustino Gomez, Jonathan Masci | (参考訳) SARS-CoV-1およびSARS-CoV-2の新規阻害剤の設計を目的として、特定の望ましい特性を有する分子を同定するプロパティ予測器、既知のトレーニング分子と与えられた分子の統計的類似性を近似するエネルギーモデル、および分子探索方法の3つの構成要素からなる一般分子最適化フレームワークである分子ニューラルアッセイサーチ(MONAS)を提案する。
この研究では、これらのコンポーネントは、それぞれ、グラフニューラルネットワーク(GNNs)、Deep Energy Estimator Networks(DEEN)、およびモンテカルロツリーサーチ(MCTS)でインスタンス化される。
この実装は、GNNがSARS-CoV-1阻害剤であると判断した120万分子(40万分子のうち)を同定するために使用され、同時に、GNNの訓練に用いられるデータセットに統計的に近接している。 With the goal of designing novel inhibitors for SARS-CoV-1 and SARS-CoV-2, we propose the general molecule optimization framework, Molecular Neural Assay Search (MONAS), consisting of three components: a property predictor which identifies molecules with specific desirable properties, an energy model which approximates the statistical similarity of a given molecule to known training molecules, and a molecule search method. In this work, these components are instantiated with graph neural networks (GNNs), Deep Energy Estimator Networks (DEEN) and Monte Carlo tree search (MCTS), respectively. This implementation is used to identify 120K molecules (out of 40-million explored) which the GNN determined to be likely SARS-CoV-1 inhibitors, and, at the same time, are statistically close to the dataset used to train the GNN. | 翻訳日:2021-01-31 18:05:48 公開日:2021-01-28 |
# シンボリックテンポラル知識を深層シーケンシャルモデルに組み込む Embedding Symbolic Temporal Knowledge into Deep Sequential Models ( http://arxiv.org/abs/2101.11981v1 ) ライセンス: Link先を確認 | Yaqi Xie, Fan Zhou, Harold Soh | (参考訳) シーケンスや時系列はロボットのタスク、例えば行動認識や模倣学習でしばしば発生する。
近年、深層ニューラルネットワーク(DNN)は、十分なトレーニングデータと計算資源を与えられたシーケンスを処理するための効果的なデータ駆動手法として出現している。
しかし、データに制限がある場合、ロジック/ルールベースのメソッドのような単純なモデルは驚くほどうまく機能します。
しかし、DNNとは異なり、これらの「構造化」モデルは拡張が困難であり、生の非構造化データではうまく動作しない。
本研究では,フレキシブルなDNNを学習するが,利用可能な時間的知識を利用する。
我々のアプローチは、線形時間論理(LTL)として表現された記号的知識を埋め込み、これらの埋め込みを用いて深層モデルの訓練を導くことである。
具体的には,グラフニューラルネットワークを用いてLTL式から生成したオートマトンのセマンティックな埋め込みを構築する。
実験では、これらの学習された埋め込みは、シーケンシャルアクション認識や模倣学習などの下流のロボットタスクの改善につながる可能性があります。 Sequences and time-series often arise in robot tasks, e.g., in activity recognition and imitation learning. In recent years, deep neural networks (DNNs) have emerged as an effective data-driven methodology for processing sequences given sufficient training data and compute resources. However, when data is limited, simpler models such as logic/rule-based methods work surprisingly well, especially when relevant prior knowledge is applied in their construction. However, unlike DNNs, these "structured" models can be difficult to extend, and do not work well with raw unstructured data. In this work, we seek to learn flexible DNNs, yet leverage prior temporal knowledge when available. Our approach is to embed symbolic knowledge expressed as linear temporal logic (LTL) and use these embeddings to guide the training of deep models. Specifically, we construct semantic-based embeddings of automata generated from LTL formula via a Graph Neural Network. Experiments show that these learnt embeddings can lead to improvements in downstream robot tasks such as sequential action recognition and imitation learning. | 翻訳日:2021-01-31 18:05:07 公開日:2021-01-28 |
# Edge Federated Learning via Unit-Modulus Over-The-Air Computation (Extended Version) Edge Federated Learning Via Unit-Modulus Over-The-Air Computation (Extended Version) ( http://arxiv.org/abs/2101.12051v1 ) ライセンス: Link先を確認 | Shuai Wang, Yuncong Hong, Rui Wang, Qi Hao, Yik-Chung Wu, and Derrick Wing Kwan Ng | (参考訳) Edge Federated Learning(FL)は、分散データセットから無線通信を通じてグローバルパラメトリックモデルをトレーニングする、新興機械学習パラダイムである。
本稿では,ローカルモデルパラメータを同時にアップロードし,アナログビームフォーミングによりグローバルモデルパラメータを更新する,効率的なエッジフェデレーション学習を容易にするためのUM-AirCompフレームワークを提案する。
提案するフレームワークは、高度なベースバンド信号処理を回避し、通信遅延や実装コストの低減につながる。
UM-AirCompのトレーニング損失境界を導出し,非凸非滑らかな損失境界を最小化するために,2つの低複素性アルゴリズムであるPAM(Palse alternating Minimization)とAGP(Accelerated gradient projection)を提案する。
シミュレーションの結果, PAMアルゴリズムを用いたUM-AirCompフレームワークは, モデルパラメータの推定, トレーニング損失, テスト誤差の平均二乗誤差を小さくするだけでなく, 他のベンチマーク手法よりもはるかに短い実行時間を必要とすることがわかった。
さらに,AGPアルゴリズムを用いたUM-AirCompフレームワークは,既存の最適化アルゴリズムと比較して計算複雑性を桁違いに低減し,良好な性能を実現する。
最後に,車両間自動走行シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
ニューラルネットワークはスパーサーモデルパラメータを含むため、自律運転タスクは他のタスクよりもモデルパラメータエラーに敏感であることが判明した。 Edge federated learning (FL) is an emerging machine learning paradigm that trains a global parametric model from distributed datasets via wireless communications. This paper proposes a unit-modulus over-the-air computation (UM-AirComp) framework to facilitate efficient edge federated learning, which simultaneously uploads local model parameters and updates global model parameters via analog beamforming. The proposed framework avoids sophisticated baseband signal processing, leading to low communication delays and implementation costs. A training loss bound of UM-AirComp is derived and two low-complexity algorithms, termed penalty alternating minimization (PAM) and accelerated gradient projection (AGP), are proposed to minimize the nonconvex nonsmooth loss bound. Simulation results show that the proposed UM-AirComp framework with PAM algorithm not only achieves a smaller mean square error of model parameters' estimation, training loss, and testing error, but also requires a significantly shorter run time than that of other benchmark schemes. Moreover, the proposed UM-AirComp framework with AGP algorithm achieves satisfactory performance while reduces the computational complexity by orders of magnitude compared with existing optimization algorithms. Finally, we demonstrate the implementation of UM-AirComp in a vehicle-to-everything autonomous driving simulation platform. It is found that autonomous driving tasks are more sensitive to model parameter errors than other tasks since their neural networks are more sophisticated containing sparser model parameters. | 翻訳日:2021-01-31 18:04:29 公開日:2021-01-28 |
# プライバシー保護CNNのスピードアップのためのReLUカウントの削減 Reducing ReLU Count for Privacy-Preserving CNN Speedup ( http://arxiv.org/abs/2101.11835v1 ) ライセンス: Link先を確認 | Inbar Helbitz, Shai Avidan | (参考訳) プライバシー保護機械学習アルゴリズムは、分類精度とデータプライバシーのバランスをとらなければならない。
これは、Convolutional Neural Networks(CNN)などの暗号および機械学習ツールの組み合わせを使用して行うことができます。
CNNは通常、畳み込み層または線形層と、ReLUのような非線形関数の2種類からなる。
これらのタイプは、異なる暗号ツールを使用して効率的に実装できます。
しかし、これらのツールは異なる表現を必要とし、それらの切り替えには時間と費用がかかります。
最近の研究は、ReLUが通信帯域の大部分を担っていることを示唆している。
ReLUは通常、各ピクセル(またはアクティベーション)の場所で適用されます。
ReLU運用の共有を提案いたします。
具体的には、あるアクティベーションのRELU決定を他のアクティベーションによって使用することができ、そのようなアクティベーションのグループのためのRELUを決定するさまざまな方法と異なる方法を検討する。
いくつかのデータセットでの実験により、最大3桁のReLU操作数を削減でき、その結果、通信帯域幅を50%以上削減できることが明らかになった。 Privacy-Preserving Machine Learning algorithms must balance classification accuracy with data privacy. This can be done using a combination of cryptographic and machine learning tools such as Convolutional Neural Networks (CNN). CNNs typically consist of two types of operations: a convolutional or linear layer, followed by a non-linear function such as ReLU. Each of these types can be implemented efficiently using a different cryptographic tool. But these tools require different representations and switching between them is time-consuming and expensive. Recent research suggests that ReLU is responsible for most of the communication bandwidth. ReLU is usually applied at each pixel (or activation) location, which is quite expensive. We propose to share ReLU operations. Specifically, the ReLU decision of one activation can be used by others, and we explore different ways to group activations and different ways to determine the ReLU for such a group of activations. Experiments on several datasets reveal that we can cut the number of ReLU operations by up to three orders of magnitude and, as a result, cut the communication bandwidth by more than 50%. | 翻訳日:2021-01-31 18:03:42 公開日:2021-01-28 |
# 生成型adversarial networkの隠れたタスク:ganトレーニングにおける代替的視点 The Hidden Tasks of Generative Adversarial Networks: An Alternative Perspective on GAN Training ( http://arxiv.org/abs/2101.11863v1 ) ライセンス: Link先を確認 | Romann M. Weber | (参考訳) 本稿では、GAN(Generative Adversarial Network)のトレーニングについて、GANジェネレータのトレーニングステップが2つの暗黙のサブプロブレムに分解されることを示す。
第一に、判別器は、およそ逆分類器ラベルによって生成される「逆例」の形で、ジェネレータに新しいターゲットデータを提供する。
第二に、これらの例は、ネットワークのトレーニングに指定された主な損失に関係なく、最小二乗回帰によってジェネレータを更新するターゲットとして使用される。
主たる理論的結果を実験的に検証し、これらのサブ問題を明確にすることで可能な代替トレーニング方法の意味を議論する。
また、ネットワーク内の誘導バイアスの単純な表現も紹介し、その回帰目標に対する発電機の出力を記述することに適用します。 We present an alternative perspective on the training of generative adversarial networks (GANs), showing that the training step for a GAN generator decomposes into two implicit sub-problems. In the first, the discriminator provides new target data to the generator in the form of "inverse examples" produced by approximately inverting classifier labels. In the second, these examples are used as targets to update the generator via least-squares regression, regardless of the main loss specified to train the network. We experimentally validate our main theoretical result and discuss implications for alternative training methods that are made possible by making these sub-problems explicit. We also introduce a simple representation of inductive bias in networks, which we apply to describing the generator's output relative to its regression targets. | 翻訳日:2021-01-31 18:03:04 公開日:2021-01-28 |
# 野生における連続学習のためのメタ例による一般化 Generalising via Meta-Examples for Continual Learning in the Wild ( http://arxiv.org/abs/2101.12081v1 ) ライセンス: Link先を確認 | Alessia Bertugli, Stefano Vincenzi, Simone Calderara, Andrea Passerini | (参考訳) ニューラルネットワークの迅速かつ継続的な学習は、いまだに野心的な課題である。
実際、現実世界のアプリケーションの多くは、通常はデータが少ないため、ニューラルネットワークが輝いている学習環境を反映していない。
このギャップを狭めるために、FUSION - Few-shot UnSupervIsed cONtinual learning - これは、非バランスなタスクの実際の分布とフローをシミュレートし、「野生で学習する」ニューラルネットワークに対処することを目的とした新しい戦略です。
MEML - Meta-Example Meta-Learning - 破滅的な忘れを同時に軽減し、新しいタスクの一般化と将来の学習を好む新しいモジュール。
メタ最適化における機能の再利用を促進するため,本モデルは,自己認識機構を用いて達成された集約表現を利用して,タスク毎の1つの内部ループを利用する。
MEMLの一般化能力をさらに強化するために、様々な拡張タスクを作成し、最も難しいタスクを最適化する手法を採用して拡張する。
数ショットの学習ベンチマークによる実験結果から,我々のモデルはFUSIONと完全教師付きケースの両方において,他のベースラインを超えていることが判明した。
また、標準の継続的学習において、最先端のアプローチを一貫して上回る動作についても検討します。 Learning quickly and continually is still an ambitious task for neural networks. Indeed, many real-world applications do not reflect the learning setting where neural networks shine, as data are usually few, mostly unlabelled and come as a stream. To narrow this gap, we introduce FUSION - Few-shot UnSupervIsed cONtinual learning - a novel strategy which aims to deal with neural networks that "learn in the wild", simulating a real distribution and flow of unbalanced tasks. We equip FUSION with MEML - Meta-Example Meta-Learning - a new module that simultaneously alleviates catastrophic forgetting and favours the generalisation and future learning of new tasks. To encourage features reuse during the meta-optimisation, our model exploits a single inner loop per task, taking advantage of an aggregated representation achieved through the use of a self-attention mechanism. To further enhance the generalisation capability of MEML, we extend it by adopting a technique that creates various augmented tasks and optimises over the hardest. Experimental results on few-shot learning benchmarks show that our model exceeds the other baselines in both FUSION and fully supervised case. We also explore how it behaves in standard continual learning consistently outperforming state-of-the-art approaches. | 翻訳日:2021-01-31 18:02:28 公開日:2021-01-28 |
# グラフマッチングのための融合移動 Fusion Moves for Graph Matching ( http://arxiv.org/abs/2101.12085v1 ) ライセンス: Link先を確認 | Lisa Hutschenreiter, Stefan Haller, Lorenz Feineis, Carsten Rother, Dagmar Kainm\"uller, Bogdan Savchynskyy | (参考訳) グラフマッチングとしても知られる二次代入問題に対する近似アルゴリズムに寄与する。
マルチラベル離散マルコフ確率場のための融合移動法の成功に触発され,グラフマッチングへの適用性を検討した。
特に,コンピュータビジョンやバイオイメージングの分野で優れた成果を最近示した,最先端のラグランジュ双対法と効率的に組み合わせることができることを示す。
さまざまなグラフマッチングデータセットに対する経験的評価が示すように、fusionの動きは、得られたソリューションの速度と品質の観点から、これらのメソッドのパフォーマンスを著しく改善します。
したがって、この組み合わせはグラフマッチングのための最先端の解法をもたらす。 We contribute to approximate algorithms for the quadratic assignment problem also known as graph matching. Inspired by the success of the fusion moves technique developed for multilabel discrete Markov random fields, we investigate its applicability to graph matching. In particular, we show how it can be efficiently combined with the dedicated state-of-the-art Lagrange dual methods that have recently shown superior results in computer vision and bio-imaging applications. As our empirical evaluation on a wide variety of graph matching datasets suggests, fusion moves notably improve performance of these methods in terms of speed and quality of the obtained solutions. Hence, this combination results in a state-of-the-art solver for graph matching. | 翻訳日:2021-01-31 18:01:45 公開日:2021-01-28 |
# 雑音二元系ニューラルネットワークにおける情報収縮とその意義 Information contraction in noisy binary neural networks and its implications ( http://arxiv.org/abs/2101.11750v1 ) ライセンス: Link先を確認 | Chuteng Zhou, Quntao Zhuang, Matthew Mattina, Paul N. Whatmough | (参考訳) ニューラルネットワークは、大規模画像分類、オブジェクト検出、自然言語処理タスクにおいて最先端のパフォーマンスを達成する機械学習モデルとして重要になっている。
本稿では、各ニューロンが不正確な出力を生じる確率がゼロでないノイズの多いバイナリニューラルネットワークについて検討する。
これらの騒がしいモデルは、生物学的、物理的、電子的な文脈から生じ、物理的世界に関連する重要な種類のモデルを構成する。
直感的には、そのようなシステムのニューロン数は、同じレベルの表現力と計算信頼性を維持しながらノイズを補うために増加する必要がある。
私たちの重要な発見は、ノイズの多いニューラルネットワークの必要な数のニューロンの境界が低くなっていることです。
この下限を証明するために、我々は情報理論のアプローチを採用し、二進対称チャネルに対するエバンス・シュルマンの結果を一般チャネルに一般化するだけでなく、ネットワークにおけるエンドツーエンドの情報収縮を推定する際のタイツネスを大幅に改善する、新しい強データ処理不等式(SDPI)を得る。
我々のSDPIは、ニューラルネットワークやセルオートマトンなど、さまざまな情報処理システムに適用できる。
雑音付きバイナリニューラルネットワークにおけるspdiの適用により,提案手法の有効性を検証し,ノイズレスニューラルネットワークの確立された理解とは大きく異なる雑音型ニューラルネットワークに対する深さ幅トレードオフを示唆する。
さらに、SDPIを適用してフォールトトレラント細胞オートマトンを研究し、エラー訂正オーバーヘッドと緩和時間の境界を得る。
本稿では,情報理論のレンズを通して,雑音情報処理システムの新たな理解を提供する。 Neural networks have gained importance as the machine learning models that achieve state-of-the-art performance on large-scale image classification, object detection and natural language processing tasks. In this paper, we consider noisy binary neural networks, where each neuron has a non-zero probability of producing an incorrect output. These noisy models may arise from biological, physical and electronic contexts and constitute an important class of models that are relevant to the physical world. Intuitively, the number of neurons in such systems has to grow to compensate for the noise while maintaining the same level of expressive power and computation reliability. Our key finding is a lower bound for the required number of neurons in noisy neural networks, which is first of its kind. To prove this lower bound, we take an information theoretic approach and obtain a novel strong data processing inequality (SDPI), which not only generalizes the Evans-Schulman results for binary symmetric channels to general channels, but also improves the tightness drastically when applied to estimate end-to-end information contraction in networks. Our SDPI can be applied to various information processing systems, including neural networks and cellular automata. Applying the SPDI in noisy binary neural networks, we obtain our key lower bound and investigate its implications on network depth-width trade-offs, our results suggest a depth-width trade-off for noisy neural networks that is very different from the established understanding regarding noiseless neural networks. Furthermore, we apply the SDPI to study fault-tolerant cellular automata and obtain bounds on the error correction overheads and the relaxation time. This paper offers new understanding of noisy information processing systems through the lens of information theory. | 翻訳日:2021-01-31 18:01:14 公開日:2021-01-28 |
# 深層学習による側頭部x線画像の年代推定 Chronological age estimation of lateral cephalometric radiographs with deep learning ( http://arxiv.org/abs/2101.11805v1 ) ライセンス: Link先を確認 | Ningtao Liu | (参考訳) 従来の手動年齢推定法は,X線画像の多種性に基づく重要な作業である。
最近の研究では、側方頭部計測(lc)画像が年齢の推定に利用できることが示されている。
しかし、これらの手法は、手動で画像の特徴を測定し、経験や得点に基づいて年齢推定を行う。
したがって、これらの方法は時間的かつ労働集約的であり、主観的意見に影響される。
本研究では,LC画像に基づく年齢推定を自動的に行うことができるサリエンシーマップ型年齢推定手法を提案する。
一方,画像中の各領域の年齢推定の重要性も示せるため,この手法の解釈性が向上することは間違いない。
本手法は4歳から40歳までの3014個のLC画像で試験を行った。
実験結果のmeaは1.250で、データが少ない年齢層でかなり良い結果が得られるため、最先端ベンチマークの結果よりも少ない。
また, lc画像における年齢推定に高い寄与を持つ各領域で訓練を行い, これらの異なる領域が年齢推定タスクに与える影響を検証した。
その結果,特にデータ量が少ない場合において,側頭頂部X線像の経時的年代推定法が時間的年代推定作業に有効であることが示唆された。
また,従来のディープラーニングと比較して,本手法は解釈可能である。 The traditional manual age estimation method is crucial labor based on many kinds of the X-Ray image. Some current studies have shown that lateral cephalometric(LC) images can be used to estimate age. However, these methods are based on manually measuring some image features and making age estimates based on experience or scoring. Therefore, these methods are time-consuming and labor-intensive, and the effect will be affected by subjective opinions. In this work, we propose a saliency map-enhanced age estimation method, which can automatically perform age estimation based on LC images. Meanwhile, it can also show the importance of each region in the image for age estimation, which undoubtedly increases the method's Interpretability. Our method was tested on 3014 LC images from 4 to 40 years old. The MEA of the experimental result is 1.250, which is less than the result of the state-of-the-art benchmark because it performs significantly better in the age group with fewer data. Besides, our model is trained in each area with a high contribution to age estimation in LC images, so the effect of these different areas on the age estimation task was verified. Consequently, we conclude that the proposed saliency map enhancements chronological age estimation method of lateral cephalometric radiographs can work well in chronological age estimation task, especially when the amount of data is small. Besides, compared with traditional deep learning, our method is also interpretable. | 翻訳日:2021-01-31 18:00:25 公開日:2021-01-28 |
# ニューラル粒子画像速度測定 Neural Particle Image Velocimetry ( http://arxiv.org/abs/2101.11950v1 ) ライセンス: Link先を確認 | Nikolay Stulov and Michael Chertkov | (参考訳) 過去数十年間、流体の実験的解析のための光学的および粒子ベースの計測技術において大きな進歩を遂げてきた。
粒子速度測定(Particle Image Velocimetry, PIV)技術は, 流体中に注入された粒子の経時的スナップショットから, 流れパラメータの同定に広く用いられている。
この計算は、参照フレーム内の粒子間の近接測定による実験データの後処理として実行される。
しかし、データは極端な速度と体積で現れるため、粒子の運動性や密度が増加するにつれて、後処理のステップが問題になる。
さらに、既存のPIVアルゴリズムは、フローのスパース推定を提供するか、オンライン使用を阻止する大規模な計算時間フレームを必要とする。
そこで本稿の目的は,PIVデータから微粒速度場を推定するためのオンラインアルゴリズムを開発することである。
データが一対のイメージを構成するため、この問題を解決するためにコンピュータビジョン手法を用いる。
本稿では,この問題に適応した畳み込みニューラルネットワーク,すなわち,コンピュータビジョンにおけるエンドツーエンド光フロー推定のために最近提案されたボリューム対応ネットワーク(vcn)を提案する。
ネットワークは、合成データと実フローデータの両方を含むデータセット上で、徹底的にトレーニングされ、テストされる。
実験結果は、ニューラルネットワークに基づく他の手法と同様に、従来の手法と比較して分析され、比較される。
解析の結果,提案手法は現場における他の最先端手法と同等の精度を保ちながら,効率の向上を図っている。
また,新たに構築したVCNスキームが,速度勾配と速度勾配の物理的に関係のある統計を再現していることを確認する。 In the past decades, great progress has been made in the field of optical and particle-based measurement techniques for experimental analysis of fluid flows. Particle Image Velocimetry (PIV) technique is widely used to identify flow parameters from time-consecutive snapshots of particles injected into the fluid. The computation is performed as post-processing of the experimental data via proximity measure between particles in frames of reference. However, the post-processing step becomes problematic as the motility and density of the particles increases, since the data emerges in extreme rates and volumes. Moreover, existing algorithms for PIV either provide sparse estimations of the flow or require large computational time frame preventing from on-line use. The goal of this manuscript is therefore to develop an accurate on-line algorithm for estimation of the fine-grained velocity field from PIV data. As the data constitutes a pair of images, we employ computer vision methods to solve the problem. In this work, we introduce a convolutional neural network adapted to the problem, namely Volumetric Correspondence Network (VCN) which was recently proposed for the end-to-end optical flow estimation in computer vision. The network is thoroughly trained and tested on a dataset containing both synthetic and real flow data. Experimental results are analyzed and compared to that of conventional methods as well as other recently introduced methods based on neural networks. Our analysis indicates that the proposed approach provides improved efficiency also keeping accuracy on par with other state-of-the-art methods in the field. We also verify through a-posteriori tests that our newly constructed VCN schemes are reproducing well physically relevant statistics of velocity and velocity gradients. | 翻訳日:2021-01-31 17:59:41 公開日:2021-01-28 |
# ノイズロバスト性向上によるランダムグラフマッチング Random Graph Matching with Improved Noise Robustness ( http://arxiv.org/abs/2101.11783v1 ) ライセンス: Link先を確認 | Cheng Mao, Mark Rudelson, and Konstantin Tikhomirov | (参考訳) ネットワークアライメントとも呼ばれるグラフマッチングは、与えられた2つのグラフの頂点セット間のバイジェクションを見つけ、エッジを最大にアライメントすることを意味します。
この基本的な計算問題は、コンピュータビジョンや生物学などの複数の分野で頻繁に発生します。
近年、確率モデルの下でのグラフマッチングの効率的なアルゴリズムの研究が数多く行われている。
本研究では, グラフマッチングの新しいアルゴリズムを提案し, エッジ相関 1-\alpha$ を持つ2つの Erd\H{o}s-R\'enyi グラフに対して, このアルゴリズムは $\alpha \le 1 / (\log \log n)^C$ が各グラフの頂点数で, C$ は正の普遍定数を表す。
これは前作で達成した $\alpha \le 1 / (\log n)^C$ の条件を改善する。 Graph matching, also known as network alignment, refers to finding a bijection between the vertex sets of two given graphs so as to maximally align their edges. This fundamental computational problem arises frequently in multiple fields such as computer vision and biology. Recently, there has been a plethora of work studying efficient algorithms for graph matching under probabilistic models. In this work, we propose a new algorithm for graph matching and show that, for two Erd\H{o}s-R\'enyi graphs with edge correlation $1-\alpha$, our algorithm recovers the underlying matching with high probability when $\alpha \le 1 / (\log \log n)^C$, where $n$ is the number of vertices in each graph and $C$ denotes a positive universal constant. This improves the condition $\alpha \le 1 / (\log n)^C$ achieved in previous work. | 翻訳日:2021-01-31 17:59:00 公開日:2021-01-28 |
# Federated Multi-Armed Bandits Federated Multi-Armed Bandits ( http://arxiv.org/abs/2101.12204v1 ) ライセンス: Link先を確認 | Chengshuai Shi and Cong Shen | (参考訳) federated multi-armed bandits(fmab)は、教師付き学習におけるfederated learning(fl)フレームワークと並行する新しいバンディットパラダイムである。
認知無線やレコメンデーションシステムにおける実践的な応用にインスパイアされ、FLに類似した特徴を享受している。
本稿では,fmabの汎用的枠組みを提案し,2種類のフェデレートバンディットモデルについて検討する。
まず,不均質な局所モデルが未知分布から大域モデルのランダムな実現である近似モデルについて検討する。
このモデルは、有限局所モデルが完全に知られているとしても、グローバルモデルは確実に学習されないため、クライアントサンプリングの新たな不確実性をもたらす。
さらに、この不確実性は、サブオプティマティリティギャップの知識なしに優先度を定量化することはできません。
我々は、腕とクライアントの両方のサンプリングの不確実性を考慮した新しい「二重 UCB」原理を構築するフェデレートダブル UCB (Fed2-UCB) を提案することにより、近似モデルを解く。
通信コストを明示的に考慮しながら,O(log(T))の後悔を実現する上で,新たなクライアントを徐々に認めることが重要であることを示す。
大域的バンディットモデルが異種局所モデルの正確な平均であるような正確なモデルは、特別の場合として研究される。
やや意外なことに、順序-最適の後悔は、更新周期を慎重に選択したクライアントの数から独立して達成できることが示されています。
合成データと実世界のデータの両方を用いた実験は、理論解析と提案アルゴリズムの有効性と効率を実証する。 Federated multi-armed bandits (FMAB) is a new bandit paradigm that parallels the federated learning (FL) framework in supervised learning. It is inspired by practical applications in cognitive radio and recommender systems, and enjoys features that are analogous to FL. This paper proposes a general framework of FMAB and then studies two specific federated bandit models. We first study the approximate model where the heterogeneous local models are random realizations of the global model from an unknown distribution. This model introduces a new uncertainty of client sampling, as the global model may not be reliably learned even if the finite local models are perfectly known. Furthermore, this uncertainty cannot be quantified a priori without knowledge of the suboptimality gap. We solve the approximate model by proposing Federated Double UCB (Fed2-UCB), which constructs a novel "double UCB" principle accounting for uncertainties from both arm and client sampling. We show that gradually admitting new clients is critical in achieving an O(log(T)) regret while explicitly considering the communication cost. The exact model, where the global bandit model is the exact average of heterogeneous local models, is then studied as a special case. We show that, somewhat surprisingly, the order-optimal regret can be achieved independent of the number of clients with a careful choice of the update periodicity. Experiments using both synthetic and real-world datasets corroborate the theoretical analysis and demonstrate the effectiveness and efficiency of the proposed algorithms. | 翻訳日:2021-01-31 17:58:18 公開日:2021-01-28 |
# 補間分類器は間違いが少ない Interpolating Classifiers Make Few Mistakes ( http://arxiv.org/abs/2101.11815v1 ) ライセンス: Link先を確認 | Tengyuan Liang, Benjamin Recht | (参考訳) 本稿では,最小ノルム補間分類器 (MNIC) の後悔と一般化に関する基礎的検討を行う。
MNICは、有限データセット上のラベルパターンを完全に補間する最小のKernel Hilbert Spaceノルムの関数である。
我々は、MNIC と全てのデータセットを保持する正規化された変種に対する誤りを導出する。
この境界は行列逆数の基本的性質から従う。
データが独立かつ同一に分散しているという仮定の下で、誤り境界は、mnicが補間解のノルムに比例し、データ点の数に逆比例する速度で一般化することを意味する。
このレートは、マージン分類器とパーセプトロンの類似率と一致する。
補間分類器のノルムが有界であるか、あるいは$n$のレートサブ線形で成長する可算生成モデルを導出する。
また,人口階層の条件分布が全変量で十分に分離可能である限り,MNICは急速に一般化することを示した。 This paper provides elementary analyses of the regret and generalization of minimum-norm interpolating classifiers (MNIC). The MNIC is the function of smallest Reproducing Kernel Hilbert Space norm that perfectly interpolates a label pattern on a finite data set. We derive a mistake bound for MNIC and a regularized variant that holds for all data sets. This bound follows from elementary properties of matrix inverses. Under the assumption that the data is independently and identically distributed, the mistake bound implies that MNIC generalizes at a rate proportional to the norm of the interpolating solution and inversely proportional to the number of data points. This rate matches similar rates derived for margin classifiers and perceptrons. We derive several plausible generative models where the norm of the interpolating classifier is bounded or grows at a rate sublinear in $n$. We also show that as long as the population class conditional distributions are sufficiently separable in total variation, then MNIC generalizes with a fast rate. | 翻訳日:2021-01-31 17:57:31 公開日:2021-01-28 |