このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201201となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# モエビウスラダー格子の非配向性誘起pt相転移 Non-orientability induced PT phase transition in Moebius ladder lattices ( http://arxiv.org/abs/2001.10221v2 ) ライセンス: Link先を確認 | Jung-Wan Ryu, Nojoon Myoung, Martina Hentschel, Hee Chul Park | (参考訳) 非オリエンタビリティと非エルミートPT対称性の相互作用によるラダー格子のエネルギースペクトルのパリティ時間(PT)相転移について検討した。
エネルギースペクトルは、通常のストリップの配向性のため、現場でのエネルギーゲインロスが増大する円形のはしご格子の水平交差を示す。
しかし、エネルギー準位は、モエビウス帯の非向き性に起因するpt対称モエビウスラダー格子のpt相転移を示す。
PT対称位相のレベル交差を理解するために、複素回転角を用いて回転変換を一般化する。
また,PT対称ラグ格子における鋭いツイスト界面による共振トンネルの変形について検討した。
最後に、ゼロエネルギーにおける完全透過は、自己直交状態によりPT対称系の例外的な点で回復される。 We study parity-time (PT) phase transitions in the energy spectra of ladder lattices caused by the interplay between non-orientability and non-Hermitian PT symmetry. The energy spectra show level crossings in circular ladder lattices with increasing on-site energy gain-loss because of the orientability of a normal strip. However, the energy levels show PT phase transitions in PT-symmetric Moebius ladder lattices due to the non-orientability of a Moebius strip. In order to understand the level crossings of PT symmetric phases, we generalize the rotational transformation using a complex rotation angle. We also study the modification of resonant tunneling induced by a sharply twisted interface in PT-symmetric ladder lattices. Finally, we find that the perfect transmissions at the zero energy are recovered at the exceptional points of the PT-symmetric system due to the self-orthogonal states. | 翻訳日:2023-06-05 09:14:17 公開日:2020-12-01 |
# 量子ジャミング:量子力学的パーセプトロンの臨界特性 Quantum Jamming: Critical Properties of a Quantum Mechanical Perceptron ( http://arxiv.org/abs/2003.01073v3 ) ライセンス: Link先を確認 | Claudia Artiaco, Federico Balducci, Giorgio Parisi and Antonello Scardicchio | (参考訳) このレターでは、パーセプトロンモデルの量子力学を解析し、粒子は$N$次元球面上で、$N\to \infty$で制約され、ランダムに配置されたハードウォールポテンシャルの集合が与えられる。
このモデルは、学習プロトコルからユークリッド空間における無限次元ハード球体の力学の効果的な記述まで、いくつかの応用がある。
量子力学によるジャミング遷移は、古典的な場合とは異なる臨界指数を示す。
また、通常の量子臨界点とは異なり、量子ジャミング遷移はゼロ温度軸に制限されず、古典的な結果は$T=\infty$でのみ回復される。
本研究は,超低温におけるガラスの理論と量子機械学習アルゴリズムの研究に影響を及ぼす。 In this Letter, we analyze the quantum dynamics of the perceptron model: a particle is constrained on a $N$-dimensional sphere, with $N\to \infty$, and subjected to a set of randomly placed hard-wall potentials. This model has several applications, ranging from learning protocols to the effective description of the dynamics of an ensemble of infinite-dimensional hard spheres in Euclidean space. We find that the jamming transition with quantum dynamics shows critical exponents different from the classical case. We also find that the quantum jamming transition, unlike the typical quantum critical points, is not confined to the zero-temperature axis, and the classical results are recovered only at $T=\infty$. Our findings have implications for the theory of glasses at ultra-low temperatures and for the study of quantum machine-learning algorithms. | 翻訳日:2023-05-31 12:24:20 公開日:2020-12-01 |
# 古典的skyrmionの量子アナログのトポロジーの探索 Probing the topology of the quantum analog of a classical skyrmion ( http://arxiv.org/abs/2004.13526v2 ) ライセンス: Link先を確認 | O. M. Sotnikov, V. V. Mazurenko, J. Colbois, F. Mila, M. I. Katsnelson, and E. A. Stepanov | (参考訳) 磁性において、スキャミオンは、実空間における磁化の巻線を追跡する位相不変量によって特徴づけられる古典的な3次元スピンテクスチャに対応し、量子スピンの向きが一般に不定義であるため量子ケースに容易に一般化できない性質である。
さらに、我々が示すように、量子スラミオン状態は、系の局所磁化を調査する近代的な実験では直接観察できない。
しかし、この新しい量子状態は、隣接する格子点(スカラーキラリティー)で定義される特別な局所3スピン相関関数によっても同定され、完全に特徴付けられることが示され、これは大規模系における古典的な位相不変量に還元され、量子スカイメリオン位相においてほぼ一定であることが示されている。 In magnetism, skyrmions correspond to classical three-dimensional spin textures characterized by a topological invariant that keeps track of the winding of the magnetization in real space, a property that cannot be easily generalized to the quantum case since the orientation of a quantum spin is in general ill-defined. Moreover, as we show, the quantum skyrmion state cannot be directly observed in modern experiments that probe the local magnetization of the system. However, we show that this novel quantum state can still be identified and fully characterized by a special local three-spin correlation function defined on neighbouring lattice sites -- the scalar chirality -- which reduces to the classical topological invariant for large systems, and which is shown to be nearly constant in the quantum skyrmion phase. | 翻訳日:2023-05-21 21:51:53 公開日:2020-12-01 |
# 超伝導体における量子弱等価原理と重力カシミール効果 Quantum Weak Equivalence Principle and the Gravitational Casimir Effect in Superconductors ( http://arxiv.org/abs/2005.06640v2 ) ライセンス: Link先を確認 | Sebastian Bahamonde, Mir Faizal, James Q. Quach, Richard A. Norte | (参考訳) 我々はフィッシャー情報を用いて量子弱同値原理を適切に解析する。
重力波は超伝導体によって部分的に反射される。
これはクーパー対における弱同値原理の違反が周囲のイオン格子よりも大きいためである。
超伝導体による仮想重力波の反射は、現在利用可能な技術を用いて検出できる重力カシミール効果を生み出すことができる。 We will use Fisher information to properly analyze the quantum weak equivalence principle. We argue that gravitational waves will be partially reflected by superconductors. This will occur as the violation of the weak equivalence principle in Cooper pairs is larger than the surrounding ionic lattice. Such reflections of virtual gravitational waves by superconductors can produce a gravitational Casimir effect, which may be detected using currently available technology. | 翻訳日:2023-05-20 07:33:05 公開日:2020-12-01 |
# 臨界時の多体熱エンジン A many-body heat engine at criticality ( http://arxiv.org/abs/2006.00725v2 ) ライセンス: Link先を確認 | Thom\'as Fogarty, Thomas Busch | (参考訳) 相互作用する超低温気体である媒体が超流動と絶縁相の間で駆動される量子オットーサイクルは、同様の単一粒子サイクルより優れていることを示す。
2相間のエネルギーギャップの存在は性能向上に有効であり、格子力と粒子分布の相互作用は多体協調効果をもたらす。
このサイクルの有限時間駆動は、エンジンサイクルの性能を著しく損なう不必要な非平衡力学を生成することができるので、臨界点周辺の効率的なオットーサイクルを達成するために使用できる多体状態の近似的ショートカットを設計する。 We show that a quantum Otto cycle in which the medium, an interacting ultracold gas, is driven between a superfluid and an insulating phase can outperform similar single particle cycles. The presence of an energy gap between the two phases can be used to improve performance, while the interplay between lattice forces and the particle distribution can lead to a many-body cooperative effect. Since finite time driving of this cycle can create unwanted non-equilibrium dynamics which can significantly impair the performance of the engine cycle, we also design an approximate shortcut to adiabaticity for the many-body state that can be used to achieve an efficient Otto cycle around a critical point. | 翻訳日:2023-05-17 11:38:00 公開日:2020-12-01 |
# 非対称量子ラビモデルに対する非直交量子状態展開 Non-orthogonal qubit states expansion for the asymmetric quantum Rabi model ( http://arxiv.org/abs/2006.08913v3 ) ライセンス: Link先を確認 | Zi-Min Li, Devid Ferri and Murray T. Batchelor | (参考訳) 非対称量子ラビモデル(aqrm)の基底状態に対する物理的に動機づけられた変動波動関数を提案する。
波動関数は、非直交量子ビット状態に絡み合った圧縮されたコヒーレント状態の重み付け重畳であり、スクイーズ効果が無視できる状態の3つの変分パラメータにのみ依存する。
変分展開は、ほとんど全てのパラメータ状態、特に任意のバイアスで、基底状態が著しくよく表される。
基底状態の様々な関連する物理観測量を計算するために変動結果を使い、既存の近似と厳密な解との比較を行う。
その結果,AQRMの既存近似よりも変動展開が顕著に改善されたことが示唆された。 We present a physically motivated variational wave function for the ground state of the asymmetric quantum Rabi model (AQRM). The wave function is a weighted superposition of squeezed coherent states entangled with non-orthogonal qubit states, and relies only on three variational parameters in the regimes of interest where the squeezing effect becomes negligible. The variational expansion describes the ground state remarkably well in almost all parameter regimes, especially with arbitrary bias. We use the variational result to calculate various relevant physical observables of the ground state, and make a comparison with existing approximations and the exact solution. The results show that the variational expansion is a significant improvement over the existing approximations for the AQRM. | 翻訳日:2023-05-13 18:19:24 公開日:2020-12-01 |
# 無秩序SU(2)対称フロケット系における拡張非エルゴディック状態とスピン部分拡散 Extended nonergodic regime and spin subdiffusion in disordered SU(2)-symmetric Floquet systems ( http://arxiv.org/abs/2007.02950v3 ) ライセンス: Link先を確認 | Zhi-Cheng Yang, Stuart Nicholls, and Meng Cheng | (参考訳) 非アーベル対称性により多体局在相が禁止される一次元不規則SU(2)対称フロケモデルにおける熱化と量子力学を考察する。
局所化の欠如にもかかわらず,本システムは非熱的挙動を示す強い障害において,非エルゴディック状態が延長されている。
強い障害状態においては、レベルスペーシング統計はウィグナー・ダイソンもポアソン分布も示さず、スペクトル形状因子はランダム行列理論の初期の特性において線形時間成長を示すものではない。
フロッケ固有状態の平均エンタングルメントエントロピーは亜熱水性であるが、システムサイズによる領域法的なスケーリングには違反する。
さらに,局所観測量の期待値を計算し,固有熱化仮説から強い偏差を求める。
無限温度スピン自己相関関数は、長い時間で$t^{-\beta}$と$\beta < 0.5$と崩壊し、強い障害における部分拡散輸送を示す。 We explore thermalization and quantum dynamics in a one-dimensional disordered SU(2)-symmetric Floquet model, where a many-body localized phase is prohibited by the non-abelian symmetry. Despite the absence of localization, we find an extended nonergodic regime at strong disorder where the system exhibits nonthermal behaviors. In the strong disorder regime, the level spacing statistics exhibit neither a Wigner-Dyson nor a Poisson distribution, and the spectral form factor does not show a linear-in-time growth at early times characteristic of random matrix theory. The average entanglement entropy of the Floquet eigenstates is subthermal, although violating an area-law scaling with system sizes. We further compute the expectation value of local observables and find strong deviations from the eigenstate thermalization hypothesis. The infinite temperature spin autocorrelation function decays at long times as $t^{-\beta}$ with $\beta < 0.5$, indicating subdiffusive transport at strong disorders. | 翻訳日:2023-05-11 04:02:25 公開日:2020-12-01 |
# Airbnbのデータセットで広く使われている不正なデータ Incorrect Data in the Widely Used Inside Airbnb Dataset ( http://arxiv.org/abs/2007.03019v2 ) ライセンス: Link先を確認 | Abdulkareem Alsudais | (参考訳) 最近発表されたDecision Support Systemsの論文では、情報システム研究におけるデータ品質に関する問題を論じている。
この短い研究ノートでは、これらの論文で導入された研究に基づいて、研究でよく使われる大規模なオープンデータセットで発見された2つのデータ品質の問題を文書化します。
airbnb(ia)はairbnb.comのユーザーが投稿した場所やレビューからデータを収集する。
訪問者は、IAが収集したデータを世界中のいくつかの場所でダウンロードすることができる。
データセットは学術研究で広く使われているが、データセットの徹底的な調査は行われていない。
このノートはデータセットを調べ、データセットに追加された誤ったデータの問題を説明します。
調査結果から、この問題はデータ収集プロセスのシステムエラーに起因している可能性が示唆されている。
この結果は、未検証のオープンデータセットの使用が問題となる可能性があることを示唆するが、この研究で示された発見は、IAデータセットを使用したすべての研究に挑戦するには十分ではないかもしれない。
さらに、Airbnbが実装した新機能によって、誤ったデータが発生することが判明した。
したがって、変更がなければ、この問題の結果はより深刻にしかならない可能性が高い。
最後に、データセットの2つの異なるリリースを比較したとき、再現性が問題となる理由について説明する。 Several recently published papers in Decision Support Systems discussed issues related to data quality in Information Systems research. In this short research note, I build on the work introduced in these papers and document two data quality issues discovered in a large open dataset commonly used in research. Inside Airbnb (IA) collects data from places and reviews as posted by users of Airbnb.com. Visitors can effortlessly download data collected by IA for several locations around the globe. While the dataset is widely used in academic research, no thorough investigation of the dataset and its validity has been conducted. This note examines the dataset and explains an issue of incorrect data added to the dataset. Findings suggest that this issue can be attributed to systemic errors in the data collection process. The results suggest that the use of unverified open datasets can be problematic, although the discoveries presented in this work may not be significant enough to challenge all published research that used the IA dataset. Additionally, findings indicate that the incorrect data happens because of a new feature implemented by Airbnb. Thus, unless changes are made, it is likely that the consequences of this issue will only become more severe. Finally, this note explores why reproducibility is a problem when two different releases of the dataset are compared. | 翻訳日:2023-05-11 03:51:28 公開日:2020-12-01 |
# ブロックチェーンに関する現状調査:理論、モデリング、ツール A Survey of State-of-the-Art on Blockchains: Theories, Modelings, and Tools ( http://arxiv.org/abs/2007.03520v2 ) ライセンス: Link先を確認 | Huawei Huang, Wei Kong, Sicong Zhou, Zibin Zheng, Song Guo | (参考訳) ブロックチェーンコミュニティの現在の研究活動のロードマップを作成するために、我々はまず、過去5年間に公表された最先端のブロックチェーン調査の概要を紹介する。
これらの調査は基本的に、ブロックチェーンによるIoT(Internet of Things)やビジネスアプリケーション、セキュリティ対応ソリューションなど、さまざまな分野の多くのアプリケーションなど、ブロックチェーンベースのアプリケーションを研究しています。
しかしながら、最先端の理論的モデリング、分析モデル、有用な実験ツールを活用することで、ブロックチェーンの本質に対する包括的な調査がまだ欠落していると考えています。
このギャップを埋めるために、ブロックチェーンシステムとネットワークの理論的知見と本質的なメカニズムと密接に関連した最新の高品質な研究成果を特定し、分類することで、徹底的な調査を行う。
いくつかの有望なオープンな問題は、最終的に将来の研究方向性のために要約される。
この調査が、理論、モデリング、ツールの観点からのブロックチェーンの最先端開発に関する研究者、エンジニア、教育者の有用なガイドラインになることを期待しています。 To draw a roadmap of current research activities of the blockchain community, we first conduct a brief overview of state-of-the-art blockchain surveys published in the recent 5 years. We found that those surveys are basically studying the blockchain-based applications, such as blockchain-assisted Internet of Things (IoT), business applications, security-enabled solutions, and many other applications in diverse fields. However, we think that a comprehensive survey towards the essentials of blockchains by exploiting the state-of-the-art theoretical modelings, analytic models, and useful experiment tools is still missing. To fill this gap, we perform a thorough survey by identifying and classifying the most recent high-quality research outputs that are closely related to the theoretical findings and essential mechanisms of blockchain systems and networks. Several promising open issues are also summarized finally for future research directions. We wish this survey can serve as a useful guideline for researchers, engineers, and educators about the cutting-edge development of blockchains in the perspectives of theories, modelings, and tools. | 翻訳日:2023-05-11 01:50:05 公開日:2020-12-01 |
# アンハーモニック(量子)発振器用量子メカニカルアウトオブタイム整列器 Quantum Mechanical Out-Of-Time-Ordered-Correlators for the Anharmonic (Quartic) Oscillator ( http://arxiv.org/abs/2008.06056v3 ) ライセンス: Link先を確認 | Paul Romatschke | (参考訳) 外部順序付き相関器(OTOC)は、様々なシステムにおける量子カオス挙動を研究する手段として提案されている。
本研究では、古典的に積分可能であり、ポアソンのようなエネルギー準位分布を持つ量子機械的無調波発振器のOTOCを計算する。
低温の場合、OTOCは周期的であり、箱内の高調波発振器と粒子の結果と同様である。
高温では、otocsは早期に急速に上昇し、その後に2\langle x^2\rangle_t \langle p^2\rangle_t$と飽和する。
高温では、スペクトル形成因子は早期に減少し、跳ね返って、強い変動を伴う台地に達する。 Out-of-time-ordered correlators (OTOCs) have been suggested as a means to study quantum chaotic behavior in various systems. In this work, I calculate OTOCs for the quantum mechanical anharmonic oscillator with quartic potential, which is classically integrable and has a Poisson-like energy-level distribution. For low temperature, OTOCs are periodic in time, similar to results for the harmonic oscillator and the particle in a box. For high temperature, OTOCs exhibit a rapid (but power-like) rise at early times, followed by saturation consistent with $2\langle x^2\rangle_T \langle p^2\rangle_T$ at late times. At high temperature, the spectral form factor decreases at early times, bounces back and then reaches a plateau with strong fluctuations. | 翻訳日:2023-05-06 09:04:58 公開日:2020-12-01 |
# マージ要素トランスモン Merged-element transmon ( http://arxiv.org/abs/2008.07652v5 ) ライセンス: Link先を確認 | R. Zhao, S. Park, T. Zhao, M. Bal, C.R.H. McRae, J. Long, and D.P. Pappas | (参考訳) トランモン量子ビットは超伝導回路を用いた量子コンピューティングの追求においてユビキタスである。
しかし、まだ対処する必要がある欠点がいくつかある。
最も重要なことに、トランスモンのスケーラビリティは、回路の損失のある容量部品の参加を減らすのに必要な大きなデバイスフットプリントによって制限されている。
本研究では、代替デバイス形状、すなわちマージ要素トランスモン(mergemon)における損失を調査し、評価する。
この目的のために、従来のトランスモンの大きな外部シャントキャパシタをジョセフソン接合(jj)の固有容量に置き換え、約100倍のキュービット次元の削減を達成する。
スパッタリングしたNb-アモルファス-Si--Nb三層膜を用いたマージモンの実装について報告する。
10mK以下の実験では、マージモンに容量的に結合したリードアウト共振器の周波数は、低電力状態における量子状態依存シフトを示す。
この装置はまた、2光子分光における弱い無調波系を表す単光子および多光子遷移を示す。
遷移スペクトルはマスター方程式シミュレーションでよく説明される。
参加率解析により、a-siトンネルバリアとその界面の誘電損失を量子緩和の主要な原因として同定する。
我々は,低損失,エピタキシャル成長,格子整合三層膜を用いて,比較的小さなデバイス次元で高いコヒーレンスを実現することを期待する。 Transmon qubits are ubiquitous in the pursuit of quantum computing using superconducting circuits. However, they have some drawbacks that still need to be addressed. Most importantly, the scalability of transmons is limited by the large device footprint needed to reduce the participation of the lossy capacitive parts of the circuit. In this work, we investigate and evaluate losses in an alternative device geometry, namely, the merged-element transmon (mergemon). To this end, we replace the large external shunt capacitor of a traditional transmon with the intrinsic capacitance of a Josephson junction (JJ) and achieve an approximately 100 times reduction in qubit dimensions. We report the implementation of the mergemon using a sputtered Nb--amorphous-Si--Nb trilayer film. In an experiment below 10 mK, the frequency of the readout resonator, capacitively coupled to the mergemon, exhibits a qubit-state dependent shift in the low power regime. The device also demonstrates the single- and multi-photon transitions that represent a weakly anharmonic system in the two-tone spectroscopy. The transition spectra are explained well with master-equation simulations. A participation ratio analysis identifies the dielectric loss of the a-Si tunnel barrier and its interfaces as the dominant source for qubit relaxation. We expect the mergemon to achieve high coherence in relatively small device dimensions when implemented using a low-loss, epitaxially-grown, and lattice-matched trilayer. | 翻訳日:2023-05-06 00:50:48 公開日:2020-12-01 |
# 侵入型ce:yag発光集光器で励起された常温準連続性ペンタセンメーザー Room-temperature quasi-continuous-wave pentacene maser pumped by an invasive Ce:YAG luminescent concentrator ( http://arxiv.org/abs/2008.07627v3 ) ライセンス: Link先を確認 | Hao Wu, Xiangyu Xie, Wern Ng, Seif Mehanna, Yingxu Li, Max Attwood, and Mark Oxborrow | (参考訳) 本研究では,地球磁場の1.45GHzの準連続波(CW)ペンタセンメーザを室温で動作させ,その出力電力は最大-25dBmである。
メザーはセリウムドープYAG(Ce:YAG)発光濃縮器(LC)で光ポンピングされ、そのくさび状の出力は0.1%ペンタセンドープパラテフェニル(Pc:Ptp)結晶内に埋め込まれる。
励起結晶はチタン酸ストロンチウム(STO)の環内に位置し、TE$_{01\delta}$モードの高磁場パーセル因子を担っている。
シミュレーションと組み合わせることで, 結晶の過熱を回避できる限り, 室温でのペンタセンメーザーのCW操作が完全に可能であることが示唆された。 We present in this work a quasi-continuous-wave (CW) pentacene maser operating at 1.45 GHz in the Earth's magnetic field at room temperature with a duration of $\sim$4 ms and an output power of up to -25 dBm. The maser is optically pumped by a cerium-doped YAG (Ce:YAG) luminescent concentrator (LC) whose wedge-shaped output is embedded inside a 0.1% pentacene-doped para-terphenyl (Pc:Ptp) crystal. The pumped crystal is located inside a ring of strontium titanate (STO) that supports a TE$_{01\delta}$ mode of high magnetic Purcell factor. Combined with simulations, our results indicate that CW operation of pentacene masers at room-temperature is perfectly feasible so long as excessive heating of the crystal is avoided. | 翻訳日:2023-05-06 00:50:25 公開日:2020-12-01 |
# 量子ネットワークプロトコルの設計 Designing a Quantum Network Protocol ( http://arxiv.org/abs/2010.02575v2 ) ライセンス: Link先を確認 | Wojciech Kozlowski, Axel Dahlberg, Stephanie Wehner | (参考訳) 第2の量子革命は、量子インターネットの約束をもたらす。
最初の量子ネットワークハードウェアのプロトタイプが完成間近で、新たな課題が浮かび上がっている。
機能的ネットワークは物理ハードウェア以上のものだが、スケーラブルな量子ネットワークシステムへの取り組みはまだ初期段階にある。
本稿では,量子力学がもたらした新たな基礎的・技術的課題に対して,エンドツーエンドの量子通信を実現するために設計された量子ネットワークプロトコルを提案する。
我々は、エンドツーエンドの量子通信を可能にする量子データプレーンプロトコルを開発し、より複雑なサービスのビルディングブロックとして機能する。
近い将来の量子技術における重要な課題の1つは、デコヒーレンス(量子情報の段階的な崩壊)であり、ストレージ時間に非常に厳しい制限を課す。
我々のプロトコルは、短い量子メモリ寿命に直面して効率的であるように設計されている。
我々は,量子ネットワークのためのシミュレータを用いて,デコヒーレンスによる大きな損失に直面した場合でも,プロトコルがサービスを提供できることを示す。
最後に、このプロトコルは、今日開発されている非常にリソースの制限されたハードウェア上で機能し続け、この作業のタイムラインを概説する。 The second quantum revolution brings with it the promise of a quantum internet. As the first quantum network hardware prototypes near completion new challenges emerge. A functional network is more than just the physical hardware, yet work on scalable quantum network systems is in its infancy. In this paper we present a quantum network protocol designed to enable end-to-end quantum communication in the face of the new fundamental and technical challenges brought by quantum mechanics. We develop a quantum data plane protocol that enables end-to-end quantum communication and can serve as a building block for more complex services. One of the key challenges in near-term quantum technology is decoherence -- the gradual decay of quantum information -- which imposes extremely stringent limits on storage times. Our protocol is designed to be efficient in the face of short quantum memory lifetimes. We demonstrate this using a simulator for quantum networks and show that the protocol is able to deliver its service even in the face of significant losses due to decoherence. Finally, we conclude by showing that the protocol remains functional on the extremely resource limited hardware that is being developed today underlining the timeliness of this work. | 翻訳日:2023-04-29 20:23:07 公開日:2020-12-01 |
# トラップ内で相互作用する2つの超低温分子の磁気特性とクエンチダイナミクス Magnetic properties and quench dynamics of two interacting ultracold molecules in a trap ( http://arxiv.org/abs/2010.11899v3 ) ライセンス: Link先を確認 | Anna Dawid, Micha{\l} Tomza | (参考訳) 外部電場および磁場中の1次元高調波トラップにおける相互作用する極性分子と常磁性分子の磁気特性と非平衡ダイナミクスを理論的に検討する。
分子は多チャネル2体接触電位を介して相互作用し、分子間相互作用の短距離異方性を含む。
分子間相互作用, 電子スピン, 双極子モーメント, 回転構造, 外部磁場, スピン回転結合の相互作用から, 様々な磁化状態が生じることを示す。
豊富な磁化図は、主に分子間相互作用とスピン回転結合の異方性に依存する。
これらの特定の分子特性は計算や測定が難しい。
そこで本研究では,解析システムの時間変化を観測し,それらを抽出するためのクエンチダイナミクス実験を提案する。
その結果、外部電界で分子の少数体磁化を制御する可能性を示し、光ツイーザーや光格子に閉じ込められた超低温分子の磁化の研究と、分子多チャンネル多体ハミルトニアンと量子情報保存の量子シミュレーションへの応用への道筋を示した。 We theoretically investigate the magnetic properties and nonequilibrium dynamics of two interacting ultracold polar and paramagnetic molecules in a one-dimensional harmonic trap in external electric and magnetic fields. The molecules interact via a multichannel two-body contact potential, incorporating the short-range anisotropy of intermolecular interactions. We show that various magnetization states arise from the interplay of the molecular interactions, electronic spins, dipole moments, rotational structures, external fields, and spin-rotation coupling. The rich magnetization diagrams depend primarily on the anisotropy of the intermolecular interaction and the spin-rotation coupling. These specific molecular properties are challenging to calculate or measure. Therefore, we propose the quench dynamics experiments for extracting them from observing the time evolution of the analyzed system. Our results indicate the possibility of controlling the molecular few-body magnetization with the external electric field and pave the way towards studying the magnetization of ultracold molecules trapped in optical tweezers or optical lattices and their application in quantum simulation of molecular multichannel many-body Hamiltonians and quantum information storing. | 翻訳日:2023-04-28 00:46:16 公開日:2020-12-01 |
# サブ波長共振器の有限配列における高q局在状態 High-Q localized states in finite arrays of subwavelength resonators ( http://arxiv.org/abs/2011.11791v2 ) ライセンス: Link先を確認 | Danil F. Kornovan, Roman S. Savelev, Yuri S. Kivshar, and Mihail I. Petrov | (参考訳) サブ波長光共振器の有限長周期配列における巨大品質因子(q$-factors)を達成するための新しい物理機構を提案する。
基礎となる物理は、バンドエッジモードと配列内の他のスタンディングモードの干渉と、放射損失を劇的に抑制する空間的局在状態の形成に基づいている。
この概念を、最大$N$-次数での多重極の同時キャンセルを伴う$N$双極子の配列と、$Q \propto N^{\alpha}$として成長する$Q$因子で示し、$\alpha \gtrsim 6.88$とする。
この知見に基づいて, 配列パラメータのチューニングにより, パーセル因子(最大$3400)の劇的な向上を実現した, 三重共振ナノ粒子の現実的な配列(n \lesssim 29$)を提案する。 We introduce a novel physical mechanism for achieving giant quality factors ($Q$-factors) in finite-length periodic arrays of subwavelength optical resonators. The underlying physics is based on interference between the band-edge mode and another standing mode in the array, and the formation of spatially localized states with dramatically suppressed radiative losses. We demonstrate this concept for an array of $N$ dipoles with simultaneous cancellation of multipoles up to $N$-th order and the $Q$ factor growing as $Q \propto N^{\alpha}$, where $\alpha \gtrsim 6.88$. Based on this finding, we propose a realistic array of Mie-resonant nanoparticles ($N \lesssim 29$) with a dramatic enhancement of the Purcell factor (up to $\sim $3400) achieved by tuning of the array parameters. | 翻訳日:2023-04-23 08:41:17 公開日:2020-12-01 |
# ノーズ・トゥ・グラス(Nose to Glass) Nose to Glass: Looking In to Get Beyond ( http://arxiv.org/abs/2011.13153v2 ) ライセンス: Link先を確認 | Josephine Seah | (参考訳) ジャーナリストや学者による調査研究を通じて、大衆の言論に目を向けると、アルゴリズム的害に対する認識は最高である。
責任ある人工知能(AI)の強化というバナーの下で、アルゴリズムシステムのロールアウトによって引き起こされる害に対処し、緩和し、最終的に軽減することを目的として、研究が増えている。
それでも、そのようなツールの実装は低いままである。
このギャップを考えると、この分野、特に責任ある研究と革新に関心のある研究者は、より民族学的な仕事の支援と優先順位付けから得ることができるという、控えめな提案が提示される。
この組み込み作業は、実装上の摩擦を解消し、人工知能の責任を負うAIに関する既存の作業が提供できないという組織的および制度的な規範を明らかにする。
結果として、これはリスクの予測と害の緩和に関するさらなる洞察に寄与する可能性がある。
本稿では、科学・技術研究や安全科学研究で一般的に見られる同様の実証研究を概説し、この種の調査の課題を概説する。 Brought into the public discourse through investigative work by journalists and scholars, awareness of algorithmic harms is at an all-time high. An increasing amount of research has been conducted under the banner of enhancing responsible artificial intelligence (AI), with the goal of addressing, alleviating, and eventually mitigating the harms brought on by the roll out of algorithmic systems. Nonetheless, implementation of such tools remains low. Given this gap, this paper offers a modest proposal: that the field, particularly researchers concerned with responsible research and innovation, may stand to gain from supporting and prioritising more ethnographic work. This embedded work can flesh out implementation frictions and reveal organisational and institutional norms that existing work on responsible artificial intelligence AI has not yet been able to offer. In turn, this can contribute to more insights about the anticipation of risks and mitigation of harm. This paper reviews similar empirical work typically found elsewhere, commonly in science and technology studies and safety science research, and lays out challenges of this form of inquiry. | 翻訳日:2023-04-22 22:52:35 公開日:2020-12-01 |
# 損失CROWにおける連続変数絡み合った状態のモデルへの一般化 A general approach to model counterpropagating continuous variable entangled states in a lossy CROW ( http://arxiv.org/abs/2012.00208v1 ) ライセンス: Link先を確認 | Hossein Seifoory and Marc M. Dignam | (参考訳) 導波路上からの古典的なパルス源入射により励起される結合共振子光導波路に基づいて、連続変数の絡み合い状態の逆伝播する統合源をモデル化する一般的なアプローチを提案する。
本稿は,先行研究である~(ref.)の拡張である。
そこで本質的損失の存在下で,この結合キャビティ系における継続変数の絡み合い状態の生成と伝播を解析的に検討した。
しかし,本研究では解析手法を追求するのではなく,シュミット分解法の実装に数値的手法を用いる。
これは、分析的に調査できないポンプパラメータの選択において、はるかに高い自由度を与えるだけでなく、分析的表現を導出するために行った近似のいくつかを超越することができることを示す。 We present a general approach to model an integrated source of counterpropagating continuous-variable entangled states based on a coupled-resonator optical waveguide that is pumped by a classical pulsed source incident from above the waveguide. This paper is an extension of our previous work~(Ref. \cite{PhysRevA.100.033839}), where we analytically investigated the generation and propagation of continues-variable entangled states in this coupled-cavity system in the presence of intrinsic loss. However, in this work, we employ a numerical method to implement the Schmidt decomposition method rather than pursuing analytical methods. We show that not only this gives us a much higher degree of freedom in choosing the pumping parameters which were not possible to investigate analytically, but also it enables us to go beyond some of the approximations we had made to derive analytical expressions before. | 翻訳日:2023-04-22 12:21:43 公開日:2020-12-01 |
# 非退化光パラメトリック発振器における光子遮断効果に基づくアンチバンチ光子対光源 Antibunched photon-pair source based on photon blockade effect in a nondegenerate optical parametric oscillator ( http://arxiv.org/abs/2012.00383v1 ) ライセンス: Link先を確認 | Yi Ren, Shouhui Duan, Wenzhi Xie, Yongkang Shao, and Zhenglu Duan | (参考訳) 相関フォトンパイアのような非古典的な光源は、量子光学や量子情報処理システムにおいて重要な役割を果たす。
本研究では,非退化光パラメトリック発振器において反束光子を発生させる手法を提案する。
系のパラメータが一定の条件を満たすと、サブハーモニックモードの生成された光子は強い反束行動を示し、互いに強い相関関係を持つことが判明した。
特に、平均光子ペア数は共鳴的に増強される。
また、従来の光子遮断がこの現象に寄与することが観察された。
さらに、基本モード光子がサブハーモニックモード光子を遮断できる点も興味深い。
我々はこの現象を異種光子遮断と呼ぶ。 Nonclassical light sources, such as correlated photon-pairs, play an important role in quantum optics and quantum information processing systems. This study proposes a process to generate antibunched photon-pairs in a nondegenerate optical parametric oscillator. It is found that when the parameters of the system satisfy certain conditions, the generated photons in subharmonic modes exhibit a strong antibunching behavior and are strongly correlated with one another. In particular, the average photon-pair number is resonantly enhanced. It is also observed that the conventional photon blockade contributes to this phenomenon. In addition, it is interesting to note that fundamental mode photons can blockade the subharmonic mode photons. We refer to this phenomenon as a heterogeneous photon blockade. | 翻訳日:2023-04-22 12:19:02 公開日:2020-12-01 |
# 文字列処理のための量子アルゴリズム Quantum Algorithms for String Processing ( http://arxiv.org/abs/2012.00372v1 ) ライセンス: Link先を確認 | Farid Ablayev, Marat Ablayev, Kamil Khadiev, Nailya Salihova and Alexander Vasiliev | (参考訳) 本稿では,弦の2つの問題について考察する。
1つ目は文字列マッチング問題、もう1つは文字列比較問題である。
既存のものよりも指数的に少ない量子メモリを使用する文字列マッチング問題に対する量子アルゴリズムを提案する。
このアルゴリズムは、文字列マッチング、量子並列性、グローバー探索アルゴリズムのアイデアのためのハッシュ技術を用いる。
同じアイデアを用いて,文字列比較問題に対する2つのアルゴリズムを提案する。
これらのアルゴリズムは、既存のものよりも指数的に少ない量子メモリを使用する。
さらに、第2のアルゴリズムは既存のアルゴリズムよりも指数関数的に高速に動作する。 In the paper, we investigate two problems on strings. The first one is the String matching problem, and the second one is the String comparing problem. We provide a quantum algorithm for the String matching problem that uses exponentially less quantum memory than existing ones. The algorithm uses the hashing technique for string matching, quantum parallelism, and ideas of Grover's search algorithm. Using the same ideas, we provide two algorithms for the String comparing problem. These algorithms also use exponentially less quantum memory than existing ones. Additionally, the second algorithm works exponentially faster than the existing one. | 翻訳日:2023-04-22 12:18:51 公開日:2020-12-01 |
# ソーシャルメディア投稿からのパンデミック関連ストレス要因の特定 -学生と若者に対する影響- Identifying pandemic-related stress factors from social-media posts -- effects on students and young-adults ( http://arxiv.org/abs/2012.00333v1 ) ライセンス: Link先を確認 | Sachin Thukral, Suyash Sangwan, Arnab Chatterjee, Lipika Dey | (参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界中の自然生命を奪われた。
原因となるウイルスの拡散を抑制するため、厳格な対策が実施され、最も効果的なのは社会的孤立である。
このことが社会全体に広範にグロームと抑うつをもたらしたが、若年層と高齢者の間ではそうである。
世界186カ国には現在2億人以上の大学生がおり、パンデミックの影響を受けている。
eラーニングの急速な適応により、教育の方法が突然変わり、遠隔地やデジタルプラットフォームで教育が行われるようになった。
本研究は、学生や若者が新型コロナウイルス感染時に投稿したソーシャルメディア投稿から収集した知見を提示する。
統計的およびNLP手法を用いて,Redditのうつ病関連コミュニティにおける投稿において,利用者自身が報告した行動問題を解析した。
本稿では,言語的手法を用いてコンテンツを体系的に分析し,ストレス要因を明らかにする手法を提案する。
オンライン教育、失業、友人からの隔離、虐待家族などがストレス要因として浮上している。 The COVID-19 pandemic has thrown natural life out of gear across the globe. Strict measures are deployed to curb the spread of the virus that is causing it, and the most effective of them have been social isolation. This has led to wide-spread gloom and depression across society but more so among the young and the elderly. There are currently more than 200 million college students in 186 countries worldwide, affected due to the pandemic. The mode of education has changed suddenly, with the rapid adaptation of e-learning, whereby teaching is undertaken remotely and on digital platforms. This study presents insights gathered from social media posts that were posted by students and young adults during the COVID times. Using statistical and NLP techniques, we analyzed the behavioral issues reported by users themselves in their posts in depression-related communities on Reddit. We present methodologies to systematically analyze content using linguistic techniques to find out the stress-inducing factors. Online education, losing jobs, isolation from friends, and abusive families emerge as key stress factors. | 翻訳日:2023-04-22 12:18:28 公開日:2020-12-01 |
# 準超ラジアント光子パルスの決定論的単一原子源 Deterministic single-atom source of quasi-superradiant $N$-photon pulses ( http://arxiv.org/abs/2012.00246v1 ) ライセンス: Link先を確認 | Caspar Groiseau, Alexander E. J. Elliott, Stuart J. Masson, Scott Parkins | (参考訳) 我々は,光数状態,0N$-state,双極子符号状態パルスのオンデマンド生産のために,最近実証されたマイクロキャビティ・マイクロキャビティ・セットアップと互換性のある単一原子空洞量子力学系を提案する。
このスキームはラマン遷移を原子の基底状態の超微細構造全体の中で利用し、励起状態の超微細構造の分裂よりも多く原子遷移から切り離されたレーザーとキャビティ場で操作する。
これにより、単純でキャビティを損ねたtavis-cummingsモデルへのダイナミクスの還元が可能となり、基底超微細構造の全角運動量によって集団スピンが決定される。 We propose a single-atom, cavity quantum electrodynamics system, compatible with recently demonstrated, fiber-integrated micro- and nano-cavity setups, for the on-demand production of optical number-state, $0N$-state, and binomial-code-state pulses. The scheme makes use of Raman transitions within an entire atomic ground-state hyperfine level and operates with laser and cavity fields detuned from the atomic transition by much more than the excited-state hyperfine splitting. This enables reduction of the dynamics to that of a simple, cavity-damped Tavis-Cummings model with the collective spin determined by the total angular momentum of the ground hyperfine level. | 翻訳日:2023-04-22 12:17:07 公開日:2020-12-01 |
# 準1次元閉じ込めによる周期散乱体のエネルギーバンド工学 Energy Band Engineering of Periodic Scatterers by Quasi-1D Confinement ( http://arxiv.org/abs/2012.00531v1 ) ライセンス: Link先を確認 | Ji il Kim | (参考訳) 鎖軸に沿って外部円筒トラップ電位が印加される線形格子を形成する周期散乱体の連鎖を考慮し、エネルギーバンド構造を変化させる機構を提案する。
このトラップ(閉じ込め)ポテンシャルが十分きつい場合、各散乱中心の周りの3次元の性質を完全に考慮し、ゼロレンジの擬ポテンシャルに依存しない格子ポテンシャルの束縛状態や散乱状態を変更することができる。
これらの状態がエネルギーバンドの形成に寄与するため、そのようなバンドは格子ポテンシャルを変えることなく閉じ込めを操作することで連続的に調整することができる。
特に、量子閉じ込めによるそのような次元減少は、運動量 k-空間の中心または端のバンドギャップを閉じることができる。 A mechanism to modify the energy band structure is proposed by considering a chain of periodic scatterers forming a linear lattice around which an external cylindrical trapping potential is applied along the chain axis. When this trapping (confining) potential is tight enough, it may modify the bound and scattering states of the lattice potential, whose three-dimensional nature around each scattering center is fully taken into account and not resorting to zero-range pseudo-potentials. Since these states contribute to the formation of the energy bands, such bands could thereby be continuously tuned by manipulating the confinement without the need to change the lattice potential. In particular, such dimensionality reduction by quantum confinement can close band gaps either at the center or at the edge of the momentum k-space. | 翻訳日:2023-04-22 12:09:11 公開日:2020-12-01 |
# オンライン自殺ゲーム:デジタル自傷の一形態か、それとも神話か? Online Suicide Games: A Form of Digital Self-harm or A Myth? ( http://arxiv.org/abs/2012.00530v1 ) ライセンス: Link先を確認 | Maria Bada and Richard Clayton | (参考訳) オンラインの自殺ゲームは一連の課題を巻き起こし、自殺に終わるとされる。
近年ではブルー・ホエール・チャレンジ、モモ、ファイア・フェアリー、ドキ・ドキなどが連続している。
挑戦文化は、この挑戦が危険であるかどうかに関わらず、深く根ざしたオンライン現象であり、ソーシャルメディアは特に若者が注意を欲しがっているため参加を動機付けている。
自殺ゲームが本物であるという証拠はないが、世界中の当局は警告を公表し、若者や親に警告する情報キャンペーンを作成している。
教師,児童保護専門家,ngoにインタビューし,2015~2019年の歴史ニュースレポートの体系的レビューを行い,警察その他の機関のウェブサイトを検索して関連する警告リリースを特定した。
そして,自殺ゲーム現象に関する既存の知識を合成した。
私たちの研究の重要な発見は、メディア、ソーシャルメディア、そして当局による警告リリースが、主にチャレンジ文化を広げ、オンラインリスクに関する恐怖を誇張するために役立っていることです。 Online suicide games are claimed to involve a series of challenges, ending in suicide. A whole succession of these such as the Blue Whale Challenge, Momo, the Fire Fairy and Doki Doki have appeared in recent years. The challenge culture is a deeply rooted online phenomenon, whether the challenge is dangerous or not, while social media particularly motivates youngsters to take part because of their desire for attention. Although there is no evidence that the suicide games are real, authorities around the world have reacted by releasing warnings and creating information campaigns to warn youngsters and parents. We interviewed teachers, child protection experts and NGOs, conducted a systematic review of historical news reports from 2015-2019 and searched police and other authority websites to identify relevant warning releases. We then synthesized the existing knowledge on the suicide games phenomenon. A key finding of our work is that media, social media and warning releases by authorities are mainly just serving to spread the challenge culture and exaggerate fears regarding online risk. | 翻訳日:2023-04-22 12:08:58 公開日:2020-12-01 |
# 市民技術:研究、実践、オープンチャレンジ Civic Technologies: Research, Practice and Open Challenges ( http://arxiv.org/abs/2012.00515v1 ) ライセンス: Link先を確認 | Pablo Aragon, Adriana Alvarado Garcia, Christopher A. Le Dantec, Claudia Flores-Saviaga, Jorge Saldivar | (参考訳) 過去数年間、オープン政府とコミュニティ活動を推進するために、世界中の市民技術プロジェクトが現れてきた。
CSCW(Computer-Supported Cooperative Work)とHCI(Human-Computer Interaction)コミュニティは、市民技術に関する研究への関心が高まっているが、ほとんどの研究は依然としてグローバル・ノースのプロジェクトに焦点を当てている。
したがって,本ワークショップの目標は,研究者と実践者のギャップを埋めることで,現在進行中の課題に対する意識を高め,市民技術に関するオープンな疑問を提起し,cscw研究を進めることにある。
The workshop will be organized around three central topics: (1) discuss how the local context and infrastructure affect the design, implementation, adoption, and maintenance of civic technology; (2) identify key elements of the configuration of trust among government, citizenry, and local organizations and how these elements change depending on the sociopolitical context where community engagement takes place; (3) discover what methods and strategies are best suited for conducting research on civic technologies in different contexts.
これらの中核的なトピックは、深い議論を開始し、CSCW研究コミュニティとグローバルノースとサウスの市民技術実践者とのコラボレーションを促進するセッションでカバーされます。 Over the last years, civic technology projects have emerged around the world to advance open government and community action. Although Computer-Supported Cooperative Work (CSCW) and Human-Computer Interaction (HCI) communities have shown a growing interest in researching issues around civic technologies, yet most research still focuses on projects from the Global North. The goal of this workshop is, therefore, to advance CSCW research by raising awareness for the ongoing challenges and open questions around civic technology by bridging the gap between researchers and practitioners from different regions. The workshop will be organized around three central topics: (1) discuss how the local context and infrastructure affect the design, implementation, adoption, and maintenance of civic technology; (2) identify key elements of the configuration of trust among government, citizenry, and local organizations and how these elements change depending on the sociopolitical context where community engagement takes place; (3) discover what methods and strategies are best suited for conducting research on civic technologies in different contexts. These core topics will be covered across sessions that will initiate in-depth discussions and, thereby, stimulate collaboration between the CSCW research community and practitioners of civic technologies from both Global North and South. | 翻訳日:2023-04-22 12:08:29 公開日:2020-12-01 |
# 混合非可逆力学写像からのマルコフ半群 Markovian semigroup from mixing non-invertible dynamical maps ( http://arxiv.org/abs/2012.00385v1 ) ライセンス: Link先を確認 | Katarzyna Siudzi\'nska | (参考訳) 非可逆一般化パウリ力学写像の凸結合を解析する。
混合パラメータを操作することで、シフト特異点、追加特異点、あるいは全く特異点のないチャネルを生成することができる。
特に、マルコフ半群を生成するために非可逆な動的写像を使う方法を示す。
興味深いことに、半群に混合結果を与える写像は、時間-局所生成子と正規でない時間-均質なメモリカーネルによって生成される。
最後に、対応する動的マップを混合した後に、ジェネレータとメモリカーネルがどのように変化するかを示す。 We analyze the convex combinations of non-invertible generalized Pauli dynamical maps. By manipulating the mixing parameters, one can produce a channel with shifted singularities, additional singularities, or even no singularities whatsoever. In particular, we show how to use non-invertible dynamical maps to produce the Markovian semigroup. Interestingly, the maps whose mixing results in a semigroup are generated by the time-local generators and time-homogeneous memory kernels that are not regular; i.e., their formulas contain infinities. Finally, we show how the generators and memory kernels change after mixing the corresponding dynamical maps. | 翻訳日:2023-04-22 12:06:32 公開日:2020-12-01 |
# 極端限界における回転センシング Rotation sensing at the ultimate limit ( http://arxiv.org/abs/2012.00590v1 ) ライセンス: Link先を確認 | Aaron Z. Goldberg, Andrei B. Klimov, Gerd Leuchs and Luis L. Sanchez-Soto | (参考訳) 従来のセンサーは、多くの分野で最大の感度レベルに近づいている。
しかし、これらのレベルは量子力学によって引き起こされる究極の限界とは程遠い。
量子センサーは、環境に対する量子状態の健全な感度を活用することで、大きな前進を約束する。
ここでは、広い応用のトピックであるセンシングローテーションに焦点を当てる。
推定理論の基本的なツールを利用することで、未知の回転軸の向きとそれについて回転する角度の両方を推定する際の究極の感度を達成する状態が導出される。
これらの最適状態で得られた臨界強度は、現在花が咲いている次世代の回転センサーに欠かせない要素となる。 Conventional classical sensors are approaching their maximum sensitivity levels in many areas. Yet these levels still are far from the ultimate limits dictated by quantum mechanics. Quantum sensors promise a substantial step ahead by taking advantage of the salient sensitivity of quantum states to the environment. Here, we focus on sensing rotations, a topic of broad application. By resorting to the basic tools of estimation theory, we derive states that achieve the ultimate sensitivities in estimating both the orientation of an unknown rotation axis and the angle rotated about it. The critical enhancement obtained with these optimal states should make of them an indispensable ingredient in the next generation of rotation sensors that is now blossoming. | 翻訳日:2023-04-22 11:59:40 公開日:2020-12-01 |
# 完全連結量子イジングモデルにおける平衡相転移と動的相転移:近似エネルギー固有状態と臨界時間 Equilibrium and dynamical phase transitions in fully connected quantum Ising model: Approximate energy eigenstates and critical time ( http://arxiv.org/abs/2012.00561v1 ) ライセンス: Link先を確認 | Arun Sehrawat, Chirag Srivastava, Ujjwal Sen | (参考訳) 零温度における横磁場を持つ有限サイズ完全連結イジングモデルの平衡と力学特性について検討した。
平衡に関して、我々は相転移点付近を除く大きな重なりを持つ近似基底状態と第一励起状態と、正確なエネルギー固有状態を示す。
近似的および正確な固有状態については、エネルギーギャップ、収束、および量子絡み合いの幾何学的測度を計算する。
エネルギーギャップや幾何学的絡み合いの場合,近似固有状態と正確な固有状態の一致を観察する。
一方、システムサイズが大きくなると、並行性は常磁性相のみに良い一致を示す。
クエンチ力学では, 動的相転移において重要な役割を果たす時間と最初の臨界時間について, それぞれ動的次数パラメータとロスシュミット率に基づいて検討した。
すべてのスピンが最初に相互相互作用の方向に偏極されると、時間と臨界時間は動的臨界点におけるシステムサイズと対数的に分岐する。
すべてのスピンが最初に横フィールドの方向にあるとき、時間と臨界時間の両方が最終フィールド強度に応じて対数またはパワーローの発散を示す。
収束の場合、有限サイズのスケーリングと収束値の見積もりを提供する。 We study equilibrium as well as dynamical properties of the finite-size fully connected Ising model with a transverse field at the zero temperature. In relation to the equilibrium, we present approximate ground and first excited states that have large overlap -- except near the phase transition point -- with the exact energy eigenstates. For both the approximate and exact eigenstates, we compute the energy gap, concurrence, and geometric measure of quantum entanglement. We observe a good match in the case of energy gap and geometric entanglement between the approximate and exact eigenstates. Whereas, when the system size is large, the concurrence shows a nice agreement only in the paramagnetic phase. In a quench dynamics, we study the time period and the first critical time, which play important roles in the dynamical phase transitions, based on a dynamical order parameter and the Loschmidt rate, respectively. When all the spins are initially polarized in the direction of their mutual interaction, both the time period and critical time diverges logarithmically with the system size at the dynamical critical point. When all the spins are initially in the direction of transverse field, both the time period and critical time exhibit logarithmic or power-law divergences depending on the final field strength. In the case of convergence, we provide estimates for the finite-size scaling and converged value. | 翻訳日:2023-04-22 11:59:14 公開日:2020-12-01 |
# 合意に達したか?
分散システムのシラビ解析 Have We Reached Consensus? An Analysis of Distributed Systems Syllabi ( http://arxiv.org/abs/2012.00552v1 ) ライセンス: Link先を確認 | Cristina L. Abad, Eduardo Ortiz-Holguin, Edwin F. Boza | (参考訳) 分散システムの概念を正しく適用することは、スケーラブルで信頼性が高く、迅速なソフトウェアにとって重要である。
そのため、分散システムは多くのコンピュータサイエンスプログラムに含まれるコースである。
分散システム教育の現在の傾向と,シラビの質向上を目指す教育者への参考として,世界中のコンピュータサイエンスプログラムの分散システムコース51のシラビについて概説する。
我々は,シラビを手作業でキュレートし,トピックの選択,書籍,論文読解リストなど,この教科の指導に使用されるアプローチを識別するデータを抽出した。
本研究は,2つの重要なカリキュラムイニシアチブのガイドラインに合致するかどうかについて検討した。 Correctly applying distributed systems concepts is important for software that seeks to be scalable, reliable and fast. For this reason, Distributed Systems is a course included in many Computer Science programs. To both describe current trends in teaching distributed systems and as a reference for educators that seek to improve the quality of their syllabi, we present a review of 51 syllabi of distributed systems courses from top Computer Science programs around the world. We manually curated the syllabi and extracted data that allowed us to identify approaches used in teaching this subject, including choice of topics, book, and paper reading list. We present our results and a discussion on whether what is being taught matches the guidelines of two important curriculum initiatives. | 翻訳日:2023-04-22 11:58:19 公開日:2020-12-01 |
# スピン波と常磁性スピン浴の量子界面に向けて Towards a quantum interface between spin waves and paramagnetic spin baths ( http://arxiv.org/abs/2012.00540v1 ) ライセンス: Link先を確認 | C. Gonzalez-Ballestero, T. van der Sar, O. Romero-Isart | (参考訳) 次世代情報技術の候補情報キャリアとしてスピン波が上昇している。
ダイヤモンド中の電子スピンを用いた検出の最近の実験は、制御可能な常磁性スピン浴のスピン波に対するバックアクションの研究への道を開いた。
ここではスピン波と常磁性スピンの相互作用を記述する量子論を示す。
事例研究として,イットリウム-鉄-ガーネット薄膜近傍のダイヤモンド中の窒素空転スピンのアンサンブルについて考察する。
本報告では,アンサンブルのバックアクションがスピン波スペクトルと伝搬特性の強固かつ調整可能な修正をもたらすことを示す。
これらの修正には、スピン波伝搬の完全な抑制と、異なるパラメータ構造において、その伝搬長を$\sim 50\%$で拡張することが含まれる。
さらに, スピン波の熱揺らぎが浴中における常磁性スピンの計測可能な周波数シフトを誘起することを示す。
このシフトは、ダイヤモンドメカニカル共振器で光学および/または機械的に測定できる熱分散力をもたらす。
さらに、この理論を用いて、入浴中のスピン間のスピン波による相互作用を計算する。
以上すべての効果が最先端の実験によって測定可能であることを示す。
スピン波とスピン浴のハイブリッド量子システムを記述するための理論的基礎を提供し、量子スピンのポテンシャルをスピントロニクスのアクティブ制御、センシング、界面ツールとして確立する。 Spin waves have risen as promising candidate information carriers for the next generation of information technologies. Recent experimental demonstrations of their detection using electron spins in diamond pave the way towards studying the back-action of a controllable paramagnetic spin bath on the spin waves. Here, we present a quantum theory describing the interaction between spin waves and paramagnetic spins. As a case study we consider an ensemble of nitrogen-vacancy spins in diamond in the vicinity of an Yttrium-Iron-Garnet thin film. We show how the back-action of the ensemble results in strong and tuneable modifications of the spin-wave spectrum and propagation properties. These modifications include the full suppression of spin-wave propagation and, in a different parameter regime, the enhancement of their propagation length by $\sim 50\%$. Furthermore, we show how the spin wave thermal fluctuations induce a measurable frequency shift of the paramagnetic spins in the bath. This shift results in a thermal dispersion force that can be measured optically and/or mechanically with a diamond mechanical resonator. In addition, we use our theory to compute the spin wave-mediated interaction between the spins in the bath. We show that all the above effects are measurable by state-of-the-art experiments. Our results provide the theoretical foundation for describing hybrid quantum systems of spin waves and spin baths, and establish the potential of quantum spins as active control, sensing, and interfacing tools for spintronics. | 翻訳日:2023-04-22 11:58:06 公開日:2020-12-01 |
# アト秒単一サイクルパルスを用いた量子情報処理のためのコヒーレント電子変位 Coherent electron displacement for quantum information processing using attosecond single cycle pulses ( http://arxiv.org/abs/2012.00535v1 ) ライセンス: Link先を確認 | Hicham Agueny | (参考訳) コヒーレント電子転位(coherent electron displacement)は、原子のネットワーク内の異なる場所を相互接続できるため、量子情報を処理する従来の戦略である。
処理の効率は、まだ確立されていないメカニズムの正確な制御に依存している。
ここでは, 電子波束の動的歪みよりも高速に時間スケールで電子変位を駆動する新しい経路を, アト秒単一サイクルパルスを用いて理論的に示す。
これらのパルスの特徴は、電子への大きな運動量移動に依存し、一方向の経路の後にその変位を引き起こす。
このシナリオは、量子重ね合わせ状態を符号化する変位波束の時空間的性質を明らかにすることによって示される。
関連した位相情報をマップアウトし、原点から遠距離から検索する。
さらに、そのようなパルス列をイオン鎖に印加することで、電子ウェーブパケットのコヒーレント運動の方向性を、近隣の部位間で前後に制御できることを示す。
2電子スピン状態への拡張は、これらのパルスの使用の汎用性を示す。
本研究は,量子情報の超高速処理と画像化の道筋をたどる,アト秒単一サイクルパルスを用いた量子状態の高度な制御に期待できる経路を確立した。 Coherent electron displacement is a conventional strategy for processing quantum information, as it enables to interconnect distinct sites in a network of atoms. The efficiency of the processing relies on the precise control of the mechanism, which has yet to be established. Here, we theoretically demonstrate a new route to drive the electron displacement on a timescale faster than that of the dynamical distortion of the electron wavepacket by utilizing attosecond single-cycle pulses. The characteristic feature of these pulses relies on a vast momentum transfer to an electron, leading to its displacement following a unidirectional path. The scenario is illustrated by revealing the spatiotemporal nature of the displaced wavepacket encoding a quantum superposition state. We map out the associated phase information and retrieve it over long distances from the origin. Moreover, we show that a sequence of such pulses applied to a chain of ions enables attosecond control of the directionality of the coherent motion of the electron wavepacket back and forth between the neighbouring sites. An extension to a two-electron spin state demonstrates the versatility of the use of these pulses. Our findings establish a promising route for advanced control of quantum states using attosecond single-cycle pulses, which pave the way towards ultrafast processing of quantum information as well as imaging. | 翻訳日:2023-04-22 11:57:45 公開日:2020-12-01 |
# エレクトロモビリティセクターのためのシリアスゲームアプローチ A Serious Game Approach for the Electro-Mobility Sector ( http://arxiv.org/abs/2012.01171v1 ) ライセンス: Link先を確認 | Bartolomeo Silvestri, Alessandro Rinaldi, Antonella Berardi, Michele Roccotelli, Simone Acquaviva and Maria Pia Fanti | (参考訳) serious games(sgs)は、従来の方法よりも効果的で経済的に学習プロセスを改善するための新しいアプローチである。
本稿では,電気自動車の利用を促進するために,電気移動性文脈に対するsgアプローチを提案することを目的とする。
SGの設計は古典的な「ゲーム」の典型的な要素に基づいており、実際のゲームプレイは目的によって異なる。
本研究は,移動性による環境問題への意識を高め,利用者を積極的に巻き込むこと,都市における生活性の向上,従来の車両に代わる手段による省エネを実現することを目的としている。
設計ツールの目的は、市内の観光客や電気自動車利用者の楽しみやエンターテイメントの要素を提案しながら、そのような車両を利用するメリットについて有用な情報を提供し、市内の観光地や興味深い場所を見つけ出すことである。
このようにして、利用者は効果的な学習プロセスを通じて都市の芸術的・歴史的側面を探求するために刺激を受け、記念碑の起源や特徴を探索することが奨励される。 Serious Games (SGs) represent a new approach to improve learning processes more effectively and economically than traditional methods. This paper aims to present a SG approach for the electro-mobility context, in order to encourage the use of electric light vehicles. The design of the SG is based on the typical elements of the classic "game" with a real gameplay with different purposes. In this work, the proposed SG aims to raise awareness on environmental issues caused by mobility and actively involve users, on improving livability in the city and on real savings using alternative means to traditional vehicles. The objective of the designed tool is to propose elements of fun and entertainment for tourists or users of electric vehicles in the cities, while giving useful information about the benefits of using such vehicles, discovering touristic and interesting places in the city to discover. In this way, the user is stimulated to explore the artistic and historical aspects of the city through an effective learning process: he/she is encouraged to search the origins and the peculiarities of the monuments. | 翻訳日:2023-04-22 11:50:16 公開日:2020-12-01 |
# 複数性能指標を用いたMOEAの統計的解析 On Statistical Analysis of MOEAs with Multiple Performance Indicators ( http://arxiv.org/abs/2012.00886v1 ) ライセンス: Link先を確認 | Hao Wang and Carlos Igncio Hern\'andez Castellanos and Tome Eftimov | (参考訳) 多目的進化アルゴリズム(MOEA)の実証的性能を評価することは、MOEAの集合を広範囲にテストし、その適切なランキングを決定するために重要である。
実験データを報告する際には、世代間距離やハイパーボリュームなどの複数のパフォーマンス指標が頻繁に適用され、通常、各指標のデータは他の指標から独立して分析される。
このような処理は、すべての性能指標に結果を集約する上で概念的な困難をもたらし、性能指標の限界分布が重なり合う場合、アルゴリズム間で大きな違いを見出すことができない可能性がある。
そこで本稿では,性能指標の合同実験分布について多変量$\mathcal{e}$-testを行い,データの電位差を検出し,線形判別分析を用いてアルゴリズム間の優越性を決定するポストホック手法を提案する。
この性能解析の有効性は、4つのアルゴリズム、16の課題、6の異なる目標に対して行われた実験によって支持される。 Assessing the empirical performance of Multi-Objective Evolutionary Algorithms (MOEAs) is vital when we extensively test a set of MOEAs and aim to determine a proper ranking thereof. Multiple performance indicators, e.g., the generational distance and the hypervolume, are frequently applied when reporting the experimental data, where typically the data on each indicator is analyzed independently from other indicators. Such a treatment brings conceptual difficulties in aggregating the result on all performance indicators, and it might fail to discover significant differences among algorithms if the marginal distributions of the performance indicator overlap. Therefore, in this paper, we propose to conduct a multivariate $\mathcal{E}$-test on the joint empirical distribution of performance indicators to detect the potential difference in the data, followed by a post-hoc procedure that utilizes the linear discriminative analysis to determine the superiority between algorithms. This performance analysis's effectiveness is supported by an experimentation conducted on four algorithms, 16 problems, and 6 different numbers of objectives. | 翻訳日:2023-04-22 11:49:59 公開日:2020-12-01 |
# 「冷たく技術的な意思決定者」:AIは説明可能性、交渉可能性、人間性を提供できるか? "A cold, technical decision-maker": Can AI provide explainability, negotiability, and humanity? ( http://arxiv.org/abs/2012.00874v1 ) ライセンス: Link先を確認 | Allison Woodruff and Yasmin Asare Anderson and Katherine Jameson Armstrong and Marina Gkiza and Jay Jennings and Christopher Moessner and Fernanda Viegas and Martin Wattenberg and and Lynette Webb and Fabian Wrede and Patrick Gage Kelley | (参考訳) アルゴリズムシステムは、人々の生活の多くの領域で意思決定を行うために、ますます展開される。
人間からアルゴリズムによる意思決定への移行は、社会的価値観と一致しない潜在的不透明な決定や、説明可能性などの修正案への懸念が伴っている。
本研究は,フィンランド,ドイツ,イギリス,米国において,計60名の参加者からなる5つのワークショップからなる,アルゴリズム的意思決定に関する質的研究の結果を示す。
様々な領域における説明可能性や正確性など,意思決定の質を判断するために参加者を招待した。
参加者はAIを厳格な基準に従う意思決定者とみなし、機械的なタスクをうまく遂行するが、主観的または道徳的に複雑な判断がほとんどできない。
意思決定における人間性についての参加者の考察を議論し,「交渉可能性」という概念と,形式的基準を超えて柔軟に働く能力について紹介する。 Algorithmic systems are increasingly deployed to make decisions in many areas of people's lives. The shift from human to algorithmic decision-making has been accompanied by concern about potentially opaque decisions that are not aligned with social values, as well as proposed remedies such as explainability. We present results of a qualitative study of algorithmic decision-making, comprised of five workshops conducted with a total of 60 participants in Finland, Germany, the United Kingdom, and the United States. We invited participants to reason about decision-making qualities such as explainability and accuracy in a variety of domains. Participants viewed AI as a decision-maker that follows rigid criteria and performs mechanical tasks well, but is largely incapable of subjective or morally complex judgments. We discuss participants' consideration of humanity in decision-making, and introduce the concept of 'negotiability,' the ability to go beyond formal criteria and work flexibly around the system. | 翻訳日:2023-04-22 11:49:41 公開日:2020-12-01 |
# PT対称性を用いたコヒーレント量子フィードバックによる広帯域感度改善 Broadband sensitivity improvement via coherent quantum feedback with PT symmetry ( http://arxiv.org/abs/2012.00836v1 ) ライセンス: Link先を確認 | Xiang Li, Maxim Goryachev, Yiqiu Ma, Michael E. Tobar, Chunnong Zhao, Rana X Adhikari, Yanbei Chen | (参考訳) 従来の共鳴検出器は帯域幅とピーク感度のトレードオフを受けており、量子クレーマー・ラオ境界まで遡ることができる。
異常分散は信号増幅によってそれを改善することが示され、したがって不安定性につながる一方、デコヒーレンスに対してより堅牢である。
2モード非退化パラメトリック増幅により基本検出限界で動作する線形系に適用可能な安定量子増幅器を提案する。
しきい値では、増幅器の1つのモードがオリジナルの検出器モードのpt対称系を形成する。
レーザー干渉計による重力波検出器とマイクロ波キャビティ軸検出器の感度改善を示す。 A conventional resonant detector is often subject to a trade-off between bandwidth and peak sensitivity that can be traced back to quantum Cramer-Rao Bound. Anomalous dispersion has been shown to improve it by signal amplification and is thus more robust against decoherence, while it leads to instabilities. We propose a stable quantum amplifier applicable to linear systems operating at the fundamental detection limits, enabled by two-mode non-degenerate parametric amplification. At threshold, one mode of the amplifier forms a PT-symmetric system of original detector mode. Sensitivity improvements are shown for laser-interferometric gravitational-wave detectors and microwave cavity axion detectors. | 翻訳日:2023-04-22 11:49:22 公開日:2020-12-01 |
# トポロジカル絶縁体サンドウィッチ構造における異常なフロケットキラルトポロジカル超伝導 Anomalous Floquet Chiral Topological Superconductivity in a Topological Insulator Sandwich Structure ( http://arxiv.org/abs/2012.00762v1 ) ライセンス: Link先を確認 | Rui-Xing Zhang, S. Das Sarma | (参考訳) 磁気的トポロジカル絶縁体-超伝導サンドイッチ構造からなるジョセフソン接合部において, フラケットキラルなトポロジカル超伝導が自然に発生することを示す。
接合部全体に印加されたバイアス電圧に関連するジョセフソン位相変調は、準エネルギースペクトルでキラルマヨラナエッジモードをホストする異常なフロッケキラル位相超伝導体にシステムを押し込み、バルクフロッケバンドはゼロチャーン数を持つ。
バイアス電圧は、新しい動的トポロジカル量子相転移を、エキゾチックなマヨラナを担持するフロケトポロジカル超伝導相へと駆動するチューニングパラメータとして機能する。
我々の理論は、実験的に直接アクセス可能な固体系におけるフロケキラルトポロジカル超伝導を実現するための新しいパラダイムを確立する。 We show that Floquet chiral topological superconductivity arises naturally in Josephson junctions made of magnetic topological insulator-superconductor sandwich structures. The Josephson phase modulation associated with an applied bias voltage across the junction drives the system into the anomalous Floquet chiral topological superconductor hosting chiral Majorana edge modes in the quasienergy spectrum, with the bulk Floquet bands carrying zero Chern numbers. The bias voltage acts as a tuning parameter enabling novel dynamical topological quantum phase transitions driving the system into a myriad of exotic Majorana-carrying Floquet topological superconducting phases. Our theory establishes a new paradigm for realizing Floquet chiral topological superconductivity in solid-state systems, which should be experimentally directly accessible. | 翻訳日:2023-04-22 11:48:12 公開日:2020-12-01 |
# コミュニケーションを伴う多段階ゲームとベルシナリオ Multistage games and Bell scenarios with communication ( http://arxiv.org/abs/2012.00733v1 ) ライセンス: Link先を確認 | George Moreno, Ranieri Nery, Alberto Palhares, Rafael Chaves | (参考訳) ベル非局所性は量子論の基盤であり、暗号から分散コンピューティング、ゲーム理論まで、情報処理における応用である。
実際、ベルの定理は公式にベイズゲームと結びつくことが知られており、非局所相関を用いることでプレイヤーを助言し、古典的に利用できない新しい平衡点を達成することができる。
ここでは、このリンクを一般化し、不完全な情報の多段階ゲームと、当事者間の測定結果のコミュニケーションに関するベルシナリオとの接続を証明する。
興味のある場合の一般的な枠組みを適用し、量子非局所相関によって到達した平衡を分析する。 Bell nonlocality is a cornerstone of quantum theory with applications in information processing ranging from cryptography to distributed computing and game theory. Indeed, it is known that Bell's theorem can be formally linked to Bayesian games, allowing the use of nonlocal correlations to advise players and thereby achieve new points of equilibrium that are unavailable classically. Here we generalize this link, proving the connection between multistage games of incomplete information with Bell scenarios involving the communication of measurement outcomes between the parties. We apply the general framework for a few cases of interest and analyze the equilibrium reached by quantum nonlocal correlations. | 翻訳日:2023-04-22 11:47:24 公開日:2020-12-01 |
# ビュー制約付き深度事前処理による深度補完 Depth Completion Using a View-constrained Deep Prior ( http://arxiv.org/abs/2001.07791v3 ) ライセンス: Link先を確認 | Pallabi Ghosh, Vibhav Vineet, Larry S. Davis, Abhinav Shrivastava, Sudipta Sinha, Neel Joshi | (参考訳) 近年の研究では、畳み込みニューラルネットワーク(cnns)の構造が自然画像を好む強い先行性を引き起こすことが示されている。
この前処理はdip(deep image prior)と呼ばれ、画像のデノイジングやインパインティングといった逆問題において有効な正則化器である。
DIPの概念を深度画像に拡張する。
色画像と雑音と不完全な目標深度マップを考慮し、ランダムに初期化したCNNモデルを最適化し、CNNネットワーク構造を事前に使用することにより復元された深度マップをビュー制約の写真一貫性損失と組み合わせて再構築する。
この損失は、近くの視点から幾何学的に調整されたカメラの画像を用いて計算される。
両眼および多視点ステレオパイプライン内における不完全・雑音深度マップの塗布および精製に先立って,この深度を適用した。
定量的・定性的な評価から, 精密な深度図はより正確で完全であり, 融合後, 高画質の密集した3dモデルが得られた。 Recent work has shown that the structure of convolutional neural networks (CNNs) induces a strong prior that favors natural images. This prior, known as a deep image prior (DIP), is an effective regularizer in inverse problems such as image denoising and inpainting. We extend the concept of the DIP to depth images. Given color images and noisy and incomplete target depth maps, we optimize a randomly-initialized CNN model to reconstruct a depth map restored by virtue of using the CNN network structure as a prior combined with a view-constrained photo-consistency loss. This loss is computed using images from a geometrically calibrated camera from nearby viewpoints. We apply this deep depth prior for inpainting and refining incomplete and noisy depth maps within both binocular and multi-view stereo pipelines. Our quantitative and qualitative evaluation shows that our refined depth maps are more accurate and complete, and after fusion, produces dense 3D models of higher quality. | 翻訳日:2023-01-08 00:19:56 公開日:2020-12-01 |
# データとモデルのためのカーネルベースの不確実性分解フレームワークに向けて Towards a Kernel based Uncertainty Decomposition Framework for Data and Models ( http://arxiv.org/abs/2001.11495v4 ) ライセンス: Link先を確認 | Rishabh Singh and Jose C. Principe | (参考訳) 本稿では,データをガウス再生核ヒルベルト空間 (rkhs) に投影し,データ確率密度関数 (pdf) をサンプル空間のすべての点で定量化された位相ポテンシャル場として,その勾配の流れを定量化する手法を用いて,データとモデルの両方の予測不確実性を定量化する新しい枠組みを提案する。
これにより、量子物理学、特にシュロディンガーの定式化を用いたモーメント分解問題として定式化することで、PDF勾配流の分解が可能となる。
実験により,高次モードはPDFの異なる尾領域を体系的にクラスタリングし,高い皮疹不確実性を有するデータ領域を前代未聞の判別分解することを示した。
本質的に、このアプローチは不確実性モーメントの観点からデータpdfの局所的な実現を分解する。
本手法は,従来のベイズ型不確実性定量化手法の様々な限界を克服し,予測不確実性定量化のためのサロゲートツールとして応用する。
いくつかの確立された手法との実験的比較は、我々のフレームワークが示す性能上の利点を示している。 This paper introduces a new framework for quantifying predictive uncertainty for both data and models that relies on projecting the data into a Gaussian reproducing kernel Hilbert space (RKHS) and transforming the data probability density function (PDF) in a way that quantifies the flow of its gradient as a topological potential field quantified at all points in the sample space. This enables the decomposition of the PDF gradient flow by formulating it as a moment decomposition problem using operators from quantum physics, specifically the Schrodinger's formulation. We experimentally show that the higher order modes systematically cluster the different tail regions of the PDF, thereby providing unprecedented discriminative resolution of data regions having high epistemic uncertainty. In essence, this approach decomposes local realizations of the data PDF in terms of uncertainty moments. We apply this framework as a surrogate tool for predictive uncertainty quantification of point-prediction neural network models, overcoming various limitations of conventional Bayesian based uncertainty quantification methods. Experimental comparisons with some established methods illustrate performance advantages exhibited by our framework. | 翻訳日:2023-01-05 12:04:12 公開日:2020-12-01 |
# t-viSNE: t-SNE射影の相互評価と解釈 t-viSNE: Interactive Assessment and Interpretation of t-SNE Projections ( http://arxiv.org/abs/2002.06910v4 ) ライセンス: Link先を確認 | Angelos Chatzimparmpas, Rafael M. Martins, Andreas Kerren | (参考訳) 多次元データの可視化のためのt-distributed stochastic neighbor embedded (t-sne) は、幅広い領域での成功例とともに、一般的なアプローチであることが証明されている。
その有用性にもかかわらず、t-sne射影は解釈も誤解も難しく、その結果の信頼性を損なう。
t-SNE自体の詳細と出力中の特定のパターンの背後にある理由を理解することは、特に次元減少の非専門家にとって、大変な作業である。
本研究では,T-SNEプロジェクションを視覚的に探索するためのインタラクティブツールであるt-viSNEを提案する。これは,ハイパーパラメータの影響,距離と周辺保存,特定近傍の密度とコスト,次元と視覚パターンの相関など,分析者がそれぞれの精度と意味の異なる側面を検査することができる。
本稿では, t-SNEプロジェクションの可視化のために, 一貫性があり, アクセスしやすく, 統合された様々なビューの集合を提案する。
t-viSNEの適用性とユーザビリティは,実データを用いた仮説的利用シナリオを通じて実証される。
最後に,本ツールの有効性を評価するユーザ調査の結果について報告する。
t-SNEを実行した後、通常失われるであろう光情報をもたらすことで、t-SNEの使用をアナリストに支援し、その結果をより理解しやすくしたいと考えています。 t-Distributed Stochastic Neighbor Embedding (t-SNE) for the visualization of multidimensional data has proven to be a popular approach, with successful applications in a wide range of domains. Despite their usefulness, t-SNE projections can be hard to interpret or even misleading, which hurts the trustworthiness of the results. Understanding the details of t-SNE itself and the reasons behind specific patterns in its output may be a daunting task, especially for non-experts in dimensionality reduction. In this work, we present t-viSNE, an interactive tool for the visual exploration of t-SNE projections that enables analysts to inspect different aspects of their accuracy and meaning, such as the effects of hyper-parameters, distance and neighborhood preservation, densities and costs of specific neighborhoods, and the correlations between dimensions and visual patterns. We propose a coherent, accessible, and well-integrated collection of different views for the visualization of t-SNE projections. The applicability and usability of t-viSNE are demonstrated through hypothetical usage scenarios with real data sets. Finally, we present the results of a user study where the tool's effectiveness was evaluated. By bringing to light information that would normally be lost after running t-SNE, we hope to support analysts in using t-SNE and making its results better understandable. | 翻訳日:2022-12-31 12:25:11 公開日:2020-12-01 |
# 機械学習の確率的検証に向けて Towards Probabilistic Verification of Machine Unlearning ( http://arxiv.org/abs/2003.04247v2 ) ライセンス: Link先を確認 | David Marco Sommer, Liwei Song, Sameer Wagh, Prateek Mittal | (参考訳) 忘れられる権利は、消去する権利(the right to erasure)としても知られ、個人がそれを保存しているエンティティからデータを消去する権利である。
この長期にわたる概念の地位は、欧州連合の一般データ保護規則(gdpr)によって、最近法的に固められた。
そのため、サービスプロバイダが削除要求を遵守するかどうかをユーザが確認できるメカニズムが必要である。
本研究では、機械学習・アズ・ア・サービス(mlaas)を提供するシステムのコンテキストにおいて、データ削除要求(機械学習としても知られる)に対する検証メカニズムの設計を研究するための形式的フレームワークを提案する。
標準仮説検証に基づく検証機構の厳密な定量化を可能にする。
さらに,新しいバックドアベースの検証機構を提案し,信頼性の高いデータ削除の有効性を実証し,機械学習を定量的に推定するための基礎を提供する。
我々は、多層パーセプトロン(mlp)、畳み込みニューラルネットワーク(cnn)、残留ネットワーク(resnet)、long short-term memory(lstm)、および5つの異なるデータセットなど、様々なネットワークアーキテクチャ上のアプローチを評価した。
提案手法は,MLサービスの精度に最小限の影響を与えるが,未学習に対する信頼性の高い検証を可能にする。
提案するメカニズムは,データ削除要求の遵守を確認するために,少数のユーザがシステムを使用している場合にのみ動作する。
特に、5%のユーザーが参加し、半数のデータをバックドアで変更し、30のクエリーしかテストしていないため、認証メカニズムは偽陽性と偽陰性の両方が10^{-3}$以下である。
また,最先端のバックドア防御手法を用いた適応的敵に対して,本手法の有効性を示す。 The right to be forgotten, also known as the right to erasure, is the right of individuals to have their data erased from an entity storing it. The status of this long held notion was legally solidified recently by the General Data Protection Regulation (GDPR) in the European Union. Consequently, there is a need for mechanisms whereby users can verify if service providers comply with their deletion requests. In this work, we take the first step in proposing a formal framework to study the design of such verification mechanisms for data deletion requests -- also known as machine unlearning -- in the context of systems that provide machine learning as a service (MLaaS). Our framework allows the rigorous quantification of any verification mechanism based on standard hypothesis testing. Furthermore, we propose a novel backdoor-based verification mechanism and demonstrate its effectiveness in certifying data deletion with high confidence, thus providing a basis for quantitatively inferring machine unlearning. We evaluate our approach over a range of network architectures such as multi-layer perceptrons (MLP), convolutional neural networks (CNN), residual networks (ResNet), and long short-term memory (LSTM), as well as over 5 different datasets. We demonstrate that our approach has minimal effect on the ML service's accuracy but provides high confidence verification of unlearning. Our proposed mechanism works even if only a handful of users employ our system to ascertain compliance with data deletion requests. In particular, with just 5% of users participating, modifying half their data with a backdoor, and with merely 30 test queries, our verification mechanism has both false positive and false negative ratios below $10^{-3}$. We also show the effectiveness of our approach by testing it against an adaptive adversary that uses a state-of-the-art backdoor defense method. | 翻訳日:2022-12-25 08:35:01 公開日:2020-12-01 |
# BayesFlow: 可逆ニューラルネットワークを用いた複雑な確率モデル学習 BayesFlow: Learning complex stochastic models with invertible neural networks ( http://arxiv.org/abs/2003.06281v4 ) ライセンス: Link先を確認 | Stefan T. Radev, Ulf K. Mertens, Andreass Voss, Lynton Ardizzone, Ullrich K\"othe | (参考訳) 数学モデルのパラメータを推定することは、科学のほとんど全ての分野において共通の問題である。
しかし、プロセスやモデル記述がますます複雑になり、明確な可能性関数が利用できない場合、この問題は顕著に困難である。
本研究では,ベイズフロー(BayesFlow)と呼ばれる可逆ニューラルネットワークに基づく世界規模のベイズ推論手法を提案する。
この手法はシミュレーションを用いて観測データから基礎となるモデルパラメータへの確率的マッピングのための大域的推定器を学習する。
この方法で事前トレーニングされたニューラルネットワークは、追加のトレーニングや最適化なしに、同じモデルファミリを含む任意の多数の実データセットの完全な後方を推測することができる。
さらに,本手法では,観測データを最大情報的要約統計に組み込むように訓練された要約ネットワークを組み込む。
データから要約統計を学習することで、手作り要約統計を用いた標準的な推論手法が失敗するシナリオのモデル化に適用できる。
我々は,人口動態学,疫学,認知科学,生態学の難解なモデルに対するベイズフローの有用性を実証する。
ベイズフローは、データをシミュレートできる任意の前方モデルに対して、補正ベイズパラメータ推定マシンを構築するための一般的なフレームワークを提供する。 Estimating the parameters of mathematical models is a common problem in almost all branches of science. However, this problem can prove notably difficult when processes and model descriptions become increasingly complex and an explicit likelihood function is not available. With this work, we propose a novel method for globally amortized Bayesian inference based on invertible neural networks which we call BayesFlow. The method uses simulation to learn a global estimator for the probabilistic mapping from observed data to underlying model parameters. A neural network pre-trained in this way can then, without additional training or optimization, infer full posteriors on arbitrary many real datasets involving the same model family. In addition, our method incorporates a summary network trained to embed the observed data into maximally informative summary statistics. Learning summary statistics from data makes the method applicable to modeling scenarios where standard inference techniques with hand-crafted summary statistics fail. We demonstrate the utility of BayesFlow on challenging intractable models from population dynamics, epidemiology, cognitive science and ecology. We argue that BayesFlow provides a general framework for building amortized Bayesian parameter estimation machines for any forward model from which data can be simulated. | 翻訳日:2022-12-24 01:15:10 公開日:2020-12-01 |
# 教師なし学習を用いた強化学習の効率的探索 Provably Efficient Exploration for Reinforcement Learning Using Unsupervised Learning ( http://arxiv.org/abs/2003.06898v4 ) ライセンス: Link先を確認 | Fei Feng, Ruosong Wang, Wotao Yin, Simon S. Du, Lin F. Yang | (参考訳) 強化学習(RL)問題(tang2017 Explorloration,bellemare2016unifying)における効率的な探索に教師なし学習を用いることで,このパラダイムが有効であるかどうかを考察する。
本研究は,少数の潜在状態から発生する豊富な観測により,エピソディックなマルコフ決定過程を考察する。
本稿では,教師なし学習アルゴリズムと非教師なし表型rlアルゴリズムの2つの構成要素に基づく汎用アルゴリズムフレームワークを提案する。
理論的には、教師なし学習アルゴリズムが多項式サンプル複雑性の保証を享受している限り、標本複雑性多項式が観測値よりもかなり小さい潜在状態の数で最適に近いポリシーを見つけることができる。
経験的に、我々は、我々の理論の実用性を示すために、難解な探索問題のクラスに枠組みをインスタンス化する。 Motivated by the prevailing paradigm of using unsupervised learning for efficient exploration in reinforcement learning (RL) problems [tang2017exploration,bellemare2016unifying], we investigate when this paradigm is provably efficient. We study episodic Markov decision processes with rich observations generated from a small number of latent states. We present a general algorithmic framework that is built upon two components: an unsupervised learning algorithm and a no-regret tabular RL algorithm. Theoretically, we prove that as long as the unsupervised learning algorithm enjoys a polynomial sample complexity guarantee, we can find a near-optimal policy with sample complexity polynomial in the number of latent states, which is significantly smaller than the number of observations. Empirically, we instantiate our framework on a class of hard exploration problems to demonstrate the practicality of our theory. | 翻訳日:2022-12-23 08:29:32 公開日:2020-12-01 |
# 拡張Groove MIDIデータセットによるドラム転写の知覚品質の向上 Improving Perceptual Quality of Drum Transcription with the Expanded Groove MIDI Dataset ( http://arxiv.org/abs/2004.00188v5 ) ライセンス: Link先を確認 | Lee Callender, Curtis Hawthorne, Jesse Engel | (参考訳) 本稿では,43組のドラムキットから444時間分の音声を含む自動ドラム転写(adt)データセットであるextensed groove midi dataset (e-gmd)について紹介する。
我々は,e-gmdを用いて下流世代に使用する分類器の最適化を行い,表現力(速度)を予測し,分類指標の類似性にも拘わらず知覚品質が向上した出力を生成するリスニングテストを行った。
聴取試験では, 出力の知覚的品質と完全に一致しないため, 正解率やF値スコアなどの標準分類器の精度は, 下流タスクにおける性能の指標として不十分である。 We introduce the Expanded Groove MIDI dataset (E-GMD), an automatic drum transcription (ADT) dataset that contains 444 hours of audio from 43 drum kits, making it an order of magnitude larger than similar datasets, and the first with human-performed velocity annotations. We use E-GMD to optimize classifiers for use in downstream generation by predicting expressive dynamics (velocity) and show with listening tests that they produce outputs with improved perceptual quality, despite similar results on classification metrics. Via the listening tests, we argue that standard classifier metrics, such as accuracy and F-measure score, are insufficient proxies of performance in downstream tasks because they do not fully align with the perceptual quality of generated outputs. | 翻訳日:2022-12-17 19:32:57 公開日:2020-12-01 |
# AMR-to- English 生成システムの人間による評価 A Human Evaluation of AMR-to-English Generation Systems ( http://arxiv.org/abs/2004.06814v2 ) ライセンス: Link先を確認 | Emma Manning, Shira Wein, Nathan Schneider | (参考訳) 抽象的意味表現(AMR)から英語のテキストを生成する技術システムの多くは、自然言語生成に問題があることが知られているBLEUのような自動メトリクスを使用して評価されている。
本研究では,近年のamr生成システムにおいて,変動度と妥当性のスコアを収集し,エラータイプを分類した新しい評価結果を示す。
これらのシステムの相対的な品質と結果が自動測定値と比較された結果について論じ、これらの指標は総合的なランキングシステムではほとんど成功しているが、人間の判断の収集はより微妙な比較を可能にする。
これらのシステムによる一般的なエラーも分析する。 Most current state-of-the art systems for generating English text from Abstract Meaning Representation (AMR) have been evaluated only using automated metrics, such as BLEU, which are known to be problematic for natural language generation. In this work, we present the results of a new human evaluation which collects fluency and adequacy scores, as well as categorization of error types, for several recent AMR generation systems. We discuss the relative quality of these systems and how our results compare to those of automatic metrics, finding that while the metrics are mostly successful in ranking systems overall, collecting human judgments allows for more nuanced comparisons. We also analyze common errors made by these systems. | 翻訳日:2022-12-13 09:40:41 公開日:2020-12-01 |
# 画像由来のクワッドツリーとポアソンディスクサンプリングに基づく損失イベント圧縮 Lossy Event Compression based on Image-derived Quad Trees and Poisson Disk Sampling ( http://arxiv.org/abs/2005.00974v2 ) ライセンス: Link先を確認 | Srutarshi Banerjee, Zihao W. Wang, Henry H. Chopp, Oliver Cossairt, Aggelos Katsaggelos | (参考訳) 従来のrgbカメラよりもいくつかの利点があるため、イベントカメラは高速動作、高ダイナミックレンジ、および/またはパワー制約を伴う困難なシナリオで視覚タスクに取り組む新しい機会を提供している。
しかし、画像/ビデオ圧縮とは異なり、イベント圧縮アルゴリズムの性能は満足感と実用性には程遠い。
イベントを圧縮する主な課題は、ユニークなイベントデータ形式、すなわち2次元の空間的位置、タイムスタンプ、極性(明るさの増加または減少を意味する)をそれぞれ符号化する非同期に発生したイベントタプルのストリームである。
事象は時間変化のみをエンコードするため、圧縮に不可欠な空間構造が欠如している。
この問題に対処するために,隣接する強度画像から得られたクアッドツリー(QT)セグメンテーションマップに基づく新しいイベント圧縮アルゴリズムを提案する。
QTは3次元時空間ボリューム内の2次元空間優先度を通知する。
イベントエンコーディングステップでは、イベントは時間とともに集約され、極性に基づくイベントヒストグラムを形成する。
ヒストグラムは、QTベースのセグメンテーションマップによって優先順位付けされたPoisson Disk Smplingを介して可変サンプリングされる。
次に、サンプルイベントの空間情報と極性情報をそれぞれ符号化するために差分符号化とラン長符号化を用い、次いでHuffman符号化を用いて最終符号化イベントを生成する。
我々のpoisson disk sampling based lossy event compression (pds-lec) アルゴリズムはレート分散に基づく最適割り当てを行う。
平均して、このアルゴリズムは芸術の状況と比較して6倍以上の圧縮を達成している。 With several advantages over conventional RGB cameras, event cameras have provided new opportunities for tackling visual tasks under challenging scenarios with fast motion, high dynamic range, and/or power constraint. Yet unlike image/video compression, the performance of event compression algorithm is far from satisfying and practical. The main challenge for compressing events is the unique event data form, i.e., a stream of asynchronously fired event tuples each encoding the 2D spatial location, timestamp, and polarity (denoting an increase or decrease in brightness). Since events only encode temporal variations, they lack spatial structure which is crucial for compression. To address this problem, we propose a novel event compression algorithm based on a quad tree (QT) segmentation map derived from the adjacent intensity images. The QT informs 2D spatial priority within the 3D space-time volume. In the event encoding step, events are first aggregated over time to form polarity-based event histograms. The histograms are then variably sampled via Poisson Disk Sampling prioritized by the QT based segmentation map. Next, differential encoding and run length encoding are employed for encoding the spatial and polarity information of the sampled events, respectively, followed by Huffman encoding to produce the final encoded events. Our Poisson Disk Sampling based Lossy Event Compression (PDS-LEC) algorithm performs rate-distortion based optimal allocation. On average, our algorithm achieves greater than 6x compression compared to the state of the art. | 翻訳日:2022-12-07 06:50:13 公開日:2020-12-01 |
# StackGenVis:パフォーマンスメトリクスを使用したスタックングアンサンブル学習のためのデータ、アルゴリズム、モデルのアライメント StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics ( http://arxiv.org/abs/2005.01575v8 ) ライセンス: Link先を確認 | Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren | (参考訳) 機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されており、トップノートの予測性能を定期的に達成している。
スタック化(スタック一般化、stacked generalization)は、少なくとも一つの層に配置された異種基底モデルを組み合わせて、それらのモデルの予測を要約するために別のメタモデルを使用するアンサンブル法である。
mlの予測性能を高めるための非常に効果的なアプローチかもしれないが、スクラッチからモデルスタックを生成することは、厄介な試行錯誤のプロセスである。
この課題は、トレーニングに使用できるさまざまなデータインスタンスと機能セット、いくつかのアルゴリズムから選択するアルゴリズム、さまざまなメトリクスで異なるパフォーマンスのさまざまなパラメータ(モデルなど)を使用したインスタンス化など、利用可能なソリューションの膨大なスペースに起因しています。
本稿では,可視化を用いてアンサンブル学習を支援する知識生成モデルと,スタック一般化のためのビジュアル分析システムを提案する。
当社のシステムであるStackGenVisは、パフォーマンスメトリクスの動的適応、データインスタンスの管理、データセットの最も重要な機能の選択、トップパフォーマンスと多様なアルゴリズムのセットの選択、予測パフォーマンスの測定を支援する。
その結果,提案手法により,異なるモデル間を判断し,過剰な予測やパフォーマンス低下を解消することで,スタックの複雑さを低減できる。
stackgenvisの適用性と有効性は,実世界の医療データセットとテキストにおける感情/スタンス検出に関連するデータの収集という2つのユースケースで実証されている。
最後に、このツールは3人のML専門家とのインタビューを通じて評価されている。 In machine learning (ML), ensemble methods such as bagging, boosting, and stacking are widely-established approaches that regularly achieve top-notch predictive performance. Stacking (also called "stacked generalization") is an ensemble method that combines heterogeneous base models, arranged in at least one layer, and then employs another metamodel to summarize the predictions of those models. Although it may be a highly-effective approach for increasing the predictive performance of ML, generating a stack of models from scratch can be a cumbersome trial-and-error process. This challenge stems from the enormous space of available solutions, with different sets of data instances and features that could be used for training, several algorithms to choose from, and instantiations of these algorithms using diverse parameters (i.e., models) that perform differently according to various metrics. In this work, we present a knowledge generation model, which supports ensemble learning with the use of visualization, and a visual analytics system for stacked generalization. Our system, StackGenVis, assists users in dynamically adapting performance metrics, managing data instances, selecting the most important features for a given data set, choosing a set of top-performant and diverse algorithms, and measuring the predictive performance. In consequence, our proposed tool helps users to decide between distinct models and to reduce the complexity of the resulting stack by removing overpromising and underperforming models. The applicability and effectiveness of StackGenVis are demonstrated with two use cases: a real-world healthcare data set and a collection of data related to sentiment/stance detection in texts. Finally, the tool has been evaluated through interviews with three ML experts. | 翻訳日:2022-12-07 00:29:02 公開日:2020-12-01 |
# IoTにおけるインテリジェントサービスのための機械学習システム: 調査 Machine Learning Systems for Intelligent Services in the IoT: A Survey ( http://arxiv.org/abs/2006.04950v3 ) ライセンス: Link先を確認 | Wiebke Toussaint and Aaron Yi Ding | (参考訳) インテリジェントなサービスをプロビジョニングするために、マシンラーニング(ML)テクノロジがIoT(Internet of Things)に登場している。
この調査は、既存のMLアルゴリズムとクラウド駆動設計を超えて、MLとIoTを統合するための探索の少ないシステム、スケーリング、社会技術的側面を調査します。
クラウド、エッジ、IoTデバイスにわたるMLのスケーリングと分散に関する最新の開発(2020年まで)をカバーしている。
システム設計の選択を分類し、照らし出す多層フレームワークによって、この調査は、機能、ステークホルダーのアライメント、信頼性の観点から、クラウド・エッジ・デバイス・コンティニュムにおけるMLシステムの開発とデプロイに関する基本的な懸念を明らかにする。 Machine learning (ML) technologies are emerging in the Internet of Things (IoT) to provision intelligent services. This survey moves beyond existing ML algorithms and cloud-driven design to investigate the less-explored systems, scaling and socio-technical aspects for consolidating ML and IoT. It covers the latest developments (up to 2020) on scaling and distributing ML across cloud, edge, and IoT devices. With a multi-layered framework to classify and illuminate system design choices, this survey exposes fundamental concerns of developing and deploying ML systems in the rising cloud-edge-device continuum in terms of functionality, stakeholder alignment and trustworthiness. | 翻訳日:2022-11-27 00:08:08 公開日:2020-12-01 |
# 住宅用電力消費データのクラスタリングによる南アフリカの世帯行動を捉えたアーチタイプの作成 Clustering Residential Electricity Consumption Data to Create Archetypes that Capture Household Behaviour in South Africa ( http://arxiv.org/abs/2006.07197v4 ) ライセンス: Link先を確認 | Wiebke Toussaint and Deshendran Moodley | (参考訳) クラスタリングは、長期的なエネルギー計画のための顧客のアーカイブタイプを構築するために使用できる家庭の電力消費パターンを特定するために、エネルギー領域で頻繁に使用される。
しかし、有用なクラスタのセットを選択するには、広範な実験とドメイン知識が必要です。
内部クラスタリング検証は電気領域でよく確立されているが、有用なクラスタを選択することは限られている。
南アフリカにおけるアプリケーションケーススタディに基づき、住宅電力消費行動の変動を捉えた顧客アーチタイプを作成するための外部評価尺度として、暗黙の専門家知識を形式化するアプローチを提案する。
内部および外部のバリデーションを構造化された方法で組み合わせることで、アプリケーションに提示するユーティリティに基づいてクラスタリング構造を評価することができた。
選択したクラスタを,これまで専門家が開発していたユーザアーカイブの再構築に成功したユースケースで検証する。
我々のアプローチは、たとえドメイン知識が限られていても、透過的で反復可能なクラスタランキングとデータサイエンティストによる選択を約束することを示している。 Clustering is frequently used in the energy domain to identify dominant electricity consumption patterns of households, which can be used to construct customer archetypes for long term energy planning. Selecting a useful set of clusters however requires extensive experimentation and domain knowledge. While internal clustering validation measures are well established in the electricity domain, they are limited for selecting useful clusters. Based on an application case study in South Africa, we present an approach for formalising implicit expert knowledge as external evaluation measures to create customer archetypes that capture variability in residential electricity consumption behaviour. By combining internal and external validation measures in a structured manner, we were able to evaluate clustering structures based on the utility they present for our application. We validate the selected clusters in a use case where we successfully reconstruct customer archetypes previously developed by experts. Our approach shows promise for transparent and repeatable cluster ranking and selection by data scientists, even if they have limited domain knowledge. | 翻訳日:2022-11-22 12:46:48 公開日:2020-12-01 |
# 過剰レレーズド辞書学習における回復と一般化 Recovery and Generalization in Over-Realized Dictionary Learning ( http://arxiv.org/abs/2006.06179v2 ) ライセンス: Link先を確認 | Jeremias Sulam, Chong You, Zhihui Zhu | (参考訳) 20年以上にわたる研究で、辞書学習の分野は、多くの成功したアプリケーションを集めており、モデル回復の理論的保証は、基礎となる辞書と同じモデルクラスで最適化が行われる場合にのみ知られている。
この研究は、より大きな超現実化モデルの空間を探索することで辞書の回復を促進できる驚くべき現象を特徴づける。
この観察は、使用する特定の辞書学習アルゴリズムとは独立している。
我々は,この現象を実例で検証し,回復措置を一般化境界に結びつけて解析する。
特に, モデル回復には, 経験的リスク, モデル依存量, 一般化ギャップなどがあり, 実験結果を反映している。
さらに, 過実現モデルから正しい原子を回収するために, 効率的かつ確実に正しい蒸留法が適用可能であることを示す。
その結果、我々のメタアルゴリズムは、基底構造モデルの回復を一貫して改善した辞書推定を提供する。 In over two decades of research, the field of dictionary learning has gathered a large collection of successful applications, and theoretical guarantees for model recovery are known only whenever optimization is carried out in the same model class as that of the underlying dictionary. This work characterizes the surprising phenomenon that dictionary recovery can be facilitated by searching over the space of larger over-realized models. This observation is general and independent of the specific dictionary learning algorithm used. We thoroughly demonstrate this observation in practice and provide an analysis of this phenomenon by tying recovery measures to generalization bounds. In particular, we show that model recovery can be upper-bounded by the empirical risk, a model-dependent quantity and the generalization gap, reflecting our empirical findings. We further show that an efficient and provably correct distillation approach can be employed to recover the correct atoms from the over-realized model. As a result, our meta-algorithm provides dictionary estimates with consistently better recovery of the ground-truth model. | 翻訳日:2022-11-22 09:44:13 公開日:2020-12-01 |
# グループ適応分類器による顔認識バイアスの軽減 Mitigating Face Recognition Bias via Group Adaptive Classifier ( http://arxiv.org/abs/2006.07576v2 ) ライセンス: Link先を確認 | Sixue Gong, Xiaoming Liu, and Anil K. Jain | (参考訳) 顔認識はバイアスを示すことで知られており、特定の集団の被験者は他のグループよりも認識しやすい。
この研究は、全てのグループの顔をより平等に表現できる公正な顔表現を学ぶことを目的としている。
提案するグループ適応分類器は,適応畳み込みカーネルと,その属性に基づく顔に対する注意機構を用いて,バイアスを軽減する。
アダプティブモジュールは、識別のために異なる顔領域を活性化するために、各人口群のカーネルマスクとチャネル毎のアテンションマップからなり、その人口に関連したより識別的な特徴をもたらす。
導入した自動適応戦略は,階層適応パラメータ間の相似性を反復的に計算することにより,ある層に適応するか否かを決定する。
人口集団間の平均クラス内距離のギャップを軽減するために,新しい脱バイアス損失関数を提案する。
フェースベンチマーク (RFW, LFW, IJB-A, IJB-C) 実験の結果, 競合精度を維持しつつ, 人口集団間での顔認識バイアスを軽減することができることがわかった。 Face recognition is known to exhibit bias - subjects in a certain demographic group can be better recognized than other groups. This work aims to learn a fair face representation, where faces of every group could be more equally represented. Our proposed group adaptive classifier mitigates bias by using adaptive convolution kernels and attention mechanisms on faces based on their demographic attributes. The adaptive module comprises kernel masks and channel-wise attention maps for each demographic group so as to activate different facial regions for identification, leading to more discriminative features pertinent to their demographics. Our introduced automated adaptation strategy determines whether to apply adaptation to a certain layer by iteratively computing the dissimilarity among demographic-adaptive parameters. A new de-biasing loss function is proposed to mitigate the gap of average intra-class distance between demographic groups. Experiments on face benchmarks (RFW, LFW, IJB-A, and IJB-C) show that our work is able to mitigate face recognition bias across demographic groups while maintaining the competitive accuracy. | 翻訳日:2022-11-21 21:09:29 公開日:2020-12-01 |
# 最適政策探索と計画による効率的なモデルベース強化学習 Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning ( http://arxiv.org/abs/2006.08684v3 ) ライセンス: Link先を確認 | Sebastian Curi, Felix Berkenkamp, Andreas Krause | (参考訳) 確率論的力学モデルを用いたモデルベース強化学習アルゴリズムが最もデータ効率のよい学習手法である。
これはしばしば、認識的不確実性と感覚的不確実性を区別する能力によって引き起こされる。
しかし、ほとんどのアルゴリズムはモデルを学ぶ上でこれらの2つの不確実性を区別するが、政策を最適化する際に無視する。
同時に、楽観的な探索アルゴリズムの実用的な解法は存在しない。
本稿では,実用的楽観探索アルゴリズム(H-UCRL)を提案する。
H-UCRLは可塑性モデルの集合を再パラメータ化し、てんかんの不確実性を直接制御する。
幻覚入力で入力空間を増大させることにより、H-UCRLを標準グリーディプランナーを用いて解くことができる。
さらに, h-ucrlを解析し, ガウス過程モデルの場合の可約部分線型である well-calibrated モデルに対して, 一般的な後悔値を構成する。
この理論の基礎に基づいて、楽観的な探索が最先端の強化学習アルゴリズムと異なる確率モデルとどのように組み合わせられるかを示す。
我々の実験は、既存のモデルに基づく強化学習アルゴリズムでは、行動に罰則がある場合、楽観的な探索が学習を著しく高速化することを示した。 Model-based reinforcement learning algorithms with probabilistic dynamical models are amongst the most data-efficient learning methods. This is often attributed to their ability to distinguish between epistemic and aleatoric uncertainty. However, while most algorithms distinguish these two uncertainties for learning the model, they ignore it when optimizing the policy, which leads to greedy and insufficient exploration. At the same time, there are no practical solvers for optimistic exploration algorithms. In this paper, we propose a practical optimistic exploration algorithm (H-UCRL). H-UCRL reparameterizes the set of plausible models and hallucinates control directly on the epistemic uncertainty. By augmenting the input space with the hallucinated inputs, H-UCRL can be solved using standard greedy planners. Furthermore, we analyze H-UCRL and construct a general regret bound for well-calibrated models, which is provably sublinear in the case of Gaussian Process models. Based on this theoretical foundation, we show how optimistic exploration can be easily combined with state-of-the-art reinforcement learning algorithms and different probabilistic models. Our experiments demonstrate that optimistic exploration significantly speeds-up learning when there are penalties on actions, a setting that is notoriously difficult for existing model-based reinforcement learning algorithms. | 翻訳日:2022-11-21 04:19:10 公開日:2020-12-01 |
# 視覚表現の半教師付き学習における事前学習の促進 Supervision Accelerates Pre-training in Contrastive Semi-Supervised Learning of Visual Representations ( http://arxiv.org/abs/2006.10803v2 ) ライセンス: Link先を確認 | Mahmoud Assran, Nicolas Ballas, Lluis Castrejon, Michael Rabbat | (参考訳) 視覚表現のコントラスト学習の効率を向上させるための戦略を,事前学習中に少量の教師付き情報を活用することにより検討する。
半教師付き損失(suncet)をノイズコントラスト推定と近隣成分分析に基づいて提案し, 自己教師付きインスタンス単位のプリテキストタスクに加えて, 異なるクラスの例を識別することを目的とした。
ImageNetでは、SNCEtは従来のコントラストアプローチの半教師付き学習精度に適合し、事前学習と計算の量の半分以下を使用することができる。
我々の主な洞察は、事前学習中に少量のラベル付きデータを利用するだけでなく、微調整中にも重要な信号を提供し、視覚表現のコントラスト学習を著しく加速できるということである。
私たちのコードはgithub.com/facebookresearch/suncetからオンラインで入手できます。 We investigate a strategy for improving the efficiency of contrastive learning of visual representations by leveraging a small amount of supervised information during pre-training. We propose a semi-supervised loss, SuNCEt, based on noise-contrastive estimation and neighbourhood component analysis, that aims to distinguish examples of different classes in addition to the self-supervised instance-wise pretext tasks. On ImageNet, we find that SuNCEt can be used to match the semi-supervised learning accuracy of previous contrastive approaches while using less than half the amount of pre-training and compute. Our main insight is that leveraging even a small amount of labeled data during pre-training, and not only during fine-tuning, provides an important signal that can significantly accelerate contrastive learning of visual representations. Our code is available online at github.com/facebookresearch/suncet. | 翻訳日:2022-11-19 10:01:17 公開日:2020-12-01 |
# 構造モデルに対する近似クロスバリデーション Approximate Cross-Validation for Structured Models ( http://arxiv.org/abs/2006.12669v2 ) ライセンス: Link先を確認 | Soumya Ghosh and William T. Stephenson and Tin D. Nguyen and Sameer K. Deshpande and Tamara Broderick | (参考訳) 現代のデータ分析の多くは、時間や空間をまたいだ測定、文中の順序付けられた単語、ゲノム中の遺伝子など、データの依存構造を明示的にモデル化することの恩恵を受ける。
金の標準評価手法は構造化クロスバリデーション(CV)であり、各折り畳みにいくつかのデータサブセット(時間間隔内のデータや地理的領域内のデータなど)を残している。
しかし、cvは、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、禁止的に遅い可能性がある。
従来の研究は、経験的リスク最小化の設定において、近似的クロスバリデーション(ACV)法が高速かつ確実な代替手段を提供することを示した。
しかし、既存のACVの作業は、仮定によってより単純なモデルに限定されている。
(i)CV折りたたみデータとは独立かつ独立である
(ii) 正確な初期モデルが利用可能である。
構造化データ分析では、どちらの仮定もしばしば真実ではない。
現在の作品では
(i) ACV から CV への拡張により, 折り畳み構造が変化した。
宛て
(II) ACVの品質が初期適合のノイズとともに滑らかに低下することを理論的および経験的に検証した。
本稿では,実世界の多様なアプリケーションに対して提案手法の精度と計算効率を実証する。 Many modern data analyses benefit from explicitly modeling dependence structure in data -- such as measurements across time or space, ordered words in a sentence, or genes in a genome. A gold standard evaluation technique is structured cross-validation (CV), which leaves out some data subset (such as data within a time interval or data in a geographic region) in each fold. But CV here can be prohibitively slow due to the need to re-run already-expensive learning algorithms many times. Previous work has shown approximate cross-validation (ACV) methods provide a fast and provably accurate alternative in the setting of empirical risk minimization. But this existing ACV work is restricted to simpler models by the assumptions that (i) data across CV folds are independent and (ii) an exact initial model fit is available. In structured data analyses, both these assumptions are often untrue. In the present work, we address (i) by extending ACV to CV schemes with dependence structure between the folds. To address (ii), we verify -- both theoretically and empirically -- that ACV quality deteriorates smoothly with noise in the initial fit. We demonstrate the accuracy and computational benefits of our proposed methods on a diverse set of real-world applications. | 翻訳日:2022-11-17 22:24:14 公開日:2020-12-01 |
# NetHack学習環境 The NetHack Learning Environment ( http://arxiv.org/abs/2006.13760v2 ) ライセンス: Link先を確認 | Heinrich K\"uttler and Nantas Nardelli and Alexander H. Miller and Roberta Raileanu and Marco Selvatici and Edward Grefenstette and Tim Rockt\"aschel | (参考訳) 強化学習(RL)アルゴリズムの進歩は、現在の手法の限界をテストする挑戦的な環境の開発と密接に関連している。
既存のRL環境は十分に複雑か高速なシミュレーションに基づいているが、どちらも稀である。
本稿では,単プレイヤー端末ベースのローグゲームであるnethackをベースとしたrl研究のための,スケーラブルで手続き的な生成,確率的,豊かで挑戦的な環境であるnethack learning environment(nle)を提案する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的研究を促進するのに十分複雑であると同時に,大量の経験を集めるために必要な計算資源を劇的に削減できると主張している。
我々は、NLEとそのタスクスイートを既存の代替品と比較し、なぜそれがRLエージェントの堅牢性と体系的な一般化をテストする理想的な媒体であるかについて論じる。
分散型深層rlベースラインとランダムネットワーク蒸留探索を用いて,ゲーム初期の経験的成功を実証し,環境下で訓練された各種エージェントの質的分析を行った。
nleはhttps://github.com/facebookresearch/nleでオープンソースである。 Progress in Reinforcement Learning (RL) algorithms goes hand-in-hand with the development of challenging environments that test the limits of current methods. While existing RL environments are either sufficiently complex or based on fast simulation, they are rarely both. Here, we present the NetHack Learning Environment (NLE), a scalable, procedurally generated, stochastic, rich, and challenging environment for RL research based on the popular single-player terminal-based roguelike game, NetHack. We argue that NetHack is sufficiently complex to drive long-term research on problems such as exploration, planning, skill acquisition, and language-conditioned RL, while dramatically reducing the computational resources required to gather a large amount of experience. We compare NLE and its task suite to existing alternatives, and discuss why it is an ideal medium for testing the robustness and systematic generalization of RL agents. We demonstrate empirical success for early stages of the game using a distributed Deep RL baseline and Random Network Distillation exploration, alongside qualitative analysis of various agents trained in the environment. NLE is open source at https://github.com/facebookresearch/nle. | 翻訳日:2022-11-17 08:59:26 公開日:2020-12-01 |
# 強化学習のためのオフライン政策評価におけるほぼ最適確率的一様収束 Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning ( http://arxiv.org/abs/2007.03760v2 ) ライセンス: Link先を確認 | Ming Yin, Yu Bai and Yu-Xiang Wang | (参考訳) 強化学習(RL)におけるオフライン政策評価(OPE)の問題点は、実生活アプリケーションにRLを適用するための重要なステップである。
既存のopeの作業は、主に固定されたターゲットポリシーを$\pi$で評価することに焦点を当てている。
ポリシクラス$\Pi$ -- OPEの統一収束 -- のすべてのポリシを同時に評価し、グローバル/ローカルなポリシークラスに対してほぼ最適なエラー境界を求めることで、この問題に対処する。
以上の結果から, モデルベースプランニングは, 時間不均一なMDPモデル(H$は計画地平線, $d_m$はロギングポリシーの探索を反映した量)で, $\widetilde{O}(H^3/d_m\epsilon^2)$の最適なエピソード複雑性を実現することが示唆された。
我々の知る限り、オフラインのRL設定において最適な速度が可能であることを示すのはこれが初めてであり、本論文はOPEにおける一様収束を体系的に研究した最初の論文である。 The problem of Offline Policy Evaluation (OPE) in Reinforcement Learning (RL) is a critical step towards applying RL in real-life applications. Existing work on OPE mostly focus on evaluating a fixed target policy $\pi$, which does not provide useful bounds for offline policy learning as $\pi$ will then be data-dependent. We address this problem by simultaneously evaluating all policies in a policy class $\Pi$ -- uniform convergence in OPE -- and obtain nearly optimal error bounds for a number of global / local policy classes. Our results imply that the model-based planning achieves an optimal episode complexity of $\widetilde{O}(H^3/d_m\epsilon^2)$ in identifying an $\epsilon$-optimal policy under the time-inhomogeneous episodic MDP model ($H$ is the planning horizon, $d_m$ is a quantity that reflects the exploration of the logging policy $\mu$). To the best of our knowledge, this is the first time the optimal rate is shown to be possible for the offline RL setting and the paper is the first that systematically investigates the uniform convergence in OPE. | 翻訳日:2022-11-12 18:20:58 公開日:2020-12-01 |
# 高次元問題に対する深層モデルに基づく強化学習 Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a Survey ( http://arxiv.org/abs/2008.05598v2 ) ライセンス: Link先を確認 | Aske Plaat, Walter Kosters, Mike Preuss | (参考訳) 深層強化学習はここ数年で顕著な成功を収めた。
複雑なシーケンシャルな意思決定問題は、ゲームプレイやロボティクスといったタスクで解決されている。
残念ながら、ほとんどの深層強化学習手法のサンプル複雑性は高く、重要なアプリケーションでの使用を妨げている。
モデルベースの強化学習は、環境サンプルの必要性を減らすために環境ダイナミクスの明示的なモデルを作成する。
現在のディープラーニング手法は高次元問題を解決するために高容量ネットワークを使用している。
残念なことに、高容量モデルは一般的に多くのサンプルを必要とするため、モデルベースメソッドのサンプル複雑さの潜在的な利点を否定する。
したがって、深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
近年,この課題に対処するモデルベース手法が数多く導入されている。
本稿では,現代モデルに基づく景観を概観する。
まず、他の分野の定義と関係について論じる。
我々は,与えられた遷移の明示的な計画,学習された遷移の明示的な計画,および計画と遷移の両方のエンドツーエンド学習という3つのアプローチに基づく分類法を提案する。
我々はこれらのアプローチを用いて、潜在モデルのような最近の重要な開発の概要を包括的に整理する。
提案手法とベンチマークについて述べるとともに,それぞれのアプローチに対する今後の取り組みの方向性を提案する。
有望な研究方向としては、カリキュラム学習、不確実性モデリング、移行学習における潜在モデルの利用などがある。 Deep reinforcement learning has shown remarkable success in the past few years. Highly complex sequential decision making problems have been solved in tasks such as game playing and robotics. Unfortunately, the sample complexity of most deep reinforcement learning methods is high, precluding their use in some important applications. Model-based reinforcement learning creates an explicit model of the environment dynamics to reduce the need for environment samples. Current deep learning methods use high-capacity networks to solve high-dimensional problems. Unfortunately, high-capacity models typically require many samples, negating the potential benefit of lower sample complexity in model-based methods. A challenge for deep model-based methods is therefore to achieve high predictive power while maintaining low sample complexity. In recent years, many model-based methods have been introduced to address this challenge. In this paper, we survey the contemporary model-based landscape. First we discuss definitions and relations to other fields. We propose a taxonomy based on three approaches: using explicit planning on given transitions, using explicit planning on learned transitions, and end-to-end learning of both planning and transitions. We use these approaches to organize a comprehensive overview of important recent developments such as latent models. We describe methods and benchmarks, and we suggest directions for future work for each of the approaches. Among promising research directions are curriculum learning, uncertainty modeling, and use of latent models for transfer learning. | 翻訳日:2022-10-31 10:47:57 公開日:2020-12-01 |
# 非パラメトリック混合周波数VARを用いたパンデミックの流し込み Nowcasting in a Pandemic using Non-Parametric Mixed Frequency VARs ( http://arxiv.org/abs/2008.12706v3 ) ライセンス: Link先を確認 | Florian Huber, Gary Koop, Luca Onorante, Michael Pfarrhofer, Josef Schreiner | (参考訳) 本稿では,付加回帰木を用いた非パラメトリック混合周波数VARにおける後方推定のためのベイズ計量法を開発した。
我々は、レグレッションツリーモデルは、例えば2020年のCOVID-19パンデミックによって生み出されたような極端な観察に直面したマクロ経済的な流れに最適であると主張している。
これは、柔軟性と異常値のモデル化能力のためである。
主要ユーロ圏4カ国を対象とするアプリケーションでは,線形混合周波数VARと比較して,放送性能が大幅に向上した。 This paper develops Bayesian econometric methods for posterior inference in non-parametric mixed frequency VARs using additive regression trees. We argue that regression tree models are ideally suited for macroeconomic nowcasting in the face of extreme observations, for instance those produced by the COVID-19 pandemic of 2020. This is due to their flexibility and ability to model outliers. In an application involving four major euro area countries, we find substantial improvements in nowcasting performance relative to a linear mixed frequency VAR. | 翻訳日:2022-10-24 02:31:39 公開日:2020-12-01 |
# 機械推論説明可能性 Machine Reasoning Explainability ( http://arxiv.org/abs/2009.00418v2 ) ライセンス: Link先を確認 | Kristijonas Cyras, Ramamurthy Badrinath, Swarup Kumar Mohalik, Anusha Mujumdar, Alexandros Nikou, Alessandro Previti, Vaishnavi Sundararajan, Aneta Vulgarakis Feljan | (参考訳) aiの分野として、機械推論(mr)は抽象推論を形式化しエミュレートするために主に象徴的な手段を用いる。
初期のMRの研究は、明らかに説明可能なAI(XAI)に関する調査を開始した。
説明可能なMRと、それ以来AIの他の領域における説明可能性へのMRアプローチに取り組んできた。
これは、議論、制約、論理プログラミング、計画といった現代のmr分岐において特に強力である。
本稿では,この長期研究から得られた知見が,現在のXAIの景観をよく補完することを期待して,MR説明可能性技術と研究の選択的概要を提供する。
本報告ではMR説明可能性について概説する。 As a field of AI, Machine Reasoning (MR) uses largely symbolic means to formalize and emulate abstract reasoning. Studies in early MR have notably started inquiries into Explainable AI (XAI) -- arguably one of the biggest concerns today for the AI community. Work on explainable MR as well as on MR approaches to explainability in other areas of AI has continued ever since. It is especially potent in modern MR branches, such as argumentation, constraint and logic programming, planning. We hereby aim to provide a selective overview of MR explainability techniques and studies in hopes that insights from this long track of research will complement well the current XAI landscape. This document reports our work in-progress on MR explainability. | 翻訳日:2022-10-23 01:47:35 公開日:2020-12-01 |
# 階層型グラフニューラルネットワークを用いたレコメンダシステムのコールドスタート対応 Addressing Cold Start in Recommender Systems with Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2009.03455v2 ) ライセンス: Link先を確認 | Ivan Maksimov, Rodrigo Rivera-Castro and Evgeny Burnaev | (参考訳) レコメンダシステムは,ユーザエクスペリエンスをパーソナライズする上で,幅広い産業において不可欠な手段となっている。
研究者と業界の専門家の両方の注意を引いた重要な問題は、新しいアイテムのコールドスタート問題である。
本稿では,アイテム階層グラフを用いたグラフニューラルネットワーク推薦システムと,アイテムのコールドスタートケースを処理するための独自アーキテクチャを提案する。
複数のデータセットと数百万のユーザとインタラクションに関する実験的研究は、我々の手法が同等の計算時間で最先端の予測品質を達成することを示す。 Recommender systems have become an essential instrument in a wide range of industries to personalize the user experience. A significant issue that has captured both researchers' and industry experts' attention is the cold start problem for new items. In this work, we present a graph neural network recommender system using item hierarchy graphs and a bespoke architecture to handle the cold start case for items. The experimental study on multiple datasets and millions of users and interactions indicates that our method achieves better forecasting quality than the state-of-the-art with a comparable computational time. | 翻訳日:2022-10-21 02:30:43 公開日:2020-12-01 |
# CT画像からのCOVID-19検出のための複数の知識源を用いた注意機構 An Attention Mechanism with Multiple Knowledge Sources for COVID-19 Detection from CT Images ( http://arxiv.org/abs/2009.11008v4 ) ライセンス: Link先を確認 | Duy M. H. Nguyen, Duy M. Nguyen, Huong Vu, Binh T. Nguyen, Fabrizio Nunnari, Daniel Sonntag | (参考訳) これまで、コロナウイルスSARS-CoV-2は85万人以上の死者を出し、120カ国以上で2700万人以上が感染した。
PCR(プライマリ・ポリメラーゼ連鎖反応)検査の他に、CT(Computed tomography)スキャンに基づく陽性サンプルの自動同定は、COVID-19の早期診断において有望な選択肢となる可能性がある。
近年,CTスキャンに基づく深層ネットワークによる新型コロナウイルスの診断への取り組みが活発化している。
これらのアプローチは主に、新しいアーキテクチャの導入、移行学習技術、大規模データの構築に重点を置いているが、医師の判断に関連する複数の有用な情報ソースを活用することにより、複数のベースラインの性能を向上させるための新しい戦略を提案する。
具体的には、学習中の注意機構を介して、学習ネットワークから抽出した感染地域と熱マップをグローバル画像に統合する。
この手法は, 騒音に対する耐性を高めるだけでなく, 局所的な病変領域に着目したネットワークを誘導する。
大規模な実験は、最近のベースラインと比較して、我々のアプローチの優れた性能を示している。
さらに,grey-boxモデルにおいて,入力と出力の関連性を理解できるように,学習したネットワークガイダンスを医師に提示する。 Until now, Coronavirus SARS-CoV-2 has caused more than 850,000 deaths and infected more than 27 million individuals in over 120 countries. Besides principal polymerase chain reaction (PCR) tests, automatically identifying positive samples based on computed tomography (CT) scans can present a promising option in the early diagnosis of COVID-19. Recently, there have been increasing efforts to utilize deep networks for COVID-19 diagnosis based on CT scans. While these approaches mostly focus on introducing novel architectures, transfer learning techniques, or construction large scale data, we propose a novel strategy to improve the performance of several baselines by leveraging multiple useful information sources relevant to doctors' judgments. Specifically, infected regions and heat maps extracted from learned networks are integrated with the global image via an attention mechanism during the learning process. This procedure not only makes our system more robust to noise but also guides the network focusing on local lesion areas. Extensive experiments illustrate the superior performance of our approach compared to recent baselines. Furthermore, our learned network guidance presents an explainable feature to doctors as we can understand the connection between input and output in a grey-box model. | 翻訳日:2022-10-15 17:05:20 公開日:2020-12-01 |
# 非教師型埋め込みによる現代美術のデモグラフィー的影響 Demographic Influences on Contemporary Art with Unsupervised Style Embeddings ( http://arxiv.org/abs/2009.14545v2 ) ライセンス: Link先を確認 | Nikolai Huckle and Noa Garcia and Yuta Nakashima | (参考訳) 計算アート分析は、分類タスクに依存して、必要なアノテーションで既に十分に分類されている歴史的なデータセットを優先している。
一方、現在制作されているアートは、プロやアマチュアのアーティストが作品を展示するために使っているインターネットやソーシャルネットワークを通じて、多様かつ容易にアクセスすることができる。
このアートはスタイルやジャンルの点で分類されていないが、教師付き分析には適していないが、データソースには、視覚的なコンテンツを等しく新しい方法でフレーム化するのに役立つ新しい情報が含まれている。
この方向の第一歩として,現代美術作品のマルチモーダルデータセットであるcontempartを提案する。
contempartは、絵画と絵のコレクションであり、instagram上のソーシャルなつながりと、追加の社会デミック情報に基づく詳細なグラフネットワークである。
画像の教師なし埋め込み生成に適した3つの手法を評価し,残りのデータと関連付ける。
一方の視覚的スタイルと、他方の社会的近接性、性別、国籍との間には関連性がない。 Computational art analysis has, through its reliance on classification tasks, prioritised historical datasets in which the artworks are already well sorted with the necessary annotations. Art produced today, on the other hand, is numerous and easily accessible, through the internet and social networks that are used by professional and amateur artists alike to display their work. Although this art, yet unsorted in terms of style and genre, is less suited for supervised analysis, the data sources come with novel information that may help frame the visual content in equally novel ways. As a first step in this direction, we present contempArt, a multi-modal dataset of exclusively contemporary artworks. contempArt is a collection of paintings and drawings, a detailed graph network based on social connections on Instagram and additional socio-demographic information; all attached to 442 artists at the beginning of their career. We evaluate three methods suited for generating unsupervised style embeddings of images and correlate them with the remaining data. We find no connections between visual style on the one hand and social proximity, gender, and nationality on the other. | 翻訳日:2022-10-13 00:23:19 公開日:2020-12-01 |
# コンテキストや名前から学ぶか?
神経関係抽出に関する経験的研究 Learning from Context or Names? An Empirical Study on Neural Relation Extraction ( http://arxiv.org/abs/2010.01923v2 ) ライセンス: Link先を確認 | Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun, Jie Zhou | (参考訳) ニューラルモデルは関係抽出(RE)ベンチマークで顕著な成功を収めた。
しかし、決定を下すために既存のREモデルにどのような情報が影響を及ぼすのか、そしてこれらのモデルの性能をさらに改善する方法については、明確な理解がない。
この目的のために、テキスト中の2つの主要な情報ソース(テキストコンテキストとエンティティ参照(名前))の効果を実証的に研究する。
私たちはそれを見つけ
i) コンテキストが予測をサポートする主要なソースである一方で、REモデルはエンティティ参照の情報にも大きく依存しており、そのほとんどが型情報である。
(ii)既存のデータセットはエンティティ参照を通じて浅いヒューリスティックスをリークし、REベンチマークのパフォーマンス向上に寄与する可能性がある。
そこで本研究では,エンティティの暗記化や表層的手がかりの使用を回避しつつ,テキスト的文脈と型情報の両方についてより深く理解するための,エンティティマストによるコントラスト事前学習フレームワークを提案する。
我々は、視点をサポートするために広範な実験を行い、様々なreシナリオにおける神経モデルの有効性と堅牢性を改善することができることを示す。
すべてのコードとデータセットはhttps://github.com/thunlp/RE-Context-or-Namesでリリースされる。 Neural models have achieved remarkable success on relation extraction (RE) benchmarks. However, there is no clear understanding which type of information affects existing RE models to make decisions and how to further improve the performance of these models. To this end, we empirically study the effect of two main information sources in text: textual context and entity mentions (names). We find that (i) while context is the main source to support the predictions, RE models also heavily rely on the information from entity mentions, most of which is type information, and (ii) existing datasets may leak shallow heuristics via entity mentions and thus contribute to the high performance on RE benchmarks. Based on the analyses, we propose an entity-masked contrastive pre-training framework for RE to gain a deeper understanding on both textual context and type information while avoiding rote memorization of entities or use of superficial cues in mentions. We carry out extensive experiments to support our views, and show that our framework can improve the effectiveness and robustness of neural models in different RE scenarios. All the code and datasets are released at https://github.com/thunlp/RE-Context-or-Names. | 翻訳日:2022-10-10 21:32:46 公開日:2020-12-01 |
# DART:軽量品質提案型データ-テキストアノテーションツール DART: A Lightweight Quality-Suggestive Data-to-Text Annotation Tool ( http://arxiv.org/abs/2010.04141v2 ) ライセンス: Link先を確認 | Ernie Chang, Jeriah Caplinger, Alex Marin, Xiaoyu Shen, Vera Demberg | (参考訳) 本稿では,構造化データのテキスト記述によるラベル付けを行うための軽量アノテーションツールであるData AnnotatoR Tool(DART)を提案する。
このツールは対話型アプリケーションとして実装されており、テーブルやツリー構造のフォーマットなど、大量の構造化データの注釈付けに対する人間の努力を減らすことができる。
バックエンドのシーケンシャル・ツー・シーケンス・モデルを用いて,ラベル付きラベルを反復的に解析し,ラベルなしデータをよりよくサンプリングする。
大量の構造化データを注釈付けするシミュレーション実験において、DARTはアクティブラーニングに必要なアノテーションの総数を減らし、関連するラベルを自動的に提案することを示した。 We present a lightweight annotation tool, the Data AnnotatoR Tool (DART), for the general task of labeling structured data with textual descriptions. The tool is implemented as an interactive application that reduces human efforts in annotating large quantities of structured data, e.g. in the format of a table or tree structure. By using a backend sequence-to-sequence model, our system iteratively analyzes the annotated labels in order to better sample unlabeled data. In a simulation experiment performed on annotating large quantities of structured data, DART has been shown to reduce the total number of annotations needed with active learning and automatically suggesting relevant labels. | 翻訳日:2022-10-09 12:16:16 公開日:2020-12-01 |
# ランク1摂動による可逆線形層の訓練 Training Invertible Linear Layers through Rank-One Perturbations ( http://arxiv.org/abs/2010.07033v2 ) ライセンス: Link先を確認 | Andreas Kr\"amer, Jonas K\"ohler and Frank No\'e | (参考訳) 多くのタイプのニューラルネットワーク層は、可逆性や直交性のような行列特性に依存している。
勾配に基づく確率最適化器による最適化中にそのような特性を保持することは、通常、影響を受けるパラメータの再パラメータ化または多様体に直接最適化することで対処される、難しい課題である。
本稿では,可逆線形層を訓練するための新しい手法を提案する。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このP$^{4}$Invアップデートは、明示的に計算することなく逆数や行列式の追跡を可能にする。
このような非可逆ブロックが混合を改善することを示し、その結果の正規化フローのモード分離を示す。
さらに, p$^4$の概念を可逆性以外の性質の保持に活用する方法について概説する。 Many types of neural network layers rely on matrix properties such as invertibility or orthogonality. Retaining such properties during optimization with gradient-based stochastic optimizers is a challenging task, which is usually addressed by either reparameterization of the affected parameters or by directly optimizing on the manifold. This work presents a novel approach for training invertible linear layers. In lieu of directly optimizing the network parameters, we train rank-one perturbations and add them to the actual weight matrices infrequently. This P$^{4}$Inv update allows keeping track of inverses and determinants without ever explicitly computing them. We show how such invertible blocks improve the mixing and thus the mode separation of the resulting normalizing flows. Furthermore, we outline how the P$^4$ concept can be utilized to retain properties other than invertibility. | 翻訳日:2022-10-07 13:20:43 公開日:2020-12-01 |
# エンティティ解決とコンテキスト埋め込みを用いたメタデータの自動調和 Automated Metadata Harmonization Using Entity Resolution & Contextual Embedding ( http://arxiv.org/abs/2010.11827v2 ) ライセンス: Link先を確認 | Kunal Sawarkar, Meenkakshi Kodati | (参考訳) mlデータキュレーションプロセスは通常、さまざまなスキーマ構造を持つヘテロジニアスおよびフェデレーションされたソースシステムで構成され、異なるスキーマからのメタデータを相互運用可能なスキーマに標準化するためのキュレーションプロセスを必要とする。
このMetadata Harmonization & catalogingのマニュアルプロセスは、ML-Opsライフサイクルの効率を遅くする。
メタデータの類似性を検知し、ソーススキーマから任意の標準スキーマへのメタデータ列の予測を行う、隠れたカラム間およびカラム内関係をキャプチャするために、entity resolutionメソッドとcogntive databaseのdb2vec埋め込みアプローチの助けを借りて、このステップの自動化を実証する。
一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。 ML Data Curation process typically consist of heterogeneous & federated source systems with varied schema structures; requiring curation process to standardize metadata from different schemas to an inter-operable schema. This manual process of Metadata Harmonization & cataloging slows efficiency of ML-Ops lifecycle. We demonstrate automation of this step with the help of entity resolution methods & also by using Cogntive Database's Db2Vec embedding approach to capture hidden inter-column & intra-column relationships which detect similarity of metadata and then predict metadata columns from source schemas to any standardized schemas. Apart from matching schemas, we demonstrate that it can also infer the correct ontological structure of the target data model. | 翻訳日:2022-10-06 12:23:56 公開日:2020-12-01 |
# ソートイングvqaモデル : 一貫性向上のためのコントラスト勾配学習 SOrT-ing VQA Models : Contrastive Gradient Learning for Improved Consistency ( http://arxiv.org/abs/2010.10038v2 ) ライセンス: Link先を確認 | Sameer Dharur, Purva Tendulkar, Dhruv Batra, Devi Parikh, Ramprasaath R. Selvaraju | (参考訳) VQA(Visual Question Answering)の最近の研究は、最先端のモデルが世界の理解に矛盾していることを明らかにしている。
これらのサブクエストは、モデルが理想的には高次問題に正しく答えられるように理解すべき画像の低次視覚概念に関係している。
そこで我々はまず,画像上の推論問題と最も強く相関する質問を解き明かすために,勾配に基づく解答可能性アプローチを提案し,これを用いてVQAモデルの評価を行い,推論問題に答えるために必要なサブクェリを識別する能力について検討する。
次に,<image, reasoning-question>ペアに対する無関係な質問よりも,関係するサブクエストのランク付けを奨励する,サブクエスト指向チューニング(SOrT)という,対照的な勾配学習に基づくアプローチを提案する。
既存のベースラインよりも最大6.5%のポイントでモデルの一貫性が向上すると同時に、視覚的な接地性も向上している。 Recent research in Visual Question Answering (VQA) has revealed state-of-the-art models to be inconsistent in their understanding of the world -- they answer seemingly difficult questions requiring reasoning correctly but get simpler associated sub-questions wrong. These sub-questions pertain to lower level visual concepts in the image that models ideally should understand to be able to answer the higher level question correctly. To address this, we first present a gradient-based interpretability approach to determine the questions most strongly correlated with the reasoning question on an image, and use this to evaluate VQA models on their ability to identify the relevant sub-questions needed to answer a reasoning question. Next, we propose a contrastive gradient learning based approach called Sub-question Oriented Tuning (SOrT) which encourages models to rank relevant sub-questions higher than irrelevant questions for an <image, reasoning-question> pair. We show that SOrT improves model consistency by upto 6.5% points over existing baselines, while also improving visual grounding. | 翻訳日:2022-10-05 05:37:08 公開日:2020-12-01 |
# ディープネットワークにおけるスムースアクティベーションと再現性 Smooth activations and reproducibility in deep networks ( http://arxiv.org/abs/2010.09931v2 ) ライセンス: Link先を確認 | Gil I. Shamir, Dong Lin, and Lorenzo Coviello | (参考訳) ディープネットワークは、私たちの生活のほとんどすべての領域に徐々に浸透している。
しかし、実質的な性能精度の改善により、emph{irreproducibility} の価格が上がる。
全く同じトレーニングデータセットでトレーニングされた2つの同一モデルでは、平均精度が同じであっても、特に高分散並列システムでトレーニングされた場合、個々の例の予測に大きな差がある可能性がある。
Rectified Linear Unit (ReLU) のアクティベーションは、近年のディープネットワークの成功の鍵となっている。
しかし、我々はReLUが深層ネットワークにおける不再現性の触媒でもあることを示した。
reluよりもスムースにアクティベーションを実現できるだけでなく、精度と再現性のトレードオフも改善できることを示した。
そこで我々は,Smooth ReLU (\emph{SmeLU}) という,より優れたトレードオフを提供するとともに,数学的表現をシンプルに保ち,実装を安価にすることを目的とした,新たなアクティベーションファミリーを提案する。
SmeLUはモノトニックであり、ReLUを模倣し、連続的な勾配を提供し、再現性を向上させる。
我々はSmeLUをさらに柔軟にするために一般化し、SmeLUとその一般化形式が、より一般的なrectified Smooth Continuous Unit(RESCU)アクティベーションの方法論の特別なケースであることを実証する。
実験結果から,スムーズな活性化を伴う高い精度再現性トレードオフ,特にSmeLUが示された。 Deep networks are gradually penetrating almost every domain in our lives due to their amazing success. However, with substantive performance accuracy improvements comes the price of \emph{irreproducibility}. Two identical models, trained on the exact same training dataset may exhibit large differences in predictions on individual examples even when average accuracy is similar, especially when trained on highly distributed parallel systems. The popular Rectified Linear Unit (ReLU) activation has been key to recent success of deep networks. We demonstrate, however, that ReLU is also a catalyzer to irreproducibility in deep networks. We show that not only can activations smoother than ReLU provide better accuracy, but they can also provide better accuracy-reproducibility tradeoffs. We propose a new family of activations; Smooth ReLU (\emph{SmeLU}), designed to give such better tradeoffs, while also keeping the mathematical expression simple, and thus implementation cheap. SmeLU is monotonic, mimics ReLU, while providing continuous gradients, yielding better reproducibility. We generalize SmeLU to give even more flexibility and then demonstrate that SmeLU and its generalized form are special cases of a more general methodology of REctified Smooth Continuous Unit (RESCU) activations. Empirical results demonstrate the superior accuracy-reproducibility tradeoffs with smooth activations, SmeLU in particular. | 翻訳日:2022-10-05 05:36:38 公開日:2020-12-01 |
# ニューラルネットワークにおける学習不変性 Learning Invariances in Neural Networks ( http://arxiv.org/abs/2010.11882v2 ) ライセンス: Link先を確認 | Gregory Benton, Marc Finzi, Pavel Izmailov, Andrew Gordon Wilson | (参考訳) 翻訳に対する不変性は、強力な一般化特性を持つ畳み込みニューラルネットワークを組み込んでいる。
しかし、データにどのような不変性が存在するのか、あるいはモデルが与えられた対称性群にどの程度不変であるべきかは、よくわからない。
本稿では,ネットワークパラメータと拡張パラメータに対する分布のパラメータ化とトレーニング損失の最適化により,emph{learn}不変性と等分散の方法を示す。
この簡単な手順により、トレーニングデータだけで、画像分類、回帰、セグメント化、および分子特性予測の正確なセットと範囲を、拡張の広い空間から復元することができる。 Invariances to translations have imbued convolutional neural networks with powerful generalization properties. However, we often do not know a priori what invariances are present in the data, or to what extent a model should be invariant to a given symmetry group. We show how to \emph{learn} invariances and equivariances by parameterizing a distribution over augmentations and optimizing the training loss simultaneously with respect to the network parameters and augmentation parameters. With this simple procedure we can recover the correct set and extent of invariances on image classification, regression, segmentation, and molecular property prediction from a large space of augmentations, on training data alone. | 翻訳日:2022-10-04 05:38:55 公開日:2020-12-01 |
# アブダクションとしての学習:自然言語推論のための訓練可能な自然論理理論 Learning as Abduction: Trainable Natural Logic Theorem Prover for Natural Language Inference ( http://arxiv.org/abs/2010.15909v2 ) ライセンス: Link先を確認 | Lasha Abzianidze | (参考訳) 論理ベースのメソッドで自然言語推論に取り組むことはますます一般的になりつつある。
これは数十年前は直感に反するものだったかもしれないが、今日ではかなり明白に思える。
このような考え方の主な理由は
(a)論理ベースの方法は、広義のテキストを処理する場合、通常は不安定である。
b) データから自動的に学習する代わりに、開発には多くの手作業が必要です。
我々は、推論問題のゴールドラベルの最良の説明として機能する意味関係を導出するために、定理を提示する手続きを逆転させることによって、データからの学習を誘拐としてモデル化することで、そのような欠点を克服する一歩を踏み出した。
言い換えると、語彙関係の助けを借りて文レベルの推論関係を証明する代わりに、語彙関係が文レベルの推論関係を考慮に入れることが証明される。
本研究では,自然言語のテーブルー定理証明器に学習法を実装し,SICKデータセット上での定理証明器の性能を1.4%向上し,高い精度 (>94%) を維持した。
得られた結果は、論理ベースのシステム間の技術状況と競合する。 Tackling Natural Language Inference with a logic-based method is becoming less and less common. While this might have been counterintuitive several decades ago, nowadays it seems pretty obvious. The main reasons for such a conception are that (a) logic-based methods are usually brittle when it comes to processing wide-coverage texts, and (b) instead of automatically learning from data, they require much of manual effort for development. We make a step towards to overcome such shortcomings by modeling learning from data as abduction: reversing a theorem-proving procedure to abduce semantic relations that serve as the best explanation for the gold label of an inference problem. In other words, instead of proving sentence-level inference relations with the help of lexical relations, the lexical relations are proved taking into account the sentence-level inference relations. We implement the learning method in a tableau theorem prover for natural language and show that it improves the performance of the theorem prover on the SICK dataset by 1.4% while still maintaining high precision (>94%). The obtained results are competitive with the state of the art among logic-based systems. | 翻訳日:2022-10-01 23:03:57 公開日:2020-12-01 |
# ハードウェアバイアス低減のための埋め込み関連量子アニーリングパラメータの最適化 Optimizing embedding-related quantum annealing parameters for reducing hardware bias ( http://arxiv.org/abs/2011.00719v2 ) ライセンス: Link先を確認 | Aaron Barbosa, Elijah Pelofske, Georg Hahn, Hristo N. Djidjev | (参考訳) 量子アニールはNP-ハード最適化問題に対する準最適解を提案するように設計されている。
しかし、D-Wave Systems, Inc.のような現在のアニーラーの精度は、環境ノイズやハードウェアバイアスによって制限されている。
これらの不完全性に対処し、焼鈍結果の品質を改善する一つの方法は、スピン反転(SR)、アニールオフセット(AO)、鎖重み(CW)といった様々な前処理技術を適用することである。
これらのテクニックの有効性を最大化するには、多数のパラメータに対して最適化を実行する必要がある。
本研究は,各インスタンスが予め選択した固定埋め込みを使用する場合,上記のパラメータ最適化が問題全体のクラスに対して可能であることを示す。
Specifically, in the training phase, we fix an embedding E of a complete graph onto the hardware of the annealer, and then run an optimization algorithm to tune the following set of parameter values: the set of bits to be flipped for SR, the specific qubit offsets for AO, and the distribution of chain weights, optimized over a set of training graphs randomly chosen from that class, where the graphs are embedded onto the hardware using E. In the testing phase, we estimate how well the parameters computed during the training phase work on a random selection of other graphs from that class.
本稿では,最大傾き,最大カット,グラフ分割問題に対する様々な密度のグラフインスタンスについて検討する。
以上の結果から, SR, AO, CWの最適化パラメータを用いることで, 既定の挙動に比べ, 焼鈍結果の大幅な改善が達成できることが示唆された。 Quantum annealers have been designed to propose near-optimal solutions to NP-hard optimization problems. However, the accuracy of current annealers such as the ones of D-Wave Systems, Inc., is limited by environmental noise and hardware biases. One way to deal with these imperfections and to improve the quality of the annealing results is to apply a variety of pre-processing techniques such as spin reversal (SR), anneal offsets (AO), or chain weights (CW). Maximizing the effectiveness of these techniques involves performing optimizations over a large number of parameters, which would be too costly if needed to be done for each new problem instance. In this work, we show that the aforementioned parameter optimization can be done for an entire class of problems, given each instance uses a previously chosen fixed embedding. Specifically, in the training phase, we fix an embedding E of a complete graph onto the hardware of the annealer, and then run an optimization algorithm to tune the following set of parameter values: the set of bits to be flipped for SR, the specific qubit offsets for AO, and the distribution of chain weights, optimized over a set of training graphs randomly chosen from that class, where the graphs are embedded onto the hardware using E. In the testing phase, we estimate how well the parameters computed during the training phase work on a random selection of other graphs from that class. We investigate graph instances of varying densities for the Maximum Clique, Maximum Cut, and Graph Partitioning problems. Our results indicate that, compared to their default behavior, substantial improvements of the annealing results can be achieved by using the optimized parameters for SR, AO, and CW. | 翻訳日:2022-09-30 13:18:52 公開日:2020-12-01 |
# ニューラルネットワークの学習能力を推定する幾何学的視点 Geometry Perspective Of Estimating Learning Capability Of Neural Networks ( http://arxiv.org/abs/2011.04588v2 ) ライセンス: Link先を確認 | Ankan Dutta and Arnab Rakshit | (参考訳) 本論文は、統計的および微分幾何学的モチベーションを用いて、与えられたデータセット上の人工ニューラルネットワークの学習能力に関する事前情報を取得する。
本稿では,確率勾配勾配(SGD)を用いた最小二乗回帰を一般化したニューラルネットワークの幅広いクラスについて考察する。
学習軌跡における2つの臨界エポックにおけるシステム特性を解析した。
トレーニングフェーズのいくつかのエポックの間、システムは最大となる一般化能力と平衡に達する。
この系は、ヘッセン行列の安定化を特徴とする局所的非平衡状態ともコヒーレントにすることができる。
一般化能力の高いニューラルネットワークが収束速度を遅くすることを示す。
一般化能力とニューラルネットワークの安定性との関係についても考察した。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。 The paper uses statistical and differential geometric motivation to acquire prior information about the learning capability of an artificial neural network on a given dataset. The paper considers a broad class of neural networks with generalized architecture performing simple least square regression with stochastic gradient descent (SGD). The system characteristics at two critical epochs in the learning trajectory are analyzed. During some epochs of the training phase, the system reaches equilibrium with the generalization capability attaining a maximum. The system can also be coherent with localized, non-equilibrium states, which is characterized by the stabilization of the Hessian matrix. The paper proves that neural networks with higher generalization capability will have a slower convergence rate. The relationship between the generalization capability with the stability of the neural network has also been discussed. By correlating the principles of high-energy physics with the learning theory of neural networks, the paper establishes a variant of the Complexity-Action conjecture from an artificial neural network perspective. | 翻訳日:2022-09-30 04:34:58 公開日:2020-12-01 |
# 観測不能な代替物の生成 Generating Unobserved Alternatives ( http://arxiv.org/abs/2011.01926v4 ) ライセンス: Link先を確認 | Shichong Peng and Ke Li | (参考訳) 複数の予測が正しいと判断できる問題を考えるが、その1つだけが監督対象として与えられる。
この設定は回帰モデルとクラス条件生成モデルの両方と異なり、前者は各入力に対してユニークな観測出力が提供され、後者は各入力に対して多くの観測出力が提供され、多くは監督として提供される。
回帰法と条件生成モデルのいずれかを現在の設定に適用すると、入力毎に単一の予測しかできないモデルになることが多い。
この特性を持ついくつかの問題を探索し、同じ入力に対して複数の高品質な予測を生成できるアプローチを開発する。
結果として、観測された出力と異なる高品質な出力を生成するために使用できる。 We consider problems where multiple predictions can be considered correct, but only one of them is given as supervision. This setting differs from both the regression and class-conditional generative modelling settings: in the former, there is a unique observed output for each input, which is provided as supervision; in the latter, there are many observed outputs for each input, and many are provided as supervision. Applying either regression methods and conditional generative models to the present setting often results in a model that can only make a single prediction for each input. We explore several problems that have this property and develop an approach that can generate multiple high-quality predictions given the same input. As a result, it can be used to generate high-quality outputs that are different from the observed output. | 翻訳日:2022-09-30 03:42:45 公開日:2020-12-01 |
# 電子構造のマルチタスク学習による分子ポテンシャルエネルギー表面の予測と探索 Multi-task learning for electronic structure to predict and explore molecular potential energy surfaces ( http://arxiv.org/abs/2011.02680v4 ) ライセンス: Link先を確認 | Zhuoran Qiao, Feizhi Ding, Matthew Welborn, Peter J. Bygrave, Daniel G. A. Smith, Animashree Anandkumar, Frederick R. Manby and Thomas F. Miller III | (参考訳) 我々は、対称適応原子軌道ベースにおける低コスト近似量子演算子の特徴に基づくグラフニューラルネットワークアーキテクチャを用いて、分子のエネルギー、力、その他の応答特性を正確に予測するためにOrbNetモデルを洗練する。
このモデルは、すべての電子構造項の解析勾配の導出によりエンドツーエンドで微分可能であり、ドメイン特有の特徴の使用により化学空間をまたいで移動可能であることが示されている。
マルチタスク学習により、電子構造に物理的モチベーション制約を組み込むことにより、学習効率を向上させる。
このモデルは、QM9データセットのエネルギー予測タスクやコンホメータデータセットの分子幾何学最適化の既存の手法よりも、同様の精度を持つ従来の量子化学計算(密度汎関数理論など)と比較して1000倍以上の計算コストで優れている。 We refine the OrbNet model to accurately predict energy, forces, and other response properties for molecules using a graph neural-network architecture based on features from low-cost approximated quantum operators in the symmetry-adapted atomic orbital basis. The model is end-to-end differentiable due to the derivation of analytic gradients for all electronic structure terms, and is shown to be transferable across chemical space due to the use of domain-specific features. The learning efficiency is improved by incorporating physically motivated constraints on the electronic structure through multi-task learning. The model outperforms existing methods on energy prediction tasks for the QM9 dataset and for molecular geometry optimizations on conformer datasets, at a computational cost that is thousand-fold or more reduced compared to conventional quantum-chemistry calculations (such as density functional theory) that offer similar accuracy. | 翻訳日:2022-09-29 12:51:01 公開日:2020-12-01 |
# AC-OPFソリューション推論のためのディープラーニングアーキテクチャ Deep learning architectures for inference of AC-OPF solutions ( http://arxiv.org/abs/2011.03352v2 ) ライセンス: Link先を確認 | Thomas Falconer and Letif Mones | (参考訳) 本稿では、AC-OPFソリューションの推論のためのニューラルネットワーク(NN)アーキテクチャの体系的比較を示す。
完全連結nnsをベースラインとして、畳み込みnnとグラフnnの両方に対して、グラフ領域における電気グリッドの抽象表現を構築することにより、モデル内のネットワークトポロジーを活用する効果を実証する。
NNアーキテクチャの性能は、回帰(最適なジェネレータセットポイントの予測)と分類(アクティブな制約セットの予測)で比較される。
最適解を得るための計算ゲインも提示する。 We present a systematic comparison between neural network (NN) architectures for inference of AC-OPF solutions. Using fully connected NNs as a baseline we demonstrate the efficacy of leveraging network topology in the models by constructing abstract representations of electrical grids in the graph domain, for both convolutional and graph NNs. The performance of the NN architectures is compared for regression (predicting optimal generator set-points) and classification (predicting the active set of constraints) settings. Computational gains for obtaining optimal solutions are also presented. | 翻訳日:2022-09-29 05:51:13 公開日:2020-12-01 |
# 不均衡データセット上でのYOLOv3のヘルメット検出法の改良 An improved helmet detection method for YOLOv3 on an unbalanced dataset ( http://arxiv.org/abs/2011.04214v2 ) ライセンス: Link先を確認 | Rui Geng, Yixuan Ma, Wanhong Huang | (参考訳) YOLOv3ターゲット検出アルゴリズムは、高速で高精度であるため、業界で広く利用されているが、アンバランスデータセットの精度低下など、いくつかの制限がある。
YOLOv3ターゲット検出アルゴリズムは、データセットを前処理し、YOLOv3ターゲット検出アルゴリズムを改善するガウスファジィデータ拡張アプローチに基づいている。
効率的な前処理により、yolov3の認識速度を変化させることなく、yolov3の信頼性レベルを0.01〜0.02に向上させ、また、効果的な特徴融合により、画像の局在性も向上し、より認識速度と製造精度の要求に合致する。 The YOLOv3 target detection algorithm is widely used in industry due to its high speed and high accuracy, but it has some limitations, such as the accuracy degradation of unbalanced datasets. The YOLOv3 target detection algorithm is based on a Gaussian fuzzy data augmentation approach to pre-process the data set and improve the YOLOv3 target detection algorithm. Through the efficient pre-processing, the confidence level of YOLOv3 is generally improved by 0.01-0.02 without changing the recognition speed of YOLOv3, and the processed images also perform better in image localization due to effective feature fusion, which is more in line with the requirement of recognition speed and accuracy in production. | 翻訳日:2022-09-28 01:17:49 公開日:2020-12-01 |
# 整流勾配と修正塩分写像における入力バイアス Input Bias in Rectified Gradients and Modified Saliency Maps ( http://arxiv.org/abs/2011.05002v3 ) ライセンス: Link先を確認 | Lennart Brocki, Neo Christopher Chung | (参考訳) ディープニューラルネットワークの解釈と改善は、その基盤となるメカニズムをよりよく理解することに依存する。
特に、入力特徴(例えば画像中のピクセル)に関するクラスや概念の勾配は、しばしば重要度スコアや推定値として使われ、これは塩分マップで可視化される。
このように、敬礼メソッドのファミリーは、分類や潜在概念に大きな影響を与える入力特徴を直感的に識別する方法を提供する。
Rectified Gradients や Layer-wise Relevance Propagation (LRP) などの従来の塩分マップへのいくつかの変更が、解釈可能性の向上のために導入されている。
特定のケースでは視覚的に一貫性があるが、Rectified Gradientsや他の修正されたサリエンシマップは、入力特徴の不適切な使用のために強い入力バイアス(例えば、RGB空間の明るさ)をもたらす。
入力画像の暗黒領域は、クラスや概念に関係があっても、Rectified Gradients を用いた塩分マップでは強調されないことを示す。
スケールした画像でさえ、入力バイアスは色スペクトルの人工的な点周辺に存在する。
入力機能との乗算を単純に排除する修正は、このバイアスを取り除く。
これは、視覚的基準がディープラーニングモデルの真の説明可能性とどのように一致しないかを示す。 Interpretation and improvement of deep neural networks relies on better understanding of their underlying mechanisms. In particular, gradients of classes or concepts with respect to the input features (e.g., pixels in images) are often used as importance scores or estimators, which are visualized in saliency maps. Thus, a family of saliency methods provide an intuitive way to identify input features with substantial influences on classifications or latent concepts. Several modifications to conventional saliency maps, such as Rectified Gradients and Layer-wise Relevance Propagation (LRP), have been introduced to allegedly denoise and improve interpretability. While visually coherent in certain cases, Rectified Gradients and other modified saliency maps introduce a strong input bias (e.g., brightness in the RGB space) because of inappropriate uses of the input features. We demonstrate that dark areas of an input image are not highlighted by a saliency map using Rectified Gradients, even if it is relevant for the class or concept. Even in the scaled images, the input bias exists around an artificial point in color spectrum. Our modification, which simply eliminates multiplication with input features, removes this bias. This showcases how a visual criteria may not align with true explainability of deep learning models. | 翻訳日:2022-09-27 06:56:36 公開日:2020-12-01 |
# 好みを推測する際の人間学習の会計 Accounting for Human Learning when Inferring Human Preferences ( http://arxiv.org/abs/2011.05596v2 ) ライセンス: Link先を確認 | Harry Giles, Lawrence Chan | (参考訳) 逆強化学習(IRL)は、データから人間の好みを推測する一般的な手法である。
標準的なIRL技術は、人間のデモレーターが静止していると仮定する傾向があり、つまり、そのポリシー$\pi$は時間が経つにつれて変化しない。
実際には、人間が新しい環境と対話したり、新しいタスクでうまく働くと、環境やタスクについてもっと学ぶと、デモが変わる。
本研究では,この仮定を緩和した結果,特に人間を学習としてモデル化することによって検討する。
驚くべきことに、いくつかの小さな例では、人間が静止している場合よりも、これはより良い推論につながる可能性がある。
すなわち、自ら学習しているデモ参加者を観察することで、機械は、不当に合理的なデモ参加者を観察することによってより多くの推測を行うことができる。
さらに,不特定化が不適切な推論につながるという証拠が得られ,特に不慣れな環境に直面している場合には,人間学習のモデル化が重要であることが示唆された。 Inverse reinforcement learning (IRL) is a common technique for inferring human preferences from data. Standard IRL techniques tend to assume that the human demonstrator is stationary, that is that their policy $\pi$ doesn't change over time. In practice, humans interacting with a novel environment or performing well on a novel task will change their demonstrations as they learn more about the environment or task. We investigate the consequences of relaxing this assumption of stationarity, in particular by modelling the human as learning. Surprisingly, we find in some small examples that this can lead to better inference than if the human was stationary. That is, by observing a demonstrator who is themselves learning, a machine can infer more than by observing a demonstrator who is noisily rational. In addition, we find evidence that misspecification can lead to poor inference, suggesting that modelling human learning is important, especially when the human is facing an unfamiliar environment. | 翻訳日:2022-09-26 23:05:14 公開日:2020-12-01 |
# 層幅重み変化を用いたディープニューラルネットワークの学習調査 Investigating Learning in Deep Neural Networks using Layer-Wise Weight Change ( http://arxiv.org/abs/2011.06735v2 ) ライセンス: Link先を確認 | Ayush Manish Agrawal, Atharva Tendle, Harshvardhan Sikka, Sahib Singh, and Amr Kayid | (参考訳) ディープニューラルネットワークのレイヤ単位の学習ダイナミクスを理解することは、ニューラルネットワークの学習方法と、より優れたトレーニングレジェンスの可能性に関する洞察を提供するため、非常に興味深い。
深層畳み込みニューラルネットワーク(CNN)の学習について,学習中の層間の相対的重み変化を測定して検討した。
様々なコンピュータビジョン分類タスクにまたがる様々なCNNアーキテクチャに興味深い傾向が出現し、例えば、後のレイヤの相対的な重み変化の全体的増加は、以前のものと比較される。 Understanding the per-layer learning dynamics of deep neural networks is of significant interest as it may provide insights into how neural networks learn and the potential for better training regimens. We investigate learning in Deep Convolutional Neural Networks (CNNs) by measuring the relative weight change of layers while training. Several interesting trends emerge in a variety of CNN architectures across various computer vision classification tasks, including the overall increase in relative weight change of later layers as compared to earlier ones. | 翻訳日:2022-09-26 00:20:25 公開日:2020-12-01 |
# zero resource speech benchmark 2021: unsupervised spoken language modelingのためのメトリクスとベースライン The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling ( http://arxiv.org/abs/2011.11588v2 ) ライセンス: Link先を確認 | Tu Anh Nguyen, Maureen de Seyssel, Patricia Roz\'e, Morgane Rivi\`ere, Evgeny Kharitonov, Alexei Baevski, Ewan Dunbar, Emmanuel Dupoux | (参考訳) ラベルのない生音声信号から言語表現を学習する ゼロリソース音声ベンチマーク2021: 学習された4つの言語レベル(音声学、辞書、構文学、意味論)で学習されたモデルの質を探索する4つのブラックボックス、ゼロショットメトリクスからなる組組。
本稿では, 自己教師付きコントラスト表現学習(CPC), クラスタリング(k-means), 言語モデリング(LSTM, BERT)の3つの非教師付きシステムの連結による合成ベースラインの結果と解析を行った。
言語モデルは、学習した表現をクラスタリングした擬似テキストに基づいて学習する。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
また、同じデータでトレーニングされたテキストベースの'トップライン'システムよりもパフォーマンスが悪くなり、より洗練されたエンドツーエンドモデルによって探索されるスペースを線引きする。 We introduce a new unsupervised task, spoken language modeling: the learning of linguistic representations from raw audio signals without any labels, along with the Zero Resource Speech Benchmark 2021: a suite of 4 black-box, zero-shot metrics probing for the quality of the learned models at 4 linguistic levels: phonetics, lexicon, syntax and semantics. We present the results and analyses of a composite baseline made of the concatenation of three unsupervised systems: self-supervised contrastive representation learning (CPC), clustering (k-means) and language modeling (LSTM or BERT). The language models learn on the basis of the pseudo-text derived from clustering the learned representations. This simple pipeline shows better than chance performance on all four metrics, demonstrating the feasibility of spoken language modeling from raw speech. It also yields worse performance compared to text-based 'topline' systems trained on the same data, delineating the space to be explored by more sophisticated end-to-end models. | 翻訳日:2022-09-22 02:54:55 公開日:2020-12-01 |
# 深層学習を用いた手洗いの品質自動評価 Automated Quality Assessment of Hand Washing Using Deep Learning ( http://arxiv.org/abs/2011.11383v2 ) ライセンス: Link先を確認 | Maksims Ivanovs, Roberts Kadikis, Martins Lulla, Aleksejs Rutkovskis, and Atis Elsts | (参考訳) 手を洗うことは、新型コロナウイルス(COVID-19)を含む感染症を防ぐ最も重要な方法の1つだ。
残念なことに、医療スタッフは必ずしも世界保健機関(WHO)の日常業務における手洗いガイドラインに従わない。
この目的のために、WHOが定義する異なる洗濯運動を自動的に認識するニューラルネットワークを提案する。
ニューラルネットワークは、大きな(2000以上のビデオ)実世界のラベル付きデータセットの一部で、異なる洗浄運動でトレーニングします。
予備的な結果は,MobileNetV2 や Xception などのトレーニング済みニューラルネットワークモデルを用いた作業において,異なる洗面運動を認識する際の精度が 64 % であることを示す。
また,本研究の一環として作成された,上記オープンアクセスデータセットの収集と構造についても述べる。
最後に、ニューラルネットワークを用いて、医療専門家のための自動品質制御とリアルタイムフィードバックのための携帯電話アプリケーションを構築する方法について述べる。 Washing hands is one of the most important ways to prevent infectious diseases, including COVID-19. Unfortunately, medical staff does not always follow the World Health Organization (WHO) hand washing guidelines in their everyday work. To this end, we present neural networks for automatically recognizing the different washing movements defined by the WHO. We train the neural network on a part of a large (2000+ videos) real-world labeled dataset with the different washing movements. The preliminary results show that using pre-trained neural network models such as MobileNetV2 and Xception for the task, it is possible to achieve >64 % accuracy in recognizing the different washing movements. We also describe the collection and the structure of the above open-access dataset created as part of this work. Finally, we describe how the neural network can be used to construct a mobile phone application for automatic quality control and real-time feedback for medical professionals. | 翻訳日:2022-09-22 01:53:52 公開日:2020-12-01 |
# 動的シフトネットワークによるLiDARによるパノプティカルセグメンテーション LiDAR-based Panoptic Segmentation via Dynamic Shifting Network ( http://arxiv.org/abs/2011.11964v2 ) ライセンス: Link先を確認 | Fangzhou Hong, Hui Zhou, Xinge Zhu, Hongsheng Li, Ziwei Liu | (参考訳) 自動運転の急速な進歩により、そのセンシングシステムはより全体論的3d知覚を備えることが重要になる。
しかし、既存の作品は、lidarセンサーから物体(車や歩行者など)やシーン(木や建物など)を解析することに焦点を当てている。
本研究では,オブジェクトとシーンを統一的に解析することを目的とした,LiDARに基づくパノプティックセグメンテーションの課題に対処する。
本稿では,この新しい課題に対する最初の取り組みとして,ポイントクラウド領域における効果的なパノミックセグメンテーションフレームワークとして機能する動的シフトネットワーク(ds-net)を提案する。
特にds-netには3つの魅力がある。
1) 強力なバックボーン設計。
DS-Netは、LiDAR点雲用に特別に設計されたシリンダー畳み込みを採用している。
抽出された機能は、セマンティックブランチとボトムアップクラスタリングスタイルで動作するインスタンスブランチによって共有される。
2)複素点分布に対する動的シフト
BFSやDBSCANのような一般的なクラスタリングアルゴリズムは、一様でない点のクラウド分布とさまざまなインスタンスサイズで複雑な自律走行シーンを処理できない。
そこで我々は,異なるインスタンスに対してオンザフライでカーネル関数を適応させる効率的な学習可能なクラスタリングモジュールである動的シフトを提案する。
3)合意駆動核融合
最後に、セマンティックとインスタンス予測の相違に対処するためにコンセンサス駆動の融合が使用される。
そこで我々は,LiDARを用いた大規模自動運転LiDARデータセットであるSemanticKITTIとnuScenesのベンチマークを構築し,評価した。
提案するDS-Netは,現在の最先端手法よりも精度が高いことを示す。
特にsemantickittiの公開リーダボードでは,pqメトリックの2.6%を上回って,第1位を達成しています。 With the rapid advances of autonomous driving, it becomes critical to equip its sensing system with more holistic 3D perception. However, existing works focus on parsing either the objects (e.g. cars and pedestrians) or scenes (e.g. trees and buildings) from the LiDAR sensor. In this work, we address the task of LiDAR-based panoptic segmentation, which aims to parse both objects and scenes in a unified manner. As one of the first endeavors towards this new challenging task, we propose the Dynamic Shifting Network (DS-Net), which serves as an effective panoptic segmentation framework in the point cloud realm. In particular, DS-Net has three appealing properties: 1) strong backbone design. DS-Net adopts the cylinder convolution that is specifically designed for LiDAR point clouds. The extracted features are shared by the semantic branch and the instance branch which operates in a bottom-up clustering style. 2) Dynamic Shifting for complex point distributions. We observe that commonly-used clustering algorithms like BFS or DBSCAN are incapable of handling complex autonomous driving scenes with non-uniform point cloud distributions and varying instance sizes. Thus, we present an efficient learnable clustering module, dynamic shifting, which adapts kernel functions on-the-fly for different instances. 3) Consensus-driven Fusion. Finally, consensus-driven fusion is used to deal with the disagreement between semantic and instance predictions. To comprehensively evaluate the performance of LiDAR-based panoptic segmentation, we construct and curate benchmarks from two large-scale autonomous driving LiDAR datasets, SemanticKITTI and nuScenes. Extensive experiments demonstrate that our proposed DS-Net achieves superior accuracies over current state-of-the-art methods. Notably, we achieve 1st place on the public leaderboard of SemanticKITTI, outperforming 2nd place by 2.6% in terms of the PQ metric. | 翻訳日:2022-09-21 13:29:03 公開日:2020-12-01 |
# 視覚定位のためのベンチマーク画像検索 Benchmarking Image Retrieval for Visual Localization ( http://arxiv.org/abs/2011.11946v2 ) ライセンス: Link先を確認 | No\'e Pion, Martin Humenberger, Gabriela Csurka, Yohann Cabon, Torsten Sattler | (参考訳) 視覚の定位、すなわち既知のシーンにおけるカメラのポーズ推定は、自動運転や拡張現実といった技術のコアコンポーネントである。
最先端のローカライゼーション手法は,(1)近似ポーズ推定,(2)所定のクエリ画像でシーンのどの部分が見えるかを決定するという2つのタスクのうちの1つに対して,画像検索技術に依存することが多い。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
これらのアルゴリズムはしばしば、様々な視点の変化の下で同じランドマークを取得するために訓練される。
しかし,視点変化に対するロバスト性は,視覚局所化の文脈において必ずしも望ましいものではない。
本稿では,複数の視覚局所化タスクにおける画像検索の役割について考察する。
ベンチマーク設定を導入し、複数のデータセットの最先端検索表現を比較する。
本研究では,古典的ランドマーク検索/認識タスクにおける検索性能が,ローカライズ性能にのみ関連していることを示す。
これは、特にローカライズタスク用に設計された検索アプローチの必要性を示している。
ベンチマークおよび評価プロトコルはhttps://github.com/naver/kapture-localizationで利用可能です。 Visual localization, i.e., camera pose estimation in a known scene, is a core component of technologies such as autonomous driving and augmented reality. State-of-the-art localization approaches often rely on image retrieval techniques for one of two tasks: (1) provide an approximate pose estimate or (2) determine which parts of the scene are potentially visible in a given query image. It is common practice to use state-of-the-art image retrieval algorithms for these tasks. These algorithms are often trained for the goal of retrieving the same landmark under a large range of viewpoint changes. However, robustness to viewpoint changes is not necessarily desirable in the context of visual localization. This paper focuses on understanding the role of image retrieval for multiple visual localization tasks. We introduce a benchmark setup and compare state-of-the-art retrieval representations on multiple datasets. We show that retrieval performance on classical landmark retrieval/recognition tasks correlates only for some but not all tasks to localization performance. This indicates a need for retrieval approaches specifically designed for localization tasks. Our benchmark and evaluation protocols are available at https://github.com/naver/kapture-localization. | 翻訳日:2022-09-21 12:35:10 公開日:2020-12-01 |
# レーダ干渉緩和のための量子ニューラルネットワーク Quantized Neural Networks for Radar Interference Mitigation ( http://arxiv.org/abs/2011.12706v2 ) ライセンス: Link先を確認 | Johanna Rock, Wolfgang Roth, Paul Meissner, Franz Pernkopf | (参考訳) レーダセンサーは、運転支援システムや自動運転車の環境認識に不可欠である。
主な性能要因は、耐候性と直接速度測定の可能性である。
レーダーセンサーの数が増加し、これまでに規制されていない自動車レーダ周波数帯により、相互干渉は避けられず、対処されなければならない。
初期の処理段階でレーダーデータを操作するアルゴリズムとモデルは、特定のハードウェア、すなわちレーダーセンサー上で直接動作する必要がある。
この特別なハードウェアは、典型的には厳しいリソース制約、すなわちメモリ容量が低く、計算能力が低い。
畳み込みニューラルネットワーク(CNN)に基づくノイズ除去と干渉緩和のアプローチは、性能の観点からレーダ処理に有望な結果をもたらす。
しかし、これらのモデルは通常数百万のパラメータを含み、数百メガバイトのメモリに格納され、実行中に追加のメモリを必要とする。
本稿では,CNNに基づくレーダ信号のノイズ除去と干渉緩和のための量子化手法について検討する。
異なるCNNモデルアーキテクチャとサイズの量子化ポテンシャルを考察して分析する。
(i)量化重量及び
(II) 断片的に一定のアクティベーション関数により、それぞれモデルストレージと推論ステップにおけるメモリ要求が減少する。 Radar sensors are crucial for environment perception of driver assistance systems as well as autonomous vehicles. Key performance factors are weather resistance and the possibility to directly measure velocity. With a rising number of radar sensors and the so far unregulated automotive radar frequency band, mutual interference is inevitable and must be dealt with. Algorithms and models operating on radar data in early processing stages are required to run directly on specialized hardware, i.e. the radar sensor. This specialized hardware typically has strict resource-constraints, i.e. a low memory capacity and low computational power. Convolutional Neural Network (CNN)-based approaches for denoising and interference mitigation yield promising results for radar processing in terms of performance. However, these models typically contain millions of parameters, stored in hundreds of megabytes of memory, and require additional memory during execution. In this paper we investigate quantization techniques for CNN-based denoising and interference mitigation of radar signals. We analyze the quantization potential of different CNN-based model architectures and sizes by considering (i) quantized weights and (ii) piecewise constant activation functions, which results in reduced memory requirements for model storage and during the inference step respectively. | 翻訳日:2022-09-21 03:47:58 公開日:2020-12-01 |
# マルチクラス非逆画像合成と極小サンプルからの分類への応用 Multiclass non-Adversarial Image Synthesis, with Application to Classification from Very Small Sample ( http://arxiv.org/abs/2011.12942v2 ) ライセンス: Link先を確認 | Itamar Winter, Daphna Weinshall | (参考訳) 合成画像の生成は現在、GAN(Generative Adversarial Networks)が支配している。
写実的な画像を生成することには成功したものの、不安定で高感度なトレーニング手順、モード集合とモード混合、大きなトレーニングセットへの依存など、依然として大きな欠点に苦しめられている。
本研究では, GANの制約を克服し, 学習データが少ない場合, GANよりも優れる新しい非逆生成手法として, LA(Clustered Optimization of LAtent space)を提案する。
本手法は, 画像品質と多様性の観点から, 従来の非敵対的手法を超越した, 監督のない多種多様な画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
最後に、我々のモデルを用いて小さなデータセットを増大させる場合、CIFAR-10、CIFAR-100、STL-10、Tiny-ImageNetといった挑戦的なデータセット上の小さなサンプル分類タスクにおいて、最先端のパフォーマンスを上回っます。
本手法の本質を支える理論的解析について述べる。 The generation of synthetic images is currently being dominated by Generative Adversarial Networks (GANs). Despite their outstanding success in generating realistic looking images, they still suffer from major drawbacks, including an unstable and highly sensitive training procedure, mode-collapse and mode-mixture, and dependency on large training sets. In this work we present a novel non-adversarial generative method - Clustered Optimization of LAtent space (COLA), which overcomes some of the limitations of GANs, and outperforms GANs when training data is scarce. In the full data regime, our method is capable of generating diverse multi-class images with no supervision, surpassing previous non-adversarial methods in terms of image quality and diversity. In the small-data regime, where only a small sample of labeled images is available for training with no access to additional unlabeled data, our results surpass state-of-the-art GAN models trained on the same amount of data. Finally, when utilizing our model to augment small datasets, we surpass the state-of-the-art performance in small-sample classification tasks on challenging datasets, including CIFAR-10, CIFAR-100, STL-10 and Tiny-ImageNet. A theoretical analysis supporting the essence of the method is presented. | 翻訳日:2022-09-21 02:10:39 公開日:2020-12-01 |
# Wasserstein空間におけるコントラスト表現学習による学生の文章の自動符号化 Automatic coding of students' writing via Contrastive Representation Learning in the Wasserstein space ( http://arxiv.org/abs/2011.13384v2 ) ライセンス: Link先を確認 | Ruijie Jiang, Julia Gouvea, David Hammer, Eric Miller, Shuchin Aeron | (参考訳) 言語データの質的分析は、学習科学において重要である。
しかし、労働集約的で時間を要するため、研究者が研究に含めるデータ量には制限がある。
本研究は,学生の文章の質的分析に対する自動支援を実現するための統計的機械学習(ml)手法の構築に向けた一歩である。
まず、議論の構造の複雑さ、証拠の範囲、結論の注意とニュアンスを考慮に入れた4段階のスキームによって、学部の生物学コースから得られた一連の実験報告から始める。
このラベル付きデータを用いて、単語のベクトル表現、すなわち単語の埋め込み、および状態空間モデルとして言語生成をキャプチャするLong Short Term Memory(LSTM)モデルといった、人気のある自然言語モデリング処理パイプラインが、新しいコントラスト学習セットによってトレーニングされた場合、高い擬似重み付きカッパ(QWK)予測スコアを用いて、スコアを定量的に取得可能であることを示す。
mlアルゴリズムは,人間解析のレート間信頼性にアプローチした。
最終的に、自然言語処理(NLP)のための機械学習(ML)は、学習科学研究者が現在よりはるかに大規模な定性的な研究を行うのを支援することを約束していると結論づける。 Qualitative analysis of verbal data is of central importance in the learning sciences. It is labor-intensive and time-consuming, however, which limits the amount of data researchers can include in studies. This work is a step towards building a statistical machine learning (ML) method for achieving an automated support for qualitative analyses of students' writing, here specifically in score laboratory reports in introductory biology for sophistication of argumentation and reasoning. We start with a set of lab reports from an undergraduate biology course, scored by a four-level scheme that considers the complexity of argument structure, the scope of evidence, and the care and nuance of conclusions. Using this set of labeled data, we show that a popular natural language modeling processing pipeline, namely vector representation of words, a.k.a word embeddings, followed by Long Short Term Memory (LSTM) model for capturing language generation as a state-space model, is able to quantitatively capture the scoring, with a high Quadratic Weighted Kappa (QWK) prediction score, when trained in via a novel contrastive learning set-up. We show that the ML algorithm approached the inter-rater reliability of human analysis. Ultimately, we conclude, that machine learning (ML) for natural language processing (NLP) holds promise for assisting learning sciences researchers in conducting qualitative studies at much larger scales than is currently possible. | 翻訳日:2022-09-20 08:21:42 公開日:2020-12-01 |
# ヒトの文脈特異的適応とメタラーニング Connecting Context-specific Adaptation in Humans to Meta-learning ( http://arxiv.org/abs/2011.13782v2 ) ライセンス: Link先を確認 | Rachit Dubey, Erin Grant, Michael Luo, Karthik Narasimhan, Thomas Griffiths | (参考訳) 認知制御とは、システムがタスクの要求に適応する能力であり、認知の不可欠な部分である。
認知制御に関する広く受け入れられている事実は、それは文脈に敏感である、すなわち、大人や子供は、タスクの要求に関する情報を文脈的手がかりから推測し、これらの推論を使って曖昧な手がかりから学ぶことである。
しかし,新しい課題への適応を導くための文脈的手がかりを用いた正確な方法はまだよく理解されていない。
本研究は,認知制御の文脈に敏感な性質を,文脈条件適応を伴うメタラーニング手法と結びつける。
人間とは対照的に、既存のメタ学習アルゴリズムはタスク固有の文脈的手がかりを利用するのではなく、タスク固有のラベルや報酬という形でオンラインフィードバックにのみ依存します。
これを改善するために,オンラインフィードバックに適応する前に,タスクに関するコンテキスト情報を用いてタスク固有のモデルの初期化をガイドするフレームワークを提案する。
本研究では,文脈条件付きメタラーニングが認知タスクにおける人間の行動の捉え方や,少数ショットの分類や低サンプルの強化学習など,様々な場面での学習速度向上にどう対応できるかを示す。
我々の研究は、メタラーニングをタスク情報で導くことで、複雑な人間のような振る舞いを捉え、認知制御の理解を深めることができることを示した。 Cognitive control, the ability of a system to adapt to the demands of a task, is an integral part of cognition. A widely accepted fact about cognitive control is that it is context-sensitive: Adults and children alike infer information about a task's demands from contextual cues and use these inferences to learn from ambiguous cues. However, the precise way in which people use contextual cues to guide adaptation to a new task remains poorly understood. This work connects the context-sensitive nature of cognitive control to a method for meta-learning with context-conditioned adaptation. We begin by identifying an essential difference between human learning and current approaches to meta-learning: In contrast to humans, existing meta-learning algorithms do not make use of task-specific contextual cues but instead rely exclusively on online feedback in the form of task-specific labels or rewards. To remedy this, we introduce a framework for using contextual information about a task to guide the initialization of task-specific models before adaptation to online feedback. We show how context-conditioned meta-learning can capture human behavior in a cognitive task and how it can be scaled to improve the speed of learning in various settings, including few-shot classification and low-sample reinforcement learning. Our work demonstrates that guiding meta-learning with task information can capture complex, human-like behavior, thereby deepening our understanding of cognitive control. | 翻訳日:2022-09-20 02:03:38 公開日:2020-12-01 |
# (参考訳) 一様スパース接続によるニューラルネットワークの改善 Improving Neural Network with Uniform Sparse Connectivity ( http://arxiv.org/abs/2011.14420v2 ) ライセンス: CC BY 4.0 | Weijun Luo | (参考訳) ニューラルネットワークは、ディープラーニングと多数のAIアプリケーションの基礎を形成する。
古典的なニューラルネットワークは、完全に接続され、トレーニングに費用がかかり、オーバーフィットしがちである。
スパースネットワークは、畳み込み構造検索、サブ最適性能、限られた使用量を持つ傾向がある。
そこで我々は,各層に均等で疎結合な一様スパースネットワーク (USN) を提案する。
usnは、その性能が実質的なトポロジーの変化と巨大なモデル空間から独立しているという驚くべき特性を持ち、前述のニューラルネットワークのすべての問題に対して、検索不要なソリューションを提供する。
USNは、予測精度、速度、堅牢性において最先端のスパースネットワークモデルより一貫して、実質的に優れている。
0.55%のパラメータと1/4の計算時間とリソースを持つ完全接続ネットワークよりも高い予測精度を達成している。
重要なことは、USNは、完全に接続されたネットワークの自然な一般化として概念的に単純であり、正確性、堅牢性、スケーラビリティが多岐にわたって改善されている。
USNは、さまざまなアプリケーション、データタイプ、ディープラーニングアーキテクチャで後者を置き換えることができる。
usnをhttps://github.com/datapplab/sparsenetでオープンソースにしました。 Neural network forms the foundation of deep learning and numerous AI applications. Classical neural networks are fully connected, expensive to train and prone to overfitting. Sparse networks tend to have convoluted structure search, suboptimal performance and limited usage. We proposed the novel uniform sparse network (USN) with even and sparse connectivity within each layer. USN has one striking property that its performance is independent of the substantial topology variation and enormous model space, thus offers a search-free solution to all above mentioned issues of neural networks. USN consistently and substantially outperforms the state-of-the-art sparse network models in prediction accuracy, speed and robustness. It even achieves higher prediction accuracy than the fully connected network with only 0.55% parameters and 1/4 computing time and resources. Importantly, USN is conceptually simple as a natural generalization of fully connected network with multiple improvements in accuracy, robustness and scalability. USN can replace the latter in a range of applications, data types and deep learning architectures. We have made USN open source at https://github.com/datapplab/sparsenet. | 翻訳日:2021-06-07 10:03:24 公開日:2020-12-01 |
# 微細解像度リモートセンシング画像のセマンティックセグメンテーションのための多段階アテンションResU-Net Multi-stage Attention ResU-Net for Semantic Segmentation of Fine-Resolution Remote Sensing Images ( http://arxiv.org/abs/2011.14302v2 ) ライセンス: Link先を確認 | Rui Li, Shunyi Zheng, Chenxi Duan, Jianlin Su, and Ce Zhang | (参考訳) 注目機構は抽出した特徴マップを洗練させ、深層ネットワークの分類性能を高めることができ、コンピュータビジョンや自然言語処理において重要な技術となっている。
しかし,dot-product attention機構のメモリと計算コストは入力の時空間サイズと2乗的に増加する。
このような成長は、大規模な入力を持つアプリケーションシナリオにおいて、注意機構の使用をかなり妨げます。
本稿では,この問題に対処するための線形注意機構(LAM)を提案する。
このような設計により、注意機構とディープネットワークの一体化はより柔軟で汎用性が高い。
提案する lam に基づいて,u-net のスキップ接続をリファクタリングし,マルチステージアテンション resu-net (maresu-net) を設計,精細なリモートセンシング画像から意味セグメンテーションを行う。
Vaihingenデータセットで行った実験では、MAResU-Netの有効性と効率が示された。
オープンソースコードはhttps://github.com/lironui/multistage-attention-resu-netで入手できる。 The attention mechanism can refine the extracted feature maps and boost the classification performance of the deep network, which has become an essential technique in computer vision and natural language processing. However, the memory and computational costs of the dot-product attention mechanism increase quadratically with the spatio-temporal size of the input. Such growth hinders the usage of attention mechanisms considerably in application scenarios with large-scale inputs. In this Letter, we propose a Linear Attention Mechanism (LAM) to address this issue, which is approximately equivalent to dot-product attention with computational efficiency. Such a design makes the incorporation between attention mechanisms and deep networks much more flexible and versatile. Based on the proposed LAM, we re-factor the skip connections in the raw U-Net and design a Multi-stage Attention ResU-Net (MAResU-Net) for semantic segmentation from fine-resolution remote sensing images. Experiments conducted on the Vaihingen dataset demonstrated the effectiveness and efficiency of our MAResU-Net. Open-source code is available at https://github.com/lironui/Multistage-Attention-ResU-Net. | 翻訳日:2021-06-07 09:03:47 公開日:2020-12-01 |
# 教師なしのDeep Video Denoising Unsupervised Deep Video Denoising ( http://arxiv.org/abs/2011.15045v2 ) ライセンス: Link先を確認 | Dev Yashpal Sheth, Sreyas Mohan, Joshua L. Vincent, Ramon Manzorro, Peter A. Crozier, Mitesh M. Khapra, Eero P. Simoncelli, Carlos Fernandez-Granda | (参考訳) deep convolutional neural networks (cnns)は現在、デノイジングビデオで最先端のパフォーマンスを達成している。
それらは通常、ネットワーク出力と地上のクリーンビデオの間のエラーを最小限に抑えるために、監督によって訓練される。
しかし、顕微鏡のような多くのアプリケーションでは、ノイズレスビデオは利用できない。
これらの問題に対処するため,教師なし静止画像の最近の進歩を基盤として,教師なし深層映像デノイザ(UDVD)を開発した。
UDVDは、単一の短いノイズの多いビデオシーケンスでのみトレーニングされた場合でも、ベンチマークデータセット上で現在の最先端の教師付き手法と競合して動作する。
蛍光顕微鏡および電子顕微鏡データを用いた実験は, 地中清浄データが一般に利用できないような撮像モードへのアプローチが期待できることを示す。
さらに,訓練されたCNNがビデオデノーミングを行うメカニズムについて検討した。
入力に対するネットワーク出力の勾配を解析したところ、これらのネットワークは特定の空間構造や基盤となるコンテンツの運動に適応した時空間フィルタリングを行うことが明らかとなった。
我々はこれを、従来のビデオデノゲーション、圧縮、分析において広く使われている、暗黙的で効果的な動き補償形式と解釈する。
私たちの分析用のコードとiPythonノートブックはhttps://sreyas-mohan.github.io/udvd/ で入手できる。 Deep convolutional neural networks (CNNs) currently achieve state-of-the-art performance in denoising videos. They are typically trained with supervision, minimizing the error between the network output and ground-truth clean videos. However, in many applications, such as microscopy, noiseless videos are not available. To address these cases, we build on recent advances in unsupervised still image denoising to develop an Unsupervised Deep Video Denoiser (UDVD). UDVD is shown to perform competitively with current state-of-the-art supervised methods on benchmark datasets, even when trained only on a single short noisy video sequence. Experiments on fluorescence-microscopy and electron-microscopy data illustrate the promise of our approach for imaging modalities where ground-truth clean data is generally not available. In addition, we study the mechanisms used by trained CNNs to perform video denoising. An analysis of the gradient of the network output with respect to its input reveals that these networks perform spatio-temporal filtering that is adapted to the particular spatial structures and motion of the underlying content. We interpret this as an implicit and highly effective form of motion compensation, a widely used paradigm in traditional video denoising, compression, and analysis. Code and iPython notebooks for our analysis are available in https://sreyas-mohan.github.io/udvd/ . | 翻訳日:2021-06-06 15:02:41 公開日:2020-12-01 |
# 微分原始凸機械学習の性能向上のためのグラディエントスパシフィケーション Gradient Sparsification Can Improve Performance of Differentially-Private Convex Machine Learning ( http://arxiv.org/abs/2011.14572v2 ) ライセンス: Link先を確認 | Farhad Farokhi | (参考訳) 個人機械学習モデルの性能に対する差分プライバシノイズの悪影響を軽減するために勾配スペーシフィケーションを用いる。
この目的のために、差分プライベート勾配を評価するために圧縮センシングと付加ラプラス雑音を用いる。
ノイズの多いプライバシー保護勾配は、機械学習モデルをトレーニングするための確率的勾配降下を実行するために使用される。
最小の勾配エントリをゼロにすることでスパーシフィケーションが達成され、トレーニングアルゴリズムの収束速度を低減できる。
しかし、スペーシフィケーションと圧縮センシングにより、通信勾配の寸法と付加音の大きさを低減できる。
これらの効果の相互作用は、勾配スパーシフィケーションが微分プライベート機械学習モデルの性能を改善するかどうかを決定する。
論文の中でこれを分析的に検討する。
私たちは、小さなプライバシー予算で、圧縮がプライバシ保存機械学習モデルのパフォーマンスを向上させることを証明します。
しかし、大きなプライバシー予算では、圧縮が必ずしもパフォーマンスを改善するとは限らない。
直感的には、大きなプライバシー予算体制では、プライバシー保護ノイズの影響は最小限であり、グラデーションスペーシフィケーションの改善は、その緩やかな収束を補うことができないためである。 We use gradient sparsification to reduce the adverse effect of differential privacy noise on performance of private machine learning models. To this aim, we employ compressed sensing and additive Laplace noise to evaluate differentially-private gradients. Noisy privacy-preserving gradients are used to perform stochastic gradient descent for training machine learning models. Sparsification, achieved by setting the smallest gradient entries to zero, can reduce the convergence speed of the training algorithm. However, by sparsification and compressed sensing, the dimension of communicated gradient and the magnitude of additive noise can be reduced. The interplay between these effects determines whether gradient sparsification improves the performance of differentially-private machine learning models. We investigate this analytically in the paper. We prove that, for small privacy budgets, compression can improve performance of privacy-preserving machine learning models. However, for large privacy budgets, compression does not necessarily improve the performance. Intuitively, this is because the effect of privacy-preserving noise is minimal in large privacy budget regime and thus improvements from gradient sparsification cannot compensate for its slower convergence. | 翻訳日:2021-06-06 14:55:57 公開日:2020-12-01 |
# 人工意識モデルと心の哲学との関係 An Artificial Consciousness Model and its relations with Philosophy of Mind ( http://arxiv.org/abs/2011.14475v2 ) ライセンス: Link先を確認 | Eduardo C. Garrido-Merch\'an and Martin Molina and Francisco M. Mendoza | (参考訳) 本研究は、意識的な存在と類似した認知的アーキテクチャを実装することにより、自律的なエージェントが得る有益性を研究することを目的としている。
本論文では,グローバルワークスペースアーキテクチャに基づく自律エージェントの意識モデルについて述べる。
このエージェントが心の哲学の異なる視点からどのように見られているかを説明する。
このモデルの目標は、複数の独立したマグニチュードからなる環境内をナビゲートできる自律エージェントを作ることであり、その周囲に適応して、内部の好みに基づいて最適な位置を見つけることである。
モデルの目的は、マグニチュード選択のための注意機構、内的感情と好みのポースセッション、信念や過去の経験を記憶するためのメモリシステムの使用、モデルの全サブシステムで処理される情報を制御および統合するグローバルワークスペースなど、多くの認知メカニズムが組み込まれていることの有効性をテストすることである。
筆者らは、自律エージェントが、例えば、認知的アーキテクチャーを持つことのメリットを、大規模な実験で示す。 This work seeks to study the beneficial properties that an autonomous agent can obtain by implementing a cognitive architecture similar to the one of conscious beings. Along this document, a conscious model of autonomous agent based in a global workspace architecture is presented. We describe how this agent is viewed from different perspectives of philosophy of mind, being inspired by their ideas. The goal of this model is to create autonomous agents able to navigate within an environment composed of multiple independent magnitudes, adapting to its surroundings in order to find the best possible position in base of its inner preferences. The purpose of the model is to test the effectiveness of many cognitive mechanisms that are incorporated, such as an attention mechanism for magnitude selection, pos-session of inner feelings and preferences, usage of a memory system to storage beliefs and past experiences, and incorporating a global workspace which controls and integrates information processed by all the subsystem of the model. We show in a large experiment set how an autonomous agent can benefit from having a cognitive architecture such as the one described. | 翻訳日:2021-06-06 14:51:22 公開日:2020-12-01 |
# DUT:不安定なビデオを見るだけでビデオの安定化を学べる DUT: Learning Video Stabilization by Simply Watching Unstable Videos ( http://arxiv.org/abs/2011.14574v2 ) ライセンス: Link先を確認 | Yufei Xu, Jing Zhang, Stephen J. Maybank, Dacheng Tao | (参考訳) 本稿では,Deep Unsupervised Trajectory-based stabilization framework (DUT)を提案する。
従来のスタビライザーは、手作りの特徴の使用に関して、制御可能であるが、隠蔽された、テクスチャのないケースでは壊れやすい軌跡ベースの平滑化に焦点を当てている。
一方,従来のディープ・ビデオ・スタビライザは,明示的な軌跡推定を行わず,教師付きで直接安定な映像を生成するが,ロバストだが制御不能であり,適切なペア・データを得るのが困難である。
制御可能でロバストな安定化装置を構築するため、dutは、グリッドベースの軌道を生成するdnnベースのキーポイント検出器とモーション推定器と、動画を安定させるdnnベースの軌道スムーサとからなる教師なしのディープラーニング方式で、軌道を明示的に推定・平滑化することにより、不安定なビデオの安定化を初めて試みる。
運動における連続性の性質と,教師なし学習の安定化前後におけるキーポイントとグリッド頂点の一貫性を両立する。
公開ベンチマーク実験の結果、DUTは定性的かつ定量的に代表的最先端の手法よりも優れていた。 We propose a Deep Unsupervised Trajectory-based stabilization framework (DUT) in this paper. Traditional stabilizers focus on trajectory-based smoothing, which is controllable but fragile in occluded and textureless cases regarding the usage of hand-crafted features. On the other hand, previous deep video stabilizers directly generate stable videos in a supervised manner without explicit trajectory estimation, which is robust but less controllable and the appropriate paired data are hard to obtain. To construct a controllable and robust stabilizer, DUT makes the first attempt to stabilize unstable videos by explicitly estimating and smoothing trajectories in an unsupervised deep learning manner, which is composed of a DNN-based keypoint detector and motion estimator to generate grid-based trajectories, and a DNN-based trajectory smoother to stabilize videos. We exploit both the nature of continuity in motion and the consistency of keypoints and grid vertices before and after stabilization for unsupervised training. Experiment results on public benchmarks show that DUT outperforms representative state-of-the-art methods both qualitatively and quantitatively. | 翻訳日:2021-06-06 14:49:18 公開日:2020-12-01 |
# 教師なしメタラーニングの再考:小ショットタスクの特性の増幅と補償 Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for the Characteristics of Few-Shot Tasks ( http://arxiv.org/abs/2011.14663v2 ) ライセンス: Link先を確認 | Han-Jia Ye, Lu Han, De-Chuan Zhan | (参考訳) メタラーニングは、限定された注釈データで視覚認識システムを構築する、少数ショット画像分類への実用的なアプローチとなる。
埋め込みのような帰納的バイアスは、豊富なラベル付き例を持つ基底クラス集合から学び、新しいクラスを持つ少数のタスクに一般化する。
驚いたことに、ベースクラスセットラベルは不要であり、差別的な埋め込みは教師なしの方法でメタ学習することができる。
包括的な分析によると、半正規化距離メトリックと十分なサンプリングの2つの修正により、教師なしメタラーニング(uml)が大幅に改善された。
修正されたベースラインに基づいて、UMLモデルをトレーニングする際のタスクの特性をさらに増幅または補償する。
まず、混合埋め込みが組み込まれ、少数タスクの難易度が高まる。
次に、タスク固有の埋め込み変換を用いてタスク間の特定の特性に対処し、バニラ埋め込みへの一般化能力を維持する。
数ショットの学習ベンチマークの実験では、我々のアプローチが従来のUMLメソッドよりも4-10%パフォーマンスギャップで優れていることが確認されています。 Meta-learning becomes a practical approach towards few-shot image classification, where a visual recognition system is constructed with limited annotated data. Inductive bias such as embedding is learned from a base class set with ample labeled examples and then generalizes to few-shot tasks with novel classes. Surprisingly, we find that the base class set labels are not necessary, and discriminative embeddings could be meta-learned in an unsupervised manner. Comprehensive analyses indicate two modifications -- the semi-normalized distance metric and the sufficient sampling -- improves unsupervised meta-learning (UML) significantly. Based on the modified baseline, we further amplify or compensate for the characteristic of tasks when training a UML model. First, mixed embeddings are incorporated to increase the difficulty of few-shot tasks. Next, we utilize a task-specific embedding transformation to deal with the specific properties among tasks, maintaining the generalization ability into the vanilla embeddings. Experiments on few-shot learning benchmarks verify that our approaches outperform previous UML methods by a 4-10% performance gap, and embeddings learned with our UML achieve comparable or even better performance than its supervised variants. | 翻訳日:2021-06-06 14:46:58 公開日:2020-12-01 |
# 動的埋め込みによるグラフ編集距離の組合せ学習 Combinatorial Learning of Graph Edit Distance via Dynamic Embedding ( http://arxiv.org/abs/2011.15039v2 ) ライセンス: Link先を確認 | Runzhong Wang, Tianqi Zhang, Tianshu Yu, Junchi Yan, Xiaokang Yang | (参考訳) グラフ編集距離 (Graph Edit Distance, GED) は、ペアグラフの類似度測定として人気があり、ソースグラフからターゲットグラフへの編集パスの回復も指している。
従来のa*アルゴリズムは、探索ヒューリスティックが人間の事前知識に大きく依存しているため、拡張性の問題に苦しんでいる。
本稿では,従来の検索に基づく編集パス作成手法の解釈可能性と,コスト効率の高いgedソルバを実現するための深層埋め込みモデルの効率と適応性を組み合わせたハイブリッド手法を提案する。
動的プログラミングにインスパイアされたノードレベルの埋め込みは、動的再利用方式で指定され、サブ最適分岐がプルーニングされる。
この目的のために,本手法は動的にA*プロシージャに容易に組み込むことができ,学習ヒューリスティックによる計算負担を大幅に削減することができる。
異なるグラフデータセットを用いた実験結果から,A* の探索処理は精度を犠牲にすることなく極めて容易であることがわかった。
我々の知る限りでは、この研究は編集パスを復元する最初のディープラーニングベースのGED手法でもある。 Graph Edit Distance (GED) is a popular similarity measurement for pairwise graphs and it also refers to the recovery of the edit path from the source graph to the target graph. Traditional A* algorithm suffers scalability issues due to its exhaustive nature, whose search heuristics heavily rely on human prior knowledge. This paper presents a hybrid approach by combing the interpretability of traditional search-based techniques for producing the edit path, as well as the efficiency and adaptivity of deep embedding models to achieve a cost-effective GED solver. Inspired by dynamic programming, node-level embedding is designated in a dynamic reuse fashion and suboptimal branches are encouraged to be pruned. To this end, our method can be readily integrated into A* procedure in a dynamic fashion, as well as significantly reduce the computational burden with a learned heuristic. Experimental results on different graph datasets show that our approach can remarkably ease the search process of A* without sacrificing much accuracy. To our best knowledge, this work is also the first deep learning-based GED method for recovering the edit path. | 翻訳日:2021-06-06 14:40:18 公開日:2020-12-01 |
# twitterのスパム検出:体系的なレビュー Twitter Spam Detection: A Systematic Review ( http://arxiv.org/abs/2011.14754v2 ) ライセンス: Link先を確認 | Sepideh Bazzaz Abkenar, Mostafa Haghi Kashani, Mohammad Akbari, Ebrahim Mahdipour | (参考訳) 近年、インターネットアクセスやモバイル機器の普及に伴い、ソーシャルネットワークをコラボレーションやリアルタイム情報の受信に利用している人が増えている。
マイクロブログがコミュニケーションとニュースの拡散の重要源になりつつあるtwitterは、スパマーの注意をそらしてユーザーの注意をそらした。
これまでのところ、研究者はTwitter上でスパムの検出やスパム対策に様々な防御技術を導入している。
この問題を克服するために、近年、研究者から多くの新しい技術が提供され、スパム検出性能が大幅に向上している。
それゆえ、twitter上でスパム検出の異なるアプローチについて体系的なレビューを行う動機が浮かび上がっている。
本稿では,twitterのスパム検出に関する既存の研究手法を体系的に比較する。
文献レビュー分析によると、既存の手法のほとんどは機械学習ベースのアルゴリズムに依存している。
これらの機械学習アルゴリズムのうち、主な違いは様々な特徴選択法に関連している。
そこで本研究では,コンテンツ分析,ユーザ分析,つぶやき分析,ネットワーク解析,ハイブリッド分析など,さまざまな特徴選択手法と分析に基づく分類法を提案する。
そこで,本稿では,現状のアプローチに関する数値解析と比較研究を行い,このトピックにおけるソリューション開発を支援するオープンな課題を提起する。 Nowadays, with the rise of Internet access and mobile devices around the globe, more people are using social networks for collaboration and receiving real-time information. Twitter, the microblogging that is becoming a critical source of communication and news propagation, has grabbed the attention of spammers to distract users. So far, researchers have introduced various defense techniques to detect spams and combat spammer activities on Twitter. To overcome this problem, in recent years, many novel techniques have been offered by researchers, which have greatly enhanced the spam detection performance. Therefore, it raises a motivation to conduct a systematic review about different approaches of spam detection on Twitter. This review focuses on comparing the existing research techniques on Twitter spam detection systematically. Literature review analysis reveals that most of the existing methods rely on Machine Learning-based algorithms. Among these Machine Learning algorithms, the major differences are related to various feature selection methods. Hence, we propose a taxonomy based on different feature selection methods and analyses, namely content analysis, user analysis, tweet analysis, network analysis, and hybrid analysis. Then, we present numerical analyses and comparative studies on current approaches, coming up with open challenges that help researchers develop solutions in this topic. | 翻訳日:2021-06-06 14:29:10 公開日:2020-12-01 |
# agnet: ブラックホールを機械学習で測る AGNet: Weighing Black Holes with Machine Learning ( http://arxiv.org/abs/2011.15095v2 ) ライセンス: Link先を確認 | Joshua Yao-Yu Lin, Sneh Pandya, Devanshi Pratap, Xin Liu, Matias Carrasco Kind | (参考訳) 超大質量ブラックホール(SMBHs)は、ほとんどの銀河の中心にある。
SMBHの質量を測定することは、SMBHの起源と進化を理解する上で重要である。
しかし、従来の手法では収集に費用がかかるスペクトルデータが必要となる。
この問題を解決するために、クエーサー光時間系列を用いてSMBHを重み付けし、高価なスペクトルの必要性を回避するアルゴリズムを提案する。
我々は、sloan digital sky survey (sdss) stripe 82データから直接学習するニューラルネットワークのトレーニング、検証、テストを行い、9,038ドルの分光学的に確認されたクエーサーを用いてブラックホール質量と多色光度曲線の間の非線形エンコーディングをマッピングした。
1$\sigma$ scatter of 0.35 dex between the expected mass and the fiducial virial mass based on SDSS single-epoch spectra。
この結果は、ヴェラ・ルービン天文台の将来の観測による効率的な応用に直接的な意味を持つ。 Supermassive black holes (SMBHs) are ubiquitously found at the centers of most galaxies. Measuring SMBH mass is important for understanding the origin and evolution of SMBHs. However, traditional methods require spectral data which is expensive to gather. To solve this problem, we present an algorithm that weighs SMBHs using quasar light time series, circumventing the need for expensive spectra. We train, validate, and test neural networks that directly learn from the Sloan Digital Sky Survey (SDSS) Stripe 82 data for a sample of $9,038$ spectroscopically confirmed quasars to map out the nonlinear encoding between black hole mass and multi-color optical light curves. We find a 1$\sigma$ scatter of 0.35 dex between the predicted mass and the fiducial virial mass based on SDSS single-epoch spectra. Our results have direct implications for efficient applications with future observations from the Vera Rubin Observatory. | 翻訳日:2021-06-06 14:28:19 公開日:2020-12-01 |
# (参考訳) 開発途上国におけるクラウドソーシング道路品質マッピング Crowd-Sourced Road Quality Mapping in the Developing World ( http://arxiv.org/abs/2012.00179v1 ) ライセンス: CC BY 4.0 | Benjamin Choi, John Kamalu | (参考訳) 道路網は国のインフラの最も重要な構成要素である。
商品、人々、アイデアの移動と交換を促進することで、国境内および国境を越えた経済・文化活動を支援している。
道路の地理的分布とその品質の最新のマッピングは、土地利用計画から荒野保全まで、ハイインパクトな応用に不可欠である。
地図作成は、ドキュメンテーションが貧弱で、今後数十年で大量の道路建設が行われると予想される発展途上国で特に厳しい課題となっている。
我々は,道路の質を評価し,深層学習に基づく手法をドメイン間で伝達する上での重要な課題と機会を特定する,クラウドソースによる新たなアプローチを提案する。 Road networks are among the most essential components of a country's infrastructure. By facilitating the movement and exchange of goods, people, and ideas, they support economic and cultural activity both within and across borders. Up-to-date mapping of the the geographical distribution of roads and their quality is essential in high-impact applications ranging from land use planning to wilderness conservation. Mapping presents a particularly pressing challenge in developing countries, where documentation is poor and disproportionate amounts of road construction are expected to occur in the coming decades. We present a new crowd-sourced approach capable of assessing road quality and identify key challenges and opportunities in the transferability of deep learning based methods across domains. | 翻訳日:2021-06-01 09:48:56 公開日:2020-12-01 |
# (参考訳) リサイクル・巻取・添加物製造用オープンソースの3次元フィラメント径センサ Open Source 3-D Filament Diameter Sensor for Recycling, Winding and Additive Manufacturing Machines ( http://arxiv.org/abs/2012.00191v1 ) ライセンス: CC BY-SA 4.0 | Aliaksei L. Petsiuk and Joshua M. Pearce | (参考訳) 分散リサイクルおよび添加物製造システムにおけるプラスチック廃棄物の3dプリントフィラメントへのリサイクルの課題を克服するため, リサイクル・巻取機用オープンソースの3dフィラメント径センサの設計, 施工, 試験, 検証を行った。
リサイクルされた3dプリントフィラメントの直径を多軸光制御するためのモジュラーシステムにより、加工されたフィラメントの表面構造を分析し、スプールの全長さに沿った測定履歴を保存し、またマーク欠陥領域を保存できる。
センサーは独立したモジュールとして開発され、リサイクルボットに統合される。
直径センサーは、プラスチック(リサイクル3Dプリントとヴァージンプラスチック廃棄物)の異なる種類のポリマー(ABS、PLA)と透明プラスチックを含む異なる色で試験された。
カメラを用いた直径測定の結果を手作業による測定と,1次元デジタル光キャリパを用いた測定と比較した。
その結果, オープンソースのフィラメントセンシング技術により, 基礎的な1次元光センサに比べてはるかに多くの情報を得ることができ, より正確な直径測定だけでなく, リサイクルフィラメント表面の詳細な解析にも利用することができることがわかった。
本手法は, 製造コミュニティにおけるプラスチックリサイクル技術の普及を保証し, 複合材料の創製を促進させるものである。
提案システムは, 使用可能性を大幅に向上させるとともに, 所望のフィラメント径を達成するためのモータパラメータを制御し, フィラメントの不規則性から回復するプリンタの押出速度を制御できる完全リサイクル制御システムの出発点として機能する。 To overcome the challenge of upcycling plastic waste into 3-D printing filament in the distributed recycling and additive manufacturing systems, this study designs, builds, tests and validates an open source 3-D filament diameter sensor for recycling and winding machines. The modular system for multi-axis optical control of the diameter of the recycled 3-D-printer filament makes it possible to analyze the surface structure of the processed filament, save the history of measurements along the entire length of the spool, as well as mark defective areas. The sensor is developed as an independent module and integrated into a recyclebot. The diameter sensor was tested on different kinds of polymers (ABS, PLA) different sources of plastic (recycled 3-D prints and virgin plastic waste) and different colors including clear plastic. The results of the diameter measurements using the camera were compared with the manual measurements, and the measurements obtained with a one-dimensional digital light caliper. The results found that the developed open source filament sensing method allows users to obtain significantly more information in comparison with basic one-dimensional light sensors and using the received data not only for more accurate diameter measurements, but also for a detailed analysis of the recycled filament surface. The developed method ensures greater availability of plastics recycling technologies for the manufacturing community and stimulates the growth of composite materials creation. The presented system can greatly enhance the user possibilities and serve as a starting point for a complete recycling control system that will regulate motor parameters to achieve the desired filament diameter with acceptable deviations and even control the extrusion rate on a printer to recover from filament irregularities. | 翻訳日:2021-06-01 09:01:17 公開日:2020-12-01 |
# (参考訳) 破損したセンサのクロスモーダル補償を検出、拒否、修正 Detect, Reject, Correct: Crossmodal Compensation of Corrupted Sensors ( http://arxiv.org/abs/2012.00201v1 ) ライセンス: CC BY 4.0 | Michelle A. Lee, Matthew Tan, Yuke Zhu, Jeannette Bohg | (参考訳) 複数のモダリティからのセンサデータを使用することで、一方のモダリティが破損したりうるさい場合に有用な冗長で補完的な機能をエンコードする機会が得られる。
視覚障がいのある環境では、人間は触覚と固有感覚のフィードバックに頼り、毎日これを行う。
しかし、壊れたセンサーでさえ有効な値を返すことができるので、ロボットはいつセンサーが破損するかを常に知るとは限らない。
本研究では,劣化したセンサのモダリティを検知して補償するクロスモーダル補償モデル(ccm)を提案する。
CMMは自己超越性を用いて学習した表現モデルであり、不定形再構成損失を利用して汚損検出を行う。
ccmは破損したモダリティを破棄し、残りのセンサーからの情報を補償する。
我々は,CCMが,学習時間中に見つからない方法で入力モダリティが破損しても,コンタクトリッチな操作ポリシーに使用できるリッチな状態表現を学習していることを示す。 Using sensor data from multiple modalities presents an opportunity to encode redundant and complementary features that can be useful when one modality is corrupted or noisy. Humans do this everyday, relying on touch and proprioceptive feedback in visually-challenging environments. However, robots might not always know when their sensors are corrupted, as even broken sensors can return valid values. In this work, we introduce the Crossmodal Compensation Model (CCM), which can detect corrupted sensor modalities and compensate for them. CMM is a representation model learned with self-supervision that leverages unimodal reconstruction loss for corruption detection. CCM then discards the corrupted modality and compensates for it with information from the remaining sensors. We show that CCM learns rich state representations that can be used for contact-rich manipulation policies, even when input modalities are corrupted in ways not seen during training time. | 翻訳日:2021-06-01 08:42:12 公開日:2020-12-01 |
# (参考訳) 数ショットの学習でディープニューラルネットワークを微調整する方法 How to fine-tune deep neural networks in few-shot learning? ( http://arxiv.org/abs/2012.00204v1 ) ライセンス: CC BY 4.0 | Peng Peng and Jiugen Wang | (参考訳) ディープラーニングは、データ集約型アプリケーションで広く使われている。
しかし、ディープニューラルネットワークのトレーニングには大きなデータセットが必要になることが多い。
トレーニングに十分なデータがない場合、ディープラーニングモデルのパフォーマンスは、浅いネットワークよりもさらに悪くなります。
数少ない学習は、トレーニングサンプルの少ない新しいタスクに一般化できることが証明されている。
深層モデルの微調整は単純で効果的な数ショット学習法である。
しかし、ディープラーニングモデル(ファインチューン畳み込み層かBN層か)を微調整する方法
まだ深い調査がない
そこで本論文では,深層模型の微調整方法について実験的比較により検討する。
さらに, モデルの重みを解析し, 微調整法の有効性を検証した。 Deep learning has been widely used in data-intensive applications. However, training a deep neural network often requires a large data set. When there is not enough data available for training, the performance of deep learning models is even worse than that of shallow networks. It has been proved that few-shot learning can generalize to new tasks with few training samples. Fine-tuning of a deep model is simple and effective few-shot learning method. However, how to fine-tune deep learning models (fine-tune convolution layer or BN layer?) still lack deep investigation. Hence, we study how to fine-tune deep models through experimental comparison in this paper. Furthermore, the weight of the models is analyzed to verify the feasibility of the fine-tuning method. | 翻訳日:2021-06-01 08:25:48 公開日:2020-12-01 |
# (参考訳) 高品質リアルタイム構造化議論生成 High Quality Real-Time Structured Debate Generation ( http://arxiv.org/abs/2012.00209v1 ) ライセンス: CC BY 4.0 | Eric Bolton, Alex Calderwood, Niles Christensen, Jerome Kafrouni, Iddo Drori | (参考訳) 議論を自動的に生成することは、議論の理解と、議論の無効化やサポートの方法を必要とする難しいタスクである。
本研究では,ハイレベルな構造と文法を適用しつつ,議論を起こすための木と経路を定義する。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
文埋め込みモデルと無関係な議論を生成できるフレームワークを開発した。
この結果から,人間に近い品質の複雑なトピックをリアルタイムに議論する能力が,競争力のある人間の議論を判断するために使用されるスタイル,内容,戦略指標によって評価された。
再現可能な研究の精神では、データ、モデル、コードを公開しています。 Automatically generating debates is a challenging task that requires an understanding of arguments and how to negate or support them. In this work we define debate trees and paths for generating debates while enforcing a high level structure and grammar. We leverage a large corpus of tree-structured debates that have metadata associated with each argument. We develop a framework for generating plausible debates which is agnostic to the sentence embedding model. Our results demonstrate the ability to generate debates in real-time on complex topics at a quality that is close to humans, as evaluated by the style, content, and strategy metrics used for judging competitive human debates. In the spirit of reproducible research we make our data, models, and code publicly available. | 翻訳日:2021-06-01 08:20:46 公開日:2020-12-01 |
# (参考訳) 深層学習による宇宙の高速かつ高精度な非線形予測 Fast and Accurate Non-Linear Predictions of Universes with Deep Learning ( http://arxiv.org/abs/2012.00240v1 ) ライセンス: CC BY 4.0 | Renan Alves de Oliveira, Yin Li, Francisco Villaescusa-Navarro, Shirley Ho, David N. Spergel | (参考訳) 宇宙学者は、最初は低振幅のガウス密度変動を銀河や星団の非線型な「宇宙のウェブ」へとモデル化することを目指している。
彼らは、この構造形成過程のシミュレーションと、銀河が追跡する大規模構造の観測を比較し、宇宙の95%を占める暗黒エネルギーと暗黒物質の性質を推測することを目的としている。
数十億の銀河のシミュレーションのこれらのアンサンブルは計算上必要であり、構造の非線形成長を追跡するためのより効率的なアプローチが必要である。
数値シミュレーションから高速線形予測を完全非線形予測に変換するv-netモデルを構築する。
我々のNNモデルはシミュレーションを小さなスケールにエミュレートすることを学び、現在の最先端の近似手法よりも高速かつ高精度である。
また、宇宙論的なパラメータが訓練で使われたものとは大きく異なる宇宙でテストすると、同等の精度が得られる。
これは、我々のモデルはトレーニングセットを超えて非常に一般化していることを示唆している。 Cosmologists aim to model the evolution of initially low amplitude Gaussian density fluctuations into the highly non-linear "cosmic web" of galaxies and clusters. They aim to compare simulations of this structure formation process with observations of large-scale structure traced by galaxies and infer the properties of the dark energy and dark matter that make up 95% of the universe. These ensembles of simulations of billions of galaxies are computationally demanding, so that more efficient approaches to tracing the non-linear growth of structure are needed. We build a V-Net based model that transforms fast linear predictions into fully nonlinear predictions from numerical simulations. Our NN model learns to emulate the simulations down to small scales and is both faster and more accurate than the current state-of-the-art approximate methods. It also achieves comparable accuracy when tested on universes of significantly different cosmological parameters from the one used in training. This suggests that our model generalizes well beyond our training set. | 翻訳日:2021-06-01 08:14:25 公開日:2020-12-01 |
# (参考訳) セマンティックセグメンテーションの3Dガイド 3D Guided Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.00242v1 ) ライセンス: CC BY 4.0 | Weixuan Sun, Jing Zhang, Nick Barnes | (参考訳) ピクセル単位でクリーンなアノテーションは、完全に教師付きセマンティックセグメンテーションのために必要です。
本稿では,3次元情報にスパースバウンディングボックスラベルを組み込んだ2次元セマンティクスセグメンテーションモデルを提案する。
手動で2D-3D Semantics(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
3次元情報に導かれ,まず物体の点群を生成し,各点に対する対象性確率スコアを計算する。
次に,2次元画像にオブジェクトの確率を持つ点雲を投影し,さらにセグメントの提案を改良し,擬似ラベルとして扱い,意味的セグメンテーションネットワークを訓練する。
本手法は上記のセグメント提案を徐々に洗練するために再帰的に機能する。
2d-3d-sデータセットの広範な実験結果から,学習画像のごく一部でのみバウンディングボックスラベルが使用可能な場合に,提案手法が正確なセグメント提案を生成できることが確認された。
近年の最先端手法との比較により,本手法の有効性がさらに示唆された。 Pixel-wise clean annotation is necessary for fully-supervised semantic segmentation, which is laborious and expensive to obtain. In this paper, we propose a weakly supervised 2D semantic segmentation model by incorporating sparse bounding box labels with available 3D information, which is much easier to obtain with advanced sensors. We manually labeled a subset of the 2D-3D Semantics(2D-3D-S) dataset with bounding boxes, and introduce our 2D-3D inference module to generate accurate pixel-wise segment proposal masks. Guided by 3D information, we first generate a point cloud of objects and calculate objectness probability score for each point. Then we project the point cloud with objectness probabilities back to 2D images followed by a refinement step to obtain segment proposals, which are treated as pseudo labels to train a semantic segmentation network. Our method works in a recursive manner to gradually refine the above-mentioned segment proposals. Extensive experimental results on the 2D-3D-S dataset show that the proposed method can generate accurate segment proposals when bounding box labels are available on only a small subset of training images. Performance comparison with recent state-of-the-art methods further illustrates the effectiveness of our method. | 翻訳日:2021-06-01 08:03:58 公開日:2020-12-01 |
# (参考訳) スポーツイベントにおける映像ハイライト要約のための新しい行動認識フレームワーク A New Action Recognition Framework for Video Highlights Summarization in Sporting Events ( http://arxiv.org/abs/2012.00253v1 ) ライセンス: CC BY 4.0 | Cheng Yan, Xin Li, Guoqiang Li | (参考訳) これまで,ビデオにおける人間の行動認識のための機械学習は,スポーツ活動において広く実装されてきた。
過去にはいくつかの研究が成功したが、精度は依然として重要な関心事である。
本研究では,2つの古典的オープンソース構造,すなわちYOLO-v3とOpenPoseに基づく3レベル予測アルゴリズムを用いて,スポーツビデオストリームを自動的にクリップする高精度フレームワークを提案する。
その結果,少量のスポーツビデオトレーニングデータを用いることで,クリッピングのスポーツ活動のハイライトを精度良く行うことができることがわかった。
従来のシステムと比較すると,精度にいくつかの利点がある。
本研究は,スポーツ分野における映像要約の応用可能性を広げる新たなクリッピングシステムとして機能すると同時に,マッチ分析システムの開発を促進する。 To date, machine learning for human action recognition in video has been widely implemented in sports activities. Although some studies have been successful in the past, precision is still the most significant concern. In this study, we present a high-accuracy framework to automatically clip the sports video stream by using a three-level prediction algorithm based on two classical open-source structures, i.e., YOLO-v3 and OpenPose. It is found that by using a modest amount of sports video training data, our methodology can perform sports activity highlights clipping accurately. Comparing with the previous systems, our methodology shows some advantages in accuracy. This study may serve as a new clipping system to extend the potential applications of the video summarization in sports field, as well as facilitates the development of match analysis system. | 翻訳日:2021-06-01 07:49:11 公開日:2020-12-01 |
# (参考訳) Confluence:オブジェクト検出における非最大抑圧に対するロバストな非IoU代替 Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection ( http://arxiv.org/abs/2012.00257v1 ) ライセンス: CC BY 4.0 | Andrew Shepley, Greg Falzon, Paul Kwan | (参考訳) 本稿では,物体検出におけるボックス選択と抑制のタスクにおいて,Greedy Non-Maxima Suppression (NMS) に代わる新しい方法を提案する。
最適なバウンディングボックスを選択するために個々の信頼度スコアのみに依存しないアルゴリズムであるconfluenceや、偽陽性を取り除くためにiou(intersection over union)に依存するアルゴリズムを提案する。
マンハッタン距離を用いて、クラスタ内の他の全てのバウンディングボックスに最も近いバウンディングボックスを選択し、高度に合流した隣り合うボックスを削除する。
このように、Confluenceは、Greedy NMSとその変種に対する根本的に異なる理論原理に基づいているため、境界ボックスの選択と抑制のパラダイムシフトを表している。
MS COCOとPASCAL VOC 2007データセットを使用して、RetinaNet、YOLOv3、Mask-RCNNでコンフルエンスを実験的に検証した。
Confluenceは、難易度0.50:0.95 mAP評価基準を使用して、両方のmAPでGreedy NMSを上回り、両方のデータセットでリコールする。
各検出器とデータセットでは、mAPは0.3-0.7%改善され、リコールは1.4-2.5%改善された。
グリーディ nms と合流アルゴリズムの理論的比較を行い, 定量的な結果を広範囲な定性的結果解析により支援する。
さらに、mAP閾値に対する感度解析実験は、ConfluenceがNMSよりも堅牢であるという結論を支持している。 This paper presents a novel alternative to Greedy Non-Maxima Suppression (NMS) in the task of bounding box selection and suppression in object detection. It proposes Confluence, an algorithm which does not rely solely on individual confidence scores to select optimal bounding boxes, nor does it rely on Intersection Over Union (IoU) to remove false positives. Using Manhattan Distance, it selects the bounding box which is closest to every other bounding box within the cluster and removes highly confluent neighboring boxes. Thus, Confluence represents a paradigm shift in bounding box selection and suppression as it is based on fundamentally different theoretical principles to Greedy NMS and its variants. Confluence is experimentally validated on RetinaNet, YOLOv3 and Mask-RCNN, using both the MS COCO and PASCAL VOC 2007 datasets. Confluence outperforms Greedy NMS in both mAP and recall on both datasets, using the challenging 0.50:0.95 mAP evaluation metric. On each detector and dataset, mAP was improved by 0.3-0.7% while recall was improved by 1.4-2.5%. A theoretical comparison of Greedy NMS and the Confluence Algorithm is provided, and quantitative results are supported by extensive qualitative results analysis. Furthermore, sensitivity analysis experiments across mAP thresholds support the conclusion that Confluence is more robust than NMS. | 翻訳日:2021-06-01 07:41:36 公開日:2020-12-01 |
# (参考訳) フェデレーションラーニングに関する体系的文献レビュー:モデル品質の観点から A Systematic Literature Review on Federated Learning: From A Model Quality Perspective ( http://arxiv.org/abs/2012.01973v1 ) ライセンス: CC0 1.0 | Yi Liu, Li Zhang, Ning Ge, Guanghao Li | (参考訳) 新たな技術として、フェデレートラーニング(FL)は、グローバルモデルをローカルに残したデータと共同でトレーニングすることで、暗号化メカニズムを通じてデータプライバシ保護の問題を効果的に解決することができる。
クライアントはローカルモデルをトレーニングし、サーバは収束するまでモデルを集約する。
このプロセスでは、サーバはインセンティブメカニズムを使用して、クライアントに高品質で大量のデータを提供し、グローバルモデルを改善するように促します。
FLをIoT(Internet of Things, モノのインターネット)や医療, 製造などに適用する研究もあるが, FLの適用はまだ初期段階であり, 関連する課題も数多く解決する必要がある。
FLモデルの品質向上は、現在の研究ホットスポットの1つであり、課題である。
本稿では,FLモデルの品質向上へのアプローチを体系的に検討し,客観的に分析する。
また,プライバシ保護の実現は学習品質を損なう必要があるという懸念から,fl と non-fl の比較研究や応用動向にも関心がある。
flに関する最新論文147件を系統的レビュー手法を用いて分析した。
このレビューは、業界の学界と実践者の両方に有用な情報と洞察を提供する。
FLモデルの品質に影響を及ぼす重要な要因であるFLの学術研究と産業応用動向について研究を行い、FLと非FLのアルゴリズムを学習品質の観点から比較した。
レビューの結論に基づき、FLモデルの品質を改善するためのいくつかの提案を行う。
最後に,実践者のためのFLアプリケーションフレームワークを提案する。 As an emerging technique, Federated Learning (FL) can jointly train a global model with the data remaining locally, which effectively solves the problem of data privacy protection through the encryption mechanism. The clients train their local model, and the server aggregates models until convergence. In this process, the server uses an incentive mechanism to encourage clients to contribute high-quality and large-volume data to improve the global model. Although some works have applied FL to the Internet of Things (IoT), medicine, manufacturing, etc., the application of FL is still in its infancy, and many related issues need to be solved. Improving the quality of FL models is one of the current research hotspots and challenging tasks. This paper systematically reviews and objectively analyzes the approaches to improving the quality of FL models. We are also interested in the research and application trends of FL and the effect comparison between FL and non-FL because the practitioners usually worry that achieving privacy protection needs compromising learning quality. We use a systematic review method to analyze 147 latest articles related to FL. This review provides useful information and insights to both academia and practitioners from the industry. We investigate research questions about academic research and industrial application trends of FL, essential factors affecting the quality of FL models, and compare FL and non-FL algorithms in terms of learning quality. Based on our review's conclusion, we give some suggestions for improving the FL model quality. Finally, we propose an FL application framework for practitioners. | 翻訳日:2021-06-01 07:14:04 公開日:2020-12-01 |
# (参考訳) HVAC制御のためのMILPに基づく模倣学習 MILP-based Imitation Learning for HVAC control ( http://arxiv.org/abs/2012.00286v1 ) ライセンス: CC BY 4.0 | Huy Truong Dinh and Daehee Kim | (参考訳) 人工ニューラルネットワークのような高度な技術でHVACシステムの動作を最適化するには、従来の研究では予測情報が必要である。
しかし、予測情報は必然的に常にエラーを含むため、hvac動作の性能が低下する。
そこで本研究では, エネルギーコストを低減し, 熱快適性を維持するために, 予測情報を用いずに空調システムを制御するミルプ型模倣学習手法を提案する。
提案するコントローラは,MILPソルバによってラベル付けされたデータに履歴データを用いてトレーニングしたディープニューラルネットワーク(DNN)である。
トレーニング後、コントローラはリアルタイムデータでhvacシステムを制御するために使用されます。
また,予測情報を用いてHVACシステムを制御する第2の予測ベースMILPを開発した。
この2つの手法の性能は、ミシガン州デトロイト市における実際の屋外温度と実日頭価格を用いて検証される。
シミュレーションの結果,MILPを用いた模倣学習の性能は,時間当たりの消費電力,日当たりのエネルギーコスト,熱的快適性などの観点から予測に基づくMILP法よりも優れていることがわかった。
さらに,MILPを用いた模倣学習手法の結果と最適な結果との差はほとんど無視できる。
これらの最適な結果は、一日の天気や価格に関する完全な情報が得られる日の終わりにmilpソルバを使用することによってのみ達成されます。 To optimize the operation of a HVAC system with advanced techniques such as artificial neural network, previous studies usually need forecast information in their method. However, the forecast information inevitably contains errors all the time, which degrade the performance of the HVAC operation. Hence, in this study, we propose MILP-based imitation learning method to control a HVAC system without using the forecast information in order to reduce energy cost and maintain thermal comfort at a given level. Our proposed controller is a deep neural network (DNN) trained by using data labeled by a MILP solver with historical data. After training, our controller is used to control the HVAC system with real-time data. For comparison, we also develop a second method named forecast-based MILP which control the HVAC system using the forecast information. The performance of the two methods is verified by using real outdoor temperatures and real day-ahead prices in Detroit city, Michigan, United States. Numerical results clearly show that the performance of the MILP-based imitation learning is better than that of the forecast-based MILP method in terms of hourly power consumption, daily energy cost, and thermal comfort. Moreover, the difference between results of the MILP-based imitation learning method and optimal results is almost negligible. These optimal results are achieved only by using the MILP solver at the end of a day when we have full information on the weather and prices for the day. | 翻訳日:2021-06-01 06:32:00 公開日:2020-12-01 |
# (参考訳) BAN-ABSA:ベンガル語に対するアスペクトベース感性分析データセットとそのベースライン評価 BAN-ABSA: An Aspect-Based Sentiment Analysis dataset for Bengali and it's baseline evaluation ( http://arxiv.org/abs/2012.00288v1 ) ライセンス: CC BY 4.0 | Mahfuz Ahmed Masum, Sheikh Junayed Ahmed, Ayesha Tasnim, Md Saiful Islam | (参考訳) ソーシャルメディアや新聞のユーザーコメントの増加により、オンライン製品レビューのコメント、感情分析(SA)が研究者からかなりの関心を集めている。
ドメインの急速な増加により、SA作業は、文や文書の感情を予測するだけでなく、文や文書の様々な側面(すなわち、文書)について必要な詳細を提供することを目的としている。
アスペクトベースの感情分析)。
SAとアスペクトベースの感情分析(ABSA)のためのかなりの数のデータセットが、英語や他の有名なヨーロッパの言語で利用可能になっている。
本稿では,高品質なベンガル語データセットであるBAN-ABSAについて述べる。
データセットは、ベンガルの有名なニュースポータルから収集された9,009のユニークなコメントから、2,619のポジティブ、4,721のネガティブ、1,669の中立データサンプルで構成されている。
さらに、ディープラーニングモデルに着目したベースライン評価を行い、アスペクト項抽出の精度78.75%、感情分類の精度71.08%を実現した。
BAN-ABSAデータセットの実験では、平均F1スコアでCNNモデルよりも精度が良いが、Bi-LSTMはCNNモデルよりも優れていた。 Due to the breathtaking growth of social media or newspaper user comments, online product reviews comments, sentiment analysis (SA) has captured substantial interest from the researchers. With the fast increase of domain, SA work aims not only to predict the sentiment of a sentence or document but also to give the necessary detail on different aspects of the sentence or document (i.e. aspect-based sentiment analysis). A considerable number of datasets for SA and aspect-based sentiment analysis (ABSA) have been made available for English and other well-known European languages. In this paper, we present a manually annotated Bengali dataset of high quality, BAN-ABSA, which is annotated with aspect and its associated sentiment by 3 native Bengali speakers. The dataset consists of 2,619 positive, 4,721 negative and 1,669 neutral data samples from 9,009 unique comments gathered from some famous Bengali news portals. In addition, we conducted a baseline evaluation with a focus on deep learning model, achieved an accuracy of 78.75% for aspect term extraction and accuracy of 71.08% for sentiment classification. Experiments on the BAN-ABSA dataset show that the CNN model is better in terms of accuracy though Bi-LSTM significantly outperforms CNN model in terms of average F1-score. | 翻訳日:2021-06-01 06:17:14 公開日:2020-12-01 |
# (参考訳) 確率過程を近似する新しいアルゴリズムと高速な実装 New Algorithms And Fast Implementations To Approximate Stochastic Processes ( http://arxiv.org/abs/2012.01185v1 ) ライセンス: CC BY 4.0 | Kipngeno Benard Kirui, Georg Ch. Pflug, Alois Pichler | (参考訳) 確率過程をモデル化するための効率的な近似を求めるアルゴリズムと高速な実装を提案する。
多くの数値計算では、確率過程の有限近似を開発することが不可欠である。
While the goal is always to find a finite model, which represents a given knowledge about the real data process as accurate as possible, the ways of estimating the discrete approximating model may be quite different: (i) if the stochastic model is known as a solution of a stochastic differential equation, e.g., one may generate the scenario tree directly from the specified model; (ii) if a simulation algorithm is available, which allows simulating trajectories from all conditional distributions, a scenario tree can be generated by stochastic approximation; (iii) if only some observed trajectories of the scenario process are available, the construction of the approximating process can be based on non-parametric conditional density estimates. We present new algorithms and fast implementations to find efficient approximations for modelling stochastic processes. For many numerical computations it is essential to develop finite approximations for stochastic processes. While the goal is always to find a finite model, which represents a given knowledge about the real data process as accurate as possible, the ways of estimating the discrete approximating model may be quite different: (i) if the stochastic model is known as a solution of a stochastic differential equation, e.g., one may generate the scenario tree directly from the specified model; (ii) if a simulation algorithm is available, which allows simulating trajectories from all conditional distributions, a scenario tree can be generated by stochastic approximation; (iii) if only some observed trajectories of the scenario process are available, the construction of the approximating process can be based on non-parametric conditional density estimates. | 翻訳日:2021-06-01 06:10:41 公開日:2020-12-01 |
# (参考訳) インターバルデータとクラウドモデルを用いた不確かさ下での複数基準群決定- Multicriteria Group Decision-Making Under Uncertainty Using Interval Data and Cloud Models ( http://arxiv.org/abs/2012.01569v1 ) ライセンス: CC BY 4.0 | Hadi A. Khorshidi and Uwe Aickelin | (参考訳) 本研究では,データを間隔として収集する不確実性下でのマルチクリテリア群意思決定(mcgdm)アルゴリズムを提案する。
提案したMCGDMアルゴリズムは、データを集約し、基準の最適な重みを決定し、さらに入力なしで代替品をランク付けする。
インターバルは、基準に対する代替案を評価する専門家に柔軟性を与え、最大情報を得る機会を提供する。
また,クラウドモデルを用いて専門家判断を集約する新しい手法を提案する。
本稿では,アグリゲーション手法の有効性を確認する実験手法を提案する。
その後,MCGDM問題に対してアグリゲーション法を用いる。
ここでは,二値最適化モデルを提案することにより,各基準に対する最適重みを求める。
次に、クラウドモデルに基づくデータに対する理想解(TOPSIS)と類似性による選好順序の決定手法を拡張し、代替案を優先する。
その結果、アルゴリズムは不確実性のレベルが異なる意思決定者から情報を取得し、意思決定者からの情報のない代替案を調べることができる。
提案アルゴリズムは,サイバーセキュリティ問題のケーススタディに実装され,その実現可能性と有効性を示す。
その結果, 感度解析と既存アルゴリズムとの比較により, MCGDMのロバスト性と妥当性を検証した。 In this study, we propose a multicriteria group decision making (MCGDM) algorithm under uncertainty where data is collected as intervals. The proposed MCGDM algorithm aggregates the data, determines the optimal weights for criteria and ranks alternatives with no further input. The intervals give flexibility to experts in assessing alternatives against criteria and provide an opportunity to gain maximum information. We also propose a novel method to aggregate expert judgements using cloud models. We introduce an experimental approach to check the validity of the aggregation method. After that, we use the aggregation method for an MCGDM problem. Here, we find the optimal weights for each criterion by proposing a bilevel optimisation model. Then, we extend the technique for order of preference by similarity to ideal solution (TOPSIS) for data based on cloud models to prioritise alternatives. As a result, the algorithm can gain information from decision makers with different levels of uncertainty and examine alternatives with no more information from decision-makers. The proposed MCGDM algorithm is implemented on a case study of a cybersecurity problem to illustrate its feasibility and effectiveness. The results verify the robustness and validity of the proposed MCGDM using sensitivity analysis and comparison with other existing algorithms. | 翻訳日:2021-06-01 05:50:02 公開日:2020-12-01 |
# (参考訳) 癌および出生率データにおける無月経状態予測のための移行学習 Transfer learning to enhance amenorrhea status prediction in cancer and fertility data with missing values ( http://arxiv.org/abs/2012.01974v1 ) ライセンス: CC BY 4.0 | Xuetong Wu, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Zobaida Edib, Michelle Peate | (参考訳) 健康・医療問題に対する十分なラベル付きトレーニングデータ収集は困難である(Antropova, et al., 2018)。
また、健康や医療のデータセットでは値の欠如は避けられず、不適切なインスタンスから生じる問題に取り組むことは簡単ではない(snell, et al)。
2017年、sterne, et al。
2009).
しかし、機械学習アルゴリズムは、回帰や分類など、現実世界の多くの医療問題で大きな成功を収めており、これらのテクニックは、この問題を解決する方法になり得る。 Collecting sufficient labelled training data for health and medical problems is difficult (Antropova, et al., 2018). Also, missing values are unavoidable in health and medical datasets and tackling the problem arising from the inadequate instances and missingness is not straightforward (Snell, et al. 2017, Sterne, et al. 2009). However, machine learning algorithms have achieved significant success in many real-world healthcare problems, such as regression and classification and these techniques could possibly be a way to resolve the issues. | 翻訳日:2021-06-01 05:34:04 公開日:2020-12-01 |
# (参考訳) 患者類似性:方法と応用 Patient similarity: methods and applications ( http://arxiv.org/abs/2012.01976v1 ) ライセンス: CC BY 4.0 | Leyu Dai, He Zhu, Dianbo Liu | (参考訳) 患者類似性分析は医療応用において重要である。
電子カルテや遺伝データなどの患者情報を入力として取り、患者間のペアの類似性を計算する。
典型的な患者類似性研究の手順は、データ統合、類似度測定、近隣同定など、いくつかの段階に分けられる。
患者の類似性の分析によれば、医師は最も適切な治療法を簡単に見つけることができる。
クラスター分析のような類似性を分析する方法は数多く存在する。
機械学習が普及するにつれて、cnnのようなニューラルネットワークの利用がホットな話題になっている。
本稿では各ステップで使用される代表的手法を概説し,特に精密医療における患者類似性ネットワークの適用について論じる。 Patient similarity analysis is important in health care applications. It takes patient information such as their electronic medical records and genetic data as input and computes the pairwise similarity between patients. Procedures of typical a patient similarity study can be divided into several steps including data integration, similarity measurement, and neighborhood identification. And according to an analysis of patient similarity, doctors can easily find the most suitable treatments. There are many methods to analyze the similarity such as cluster analysis. And during machine learning become more and more popular, Using neural networks such as CNN is a new hot topic. This review summarizes representative methods used in each step and discusses applications of patient similarity networks especially in the context of precision medicine. | 翻訳日:2021-06-01 05:14:37 公開日:2020-12-01 |
# (参考訳) 機能アライメントによる教師なし部分発見 Unsupervised Part Discovery via Feature Alignment ( http://arxiv.org/abs/2012.00313v1 ) ライセンス: CC BY 4.0 | Mengqi Guo, Yutong Bai, Zhishuai Zhang, Adam Kortylewski, Alan Yuille | (参考訳) オブジェクトを個々の部分で理解することは、オブジェクトの幾何学的構造を正確に理解し、新しいポーズや部分的閉塞下でオブジェクトが見られたときにオブジェクト認識を強化するために重要である。
しかし、大規模なデータセットのパーツのマニュアルアノテーションは時間がかかり高価である。
本稿では,非教師的手法,すなわち,基幹部分やキーポイントアノテーションを使わずに,対象部分の発見を目指す。
我々のアプローチは、同じポーズで同じクラスのオブジェクトが同じ空間の場所に配置されるべきという直観に基づいている。
ニューラルネットワークの特徴はニュアンス変数にほとんど不変であり、同じオブジェクトカテゴリの画像間の変化の主な原因はオブジェクトのポーズである。
具体的には、訓練画像が与えられた場合、同じポーズで同じ対象カテゴリのインスタンスを示す類似画像セットを、対応する特徴マップのアフィンアラインメントを通じて見つける。
調整された機能マップの平均は、ディープネットワークバックボーンの教師付きトレーニングのための擬似基底アノテーションとして機能する。
推論の間、部品検出は単純で高速であり、フィードフォワードニューラルネットワーク以外のモジュールやオーバーヘッドは不要である。
提案手法の有効性を検証するため,複数の異なる領域のデータセットを用いた実験を行った。
例えば、自動車部品の37.8 mAPは、以前の方法よりも少なくとも4.2良い。 Understanding objects in terms of their individual parts is important, because it enables a precise understanding of the objects' geometrical structure, and enhances object recognition when the object is seen in a novel pose or under partial occlusion. However, the manual annotation of parts in large scale datasets is time consuming and expensive. In this paper, we aim at discovering object parts in an unsupervised manner, i.e., without ground-truth part or keypoint annotations. Our approach builds on the intuition that objects of the same class in a similar pose should have their parts aligned at similar spatial locations. We exploit the property that neural network features are largely invariant to nuisance variables and the main remaining source of variations between images of the same object category is the object pose. Specifically, given a training image, we find a set of similar images that show instances of the same object category in the same pose, through an affine alignment of their corresponding feature maps. The average of the aligned feature maps serves as pseudo ground-truth annotation for a supervised training of the deep network backbone. During inference, part detection is simple and fast, without any extra modules or overheads other than a feed-forward neural network. Our experiments on several datasets from different domains verify the effectiveness of the proposed method. For example, we achieve 37.8 mAP on VehiclePart, which is at least 4.2 better than previous methods. | 翻訳日:2021-06-01 05:02:19 公開日:2020-12-01 |
# (参考訳) オンラインハッシュのための高速なクラスワイド更新 Fast Class-wise Updating for Online Hashing ( http://arxiv.org/abs/2012.00318v1 ) ライセンス: CC BY 4.0 | Mingbao Lin, Rongrong Ji, Xiaoshuai Sun, Baochang Zhang, Feiyue Huang, Yonghong Tian, Dacheng Tao | (参考訳) オンライン画像ハッシュは近年,大規模データをストリーミング形式で処理し,ハッシュ機能をオンザフライで更新する研究の注目を集めている。
この目的のために、既存のほとんどの研究は、教師付き設定の下でこの問題を利用する。すなわち、クラスラベルを使用してハッシュ性能を向上し、適応性と効率の両面での欠陥に悩まされる: まず、最新のハッシュ関数を学ぶために大量のトレーニングバッチが必要である。
第二に、トレーニングは時間がかかり、オンライン学習のコアニーズと矛盾する。
本稿では,オンラインハッシュのための高速クラスワイド更新(FCOH, Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。
高速なオンライン適応性を実現するために、バイナリコードの学習を分解し、クラス毎の方法でハッシュ関数を再更新するクラス毎更新法が開発され、大量のトレーニングバッチの負担に十分対処している。
定量的には、このような分解は少なくとも75%のストレージの節約につながる。
オンライン効率をさらに高めるために,異なるバイナリ制約を独立に扱うことでオンライントレーニングを高速化する準相対化最適化を提案する。
追加の制約や変数がなければ、時間の複雑さは大幅に減少する。
このようなスキームは、ハッシュ関数の更新中に過去の情報を適切に保存するように定量的に示される。
我々は,クラスワイズ更新とセミレラクゼーション最適化の総合的な取り組みが,多種多様な最先端手法と比較して優れた性能をもたらすことを定量的に証明した。 Online image hashing has received increasing research attention recently, which processes large-scale data in a streaming fashion to update the hash functions on-the-fly. To this end, most existing works exploit this problem under a supervised setting, i.e., using class labels to boost the hashing performance, which suffers from the defects in both adaptivity and efficiency: First, large amounts of training batches are required to learn up-to-date hash functions, which leads to poor online adaptivity. Second, the training is time-consuming, which contradicts with the core need of online learning. In this paper, a novel supervised online hashing scheme, termed Fast Class-wise Updating for Online Hashing (FCOH), is proposed to address the above two challenges by introducing a novel and efficient inner product operation. To achieve fast online adaptivity, a class-wise updating method is developed to decompose the binary code learning and alternatively renew the hash functions in a class-wise fashion, which well addresses the burden on large amounts of training batches. Quantitatively, such a decomposition further leads to at least 75% storage saving. To further achieve online efficiency, we propose a semi-relaxation optimization, which accelerates the online training by treating different binary constraints independently. Without additional constraints and variables, the time complexity is significantly reduced. Such a scheme is also quantitatively shown to well preserve past information during updating hashing functions. We have quantitatively demonstrated that the collective effort of class-wise updating and semi-relaxation optimization provides a superior performance comparing to various state-of-the-art methods, which is verified through extensive experiments on three widely-used datasets. | 翻訳日:2021-06-01 04:46:51 公開日:2020-12-01 |
# (参考訳) 深部生成モデルを用いた低帯域ビデオチャット圧縮 Low Bandwidth Video-Chat Compression using Deep Generative Models ( http://arxiv.org/abs/2012.00328v1 ) ライセンス: CC BY 4.0 | Maxime Oquab, Pierre Stock, Oran Gafni, Daniel Haziza, Tao Xu, Peizhao Zhang, Onur Celebi, Yana Hasson, Patrick Labatut, Bobo Bose-Kolanu, Thibault Peyronel, Camille Couprie | (参考訳) 接続性や不便なデータコストに悩まされる数億の人々のビデオチャットをアンロックするために,送信側で抽出された顔のランドマークを用いて受信者の端末の顔の聴覚的に再構成し,ネットワークを介して送信することを提案する。
この文脈では、いくつかの深い敵対的アプローチの利点とデメリットを議論し、評価する。
特に,静的ランドマークや動的ランドマーク,セグメンテーションマップに基づくアプローチの品質と帯域幅のトレードオフについて検討する。
我々はSiarohinらの一階アニメーションモデルに基づくモバイル互換アーキテクチャを設計する。
また,SPADEブロックを利用して目や唇などの重要な領域で結果を洗練する。
ネットワークを約3MBまで圧縮し、iPhone 8(CPU)上でモデルをリアルタイムで実行できるようにします。
このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。 To unlock video chat for hundreds of millions of people hindered by poor connectivity or unaffordable data costs, we propose to authentically reconstruct faces on the receiver's device using facial landmarks extracted at the sender's side and transmitted over the network. In this context, we discuss and evaluate the benefits and disadvantages of several deep adversarial approaches. In particular, we explore quality and bandwidth trade-offs for approaches based on static landmarks, dynamic landmarks or segmentation maps. We design a mobile-compatible architecture based on the first order animation model of Siarohin et al. In addition, we leverage SPADE blocks to refine results in important areas such as the eyes and lips. We compress the networks down to about 3MB, allowing models to run in real time on iPhone 8 (CPU). This approach enables video calling at a few kbits per second, an order of magnitude lower than currently available alternatives. | 翻訳日:2021-06-01 04:16:11 公開日:2020-12-01 |
# (参考訳) 植物病理分類のための高効率ネットアーキテクチャに関する半教師付きノイズ学生事前学習 Semi-Supervised Noisy Student Pre-training on EfficientNet Architectures for Plant Pathology Classification ( http://arxiv.org/abs/2012.00332v1 ) ライセンス: CC BY 4.0 | Sedrick Scott Keh | (参考訳) 近年、深層学習は植物の様々な疾患の同定と診断を大幅に改善している。
本報告では,単一葉の画像を用いた病理分類の問題点について検討する。
本稿では、VGG16、ResNet101、DenseNet 161などの標準ベンチマークモデルを用いて、タスクの0.945のスコアを得る。
さらに,新しいefficiantnetモデルの利用について検討し,0.962に精度を改善した。
最後に,半教師付きノイズ学生教育の最先端概念をEfficientNetに導入し,精度と収束率の両面で大きな改善をもたらした。
最終的な無音な学生モデルは非常にうまく動作し、0.982のテストスコアに達した。 In recent years, deep learning has vastly improved the identification and diagnosis of various diseases in plants. In this report, we investigate the problem of pathology classification using images of a single leaf. We explore the use of standard benchmark models such as VGG16, ResNet101, and DenseNet 161 to achieve a 0.945 score on the task. Furthermore, we explore the use of the newer EfficientNet model, improving the accuracy to 0.962. Finally, we introduce the state-of-the-art idea of semi-supervised Noisy Student training to the EfficientNet, resulting in significant improvements in both accuracy and convergence rate. The final ensembled Noisy Student model performs very well on the task, achieving a test score of 0.982. | 翻訳日:2021-06-01 04:02:42 公開日:2020-12-01 |
# (参考訳) ステレオカメラによる自律走行用ロバスト・高精度物体速度検出 Robust and Accurate Object Velocity Detection by Stereo Camera for Autonomous Driving ( http://arxiv.org/abs/2012.00353v1 ) ライセンス: CC BY 4.0 | Toru Saito, Toshimi Okubo, Naoki Takahashi | (参考訳) 近年,車両に搭載されたカメラ搭載センサの数は劇的に増加したが,ロバストで高精度な物体速度検出は困難である。
また、レーダーを核融合システムとして用いることも一般的である。
我々は,自動車メーカーSUBARUが20年以上にわたって収集した大規模データセットに基づいて,カメラを用いて物体の速度を正確に検出する手法を開発した。
提案手法は,複数の立体差像を融合する高ダイナミックレンジ(HDR)検出法と,単分子および立体認識の結果を組み合わせた融合法と,新しい速度計算法とからなる。
試作したステレオカメラを実車に装着することにより,重症環境を定量的に再現できる測定装置と試験コースを用いて評価を行った。 Although the number of camera-based sensors mounted on vehicles has recently increased dramatically, robust and accurate object velocity detection is difficult. Additionally, it is still common to use radar as a fusion system. We have developed a method to accurately detect the velocity of object using a camera, based on a large-scale dataset collected over 20 years by the automotive manufacturer, SUBARU. The proposed method consists of three methods: an High Dynamic Range (HDR) detection method that fuses multiple stereo disparity images, a fusion method that combines the results of monocular and stereo recognitions, and a new velocity calculation method. The evaluation was carried out using measurement devices and a test course that can quantitatively reproduce severe environment by mounting the developed stereo camera on an actual vehicle. | 翻訳日:2021-05-31 13:20:07 公開日:2020-12-01 |
# (参考訳) 勾配法における正の凝集と勾配伝播の再考 Rethinking Positive Aggregation and Propagation of Gradients in Gradient-based Saliency Methods ( http://arxiv.org/abs/2012.00362v1 ) ライセンス: CC BY 4.0 | Ashkan Khakzar, Soroosh Baselizadeh, Nassir Navab | (参考訳) Saliencyメソッドは、ニューラルネットワークの予測を、その予測に入力要素の重要性を示すことによって解釈する。
公衆衛生手法の一般的なファミリーは、勾配情報を利用する。
本研究では, 勾配情報を扱う2つの手法, 正の凝集, 正の伝播, がこれらの手法を破ることを示す。
これらの方法は入力中の視覚的なサルエント情報を反映するが、生成されたサルエンシーマップは予測された出力に影響を受けず、モデルパラメータのランダム化に敏感であるため、モデル予測をもはや説明しない。
具体的には、GradCAM++やFullGradのような選択された層の勾配を集約するメソッドでは、正の勾配を排他的に集約することは有害である。
さらに,グラデーション情報の正のハンドリングを伴うアグリゲーション手法の変種を複数提案することで,これをさらに支持する。
LRP, RectGrad, Guided Backpropagationなどの勾配情報をバックプロパゲートする手法では, 正勾配情報のみを伝播させることによる破壊効果を示す。 Saliency methods interpret the prediction of a neural network by showing the importance of input elements for that prediction. A popular family of saliency methods utilize gradient information. In this work, we empirically show that two approaches for handling the gradient information, namely positive aggregation, and positive propagation, break these methods. Though these methods reflect visually salient information in the input, they do not explain the model prediction anymore as the generated saliency maps are insensitive to the predicted output and are insensitive to model parameter randomization. Specifically for methods that aggregate the gradients of a chosen layer such as GradCAM++ and FullGrad, exclusively aggregating positive gradients is detrimental. We further support this by proposing several variants of aggregation methods with positive handling of gradient information. For methods that backpropagate gradient information such as LRP, RectGrad, and Guided Backpropagation, we show the destructive effect of exclusively propagating positive gradient information. | 翻訳日:2021-05-31 13:10:10 公開日:2020-12-01 |
# (参考訳) コモンセンス生成のための拡張知識注入モデル An Enhanced Knowledge Injection Model for Commonsense Generation ( http://arxiv.org/abs/2012.00366v1 ) ライセンス: CC BY 4.0 | Zhihao Fan, Yeyun Gong, Zhongyu Wei, Siyuan Wang, Yameng Huang, Jian Jiao, Xuanjing Huang, Nan Duan, Ruofei Zhang | (参考訳) Commonsenseジェネレーションは、提供された概念のセットに基づいて、妥当な日常シナリオ記述を生成することを目的としている。
概念の関係をスクラッチから掘り下げることは自明ではないため、外部の知識からプロトタイプを取り出してシナリオの理解を支援し、より良い記述を生成する。
我々は,知識注入手順を強化するために,プリトレーニングエンコーダ・デコーダモデルに位置指示モジュールとスケーリングモジュールという2つの追加モジュールを統合する。
我々はcommongenベンチマークを用いて実験を行い,実験結果から全メトリクスの性能が大幅に向上することを確認した。 Commonsense generation aims at generating plausible everyday scenario description based on a set of provided concepts. Digging the relationship of concepts from scratch is non-trivial, therefore, we retrieve prototypes from external knowledge to assist the understanding of the scenario for better description generation. We integrate two additional modules, namely position indicator and scaling module, into the pretrained encoder-decoder model for prototype modeling to enhance the knowledge injection procedure. We conduct experiment on CommonGen benchmark, and experimental results show that our method significantly improves the performance on all the metrics. | 翻訳日:2021-05-31 12:59:39 公開日:2020-12-01 |
# (参考訳) 明示的意味分析におけるウィキペディア記事間の相互関連性の導入 Introducing Inter-Relatedness between Wikipedia Articles in Explicit Semantic Analysis ( http://arxiv.org/abs/2012.00398v1 ) ライセンス: CC BY 4.0 | Naveen Elango, Pawan Prasad K | (参考訳) 明示的意味分析(Explicit Semantic Analysis, ESA)は、ウィキペディアにある記事のような概念空間のベクトルとしてテキストを表現するための技法である。
本研究では,ESAから得られるベクトルに,Wikipedia記事間の相互関連性に関する知識を組み込む手法を提案する。
特に、ノードを記事として、エッジを2つの記事間の相互関係として表現するために、無向グラフを使用します。
また, コーパスを用いたベクトル表現と, 記事間の関連性であるトップダウン知識の具体化により, コーパスを用いたボトムアップ手法としてESAのステップが重要であることも強調した。
我々は,ウィキペディアコーパスのいくつかの小部分集合で仮説を検証し,提案手法がスピアマンのランク相関係数などの性能改善につながることを示す。 Explicit Semantic Analysis (ESA) is a technique used to represent a piece of text as a vector in the space of concepts, such as Articles found in Wikipedia. We propose a methodology to incorporate knowledge of Inter-relatedness between Wikipedia Articles to the vectors obtained from ESA using a technique called Retrofitting to improve the performance of subsequent tasks that use ESA to form vector embeddings. Especially we use an undirected Graph to represent this knowledge with nodes as Articles and edges as inter relations between two Articles. Here, we also emphasize how the ESA step could be seen as a predominantly bottom-up approach using a corpus to come up with vector representations and the incorporation of top-down knowledge which is the relations between Articles to further improve it. We test our hypothesis on several smaller subsets of the Wikipedia corpus and show that our proposed methodology leads to decent improvements in performance measures including Spearman's Rank correlation coefficient in most cases. | 翻訳日:2021-05-31 10:31:32 公開日:2020-12-01 |
# (参考訳) replicadpapers.org: 機械学習再現性をオープンに教える ReproducedPapers.org: Openly teaching and structuring machine learning reproducibility ( http://arxiv.org/abs/2012.01172v1 ) ライセンス: CC BY 4.0 | Burak Yildiz, Hayley Hung, Jesse H. Krijthe, Cynthia C. S. Liem, Marco Loog, Gosia Migut, Frans Oliehoek, Annibale Panichella, Przemyslaw Pawelczak, Stjepan Picek, Mathijs de Weerdt, and Jan van Gemert | (参考訳) ReproducedPapers.org: 機械学習再現性教育と構造化のためのオープンオンラインリポジトリ。
我々は,学生間で複製プロジェクトを行うことと,AI研究者間でオンライン複製リポジトリの付加価値を評価する。
匿名の自己評価調査を行い,144回答を得た。
その結果, 再生プロジェクトを行う学生は, 科学的再生を重視し, より批判的思考者となることが示唆された。
学生とAI研究者は、オンラインレクリエーションレポジトリが価値があることに同意します。 We present ReproducedPapers.org: an open online repository for teaching and structuring machine learning reproducibility. We evaluate doing a reproduction project among students and the added value of an online reproduction repository among AI researchers. We use anonymous self-assessment surveys and obtained 144 responses. Results suggest that students who do a reproduction project place more value on scientific reproductions and become more critical thinkers. Students and AI researchers agree that our online reproduction repository is valuable. | 翻訳日:2021-05-31 10:08:16 公開日:2020-12-01 |
# (参考訳) 期待最大化アルゴリズムを用いた弱修正任意字型テキスト検出 Weakly-Supervised Arbitrary-Shaped Text Detection with Expectation-Maximization Algorithm ( http://arxiv.org/abs/2012.00424v1 ) ライセンス: CC BY 4.0 | Mengbiao Zhao, Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu | (参考訳) 任意字型テキスト検出はコンピュータビジョンにおいて重要かつ困難な課題である。
既存の手法の多くは、教師付きトレーニングのためにポリゴンレベルテキスト領域ラベルを作成するために、重いデータラベリングを必要とする。
データラベリングのコストを削減するため、様々な弱い監督形式(画像レベルタグ、粗い、ゆるい、狭いバウンディングボックスなど)を組み合わせるために、弱い教師付き任意のテキスト検出について検討した。
本稿では,少量のポリゴンレベルアノテートデータと大量の弱アノテートデータとを組み合わせることで,正確な任意形状のテキスト検出器を訓練するための,期待最大化(em)ベースの弱教師付き学習フレームワークを提案する。
一方,弱教師付き学習を組み込むのに適した輪郭型任意形テキスト検出器を提案する。
任意の3つのテキストベンチマーク (CTW1500, Total-Text, ICDAR-ArT) において,(1) 10%の強い注釈付きデータと90%の弱い注釈付きデータを用いて, 提案手法は, 100%強い注釈付きデータと同等の性能を示す。
弱いアノテートされたデータセットを将来的に公開する予定です。 Arbitrary-shaped text detection is an important and challenging task in computer vision. Most existing methods require heavy data labeling efforts to produce polygon-level text region labels for supervised training. In order to reduce the cost in data labeling, we study weakly-supervised arbitrary-shaped text detection for combining various weak supervision forms (e.g., image-level tags, coarse, loose and tight bounding boxes), which are far easier for annotation. We propose an Expectation-Maximization (EM) based weakly-supervised learning framework to train an accurate arbitrary-shaped text detector using only a small amount of polygon-level annotated data combined with a large amount of weakly annotated data. Meanwhile, we propose a contour-based arbitrary-shaped text detector, which is suitable for incorporating weakly-supervised learning. Extensive experiments on three arbitrary-shaped text benchmarks (CTW1500, Total-Text and ICDAR-ArT) show that (1) using only 10% strongly annotated data and 90% weakly annotated data, our method yields comparable performance to state-of-the-art methods, (2) with 100% strongly annotated data, our method outperforms existing methods on all three benchmarks. We will make the weakly annotated datasets publicly available in the future. | 翻訳日:2021-05-31 10:01:38 公開日:2020-12-01 |
# (参考訳) てんかん発作予測のための脳波データを合成する生成モデル A Generative Model to Synthesize EEG Data for Epileptic Seizure Prediction ( http://arxiv.org/abs/2012.00430v1 ) ライセンス: CC BY 4.0 | Khansa Rasheed, Junaid Qadir, Terence J.O'Brien, Levin Kuhlmann, Adeel Razi | (参考訳) 発作が起こる前の発作の予測は、患者の生活に正常さをもたらすのに不可欠である。
研究者は、入力予測に手作りの特徴を用いた機械学習手法を採用した。
しかし、MLメソッドは、最高のMLモデルや最高の機能を選択するには複雑すぎる。
ディープラーニング手法は自動特徴抽出の分野で有用である。
正確な発作予測の障害の1つはてんかん発作データの不足である。
本稿では,脳波の合成サンプルを生成するために,深層畳み込み生成対向ネットワークを提案する。
我々は,合成データ,すなわち1クラスSVMと,畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
本研究のもう一つの目的は、真の予測と発作発生の間に平均10分間の移動学習を用いた拡張データに対するトレーニングモデルにより、よく知られたディープラーニングモデル(VGG16, VGG19, ResNet50, Inceptionv3)の性能を評価することである。
以上の結果から,CESPモデルは78.11%,88.21%,FPRは0.27/h,0.14/hであり,それぞれ実エピレプシエコシステムとCHB-MITのデータセットを用いて合成および試験を行った。
合成データを用いたcespの効果的な評価結果から,合成データは特徴とラベルの相関性が非常に良好であった。
また,inceptionv3 で達成した 90.03% と 0.03 fpr/h の感度が最も高く,dcgan から生成したサンプルによるデータ拡張により cesp モデルとinceptionv3 の予測結果が,従来手法と比較して4~5%向上することを示した。
最後に、拡張データを用いたcespの予測結果が、両方のデータセットの確率レベルよりも優れていることに注意する。 Prediction of seizure before they occur is vital for bringing normalcy to the lives of patients. Researchers employed machine learning methods using hand-crafted features for seizure prediction. However, ML methods are too complicated to select the best ML model or best features. Deep Learning methods are beneficial in the sense of automatic feature extraction. One of the roadblocks for accurate seizure prediction is scarcity of epileptic seizure data. This paper addresses this problem by proposing a deep convolutional generative adversarial network to generate synthetic EEG samples. We use two methods to validate synthesized data namely, one-class SVM and a new proposal which we refer to as convolutional epileptic seizure predictor (CESP). Another objective of our study is to evaluate performance of well-known deep learning models (e.g., VGG16, VGG19, ResNet50, and Inceptionv3) by training models on augmented data using transfer learning with average time of 10 min between true prediction and seizure onset. Our results show that CESP model achieves sensitivity of 78.11% and 88.21%, and FPR of 0.27/h and 0.14/h for training on synthesized and testing on real Epilepsyecosystem and CHB-MIT datasets, respectively. Effective results of CESP trained on synthesized data shows that synthetic data acquired the correlation between features and labels very well. We also show that employment of idea of transfer learning and data augmentation in patient-specific manner provides highest accuracy with sensitivity of 90.03% and 0.03 FPR/h which was achieved using Inceptionv3, and that augmenting data with samples generated from DCGAN increased prediction results of our CESP model and Inceptionv3 by 4-5% as compared to state-of-the-art traditional augmentation techniques. Finally, we note that prediction results of CESP achieved by using augmented data are better than chance level for both datasets. | 翻訳日:2021-05-31 09:49:06 公開日:2020-12-01 |
# (参考訳) SRG-Net: 3D Pointwise CNN法によるTerracotta Warrior Point Cloudの教師なしセグメンテーション SRG-Net: Unsupervised Segmentation for Terracotta Warrior Point Cloud with 3D Pointwise CNN methods ( http://arxiv.org/abs/2012.00433v1 ) ライセンス: CC BY 4.0 | Yao Hu, Guohua Geng, Kang Li, Wei Zhou, Xingxing Hao, Xin Cao | (参考訳) 本稿では,terracotta warriorsの3dポイントクラウドを用いた非教師なし部分セグメンテーションのためのシード領域成長cnn(srg-net)を提案する。
3dにおける従来のニューラルネットワークの研究は、主に教師付き分類、クラスタリング、教師なし表現、再構成に関するものである。
教師なしのポイントクラウド部分のセグメンテーションに焦点を当てた研究は少ない。
これらの問題に対処するために,terracotta warriorsの3dポイントクラウドを用いた非教師なし部分セグメンテーションのためのシード領域成長型cnn(srg-net)を提案する。
まず,大まかにポイントクラウドを分割する独自のシード領域成長アルゴリズムを提案する。
次に,3次元点雲の特性をよりよく理解するために,教師ありセグメント化と教師なし再構成ネットワークを提案する。
最後に、SRGアルゴリズムと改良されたCNNをSRG-Netと呼ばれる改良手法で組み合わせ、テラコッタ戦士のセグメンテーション作業を行う。
提案するSRG-Netは, タラコッタ戦士のデータとShapeNetのベンチマークデータセットを用いて, 結合平均交点(mIoU)と遅延の測定を行った。
実験の結果,SRG-Netは最先端手法よりも優れていた。
私たちのコードはhttps://github.com/hyoau/srg-netで利用可能です。 In this paper, we present a seed-region-growing CNN(SRG-Net) for unsupervised part segmentation with 3D point clouds of terracotta warriors. Previous neural network researches in 3D are mainly about supervised classification, clustering, unsupervised representation and reconstruction. There are few researches focusing on unsupervised point cloud part segmentation. To address these problems, we present a seed-region-growing CNN(SRG-Net) for unsupervised part segmentation with 3D point clouds of terracotta warriors. Firstly, we propose our customized seed region growing algorithm to coarsely segment the point cloud. Then we present our supervised segmentation and unsupervised reconstruction networks to better understand the characteristics of 3D point clouds. Finally, we combine the SRG algorithm with our improved CNN using a refinement method called SRG-Net to conduct the segmentation tasks on the terracotta warriors. Our proposed SRG-Net are evaluated on the terracotta warriors data and the benchmark dataset of ShapeNet with measuring mean intersection over union(mIoU) and latency. The experimental results show that our SRG-Net outperforms the state-of-the-art methods. Our code is available at https://github.com/hyoau/SRG-Net. | 翻訳日:2021-05-31 09:33:14 公開日:2020-12-01 |
# (参考訳) 効率的なRGBとRGB-Dサルエント物体検出のための統一構造 A Unified Structure for Efficient RGB and RGB-D Salient Object Detection ( http://arxiv.org/abs/2012.00437v1 ) ライセンス: CC BY 4.0 | Peng Peng, Yong-Jie Li | (参考訳) 局所物体検出(SOD)は近年,特にディープニューラルネットワークを用いてよく研究されている。
しかしながら、RGBとRGB-Dの画像を持つSODは通常、2つの異なるネットワーク構造を持つタスクとして扱われる。
本稿では,SODの両タスクを効率的に扱うために,クロスアテンションコンテキスト抽出(CRACE)モジュールを用いた統一的で効率的な構造を提案する。
提案したCRACEモジュールは2つ(RGB SOD)または3つ(RGB-D SOD)の入力を受信し、適切に融合する。
CRACEモジュールを備えた単純な統合機能ピラミッドネットワーク(FPN)のような構造は、サリエンシとバウンダリの多層監視の下で結果を伝達し、洗練する。
提案した構造は単純だが有効であり、RGBと深さの豊富なコンテキスト情報を適切に抽出し、効率的に融合することができる。
実験の結果,rgbとrgb-dのsodタスクにおいて,従来の手法よりも多くの測定値において優れていた。 Salient object detection (SOD) has been well studied in recent years, especially using deep neural networks. However, SOD with RGB and RGB-D images is usually treated as two different tasks with different network structures that need to be designed specifically. In this paper, we proposed a unified and efficient structure with a cross-attention context extraction (CRACE) module to address both tasks of SOD efficiently. The proposed CRACE module receives and appropriately fuses two (for RGB SOD) or three (for RGB-D SOD) inputs. The simple unified feature pyramid network (FPN)-like structure with CRACE modules conveys and refines the results under the multi-level supervisions of saliency and boundaries. The proposed structure is simple yet effective; the rich context information of RGB and depth can be appropriately extracted and fused by the proposed structure efficiently. Experimental results show that our method outperforms other state-of-the-art methods in both RGB and RGB-D SOD tasks on various datasets and in terms of most metrics. | 翻訳日:2021-05-31 09:15:25 公開日:2020-12-01 |
# (参考訳) 正規化流れによる変分ベイズ系統推定の改良 Improved Variational Bayesian Phylogenetic Inference with Normalizing Flows ( http://arxiv.org/abs/2012.00459v1 ) ライセンス: CC BY 4.0 | Cheng Zhang | (参考訳) variational bayesian phylogenetic inference (vbpi) は、系統的後方の効率的な推定のための、有望な一般的な変分的枠組みを提供する。
しかし、現在の対角形対数正規分岐長近似は近似分布の品質を著しく制限する。
本稿では, 深層学習技術を用いた系統的後生推定の活用に向けた第一歩として, 新たなVBPI, VBPI-NFを提案する。
系統学モデルの非ユークリッド分岐長空間を注意深く設計された置換同変変換で扱うことにより、vbpi-nfは正規化フローを使用して、異なるツリートポロジーにまたがる柔軟な分岐長分布のリッチな族を提供する。
vbpi-nfは実データベイズ型系統推定問題のベンチマークにおいてバニラvbpiを著しく改善することを示した。
さらに、これらの置換同変変換における構造的パラメタライゼーションが、さらなるアモーティゼーションの恩恵をもたらすことも明らかにした。 Variational Bayesian phylogenetic inference (VBPI) provides a promising general variational framework for efficient estimation of phylogenetic posteriors. However, the current diagonal Lognormal branch length approximation would significantly restrict the quality of the approximating distributions. In this paper, we propose a new type of VBPI, VBPI-NF, as a first step to empower phylogenetic posterior estimation with deep learning techniques. By handling the non-Euclidean branch length space of phylogenetic models with carefully designed permutation equivariant transformations, VBPI-NF uses normalizing flows to provide a rich family of flexible branch length distributions that generalize across different tree topologies. We show that VBPI-NF significantly improves upon the vanilla VBPI on a benchmark of challenging real data Bayesian phylogenetic inference problems. Further investigation also reveals that the structured parameterization in those permutation equivariant transformations can provide additional amortization benefit. | 翻訳日:2021-05-31 08:22:31 公開日:2020-12-01 |
# (参考訳) IoTボットネット攻撃検出のためのユニバーサル機能セットを目指して Towards a Universal Features Set for IoT Botnet Attacks Detection ( http://arxiv.org/abs/2012.00463v1 ) ライセンス: CC BY 4.0 | Faisal Hussain, Syed Ghazanfar Abbas, Ubaid U. Fayyaz, Ghalib A. Shah, Abdullah Toqeer, Ahmad Ali | (参考訳) IoTデバイスのセキュリティの落とし穴は、攻撃者がIoTデバイスを悪用し、ボットネットの一部にすることを容易にする。
数十万のIoTデバイスが侵入されてボットネットの一部となると、攻撃者はこのボットネットを使用して、ターゲットのWebサイトやサービスを取り除き、正当なユーザに対応することができない、大規模で複雑な分散サービス拒否(DDoS)攻撃を起動する。
これまでに多くのボットネット検出技術が提案されているが、その性能はトレーニング対象の特定のデータセットに限られている。
これは、あるボットネットデータセットで機械学習モデルをトレーニングするために使用される機能は、攻撃パターンの多様性のため、他のデータセットではうまく動作しないためである。
そこで本稿では,基盤となるデータセットに関係なく,ボットネット攻撃をよりよく検出するための普遍的な特徴セットを提案する。
提案した機能は、トレーニングされた機械学習モデルを3つの異なるボットネット攻撃データセット上でテストする際に、ボットネット攻撃を検出するために顕著な結果を示す。 The security pitfalls of IoT devices make it easy for the attackers to exploit the IoT devices and make them a part of a botnet. Once hundreds of thousands of IoT devices are compromised and become the part of a botnet, the attackers use this botnet to launch the large and complex distributed denial of service (DDoS) attacks which take down the target websites or services and make them unable to respond the legitimate users. So far, many botnet detection techniques have been proposed but their performance is limited to a specific dataset on which they are trained. This is because the features used to train a machine learning model on one botnet dataset, do not perform well on other datasets due to the diversity of attack patterns. Therefore, in this paper, we propose a universal features set to better detect the botnet attacks regardless of the underlying dataset. The proposed features set manifest preeminent results for detecting the botnet attacks when tested the trained machine learning models over three different botnet attack datasets. | 翻訳日:2021-05-31 07:36:03 公開日:2020-12-01 |
# (参考訳) 重力を考慮したパノラマ縫合の最小解法 Minimal Solutions for Panoramic Stitching Given Gravity Prior ( http://arxiv.org/abs/2012.00465v1 ) ライセンス: CC BY 4.0 | Yaqing Ding, Daniel Barath, Zuzana Kukelova | (参考訳) パノラマを撮影する場合、人々はカメラを垂直軸、すなわち重力の向きに合わせる傾向にある。
さらに、スマートフォンやタブレットなどの現代のデバイスには、重力ベクトルを正確に測定できるIMU(Inertial Measurement Unit)が搭載されている。
この前もって、カメラのy軸はアライメントされるか、既にアライメントされていると仮定できるため、相対方向は1-DOF(自由度)に低下する。
この仮定を実行し、光学中心を持つカメラによって撮影された画像のパノラマ画像縫合(パノラマ画像縫合)に対する新しい最小限の解を提案する。
我々は4つの実用的カメラ構成を考察し, 半径歪みの有無に関わらず, 焦点距離の変動や不確かさを仮定した。
このソルバーは、合成シーンと、sun360データセットの500万以上の実画像ペアの両方と、imusを搭載した2台のスマートフォンで撮影されたシーンの両方でテストされている。
精度と処理時間の両方において、最先端技術よりも優れていることを示す。 When capturing panoramas, people tend to align their cameras with the vertical axis, i.e., the direction of gravity. Moreover, modern devices, such as smartphones and tablets, are equipped with an IMU (Inertial Measurement Unit) that can measure the gravity vector accurately. Using this prior, the y-axes of the cameras can be aligned or assumed to be already aligned, reducing their relative orientation to 1-DOF (degree of freedom). Exploiting this assumption, we propose new minimal solutions to panoramic image stitching of images taken by cameras with coinciding optical centers, i.e., undergoing pure rotation. We consider four practical camera configurations, assuming unknown fixed or varying focal length with or without radial distortion. The solvers are tested both on synthetic scenes and on more than 500k real image pairs from the Sun360 dataset and from scenes captured by us using two smartphones equipped with IMUs. It is shown, that they outperform the state-of-the-art both in terms of accuracy and processing time. | 翻訳日:2021-05-31 07:20:01 公開日:2020-12-01 |
# (参考訳) 機能再スケーリング因子によるクラスタリカバリの改善 Improving cluster recovery with feature rescaling factors ( http://arxiv.org/abs/2012.00477v1 ) ライセンス: CC BY-SA 4.0 | Renato Cordeiro de Amorim and Vladimir Makarenkov | (参考訳) データプリプロセッシングステージは、クラスタリングにおいて不可欠である。
特徴は異なるスケールを使ってエンティティを記述することができる。
これを正すために、通常は、選択したクラスタリングアルゴリズムの目的関数で他の機能を上回らないように、再スケーリングを目的とした機能正規化を適用する。
本稿では,再スケーリング手順がすべての特徴を同一に扱うべきではないことを論じる。
その代わり、クラスタリングにもっと意味のある機能を好むべきです。
このことを念頭に置いて,各機能のクラスタ内関連性を考慮した機能再スケーリング手法を提案する。
提案手法を用いたクラスタリング手法は, 従来のデータ正規化手法よりも明らかに優れていることを示す。 The data preprocessing stage is crucial in clustering. Features may describe entities using different scales. To rectify this, one usually applies feature normalisation aiming at rescaling features so that none of them overpowers the others in the objective function of the selected clustering algorithm. In this paper, we argue that the rescaling procedure should not treat all features identically. Instead, it should favour the features that are more meaningful for clustering. With this in mind, we introduce a feature rescaling method that takes into account the within-cluster degree of relevance of each feature. Our comprehensive simulation study, carried out on real and synthetic data, with and without noise features, clearly demonstrates that clustering methods that use the proposed data normalization strategy clearly outperform those that use traditional data normalization. | 翻訳日:2021-05-31 06:37:54 公開日:2020-12-01 |
# (参考訳) 三角面の最も遠いサンプリングセグメンテーション Farthest sampling segmentation of triangulated surfaces ( http://arxiv.org/abs/2012.00478v1 ) ライセンス: CC BY 4.0 | Victoria Hern\'andez-Mederos, Dimas Mart\'inez, Jorge Estrada-Sarlabous and Valia Guerra-Ones | (参考訳) 本稿では,親和性行列のサブ行列である$W^k$の計算と,k平均クラスタリングアルゴリズムの$W^k$の行への適用の2つの基本ステップからなる,三角曲面の分節化のための新しい手法であるFarthest Smpling Segmentation(FSS)を紹介する。
準行列 $w^k$ は、すべての三角形といくつかの特別な三角形の間の親和性を計算することで得られる。
これは、完全に構築せずに$w$の列のサンプルを選択することと等価である。
提案手法は,$W$の列数のみを計算し,$W$の固有分解や$W$の任意の部分行列を必要としないため,他のセグメンテーションアルゴリズムよりも計算的に安価である。
我々は、$W^k$ の列によって生成される空間上の$W$の直交射影が、$W$ のサンプルとして$W^k$ の列を用いて Nystr\"om が計算した$k$ 固有ベクトルによって生成される空間上の$W$の直交射影と一致することを証明した。
さらに,$k$ を増加させるには,$w^k$ の行間の近接関係は,対応する$w$ の行間の近接関係を忠実に反映する傾向があることが示された。
FSS法は手動で調整しなければならないパラメータに依存しず、三角形間の距離を定義するために任意の計量を扱えるので非常に柔軟である。
いくつかの測定値と多種多様な3次元三角形メッシュによる数値実験により、W$の10%未満の計算で得られたセグメンテーションは、完全な行列の行をクラスタリングすることによって得られるものと同等であることが示された。 In this paper we introduce Farthest Sampling Segmentation (FSS), a new method for segmentation of triangulated surfaces, which consists of two fundamental steps: the computation of a submatrix $W^k$ of the affinity matrix $W$ and the application of the k-means clustering algorithm to the rows of $W^k$. The submatrix $W^k$ is obtained computing the affinity between all triangles and only a few special triangles: those which are farthest in the defined metric. This is equivalent to select a sample of columns of $W$ without constructing it completely. The proposed method is computationally cheaper than other segmentation algorithms, since it only calculates few columns of $W$ and it does not require the eigendecomposition of $W$ or of any submatrix of $W$. We prove that the orthogonal projection of $W$ on the space generated by the columns of $W^k$ coincides with the orthogonal projection of $W$ on the space generated by the $k$ eigenvectors computed by Nystr\"om's method using the columns of $W^k$ as a sample of $W$. Further, it is shown that for increasing size $k$, the proximity relationship among the rows of $W^k$ tends to faithfully reflect the proximity among the corresponding rows of $W$. The FSS method does not depend on parameters that must be tuned by hand and it is very flexible, since it can handle any metric to define the distance between triangles. Numerical experiments with several metrics and a large variety of 3D triangular meshes show that the segmentations obtained computing less than the 10% of columns $W$ are as good as those obtained from clustering the rows of the full matrix $W$. | 翻訳日:2021-05-31 06:14:38 公開日:2020-12-01 |
# (参考訳) 高次元データ解析のための一貫性表現学習 Consistent Representation Learning for High Dimensional Data Analysis ( http://arxiv.org/abs/2012.00481v1 ) ライセンス: CC BY 4.0 | Stan Z. Li, Lirong Wu and Zelin Zang | (参考訳) 探索と発見のための高次元データ分析には、3つの基本的なタスクが含まれる。
3つの関連するタスクが別々に実行される場合、これまでの場合と同様に、データジオメトリなどの観点からは、タスク間に矛盾が発生することがある。
これはデータ解釈の混乱や誤解を招く可能性がある。
本稿では,3つのタスクをエンドツーエンドに達成し,構成性を改善するために,一貫性表現学習(CRL)と呼ばれるニューラルネットワークに基づく新しい手法を提案する。
CRLネットワークは、2つの非線形次元減少(NLDR)変換からなる:(1)入力データ空間からクラスタリングのための潜在特徴空間への変換、(2)クラスタリング空間から可視化のための最終2Dまたは3D空間への変換。
重要なことに、2つのnldr変換は、空間層やネットワーク層にまたがる局所幾何保存(lgp)制約を最善に満たし、処理フローに沿ったデータ構成を改善するために行われる。
また,この不整合を評価するための新しい指標であるクラスタリング・ビジュアライゼーション・アンコンシスタンシー(cvi)を提案する。
大規模比較の結果,提案したCRLニューラルネットワーク手法は,評価指標や可視化の観点から,一般的なt-SNEやUMAPベースのクラスタリングや可視化アルゴリズムよりも優れていた。 High dimensional data analysis for exploration and discovery includes three fundamental tasks: dimensionality reduction, clustering, and visualization. When the three associated tasks are done separately, as is often the case thus far, inconsistencies can occur among the tasks in terms of data geometry and others. This can lead to confusing or misleading data interpretation. In this paper, we propose a novel neural network-based method, called Consistent Representation Learning (CRL), to accomplish the three associated tasks end-to-end and improve the consistencies. The CRL network consists of two nonlinear dimensionality reduction (NLDR) transformations: (1) one from the input data space to the latent feature space for clustering, and (2) the other from the clustering space to the final 2D or 3D space for visualization. Importantly, the two NLDR transformations are performed to best satisfy local geometry preserving (LGP) constraints across the spaces or network layers, to improve data consistencies along with the processing flow. Also, we propose a novel metric, clustering-visualization inconsistency (CVI), for evaluating the inconsistencies. Extensive comparative results show that the proposed CRL neural network method outperforms the popular t-SNE and UMAP-based and other contemporary clustering and visualization algorithms in terms of evaluation metrics and visualization. | 翻訳日:2021-05-31 05:37:06 公開日:2020-12-01 |
# (参考訳) 混合帯域音声データのための統合深層話者埋め込みフレームワーク A Unified Deep Speaker Embedding Framework for Mixed-Bandwidth Speech Data ( http://arxiv.org/abs/2012.00486v1 ) ライセンス: CC BY 4.0 | Weicheng Cai, Ming Li | (参考訳) 本稿では,異なるサンプリング率で音声データをモデル化するための統合型深層話者埋め込みフレームワークを提案する。
広帯域スペクトログラムのサブイメージとして,狭帯域スペクトログラムを考慮し,画像分類手法を用いて混合帯域データの合同モデリング問題に取り組む。
この観点から,異なるトレーニングシナリオとテストデータシナリオにおいて,複数の混合帯域幅合同トレーニング戦略を詳述する。
提案するシステムは,単一の話者埋め込みモデルにおいて,帯域幅の混合音声データを柔軟に処理でき,追加のダウンサンプリングやアップサンプリング,帯域幅拡張,パディング操作が不要である。
voxceleb1データセットに関する広範な実験を行った。
さらに,提案手法の有効性をSITWとNIST SRE 2016データセットで検証した。 This paper proposes a unified deep speaker embedding framework for modeling speech data with different sampling rates. Considering the narrowband spectrogram as a sub-image of the wideband spectrogram, we tackle the joint modeling problem of the mixed-bandwidth data in an image classification manner. From this perspective, we elaborate several mixed-bandwidth joint training strategies under different training and test data scenarios. The proposed systems are able to flexibly handle the mixed-bandwidth speech data in a single speaker embedding model without any additional downsampling, upsampling, bandwidth extension, or padding operations. We conduct extensive experimental studies on the VoxCeleb1 dataset. Furthermore, the effectiveness of the proposed approach is validated by the SITW and NIST SRE 2016 datasets. | 翻訳日:2021-05-31 05:17:27 公開日:2020-12-01 |
# (参考訳) 畳み込みニューラルネットワークにおける心電図表現の問題点 Problems of representation of electrocardiograms in convolutional neural networks ( http://arxiv.org/abs/2012.00493v1 ) ライセンス: CC BY 4.0 | Iana Sereda, Sergey Alekseev, Aleksandra Koneva, Alexey Khorkin, Grigory Osipov | (参考訳) 例えば、心電図を用いて、標準畳み込みネットワークによる不正確な繰り返しパターンを含む1次元信号のモデル化時に生じる特徴的問題を示す。
これらの問題は本質的に体系的であることを示す。
これらは、畳み込みネットワークが複合オブジェクトでどのように機能するかに起因するが、その一部は厳格に固定されていないが、大きな移動性を持っている。
また,ディープネットワークの一般化に関する直観に反する効果を示す。 Using electrocardiograms as an example, we demonstrate the characteristic problems that arise when modeling one-dimensional signals containing inaccurate repeating pattern by means of standard convolutional networks. We show that these problems are systemic in nature. They are due to how convolutional networks work with composite objects, parts of which are not fixed rigidly, but have significant mobility. We also demonstrate some counterintuitive effects related to generalization in deep networks. | 翻訳日:2021-05-31 04:31:32 公開日:2020-12-01 |
# (参考訳) 複数の個体群を持つ進化的アルゴリズムを用いたDNA混合脱畳畳み込み、ヒルクライミングおよび誘導突然変異 DNA mixture deconvolution using an evolutionary algorithm with multiple populations, hill-climbing, and guided mutation ( http://arxiv.org/abs/2012.00513v1 ) ライセンス: CC BY 4.0 | S{\o}ren B. Vilsen, Torben Tvedebrink, and Poul Svante Eriksen | (参考訳) DNAは、法医学遺伝学で分析された犯罪事例をサンプリングし、しばしば複数のコントリビュータのDNAを含む。
これらは、DNAサンプルへの個々のコントリビュータのDNAプロファイルの畳み込みとして起こる。
したがって、貢献者が1人以上いない場合、関心の対象は、これらの未知のプロファイルの分離(しばしばデコンボリューションと呼ばれる)である。
未知のDNAプロファイルのデコンボリューションを得るため,多集団進化アルゴリズム(MEA)を導入した。
我々は、MEAの突然変異演算子に対して、その適合性は確率モデルに基づいており、符号化された個体のすべての要素に対する観測値と期待値との偏差を利用して誘導することを許した。
この誘導突然変異演算子(GM)は、より大きいほど突然変異の確率が高くなるように設計された。
さらにgmは時間的に不均一であり,イテレーション数の増加に伴い,一定の下限まで低下した。
異なる混合割合で102人のDNA混合物を解析した。
サンプルは2つの異なるDNAプレップを用いて定量化した。
キット: (1) Illumina ForenSeq Panel B (30サンプル), (2) Applied Biosystems Precision ID Globalfiler NGS STR panel (72サンプル)。
DNA混合物はMEAによって分解され、サンプルの真のDNAプロファイルと比較された。
そこで本研究では,(1)主犯のDNAプロファイルが不明,(2)未成年者のDNAプロファイルが不明,(3)両DNAプロファイルが不明であった3つのシナリオを分析した。
さらに,ForenSeqパネルのサブポピュレーションサイズを変動させ,完全ランダムな同種突然変異演算子と誘導演算子を比較し,変異崩壊率を変動させ,親集団の丘登りを可能にする一連の感度実験を行った。 DNA samples crime cases analysed in forensic genetics, frequently contain DNA from multiple contributors. These occur as convolutions of the DNA profiles of the individual contributors to the DNA sample. Thus, in cases where one or more of the contributors were unknown, an objective of interest would be the separation, often called deconvolution, of these unknown profiles. In order to obtain deconvolutions of the unknown DNA profiles, we introduced a multiple population evolutionary algorithm (MEA). We allowed the mutation operator of the MEA to utilise that the fitness is based on a probabilistic model and guide it by using the deviations between the observed and the expected value for every element of the encoded individual. This guided mutation operator (GM) was designed such that the larger the deviation the higher probability of mutation. Furthermore, the GM was inhomogeneous in time, decreasing to a specified lower bound as the number of iterations increased. We analysed 102 two-person DNA mixture samples in varying mixture proportions. The samples were quantified using two different DNA prep. kits: (1) Illumina ForenSeq Panel B (30 samples), and (2) Applied Biosystems Precision ID Globalfiler NGS STR panel (72 samples). The DNA mixtures were deconvoluted by the MEA and compared to the true DNA profiles of the sample. We analysed three scenarios where we assumed: (1) the DNA profile of the major contributor was unknown, (2) DNA profile of the minor was unknown, and (3) both DNA profiles were unknown. Furthermore, we conducted a series of sensitivity experiments on the ForenSeq panel by varying the sub-population size, comparing a completely random homogeneous mutation operator to the guided operator with varying mutation decay rates, and allowing for hill-climbing of the parent population. | 翻訳日:2021-05-31 04:19:51 公開日:2020-12-01 |
# (参考訳) Semantic AnsweR Type Prediction Task (SMART) at ISWC 2020 Semantic Web Challenge (英語) SeMantic AnsweR Type prediction task (SMART) at ISWC 2020 Semantic Web Challenge ( http://arxiv.org/abs/2012.00555v1 ) ライセンス: CC BY 4.0 | Nandana Mihindukulasooriya and Mohnish Dubey and Alfio Gliozzo and Jens Lehmann and Axel-Cyrille Ngonga Ngomo and Ricardo Usbeck | (参考訳) 毎年、国際セマンティックウェブ会議(international semantic web conference)は、特定の問題領域におけるアートソリューションの状態を前進させるコンペティションを確立するための一連のセマンティックwebチャレンジを受け入れている。
Semantic AnsweR Type予測タスク(SMART)は、ISWC 2020の課題の一部であった。
質問タイプと回答タイプの予測は、正しい質問を生成するのに役立つ洞察を提供する知識ベース質問応答システムにおいて重要な役割を果たす。
より具体的には、自然言語の質問が与えられた場合、SMARTチャレンジのタスクは、ターゲットオントロジー(DBpediaやWikidataなど)を使って答えの型を予測することである。 Each year the International Semantic Web Conference accepts a set of Semantic Web Challenges to establish competitions that will advance the state of the art solutions in any given problem domain. The SeMantic AnsweR Type prediction task (SMART) was part of ISWC 2020 challenges. Question type and answer type prediction can play a key role in knowledge base question answering systems providing insights that are helpful to generate correct queries or rank the answer candidates. More concretely, given a question in natural language, the task of SMART challenge is, to predict the answer type using a target ontology (e.g., DBpedia or Wikidata). | 翻訳日:2021-05-31 03:50:23 公開日:2020-12-01 |
# (参考訳) 高速かつロバストな特徴選択:オートエンコーダのためのエネルギー効率のよいスパーストレーニングの強み Quick and Robust Feature Selection: the Strength of Energy-efficient Sparse Training for Autoencoders ( http://arxiv.org/abs/2012.00560v1 ) ライセンス: CC BY 4.0 | Zahra Atashgahi, Ghada Sokar, Tim van der Lee, Elena Mocanu, Decebal Constantin Mocanu, Raymond Veldhuis, Mykola Pechenizkiy | (参考訳) 主な合併症は、計算コストやメモリ要求などを含む最近の高次元データの量の増加から生じる。
データセットの最も関連性の高い情報的属性を特定する機能選択が,この問題に対する解決策として導入されている。
既存の特徴選択法の多くは計算的に非効率であり、非効率なアルゴリズムは高いエネルギー消費をもたらす。
本稿では,教師なし特徴選択のための新しい柔軟な手法を提案する。
QuickSelectionと名付けられたこの方法は、特徴の重要性を測定するための基準としてスパースニューラルネットワークにおけるニューロンの強度を導入する。
この基準は、スパース進化的訓練手順で訓練されたスパース連結のデノージングオートエンコーダとブレンドされ、全ての入力機能の重要性を導出する。
我々は、接続上のバイナリマスクを用いて空間をシミュレートする典型的なアプローチとは対照的に、純粋にスパースな方法でQuickSelectionを実装した。
その結果、かなりの速度向上とメモリ削減がもたらされる。
提案手法は,5つの低次元および3つの高次元データセットを含む複数のベンチマークデータセットで検証し,分類とクラスタリングの精度,実行時間,最大メモリ使用量の最良のトレードオフを実現する。
また,提案手法は,最先端のオートエンコーダに基づく特徴選択法の中で最小限のエネルギーを必要とする。 Major complications arise from the recent increase in the amount of high-dimensional data, including high computational costs and memory requirements. Feature selection, which identifies the most relevant and informative attributes of a dataset, has been introduced as a solution to this problem. Most of the existing feature selection methods are computationally inefficient; inefficient algorithms lead to high energy consumption, which is not desirable for devices with limited computational and energy resources. In this paper, a novel and flexible method for unsupervised feature selection is proposed. This method, named QuickSelection, introduces the strength of the neuron in sparse neural networks as a criterion to measure the feature importance. This criterion, blended with sparsely connected denoising autoencoders trained with the sparse evolutionary training procedure, derives the importance of all input features simultaneously. We implement QuickSelection in a purely sparse manner as opposed to the typical approach of using a binary mask over connections to simulate sparsity. It results in a considerable speed increase and memory reduction. When tested on several benchmark datasets, including five low-dimensional and three high-dimensional datasets, the proposed method is able to achieve the best trade-off of classification and clustering accuracy, running time, and maximum memory usage, among widely used approaches for feature selection. Besides, our proposed method requires the least amount of energy among the state-of-the-art autoencoder-based feature selection methods. | 翻訳日:2021-05-31 03:43:49 公開日:2020-12-01 |
# (参考訳) 多段階知識蒸留 Multi-level Knowledge Distillation ( http://arxiv.org/abs/2012.00573v1 ) ライセンス: CC BY 4.0 | Fei Ding, Feng Luo, Hongxin Hu, Yin Yang | (参考訳) 知識蒸留はモデル圧縮と加速において重要な技術となっている。
従来の知識蒸留手法は,教師と学生のネットワーク表現の相互関係を考慮し,確率的出力間のKL分割を最小化し,教師から学生ネットワークへ知識を伝達することを目的としている。
近年, 教師のインスタンス識別知識を, 同じ画像と異なる画像とを表現空間から遠ざかってマッピングすることで, 教師のインスタンス識別知識を学習できるようにするために, 比較的損失に基づく知識蒸留法が提案されている。
しかし、これらの手法はすべて、教師の知識が多レベルであることを無視している。
これらの異なるレベルの知識は、1種類の監視信号だけで効果的に取得できない。
本稿では,教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは,教師ネットワークにおいて,個人的類似性,関係的類似性,カテゴリー的類似性という3つの新しい教師・学生の類似性を用いて,教師ネットワークにおけるサンプル・ワイド・構造的・カテゴリー的知識の学習を促す。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
さらに,学生ネットワークにおける学習表現の転送性の向上が期待できることを示した。 Knowledge distillation has become an important technique for model compression and acceleration. The conventional knowledge distillation approaches aim to transfer knowledge from teacher to student networks by minimizing the KL-divergence between their probabilistic outputs, which only consider the mutual relationship between individual representations of teacher and student networks. Recently, the contrastive loss-based knowledge distillation is proposed to enable a student to learn the instance discriminative knowledge of a teacher by mapping the same image close and different images far away in the representation space. However, all of these methods ignore that the teacher's knowledge is multi-level, e.g., individual, relational and categorical level. These different levels of knowledge cannot be effectively captured by only one kind of supervisory signal. Here, we introduce Multi-level Knowledge Distillation (MLKD) to transfer richer representational knowledge from teacher to student networks. MLKD employs three novel teacher-student similarities: individual similarity, relational similarity, and categorical similarity, to encourage the student network to learn sample-wise, structure-wise and category-wise knowledge in the teacher network. Experiments demonstrate that MLKD outperforms other state-of-the-art methods on both similar-architecture and cross-architecture tasks. We further show that MLKD can improve the transferability of learned representations in the student network. | 翻訳日:2021-05-31 03:10:00 公開日:2020-12-01 |
# (参考訳) 非凸$C^{1+\alpha}$コスト関数の勾配アルゴリズムの収束性 Convergence of Gradient Algorithms for Nonconvex $C^{1+\alpha}$ Cost Functions ( http://arxiv.org/abs/2012.00628v1 ) ライセンス: CC BY 4.0 | Zixuan Wang and Shanjian Tang | (参考訳) 本稿では,非凸条件における運動量項を持つ確率勾配アルゴリズムの収束について述べる。
確率的勾配降下、重球、ネステロフの加速勾配を含む確率的モーメントのクラスは、非常に穏やかな仮定の下で一般的な枠組みで解析される。
予測された勾配が収束し、収束率の明示的な上限を与えることを示す。
そして、ノイズと運動量項の適切な近似によってスーパーマーチンゲールを構築することができる。
これにより、ドゥーブの超マーチンゲール収束定理(supermartingale convergence theorem)によってほぼ確実に収束することを示すことができる。
対象関数の勾配の既存のリプシッツ条件は H より古い連続性の条件に緩和されることに注意する必要がある。
もう1つの改善は、stepizesに追加の制限が課されないことである。
副産物として,確率的ステップズに結果を拡張するために局所化手順を適用する。 This paper is concerned with convergence of stochastic gradient algorithms with momentum terms in the nonconvex setting. A class of stochastic momentum methods, including stochastic gradient descent, heavy ball, and Nesterov's accelerated gradient, is analyzed in a general framework under quite mild assumptions. We show that the expected gradient converges and provide an explicit upper bound on the convergence rate. Then a supermartingale can be constructed by proper approximations of the noise and momentum terms. This allows us to prove the almost sure convergence by Doob's supermartingale convergence theorem and a discussion of the number of upcrossings in detail. It is worth noting that the existing Lipschitz condition of the gradient of the objective function is relaxed into the condition of H\"older continuity. Another improvement is that there are no additional restrictions imposed on stepsizes. As a byproduct, we apply a localization procedure to extend our results to stochastic stepsizes. | 翻訳日:2021-05-31 02:51:56 公開日:2020-12-01 |
# (参考訳) 通信効率の高い連系蒸留 Communication-Efficient Federated Distillation ( http://arxiv.org/abs/2012.00632v1 ) ライセンス: CC BY 4.0 | Felix Sattler and Arturo Marban and Roman Rischke and Wojciech Samek | (参考訳) コミュニケーションの制約は、連合学習システムの普及を妨げる大きな課題の1つである。
近年,コミュニケーション特性が根本的に異なるフェデレーション学習のための新しいアルゴリズムパラダイムであるフェデレーション蒸留(fd)が出現した。
FD法は、中央サーバと参加クライアントの間の未ラベルの公開データセットにソフトラベルとして提示されるアンサンブル蒸留技術と交換モデル出力を利用する。
フェデレーション平均化(FA)のような従来のフェデレーション学習アルゴリズムでは、共同で訓練されたモデルのサイズの通信スケールは、蒸留データセットのサイズのFD通信スケールに比例し、特に大規模なモデルが訓練された場合、有利な通信特性をもたらす。
本研究では, アクティブ蒸留データキュレーション, ソフトラベル量子化, デルタ符号化技術の効果を分析し, 通信効率の観点からFDについて検討する。
この分析から得られた知見に基づき,効率的な連系蒸留法である圧縮連系蒸留(cfd)を提案する。
フェデレーション画像分類と言語モデル問題に関する大規模な実験により,FDと比較して2桁以上,FAと比較して4桁以上,固定性能目標達成に必要な通信量を2桁以上削減できることが実証された。 Communication constraints are one of the major challenges preventing the wide-spread adoption of Federated Learning systems. Recently, Federated Distillation (FD), a new algorithmic paradigm for Federated Learning with fundamentally different communication properties, emerged. FD methods leverage ensemble distillation techniques and exchange model outputs, presented as soft labels on an unlabeled public data set, between the central server and the participating clients. While for conventional Federated Learning algorithms, like Federated Averaging (FA), communication scales with the size of the jointly trained model, in FD communication scales with the distillation data set size, resulting in advantageous communication properties, especially when large models are trained. In this work, we investigate FD from the perspective of communication efficiency by analyzing the effects of active distillation-data curation, soft-label quantization and delta-coding techniques. Based on the insights gathered from this analysis, we present Compressed Federated Distillation (CFD), an efficient Federated Distillation method. Extensive experiments on Federated image classification and language modeling problems demonstrate that our method can reduce the amount of communication necessary to achieve fixed performance targets by more than two orders of magnitude, when compared to FD and by more than four orders of magnitude when compared with FA. | 翻訳日:2021-05-31 02:28:49 公開日:2020-12-01 |
# (参考訳) 自然言語推論のためのメタ埋め込みと意味的類似性課題 Meta-Embeddings for Natural Language Inference and Semantic Similarity tasks ( http://arxiv.org/abs/2012.00633v1 ) ライセンス: CC BY 4.0 | Shree Charran R, Rahul Kumar Dubey (Senior Member IEEE) | (参考訳) Word Representationsは、テキストマイニング、質問回答、テキスト要約など、ほぼ全ての高度な自然言語処理(NLP)アプリケーションの中核となるコンポーネントである。
過去20年間で、すべての主要なNLPタスクを解決するために、1つのモデルを考えるという膨大な研究が行われました。
現在大きな問題は、異なるNLPタスクに多くの選択肢があることだ。
したがって、NLP実践者にとって、使用する適切なモデルを選択することが課題となる。
このように、複数の事前訓練された単語の埋め込みとメタ埋め込みを組み合わせることで、NLPタスクへの取り組みを改善することが可能なアプローチとなっている。
メタ埋め込み学習は、与えられた訓練済みの入力単語の埋め込みセットから単一の単語埋め込みを生成するプロセスである。
本稿では,SOTA(State-of-the-Art)モデルから派生したメタ埋め込みを用いて,分類や意味的関連性,テキスト類似性といった主要なNLPタスクに効率的に取り組むことを提案する。
我々は、効率的なアプローチを特定するためにアンサンブルと動的変種の両方を比較した。
その結果、最高の最先端モデルでも改善できることがわかった。
したがって、メタ埋め込みは、複数の個々の表現のパワーを活用することで、複数のNLPタスクに使用できることを示す。 Word Representations form the core component for almost all advanced Natural Language Processing (NLP) applications such as text mining, question-answering, and text summarization, etc. Over the last two decades, immense research is conducted to come up with one single model to solve all major NLP tasks. The major problem currently is that there are a plethora of choices for different NLP tasks. Thus for NLP practitioners, the task of choosing the right model to be used itself becomes a challenge. Thus combining multiple pre-trained word embeddings and forming meta embeddings has become a viable approach to improve tackle NLP tasks. Meta embedding learning is a process of producing a single word embedding from a given set of pre-trained input word embeddings. In this paper, we propose to use Meta Embedding derived from few State-of-the-Art (SOTA) models to efficiently tackle mainstream NLP tasks like classification, semantic relatedness, and text similarity. We have compared both ensemble and dynamic variants to identify an efficient approach. The results obtained show that even the best State-of-the-Art models can be bettered. Thus showing us that meta-embeddings can be used for several NLP tasks by harnessing the power of several individual representations. | 翻訳日:2021-05-31 01:54:25 公開日:2020-12-01 |
# (参考訳) 相関顕微鏡における点雲とグラフマッチングを用いたクロスモーダル登録 Cross-modal registration using point clouds and graph-matching in the context of correlative microscopies ( http://arxiv.org/abs/2012.00656v1 ) ライセンス: CC BY 4.0 | Stephan Kunne (1), Guillaume Potier (1), Jean M\'erot (1), Perrine Paul-Gilloteaux (1 and 2) ((1) l'institut du thorax Nantes (2) MicroPICell SFR Sante F. Bonamy) | (参考訳) 相関顕微鏡は、2つ以上のモダリティを組み合わせることで、同じ生体構造上の1つのモダリティによって提供されるものよりも多くの情報を得る。
相関顕微鏡ワークフローの異なるステップで登録が必要である。
生物学者は、未知の構造の相関にバイアスを生じさせないために、登録に使用される画像の内容を選択したい。
強度に基づく方法は、この選択を許さないかもしれないし、画像がとても大きいと遅すぎるかもしれない。
生物学者が選択したコンテンツから生成された点雲に基づくアプローチを提案する。
これらの点の雲は密度の大きな違いを引き起こすが、部品や外れ値も欠落している。
本稿では,グラフ構築とグラフマッチングに基づくポイントクラウドの登録方法を提案し,反復的最接近点ベース手法と比較する。 Correlative microscopy aims at combining two or more modalities to gain more information than the one provided by one modality on the same biological structure. Registration is needed at different steps of correlative microscopies workflows. Biologists want to select the image content used for registration not to introduce bias in the correlation of unknown structures. Intensity-based methods might not allow this selection and might be too slow when the images are very large. We propose an approach based on point clouds created from selected content by the biologist. These point clouds may be prone to big differences in densities but also missing parts and outliers. In this paper we present a method of registration for point clouds based on graph building and graph matching, and compare the method to iterative closest point based methods. | 翻訳日:2021-05-31 01:40:34 公開日:2020-12-01 |
# (参考訳) Pythonにおける画像処理を用いた感情検出 Emotion Detection using Image Processing in Python ( http://arxiv.org/abs/2012.00659v1 ) ライセンス: CC BY 4.0 | Raghav Puri, Archit Gupta, Manas Sikri, Mohit Tiwari, Nitish Pathak, Shivendra Goel | (参考訳) 本研究では,表情を用いたユーザの感情を検出する。
これらの表現は、システムのカメラまたはメモリで利用可能な既存のイメージを介してライブフィードから導出することができる。
人間による感情は認識でき、コンピュータビジョン業界ではいくつかの研究がすでに行われている広い範囲で研究されている。
Python (2.7)、OpenCV (Open Source Computer Vision Library)、NumPyを使って実装されている。
スキャンされた画像(テストデータセット)をトレーニングデータセットと比較することにより、感情を予測する。
本研究の目的は,画像を解析し,その人物の表情を予測するシステムを開発することである。
この研究は、この手順が動作可能であり、有効な結果をもたらすことを証明している。 In this work, user's emotion using its facial expressions will be detected. These expressions can be derived from the live feed via system's camera or any pre-exisiting image available in the memory. Emotions possessed by humans can be recognized and has a vast scope of study in the computer vision industry upon which several researches have already been done. The work has been implemented using Python (2.7, Open Source Computer Vision Library (OpenCV) and NumPy. The scanned image(testing dataset) is being compared to the training dataset and thus emotion is predicted. The objective of this paper is to develop a system which can analyze the image and predict the expression of the person. The study proves that this procedure is workable and produces valid results. | 翻訳日:2021-05-31 01:30:51 公開日:2020-12-01 |
# (参考訳) 畳み込みネットワークによる表面波動のシミュレーション Simulating Surface Wave Dynamics with Convolutional Networks ( http://arxiv.org/abs/2012.00718v1 ) ライセンス: CC BY 4.0 | Mario Lino, Chris Cantwell, Stathi Fotiadis, Eduardo Pignatelli, Anil Bharath | (参考訳) 開かつ閉複素幾何学における表面波の運動と相互作用をシミュレートする完全畳み込みネットワークの性能について検討する。
我々は、U-Netアーキテクチャに注目し、トレーニング中に見えない幾何学的構成にどのように一般化するかを分析する。
改良されたU-Netアーキテクチャは、訓練中に単純なボックスと右角の角のジオメトリーしか見つからなかったとき、曲面および多面の開かつ閉じたジオメトリー内の液体表面の波高分布を正確に予測できることを示した。
また, u-net が生成する予測の時間補間を行うため, 独立した3次元 cnn も検討する。
これにより、U-Netがトレーニングしたものよりも時間ステップの小さいシミュレーションを生成することができる。 We investigate the performance of fully convolutional networks to simulate the motion and interaction of surface waves in open and closed complex geometries. We focus on a U-Net architecture and analyse how well it generalises to geometric configurations not seen during training. We demonstrate that a modified U-Net architecture is capable of accurately predicting the height distribution of waves on a liquid surface within curved and multi-faceted open and closed geometries, when only simple box and right-angled corner geometries were seen during training. We also consider a separate and independent 3D CNN for performing time-interpolation on the predictions produced by our U-Net. This allows generating simulations with a smaller time-step size than the one the U-Net has been trained for. | 翻訳日:2021-05-31 01:23:14 公開日:2020-12-01 |
# (参考訳) 深層強化学習におけるカバレッジの評価と加速 Assessing and Accelerating Coverage in Deep Reinforcement Learning ( http://arxiv.org/abs/2012.00724v1 ) ライセンス: CC BY 4.0 | Arpan Kusari | (参考訳) 現在の深部強化学習(DRL)アルゴリズムは、シミュレーション環境におけるランダム性を利用して、状態空間の完全なカバレッジを仮定する。
しかし、特に高次元において、ランダム性に依存すると、訓練されたDRLニューラルネットワークモデルの範囲が狭くなる可能性があり、その結果、劇的で致命的な現実世界の状況に繋がる可能性がある。
著者の知識を最大限に活用するために、DRLのカバレッジ評価は現在の研究文献に欠けている。
そこで本研究では,DRL アプリケーションにおける適用範囲を評価するために,新しい尺度である Approximate Pseudo-Coverage (APC) を提案する。
我々は,高次元状態空間を下次元多様体に投影し,占有空間を定量化することにより,APCを計算することを提案する。
さらに,高速探索型ランダムツリー(rrt)を用いた範囲最大化のための探索探索戦略を用いる。
カートポール,ハイウェイ-envなどの標準作業において,評価の有効性とカバレッジの加速が示された。 Current deep reinforcement learning (DRL) algorithms utilize randomness in simulation environments to assume complete coverage in the state space. However, particularly in high dimensions, relying on randomness may lead to gaps in coverage of the trained DRL neural network model, which in turn may lead to drastic and often fatal real-world situations. To the best of the author's knowledge, the assessment of coverage for DRL is lacking in current research literature. Therefore, in this paper, a novel measure, Approximate Pseudo-Coverage (APC), is proposed for assessing the coverage in DRL applications. We propose to calculate APC by projecting the high dimensional state space on to a lower dimensional manifold and quantifying the occupied space. Furthermore, we utilize an exploration-exploitation strategy for coverage maximization using Rapidly-Exploring Random Tree (RRT). The efficacy of the assessment and the acceleration of coverage is demonstrated on standard tasks such as Cartpole, highway-env. | 翻訳日:2021-05-31 01:11:16 公開日:2020-12-01 |
# (参考訳) GLEAN:大容量画像超解像のための次世代潜伏銀行 GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution ( http://arxiv.org/abs/2012.00739v1 ) ライセンス: CC BY 4.0 | Kelvin C.K. Chan, Xintao Wang, Xiangyu Xu, Jinwei Gu, Chen Change Loy | (参考訳) 本稿では,大因子画像超解像(SR)の復元品質を向上させるために,事前訓練された生成逆数ネットワーク(GAN),例えばStyleGANが潜時バンクとして使用できることを示す。
既存のほとんどのSRアプローチは、敵対的損失を伴う学習を通じて現実的なテクスチャを創出しようとするが、我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することによって、既存のプラクティスを越えている。
しかし、実行時に高価な画像固有最適化を必要とする一般的なGANインバージョン手法とは異なり、我々のアプローチでは、アップスケールされた画像を生成するために単一のフォワードパスしか必要としない。
GLEANは、マルチ解像度スキップ接続を備えた単純なエンコーダバンクデコーダアーキテクチャに簡単に組み込むことができる。
銀行を切り替えることで、猫、建物、人間の顔、車などの様々なカテゴリの画像を扱うことができる。
GLEANによりアップスケールされた画像は、既存手法と比較して忠実度とテクスチャ忠実度において明らかに改善されている。 We show that pre-trained Generative Adversarial Networks (GANs), e.g., StyleGAN, can be used as a latent bank to improve the restoration quality of large-factor image super-resolution (SR). While most existing SR approaches attempt to generate realistic textures through learning with adversarial loss, our method, Generative LatEnt bANk (GLEAN), goes beyond existing practices by directly leveraging rich and diverse priors encapsulated in a pre-trained GAN. But unlike prevalent GAN inversion methods that require expensive image-specific optimization at runtime, our approach only needs a single forward pass to generate the upscaled image. GLEAN can be easily incorporated in a simple encoder-bank-decoder architecture with multi-resolution skip connections. Switching the bank allows the method to deal with images from diverse categories, e.g., cat, building, human face, and car. Images upscaled by GLEAN show clear improvements in terms of fidelity and texture faithfulness in comparison to existing methods. | 翻訳日:2021-05-31 00:57:30 公開日:2020-12-01 |
# (参考訳) gcnとbertを用いたポーズに基づく手話認識 Pose-based Sign Language Recognition using GCN and BERT ( http://arxiv.org/abs/2012.00781v1 ) ライセンス: CC BY 4.0 | Anirudh Tunga, Sai Vidyaranya Nuthalapati, Juan Wachs | (参考訳) 手話認識(SLR)は、聴覚と聴覚障害のあるコミュニティと他の社会とのコミュニケーションギャップを埋める上で重要な役割を担っている。
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
しかし、言葉の意味は微妙な体の動き、手の動き、その他の動きの組み合わせに依存するため、ビデオからサインを認識することは難しい作業である。
WSLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的および時間的情報を分離し,遅延融合を行う新しいポーズベースアプローチを用いて,wslrの問題に取り組む。
提案するアーキテクチャは,ビデオ内の空間的相互作用をグラフ畳み込みネットワーク(gcn)を用いて明示的に捉える。
フレーム間の時間的依存関係は、変換器(BERT)からの双方向エンコーダ表現を用いてキャプチャされる。
標準の単語レベル手話認識データセットであるwlaslの実験結果は, 予測精度を最大5%向上させることで, ポーズベース手法の最先端を著しく上回っていることを示している。 Sign language recognition (SLR) plays a crucial role in bridging the communication gap between the hearing and vocally impaired community and the rest of the society. Word-level sign language recognition (WSLR) is the first important step towards understanding and interpreting sign language. However, recognizing signs from videos is a challenging task as the meaning of a word depends on a combination of subtle body motions, hand configurations, and other movements. Recent pose-based architectures for WSLR either model both the spatial and temporal dependencies among the poses in different frames simultaneously or only model the temporal information without fully utilizing the spatial information. We tackle the problem of WSLR using a novel pose-based approach, which captures spatial and temporal information separately and performs late fusion. Our proposed architecture explicitly captures the spatial interactions in the video using a Graph Convolutional Network (GCN). The temporal dependencies between the frames are captured using Bidirectional Encoder Representations from Transformers (BERT). Experimental results on WLASL, a standard word-level sign language recognition dataset show that our model significantly outperforms the state-of-the-art on pose-based methods by achieving an improvement in the prediction accuracy by up to 5%. | 翻訳日:2021-05-31 00:47:22 公開日:2020-12-01 |
# (参考訳) 表現空間における対向ロバスト性 Adversarial Robustness Across Representation Spaces ( http://arxiv.org/abs/2012.00802v1 ) ライセンス: CC BY 4.0 | Pranjal Awasthi, George Yu, Chun-Sung Ferng, Andrew Tomkins, Da-Cheng Juan | (参考訳) 敵対的ロバスト性は、テスト時に生じる知覚不能な摂動に対するディープニューラルネットワークの感受性に対応する。
画像タスクの文脈では、ニューラルネットワークを入力ピクセルに対する逆摂動に頑健にするために、多くのアルゴリズムが提案されている。
これらの摂動は通常$\ell_p$ノルムで測定される。
しかし、堅牢性は訓練に使用される特定の攻撃に対してのみ維持されることが多い。
本研究では,複数の自然表現空間に適用できる摂動にロバストな深層ニューラルネットワークの学習問題を検討するために,上記の設定を拡張した。
画像データの例としては、標準的なピクセル表現や離散コサイン変換~(DCT)基底での表現がある。
上記の問題に対する公式な保証付き理論的に健全なアルゴリズムを設計する。
さらに、当社の保証は、複数の$\ell_p$標準ベースの攻撃に対して堅牢性を必要とする場合にも有効です。
次に、効率的な実践的実装を導き、画像分類のための標準データセットに対するアプローチの有効性を実証する。 Adversarial robustness corresponds to the susceptibility of deep neural networks to imperceptible perturbations made at test time. In the context of image tasks, many algorithms have been proposed to make neural networks robust to adversarial perturbations made to the input pixels. These perturbations are typically measured in an $\ell_p$ norm. However, robustness often holds only for the specific attack used for training. In this work we extend the above setting to consider the problem of training of deep neural networks that can be made simultaneously robust to perturbations applied in multiple natural representation spaces. For the case of image data, examples include the standard pixel representation as well as the representation in the discrete cosine transform~(DCT) basis. We design a theoretically sound algorithm with formal guarantees for the above problem. Furthermore, our guarantees also hold when the goal is to require robustness with respect to multiple $\ell_p$ norm based attacks. We then derive an efficient practical implementation and demonstrate the effectiveness of our approach on standard datasets for image classification. | 翻訳日:2021-05-31 00:30:49 公開日:2020-12-01 |
# (参考訳) 静的コールグラフにおける関数表現を用いたマルウェア分類 Classifying Malware Using Function Representations in a Static Call Graph ( http://arxiv.org/abs/2012.01939v1 ) ライセンス: CC BY 4.0 | Thomas Dalton, Mauritius Schmidtler, Alireza Hadj Khodabakhshi | (参考訳) 本稿では,x86アセンブリ命令の関数呼び出しグラフを用いてマルウェアファミリーを同定する深層学習手法を提案する。
静的なコールグラフ解析に関する先行研究は存在するが、問題への現代的な原則付き特徴学習技術の応用はほとんどない。
本稿では,x86命令のシーケンスを高密度の潜在ベクトルにマッピングするリカレントニューラルネットワーク(RNN)オートエンコーダを用いて,関数表現が得られた実行可能な関数コールグラフを利用するシステムを提案する。
これらの関数埋め込みは、呼び出し依存性を示すエッジを持つグラフの頂点としてモデル化される。
実行可能ファイルのリッチでノードレベルの表現とグローバルなトポロジ的特性の取得は、マルウェアのファミリー検出率を大幅に向上させ、退屈な機能エンジニアリングやドメインの専門知識を意図的に回避する方法で、この問題に対するより原則的なアプローチに寄与する。
われわれは,Microsoftのマルウェア分類データセット上でいくつかの実験を行い,99.41%の精度でマルウェア群を分離した。 We propose a deep learning approach for identifying malware families using the function call graphs of x86 assembly instructions. Though prior work on static call graph analysis exists, very little involves the application of modern, principled feature learning techniques to the problem. In this paper, we introduce a system utilizing an executable's function call graph where function representations are obtained by way of a recurrent neural network (RNN) autoencoder which maps sequences of x86 instructions into dense, latent vectors. These function embeddings are then modeled as vertices in a graph with edges indicating call dependencies. Capturing rich, node-level representations as well as global, topological properties of an executable file greatly improves malware family detection rates and contributes to a more principled approach to the problem in a way that deliberately avoids tedious feature engineering and domain expertise. We test our approach by performing several experiments on a Microsoft malware classification data set and achieve excellent separation between malware families with a classification accuracy of 99.41%. | 翻訳日:2021-05-30 23:37:11 公開日:2020-12-01 |
# (参考訳) FFD:高速機能検出器 FFD: Fast Feature Detector ( http://arxiv.org/abs/2012.00859v1 ) ライセンス: CC BY 4.0 | Morteza Ghahremani and Yonghuai Liu and Bernard Tiddeman | (参考訳) スケール不変性、良い位置化、ノイズや歪みに対する堅牢性は、局所的特徴検出器が持つべき主な特性である。
既存のほとんどの局所特徴検出器は、マッチングすべきキーポイントの数とマッチングステップの計算時間を増やす過度な不安定な特徴点を見つける。
本稿では,特定のスケール空間領域にロバストかつ正確なキーポイントが存在することを示す。
この目的のために、まず重ね合わせ問題を数学的モデルに定式化し、次にマルチスケール解析のための閉形式解を導出する。
このモデルは連続的スケール空間領域における差分ガウス(DoG)カーネルを介して定式化され、スケール空間ピラミッドのぼやけた比と滑らかさを2と0.627に設定することで、信頼性の高いキーポイントの検出を容易にすることが証明された。
提案手法を離散画像に適用するために,非効率なウェーブレット変換と立方スプライン関数を用いて離散化を行う。
理論的には、本手法の複雑性は、一般的なベースラインスケール不変特徴変換(sift)の5\%以下である。
広範囲な実験結果から,既存の手作り・学習技術よりも精度と計算時間に優れた特徴検出器が提案されている。
コードと補足資料は~{\url{https://github.com/mogvision/FFD}}にある。 Scale-invariance, good localization and robustness to noise and distortions are the main properties that a local feature detector should possess. Most existing local feature detectors find excessive unstable feature points that increase the number of keypoints to be matched and the computational time of the matching step. In this paper, we show that robust and accurate keypoints exist in the specific scale-space domain. To this end, we first formulate the superimposition problem into a mathematical model and then derive a closed-form solution for multiscale analysis. The model is formulated via difference-of-Gaussian (DoG) kernels in the continuous scale-space domain, and it is proved that setting the scale-space pyramid's blurring ratio and smoothness to 2 and 0.627, respectively, facilitates the detection of reliable keypoints. For the applicability of the proposed model to discrete images, we discretize it using the undecimated wavelet transform and the cubic spline function. Theoretically, the complexity of our method is less than 5\% of that of the popular baseline Scale Invariant Feature Transform (SIFT). Extensive experimental results show the superiority of the proposed feature detector over the existing representative hand-crafted and learning-based techniques in accuracy and computational time. The code and supplementary materials can be found at~{\url{https://github.com/mogvision/FFD}}. | 翻訳日:2021-05-30 23:02:11 公開日:2020-12-01 |
# (参考訳) 自己指導型表現学習の実践に向けて Towards Good Practices in Self-supervised Representation Learning ( http://arxiv.org/abs/2012.00868v1 ) ライセンス: CC BY 4.0 | Srikar Appalaraju, Yi Zhu, Yusheng Xie, Istv\'an Feh\'erv\'ari | (参考訳) 自己指導型表現学習はここ数年で顕著な進歩を遂げている。
近年、対照的なインスタンス学習は、教師付き学習と比較すると印象的な結果を示している。
しかし、相反的なインスタンス学習への関心がますます高まっているにもかかわらず、これらの方法がなぜそんなにうまく機能するのかは、いまだによく分かっていない。
本稿では,その成功の背景にある謎のいくつかを明らかにすることを目的としている。
広範な実証分析を通じて、洞察を提供するだけでなく、近年の自己指導型表現学習の成功に繋がる一連のベストプラクティスを策定したいと考えています。 Self-supervised representation learning has seen remarkable progress in the last few years. More recently, contrastive instance learning has shown impressive results compared to its supervised learning counterparts. However, even with the ever increased interest in contrastive instance learning, it is still largely unclear why these methods work so well. In this paper, we aim to unravel some of the mysteries behind their success, which are the good practices. Through an extensive empirical analysis, we hope to not only provide insights but also lay out a set of best practices that led to the success of recent work in self-supervised representation learning. | 翻訳日:2021-05-30 22:17:36 公開日:2020-12-01 |
# (参考訳) 内因性障害タンパク質の集積構造生物学のための人工知能技術 Artificial intelligence techniques for integrative structural biology of intrinsically disordered proteins ( http://arxiv.org/abs/2012.00885v1 ) ライセンス: CC BY 4.0 | Arvind Ramanathan and Heng Ma and Akash Parvatikar and Chakra S. Chennubhotla | (参考訳) 本稿では,人工知能(AI)と機械学習(ML)による内因性障害タンパク質(IDP)アンサンブルの集積構造生物学の最近の進歩について概説する。
IDPは、特定の結合パートナーに応答してコンフォメーションを適応し、生物学的シグナル伝達、自己組織化、区画化などの多様で複雑な細胞機能を仲介することで、従来のタンパク質構造-機能パラダイムに挑戦する。
したがって、それらの機能に対する機械的な洞察を得ることは、伝統的な構造決定技術にとって困難である。
しばしば、科学者は機能メカニズムを特徴付けるために様々な実験技術から得られた断片的な証拠に頼る必要がある。
マルチスケールシミュレーションは、IDP構造関数の関係に関する重要な知識ギャップを橋渡しするのに役立つが、これらの技術はIDPコンフォーメーション・アンサンブル内の創発的な現象を解決するための課題にも直面する。
スケーラブルな統計的推論技術は、複数の実験手法から得られた情報とシミュレーションを効果的に統合し、これらの現象の原子学的詳細にアクセスできるようにする。 We outline recent developments in artificial intelligence (AI) and machine learning (ML) techniques for integrative structural biology of intrinsically disordered proteins (IDP) ensembles. IDPs challenge the traditional protein structure-function paradigm by adapting their conformations in response to specific binding partners leading them to mediate diverse, and often complex cellular functions such as biological signaling, self organization and compartmentalization. Obtaining mechanistic insights into their function can therefore be challenging for traditional structural determination techniques. Often, scientists have to rely on piecemeal evidence drawn from diverse experimental techniques to characterize their functional mechanisms. Multiscale simulations can help bridge critical knowledge gaps about IDP structure function relationships - however, these techniques also face challenges in resolving emergent phenomena within IDP conformational ensembles. We posit that scalable statistical inference techniques can effectively integrate information gleaned from multiple experimental techniques as well as from simulations, thus providing access to atomistic details of these emergent phenomena. | 翻訳日:2021-05-30 22:08:40 公開日:2020-12-01 |
# (参考訳) 最大エントロピー逆強化学習の再検討--新しい展望とアルゴリズム Revisiting Maximum Entropy Inverse Reinforcement Learning: New Perspectives and Algorithms ( http://arxiv.org/abs/2012.00889v1 ) ライセンス: CC BY 4.0 | Aaron J. Snoswell, Surya P. N. Singh, Nan Ye | (参考訳) 我々は,最大エントロピー(MaxEnt)逆強化学習(IRL)のための新しい視点と推論アルゴリズムを提供し,多くの一貫した報酬関数のうち,与えられた専門家の実証と整合した最も非コミット的な報酬関数を求めるための原則的手法を提供する。
まず、エントロピーの最大化ではなく、KL分割の最小化に基づく一般化MaxEntの定式化を提案する。
これにより、MaxEnt IRLモデルの以前のヒューリスティックな導出が改善され、MaxEnt IRLとRelative Entropy IRLの統一的なビューが可能になり、MaxEnt IRLモデルのモデルフリー学習アルゴリズムが実現される。
第二に、既存の推論アルゴリズムと実装を慎重にレビューした結果、モデルを学ぶのに必要な限界をほぼ計算できた。
本稿では、これを例示し、効率的かつ正確な推論アルゴリズムを提案する。
提案アルゴリズムは, 可変長実演の処理が可能であり, また, 基本バージョンは最大実演長さLで2次時間を要するが, 改良版ではパディングトリックを用いて線形化できる。
実験の結果,我々のアルゴリズムは近似アルゴリズムに比べて報酬学習を改善することがわかった。
さらに,運転行動予測を含む大規模実世界のデータセットまでスケールアップする。
OpenAI Gymインタフェースと互換性のある最適化実装を提供する。
我々の新しい洞察とアルゴリズムは、元のMaxEnt IRLモデルのさらなる関心と探索につながる可能性がある。 We provide new perspectives and inference algorithms for Maximum Entropy (MaxEnt) Inverse Reinforcement Learning (IRL), which provides a principled method to find a most non-committal reward function consistent with given expert demonstrations, among many consistent reward functions. We first present a generalized MaxEnt formulation based on minimizing a KL-divergence instead of maximizing an entropy. This improves the previous heuristic derivation of the MaxEnt IRL model (for stochastic MDPs), allows a unified view of MaxEnt IRL and Relative Entropy IRL, and leads to a model-free learning algorithm for the MaxEnt IRL model. Second, a careful review of existing inference algorithms and implementations showed that they approximately compute the marginals required for learning the model. We provide examples to illustrate this, and present an efficient and exact inference algorithm. Our algorithm can handle variable length demonstrations; in addition, while a basic version takes time quadratic in the maximum demonstration length L, an improved version of this algorithm reduces this to linear using a padding trick. Experiments show that our exact algorithm improves reward learning as compared to the approximate ones. Furthermore, our algorithm scales up to a large, real-world dataset involving driver behaviour forecasting. We provide an optimized implementation compatible with the OpenAI Gym interface. Our new insight and algorithms could possibly lead to further interest and exploration of the original MaxEnt IRL model. | 翻訳日:2021-05-30 21:40:22 公開日:2020-12-01 |
# (参考訳) 歪み画像品質評価のための深層マルチスケール特徴学習 Deep Multi-Scale Features Learning for Distorted Image Quality Assessment ( http://arxiv.org/abs/2012.01980v1 ) ライセンス: CC BY 4.0 | Wei Zhou and Zhibo Chen | (参考訳) 画像品質評価(IQA)は、人間の知覚に基づく視覚的品質を推定することを目的としている。
既存のディープニューラルネットワーク(DNN)はIQA問題に取り組む上で大きな効果を示しているが、効率的なマルチスケール機能を利用することで、DNNベースの品質評価モデルを改善する必要がある。
本稿では,人間の視覚システム(HVS)がマルチスケールの知覚機能を組み合わせることを目的として,ピラミッド特徴学習を用いて階層的なマルチスケール特徴を持つDNNを構築することを提案する。
本モデルは,空間的ピラミッドプールと特徴ピラミッドをネットワーク構造から含む輝度領域における残差マップと歪み画像の両方に基づいている。
提案するネットワークは、エンドツーエンドの監視方法に最適化されている。
提案手法の有効性を検証するため,広範に利用されている4つの画像品質評価データベース上で広範囲な実験を行い,アルゴリズムの優位性を実証した。 Image quality assessment (IQA) aims to estimate human perception based image visual quality. Although existing deep neural networks (DNNs) have shown significant effectiveness for tackling the IQA problem, it still needs to improve the DNN-based quality assessment models by exploiting efficient multi-scale features. In this paper, motivated by the human visual system (HVS) combining multi-scale features for perception, we propose to use pyramid features learning to build a DNN with hierarchical multi-scale features for distorted image quality prediction. Our model is based on both residual maps and distorted images in luminance domain, where the proposed network contains spatial pyramid pooling and feature pyramid from the network structure. Our proposed network is optimized in a deep end-to-end supervision manner. To validate the effectiveness of the proposed method, extensive experiments are conducted on four widely-used image quality assessment databases, demonstrating the superiority of our algorithm. | 翻訳日:2021-05-30 21:20:02 公開日:2020-12-01 |
# (参考訳) 説明の評価:教員助成生からの説明はどの程度か? Evaluating Explanations: How much do explanations from the teacher aid students? ( http://arxiv.org/abs/2012.00893v1 ) ライセンス: CC BY 4.0 | Danish Pruthi, Bhuwan Dhingra, Livio Baldini Soares, Michael Collins, Zachary C. Lipton, Graham Neubig, William W. Cohen | (参考訳) 健全な特徴を強調して予測を説明する方法が多いが、これらの説明の正確な目的と有用性を評価する方法はしばしば定かではない。
本研究は,説明が利用可能でない未確認例の教師モデルシミュレーションを学習中の生徒モデル改善の程度を測定する学生・教師パラダイムを用いて,説明の価値を定式化する。
学生モデルは(予測ではなく)訓練手順に説明を取り入れている。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にする。
このフレームワークを用いて,複数の帰属方法を比較し,複数の学習戦略で一貫性と定量的な差異を観察する。 While many methods purport to explain predictions by highlighting salient features, what precise aims these explanations serve and how to evaluate their utility are often unstated. In this work, we formalize the value of explanations using a student-teacher paradigm that measures the extent to which explanations improve student models in learning to simulate the teacher model on unseen examples for which explanations are unavailable. Student models incorporate explanations in training (but not prediction) procedures. Unlike many prior proposals to evaluate explanations, our approach cannot be easily gamed, enabling principled, scalable, and automatic evaluation of attributions. Using our framework, we compare multiple attribution methods and observe consistent and quantitative differences amongst them across multiple learning strategies. | 翻訳日:2021-05-30 21:05:41 公開日:2020-12-01 |
# 感情分析のための統一フレームワークを目指して Towards a Unified Framework for Emotion Analysis ( http://arxiv.org/abs/2012.00190v1 ) ライセンス: Link先を確認 | Sven Buechel, Luise Modersohn, and Udo Hahn | (参考訳) 我々は,異なるタスク(意味レベル,単語レベル,ラベル間マッピング),ドメイン(自然言語とそのレジスタ),ラベル形式(例えば,極性クラス,基本的な感情,感情的次元)に対する感情分析を一般化した,モジュール化されたエンコーダ・デコーダアーキテクチャであるemocoderを提案する。
14のデータセットに関する実験は、エモコーダが感情の解釈可能な言語に依存しない表現を学習し、最先端のモデルのシームレスな吸収を可能にし、ドメインとラベルフォーマットの見当たらない組み合わせでテストしても強力な予測品質を維持することを示している。 We present EmoCoder, a modular encoder-decoder architecture that generalizes emotion analysis over different tasks (sentence-level, word-level, label-to-label mapping), domains (natural languages and their registers), and label formats (e.g., polarity classes, basic emotions, and affective dimensions). Experiments on 14 datasets indicate that EmoCoder learns an interpretable language-independent representation of emotions, allows seamless absorption of state-of-the-art models, and maintains strong prediction quality, even when tested on unseen combinations of domains and label formats. | 翻訳日:2021-05-30 20:13:29 公開日:2020-12-01 |
# モンテカルロ目的のための相互情報制約 Mutual Information Constraints for Monte-Carlo Objectives ( http://arxiv.org/abs/2012.00708v1 ) ライセンス: Link先を確認 | G\'abor Melis, Andr\'as Gy\"orgy, Phil Blunsom | (参考訳) 変分オートエンコーダとして訓練された密度モデルの一般的な失敗モードは、潜在変数に頼ることなくデータをモデル化することであり、これらの変数は役に立たない。
モデルの過小分類と変分下界のゆるさという2つの寄与因子は、文献の中で別々に研究されている。
これら2つの研究、特にモンテカルロの目的の厳密な境界と観測変数と潜伏変数の間の相互情報に関する制約を共に織り込んだ。
q(z|x)$ はモデルの真の後値 $p(z|x)$ の直接近似ではないため、容易に使用可能な変分後値$q(z|x)$ とモンテカルロ目的との間の平均的なkullback-leibler 分岐として相互情報を推定することは、もはや機能しない。
そこで, 本研究の目的は, 連続潜水モデルと離散潜水モデルの訓練を行い, 速度歪みを著しく改善し, 後部崩壊を起こさないことで, 真後部のKulback-Leibler偏差の推定器を構築することである。
緩和しつつも、データモデリングと潜在子の使用の間のトレードオフは依然として残っており、様々な相互情報値に対する推論手法の評価を推奨する。 A common failure mode of density models trained as variational autoencoders is to model the data without relying on their latent variables, rendering these variables useless. Two contributing factors, the underspecification of the model and the looseness of the variational lower bound, have been studied separately in the literature. We weave these two strands of research together, specifically the tighter bounds of Monte-Carlo objectives and constraints on the mutual information between the observable and the latent variables. Estimating the mutual information as the average Kullback-Leibler divergence between the easily available variational posterior $q(z|x)$ and the prior does not work with Monte-Carlo objectives because $q(z|x)$ is no longer a direct approximation to the model's true posterior $p(z|x)$. Hence, we construct estimators of the Kullback-Leibler divergence of the true posterior from the prior by recycling samples used in the objective, with which we train models of continuous and discrete latents at much improved rate-distortion and no posterior collapse. While alleviated, the tradeoff between modelling the data and using the latents still remains, and we urge for evaluating inference methods across a range of mutual information values. | 翻訳日:2021-05-30 20:13:10 公開日:2020-12-01 |
# ASR再構成のためのFederated Marginal Personalization Federated Marginal Personalization for ASR Rescoring ( http://arxiv.org/abs/2012.00898v1 ) ライセンス: Link先を確認 | Zhe Liu, Fuchun Peng | (参考訳) 本稿では,federated marginal personalization (fmp) について紹介する。federated learning (fl) を用いた個人用ニューラルネットワークモデル(nnlms)の連続更新手法である。
FMPは、個人データに基づいてNNLMのパラメータを微調整する代わりに、グローバルおよびパーソナライズされた単語の辺縁分布を定期的に推定し、各単語固有の適応係数によってNNLMの確率を調整する。
提案手法は,federated fine-tuningの限界を克服し,デバイス上でパーソナライズされたnnlmを効率的に学習する。
第二パスASR再構成タスクにおけるFMPの適用について検討する。
2つの音声評価データセットに関する実験では、控えめな単語誤り率(wer)低減を示す。
また、FMPが音声認識精度を無視できるコストで適切なプライバシーを提供できることを示した。 We introduce federated marginal personalization (FMP), a novel method for continuously updating personalized neural network language models (NNLMs) on private devices using federated learning (FL). Instead of fine-tuning the parameters of NNLMs on personal data, FMP regularly estimates global and personalized marginal distributions of words, and adjusts the probabilities from NNLMs by an adaptation factor that is specific to each word. Our presented approach can overcome the limitations of federated fine-tuning and efficiently learn personalized NNLMs on devices. We study the application of FMP on second-pass ASR rescoring tasks. Experiments on two speech evaluation datasets show modest word error rate (WER) reductions. We also demonstrate that FMP could offer reasonable privacy with only a negligible cost in speech recognition accuracy. | 翻訳日:2021-05-30 20:09:19 公開日:2020-12-01 |
# 変圧器モデルにおける記憶の修正 Modifying Memories in Transformer Models ( http://arxiv.org/abs/2012.00363v1 ) ライセンス: Link先を確認 | Chen Zhu, Ankit Singh Rawat, Manzil Zaheer, Srinadh Bhojanapalli, Daliang Li, Felix Yu, Sanjiv Kumar | (参考訳) 大規模なトランスフォーマーモデルは、多くの自然言語タスクで素晴らしいパフォーマンスを達成しました。
特にトランスフォーマーに基づく言語モデルは、膨大な量のパラメータで事実知識を符号化する優れた能力を持っていることが示されている。
トランスフォーマーの記憶と一般化を改善するタスクは広く研究されているが、トランスフォーマーが特定の古い事実を忘れ、新しい事実を記憶する方法はよく分かっていない。
本稿では,トランスフォーマーモデルにおける具体的事実知識を複雑に修正しつつ,モデル性能が無修正の事実に劣化しないようにするための新しいタスクを提案する。
このタスクは、古い知識の更新、プライバシの保護、モデルに格納された意図しないバイアスの排除など、多くのシナリオで有用である。
このタスクで自然なベースラインのパフォーマンスを提供するいくつかのアプローチをベンチマークした。
これにより、特に知識の修正に有効なトランスフォーマーモデルのキーコンポーネントが発見される。
この研究は、異なるトレーニングフェーズ(事前トレーニングや微調整など)が記憶と知識の修正に果たす役割についての洞察も提供する。 Large Transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge in their vast amount of parameters. While the tasks of improving the memorization and generalization of Transformers have been widely studied, it is not well known how to make transformers forget specific old facts and memorize new ones. In this paper, we propose a new task of \emph{explicitly modifying specific factual knowledge in Transformer models while ensuring the model performance does not degrade on the unmodified facts}. This task is useful in many scenarios, such as updating stale knowledge, protecting privacy, and eliminating unintended biases stored in the models. We benchmarked several approaches that provide natural baseline performances on this task. This leads to the discovery of key components of a Transformer model that are especially effective for knowledge modifications. The work also provides insights into the role that different training phases (such as pretraining and fine-tuning) play towards memorization and knowledge modification. | 翻訳日:2021-05-30 20:08:56 公開日:2020-12-01 |
# XAIのためのシンボリックAI:公正かつ説明可能な自動リクルートのためのLFITインダクティブプログラミングの評価 Symbolic AI for XAI: Evaluating LFIT Inductive Programming for Fair and Explainable Automatic Recruitment ( http://arxiv.org/abs/2012.00360v1 ) ライセンス: Link先を確認 | Alfonso Ortega and Julian Fierrez and Aythami Morales and Zilong Wang and Tony Ribeiro | (参考訳) 機械学習の手法は、法医学、eヘルス、採用、eラーニングといった分野におけるバイオメトリックスと個人情報処理の関連性が高まっている。
これらのドメインでは、機械学習手法に基づいて構築されたシステムのホワイトボックス(人間可読性)の説明が重要である。
帰納的論理プログラミング(ilp)は、データ処理に関する宣言的理論を自動的に学習することを目的としたシンボリックaiのサブフィールドである。
LFIT(Learning from Interpretation Transition)は、特定のブラックボックスシステム(特定の条件下で)と同等の命題論理理論を学習できるICP技術である。
本研究は,ソフトバイオメトリック情報(性別と民族性)を組み込んだCurricula Vitaeのランク付けのための機械学習手法によって生成された,公正な採用方法に基づく,特定のAIアプリケーションシナリオにおけるLFITの有効性をチェックすることによって,古典的機械学習に正確な宣言的説明を組み込むための一般的な方法論への第一歩である。
本稿では,この問題に対するLFITの表現性を示し,他の領域に適用可能なスキームを提案する。 Machine learning methods are growing in relevance for biometrics and personal information processing in domains such as forensics, e-health, recruitment, and e-learning. In these domains, white-box (human-readable) explanations of systems built on machine learning methods can become crucial. Inductive Logic Programming (ILP) is a subfield of symbolic AI aimed to automatically learn declarative theories about the process of data. Learning from Interpretation Transition (LFIT) is an ILP technique that can learn a propositional logic theory equivalent to a given black-box system (under certain conditions). The present work takes a first step to a general methodology to incorporate accurate declarative explanations to classic machine learning by checking the viability of LFIT in a specific AI application scenario: fair recruitment based on an automatic tool generated with machine learning methods for ranking Curricula Vitae that incorporates soft biometric information (gender and ethnicity). We show the expressiveness of LFIT for this specific problem and propose a scheme that can be applicable to other domains. | 翻訳日:2021-05-30 20:08:29 公開日:2020-12-01 |
# latent programmers: プログラム合成のための離散的潜在コード Latent Programmer: Discrete Latent Codes for Program Synthesis ( http://arxiv.org/abs/2012.00377v1 ) ライセンス: Link先を確認 | Joey Hong and David Dohan and Rishabh Singh and Charles Sutton and Manzil Zaheer | (参考訳) プログラム合成や文書要約などの多くのシーケンス学習タスクにおいて、重要な問題は出力シーケンスの広い空間を探索することである。
検索に特有な出力の表現を学習することを提案する: 望ましい出力を指定できるほどリッチだが、検索をより効率的にするためのコンパクトである。
離散潜在コードは、自然に高度な組合せ探索戦略を可能にするため、この目的のために魅力的である。
潜在コードは、最初に出力シーケンスで離散オートエンコーダを訓練し、その後、エンドツーエンドシーケンス予測タスクの中間目標として使用する自己教師付き学習原理を用いて学習される。
これらの知見に基づいて,まず入力/出力サンプルから離散潜在コードを予測するプログラム合成法である \emph{Latent Programmer} を導入し,そのプログラムを対象言語で生成する。
我々は,文字列変換プログラムの合成と自然言語記述からのプログラム生成という2つの領域で潜在プログラマを評価する。
離散潜在表現が合成精度を大幅に向上させることを示す。 In many sequence learning tasks, such as program synthesis and document summarization, a key problem is searching over a large space of possible output sequences. We propose to learn representations of the outputs that are specifically meant for search: rich enough to specify the desired output but compact enough to make search more efficient. Discrete latent codes are appealing for this purpose, as they naturally allow sophisticated combinatorial search strategies. The latent codes are learned using a self-supervised learning principle, in which first a discrete autoencoder is trained on the output sequences, and then the resulting latent codes are used as intermediate targets for the end-to-end sequence prediction task. Based on these insights, we introduce the \emph{Latent Programmer}, a program synthesis method that first predicts a discrete latent code from input/output examples, and then generates the program in the target language. We evaluate the Latent Programmer on two domains: synthesis of string transformation programs, and generation of programs from natural language descriptions. We demonstrate that the discrete latent representation significantly improves synthesis accuracy. | 翻訳日:2021-05-30 20:07:59 公開日:2020-12-01 |
# 非定常ラテントバンド Non-Stationary Latent Bandits ( http://arxiv.org/abs/2012.00386v1 ) ライセンス: Link先を確認 | Joey Hong, Branislav Kveton, Manzil Zaheer, Yinlam Chow, Amr Ahmed, Mohammad Ghavamzadeh, Craig Boutilier | (参考訳) 推奨システムのユーザは、時間とともに好みや好みが変化するため、非定常的な振る舞いをすることが多い。
本研究では,非定常ユーザに対する高速パーソナライゼーションのための実践的アプローチを提案する。
鍵となるアイデアは、この問題を潜在バンディットとして、ユーザ行動のプロトタイプモデルがオフラインで学習され、潜在状態がモデルとのインタラクションからオンラインに推論される、というものである。
我々はこの問題を非定常潜伏バンディットと呼んでいる。
我々は,非定常潜在バンディットにおける後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
提案手法の主な強みは,オフライン学習モデルと組み合わせることが可能であることだ。
このようにして、オフラインとオンライン学習の強みを自然に組み合わせます。 Users of recommender systems often behave in a non-stationary fashion, due to their evolving preferences and tastes over time. In this work, we propose a practical approach for fast personalization to non-stationary users. The key idea is to frame this problem as a latent bandit, where the prototypical models of user behavior are learned offline and the latent state of the user is inferred online from its interactions with the models. We call this problem a non-stationary latent bandit. We propose Thompson sampling algorithms for regret minimization in non-stationary latent bandits, analyze them, and evaluate them on a real-world dataset. The main strength of our approach is that it can be combined with rich offline-learned models, which can be misspecified, and are subsequently fine-tuned online using posterior sampling. In this way, we naturally combine the strengths of offline and online learning. | 翻訳日:2021-05-30 20:07:32 公開日:2020-12-01 |
# 分布一般化のための予測脳モデルとしての反復的vae Iterative VAE as a predictive brain model for out-of-distribution generalization ( http://arxiv.org/abs/2012.00557v1 ) ライセンス: Link先を確認 | Victor Boutin, Aimen Zerroug, Minju Jung, Thomas Serre | (参考訳) トレーニングデータを超えて、新たな分散的画像分解に一般化する能力は、霊長類のビジョンの目印です。
予測脳は、予測符号化ネットワーク(PCN)によって実証され、神経計算の顕著な神経科学理論となっている。
近年の機械学習における変分オートエンコーダ(VAE)の成功に触発されて,PCNとVAEの対応関係を厳格に導き出した。
これはvaes (ivaes) の反復拡張を pcn の可算な変分拡張として考える動機付けである。
さらに,iVAEsは,PCNやVAEよりも分布シフトに優れることを示した。
また,人間の心理物理学的データに対して検査できる個別サンプルの認識可能性の新たな尺度を提案する。
全体として、この研究が神経科学のモデリングの新しい方向性としてiVAEへの関心を喚起することを願っている。 Our ability to generalize beyond training data to novel, out-of-distribution, image degradations is a hallmark of primate vision. The predictive brain, exemplified by predictive coding networks (PCNs), has become a prominent neuroscience theory of neural computation. Motivated by the recent successes of variational autoencoders (VAEs) in machine learning, we rigorously derive a correspondence between PCNs and VAEs. This motivates us to consider iterative extensions of VAEs (iVAEs) as plausible variational extensions of the PCNs. We further demonstrate that iVAEs generalize to distributional shifts significantly better than both PCNs and VAEs. In addition, we propose a novel measure of recognizability for individual samples which can be tested against human psychophysical data. Overall, we hope this work will spur interest in iVAEs as a promising new direction for modeling in neuroscience. | 翻訳日:2021-05-30 20:06:29 公開日:2020-12-01 |
# バイリンガル辞書からの構文抽出 Extracting Synonyms from Bilingual Dictionaries ( http://arxiv.org/abs/2012.00600v1 ) ライセンス: Link先を確認 | Mustafa Jarrar, Eman Karajah, Muhammad Khalifa, Khaled Shaalan | (参考訳) 本稿では,バイリンガル辞書から同義語を抽出する新しいアルゴリズムの開発について述べる。
同義語の識別と使用は情報アクセスアプリケーションの性能向上に重要な役割を果たしている。
そのアイデアは、翻訳対から翻訳グラフを構築し、巡回経路を抽出・統合し、同義語のバイリンガル集合を形成することである。
このアルゴリズムの最初の評価は、アラビア語と英語の両言語同義語を抽出する有望な結果を示している。
評価では、アラビア語のWordNetのシンセセットを翻訳ペア(つまり、単語センスの会員を失う)に変換した。
次に、これらの合成集合を再構築するためにアルゴリズムを適用した。
アラビア語と英語のシンセットをそれぞれ82.3%と82.1%のf-測定値を得たオリジナルと抽出されたシンセットを比較した。 We present our progress in developing a novel algorithm to extract synonyms from bilingual dictionaries. Identification and usage of synonyms play a significant role in improving the performance of information access applications. The idea is to construct a translation graph from translation pairs, then to extract and consolidate cyclic paths to form bilingual sets of synonyms. The initial evaluation of this algorithm illustrates promising results in extracting Arabic-English bilingual synonyms. In the evaluation, we first converted the synsets in the Arabic WordNet into translation pairs (i.e., losing word-sense memberships). Next, we applied our algorithm to rebuild these synsets. We compared the original and extracted synsets obtaining an F-Measure of 82.3% and 82.1% for Arabic and English synsets extraction, respectively. | 翻訳日:2021-05-30 20:05:22 公開日:2020-12-01 |
# 安全制約のある分散マルチエージェント線形バンディット Decentralized Multi-Agent Linear Bandits with Safety Constraints ( http://arxiv.org/abs/2012.00314v1 ) ライセンス: Link先を確認 | Sanae Amani, Christos Thrampoulidis | (参考訳) 本研究では,n$エージェントのネットワークが協調して作用し,d$次元空間上の線形バンディット最適化問題を効率的に解く分散確率的線形バンディットについて検討する。
そこで本研究では,ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズムDLUCBを提案する。
アルゴリズムの各ラウンドにおいて、各エージェントは、uper confidence bound(ucb)戦略に従ってそのアクションを選択し、エージェントは、サイクルを繰り返す注意深く設計されたコンセンサス手順を通じて情報を共有する。
提案手法は,1ラウンドあたり$\mathcal{o}(dn^2)$の通信速度で,ほぼ最適の後悔性能である$\mathcal{o}(d\log{nt}\sqrt{nt})$を保証する。
ネットワークの構造は、基礎となるグラフのスペクトルギャップに依存する小さな加算項(遅延の後悔)を通して、後悔のパフォーマンスに影響を与える。
特に,サーバとして機能する専用エージェントを必要とせず,任意のネットワークトポロジに適用した。
通信コストの高い状況を考慮して,DLUCBとエージェント間の通信が希少であるRC-DLUCBを提案する。
新しいアルゴリズムは、すべてのT$ラウンドで$\mathcal{O}(d^3N^{2.5})$の通信コストを大幅に削減するために、後悔のパフォーマンスをトレードオフする。
そして最後に、私たちのアイデアが、より困難ではあるが、より安全な盗賊の設定へと自然に広がることを示す。
線形安全制約が未知な線形バンディットの最近研究された問題に対して,我々は最初の安全な分散アルゴリズムを提案する。
本研究は,未知の確率環境に繰り返し対処する安全クリティカル分散システムにおける帯域幅技術の適用に寄与する。
理論的な知見を裏付ける様々なネットワークトポロジーの数値シミュレーションを提案する。 We study decentralized stochastic linear bandits, where a network of $N$ agents acts cooperatively to efficiently solve a linear bandit-optimization problem over a $d$-dimensional space. For this problem, we propose DLUCB: a fully decentralized algorithm that minimizes the cumulative regret over the entire network. At each round of the algorithm each agent chooses its actions following an upper confidence bound (UCB) strategy and agents share information with their immediate neighbors through a carefully designed consensus procedure that repeats over cycles. Our analysis adjusts the duration of these communication cycles ensuring near-optimal regret performance $\mathcal{O}(d\log{NT}\sqrt{NT})$ at a communication rate of $\mathcal{O}(dN^2)$ per round. The structure of the network affects the regret performance via a small additive term - coined the regret of delay - that depends on the spectral gap of the underlying graph. Notably, our results apply to arbitrary network topologies without a requirement for a dedicated agent acting as a server. In consideration of situations with high communication cost, we propose RC-DLUCB: a modification of DLUCB with rare communication among agents. The new algorithm trades off regret performance for a significantly reduced total communication cost of $\mathcal{O}(d^3N^{2.5})$ over all $T$ rounds. Finally, we show that our ideas extend naturally to the emerging, albeit more challenging, setting of safe bandits. For the recently studied problem of linear bandits with unknown linear safety constraints, we propose the first safe decentralized algorithm. Our study contributes towards applying bandit techniques in safety-critical distributed systems that repeatedly deal with unknown stochastic environments. We present numerical simulations for various network topologies that corroborate our theoretical findings. | 翻訳日:2021-05-30 20:05:02 公開日:2020-12-01 |
# 漂流特性の解析 Analysis of Drifting Features ( http://arxiv.org/abs/2012.00499v1 ) ライセンス: Link先を確認 | Fabian Hinder, Jonathan Jakob, Barbara Hammer | (参考訳) 概念ドリフトの概念は、観測データの背後にある分布が時間とともに変化する現象を指す。
我々は、観測された漂流に最も関係のあるこれらの特徴の同定に興味を持っている。
我々は,観測された特徴のドリフトが他の特徴によって説明できないドリフト誘発特徴と,他の特徴の現在のドリフトと相関する忠実なドリフト特徴とを区別する。
この概念は、観測されたドリフト全体を特徴づけることのできる特徴空間の最小部分集合をもたらす。
この問題を特徴選択問題と特徴関連学習問題に関連付け,検出アルゴリズムの導出を可能にした。
異なるベンチマークでその有用性を示す。 The notion of concept drift refers to the phenomenon that the distribution, which is underlying the observed data, changes over time. We are interested in an identification of those features, that are most relevant for the observed drift. We distinguish between drift inducing features, for which the observed feature drift cannot be explained by any other feature, and faithfully drifting features, which correlate with the present drift of other features. This notion gives rise to minimal subsets of the feature space, which are able to characterize the observed drift as a whole. We relate this problem to the problems of feature selection and feature relevance learning, which allows us to derive a detection algorithm. We demonstrate its usefulness on different benchmarks. | 翻訳日:2021-05-30 20:04:16 公開日:2020-12-01 |
# 2つのタイムポイントによる深い動的モデリング: 個々のトラジェクタを許容できるのか? Deep dynamic modeling with just two time points: Can we still allow for individual trajectories? ( http://arxiv.org/abs/2012.00634v1 ) ライセンス: Link先を確認 | Maren Hackenberg, Philipp Harms, Thorsten Schmidt, Harald Binder | (参考訳) 縦断的バイオメディカルデータは、しばしばスパースタイムグリッドと個人固有の開発パターンによって特徴づけられる。
具体的には、疫学的コホート研究や臨床登録では、基礎的特徴と1つのフォローアップ測定のみが利用可能である場合、研究の初期段階でデータから何が学べるかという問題に直面している。
深層学習と動的モデリングを組み合わせることを可能にする最近の進歩に触発されて、そのアプローチが複雑な構造を明らかにするのに有用であるかどうか、特に個々の観測時間点を2つしか持たない極小データセットについて検討する。
時間の不規則な間隔は、個人の類似性を活用することで、個人のダイナミクスに関するより多くの情報を得るために使うことができる。
本稿では, 変分自己エンコーダ (VAE) を動的モデリングのための常微分方程式 (ODE) とどのように関連づけるかを概観し, 正規性仮定と個人類似性を含むことによって, 個人固有の潜在軌道を推定する手法の有効性について検討する。
また,この深層学習アプローチを統計的視点を与えるためのフィルタリングタスクとして記述する。
シミュレーションデータを用いて,2 と 4 つの未知のパラメータを持つ ode システムから個々の軌道を復元し,類似した軌道を持つ個人群を推定し,分解の程度を示す。
その結果、このような動的深層学習アプローチは、極端に小さなデータ設定でも有用であるが、慎重に適応する必要があることがわかった。 Longitudinal biomedical data are often characterized by a sparse time grid and individual-specific development patterns. Specifically, in epidemiological cohort studies and clinical registries we are facing the question of what can be learned from the data in an early phase of the study, when only a baseline characterization and one follow-up measurement are available. Inspired by recent advances that allow to combine deep learning with dynamic modeling, we investigate whether such approaches can be useful for uncovering complex structure, in particular for an extreme small data setting with only two observations time points for each individual. Irregular spacing in time could then be used to gain more information on individual dynamics by leveraging similarity of individuals. We provide a brief overview of how variational autoencoders (VAEs), as a deep learning approach, can be linked to ordinary differential equations (ODEs) for dynamic modeling, and then specifically investigate the feasibility of such an approach that infers individual-specific latent trajectories by including regularity assumptions and individuals' similarity. We also provide a description of this deep learning approach as a filtering task to give a statistical perspective. Using simulated data, we show to what extent the approach can recover individual trajectories from ODE systems with two and four unknown parameters and infer groups of individuals with similar trajectories, and where it breaks down. The results show that such dynamic deep learning approaches can be useful even in extreme small data settings, but need to be carefully adapted. | 翻訳日:2021-05-30 20:03:58 公開日:2020-12-01 |
# Sim2Real for Self-Supervised Monocular Depth and Segmentation Sim2Real for Self-Supervised Monocular Depth and Segmentation ( http://arxiv.org/abs/2012.00238v1 ) ライセンス: Link先を確認 | Nithin Raghavan, Punarjay Chakravarty, Shubham Shrivastava | (参考訳) 自動運転車の認識タスクのための画像ベースの学習手法は、過度に適合することなく適切にトレーニングするために、大量のラベル付き実データを必要とする。
シミュレーションデータのパワーを活用することで、これらのコストを軽減することができるが、シミュレーション領域で訓練されたネットワークは通常、実際のドメインの画像に適用された場合、適切に動作しない。
ドメイン適応の最近の進歩は、共有潜在空間仮定がシミュレーションと実際のドメインの間のギャップを埋めるのに役立ち、シミュレーションドメインから実際のドメインへのネットワークの予測能力の移譲を可能にすることを示唆している。
共用した潜在空間と補助的なデコーダを持つ2つのvaeベースのアーキテクチャは、実領域におけるペアリングされた接地データを必要としないsim2real gapをブリッジできることを実証する。
このアーキテクチャでは,シミュレーション領域における基底構造データのみを用いて,深度やセグメンテーションマップなどの知覚タスクを生成することができる。
この手法を教師付きで訓練されたネットワークと比較し,結果のメリットを示す。 Image-based learning methods for autonomous vehicle perception tasks require large quantities of labelled, real data in order to properly train without overfitting, which can often be incredibly costly. While leveraging the power of simulated data can potentially aid in mitigating these costs, networks trained in the simulation domain usually fail to perform adequately when applied to images in the real domain. Recent advances in domain adaptation have indicated that a shared latent space assumption can help to bridge the gap between the simulation and real domains, allowing the transference of the predictive capabilities of a network from the simulation domain to the real domain. We demonstrate that a twin VAE-based architecture with a shared latent space and auxiliary decoders is able to bridge the sim2real gap without requiring any paired, ground-truth data in the real domain. Using only paired, ground-truth data in the simulation domain, this architecture has the potential to generate perception tasks such as depth and segmentation maps. We compare this method to networks trained in a supervised manner to indicate the merit of these results. | 翻訳日:2021-05-30 20:03:09 公開日:2020-12-01 |
# 人の流れを推定して人を数える Counting People by Estimating People Flows ( http://arxiv.org/abs/2012.00452v1 ) ライセンス: Link先を確認 | Weizhe Liu, Mathieu Salzmann, Pascal Fua | (参考訳) 混み合ったシーンの人物を数える現代の方法は、個々の画像の人物密度を推定するためにディープネットワークに依存している。
このように、ビデオシーケンスの時間的一貫性を活かすものはほとんどなく、連続するフレームに弱い滑らかさの制約を課すだけである。
本稿では,連続する画像間の画像位置間の流れを推定し,直接レグレッションするのではなく,これらの流れから人物密度を推定することを提案する。
これにより、人数の保存を規定するより強い制約を課すことができます。
その結果、より複雑なアーキテクチャを必要とせずに、パフォーマンスが大幅に向上する。
さらに, 人流と光流の相関を利用して, 結果をさらに改善することができる。
また,空間的制約と時間的制約を両立させることで,より少ないアノテーションで積極的学習環境において,深い群集数モデルを訓練できることを示す。
これはアノテーションのコストを大幅に削減すると同時に、完全な監視ケースと同じようなパフォーマンスを実現している。 Modern methods for counting people in crowded scenes rely on deep networks to estimate people densities in individual images. As such, only very few take advantage of temporal consistency in video sequences, and those that do only impose weak smoothness constraints across consecutive frames. In this paper, we advocate estimating people flows across image locations between consecutive images and inferring the people densities from these flows instead of directly regressing them. This enables us to impose much stronger constraints encoding the conservation of the number of people. As a result, it significantly boosts performance without requiring a more complex architecture. Furthermore, it allows us to exploit the correlation between people flow and optical flow to further improve the results. We also show that leveraging people conservation constraints in both a spatial and temporal manner makes it possible to train a deep crowd counting model in an active learning setting with much fewer annotations. This significantly reduces the annotation cost while still leading to similar performance to the full supervision case. | 翻訳日:2021-05-30 20:01:35 公開日:2020-12-01 |
# 教師なしクラスタリングによる半教師付き学習の性能向上 Boosting the Performance of Semi-Supervised Learning with Unsupervised Clustering ( http://arxiv.org/abs/2012.00504v1 ) ライセンス: Link先を確認 | Boaz Lerner, Guy Shiran, Daphna Weinshall | (参考訳) 最近、SSL(Semi-Supervised Learning)はラベルのないデータを活用する上で、非常に少数のラベルが提供されている。
本稿では,訓練期間中に断続的にラベルを無視することで,小規模サンプルシステムの性能が著しく向上することを示す。
具体的には,2つのタスクのネットワークを協調的にトレーニングすることを提案する。
一次分類タスクはラベルのないデータと少ない注釈付きデータの両方に露出するが、二次分類タスクはラベルなしでデータをクラスタ化しようとする。
自己スーパービジョンで頻繁に使用される手作りのプリテキストタスクとは対照的に、クラスタリングフェーズでは、同じ分類ネットワークとヘッドを使用して、プライマリタスクを緩和し、ラベルから情報をオーバーフィットすることなく伝達する。
さらに、教師なし学習フェーズ中に、画像回転を分類する自己教師あり技術が組み込まれ、トレーニングを安定させる。
本手法は,いくつかの最先端sslアルゴリズムを高速化し,その性能を著しく改善し,cifar-10における92.6%の精度とsvhnでの96.9%を含む様々な標準半教師付きベンチマークで実行時間を短縮する効果を示す。
また、クラス毎に1,2ラベルと3ラベルの極端なケースで結果を改善し、モデルによって学習された特徴がデータ分離に有意義であることを示す。 Recently, Semi-Supervised Learning (SSL) has shown much promise in leveraging unlabeled data while being provided with very few labels. In this paper, we show that ignoring the labels altogether for whole epochs intermittently during training can significantly improve performance in the small sample regime. More specifically, we propose to train a network on two tasks jointly. The primary classification task is exposed to both the unlabeled and the scarcely annotated data, whereas the secondary task seeks to cluster the data without any labels. As opposed to hand-crafted pretext tasks frequently used in self-supervision, our clustering phase utilizes the same classification network and head in an attempt to relax the primary task and propagate the information from the labels without overfitting them. On top of that, the self-supervised technique of classifying image rotations is incorporated during the unsupervised learning phase to stabilize training. We demonstrate our method's efficacy in boosting several state-of-the-art SSL algorithms, significantly improving their results and reducing running time in various standard semi-supervised benchmarks, including 92.6% accuracy on CIFAR-10 and 96.9% on SVHN, using only 4 labels per class in each task. We also notably improve the results in the extreme cases of 1,2 and 3 labels per class, and show that features learned by our model are more meaningful for separating the data. | 翻訳日:2021-05-30 20:01:09 公開日:2020-12-01 |
# 複数モーダル検索におけるペアデータからの非絡み付き潜伏因子の学習:暗黙の特定可能なVAEアプローチ Learning Disentangled Latent Factors from Paired Data in Cross-Modal Retrieval: An Implicit Identifiable VAE Approach ( http://arxiv.org/abs/2012.00682v1 ) ライセンス: Link先を確認 | Minyoung Kim, Ricardo Guerrero, Vladimir Pavlovic | (参考訳) クロスモーダル検索において,ペアのバイモーダルデータ間で共有される不連続な潜在要因を学習する問題に対処する。
我々の仮定では、両モードのデータは複雑で構造化され、高次元(画像やテキストなど)であり、従来の変分オートエンコーダ(VAE)のような遅延変数モデルでは正確なデコーダ訓練や現実的な合成が困難であることが多い。
最適に訓練されたデコーダは、真の要因を特定するモデルの能力を傷つける可能性がある。
本稿では,低次元埋め込み関数のヤコビアン正則化によって達成された暗黙エンコーダインバージョンを通じて,潜在変数モデルから環境データ復号モジュールを完全に削除する,暗黙的デコーダの新たなアイデアを提案する。
近年の Identible VAE (IVAE) モデルから動機付けされ,クエリのモダリティデータを条件付補助入力として組み込むことで,モデルの真のパラメータが一定の規則性条件下で識別可能であることを示す。
本モデルでは,真の因子が完全かつ部分的に利用可能である各種データセットを用いて,それらの因子を正確に同定し,従来のエンコーダ・デコーダ・潜在変数モデルよりも有意に優れていることを示す。
また,大規模食品画像/レシピデータセットである recipe1m では,本手法による学習要素と,鮮度,水度,緑度など,最も明確な食品要因との一致度が高かった。 We deal with the problem of learning the underlying disentangled latent factors that are shared between the paired bi-modal data in cross-modal retrieval. Our assumption is that the data in both modalities are complex, structured, and high dimensional (e.g., image and text), for which the conventional deep auto-encoding latent variable models such as the Variational Autoencoder (VAE) often suffer from difficulty of accurate decoder training or realistic synthesis. A suboptimally trained decoder can potentially harm the model's capability of identifying the true factors. In this paper we propose a novel idea of the implicit decoder, which completely removes the ambient data decoding module from a latent variable model, via implicit encoder inversion that is achieved by Jacobian regularization of the low-dimensional embedding function. Motivated from the recent Identifiable VAE (IVAE) model, we modify it to incorporate the query modality data as conditioning auxiliary input, which allows us to prove that the true parameters of the model can be identified under some regularity conditions. Tested on various datasets where the true factors are fully/partially available, our model is shown to identify the factors accurately, significantly outperforming conventional encoder-decoder latent variable models. We also test our model on the Recipe1M, the large-scale food image/recipe dataset, where the learned factors by our approach highly coincide with the most pronounced food factors that are widely agreed on, including savoriness, wateriness, and greenness. | 翻訳日:2021-05-30 20:00:31 公開日:2020-12-01 |
# 教師なしドメイン適応のための標準VAEによるデータ拡張 Data Augmentation with norm-VAE for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2012.00848v1 ) ライセンス: Link先を確認 | Qian Wang, Fanlin Meng, Toby P. Breckon | (参考訳) 画像分類におけるUnsupervised Domain Adaptation (UDA) 問題に新しい視点から対処する。
データ分布を調整するかドメイン不変性を学ぶかのどちらかの既存の作品と対照的に、明示的なドメイン適応を伴わずに、高次元に均質な特徴空間内の両方の領域の統一分類器を直接学習する。
そこで本研究では,SPL(Selective Pseudo-Labelling)技術を用いて,対象領域の未ラベルサンプルを有効活用する。
驚いたことに、ソースとターゲットドメイン間のデータ分散の相違は、計算学的に単純な分類器(例えば、浅層パーセプトロン)によって、元の特徴空間で訓練される。
さらに,データ拡張戦略として,対象領域の合成特徴を生成する新しい生成モデルノルムVAEを提案する。
いくつかのベンチマークデータセットの実験結果は、擬似ラベリング戦略自体が、多くの最先端メソッドに匹敵するパフォーマンスをもたらすことを示し、一方、機能拡張に標準VAEを使用することは、ほとんどのケースでパフォーマンスをさらに向上させる。
その結果,提案手法(すなわち,提案手法)が得られた。
Naive-SPL と norm-VAE-SPL は、平均精度93.4% と 90.4% の Office-Caltech と ImageCLEF-DA のデータセットで、平均精度97.2% と 87.6% と 67.9% の Digits と Office31 と Office-Home のデータセットで同等のパフォーマンスが得られる。 We address the Unsupervised Domain Adaptation (UDA) problem in image classification from a new perspective. In contrast to most existing works which either align the data distributions or learn domain-invariant features, we directly learn a unified classifier for both domains within a high-dimensional homogeneous feature space without explicit domain adaptation. To this end, we employ the effective Selective Pseudo-Labelling (SPL) techniques to take advantage of the unlabelled samples in the target domain. Surprisingly, data distribution discrepancy across the source and target domains can be well handled by a computationally simple classifier (e.g., a shallow Multi-Layer Perceptron) trained in the original feature space. Besides, we propose a novel generative model norm-VAE to generate synthetic features for the target domain as a data augmentation strategy to enhance classifier training. Experimental results on several benchmark datasets demonstrate the pseudo-labelling strategy itself can lead to comparable performance to many state-of-the-art methods whilst the use of norm-VAE for feature augmentation can further improve the performance in most cases. As a result, our proposed methods (i.e. naive-SPL and norm-VAE-SPL) can achieve new state-of-the-art performance with the average accuracy of 93.4% and 90.4% on Office-Caltech and ImageCLEF-DA datasets, and comparable performance on Digits, Office31 and Office-Home datasets with the average accuracy of 97.2%, 87.6% and 67.9% respectively. | 翻訳日:2021-05-30 19:59:44 公開日:2020-12-01 |
# ディープニューラルネットワークの正確なプラットフォーム対応性能モデリングに向けて Toward Accurate Platform-Aware Performance Modeling for Deep Neural Networks ( http://arxiv.org/abs/2012.00211v1 ) ライセンス: Link先を確認 | Chuan-Chi Wang, Ying-Chiao Liao, Ming-Chang Kao, Wen-Yew Liang, Shih-Hao Hung | (参考訳) 本稿では,様々なGPUアクセラレータ上でのニューラルネットワーク性能をモデル化するための従来の作業の精度を向上させる,微細粒度機械学習ベースのPerfNetV2を提案する。
アプリケーションが与えられた場合、提案手法は、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測するために使用することができ、システム開発者はニューラルネットワークを選択したり、ハードウェアアクセラレータを組み込んだりすることで、パフォーマンスを最適化することができる。
さらに、提案手法は、例えば、見当たらない、または存在しない装置の性能を予測することができる。
プロセッサコアが少なく、メモリ容量も大きい、高い動作周波数を持つ新しいGPU。
これにより、システム開発者はハードウェア設計スペースを素早く検索したり、システム構成を微調整したりできる。
以前の研究と比較すると、PerfNetV2は完全なニューラルネットワークの実行において詳細なホスト-アクセラレータインタラクションをモデル化し、予測器で使用される機械学習モデルのアーキテクチャを改善することで、より正確な結果を提供する。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。 In this paper, we provide a fine-grain machine learning-based method, PerfNetV2, which improves the accuracy of our previous work for modeling the neural network performance on a variety of GPU accelerators. Given an application, the proposed method can be used to predict the inference time and training time of the convolutional neural networks used in the application, which enables the system developer to optimize the performance by choosing the neural networks and/or incorporating the hardware accelerators to deliver satisfactory results in time. Furthermore, the proposed method is capable of predicting the performance of an unseen or non-existing device, e.g. a new GPU which has a higher operating frequency with less processor cores, but more memory capacity. This allows a system developer to quickly search the hardware design space and/or fine-tune the system configuration. Compared to the previous works, PerfNetV2 delivers more accurate results by modeling detailed host-accelerator interactions in executing the full neural networks and improving the architecture of the machine learning model used in the predictor. Our case studies show that PerfNetV2 yields a mean absolute percentage error within 13.1% on LeNet, AlexNet, and VGG16 on NVIDIA GTX-1080Ti, while the error rate on a previous work published in ICBD 2018 could be as large as 200%. | 翻訳日:2021-05-30 19:58:54 公開日:2020-12-01 |
# 対向通信におけるロバストなマルチエージェント協調のためのガウス過程に基づくメッセージフィルタリング Gaussian Process Based Message Filtering for Robust Multi-Agent Cooperation in the Presence of Adversarial Communication ( http://arxiv.org/abs/2012.00508v1 ) ライセンス: Link先を確認 | Rupert Mitchell, Jan Blumenkamp and Amanda Prorok | (参考訳) 本稿では,マルチエージェントシステムにおける対角通信に堅牢性を提供することの問題点について考察する。
具体的には,誤り,誤解,操作的情報を伝達する非協力的エージェントの存在下で,マルチエージェントシステムが高いパフォーマンスを維持することを可能にする,堅牢な協調に向けたソリューションを提案する。
この目的を追求するために,グラフニューラルネットワーク(GNN)に基づく通信アーキテクチャを提案する。これはガウス過程(GP)に基づく新しい確率論的モデルで,各エージェントの物理的近接と相対位置による相互情報の特徴付けを行う。
このモデルにより、エージェントは、通信相手の1つが真であるという、およその後方確率または信頼を局所的に計算することができる。
これらの信頼感は、メッセージフィルタリングスキームの重みとして使用できるため、受信者の判断に不審なコミュニケーションの影響が抑えられる。
本手法の有効性を評価するため,非協力的エージェントの分類を導入し,それらの情報量で識別する。
我々は,本手法が他の方法よりも優れていることを示す2つの実験を行った。
提案手法は,非協力的エージェントが引き起こす影響を軽減し,無視できる点まで低減し,かつ,敵のいない場合のパフォーマンスに無視できるコストを削減できる。 In this paper, we consider the problem of providing robustness to adversarial communication in multi-agent systems. Specifically, we propose a solution towards robust cooperation, which enables the multi-agent system to maintain high performance in the presence of anonymous non-cooperative agents that communicate faulty, misleading or manipulative information. In pursuit of this goal, we propose a communication architecture based on Graph Neural Networks (GNNs), which is amenable to a novel Gaussian Process (GP)-based probabilistic model characterizing the mutual information between the simultaneous communications of different agents due to their physical proximity and relative position. This model allows agents to locally compute approximate posterior probabilities, or confidences, that any given one of their communication partners is being truthful. These confidences can be used as weights in a message filtering scheme, thereby suppressing the influence of suspicious communication on the receiving agent's decisions. In order to assess the efficacy of our method, we introduce a taxonomy of non-cooperative agents, which distinguishes them by the amount of information available to them. We demonstrate in two distinct experiments that our method performs well across this taxonomy, outperforming alternative methods. For all but the best informed adversaries, our filtering method is able to reduce the impact that non-cooperative agents cause, reducing it to the point of negligibility, and with negligible cost to performance in the absence of adversaries. | 翻訳日:2021-05-30 19:58:15 公開日:2020-12-01 |
# RR-Interval Framed Electrocardiogram を用いたディープラーニングによる不整脈検出 Deep Learning-Based Arrhythmia Detection Using RR-Interval Framed Electrocardiograms ( http://arxiv.org/abs/2012.00348v1 ) ライセンス: Link先を確認 | Song-Kyoo Kim, Chan Yeob Yeun, Paul D. Yoo, Nai-Wei Lo, Ernesto Damiani | (参考訳) 心電図(ECG)データに応用された深層学習は生体認証の応用において個人認証に利用できるが、心血管疾患の診断には広く使われていない。
畳み込みニューラルネットワーク(CNN)の入力として,連続Rピーク間の距離を表す時間スライスECGデータを用いた不整脈検出のための深層学習モデルを開発した。
主な目的は、データセットを最小に使用するが、不整脈検出の自信のある精度を提供する、コンパクトなディープラーニングベースの検出システムを開発することである。
この小型システムは、複雑なECG波形に特徴抽出ステップを必要としないため、ウェアラブルデバイスやリアルタイム監視装置に実装でき、Rピークデータのみを必要とする。
両試験の結果, CADS (Compact Arrhythmia Detection System) は2回の連続試験において, 不整脈検出システムの性能と一致した。
CADSのすべての機能は完全に実装されており、MATLABで公開されている。 Deep learning applied to electrocardiogram (ECG) data can be used to achieve personal authentication in biometric security applications, but it has not been widely used to diagnose cardiovascular disorders. We developed a deep learning model for the detection of arrhythmia in which time-sliced ECG data representing the distance between successive R-peaks are used as the input for a convolutional neural network (CNN). The main objective is developing the compact deep learning based detect system which minimally uses the dataset but delivers the confident accuracy rate of the Arrhythmia detection. This compact system can be implemented in wearable devices or real-time monitoring equipment because the feature extraction step is not required for complex ECG waveforms, only the R-peak data is needed. The results of both tests indicated that the Compact Arrhythmia Detection System (CADS) matched the performance of conventional systems for the detection of arrhythmia in two consecutive test runs. All features of the CADS are fully implemented and publicly available in MATLAB. | 翻訳日:2021-05-30 19:57:34 公開日:2020-12-01 |
# 評価によってバイアスを受ける評価 Debiasing Evaluations That are Biased by Evaluations ( http://arxiv.org/abs/2012.00714v1 ) ライセンス: Link先を確認 | Jingyan Wang, Ivan Stelmakh, Yuting Wei, Nihar B. Shah | (参考訳) 評価を依頼することで、一連の項目を評価するのが一般的である。
例えば、大学は生徒にインストラクタの教育品質の評価を依頼し、会議の主催者はレビューの質を評価するために投稿の著者に依頼する。
しかし、これらのアプリケーションでは、学生はコースの成績が上がればコースに高い評価を与えることが多く、論文がカンファレンスに受理された場合、レビューに高い評価を与えることが多い。
本研究では,これらの外部要因を,人々が経験する「アウトカム」と呼び,結果に関する情報が得られれば,与えられた評価でこれらの結果に誘発されるバイアスを緩和する問題を考察する。
結果に関する情報を偏見に基づく既知の部分順序として定式化する。
この順序付け制約の下で正規化最適化問題を解くことでデバイアス化法を提案し、また適切な正規化量を適応的に選択するクロスバリデーション法を提案する。
我々は,提案アルゴリズムの性能に関する理論的保証と実験評価を提供する。 It is common to evaluate a set of items by soliciting people to rate them. For example, universities ask students to rate the teaching quality of their instructors, and conference organizers ask authors of submissions to evaluate the quality of the reviews. However, in these applications, students often give a higher rating to a course if they receive higher grades in a course, and authors often give a higher rating to the reviews if their papers are accepted to the conference. In this work, we call these external factors the "outcome" experienced by people, and consider the problem of mitigating these outcome-induced biases in the given ratings when some information about the outcome is available. We formulate the information about the outcome as a known partial ordering on the bias. We propose a debiasing method by solving a regularized optimization problem under this ordering constraint, and also provide a carefully designed cross-validation method that adaptively chooses the appropriate amount of regularization. We provide theoretical guarantees on the performance of our algorithm, as well as experimental evaluations. | 翻訳日:2021-05-30 19:56:43 公開日:2020-12-01 |
# 浅い線形ニューラルネットワークにおけるDropoutの漸近収束速度 Asymptotic convergence rate of Dropout on shallow linear neural networks ( http://arxiv.org/abs/2012.01978v1 ) ライセンス: Link先を確認 | Albert Senen-Cerda, Jaron Sanders | (参考訳) 本研究では, 直交線形ニューラルネットワーク (NN) に適用する場合, ドロップアウトやドロップコネクションによって誘導される目的関数の勾配流の収束速度を解析し, 特定の正則化器を用いて行列分解を行うことができることを示した。
このようなドロップアウトアルゴリズムは、0,1値の確率変数を用いてトレーニング中に重みをフィルタリングし、特徴の共適応を避けるための正規化手法である。
非凸最適化の最近の結果を利用して、最小化器の集合と損失関数のヘシアンを慎重に解析することにより、(i)勾配流の局所収束証明と(ii)データ、ドロップアウト確率、NNの幅に依存する収束率のバウンドを得ることができる。
最後に、この理論バウンドを数値シミュレーションと比較し、収束バウンドと定性的に一致し、最小化器に十分近づいたときにそれと一致させる。 We analyze the convergence rate of gradient flows on objective functions induced by Dropout and Dropconnect, when applying them to shallow linear Neural Networks (NNs) - which can also be viewed as doing matrix factorization using a particular regularizer. Dropout algorithms such as these are thus regularization techniques that use 0,1-valued random variables to filter weights during training in order to avoid coadaptation of features. By leveraging a recent result on nonconvex optimization and conducting a careful analysis of the set of minimizers as well as the Hessian of the loss function, we are able to obtain (i) a local convergence proof of the gradient flow and (ii) a bound on the convergence rate that depends on the data, the dropout probability, and the width of the NN. Finally, we compare this theoretical bound to numerical simulations, which are in qualitative agreement with the convergence bound and match it when starting sufficiently close to a minimizer. | 翻訳日:2021-05-30 19:56:15 公開日:2020-12-01 |
# スライド画像全体における癌検出のためのパッチベース学習の限界克服 Overcoming the limitations of patch-based learning to detect cancer in whole slide images ( http://arxiv.org/abs/2012.00617v1 ) ライセンス: Link先を確認 | Ozan Ciga, Tony Xu, Sharon Nofech-Mozes, Shawna Noy, Fang-I Lu, Anne L. Martel | (参考訳) ディープラーニングモデルをトレーニングする際、WSI(Whole Slide Image)がユニークな課題となる。
これらは非常に大きく、分析のために各イメージを小さなパッチに分割する必要がある。細部とコンテキストの両方をキャプチャするために、画像の特徴を複数のスケールで抽出しなければならず、極端なクラスの不均衡が存在する可能性がある。
公開アノテートされたデータセットが利用できるため、これらの画像の解析においてかなりの進歩があった。
しかし,本手法が課題に対してうまくスコアを付けたとしても,この成功はより臨床的に関係のあるワークフローにおいて,優れたパフォーマンスに変換されない可能性がある。
多くのデータセットは、データのキュレーションバイアスに悩まされるイメージパッチで構成されており、他のデータセットは、スライドレベル全体においてのみラベル付けされ、画像全体のアノテーションの欠如は、最終的な決定が正しい限り、誤ったローカル予測を隠蔽する可能性がある。
本稿では,スライド全体にわたって,がんの局所化や分節化に必要なパッチやスライドレベルの分類方法の違いを概説し,両者のベストプラクティスの違いを実験的に検証する。
乳がん治療後wsisに二分性がん検出ネットワークを適用し,がんの程度を概説する腫瘍床の探索を行った。
アーキテクチャや拡張など,複数の設計選択とその成果への影響を幅広く研究する。
さらに,偽陽性率(スライドレベルでは7%)を劇的に低減し,腫瘍範囲の誤差を15%削減し,この問題に関連する各指標を改善できる負のデータサンプリング戦略を提案する。 Whole slide images (WSIs) pose unique challenges when training deep learning models. They are very large which makes it necessary to break each image down into smaller patches for analysis, image features have to be extracted at multiple scales in order to capture both detail and context, and extreme class imbalances may exist. Significant progress has been made in the analysis of these images, thanks largely due to the availability of public annotated datasets. We postulate, however, that even if a method scores well on a challenge task, this success may not translate to good performance in a more clinically relevant workflow. Many datasets consist of image patches which may suffer from data curation bias; other datasets are only labelled at the whole slide level and the lack of annotations across an image may mask erroneous local predictions so long as the final decision is correct. In this paper, we outline the differences between patch or slide-level classification versus methods that need to localize or segment cancer accurately across the whole slide, and we experimentally verify that best practices differ in both cases. We apply a binary cancer detection network on post neoadjuvant therapy breast cancer WSIs to find the tumor bed outlining the extent of cancer, a task which requires sensitivity and precision across the whole slide. We extensively study multiple design choices and their effects on the outcome, including architectures and augmentations. Furthermore, we propose a negative data sampling strategy, which drastically reduces the false positive rate (7% on slide level) and improves each metric pertinent to our problem, with a 15% reduction in the error of tumor extent. | 翻訳日:2021-05-30 19:55:26 公開日:2020-12-01 |
# CPM: 大規模生成中国語事前訓練言語モデル CPM: A Large-scale Generative Chinese Pre-trained Language Model ( http://arxiv.org/abs/2012.00413v1 ) ライセンス: Link先を確認 | Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun | (参考訳) プレトレーニング言語モデル(PLM)は、様々な下流のNLPタスクに有用であることが証明されている。
最近、GPT-3は1750億のパラメータと570GBのトレーニングデータを持ち、数ショット(ゼロショット)の学習能力のために多くの注目を集めている。
しかし、GPT-3のトレーニングコーパスは主に英語であり、パラメータは公開されていないため、中国のNLPタスクにGPT-3を適用することは依然として難しい。
本技術報告では,大規模な中国語学習データに基づく生成事前学習を伴う中国語事前学習言語モデル(CPM)をリリースする。
我々の知る限り、CPMは260億のパラメータと100GBの中国語のトレーニングデータを持ち、中国最大の事前訓練された言語モデルであり、会話、エッセイ生成、クローゼテスト、言語理解など、いくつかの中国語のNLPタスクを促進することができる。
大規模な実験により、CPMは、少数ショット(ゼロショット)学習の設定において、多くのNLPタスクで高いパフォーマンスを達成することが示された。
コードとパラメータはhttps://github.com/tsinghuaai/cpm-generateで入手できる。 Pre-trained Language Models (PLMs) have proven to be beneficial for various downstream NLP tasks. Recently, GPT-3, with 175 billion parameters and 570GB training data, drew a lot of attention due to the capacity of few-shot (even zero-shot) learning. However, applying GPT-3 to address Chinese NLP tasks is still challenging, as the training corpus of GPT-3 is primarily English, and the parameters are not publicly available. In this technical report, we release the Chinese Pre-trained Language Model (CPM) with generative pre-training on large-scale Chinese training data. To the best of our knowledge, CPM, with 2.6 billion parameters and 100GB Chinese training data, is the largest Chinese pre-trained language model, which could facilitate several downstream Chinese NLP tasks, such as conversation, essay generation, cloze test, and language understanding. Extensive experiments demonstrate that CPM achieves strong performance on many NLP tasks in the settings of few-shot (even zero-shot) learning. The code and parameters are available at https://github.com/TsinghuaAI/CPM-Generate. | 翻訳日:2021-05-30 19:54:14 公開日:2020-12-01 |
# 変圧器を用いたRDFバーバリゼーション向上のための事前学習とデータ拡張戦略 Denoising Pre-Training and Data Augmentation Strategies for Enhanced RDF Verbalization with Transformers ( http://arxiv.org/abs/2012.00571v1 ) ライセンス: Link先を確認 | Sebastien Montella, Betty Fabre, Tanguy Urvoy, Johannes Heinecke, Lina Rojas-Barahona | (参考訳) RDF三重項の動詞化の課題は、知識ベース(KB)の普及により人気が高まっていることが知られている。
RDF三重項の形式主義は、事実を大規模に保存する単純かつ効率的な方法である。
しかし、その抽象表現は人間の解釈を困難にしている。
この目的のために、WebNLGの課題は、RDF-to-text生成の自動化である。
本稿では,データ拡張戦略を用いて,拡張データからの事前学習をTransformerモデルで活用することを提案する。
実験の結果, BLEUでは, 標準トレーニングよりも最低相対比が3.73%, 126.05%, 88.16%上昇した。 The task of verbalization of RDF triples has known a growth in popularity due to the rising ubiquity of Knowledge Bases (KBs). The formalism of RDF triples is a simple and efficient way to store facts at a large scale. However, its abstract representation makes it difficult for humans to interpret. For this purpose, the WebNLG challenge aims at promoting automated RDF-to-text generation. We propose to leverage pre-trainings from augmented data with the Transformer model using a data augmentation strategy. Our experiment results show a minimum relative increases of 3.73%, 126.05% and 88.16% in BLEU score for seen categories, unseen entities and unseen categories respectively over the standard training. | 翻訳日:2021-05-30 19:53:47 公開日:2020-12-01 |
# ニューラルネットワークと強化学習に基づく従業員の離職率と最適削減戦略の獲得 Obtain Employee Turnover Rate and Optimal Reduction Strategy Based On Neural Network and Reinforcement Learning ( http://arxiv.org/abs/2012.00583v1 ) ライセンス: Link先を確認 | Xiaohan Cheng | (参考訳) 現在、人材は企業の様々な資源の重要な部分を占めている。
企業にとって、高いロイヤリティと質の高い人材は、しばしば企業の中核的な競争力である。
したがって、従業員の離職や離職率の低下を予測できることは、非常に実用的である。
まず,従業員の転職率の多層パーセプトロン予測モデルを構築した。
強化学習アルゴリズムの一種であるsarsaに基づくモデルを提案し、従業員の離職率を低減するための一連の戦略を自動的に生成する。
これらの戦略は、企業の観点から従業員の離職率を最大かつ少ないコストで削減できる戦略の集合であり、企業が従業員のシステムを最適化するための参照計画として使用できる。
実験の結果、アルゴリズムは特定の戦略の効率と精度を実際に向上できることがわかった。 Nowadays, human resource is an important part of various resources of enterprises. For enterprises, high-loyalty and high-quality talented persons are often the core competitiveness of enterprises. Therefore, it is of great practical significance to predict whether employees leave and reduce the turnover rate of employees. First, this paper established a multi-layer perceptron predictive model of employee turnover rate. A model based on Sarsa which is a kind of reinforcement learning algorithm is proposed to automatically generate a set of strategies to reduce the employee turnover rate. These strategies are a collection of strategies that can reduce the employee turnover rate the most and cost less from the perspective of the enterprise, and can be used as a reference plan for the enterprise to optimize the employee system. The experimental results show that the algorithm can indeed improve the efficiency and accuracy of the specific strategy. | 翻訳日:2021-05-30 19:52:59 公開日:2020-12-01 |
# UPFlow: 教師なし光学フロー学習のためのアップサンプリングピラミッド UPFlow: Upsampling Pyramid for Unsupervised Optical Flow Learning ( http://arxiv.org/abs/2012.00212v1 ) ライセンス: Link先を確認 | Kunming Luo, Chuan Wang, Shuaicheng Liu, Haoqiang Fan, Jue Wang, Jian Sun | (参考訳) ピラミッドネットワークのアップサンプリングと学習を改善し,光学的フロー推定のための教師なし学習手法を提案する。
ピラミッドレベル間のバイリニアアップサンプリングに起因する補間ボケ問題に対処するために,自己誘導型アップサンプルモジュールを設計した。
さらに,最も微細な流れを擬似ラベルとして蒸留することにより中間レベルの管理を付加するピラミッド蒸留損失を提案する。
MPI-SIntel, KITTI 2012, KITTI 2015 など,これら2つのコンポーネントを統合することで,MPI-SIntel や KITTI 2015 など複数の主要なベンチマーク上での教師なし光フロー学習に最適な性能を実現する。
特に,kitti 2012ではepe=1.4,kitti 2015ではf1=9.38%をそれぞれ22.2%,state-of-the-artメソッドを15.7%上回った。 We present an unsupervised learning approach for optical flow estimation by improving the upsampling and learning of pyramid network. We design a self-guided upsample module to tackle the interpolation blur problem caused by bilinear upsampling between pyramid levels. Moreover, we propose a pyramid distillation loss to add supervision for intermediate levels via distilling the finest flow as pseudo labels. By integrating these two components together, our method achieves the best performance for unsupervised optical flow learning on multiple leading benchmarks, including MPI-SIntel, KITTI 2012 and KITTI 2015. In particular, we achieve EPE=1.4 on KITTI 2012 and F1=9.38% on KITTI 2015, which outperform the previous state-of-the-art methods by 22.2% and 15.7%, respectively. | 翻訳日:2021-05-30 19:52:38 公開日:2020-12-01 |
# Dual Pixel Exploration: 深度推定と画像復元の同時実施 Dual Pixel Exploration: Simultaneous Depth Estimation and Image Restoration ( http://arxiv.org/abs/2012.00301v1 ) ライセンス: Link先を確認 | Liyuan Pan, Shah Chowdhury, Richard Hartley, Miaomiao Liu, Hongguang Zhang, and Hongdong Li | (参考訳) デュアルピクセル(DP)ハードウェアは、各ピクセルを半分に分割し、1枚のスナップショットでイメージペアを作成する。
dp対をステレオ対として扱うことで深さ/逆深さを推定するいくつかの作品がある。
しかし、二重画素差はデフォーカスがぼやけた画像領域でのみ発生する。
dp対の重度のデフォーカスぼけは、マッチングに基づく深さ推定手法の性能に影響する。
ブラー効果を盲目的に除去する代わりに,ブラー効果と深度情報をリンクするDPペアの形成について検討する。
本稿では,ボーリングによる深さ推定に有効である数学的DPモデルを提案する。
これらの調査は、画像の深さを共同で見積り、復元するためのエンドツーエンドDDDNet(DPベースのDepth and Deblur Network)を提案する動機となります。
さらに,DP画像形成過程と深度情報との関係を反映した残響損失を定義し,トレーニングにおける深度推定を規則化する。
学習に必要な大量のデータを満たすため,既存のRGBDデータセットからDPペアのデータセットを作成することができる最初のDPイメージシミュレータを提案する。
副次的な貢献として、さらなる研究のために実際のデータセットを収集します。
合成データと実データの両方に対する広範囲な実験評価により,本手法は最先端の手法に比べて競争力が向上することが示された。 The dual-pixel (DP) hardware works by splitting each pixel in half and creating an image pair in a single snapshot. Several works estimate depth/inverse depth by treating the DP pair as a stereo pair. However, dual-pixel disparity only occurs in image regions with the defocus blur. The heavy defocus blur in DP pairs affects the performance of matching-based depth estimation approaches. Instead of removing the blur effect blindly, we study the formation of the DP pair which links the blur and the depth information. In this paper, we propose a mathematical DP model which can benefit depth estimation by the blur. These explorations motivate us to propose an end-to-end DDDNet (DP-based Depth and Deblur Network) to jointly estimate the depth and restore the image. Moreover, we define a reblur loss, which reflects the relationship of the DP image formation process with depth information, to regularise our depth estimate in training. To meet the requirement of a large amount of data for learning, we propose the first DP image simulator which allows us to create datasets with DP pairs from any existing RGBD dataset. As a side contribution, we collect a real dataset for further research. Extensive experimental evaluation on both synthetic and real datasets shows that our approach achieves competitive performance compared to state-of-the-art approaches. | 翻訳日:2021-05-30 19:51:21 公開日:2020-12-01 |
# HORAE:数時間の注釈付き書籍データセット HORAE: an annotated dataset of books of hours ( http://arxiv.org/abs/2012.00351v1 ) ライセンス: Link先を確認 | M\'elodie Boillet, Marie-Laurence Bonhomme, Dominique Stutzmann and Christopher Kermorvant | (参考訳) 本稿では,中世後期に富裕層が所有・使用していた手書きの祈願書である,時間帯の書物からの注釈付きページのデータセットについて紹介する。
このデータセットは、この時代のヨーロッパにおける宗教思想の進化に関する歴史的研究を行うために作られたもので、この本は、豊かなイラストとそれらが含む様々な宗教資料の両方のおかげで、主要な情報源の1つとなっている。
まず,コーパスの収集と手作業による注釈付けを行い,テキスト行検出とゾーン検出とタイピングのための最先端システムの評価を行った。
コーパスは無料で研究が可能である。 We introduce in this paper a new dataset of annotated pages from books of hours, a type of handwritten prayer books owned and used by rich lay people in the late middle ages. The dataset was created for conducting historical research on the evolution of the religious mindset in Europe at this period since the book of hours represent one of the major sources of information thanks both to their rich illustrations and the different types of religious sources they contain. We first describe how the corpus was collected and manually annotated then present the evaluation of a state-of-the-art system for text line detection and for zone detection and typing. The corpus is freely available for research. | 翻訳日:2021-05-30 19:49:31 公開日:2020-12-01 |
# ボックスのロバスト性:ブラックボックスのパッチ攻撃を自然に防御する構成的表現 Robustness Out of the Box: Compositional Representations Naturally Defend Against Black-Box Patch Attacks ( http://arxiv.org/abs/2012.00558v1 ) ライセンス: Link先を確認 | Christian Cosgrove, Adam Kortylewski, Chenglin Yang, Alan Yuille | (参考訳) パッチベースの敵攻撃は、誤分類を引き起こす入力に知覚できるが局所的な変化をもたらす。
不可避な攻撃に対する防御は進展しているが、パッチベースの攻撃にどう抵抗できるかは不明だ。
本研究では,ブラックボックスパッチ攻撃に対する防御手法を2つ検討した。
第1に,不可避な攻撃に対して有効な攻撃訓練は,最先端のロケーション最適化パッチ攻撃に対して限定的な効果を示す。
第2に,自然閉塞への自然的堅牢性をもたらす部分ベース表現を持つ合成ディープネットワークが,PASCAL3D+およびドイツ交通信号認識ベンチマークに対する攻撃に対して,敵の訓練を伴わずに頑健であることを見出した。
さらに、構成モデルのロバスト性は、敵対的に訓練された標準モデルよりも大きなマージンで優れている。
しかし、GTSRBでは、類似の交通標識と微妙な相違点の区別に問題がある。
この制限を克服するために、微粒子認識を改善する部分ベースファインタニングを導入する。
構成表現を利用することで、高価な敵のトレーニングなしでブラックボックスパッチ攻撃を防御する最初の作業となる。
この防御は敵の訓練よりも堅牢であり、敵のパッチを発見・無視できるため解釈可能である。 Patch-based adversarial attacks introduce a perceptible but localized change to the input that induces misclassification. While progress has been made in defending against imperceptible attacks, it remains unclear how patch-based attacks can be resisted. In this work, we study two different approaches for defending against black-box patch attacks. First, we show that adversarial training, which is successful against imperceptible attacks, has limited effectiveness against state-of-the-art location-optimized patch attacks. Second, we find that compositional deep networks, which have part-based representations that lead to innate robustness to natural occlusion, are robust to patch attacks on PASCAL3D+ and the German Traffic Sign Recognition Benchmark, without adversarial training. Moreover, the robustness of compositional models outperforms that of adversarially trained standard models by a large margin. However, on GTSRB, we observe that they have problems discriminating between similar traffic signs with fine-grained differences. We overcome this limitation by introducing part-based finetuning, which improves fine-grained recognition. By leveraging compositional representations, this is the first work that defends against black-box patch attacks without expensive adversarial training. This defense is more robust than adversarial training and more interpretable because it can locate and ignore adversarial patches. | 翻訳日:2021-05-30 19:48:33 公開日:2020-12-01 |
# マルチビューステレオのための顔のメッシュリファインメント Facetwise Mesh Refinement for Multi-View Stereo ( http://arxiv.org/abs/2012.00564v1 ) ライセンス: Link先を確認 | Andrea Romanoni and Matteo Matteucci | (参考訳) メッシュリファインメントは、正確なMulti-View Stereoの基本的なステップである。
初期多様体メッシュの幾何学を修正し、カメラ対の集合で誘導される測光誤差を最小限にする。
この初期メッシュは、通常、Delaunay Triangulations上のmin-cutに基づくボリューム3D再構成の出力である。
このような手法は、かなりの量の非多様体頂点を生成するため、それらを明示的に修復するために頂点分割ステップが必要となる。
本稿では,この手法を拡張して,デラウネー三角法を直接推論することで,非多様体頂点をプリエンプティブに修正し,ほとんどの頂点分割を避ける。
本論文の主な貢献は、精細化プロセスで採用されるカメラペアの選択の問題である。
我々は,この問題をメッシュラベリングプロセスとして扱い,各ラベルがカメラペアに対応する。
各カメラペアを使用してメッシュの可視部分をすべて洗練する最先端の方法とは違って、私たちは、全体の可視性とカバレッジの両方を強制する最善のペアを選択します。
精製工程は、選択されたカメラ対のみを用いて各面に適用される。
この面的な改善は、最も均等な方法でプロセスを適用するのに役立つ。 Mesh refinement is a fundamental step for accurate Multi-View Stereo. It modifies the geometry of an initial manifold mesh to minimize the photometric error induced in a set of camera pairs. This initial mesh is usually the output of volumetric 3D reconstruction based on min-cut over Delaunay Triangulations. Such methods produce a significant amount of non-manifold vertices, therefore they require a vertex split step to explicitly repair them. In this paper, we extend this method to preemptively fix the non-manifold vertices by reasoning directly on the Delaunay Triangulation and avoid most vertex splits. The main contribution of this paper addresses the problem of choosing the camera pairs adopted by the refinement process. We treat the problem as a mesh labeling process, where each label corresponds to a camera pair. Differently from the state-of-the-art methods, which use each camera pair to refine all the visible parts of the mesh, we choose, for each facet, the best pair that enforces both the overall visibility and coverage. The refinement step is applied for each facet using only the camera pair selected. This facetwise refinement helps the process to be applied in the most evenly way possible. | 翻訳日:2021-05-30 19:48:00 公開日:2020-12-01 |
# アダム最適化器による逆例の伝達性向上 Improving the Transferability of Adversarial Examples with the Adam Optimizer ( http://arxiv.org/abs/2012.00567v1 ) ライセンス: Link先を確認 | Heng Yin, Hengwei Zhang, Jindong Wang and Ruiyu Dou | (参考訳) 畳み込みニューラルネットワークは、画像認識タスクにおいて人間を上回っているが、敵からの攻撃に対して脆弱である。
これらのデータは通常の画像に不可避なノイズを加えることで生成されるため、その存在はディープラーニングシステムに潜在的なセキュリティの脅威をもたらす。
強力な攻撃性能を持つ高度な敵の例は、モデルの堅牢性を評価するツールとしても使用できる。
しかし、ブラックボックス環境では敵の攻撃の成功率がさらに向上している。
そこで本研究では,改良されたアダム勾配降下アルゴリズムと反復勾配に基づく攻撃法を組み合わせた。
得られたAdam Iterative Fast Gradient Methodは、逆例の転送性を改善するために使用される。
ImageNetの大規模な実験により,提案手法は既存の反復手法よりも高い攻撃成功率を示すことが示された。
我々の最高のブラックボックス攻撃は、通常訓練されたネットワークで81.9%、敵訓練されたネットワークで38.7%の成功率を達成した。 Convolutional neural networks have outperformed humans in image recognition tasks, but they remain vulnerable to attacks from adversarial examples. Since these data are produced by adding imperceptible noise to normal images, their existence poses potential security threats to deep learning systems. Sophisticated adversarial examples with strong attack performance can also be used as a tool to evaluate the robustness of a model. However, the success rate of adversarial attacks remains to be further improved in black-box environments. Therefore, this study combines an improved Adam gradient descent algorithm with the iterative gradient-based attack method. The resulting Adam Iterative Fast Gradient Method is then used to improve the transferability of adversarial examples. Extensive experiments on ImageNet showed that the proposed method offers a higher attack success rate than existing iterative methods. Our best black-box attack achieved a success rate of 81.9% on a normally trained network and 38.7% on an adversarially trained network. | 翻訳日:2021-05-30 19:47:30 公開日:2020-12-01 |
# 指紋提示攻撃の有効化:偽指紋作成技術と認識性能 Enabling Fingerprint Presentation Attacks: Fake Fingerprint Fabrication Techniques and Recognition Performance ( http://arxiv.org/abs/2012.00606v1 ) ライセンス: Link先を確認 | Christof Kauba, Luca Debiasi and Andreas Uhl | (参考訳) 偽指紋表現は、指紋ベースの認証システムに深刻な脅威をもたらす。
多くの場合、指紋スキャナデバイスに直接組み込まれているプレゼンテーション攻撃検出技術の進歩にもかかわらず、多くの指紋スキャナは、物理的な偽指紋表現を用いたプレゼンテーション攻撃の影響を受けやすい。
本研究では,光学,光マルチスペクトル,受動的キャパシタ,アクティブキャパシタ,サーマルの5種類のセンシング技術を用いて,偽指紋を用いたプレゼンテーション攻撃に対する感受性について評価した。
偽造表現を作成するために, ワックス, 鋳造, ラテックス, シリコーン, 接着剤の種類, 窓の色, 粘土のモデル化など, さまざまな材料を試験, 評価した。
定量的評価は、偽の表現から得られたサンプルの指紋品質の評価と、偽の表現の達成された実際の指紋との一致スコアが偽の表現の有効性を示す比較実験を含む。
以上の結果から,偽の指紋表現の少なくとも1つのタイプ/素材に対して,テスト対象のデバイス以外はすべて影響を受けやすいことを確認した。 Fake fingerprint representation pose a severe threat for fingerprint based authentication systems. Despite advances in presentation attack detection technologies, which are often integrated directly into the fingerprint scanner devices, many fingerprint scanners are still susceptible to presentation attacks using physical fake fingerprint representation. In this work we evaluate five different commercial-off-the-shelf fingerprint scanners based on different sensing technologies, including optical, optical multispectral, passive capacitive, active capacitive and thermal regarding their susceptibility to presentation attacks using fake fingerprint representations. Several different materials to create the fake representation are tested and evaluated, including wax, cast, latex, silicone, different types of glue, window colours, modelling clay, etc. The quantitative evaluation includes assessing the fingerprint quality of the samples captured from the fake representations as well as comparison experiments where the achieved matching scores of the fake representations against the corresponding real fingerprints indicate the effectiveness of the fake representations. Our results confirmed that all except one of the tested devices are susceptible to at least one type/material of fake fingerprint representations. | 翻訳日:2021-05-30 19:47:06 公開日:2020-12-01 |
# 物体検出のための動的特徴ピラミッドネットワーク Dynamic Feature Pyramid Networks for Object Detection ( http://arxiv.org/abs/2012.00779v1 ) ライセンス: Link先を確認 | Mingjian Zhu, Kai Han, Changbin Yu, Yunhe Wang | (参考訳) 本稿では,オブジェクト検出システムにおいて,マルチスケール特徴情報を集約するためのモジュールであるピラミッドネットワーク(fpn)について述べる。
既存の作業の大部分のパフォーマンス向上は、主に計算負荷の増加、特に浮動小数点演算(FLOP)に寄与している。
さらに,FPNの各層内のマルチスケール情報についても検討されていない。
この目的のために、まず、各層が異なるカーネルサイズを持つ畳み込みフィルタを含み、受容フィールドを拡大し、より有用な情報を統合したインセプションfpnを導入する。
さらに、全てのオブジェクトがそのような複雑な計算モジュールを必要とするわけではないことを指摘し、新しい動的FPN(DyFPN)を提案する。
DyFPNの各レイヤは計算コストの異なる複数のブランチで構成されている。
具体的には、学習可能なゲーティング操作に応じて適応的に選択された分岐を用いてDyFPNの出力特性を算出する。
そのため,提案手法は,精度と検出性能のトレードオフを向上するための,より効率的な動的推論を提供することができる。
ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
例えば、FPNをFPNに置き換えることで、COCOミニバル上のFaster R-CNNパラダイムを使用した1.6 APによる検出精度が向上し、DyFPNは同様の性能を維持しながらFLOPの約40%を削減する。 This paper studies feature pyramid network (FPN), which is a widely used module for aggregating multi-scale feature information in the object detection system. The performance gain in most of the existing works is mainly contributed to the increase of computation burden, especially the floating number operations (FLOPs). In addition, the multi-scale information within each layer in FPN has not been well investigated. To this end, we first introduce an inception FPN in which each layer contains convolution filters with different kernel sizes to enlarge the receptive field and integrate more useful information. Moreover, we point out that not all objects need such a complicated calculation module and propose a new dynamic FPN (DyFPN). Each layer in the DyFPN consists of multiple branches with different computational costs. Specifically, the output features of DyFPN will be calculated by using the adaptively selected branch according to a learnable gating operation. Therefore, the proposed method can provide a more efficient dynamic inference for achieving a better trade-off between accuracy and detection performance. Extensive experiments conducted on benchmarks demonstrate that the proposed DyFPN significantly improves performance with the optimal allocation of computation resources. For instance, replacing the FPN with the inception FPN improves detection accuracy by 1.6 AP using the Faster R-CNN paradigm on COCO minival, and the DyFPN further reduces about 40% of its FLOPs while maintaining similar performance. | 翻訳日:2021-05-30 19:43:56 公開日:2020-12-01 |
# 半教師付きセマンティックセグメンテーションのための3段階自己学習フレームワーク A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.00827v1 ) ライセンス: Link先を確認 | Rihuan Ke, Angelica Aviles-Rivero, Saurabh Pandey, Saikumar Reddy and Carola-Bibiane Sch\"onlieb | (参考訳) セマンティックセグメンテーションはコミュニティで広く研究されており、そこでは技術の現状が教師付きモデルに基づいている。
これらのモデルは、大量の高品質セグメンテーションマスクを必要とするコストで前例のない性能を報告している。
このようなアノテーションを得るには、特にピクセルレベルのアノテーションを必要とするセマンティックセグメンテーションにおいて、非常に高価で時間を要する。
本研究では,半教師付きセマンティックセグメンテーションのための3段階の自己学習フレームワークとして,包括的解を提案する。
本手法の鍵となる考え方は,マルチタスク方式でセグメンテーション一貫性を保ちながら,予測確率の不確実性を低下させる擬似マスク統計情報の抽出である。
これを3段階の解法で達成する。
まず,セグメンテーションネットワークを訓練し,予測確率が極めて不確かである粗い擬似マスクを生成する。
次に、データの豊富な統計情報を活用しながら一貫性を強制するマルチタスクモデルを用いて、疑似マスクの不確実性を低減する。
提案手法を半教師付きセマンティックセグメンテーションの既存手法と比較し,その最先端性能を広範な実験で実証する。 Semantic segmentation has been widely investigated in the community, in which the state of the art techniques are based on supervised models. Those models have reported unprecedented performance at the cost of requiring a large set of high quality segmentation masks. To obtain such annotations is highly expensive and time consuming, in particular, in semantic segmentation where pixel-level annotations are required. In this work, we address this problem by proposing a holistic solution framed as a three-stage self-training framework for semi-supervised semantic segmentation. The key idea of our technique is the extraction of the pseudo-masks statistical information to decrease uncertainty in the predicted probability whilst enforcing segmentation consistency in a multi-task fashion. We achieve this through a three-stage solution. Firstly, we train a segmentation network to produce rough pseudo-masks which predicted probability is highly uncertain. Secondly, we then decrease the uncertainty of the pseudo-masks using a multi-task model that enforces consistency whilst exploiting the rich statistical information of the data. We compare our approach with existing methods for semi-supervised semantic segmentation and demonstrate its state-of-the-art performance with extensive experiments. | 翻訳日:2021-05-30 19:43:18 公開日:2020-12-01 |
# HRIアプリケーションにおけるオンライン人間行動認識のためのコンパクトシーケンス符号化方式 A compact sequence encoding scheme for online human activity recognition in HRI applications ( http://arxiv.org/abs/2012.00873v1 ) ライセンス: Link先を確認 | Georgios Tsatiris, Kostas Karpouzis, Stefanos Kollias | (参考訳) 人間の行動認識と分析は常にパターン認識と機械学習の最も活発な分野の1つであり、運動ゲーム、監視、スポーツ分析、医療など様々な分野に応用されている。
特に人間-ロボットインタラクションでは、家庭用ロボットアシスタントが近い将来のトレンドとなるため、人間の活動理解が重要な役割を果たす。
しかし、複雑なマシンインテリジェンスタスクをサポートする最先端のインフラストラクチャは、常に利用可能ではなく、ロボットハードウェアが高価であるため、平均的な消費者には提供されないかもしれない。
本稿では,マハラノビス距離に基づく形状特徴とラドン変換を用いて,時空間的動作列をコンパクトな表現に変換する新しい動作系列符号化方式を提案する。
この表現は、軽量畳み込みニューラルネットワークの入力として使用できる。
実験によると、提案されたパイプラインは最先端の人間のポーズ推定技術に基づいて、高度なコンピューティング能力を持たないハードウェア上にデプロイ可能な、堅牢なエンドツーエンドのオンラインアクション認識スキームを提供することができる。 Human activity recognition and analysis has always been one of the most active areas of pattern recognition and machine intelligence, with applications in various fields, including but not limited to exertion games, surveillance, sports analytics and healthcare. Especially in Human-Robot Interaction, human activity understanding plays a crucial role as household robotic assistants are a trend of the near future. However, state-of-the-art infrastructures that can support complex machine intelligence tasks are not always available, and may not be for the average consumer, as robotic hardware is expensive. In this paper we propose a novel action sequence encoding scheme which efficiently transforms spatio-temporal action sequences into compact representations, using Mahalanobis distance-based shape features and the Radon transform. This representation can be used as input for a lightweight convolutional neural network. Experiments show that the proposed pipeline, when based on state-of-the-art human pose estimation techniques, can provide a robust end-to-end online action recognition scheme, deployable on hardware lacking extreme computing capabilities. | 翻訳日:2021-05-30 19:42:45 公開日:2020-12-01 |
# 効率的なステレオマッチングのための変位不変コスト計算 Displacement-Invariant Cost Computation for Efficient Stereo Matching ( http://arxiv.org/abs/2012.00899v1 ) ライセンス: Link先を確認 | Yiran Zhong, Charles Loop, Wonmin Byeon, Stan Birchfield, Yuchao Dai, Kaihao Zhang, Alexey Kamenev, Thomas Breuel, Hongdong Li, Jan Kautz | (参考訳) 深層学習に基づく手法は、前例のない不一致の精度でステレオマッチングのリーダーボードを支配してきたが、その推論時間は典型的には540p画像の秒順に遅い。
主な理由は、4D特徴量に適用される時間を要する3D畳み込みを用いる方法である。
計算をスピードアップする一般的な方法は、特徴量の縮小であるが、これは高周波の詳細を失う。
これらの課題を克服するために,4次元特徴量を必要としないマッチングコストを計算するために,emph{displacement-invariant cost compute module}を提案する。
むしろ、各差分シフトした特徴写像対に同じ2D畳み込みネットワークを適用してコストを算出する。
入力と不均一マップ間のコンテキストマッピングを簡易に行う従来の2次元畳み込み法とは異なり,提案手法は2つの画像間の特徴に一致することを学習する。
また, エントロピーに基づく改良手法を提案し, 右画像上の第2の差分マップの計算を不要にすることで, 高速化を図る。
標準データセット(SceneFlow,KITTI,ETH3D,Middlebury)の大規模な実験により,提案手法がより少ない推論時間で競合精度を実現することを示す。
典型的な画像サイズでは、デスクトップGPU上で100FPS以上を処理し、自律運転のような時間クリティカルなアプリケーションに適合する。
また, 提案手法は, 4D-volumetric法よりも優れていることを示す。 Although deep learning-based methods have dominated stereo matching leaderboards by yielding unprecedented disparity accuracy, their inference time is typically slow, on the order of seconds for a pair of 540p images. The main reason is that the leading methods employ time-consuming 3D convolutions applied to a 4D feature volume. A common way to speed up the computation is to downsample the feature volume, but this loses high-frequency details. To overcome these challenges, we propose a \emph{displacement-invariant cost computation module} to compute the matching costs without needing a 4D feature volume. Rather, costs are computed by applying the same 2D convolution network on each disparity-shifted feature map pair independently. Unlike previous 2D convolution-based methods that simply perform context mapping between inputs and disparity maps, our proposed approach learns to match features between the two images. We also propose an entropy-based refinement strategy to refine the computed disparity map, which further improves speed by avoiding the need to compute a second disparity map on the right image. Extensive experiments on standard datasets (SceneFlow, KITTI, ETH3D, and Middlebury) demonstrate that our method achieves competitive accuracy with much less inference time. On typical image sizes, our method processes over 100 FPS on a desktop GPU, making our method suitable for time-critical applications such as autonomous driving. We also show that our approach generalizes well to unseen datasets, outperforming 4D-volumetric methods. | 翻訳日:2021-05-30 19:42:15 公開日:2020-12-01 |
# 人間言語の確率的性質を示唆する単語頻度の統計的パターン Statistical patterns of word frequency suggesting the probabilistic nature of human languages ( http://arxiv.org/abs/2012.00187v1 ) ライセンス: Link先を確認 | Shuiyuan Yu, Chunshan Xu, Haitao Liu | (参考訳) 伝統的な言語理論は、言語を厳格な規則からなる形式的な体系と見なす。
しかし、実際の言語処理の失敗、統計的自然言語処理の最近の成功、多くの心理学実験の結果は、言語は形式的なシステムよりも確率的システムである可能性があり、したがって形式言語理論のどちらの規則とも忠実にモデル化できないことを示唆している。
本研究は, 正真正銘の言語データに基づいて, 言語普遍, ダイアクロニックドリフト, 言語変動などの重要な言語問題は, 仮釈放時の確率パターン, 頻度パターンに翻訳可能であることを確認した。
これらの結果から,人間の言語は自然の確率論的システムである可能性が示唆され,統計学が人間の言語の性質を成す可能性が示唆された。 Traditional linguistic theories have largely regard language as a formal system composed of rigid rules. However, their failures in processing real language, the recent successes in statistical natural language processing, and the findings of many psychological experiments have suggested that language may be more a probabilistic system than a formal system, and thus cannot be faithfully modeled with the either/or rules of formal linguistic theory. The present study, based on authentic language data, confirmed that those important linguistic issues, such as linguistic universal, diachronic drift, and language variations can be translated into probability and frequency patterns in parole. These findings suggest that human language may well be probabilistic systems by nature, and that statistical may well make inherent properties of human languages. | 翻訳日:2021-05-30 19:41:34 公開日:2020-12-01 |
# エビデンスに基づく医学におけるテキスト分類のための言語モデル Neural language models for text classification in evidence-based medicine ( http://arxiv.org/abs/2012.00584v1 ) ライセンス: Link先を確認 | Andres Carvallo, Denis Parra, Gabriel Rada, Daniel Perez, Juan Ignacio Vasquez and Camilo Vergara | (参考訳) 新型コロナウイルス(covid-19)は、人類全体に大きな課題をもたらしたが、医療コミュニティに特別な負担を負った。
臨床医は、絶え間なく続く科学文献の洪水下で、症状、診断、創発的治療の有効性について継続的に更新し続けなければならない。
この文脈では、公衆衛生および臨床実践を支援するための最も重要な証拠をキュレートするエビデンスベースの医療(EBM)の役割は不可欠であるが、毎日発行される大量の研究論文とプレプリントのために、これまでなかったほどに挑戦されている。
人工知能はこの状況において重要な役割を果たす可能性がある。
本稿では,ESMを実践する国際的に最も活発な基盤の一つであるEpistemonikosを支援するために,学術論文を分類するための応用研究プロジェクトの結果を報告する。
我々はいくつかの方法を試し、XLNetニューラルネットワークモデルに基づいて、現在のアプローチを平均F1スコアで93%改善し、新型コロナウイルス研究記事を手作業でキュレートしようとする医師から貴重な時間を節約する。 The COVID-19 has brought about a significant challenge to the whole of humanity, but with a special burden upon the medical community. Clinicians must keep updated continuously about symptoms, diagnoses, and effectiveness of emergent treatments under a never-ending flood of scientific literature. In this context, the role of evidence-based medicine (EBM) for curating the most substantial evidence to support public health and clinical practice turns essential but is being challenged as never before due to the high volume of research articles published and pre-prints posted daily. Artificial Intelligence can have a crucial role in this situation. In this article, we report the results of an applied research project to classify scientific articles to support Epistemonikos, one of the most active foundations worldwide conducting EBM. We test several methods, and the best one, based on the XLNet neural language model, improves the current approach by 93\% on average F1-score, saving valuable time from physicians who volunteer to curate COVID-19 research articles manually. | 翻訳日:2021-05-30 19:41:10 公開日:2020-12-01 |
# 低資源シナリオにおける音響事例からの言語家族の自動同定 Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios ( http://arxiv.org/abs/2012.00876v1 ) ライセンス: Link先を確認 | Peter Wu, Yifan Zhong, Alan W Black | (参考訳) 既存の多言語音声NLPは比較的少数の言語に焦点を合わせており、現代の言語理解は主に古典的アプローチに由来する。
本研究では,ディープラーニングを用いて言語類似性を分析する手法を提案する。
すなわち,荒野データセット上でモデルを訓練し,その潜在空間と古典語族との比較について検討する。
提案手法は,音声に基づくNLPタスクにおいて,言語間データ拡張のための新たな方向を提供する。 Existing multilingual speech NLP works focus on a relatively small subset of languages, and thus current linguistic understanding of languages predominantly stems from classical approaches. In this work, we propose a method to analyze language similarity using deep learning. Namely, we train a model on the Wilderness dataset and investigate how its latent space compares with classical language family findings. Our approach provides a new direction for cross-lingual data augmentation in any speech-based NLP task. | 翻訳日:2021-05-30 19:40:38 公開日:2020-12-01 |
# マルチフィールド分類データのためのフィールドワイズ学習 Field-wise Learning for Multi-field Categorical Data ( http://arxiv.org/abs/2012.00202v1 ) ライセンス: Link先を確認 | Zhibin Li, Jian Zhang, Yongshun Gong, Yazhou Yao, Qiang Wu | (参考訳) マルチフィールド分類データを用いた新しい学習法を提案する。
マルチフィールド分類データは、通常、多くの異種群で収集される。
これらの群は、フィールドの下のカテゴリで反映することができる。
既存の手法は、すべてのデータに適合する普遍的なモデルを学習しようとするが、それは困難であり、必然的に複雑なモデルを学習する。
対照的に、データの自然な構造を利用したフィールドワイズ学習手法を提案し、適切な制約を伴って、シンプルで効率的なワンツーワンのフィールド中心モデルを学ぶ。
これにより、モデルが各カテゴリに適合し、基礎となるデータの違いをよりよく捉えることができる。
本稿では,分散と低ランク制約を持つ線形モデルを用いて,より一般化しパラメータ数を減らすためのモデルを提案する。
モデルはまた、フィールド的な方法で解釈可能である。
マルチフィールド分類データの次元性は非常に高いため、そのようなデータに適用されたモデルは概ね過パラメータ化される。
我々の理論解析は、過度パラメトリゼーションがモデルの一般化に与える影響を説明できる可能性がある。
また、学習目標における分散制約もサポートする。
実験結果は,2つの大規模データセットにおいて,モデルの優れた性能,一般化誤差の傾向,学習結果の解釈可能性を示した。
私たちのコードはhttps://github.com/lzb5600/field-wise-learningで利用可能です。 We propose a new method for learning with multi-field categorical data. Multi-field categorical data are usually collected over many heterogeneous groups. These groups can reflect in the categories under a field. The existing methods try to learn a universal model that fits all data, which is challenging and inevitably results in learning a complex model. In contrast, we propose a field-wise learning method leveraging the natural structure of data to learn simple yet efficient one-to-one field-focused models with appropriate constraints. In doing this, the models can be fitted to each category and thus can better capture the underlying differences in data. We present a model that utilizes linear models with variance and low-rank constraints, to help it generalize better and reduce the number of parameters. The model is also interpretable in a field-wise manner. As the dimensionality of multi-field categorical data can be very high, the models applied to such data are mostly over-parameterized. Our theoretical analysis can potentially explain the effect of over-parametrization on the generalization of our model. It also supports the variance constraints in the learning objective. The experiment results on two large-scale datasets show the superior performance of our model, the trend of the generalization error bound, and the interpretability of learning outcomes. Our code is available at https://github.com/lzb5600/Field-wise-Learning. | 翻訳日:2021-05-30 19:40:26 公開日:2020-12-01 |
# 条件付き生成逆数ネットワークを用いたクラス不均衡の欠落データの計算 Imputation of Missing Data with Class Imbalance using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2012.00220v1 ) ライセンス: Link先を確認 | Saqib Ejaz Awan, Mohammed Bennamoun, Ferdous Sohel, Frank M Sanfilippo, Girish Dwivedi | (参考訳) データ不足は、現実のデータセットで直面する一般的な問題である。
インプテーションはデータの欠落を推定するのに広く使われている手法である。
GAIN(Generative Adversarial Imputation Nets)のような最先端の計算手法は、観測データの分布をモデル化し、欠落した値を近似する。
このようなアプローチは通常、データセット全体の単一ディストリビューションをモデル化します。
クラス固有の特徴は、クラス不均衡がある場合に特に有用である。
本研究では,cgan(popular conditional generative adversarial networks)を応用し,クラス固有の特徴に基づく欠落データを示唆する新しい手法を提案する。
CGAIN(Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて欠落したデータをインプットし、欠落した値に対して最適な推定値を生成する。
提案手法をベンチマークデータセットで検証し,最新かつ一般的な計算手法と比較して優れた性能を示した。 Missing data is a common problem faced with real-world datasets. Imputation is a widely used technique to estimate the missing data. State-of-the-art imputation approaches, such as Generative Adversarial Imputation Nets (GAIN), model the distribution of observed data to approximate the missing values. Such an approach usually models a single distribution for the entire dataset, which overlooks the class-specific characteristics of the data. Class-specific characteristics are especially useful when there is a class imbalance. We propose a new method for imputing missing data based on its class-specific characteristics by adapting the popular Conditional Generative Adversarial Networks (CGAN). Our Conditional Generative Adversarial Imputation Network (CGAIN) imputes the missing data using class-specific distributions, which can produce the best estimates for the missing values. We tested our approach on benchmark datasets and achieved superior performance compared with the state-of-the-art and popular imputation approaches. | 翻訳日:2021-05-30 19:39:57 公開日:2020-12-01 |
# 人工蜂コロニーアルゴリズムを用いたマルウェア検出 Malware Detection using Artificial Bee Colony Algorithm ( http://arxiv.org/abs/2012.00845v1 ) ライセンス: Link先を確認 | Farid Ghareh Mohammadi, Farzan Shenavarmasouleh, M. Hadi Amini and Hamid R. Arabnia | (参考訳) マルウェア検出は、マルウェアファミリーの数が増えているため、難しい課題となっている。
すべてのマルウェアファミリーを検出できるユニバーサルマルウェア検出アルゴリズムは、プロセス全体を実行可能にするために必要である。
しかし、アルゴリズムがより普遍的になればなるほど、それを扱う必要のある特徴次元の数が増加し、必然的に、Curse of dimensionality(CoD)という問題が発生する。
また,マルウェア解析のリアルタイムな動作により,この問題の解決も困難である。
本稿では,この問題に対処し,ABC(Artificial Bee Colony)と呼ばれる進化的アルゴリズムを用いて特徴選択に基づくマルウェア検出アルゴリズムを提案する。
提案アルゴリズムにより,研究者は特徴量を減らすことができ,その結果,マルウェア検出のプロセスが向上する。
実験の結果,提案手法が最先端技術よりも優れていることがわかった。 Malware detection has become a challenging task due to the increase in the number of malware families. Universal malware detection algorithms that can detect all the malware families are needed to make the whole process feasible. However, the more universal an algorithm is, the higher number of feature dimensions it needs to work with, and that inevitably causes the emerging problem of Curse of Dimensionality (CoD). Besides, it is also difficult to make this solution work due to the real-time behavior of malware analysis. In this paper, we address this problem and aim to propose a feature selection based malware detection algorithm using an evolutionary algorithm that is referred to as Artificial Bee Colony (ABC). The proposed algorithm enables researchers to decrease the feature dimension and as a result, boost the process of malware detection. The experimental results reveal that the proposed method outperforms the state-of-the-art. | 翻訳日:2021-05-30 19:39:31 公開日:2020-12-01 |
# スマートホームにおける行動認識のための単語エンコーディングと埋め込みによる完全畳み込みネットワーク Fully Convolutional Network Bootstrapped by Word Encoding and Embedding for Activity Recognition in Smart Homes ( http://arxiv.org/abs/2012.02300v1 ) ライセンス: Link先を確認 | Damien Bouchabou (IMT Atlantique - INFO), Sao Nguyen, Christophe Lohr, Benoit Leduc, Ioannis Kanellos | (参考訳) 住民に自動サービスを提案するためには,スマートホームにおける活動認識が不可欠である。
しかし、環境の変動性、センサー・モベレーター・システム、そしてユーザーの習慣に関しても問題となる。
したがって、エンド・ツー・エンドのシステムは、広範囲の事前処理なしにキー機能を自動的に抽出できない。
本稿では,NLP(Natural Language Processing)とTSC(Time Series Classification)を融合したスマートホームにおける活動認識のための特徴抽出手法を提案する。
本稿では,CASAS(Center for Advanced Studies in Adaptive Systems)から発行された2つのデータセットに対して,本手法の性能を評価する。
さらに,Bag-Of-Word と Embedding を用いた NLP 符号化の貢献と,FCN アルゴリズムによる特徴の自動抽出と分類機能の解析を行った。
本手法は,オフライン活動分類における優れた性能を示す。
また, FCNはスマートホーム活動認識に適したアルゴリズムであり, 自動特徴抽出の利点を高く評価する。 Activity recognition in smart homes is essential when we wish to propose automatic services for the inhabitants. However, it poses challenges in terms of variability of the environment, sensorimotor system, but also user habits. Therefore, endto-end systems fail at automatically extracting key features, without extensive pre-processing. We propose to tackle feature extraction for activity recognition in smart homes by merging methods from the Natural Language Processing (NLP) and the Time Series Classification (TSC) domains. We evaluate the performance of our method on two datasets issued from the Center for Advanced Studies in Adaptive Systems (CASAS). Moreover, we analyze the contributions of the use of NLP encoding Bag-Of-Word with Embedding as well as the ability of the FCN algorithm to automatically extract features and classify. The method we propose shows good performance in offline activity classification. Our analysis also shows that FCN is a suitable algorithm for smart home activity recognition and hightlights the advantages of automatic feature extraction. | 翻訳日:2021-05-30 19:39:08 公開日:2020-12-01 |
# ターゲット依存音声分離のための話者抽出に基づく深部アドホックビームフォーミング Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent Speech Separation ( http://arxiv.org/abs/2012.00403v1 ) ライセンス: Link先を確認 | Ziye Yang, Shanzheng Guan and Xiao-Lei Zhang | (参考訳) 近年,特に音声強調と分離において,深層学習を伴うアドホックマイクロホンアレイの研究が注目されている。
アドホックマイクロホンアレイは、複数の話者が遠く離れた場所から独立して話すことができるほど広い領域をカバーする可能性があるため、混合音声からターゲット話者を抽出することを目的としたターゲット依存音声分離は、アドホックアレー内の特定の話者を抽出・追跡する上で重要である。
しかし、この技術はまだ研究されていない。
本稿では,話者抽出に基づく深部アドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレーと深部学習に基づくターゲット依存音声分離の最初の仕事である。
アルゴリズムは3つのコンポーネントを含む。
まず、話者抽出に基づく教師付きチャンネル選択フレームワークを提案し、対象音声の発話レベルSNRをチャネル選択の基盤として利用する。
次に、選択したチャネルを深層学習に基づくMVDRアルゴリズムに適用し、ターゲット音声のマスクを推定するために、選択したチャネル毎に単一チャネル話者抽出アルゴリズムを適用する。
wsj0-adhocコーパスの広範な実験を行った。
実験の結果,提案手法の有効性が示された。 Recently, the research on ad-hoc microphone arrays with deep learning has drawn much attention, especially in speech enhancement and separation. Because an ad-hoc microphone array may cover such a large area that multiple speakers may locate far apart and talk independently, target-dependent speech separation, which aims to extract a target speaker from a mixed speech, is important for extracting and tracing a specific speaker in the ad-hoc array. However, this technique has not been explored yet. In this paper, we propose deep ad-hoc beamforming based on speaker extraction, which is to our knowledge the first work for target-dependent speech separation based on ad-hoc microphone arrays and deep learning. The algorithm contains three components. First, we propose a supervised channel selection framework based on speaker extraction, where the estimated utterance-level SNRs of the target speech are used as the basis for the channel selection. Second, we apply the selected channels to a deep learning based MVDR algorithm, where a single-channel speaker extraction algorithm is applied to each selected channel for estimating the mask of the target speech. We conducted an extensive experiment on a WSJ0-adhoc corpus. Experimental results demonstrate the effectiveness of the proposed method. | 翻訳日:2021-05-30 19:38:41 公開日:2020-12-01 |
# mlOSP: 回帰モンテカルロアルゴリズムの統一実装に向けて mlOSP: Towards a Unified Implementation of Regression Monte Carlo Algorithms ( http://arxiv.org/abs/2012.00729v1 ) ライセンス: Link先を確認 | Mike Ludkovski | (参考訳) 最適停止問題に対する機械学習のための計算テンプレートであるmlospを提案する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
mlOSPは、Regression Monte Carlo(RMC)アプローチの統一的な数値実装を最適停止に提供し、最先端、オープンソース、再現可能、透明なプラットフォームを提供する。
そのモジュラー性を強調し、特にレグレプタのトレーニングのためのシミュレーション設計や機械学習回帰モジュールの観点で、rmcアルゴリズムの複数の新しい変種を提示する。
同時に、mlOSPは既存のRCCスキームのほとんどをネストし、既存のアルゴリズムの一貫性と検証可能なベンチマークを可能にする。
この記事にはRのコードスニペットとフィギュアが含まれており、新しいRCC機能を示し、基盤となるソフトウェアパッケージにウィグレットとしての役割を兼ねている。 We introduce mlOSP, a computational template for Machine Learning for Optimal Stopping Problems. The template is implemented in the R statistical environment and publicly available via a GitHub repository. mlOSP presents a unified numerical implementation of Regression Monte Carlo (RMC) approaches to optimal stopping, providing a state-of-the-art, open-source, reproducible and transparent platform. Highlighting its modular nature, we present multiple novel variants of RMC algorithms, especially in terms of constructing simulation designs for training the regressors, as well as in terms of machine learning regression modules. At the same time, mlOSP nests most of the existing RMC schemes, allowing for a consistent and verifiable benchmarking of extant algorithms. The article contains extensive R code snippets and figures, and serves the dual role of presenting new RMC features and as a vignette to the underlying software package. | 翻訳日:2021-05-30 19:38:08 公開日:2020-12-01 |
# エンドエッジクラウドコンピューティングに基づく多機能車両協調制御 A Multi-intersection Vehicular Cooperative Control based on End-Edge-Cloud Computing ( http://arxiv.org/abs/2012.00500v1 ) ライセンス: Link先を確認 | Mingzhi Jiang, Tianhao Wu, Zhe Wang, Yi Gong, Lin Zhang, Ren Ping Liu | (参考訳) 協調型知的交通システム(c-its)は、特に信号機のない交差点、すなわち無信号交差点において、道路安全と交通管理のモードを変える。
既存の研究は、無信号交差点周辺の小さな領域における車両制御に焦点を当てている。
本稿では,制御領域を複数の交差点を持つ広い領域に拡張する。
特に,複数交差点を有する広いエリアにおける車両間の協調を実現するために,Multi-intersection Vehicular Cooperative Control (MiVeCC)を提案する。
まず、車両間のエッジクラウド垂直協調と水平協調を容易にするために、車両用エンドエッジクラウドコンピューティングフレームワークを提案する。
次に、雲とエッジ層の車両協調制御問題をマルコフ決定過程(MDP)として定式化し、2段階強化学習により解いた。
さらに, 高密度トラフィックに対応するために, 車両選択法を提案し, 性能劣化を伴わずに, 状態空間を小さくし, アルゴリズム収束を加速する。
提案手法を評価するためにマルチインターセクションシミュレーションプラットフォームを開発した。
シミュレーションの結果,提案したMiVeCCは既存手法と比較して衝突なく複数交差点での走行効率を最大4.59倍向上できることがわかった。 Cooperative Intelligent Transportation Systems (C-ITS) will change the modes of road safety and traffic management, especially at intersections without traffic lights, namely unsignalized intersections. Existing researches focus on vehicle control within a small area around an unsignalized intersection. In this paper, we expand the control domain to a large area with multiple intersections. In particular, we propose a Multi-intersection Vehicular Cooperative Control (MiVeCC) to enable cooperation among vehicles in a large area with multiple unsignalized intersections. Firstly, a vehicular end-edge-cloud computing framework is proposed to facilitate end-edge-cloud vertical cooperation and horizontal cooperation among vehicles. Then, the vehicular cooperative control problems in the cloud and edge layers are formulated as Markov Decision Process (MDP) and solved by two-stage reinforcement learning. Furthermore, to deal with high-density traffic, vehicle selection methods are proposed to reduce the state space and accelerate algorithm convergence without performance degradation. A multi-intersection simulation platform is developed to evaluate the proposed scheme. Simulation results show that the proposed MiVeCC can improve travel efficiency at multiple intersections by up to 4.59 times without collision compared with existing methods. | 翻訳日:2021-05-30 19:37:42 公開日:2020-12-01 |
# 偽画像検出法に対するチェッカーボードのないCycleGAN CycleGAN without checkerboard artifacts for counter-forensics of fake-image detection ( http://arxiv.org/abs/2012.00287v1 ) ライセンス: Link先を確認 | Takayuki Osakabe, Miki Tanaka, Yuma Kinoshita, Hitoshi Kiya | (参考訳) 本稿では,偽画像検出のカウンターフォリシスのためのチェッカーボードアーティファクトを持たない新しいサイクガンを提案する。
近年,画像操作ツールの急速な進歩と,gan(generative adversarial network)などの深層画像合成技術がフェイク画像を容易に生成しているため,操作画像の検出が急務となっている。
多くの最先端の偽造検出手法では、画像にはDNNを用いて生成されたチェッカーボードアーティファクトが含まれていると仮定している。
そこで本研究では,チェックボードを伴わないganの例として,フェイクメージ検出手法の反フォリシスのためのチェッカーボードアーティファクトを含まない新しいサイクガンを提案する。 In this paper, we propose a novel CycleGAN without checkerboard artifacts for counter-forensics of fake-image detection. Recent rapid advances in image manipulation tools and deep image synthesis techniques, such as Generative Adversarial Networks (GANs) have easily generated fake images, so detecting manipulated images has become an urgent issue. Most state-of-the-art forgery detection methods assume that images include checkerboard artifacts which are generated by using DNNs. Accordingly, we propose a novel CycleGAN without any checkerboard artifacts for counter-forensics of fake-mage detection methods for the first time, as an example of GANs without checkerboard artifacts. | 翻訳日:2021-05-30 19:36:25 公開日:2020-12-01 |
# 深部画像アニメーションを用いた超低ビットレートビデオ会議 Ultra-low bitrate video conferencing using deep image animation ( http://arxiv.org/abs/2012.00346v1 ) ライセンス: Link先を確認 | Goluck Konuko, Giuseppe Valenzise, St\'ephane Lathuili\`ere | (参考訳) 本研究では,ビデオ会議用超低ビットレートビデオ圧縮のための新しい深層学習手法を提案する。
利用可能な帯域幅が極端に限られている場合の現在のビデオ圧縮パラダイムの欠点に対処するために、深層ニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成するモデルベースのアプローチを採用する。
エンコーダ出力の再構成誤差を最小化するエンドツーエンド方式でシステム全体を訓練する。
客観的および主観的品質評価実験により,提案手法はHEVCと比較して80%以上の視覚的品質に対して平均ビットレート低減を提供することを示した。 In this work we propose a novel deep learning approach for ultra-low bitrate video compression for video conferencing applications. To address the shortcomings of current video compression paradigms when the available bandwidth is extremely limited, we adopt a model-based approach that employs deep neural networks to encode motion information as keypoint displacement and reconstruct the video signal at the decoder side. The overall system is trained in an end-to-end fashion minimizing a reconstruction error on the encoder output. Objective and subjective quality evaluation experiments demonstrate that the proposed approach provides an average bitrate reduction for the same visual quality of more than 80% compared to HEVC. | 翻訳日:2021-05-30 19:36:03 公開日:2020-12-01 |
# プロファイル予測:タンパク質配列モデルのアライメントに基づく事前学習タスク Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models ( http://arxiv.org/abs/2012.00195v1 ) ライセンス: Link先を確認 | Pascal Sturmfels, Jesse Vig, Ali Madani, Nazneen Fatema Rajani | (参考訳) タンパク質配列データセットでは、ラベルなしのデータがラベル付きデータを大幅に上回っている。
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示した。
しかし、最適な事前学習戦略は未解決のままである。
自然言語処理(nlp)からマスクや自己回帰型言語モデリングの形で厳密に借用する代わりに、複数の配列アライメントから派生したタンパク質プロファイルを直接予測する新しい事前学習タスクを導入する。
タンパク質モデルのための標準化された5つの下流タスクのセットを用いて、我々の事前学習タスクとマルチタスク目的タスクが5つのタスクすべてにおいてマスク付き言語モデリングよりも優れていることを示す。
以上の結果から,タンパク質配列モデルは,NLPの既存の言語モデリング技術を超えて生物学的にインスパイアされた誘導バイアスを活用できる可能性が示唆された。 For protein sequence datasets, unlabeled data has greatly outpaced labeled data due to the high cost of wet-lab characterization. Recent deep-learning approaches to protein prediction have shown that pre-training on unlabeled data can yield useful representations for downstream tasks. However, the optimal pre-training strategy remains an open question. Instead of strictly borrowing from natural language processing (NLP) in the form of masked or autoregressive language modeling, we introduce a new pre-training task: directly predicting protein profiles derived from multiple sequence alignments. Using a set of five, standardized downstream tasks for protein models, we demonstrate that our pre-training task along with a multi-task objective outperforms masked language modeling alone on all five tasks. Our results suggest that protein sequence models may benefit from leveraging biologically-inspired inductive biases that go beyond existing language modeling techniques in NLP. | 翻訳日:2021-05-30 19:34:29 公開日:2020-12-01 |
# HPCシステム上のPythonワークフロー Python Workflows on HPC Systems ( http://arxiv.org/abs/2012.00365v1 ) ライセンス: Link先を確認 | Dominik Strassel, Philipp Reusch and Janis Keuper | (参考訳) 計算集約型機械学習とデータ分析手法の最近の成功と広範な応用により、HPCシステムにおけるPythonプログラミング言語の使用が促進されている。
Pythonはユーザに対して多くのメリットを提供しているが、マルチユーザ環境や並列プログラミングに重点を置いて設計されていないため、HPCシステム上で安定的でセキュアなPythonワークフローを維持することは極めて困難である。
本稿では,HPCクラスタ上でのPythonの利用によって引き起こされる重要な問題を分析し,マルチユーザPythonソフトウェア環境の効率的なメンテナンス,Pythonジョブのリソースの確保と制限,およびPythonプロセスを含むための適切な回避策のスケッチを行う。 The recent successes and wide spread application of compute intensive machine learning and data analytics methods have been boosting the usage of the Python programming language on HPC systems. While Python provides many advantages for the users, it has not been designed with a focus on multi-user environments or parallel programming - making it quite challenging to maintain stable and secure Python workflows on a HPC system. In this paper, we analyze the key problems induced by the usage of Python on HPC clusters and sketch appropriate workarounds for efficiently maintaining multi-user Python software environments, securing and restricting resources of Python jobs and containing Python processes, while focusing on Deep Learning applications running on GPU clusters. | 翻訳日:2021-05-30 19:34:04 公開日:2020-12-01 |
# 分子特性予測のための3次元座標を用いたグラフ注意ニューラルネットワーク Directed Graph Attention Neural Network Utilizing 3D Coordinates for Molecular Property Prediction ( http://arxiv.org/abs/2012.00404v1 ) ライセンス: Link先を確認 | Chen Qian, Yunhai Xiong and Xiang Chen | (参考訳) 近年のコンピュータビジョン(cv)と自然言語処理(nlp)の繁栄は、他の多くの分野におけるディープラーニングの発展を促している。
機械学習の進歩は、計算に高価な密度汎関数理論(DFT)以外の選択肢を提供する。
カーネル法とグラフニューラルネットワークは、プロパティ予測の2つの主要な手法として広く研究されている。
有望なグラフニューラルネットワークは、最近の研究では、特定のオブジェクトに対するDFT法と同等の精度を達成した。
しかし、これまでのグラフニューラルネットワークの多くは、エッジ情報としてペア距離分布の完全な連結グラフを必要とする。
この研究で我々は、化学結合のみをエッジとして取り、結合や分子の原子を操作するDirected Graph Attention Neural Network(DGANN)に光を当てた。
1) 化学結合のグラフアテンション機構を用いて局所的な化学環境の符号化を学習する。
初期エッジメッセージは、すべてのメッセージパッシング軌跡に一度だけ流れ込む。
2) トランスブロックは局所的な原子エンコーディングからグローバルな分子表現を集約する。
(3)位置ベクトルと座標は距離の代わりに入力として使用される。
我々のモデルは、徹底したハイパーパラメーター探索がなくても、QM9データセット上のほとんどのベースライングラフニューラルネットワークに適合または性能を向上した。
さらに, 3次元座標を直接利用するモデルでは, 回転や翻訳の不変性が組み込まれなくても, 分子表現の精度が高いことが示唆された。 The prosperity of computer vision (CV) and natural language procession (NLP) in recent years has spurred the development of deep learning in many other domains. The advancement in machine learning provides us with an alternative option besides the computationally expensive density functional theories (DFT). Kernel method and graph neural networks have been widely studied as two mainstream methods for property prediction. The promising graph neural networks have achieved comparable accuracy to the DFT method for specific objects in the recent study. However, most of the graph neural networks with high precision so far require fully connected graphs with pairwise distance distribution as edge information. In this work, we shed light on the Directed Graph Attention Neural Network (DGANN), which only takes chemical bonds as edges and operates on bonds and atoms of molecules. DGANN distinguishes from previous models with those features: (1) It learns the local chemical environment encoding by graph attention mechanism on chemical bonds. Every initial edge message only flows into every message passing trajectory once. (2) The transformer blocks aggregate the global molecular representation from the local atomic encoding. (3) The position vectors and coordinates are used as inputs instead of distances. Our model has matched or outperformed most baseline graph neural networks on QM9 datasets even without thorough hyper-parameters searching. Moreover, this work suggests that models directly utilizing 3D coordinates can still reach high accuracies for molecule representation even without rotational and translational invariance incorporated. | 翻訳日:2021-05-30 19:33:46 公開日:2020-12-01 |
# IoTにおける機械学習システム - エッジインテリジェンスに対する信頼性のトレードオフ Machine Learning Systems in the IoT: Trustworthiness Trade-offs for Edge Intelligence ( http://arxiv.org/abs/2012.00419v1 ) ライセンス: Link先を確認 | Wiebke Toussaint and Aaron Yi Ding | (参考訳) マシンラーニングシステム(MLSys)は、エッジインテリジェンスを提供するために、IoT(Internet of Things)に登場しています。
しかしながら、マシンラーニングシステムとIoTの成熟にもかかわらず、MLSysとIoTを実践的に統合する上で、深刻な課題に直面しています。
例えば、大規模なプロダクション(クラウド環境など)のために多くの機械学習システムが開発されているが、iotには、異種でリソースに制約のあるデバイスと分散した運用環境による追加の要求がある。
MLSysとIoTのこの収束について、この記事では、クラウド、エッジ、IoTデバイスにわたるMLのスケーリングと分散に関する最新の開発(2020年まで)をカバーして、トレードオフを分析する。
我々は、機械学習システムをIoTのコンポーネントとして位置づけ、エッジインテリジェンスを社会技術システムとして位置づける。
信頼性の高いエッジインテリジェンスを設計する上での課題として,マルチステークホルダーの懸念や設計要件,トレードオフを考慮に入れ,エッジインテリジェンスの将来的な研究機会を強調する,包括的な設計アプローチを提唱する。 Machine learning systems (MLSys) are emerging in the Internet of Things (IoT) to provision edge intelligence, which is paving our way towards the vision of ubiquitous intelligence. However, despite the maturity of machine learning systems and the IoT, we are facing severe challenges when integrating MLSys and IoT in practical context. For instance, many machine learning systems have been developed for large-scale production (e.g., cloud environments), but IoT introduces additional demands due to heterogeneous and resource-constrained devices and decentralized operation environment. To shed light on this convergence of MLSys and IoT, this paper analyzes the trade-offs by covering the latest developments (up to 2020) on scaling and distributing ML across cloud, edge, and IoT devices. We position machine learning systems as a component of the IoT, and edge intelligence as a socio-technical system. On the challenges of designing trustworthy edge intelligence, we advocate a holistic design approach that takes multi-stakeholder concerns, design requirements and trade-offs into consideration, and highlight the future research opportunities in edge intelligence. | 翻訳日:2021-05-30 19:33:16 公開日:2020-12-01 |
# (k, l)-連続動的時間ワープを用いた軌道の中間子クラスタリング (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time Warping ( http://arxiv.org/abs/2012.00464v1 ) ライセンス: Link先を確認 | Milutin Brankovic, Kevin Buchin, Koen Klaren, Andr\'e Nusser, Aleksandr Popov, Sampson Wong | (参考訳) 利用可能な地理空間データの量が急増し、それを理解可能な方法で提示する必要があるため、このデータのクラスタリングはこれまで以上に重要である。
クラスタには多数のオブジェクトが含まれる可能性があるため、各クラスタに代表を持つことによって、クラスタの理解が大幅に容易になる。
このような代表に依存するクラスタリング手法をセンターベースと呼ぶ。
本研究では,軌跡中心クラスタリングの問題について考察する。
この設定では、クラスタの代表は再び軌跡となる。
クラスタのコンパクトな表現とオーバーフィッティングを避けるため,パラメータ l による代表軌道の複雑さを制限する。
近年,連続距離測度,すなわちfr\'echet距離を用いた軌道の中心的クラスタリングが研究されている。
fr\'echet距離は中心複雑性の制限を可能にするが、外れ値にも敏感であるが、dtwのような平均型距離測度はそうではない。
中心複雑性を制限し,アウトレーラに対して堅牢なトラジェクトリクラスタリングアルゴリズムを実現するために,DTWの連続バージョンを距離測定として使用することを提案し,これを連続動的時間ワープ(CDTW)と呼ぶ。
私たちの貢献は2つあります。
cdtwの実用的アルゴリズムの欠如に対処するために,計算を行う近似アルゴリズムを開発した。
2.
本研究では,この距離測定に基づく最初のクラスタリングアルゴリズムを開発し,一連の軌道から中心を計算し,反復的に改善する実用的な方法を示す。
実測データに基づくCDTWによるクラスタリングの結果の洞察を得るために,我々は広範な実験を行った。 Due to the massively increasing amount of available geospatial data and the need to present it in an understandable way, clustering this data is more important than ever. As clusters might contain a large number of objects, having a representative for each cluster significantly facilitates understanding a clustering. Clustering methods relying on such representatives are called center-based. In this work we consider the problem of center-based clustering of trajectories. In this setting, the representative of a cluster is again a trajectory. To obtain a compact representation of the clusters and to avoid overfitting, we restrict the complexity of the representative trajectories by a parameter l. This restriction, however, makes discrete distance measures like dynamic time warping (DTW) less suited. There is recent work on center-based clustering of trajectories with a continuous distance measure, namely, the Fr\'echet distance. While the Fr\'echet distance allows for restriction of the center complexity, it can also be sensitive to outliers, whereas averaging-type distance measures, like DTW, are less so. To obtain a trajectory clustering algorithm that allows restricting center complexity and is more robust to outliers, we propose the usage of a continuous version of DTW as distance measure, which we call continuous dynamic time warping (CDTW). Our contribution is twofold: 1. To combat the lack of practical algorithms for CDTW, we develop an approximation algorithm that computes it. 2. We develop the first clustering algorithm under this distance measure and show a practical way to compute a center from a set of trajectories and subsequently iteratively improve it. To obtain insights into the results of clustering under CDTW on practical data, we conduct extensive experiments. | 翻訳日:2021-05-30 19:31:08 公開日:2020-12-01 |
# Alexaって何をタイプしたの?
音声アシスタントでスマートフォンの音をデコードする Hey Alexa what did I just type? Decoding smartphone sounds with a voice assistant ( http://arxiv.org/abs/2012.00687v1 ) ライセンス: Link先を確認 | Almos Zarandy, Ilia Shumailov, Ross Anderson | (参考訳) 音声アシスタントは今やユビキタスで、日々の生活に耳を傾けている。
商用化されて以来、プライバシ擁護者たちは、収集したデータが悪用される可能性があることを心配している。
本稿では、プライバシーの脅威は会話以上のものであり、近隣のスマートフォンに入力された機密データを含んでいることを示す。
2つの異なるスマートフォンとタブレットを使って、攻撃者は最大50m離れた音声アシスタントが収集した録音からPINコードとテキストメッセージを抽出できることを示した。
これは、リモートキーボード参照攻撃が物理キーボードに限らず、仮想キーボードにも及んでいることを示している。
家庭が常時オンのマイクに満ちている中、私たちはその影響を乗り越える必要がある。 Voice assistants are now ubiquitous and listen in on our everyday lives. Ever since they became commercially available, privacy advocates worried that the data they collect can be abused: might private conversations be extracted by third parties? In this paper we show that privacy threats go beyond spoken conversations and include sensitive data typed on nearby smartphones. Using two different smartphones and a tablet we demonstrate that the attacker can extract PIN codes and text messages from recordings collected by a voice assistant located up to half a meter away. This shows that remote keyboard-inference attacks are not limited to physical keyboards but extend to virtual keyboards too. As our homes become full of always-on microphones, we need to work through the implications. | 翻訳日:2021-05-30 19:29:13 公開日:2020-12-01 |
# 中心多様体近似のための核法と中心多様体定理のデータベース版 Kernel methods for center manifold approximation and a data-based version of the Center Manifold Theorem ( http://arxiv.org/abs/2012.00338v1 ) ライセンス: Link先を確認 | Bernard Haasdonk and Boumediene Hamzi and Gabriele Santin and Dominik Wittwar | (参考訳) 非双曲的平衡を持つ力学系では、中心多様体理論を用いて安定性の研究を著しく単純化することができる。
この理論は、平衡点に近い系の複雑な漸近挙動を分離し、いわゆる中心多様体上の縮小順序系を解析することによって、その挙動の有意義な予測を得ることを可能にする。
中心多様体は通常知られていないので、中心多様体の定理は、縮小順序系の原点の安定性が全順序系の原点のそれと同じであることを示すので、よい近似法が重要である。
本研究では、正則多様体の代わりに近似を考えることによって機能する中心多様体定理のデータベースのバージョンを確立する。
また、近似と元の還元ダイナミクスの間の誤差を定量化する。
次に,平均誤差理論と適合する平衡に近い多様体の適切な近似を構築するために,アポサイトデータに基づくカーネル法を用いる。
データは、高精度解法を用いて全システムの繰り返し数値シミュレーションによって収集され、トレーニングセットとして使用される離散的軌道の集合を生成する。
提案手法は,有望な性能と精度を示す様々な例で検証される。 For dynamical systems with a non hyperbolic equilibrium, it is possible to significantly simplify the study of stability by means of the center manifold theory. This theory allows to isolate the complicated asymptotic behavior of the system close to the equilibrium point and to obtain meaningful predictions of its behavior by analyzing a reduced order system on the so-called center manifold. Since the center manifold is usually not known, good approximation methods are important as the center manifold theorem states that the stability properties of the origin of the reduced order system are the same as those of the origin of the full order system. In this work, we establish a data-based version of the center manifold theorem that works by considering an approximation in place of an exact manifold. Also the error between the approximated and the original reduced dynamics are quantified. We then use an apposite data-based kernel method to construct a suitable approximation of the manifold close to the equilibrium, which is compatible with our general error theory. The data are collected by repeated numerical simulation of the full system by means of a high-accuracy solver, which generates sets of discrete trajectories that are then used as a training set. The method is tested on different examples which show promising performance and good accuracy. | 翻訳日:2021-05-30 19:28:07 公開日:2020-12-01 |
# 隙間のある線路:確率的手法を電車に適用する Train Tracks with Gaps: Applying the Probabilistic Method to Trains ( http://arxiv.org/abs/2012.00589v1 ) ライセンス: Link先を確認 | William Kuszmaul | (参考訳) 列車車両の車輪数と、車両が常に車両に支えられていることを保証するために設置しなければならない線路量とのトレードオフ曲線を同定する。
ゴールは、いくつかの大きな距離($\ell$)をカバーする高架線路を構築することであるが、それは主に隙間で構成されているため、実際に設置される線路の総フィートは$\ell$のほんの一部に過ぎない。
列車がすべての地点で列車を支えられるようにするためには、列車が線路を横断するときに、後部から少なくとも1組の車輪と前部から少なくとも1組の車輪が常に線路に触れなければならない。
列車車両が後方に均等に間隔を置き、前方に均等に間隔を割った車輪セットがn$である場合、列車車両を支持するが、わずか$\Theta( \ell / n )$ feet の線路を使用することができる。
次に、電車の車輪が均等に空間化されていない場合(逆向きに設定される場合)に何が起こるかを考える。
車両の前部および後部の四分の一に$n$の車輪を持つ車両の任意の構成について、距離$\ell$で車を支えるトラックを構築することができ、わずか$O\left(\frac{\ell \log n}{n}\right)$ feet of trackを使用することができる。
さらに、このトレードオフ曲線が漸近的に最適である列車車両の構成が存在することを示す。
上界と下界の両方は確率的手法の適用によって達成される。 We identify a tradeoff curve between the number of wheels on a train car, and the amount of track that must be installed in order to ensure that the train car is supported by the track at all times. The goal is to build an elevated track that covers some large distance $\ell$, but that consists primarily of gaps, so that the total amount of feet of train track that is actually installed is only a small fraction of $\ell$. In order so that the train track can support the train at all points, the requirement is that as the train drives across the track, at least one set of wheels from the rear quarter and at least one set of wheels from the front quarter of the train must be touching the track at all times. We show that, if a train car has $n$ sets of wheels evenly spaced apart in its rear and $n$ sets of wheels evenly spaced apart in its front, then it is possible to build a train track that supports the train car but uses only $\Theta( \ell / n )$ feet of track. We then consider what happens if the wheels on the train car are not evenly spaced (and may even be configured adversarially). We show that for any configuration of the train car, with $n$ wheels in each of the front and rear quarters of the car, it is possible to build a track that supports the car for distance $\ell$ and uses only $O\left(\frac{\ell \log n}{n}\right)$ feet of track. Additionally, we show that there exist configurations of the train car for which this tradeoff curve is asymptotically optimal. Both the upper and lower bounds are achieved via applications of the probabilistic method. | 翻訳日:2021-05-30 19:27:35 公開日:2020-12-01 |
# GANにおけるSGDの収束と試料複合体 Convergence and Sample Complexity of SGD in GANs ( http://arxiv.org/abs/2012.00732v1 ) ライセンス: Link先を確認 | Vasilis Kontonis, Sihan Liu, Christos Tzamos | (参考訳) SGDによるGAN(Generative Adversarial Networks)のトレーニングに関する理論的収束保証を提供する。
非線形活性化関数 $\phi(\cdot)$ を持つ1層生成ネットワークによってモデル化された対象分布の学習を、$d \times d$ weight matrix $\mathbf w_*$,すなわち $f_*(\mathbf x) = \phi(\mathbf w_* \mathbf x)$ でパラメトリライズする。
我々の主な成果は、Goodfellowらによって提案された確率的勾配降下-上昇反復に基づいて、ジェネレータを識別器と共に訓練することである。
は$f_*$のターゲット分布に近づくジェネレータ分布を生成する。
具体的には、(ほぼ)情報論的に最適である$\tilde O(d^2/\epsilon^2)$サンプルを用いて、全変量距離$\epsilon$内のターゲット分布を学習することができる。
本研究は,relusを含む非線形活性化関数 $\phi$ の幅広いクラスに適用され,切断統計と識別器ネットワークの適切な設計との接続により実現される。
我々のアプローチは、バニラSGDAが機能することを示すために、双方向最適化フレームワークに依存しています。 We provide theoretical convergence guarantees on training Generative Adversarial Networks (GANs) via SGD. We consider learning a target distribution modeled by a 1-layer Generator network with a non-linear activation function $\phi(\cdot)$ parametrized by a $d \times d$ weight matrix $\mathbf W_*$, i.e., $f_*(\mathbf x) = \phi(\mathbf W_* \mathbf x)$. Our main result is that by training the Generator together with a Discriminator according to the Stochastic Gradient Descent-Ascent iteration proposed by Goodfellow et al. yields a Generator distribution that approaches the target distribution of $f_*$. Specifically, we can learn the target distribution within total-variation distance $\epsilon$ using $\tilde O(d^2/\epsilon^2)$ samples which is (near-)information theoretically optimal. Our results apply to a broad class of non-linear activation functions $\phi$, including ReLUs and is enabled by a connection with truncated statistics and an appropriate design of the Discriminator network. Our approach relies on a bilevel optimization framework to show that vanilla SGDA works. | 翻訳日:2021-05-30 19:26:48 公開日:2020-12-01 |
# mystiko : クラウドを介する,プライベートな,フェデレーション勾配 MYSTIKO : : Cloud-Mediated, Private, Federated Gradient Descent ( http://arxiv.org/abs/2012.00740v1 ) ライセンス: Link先を確認 | K. R. Jayaram, Archit Verma, Ashish Verma, Gegi Thomas and Colin Sutcher-Shepard | (参考訳) フェデレーション学習は、複数の分散参加者(潜在的には異なるクラウド上で)が、パラメータ/勾配を共有することで、機械/深層学習モデルのコラボレーションとトレーニングを可能にする。
しかし、データの集中化ではなく、共有のグラデーションは、期待するほどプライベートではないかもしれない。
平文勾配に対するリバースエンジニアリング攻撃は事実上実現可能であることが示されている。
差分プライベートな連合学習のための既存のソリューションは、有望ではあるが、精度の低いモデルにつながり、非自明なハイパーパラメータチューニングを必要とする。
In this paper, we examine the use of additive homomorphic encryption (specifically the Paillier cipher) to design secure federated gradient descent techniques that (i) do not require addition of statistical noise or hyperparameter tuning, (ii) does not alter the final accuracy or utility of the final model, (iii) ensure that the plaintext model parameters/gradients of a participant are never revealed to any other participant or third party coordinator involved in the federated learning job, (iv) minimize the trust placed in any third party coordinator and (v) are efficient, with minimal overhead, and cost effective. Federated learning enables multiple, distributed participants (potentially on different clouds) to collaborate and train machine/deep learning models by sharing parameters/gradients. However, sharing gradients, instead of centralizing data, may not be as private as one would expect. Reverse engineering attacks on plaintext gradients have been demonstrated to be practically feasible. Existing solutions for differentially private federated learning, while promising, lead to less accurate models and require nontrivial hyperparameter tuning. In this paper, we examine the use of additive homomorphic encryption (specifically the Paillier cipher) to design secure federated gradient descent techniques that (i) do not require addition of statistical noise or hyperparameter tuning, (ii) does not alter the final accuracy or utility of the final model, (iii) ensure that the plaintext model parameters/gradients of a participant are never revealed to any other participant or third party coordinator involved in the federated learning job, (iv) minimize the trust placed in any third party coordinator and (v) are efficient, with minimal overhead, and cost effective. | 翻訳日:2021-05-30 19:26:16 公開日:2020-12-01 |
# 永続ホモロジーによる解釈可能な位相検出と分類 Interpretable Phase Detection and Classification with Persistent Homology ( http://arxiv.org/abs/2012.00783v1 ) ライセンス: Link先を確認 | Alex Cole, Gregory J. Loges, Gary Shiu | (参考訳) 統計物理学の格子スピンモデルを用いて、相転移の発見と特徴付けのタスクに永続ホモロジーを適用する。
永続画像は、統計処理を行うホモロジーデータの有用な表現を提供する。
位相遷移を特定するために、これらの画像に対する単純なロジスティック回帰は、我々が検討するモデルに十分であり、解釈可能な順序パラメータは回帰の重みから読み出される。
相転移の特徴として磁化, フラストレーション, 渦反渦構造が同定された。 We apply persistent homology to the task of discovering and characterizing phase transitions, using lattice spin models from statistical physics for working examples. Persistence images provide a useful representation of the homological data for conducting statistical tasks. To identify the phase transitions, a simple logistic regression on these images is sufficient for the models we consider, and interpretable order parameters are then read from the weights of the regression. Magnetization, frustration and vortex-antivortex structure are identified as relevant features for characterizing phase transitions. | 翻訳日:2021-05-30 19:25:47 公開日:2020-12-01 |
# スケーラブルプラズモニックエンコーダを用いたニューラルネットワークに基づくオンチップ分光 Neural network-based on-chip spectroscopy using a scalable plasmonic encoder ( http://arxiv.org/abs/2012.00878v1 ) ライセンス: Link先を確認 | Calvin Brown, Artem Goncharov, Zachary Ballard, Mason Fordham, Ashley Clemens, Yunzhe Qiu, Yair Rivenson and Aydogan Ozcan | (参考訳) 従来の分光器はサイズ、コスト、信号対雑音比(snr)、スペクトル分解能によって制限されている。
本稿では,小型で低コストなオンチップセンシング方式を用いて,grating-based spectroscopyに固有の設計トレードオフに制約されない深層学習に基づくスペクトル再構成の枠組みを示す。
スケーラブルで低コストなインプリントリソグラフィー法を用いて作製した252種類のナノホールアレイを含むプラズモニックスペクトルエンコーダチップを用いており、各タイルはユニークな形状を有し、そのためユニークな光透過スペクトルを有する。
関心の照明スペクトルはプラズモンエンコーダに直接干渉し、CMOSイメージセンサは、レンズ、格子、その他の光学部品を介さずに透過光を捕捉し、ハードウェア全体が非常にコンパクトで、軽量で、フィールド可搬性になる。
トレーニングされたニューラルネットワークは、スペクトルエンコーダから送信された強度情報を用いて未知のスペクトルをフィードフォワードおよび非イテレーティブな方法で再構成する。
ニューラルネットワークの並列化の恩恵を受けると、スペクトルごとの平均推定時間は28マイクロ秒であり、これは他の計算分光法のアプローチよりも桁違いに速い。
複雑度が異なる新しいスペクトル (n = 14648) を盲目的に測定したところ, 平均ピーク局在誤差, 帯域誤差, 高さ誤差はそれぞれ0.19 nm, 0.18 nm, 7.60%のスペクトルピーク96.86%であった。
このシステムは、インプリントリソグラフィプロセス中に生じる可能性のある製造欠陥にも耐性があり、コスト効率が高く、フィールドポータブルで感度の高い高分解能分光ツールを必要とするアプリケーションにはさらに理想的である。 Conventional spectrometers are limited by trade-offs set by size, cost, signal-to-noise ratio (SNR), and spectral resolution. Here, we demonstrate a deep learning-based spectral reconstruction framework, using a compact and low-cost on-chip sensing scheme that is not constrained by the design trade-offs inherent to grating-based spectroscopy. The system employs a plasmonic spectral encoder chip containing 252 different tiles of nanohole arrays fabricated using a scalable and low-cost imprint lithography method, where each tile has a unique geometry and, thus, a unique optical transmission spectrum. The illumination spectrum of interest directly impinges upon the plasmonic encoder, and a CMOS image sensor captures the transmitted light, without any lenses, gratings, or other optical components in between, making the entire hardware highly compact, light-weight and field-portable. A trained neural network then reconstructs the unknown spectrum using the transmitted intensity information from the spectral encoder in a feed-forward and non-iterative manner. Benefiting from the parallelization of neural networks, the average inference time per spectrum is ~28 microseconds, which is orders of magnitude faster compared to other computational spectroscopy approaches. When blindly tested on unseen new spectra (N = 14,648) with varying complexity, our deep-learning based system identified 96.86% of the spectral peaks with an average peak localization error, bandwidth error, and height error of 0.19 nm, 0.18 nm, and 7.60%, respectively. This system is also highly tolerant to fabrication defects that may arise during the imprint lithography process, which further makes it ideal for applications that demand cost-effective, field-portable and sensitive high-resolution spectroscopy tools. | 翻訳日:2021-05-30 19:25:35 公開日:2020-12-01 |
# TensorFlowでOpenFOAMにディープラーニングをデプロイする Deploying deep learning in OpenFOAM with TensorFlow ( http://arxiv.org/abs/2012.00900v1 ) ライセンス: Link先を確認 | Romit Maulik, Himanshu Sharma, Saumil Patel, Bethany Lusch, Elise Jennings | (参考訳) 汎用予測タスクのための訓練されたディープラーニングアーキテクチャをその場で展開可能にするopenfoamにおけるデータサイエンスモジュールの開発について概説する。
このモジュールはTensorFlow C APIで構築されており、実行時にリンク可能なアプリケーションとしてOpenFOAMに統合されている。
特に、私たちの定式化は、ニューラルネットワークアーキテクチャのタイプ(畳み込み、完全接続など)に関する制限を妨げます。
これにより、実用的なCFD問題に対する複雑なニューラルネットワークアーキテクチャの研究が可能になる。
さらに、提案モジュールは、計算流体力学と機械学習のためのオープンソースで統一的で透明なフレームワークへの道筋を概説している。 We outline the development of a data science module within OpenFOAM which allows for the in-situ deployment of trained deep learning architectures for general-purpose predictive tasks. This module is constructed with the TensorFlow C API and is integrated into OpenFOAM as an application that may be linked at run time. Notably, our formulation precludes any restrictions related to the type of neural network architecture (i.e., convolutional, fully-connected, etc.). This allows for potential studies of complicated neural architectures for practical CFD problems. In addition, the proposed module outlines a path towards an open-source, unified and transparent framework for computational fluid dynamics and machine learning. | 翻訳日:2021-05-30 19:24:41 公開日:2020-12-01 |