このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210527となっている論文です。

PDF登録状況(公開日: 20210527)

TitleAuthorsAbstract論文公表日・翻訳日
# Bose-Hubbardモデルの統計的フラケット予熱

Statistical Floquet prethermalization of the Bose-Hubbard model ( http://arxiv.org/abs/2005.07207v5 )

ライセンス: Link先を確認
Emanuele G. Dalla Torre, David Dentelski(参考訳) 多体系の操作は、しばしば不要な加熱を引き起こす時間依存の力を伴う。 加熱を抑制する一つの戦略は、大きな駆動周波数で時間周期(フロッケ)力を使用することである。 有界スペクトルを持つ量子スピン系では、加熱速度が駆動周波数において指数的に小さいことが厳密に示されている。 近年、超低温原子を用いた実験で、周期的に駆動されるボース・ハッバードモデルを実現する熱の指数的抑制が観測されている。 このモデルは非有界スペクトルを持ち、従って以前の理論的なアプローチの到達点を超えている。 本稿では,2つの半古典的アプローチを用いて,大きな相互作用強度と弱い相互作用強度のモデルについて検討する。 いずれの限界においても、多体共鳴に遭遇する統計確率を研究して加熱速度を計算し、量子モデルの正確な対角化と定量的に一致する。 提案手法は, 相互作用する多体量子系のフロケ過熱化と統計的議論の関係を示す。

The manipulation of many-body systems often involves time-dependent forces that cause unwanted heating. One strategy to suppress heating is to use time-periodic (Floquet) forces at large driving frequencies. For quantum spin systems with bounded spectra, it was shown rigorously that the heating rate is exponentially small in the driving frequency. Recently, the exponential suppression of heating has also been observed in an experiment with ultracold atoms, realizing a periodically driven Bose-Hubbard model. This model has an unbounded spectrum and, hence, is beyond the reach of previous theoretical approaches. Here, we study this model with two semiclassical approaches valid, respectively, at large and weak interaction strengths. In both limits, we compute the heating rates by studying the statistical probability to encounter a many-body resonance, and obtain a quantitative agreement with the exact diagonalization of the quantum model. Our approach demonstrates the relevance of statistical arguments to Floquet perthermalization of interacting many-body quantum systems.
翻訳日:2023-05-20 05:23:21 公開日:2021-05-27
# キャビティ量子電磁力学における自由電子ガス

The Free Electron Gas in Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2006.09236v4 )

ライセンス: Link先を確認
Vasil Rokaj, Michael Ruggenthaler, Florian G. Eich, and Angel Rubio(参考訳) 物質特性と現象のキャビティ修正は、強い光-物質相互作用の進歩によって大きく動機付けられた新しい研究分野である。 この進展にもかかわらず、拡張された系の厳密な解は光子場と強く結合しており、理論も実験も主に有限系モデルに依存している。 したがって、空洞内の正確に解ける拡張システムのパラダイム的な例は、非常に望まれる。 このギャップを埋めるため、sommerfeldの空洞量子電磁力学(qed)における自由電子気体の理論を再検討する。 この系を、任意の数の非相互作用電子の長波長限界で解析的に解き、電子-光子基底状態が仮想光子を含むフェルミ液体であることを実証する。 有限系のモデルとは対照的に、対数的 $\textbf{A}^2$ 項が省略された場合、基底状態は存在しない。 さらに、線形応答を行うことで、空洞場はプラズモン-ポラリトン励起を誘導し、電子ガスの光および直流伝導率を変化させることを示す。 正確な解法により、有効な量子場理論を構築することにより、電子と光子の熱力学的極限を考えることができる。 モードの連続体は電子質量の多体再正規化につながり、フェルミ液体のフェルミイオン準粒子励起と相互作用する電子ガスのウィグナー・セッツ半径を変化させる。 最後に,物質修飾光子場が反動カシミール力にどのようにつながり,モード連続体が光マター系に散逸をもたらすかを示す。 提示された発見のいくつかは実験的にアクセス可能であるべきである。

Cavity modification of material properties and phenomena is a novel research field largely motivated by the advances in strong light-matter interactions. Despite this progress, exact solutions for extended systems strongly coupled to the photon field are not available, and both theory and experiments rely mainly on finite-system models. Therefore a paradigmatic example of an exactly solvable extended system in a cavity becomes highly desireable. To fill this gap we revisit Sommerfeld's theory of the free electron gas in cavity quantum electrodynamics (QED). We solve this system analytically in the long-wavelength limit for an arbitrary number of non-interacting electrons, and we demonstrate that the electron-photon ground state is a Fermi liquid which contains virtual photons. In contrast to models of finite systems, no ground state exists if the diamagentic $\textbf{A}^2$ term is omitted. Further, by performing linear response we show that the cavity field induces plasmon-polariton excitations and modifies the optical and the DC conductivity of the electron gas. Our exact solution allows us to consider the thermodynamic limit for both electrons and photons by constructing an effective quantum field theory. The continuum of modes leads to a many-body renormalization of the electron mass, which modifies the fermionic quasiparticle excitations of the Fermi liquid and the Wigner-Seitz radius of the interacting electron gas. Lastly, we show how the matter-modified photon field leads to a repulsive Casimir force and how the continuum of modes introduces dissipation into the light-matter system. Several of the presented findings should be experimentally accessible.
翻訳日:2023-05-13 17:58:05 公開日:2021-05-27
# 中央スピン系におけるグローバーアルゴリズムによる数分割

Number Partitioning with Grover's Algorithm in Central Spin Systems ( http://arxiv.org/abs/2009.05549v3 )

ライセンス: Link先を確認
Galit Anikeeva, Ognjen Markovi\'c, Victoria Borish, Jacob A. Hines, Shankari V. Rajagopal, Eric S. Cooper, Avikar Periwal, Amir Safavi-Naeini, Emily J. Davis, Monika Schleier-Smith(参考訳) 多くの概念上重要な量子アルゴリズムは、オラクルと呼ばれるブラックボックスデバイスに依存しており、アルゴリズムが解決しようとする問題に対する答えを知らずに構築することが通常困難である。 有名な例はグローバーの探索アルゴリズムである。 ここでは,部分和問題と呼ばれるNP完全決定問題のクラスに対する解を求めるグロバー探索を提案する。 各問題インスタンスは、一組の量子ビットの中央スピンやボソンへのカップリングに符号化され、溶液を知らずにオラクルの実現を可能にする。 このアルゴリズムは、分割問題の計算複雑性における既知の相転移の量子スピードアップを提供し、シミュレーション性能における相転移のシグネチャを特定する。 提案アルゴリズムはNP完全問題に対するシステムサイズと指数関数的にスケールするスペクトル分解能を必要とするが,拡張性を実現する再帰的アルゴリズムも提案する。 我々は,rydberg-atom やcavity-qed プラットフォームを含むコールド原子を用いた実装方式を提案し,解析する。

Numerous conceptually important quantum algorithms rely on a black-box device known as an oracle, which is typically difficult to construct without knowing the answer to the problem that the algorithm is intended to solve. A notable example is Grover's search algorithm. Here we propose a Grover search for solutions to a class of NP-complete decision problems known as subset sum problems, including the special case of number partitioning. Each problem instance is encoded in the couplings of a set of qubits to a central spin or boson, which enables a realization of the oracle without knowledge of the solution. The algorithm provides a quantum speedup across a known phase transition in the computational complexity of the partition problem, and we identify signatures of the phase transition in the simulated performance. Whereas the naive implementation of our algorithm requires a spectral resolution that scales exponentially with system size for NP-complete problems, we also present a recursive algorithm that enables scalability. We propose and analyze implementation schemes with cold atoms, including Rydberg-atom and cavity-QED platforms.
翻訳日:2023-05-02 22:19:13 公開日:2021-05-27
# 欧州における誤情報とその利害関係者--Webベースの分析

Misinformation and its stakeholders in Europe: a web-based analysis ( http://arxiv.org/abs/2009.09218v2 )

ライセンス: Link先を確認
Emmanouil Koulas, Marios Anthopoulos, Sotiria Grammenou, Christos Kaimakamis, Konstantinos Kousaris, Fotini-Rafailia Panavou, Orestis Piskioulis, Syed Iftikhar H. Shah and Vasilios Peristeras(参考訳) 近年のインターネットと計算力の台頭は、誤報現象の指数的な成長を可能にした。 10年前の問題であり、社会的な結束の課題となった。 この新たな脅威の出現は、多くの利害関係者、特にヨーロッパにおいて、この現象に取り組むために行動するに至った。 本稿は,欧州における誤情報に関する文献レビューの第1部と,特定された主要な利害関係者の webometrics analysis について紹介する。 その結果、ステークホルダーが誰であるか、誤った情報を制限するためにどのようなアクションを実行するのか、そのアクションが影響するかどうかについて議論する。

The rise of the internet and computational power in recent years allowed for the exponential growth of misinformation phenomena. An issue that was a non-issue a decade ago, became a challenge for societal cohesion. The emergence of this new threat has led many stakeholders, especially in Europe, to act in order to tackle this phenomenon. This paper provides in its first part a literature review on misinformation in Europe, and in its second part a webometrics analysis on the identified key stakeholders. In the results we discuss who those stakeholders are, what actions do they perform to limit misinformation and whether those actions have an impact.
翻訳日:2023-05-01 20:06:17 公開日:2021-05-27
# 磁気光ガルバニック効果の量子力学的研究

Quantum Kinetics of the Magneto Photo Galvanic Effect ( http://arxiv.org/abs/2009.12859v4 )

ライセンス: Link先を確認
Dieter Hornung, Ralph von Baltz(参考訳) ケルディシュ法を用いて、外部の電場や磁場の存在下で準単色放射を励起して非セントロ対称結晶中のブロッホ電子の準古典方程式を導出した。 これらの方程式は、フォトガルバニック効果(pge)を含む電子のダイナミクス、特にシフト機構に対する半導体ブロッホ方程式の類似である。 このシフトPGEは、新しい太陽光発電材料の開発への期待を示すものとして最近特定された。 さらに, この理論は, 時間-逆対称性の破れとトポロジカルな性質の相互作用や, ナノフォトニクスにおける最近の局所励起実験の解析に有用である。 光ガルバニックテンソルの明示的な結果は、線形および円偏光および磁場に対して提示される。 さらに,シフト・フォトガルバニック効果がフォトホール電流に寄与しないという既存の主張を否定する。

Using the Keldysh technique, we derive a set of quasiclassical equations for Bloch electrons in noncentrosymmetric crystals upon excitation with quasimonochromatic radiation in the presence of external electrical and magnetic fields. These equations are the analog to the semiconductor-Bloch-equations for the dynamics of electrons including the photogalvanic effect (PGE) in particular the shift mechanism. The shift PGE was recently identified as showing promise for the development of new photovoltaic materials. In addition, our theory may be useful to investigate the interplay between breaking time-reversal symmetry and topological properties as well as the analysis of recent local excitation experiments in nanophotonics. Explicit results for the photogalvanic tensors are presented for linear and circular polarized light and a magnetic field. In addition, we disprove existing statements that the shift-photogalvanic effect does not contribute to the photo-Hall current.
翻訳日:2023-04-30 20:39:58 公開日:2021-05-27
# 何の違反だ? 実世界のブラウジング行動によるセキュリティインシデントのオンライン認知度の測定

What breach? Measuring online awareness of security incidents by studying real-world browsing behavior ( http://arxiv.org/abs/2010.09843v4 )

ライセンス: Link先を確認
Sruti Bhagavatula, Lujo Bauer, Apu Kapadia(参考訳) セキュリティとプライバシのリスクに対する認識は、優れたセキュリティ習慣を開発する上で重要です。 現実世界のセキュリティインシデントやデータ漏洩について学ぶことは、情報をオンラインで脆弱にする方法を人々に警告することができるため、安全なセキュリティ行動を促進する上で重要な役割を果たす。 この論文は 1)セキュリティインシデントをオンラインで読む頻度は? 2)これらの人々のうち,事件についてもっと読もうとして行動に追随するか否か,及び,その程度 3) 事件について読んだり行動したりする可能性に影響を及ぼすものは何か。 本研究では,303人の実世界のインターネット閲覧データを定量的に検討した。 本研究の結果は,セキュリティ上の問題に対する認識が薄かった。 参加者の16%は、広く公表された6件の大規模セキュリティインシデントに関連するあらゆるWebページを訪れており、事件が彼らに影響を与える可能性がある場合(例えば、エクイファックスの不正侵入がエクイファックスの信用レポートにほとんど影響を与えている)も1件について読むことはほとんどなかった。 さらに、より深刻なインシデントや、このインシデントについて建設的に話した記事は、より多くのアクションを引き起こした。 我々は、具体的な将来の研究や、より多くの人々に有用なセキュリティインシデント情報を提供するための推奨事項をまとめる。

Awareness about security and privacy risks is important for developing good security habits. Learning about real-world security incidents and data breaches can alert people to the ways in which their information is vulnerable online, thus playing a significant role in encouraging safe security behavior. This paper examines 1) how often people read about security incidents online, 2) of those people, whether and to what extent they follow up with an action, e.g., by trying to read more about the incident, and 3) what influences the likelihood that they will read about an incident and take some action. We study this by quantitatively examining real-world internet-browsing data from 303 participants. Our findings present a bleak view of awareness of security incidents. Only 16% of participants visited any web pages related to six widely publicized large-scale security incidents; few read about one even when an incident was likely to have affected them (e.g., the Equifax breach almost universally affected people with Equifax credit reports). We further found that more severe incidents as well as articles that constructively spoke about the incident inspired more action. We conclude with recommendations for specific future research and for enabling useful security incident information to reach more people.
翻訳日:2023-04-28 07:41:27 公開日:2021-05-27
# 読み出し雑音におけるクロストーク効果のモデル化と緩和と量子近似最適化アルゴリズムへの応用

Modeling and mitigation of cross-talk effects in readout noise with applications to the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2101.02331v3 )

ライセンス: Link先を確認
Filip B. Maciejewski, Flavio Baccari, Zolt\'an Zimbor\'as, Micha{\l} Oszmaniec(参考訳) そこで本研究では, 効率的に記述・特徴付けできる相関測定ノイズモデルを提案し, 限界確率分布のレベルに有効なノイズ緩和法を提案する。 ノイズ緩和は、上限を導出する何らかの誤差まで行うことができる。 モデルのキャラクタリゼーションは,最近導入された量子重畳トモグラフィの一般化である対角検出器重畳トモグラフィ(Diagonal Detector Overlapping Tomography)を用いて効率よく行う。 この手順は、$O(k2^klog(N))$回路を用いて$N$-qubitデバイス上の$k$ローカル測定クロストークを特徴付けることができる。 我々は、IBMのリゲッティ(Rigetti's)デバイスを用いた15(23)量子ビットの実験を行い、ノイズモデルと誤差軽減スキームの両方を試験し、緩和を伴わずに22ドル(5.5ドル)の誤差を平均的に低減する実験を行った。 興味深いことに、測定ノイズの相関はデバイスの物理的レイアウトと一致しない。 さらに,量子近似最適化アルゴリズム(QAOA)の性能に及ぼす読み出し雑音の影響を数値的に検討した。 ランダムなmax-2-satインスタンスやsherington-kirkpatrickモデルを含む多くの目的のハミルトニアンに対して、ノイズ緩和は最適化の質を向上させることをシミュレーションで観察する。 最後に、QAOA最適化の過程で、局所エネルギー(またはコスト)項の推定が、しばしば非相関変数のように振る舞うため、悲観的誤差解析と比較してエネルギー推定のサンプリング複雑性が大幅に減少する。 また、浅深さランダム回路によって生成されるハールランダム量子状態や状態にも同様の効果が期待できることを示す。

We introduce a correlated measurement noise model that can be efficiently described and characterized, and which admits effective noise-mitigation on the level of marginal probability distributions. Noise mitigation can be performed up to some error for which we derive upper bounds. Characterization of the model is done efficiently using Diagonal Detector Overlapping Tomography -- a generalization of the recently introduced Quantum Overlapping Tomography to the problem of reconstruction of readout noise with restricted locality. The procedure allows to characterize $k$-local measurement cross-talk on $N$-qubit device using $O(k2^klog(N))$ circuits containing random combinations of X and identity gates. We perform experiments on 15 (23) qubits using IBM's (Rigetti's) devices to test both the noise model and the error-mitigation scheme, and obtain an average reduction of errors by a factor $>22$ ($>5.5$) compared to no mitigation. Interestingly, we find that correlations in the measurement noise do not correspond to the physical layout of the device. Furthermore, we study numerically the effects of readout noise on the performance of the Quantum Approximate Optimization Algorithm (QAOA). We observe in simulations that for numerous objective Hamiltonians, including random MAX-2-SAT instances and the Sherrington-Kirkpatrick model, the noise-mitigation improves the quality of the optimization. Finally, we provide arguments why in the course of QAOA optimization the estimates of the local energy (or cost) terms often behave like uncorrelated variables, which greatly reduces sampling complexity of the energy estimation compared to the pessimistic error analysis. We also show that similar effects are expected for Haar-random quantum states and states generated by shallow-depth random circuits.
翻訳日:2023-04-17 11:05:44 公開日:2021-05-27
# プライバシーと所有者管理のためのデジタル通貨アーキテクチャ

A Digital Currency Architecture for Privacy and Owner-Custodianship ( http://arxiv.org/abs/2101.05259v6 )

ライセンス: Link先を確認
Geoffrey Goodell, Hazem Danny Al-Nakib, Paolo Tasca(参考訳) 近年、電子小売決済機構、特に販売時点における電子商取引やカード決済は、多くの先進国で現金に置き換わっている。 その結果、社会は公共小売支払いの重要な選択肢を失い、小売消費者は現金の使用に関する重要な権利を失いつつある。 この懸念に対処するために、銀行関係のない人が、キャッシュレスでなければならないインターネット購入とポイント・オブ・セールの購入の両方を含む、電子的およびプライベートに取引できるデジタル通貨のアプローチを提案する。 提案では、銀行や金融サービス業がすべての取引を登録することを保証するために、政府支援のプライベートなデジタル通貨インフラを導入し、ブラインドシグネチャやゼロ知識証明などのプライバシー強化技術が支援する非認証ウォレットに依存し、取引相手が明かされていないことを保証する。 デジタル通貨への我々のアプローチは、より効率的で透明な、システムリスクの清算、決済、管理を促進できる。 当社のシステムでは,プライバシやオーナ・カストディアンシップ,ファンジビリティ,アクセシビリティなど,現金の突出した特性を復元し,保存することが可能であると同時に,小額のリザーブバンキングや既存の2層バンキングシステムも維持可能である。 また、利用者のプライバシーを無条件に保護する非顧客ウォレットを含むデジタル通貨取引の規制を導入することが可能であることを示す。

In recent years, electronic retail payment mechanisms, especially e-commerce and card payments at the point of sale, have increasingly replaced cash in many developed countries. As a result, societies are losing a critical public retail payment option, and retail consumers are losing important rights associated with using cash. To address this concern, we propose an approach to digital currency that would allow people without banking relationships to transact electronically and privately, including both internet purchases and point-of-sale purchases that are required to be cashless. Our proposal introduces a government-backed, privately-operated digital currency infrastructure to ensure that every transaction is registered by a bank or money services business, and it relies upon non-custodial wallets backed by privacy-enhancing technology such as blind signatures or zero-knowledge proofs to ensure that transaction counterparties are not revealed. Our approach to digital currency can also facilitate more efficient and transparent clearing, settlement, and management of systemic risk. We argue that our system can restore and preserve the salient features of cash, including privacy, owner-custodianship, fungibility, and accessibility, while also preserving fractional reserve banking and the existing two-tiered banking system. We also show that it is possible to introduce regulation of digital currency transactions involving non-custodial wallets that unconditionally protect the privacy of end-users.
翻訳日:2023-04-15 17:32:01 公開日:2021-05-27
# 質量制限のない大型分子の非破壊検出

Non-destructive detection of large molecules without mass limitation ( http://arxiv.org/abs/2102.04098v3 )

ライセンス: Link先を確認
Adrien Poindron (PIIM), Jofre Pedregosa-Gutierrez (PIIM), Christophe Jouvet (PIIM), Martina Knoop (PIIM), Caroline Champenois (PIIM)(参考訳) 分子同定の問題は、質量感度が検出器の性能に依存する質量分析計を含む多くの解を知っている。 本論文の目的は, 分子動力学シミュレーションを用いて, レーザー冷却したイオン雲が, 線状高周波トラップに閉じ込められ, 個々の荷電重分子イオンを検出できる究極の感度に達するかを示すことである。 シミュレーションでは、レーザー冷却したca + イオンを2レベル原子としてモデル化し、定値と時間軸の電気場によって閉じ込められた。 106 amuの質量を持つ単充電の分子イオンがイオン雲を介して推進される。 検出信号として、ラザの蛍光率の誘起変化を用いる。 この信号はクーロンの反発によって引き起こされる有意な温度変化とトラップ自体によって引き起こされる高周波加熱によって増幅されることを示している。 検出すべき分子イオンの最適初期エネルギーを同定し、さらに、幅広い閉じ込め電圧に対する検出器の性能を特徴付ける。

The problem for molecular identification knows many solutions which include mass spectrometers whose mass sensitivity depends on the performance of the detector involved. The purpose of this article is to show by means of molecular dynamics simulations, how a laser-cooled ion cloud, confined in a linear radio-frequency trap, can reach the ultimate sensitivity providing the detection of individual charged heavy molecular ions. In our simulations, we model the laser-cooled Ca + ions as two-level atoms, confined thanks to a set of constant and time oscillating electrical fields. A singly-charged molecular ion with a mass of 10 6 amu is propelled through the ion cloud. The induced change in the fluorescence rate of the lather is used as the detection signal. We show that this signal is due to a significant temperature variation triggered by the Coulombian repulsion and amplified by the radio-frequency heating induced by the trap itself. We identify the optimum initial energy for the molecular ion to be detected and furthermore, we characterize the performance of the detector for a large range of confinement voltages.
翻訳日:2023-04-12 05:36:22 公開日:2021-05-27
# 隠れ超対称性からの湯川ポテンシャルの境界状態

Bound states of the Yukawa potential from hidden supersymmetry ( http://arxiv.org/abs/2102.07160v2 )

ライセンス: Link先を確認
M. Napsuciale, S. Rodr\'iguez(参考訳) 本研究では,系の隠れた超対称性とユカワポテンシャルの系統的拡張を用いて得られたユカワポテンシャルの有界固有状態と固有値に対する完全な解析解の現象論的研究を行い,ここでは$a_{0}$がボーア半径であり、$d$がスクリーニング長である$delta=a_{0}/d$について述べる。 固有値 $\epsilon_{nl}(\delta)$ はテイラー級数の$\delta$ の形で与えられ、所望の位数 $\delta^{k}$ に体系的に計算できる。 Coulomb $l$-degeneracy はスクリーニング効果によって破壊され、与えられた$n$, $\epsilon_{nl}(\delta)$ は $l$ のより高い値に対して大きくなり、$n\ge4$ のレベルの交差を引き起こす。 テイラー級数の収束半径は Pad\'e 近似法(英語版) を用いて臨界値まで拡大することができ、これは有界な値である$\delta$ の値全体において高い精度で固有値を計算することができ、臨界スクリーニング長の正確な決定に$\delta_{nl}$ を到達することができる。 固有状態はクーロンポテンシャルの解に類似した形式を持ち、関連するラゲール多項式は$r$依存性係数を持つ次数$\delta^{k}$の新しい多項式に置き換えられる。 一般に、クーロン半径の確率からの大きな偏差は、その臨界値に近い長さの検定に限られる。 これらの解を用いて、波動関数の原点の2乗絶対値が $l=0$ であり、それらの導関数が最低状態に対して $l=1$ であり、ダークゲージ理論におけるダークマター境界状態の表現論に入る$\delta$ の関数である。

In this work, we present a phenomenological study of the complete analytical solution to the bound eigenstates and eigenvalues of the Yukawa potential obtained previously using the hidden supersymmetry of the system and a systematic expansion of the Yukawa potential in terms of $\delta=a_{0}/D$, where $a_{0}$ is the Bohr radius and $D$ is the screening length. The eigenvalues, $\epsilon_{nl}(\delta)$, are given in the form of Taylor series in $\delta$ which can be systematically calculated to the desired order $\delta^{k}$. Coulomb $l$-degeneracy is broken by the screening effects and, for a given $n$, $\epsilon_{nl}(\delta)$ is larger for higher values of $l$ which causes the crossing of levels for $n\ge4$. The convergence radius of the Taylor series can be enlarged up to the critical values using the Pad\'e approximants technique which allows us to calculate the eigenvalues with high precision in the whole rage of values of $\delta$ where bound states exist, and to reach a precise determination of the critical screening lengths, $\delta_{nl}$. Eigenstates have a form similar to the solutions of the Coulomb potential, with the associated Laguerre polynomials replaced by new polynomials of order $\delta^{k}$ with $r$-dependent coefficients which, in turn, are polynomials in $r$. In general we find sizable deviations from the Coulomb radial probabilities only for screening lengths close to their critical values. We use these solutions to find the squared absolute value at the origin of the wave function for $l=0$, and their derivatives for $l=1$, for the lowest states, as functions of $\delta$, which enter the phenomenology of dark matter bound states in dark gauge theories with a light dark mediator.
翻訳日:2023-04-11 04:19:42 公開日:2021-05-27
# Fock状態に対するニューラルネットワークの効率的なビット符号化

Efficient bit encoding of neural networks for Fock states ( http://arxiv.org/abs/2103.08285v2 )

ライセンス: Link先を確認
Oliver K\"astle and Alexander Carmele(参考訳) 本稿では,botzmann machine neural networkアーキテクチャにおけるbosonic fock数状態の高効率かつスケーラブルな表現のためのビット符号化方式を提案する。 一般的な密度行列の実装とは対照的に、ニューラルネットワークの複雑性は最大ボソン数ではなくビットエンコードされたニューロン数でのみスケールする。 重要となるのは、その情報圧縮効率が最大に最適化された密度行列の実装よりも優れていることであり、そこでは最短ヒルベルト空間表現へのアクセスにプロジェクター法が用いられる。

We present a bit encoding scheme for a highly efficient and scalable representation of bosonic Fock number states in the restricted Boltzmann machine neural network architecture. In contrast to common density matrix implementations, the complexity of the neural network scales only with the number of bit-encoded neurons rather than the maximum boson number. Crucially, in the high occupation regime its information compression efficiency is shown to surpass even maximally optimized density matrix implementations, where a projector method is used to access the sparsest Hilbert space representation available.
翻訳日:2023-04-08 02:18:10 公開日:2021-05-27
# xxzモデルのすべての局所保存量

All local conserved quantities of the XXZ model ( http://arxiv.org/abs/2104.01851v2 )

ライセンス: Link先を確認
Bernard Nienhuis and Onno E. Huijgen(参考訳) XXZモデルの可積分性は、大量の保存量をもたらす。 本稿では, 閉鎖上のXXZモデルの局所保存電荷列に対して, ねじれの有無にかかわらず, 閉形式表現を与える。 級数の各元がハミルトニアンと可換であることを証明する。

Integrability of the XXZ model induces an extensive number of conserved quantities. In this paper we give a closed form expression for the series of local conserved charges of the XXZ model on a closed chain with or without a twist. We prove that each element of the series commutes with the Hamiltonian.
翻訳日:2023-04-05 06:47:11 公開日:2021-05-27
# 古典的可逆計算の量子基礎

Quantum Foundations of Classical Reversible Computing ( http://arxiv.org/abs/2105.00065v3 )

ライセンス: Link先を確認
Michael P. Frank and Karpur Shukla(参考訳) 可逆計算パラダイムは、従来の非可逆デジタルパラダイムのエネルギー効率に対する熱力学的限界を回避できる一般的なデジタルコンピューティングの新しい基盤を提供することを目的としている。 しかし、これまでのところ、古典的可逆計算(RC)の基本的な理論的根拠と分析は、現代的な非平衡量子熱力学(NEQT)の形式的手法を利用した用語ではまだ表現されていない。 本稿では, NEQTを基盤とした可逆計算の物理基盤の開発に着手する。 我々は,複数の漸近状態を持つgorini-kossakowski-sudarshan-lindblad dynamics (a.k. lindbladians) の枠組みを用いて,資源理論,全計数統計,確率的熱力学の最近の結果を取り入れた。 Important conclusions include that, as expected: (1) Landauer's Principle indeed sets a strict lower bound on entropy generation in traditional non-reversible architectures for deterministic computing machines when we account for the loss of correlations; and (2) implementations of the alternative reversible computation paradigm can potentially avoid such losses, and thereby circumvent the Landauer limit, potentially allowing the efficiency of future digital computing technologies to continue improving indefinitely. 我々はまた、可逆計算機の基本的な最小エネルギー散逸を速度関数として同定する研究計画を概説する。

The reversible computation paradigm aims to provide a new foundation for general classical digital computing that is capable of circumventing the thermodynamic limits to the energy efficiency of the conventional, non-reversible digital paradigm. However, to date, the essential rationale for and analysis of classical reversible computing (RC) has not yet been expressed in terms that leverage the modern formal methods of non-equilibrium quantum thermodynamics (NEQT). In this paper, we begin developing an NEQT-based foundation for the physics of reversible computing. We use the framework of Gorini-Kossakowski-Sudarshan-Lindblad dynamics (a.k.a. Lindbladians) with multiple asymptotic states, incorporating recent results from resource theory, full counting statistics, and stochastic thermodynamics. Important conclusions include that, as expected: (1) Landauer's Principle indeed sets a strict lower bound on entropy generation in traditional non-reversible architectures for deterministic computing machines when we account for the loss of correlations; and (2) implementations of the alternative reversible computation paradigm can potentially avoid such losses, and thereby circumvent the Landauer limit, potentially allowing the efficiency of future digital computing technologies to continue improving indefinitely. We also outline a research plan for identifying the fundamental minimum energy dissipation of reversible computing machines as a function of speed.
翻訳日:2023-04-01 23:33:57 公開日:2021-05-27
# 絡み合いエントロピーの非ガウス性と複合作用素の相関

Non-Gaussianity of Entanglement Entropy and Correlations of Composite Operators ( http://arxiv.org/abs/2105.02598v2 )

ライセンス: Link先を確認
Satoshi Iso, Takato Mori, Katsuta Sakai(参考訳) これは、相互作用場理論における半空間の絡み合いエントロピー(ee)を研究するための以前の論文arxiv:2103.05303の拡張版である。 前報では、ファインマン図上での$\mathbb{Z}_M$ゲージ理論(英語版)の概念に基づいてEEを計算する新しい方法を提案し、EEは、2つの粒子の既約(2PI)形式における再正規化二点相関関数と相互作用頂点からの相互作用頂点からなることを示した。 本稿では、より一般の場の理論でこれらをさらに研究し、頂点からの非ガウシアン寄与を合成作用素の正規化相関関数として解釈できることを示す。

This is an extended version of the previous paper arXiv:2103.05303 to study entanglement entropy (EE) of a half space in interacting field theories. In the previous paper, we have proposed a novel method to calculate EE based on the notion of $\mathbb{Z}_M$ gauge theory on Feynman diagrams, and shown that EE consists of two particular contributions, one from a renormalized two-point correlation function in the two-particle irreducible (2PI) formalism and another from interaction vertices. In this paper, we further investigate them in more general field theories and show that the non-Gaussian contributions from vertices can be interpreted as renormalized correlation functions of composite operators.
翻訳日:2023-04-01 07:58:47 公開日:2021-05-27
# 安定化および論理演算子を用いた量子ネットワークのベル非局所性探索

Exploring Bell nonlocality of quantum networks with stabilizing and logical operators ( http://arxiv.org/abs/2105.03837v2 )

ライセンス: Link先を確認
Li-Yi Hsu and Ching-Hsu Chen(参考訳) 実用的な量子ネットワークでは、独立したソースから放出される様々な多ビット安定化状態がエージェント間で分散され、ネットワーク全体の相関は共有複合量子システムにおける各エージェントの局所的な測定から導出される。 量子的特徴のような場合におけるベル非局所性を明らかにするには、放出される安定化状態に関する最小限の知識が必要である。 ここでは、安定化および論理演算子を知ることは、量子ネットワークにおけるベル非局所性を探索する新しい方法を提供する。 量子ネットワークにおける量子ビット分布について、関連する非線形ベル不等式が導出される。 一方、これらの不等式に違反するため、放出された状態の最小限の知識を用いて局所的に非互換な可観測体を設計することができる。 また, 特定の非最大エンタングル安定状態に適した傾き非線形ベル不等式と, 最大違反を達成する方法についても検討した。

In practical quantum networks, a variety of multi-qubit stabilized states emitted from independent sources are distributed among the agents, and the correlations across the entire network can be derived from each agent's local measurements on the shared composite quantum systems. To reveal the Bell non-locality in such cases as a quantum feature, minimal knowledge of the emitted stabilizer state is required. Here, we demonstrate that knowing the stabilizing and logical operators indeed provides a new way of exploring Bell non-locality in quantum networks. For the qubit distribution in quantum networks, the associated nonlinear Bell inequalities are derived. On the other hand, to violate these inequalities, one can design local incompatible observables using minimal knowledge of the emitted states. The tilted nonlinear Bell inequalities tailored for specific non-maximal entangled stabilizer states and a way of achieving the maximal violation are also explored.
翻訳日:2023-04-01 01:31:29 公開日:2021-05-27
# 時間依存分光法によるスピノンフェルミ表面の可視化

Visualizing spinon Fermi surfaces with time-dependent spectroscopy ( http://arxiv.org/abs/2105.13366v1 )

ライセンス: Link先を確認
Alexander Schuckert, Annabelle Bohrdt, Eleanor Crane, Fabian Grusdt(参考訳) 量子シミュレーション実験は、正確な数値法ではアクセスできない状態の探索を開始した。 これらのシステムを探索し、新しい物理的洞察を可能にするために、そのギャップを固体実験に橋渡しできる測定プロトコルの必要性が生まれ、同時に量子シミュレーション実験の能力を最適に活用する。 本稿では,固体系における確立されたツールである時間依存光電子分光をコールド原子量子シミュレータに適用することを提案する。 具体的には, スピン液体の創発的準粒子であるスピノンのブロッホ振動を駆動するために, 実材料実験では得られない大きな磁場勾配と組み合わせることを提案する。 1次元の$t-J$モデルの正確な対角化シミュレーションでは、スピノンが非占有状態の有効バンド構造に出現し始め、平衡スペクトルで見えない状態を可視化することができる。 ポンプパルス後のスペクトル関数の依存性はスピノン間の集団的相互作用を明らかにする。 小さな2次元系の数値シミュレーションでは、スペクトル重みは運動量 $\mathbf{q} = (\pi,\pi)$ の基底状態エネルギーに現れ、平衡スペクトル応答は高エネルギーまで強く抑制され、クパレート物質のフェルミアークの謎を解くための道筋が示唆される。

Quantum simulation experiments have started to explore regimes that are not accessible with exact numerical methods. In order to probe these systems and enable new physical insights, the need for measurement protocols arises that can bridge the gap to solid state experiments, and at the same time make optimal use of the capabilities of quantum simulation experiments. Here we propose applying time-dependent photo-emission spectroscopy, an established tool in solid state systems, in cold atom quantum simulators. Concretely, we suggest combining the method with large magnetic field gradients, unattainable in experiments on real materials, to drive Bloch oscillations of spinons, the emergent quasiparticles of spin liquids. We show in exact diagonalization simulations of the one-dimensional $t-J$ model that the spinons start to populate previously unoccupied states in an effective band structure, thus allowing to visualize states invisible in the equilibrium spectrum. The dependence of the spectral function on the time after the pump pulse reveals collective interactions among spinons. In numerical simulations of small two-dimensional systems, spectral weight appears at the ground state energy at momentum $\mathbf{q} = (\pi,\pi)$, where the equilibrium spectral response is strongly suppressed up to higher energies, indicating a possible route towards solving the mystery of the Fermi arcs in the cuprate materials.
翻訳日:2023-03-29 09:08:18 公開日:2021-05-27
# 監視量子回路における絡み合い領域の壁とランダム環境における配向高分子

Entanglement Domain Walls in Monitored Quantum Circuits and the Directed Polymer in a Random Environment ( http://arxiv.org/abs/2105.13352v1 )

ライセンス: Link先を確認
Yaodong Li, Sagar Vijay, Matthew P. A. Fisher(参考訳) モニターされた量子力学は、弱い監視された体積法則の絡み合った位相から強い監視された領域法相への遷移を含む、絡み合った構造の豊富な現象を示す量子状態軌跡を明らかにする。 ランダムユニタリダイナミクスと相互分散計測の両方を持つ1次元ハイブリッド回路について,解析写像を実効統計力学モデルとハイブリッドクリフォード回路上での広範な数値シミュレーションを組み合わせることにより,体積則相の普遍的絡み合い特性を「ランダム環境における指向性高分子」に相当する変動的絡み合い領域壁(dpre)によって定量的に記述できることを示す。 この関係は体積則エンタングル位相 [1, 2] の定性的「平均場」統計力学によって改善される。 種々のジオメトリーにおけるクリフォード回路について,dpreの予測により,サブリーディング絡みエントロピーとボリュームロー位相の誤差補正特性(その安定性を投影的測定に定量化する)の一致を得た。 さらに、最終回路時間近傍のハイブリッド力学における脱分極ノイズは、射影測定の不整合作用に無害な非誤り補正体積法相への連続的な位相遷移を引き起こすことを実証する。 我々は,この遷移をハイブリッドクリフォード力学で観察し,魅力的な界面の存在下でのDPREの「ピンニング」相転移に対する臨界指数と定量的に一致した。

Monitored quantum dynamics reveal quantum state trajectories which exhibit a rich phenomenology of entanglement structures, including a transition from a weakly-monitored volume law entangled phase to a strongly-monitored area law phase. For one-dimensional hybrid circuits with both random unitary dynamics and interspersed measurements, we combine analytic mappings to an effective statistical mechanics model with extensive numerical simulations on hybrid Clifford circuits to demonstrate that the universal entanglement properties of the volume law phase can be quantitatively described by a fluctuating entanglement domain wall that is equivalent to a "directed polymer in a random environment" (DPRE). This relationship improves upon a qualitative "mean-field" statistical mechanics of the volume-law-entangled phase [1, 2]. For the Clifford circuit in various geometries, we obtain agreement between the subleading entanglement entropies and error correcting properties of the volume-law phase (which quantify its stability to projective measurements) with predictions of the DPRE. We further demonstrate that depolarizing noise in the hybrid dynamics near the final circuit time can drive a continuous phase transition to a non-error correcting volume law phase that is not immune to the disentangling action of projective measurements. We observe this transition in hybrid Clifford dynamics, and obtain quantitative agreement with critical exponents for a "pinning" phase transition of the DPRE in the presence of an attractive interface.
翻訳日:2023-03-29 09:07:27 公開日:2021-05-27
# 量子相転移の臨界点近似の複雑さ

The Complexity of Approximating Critical Points of Quantum Phase Transitions ( http://arxiv.org/abs/2105.13350v1 )

ライセンス: Link先を確認
James D. Watson and Johannes Bausch(参考訳) 相図は、圧力や磁化のような1つ以上の外部または内部のパラメータに関する材料特性を表わす。 本研究では,有限サイズのハミルトニアンの位相が熱力学極限の位相を反映していることを示し,その位相図における臨界境界を一定の精度で近似すると$P^{QMA_{EXP}}$完全となる。 たとえ系の位相図が2つの位相を並べる単一の臨界境界を持つと約束されたとしても、これは変換不変な近辺結合に対しても成り立つ。 単一のパラメータの単純な場合、同じ問題は$QMA_{EXP}$-hardのままである。 以上より,より現実的な位相図を持つ系に量子位相の研究を拡張した。 さらに, 有限サイズ観測から熱力学限界まで, システムの特性(例えばギャップ付き/ギャップレス)を外挿するタスクにおいて, 有限サイズ基準に基づく(計算的あるいは解析的)手法の有効性に複雑性理論的制約を課す。

Phase diagrams chart material properties with respect to one or more external or internal parameters such as pressure or magnetisation; as such, they play a fundamental role in many theoretical and applied fields of science. In this work, we prove that provided the phase of the Hamiltonian at a finite size reflects the phase in the thermodynamic limit, approximating the critical boundary in its phase diagram to constant precision is $P^{QMA_{EXP}}$-complete. This holds even for translationally-invariant nearest neighbour couplings, and even if the system's phase diagram is promised to have a single critical boundary delineating two phases. For the simpler case of a single parameter, the same problem remains $QMA_{EXP}$-hard. Our results extend the study of quantum phases to systems with more realistic phase diagrams than previously studied. Furthermore, our findings place complexity-theoretic constraints on the effectiveness of (computational or analytic) methods based on finite size criteria, similar in spirit to the Knabe bound, for the task of extrapolating the properties (e.g. gapped/gapless) of a system from finite-size observations to the thermodynamic limit.
翻訳日:2023-03-29 09:07:02 公開日:2021-05-27
# テレグラムによるQAnon陰謀理論のグローバル化について

On the Globalization of the QAnon Conspiracy Theory Through Telegram ( http://arxiv.org/abs/2105.13020v1 )

ライセンス: Link先を確認
Mohamad Hoseini, Philipe Melo, Fabricio Benevenuto, Anja Feldmann, Savvas Zannettou(参考訳) QAnonは極右陰謀説で、ここ数年で人気を博し、主流になった。 さらに悪いことに、QAnon陰謀説は現実世界に影響を及ぼし、2021年の米国議会議事堂攻撃のような現実世界の暴力行為に参加する理論を支持する。 同時に、カノン理論は世界中、特にヨーロッパでフォロワーを惹きつけることによって、世界的な現象へと発展し始めた。 したがって、QAnon理論が世界的現象となり、オンライン空間でどのように拡散が起きているのかを理解することが不可欠である。 本稿では161のQAnonグループ/チャネルにポストされた4.5Mメッセージを収集して,TelegramによるQAnonの大規模データ解析を行う。 GoogleのパースペクティブAPIを使用して、言語や時間とともにQAnonコンテンツの毒性を分析します。 また、BERTに基づくトピックモデリング手法を用いて、複数の言語にわたるQAnon談話を分析する。 とりわけ、ドイツ語はTelegram上のQAnonグループやチャンネルで広く使われており、2020年以降は英語を誇張している。 また、ドイツ語やポルトガル語で投稿されたコンテンツは、英語よりも有害な傾向がある。 我々のトピックモデリングは、QAnon支持者が世界政治、陰謀論、新型コロナウイルス、予防接種運動など、極右運動における様々な関心事について議論していることを示している。 まとめると、我々はTelegramを通してQAnonに関する最初の多言語的な研究を行い、QAnon理論のグローバル化の微妙な概要を描いている。

QAnon is a far-right conspiracy theory that became popular and mainstream over the past few years. Worryingly, the QAnon conspiracy theory has implications in the real world, with supporters of the theory participating in real-world violent acts like the US capitol attack in 2021. At the same time, the QAnon theory started evolving into a global phenomenon by attracting followers across the globe and, in particular, in Europe. Therefore, it is imperative to understand how the QAnon theory became a worldwide phenomenon and how this dissemination has been happening in the online space. This paper performs a large-scale data analysis of QAnon through Telegram by collecting 4.5M messages posted in 161 QAnon groups/channels. Using Google's Perspective API, we analyze the toxicity of QAnon content across languages and over time. Also, using a BERT-based topic modeling approach, we analyze the QAnon discourse across multiple languages. Among other things, we find that the German language is prevalent in QAnon groups/channels on Telegram, even overshadowing English after 2020. Also, we find that content posted in German and Portuguese tends to be more toxic compared to English. Our topic modeling indicates that QAnon supporters discuss various topics of interest within far-right movements, including world politics, conspiracy theories, COVID-19, and the anti-vaccination movement. Taken all together, we perform the first multilingual study on QAnon through Telegram and paint a nuanced overview of the globalization of the QAnon theory.
翻訳日:2023-03-29 07:22:31 公開日:2021-05-27
# BackEISNN: 適応型自己フィードバックと平衡性興奮抑制ニューロンを備えたディープスパイキングニューラルネットワーク

BackEISNN: A Deep Spiking Neural Network with Adaptive Self-Feedback and Balanced Excitatory-Inhibitory Neurons ( http://arxiv.org/abs/2105.13004v1 )

ライセンス: Link先を確認
Dongcheng Zhao, Yi Zeng, Yang Li(参考訳) スパイクニューラルネットワーク(SNN)は離散スパイクを通して情報を伝達し、空間的時間的情報を処理する。 微分不可能な特性のため、良好な性能を持つSNNの設計には依然として困難がある。 近年,バックプロパゲーションで訓練されたsnsは勾配近似の提案により優れた性能を示している。 しかし、複雑なタスクのパフォーマンスは、ディープニューラルネットワークからはまだ遠く離れている。 スパイクニューロンを自己フィードバック接続で接続する脳の自発性からインスピレーションを得て, 膜電位に適応時間遅延自己フィードバックを適用してスパイク精度を調節する。 また, 刺激ニューロンの出力を動的に制御するために, 平衡興奮ニューロンと抑制ニューロンの機構を適用した。 これら2つのメカニズムを組み合わせることで,適応的な自己フィードバックと興奮と抑制のバランスがとれた神経回路(BackEISNN)を提案する。 いくつかの標準データセットの実験結果は、2つのモジュールがネットワークの収束を加速するだけでなく、精度を向上させることを示した。 MNIST、FashionMNIST、N-MNISTのデータセットに対して、我々のモデルは最先端の性能を達成した。 CIFAR10データセットでは、BackEISNNは、最先端のSNNと競合する比較的軽量な構造でも素晴らしいパフォーマンスを得られる。

Spiking neural networks (SNNs) transmit information through discrete spikes, which performs well in processing spatial-temporal information. Due to the non-differentiable characteristic, there still exist difficulties in designing well-performed SNNs. Recently, SNNs trained with backpropagation have shown superior performance due to the proposal of the gradient approximation. However, the performance on complex tasks is still far away from the deep neural networks. Taking inspiration from the autapse in the brain which connects the spiking neurons with a self-feedback connection, we apply an adaptive time-delayed self-feedback on the membrane potential to regulate the spike precisions. As well as, we apply the balanced excitatory and inhibitory neurons mechanism to control the spiking neurons' output dynamically. With the combination of the two mechanisms, we propose a deep spiking neural network with adaptive self-feedback and balanced excitatory and inhibitory neurons (BackEISNN). The experimental results on several standard datasets have shown that the two modules not only accelerate the convergence of the network but also improve the accuracy. For the MNIST, FashionMNIST, and N-MNIST datasets, our model has achieved state-of-the-art performance. For the CIFAR10 dataset, our BackEISNN also gets remarkable performance on a relatively light structure that competes against state-of-the-art SNNs.
翻訳日:2023-03-29 07:21:52 公開日:2021-05-27
# 散逸量子ラビ系を用いた量子温度測定

Quantum Thermometry with a Dissipative Quantum Rabi System ( http://arxiv.org/abs/2105.12906v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu, An Min Wang(参考訳) 散逸量子ラビ系は、光学キャビティ場モードと相互作用する1つの2レベル原子からなる有限成分系であり、量子相転移を示し、ユニタリパラメータ(周波数と結合強度)の推定精度を大幅に向上させることができる。 ここでは、量子ランゲヴィン方程式、標準平均場理論、および断熱除去を用いて、原子を取り巻く熱浴の量子温度測定を量子光学プローブを用いて調査する。 原子と空洞場の結合強度の増大により、2種類の特異点が観察できる。 特異点の1つのタイプは、反パリティ時間(anti-$\mathcal{PT}$)対称空洞場の例外点(EP)である。 その他の特異点のタイプは、通常から超ラジアント相への相転移の臨界点(CP)である。 最適測定精度は EP ではなく CP で発生することを示す。 また、直接光子検出は、CP近傍での最適な測定のための優れたプロキシを示す。 試験対象の熱浴がキャビティフィールドと相互作用する余分な熱浴とは無関係である場合、温度の推定精度は結合強度によって常に上昇する。 好ましくは、試験対象の熱浴が空洞磁場と相互作用する余分な浴と平衡である場合、CPに近くない限り結合強度を増大させる際に温度情報を抑制するノイズが発生する。

Dissipative quantum Rabi System, a finite-component system composed of a single two-level atom interacting with an optical cavity field mode, exhibits a quantum phase transition, which can be exploited to greatly enhance the estimation precision of unitary parameters (frequency and coupling strength). Here, using the quantum Langevin equation, standard mean field theory and adiabatic elimination, we investigate the quantum thermometry of a thermal bath surrounding the atom with quantum optical probes. With the increase of coupling strength between the atom and the cavity field, two kinds of singularities can be observed. One type of singularity is the exceptional point (EP) in the anti-parity-time (anti-$\mathcal{PT}$) symmetrical cavity field. The other type of singularity is the critical point (CP) of phase transition from the normal to superradiant phase. We show that the optimal measurement precision occurs at the CP, instead of the EP. And the direct photon detection represents an excellent proxy for the optimal measurement near the CP. In the case where the thermal bath to be tested is independent of the extra thermal bath interacting with the cavity field, the estimation precision of the temperature always increases with the coupling strength. Oppositely, if the thermal bath to be tested is in equilibrium with the extra bath interacting with the cavity field, noises that suppress the information of the temperature will be introduced when increasing the coupling strength unless it is close to the CP.
翻訳日:2023-03-29 07:21:00 公開日:2021-05-27
# ガリウムフォトニック結晶空洞を用いたマイクロ波-光変換

Microwave-to-optical conversion with a gallium phosphide photonic crystal cavity ( http://arxiv.org/abs/2105.13242v1 )

ライセンス: Link先を確認
Simon H\"onl, Youri Popoff, Daniele Caimi, Alberto Beccari, Tobias J. Kippenberg, and Paul Seidler(参考訳) 電気的に作動する光学共振器は、マイクロ波と光子の量子コヒーレントな双方向変換への経路を提供する。 このようなデバイスは、マイクロ波周波数で動作する量子ビットに基づく量子コンピュータの光相互接続を可能にする。 本稿では, 単結晶, 圧電ガリウムフォスプライドからなるフォトニック結晶キャビティを, 内在シリコン基板上に形成した窒化ニオブ回路上に集積したマイクロ波-光変換プラットフォームを提案する。 この装置は空間的に拡張され、サイドバンドで解決された機械式呼吸モードを$\sim$3.2 GHzで利用し、真空オプトメカニカルカップリングレートは最大$g_0/2\pi \approx$ 300 kHzである。 機械モードは逆圧電効果を介して集積マイクロ波電極によって駆動される。 我々は,超伝導トランスモン量子ビットの200kHzの電気機械的結合率を達成することができると推定した。 我々の研究は、圧電-オプトメカニカル界面と超伝導量子プロセッサの統合に向けた決定的な一歩である。

Electrically actuated optomechanical resonators provide a route to quantum-coherent, bidirectional conversion of microwave and optical photons. Such devices could enable optical interconnection of quantum computers based on qubits operating at microwave frequencies. Here we present a novel platform for microwave-to-optical conversion comprising a photonic crystal cavity made of single-crystal, piezoelectric gallium phosphide integrated on pre-fabricated niobium circuits on an intrinsic silicon substrate. The devices exploit spatially extended, sideband-resolved mechanical breathing modes at $\sim$ 3.2 GHz, with vacuum optomechanical coupling rates of up to $g_0/2\pi \approx$ 300 kHz. The mechanical modes are driven by integrated microwave electrodes via the inverse piezoelectric effect. We estimate that the system could achieve an electromechanical coupling rate to a superconducting transmon qubit of $\sim$ 200 kHz. Our work represents a decisive step towards integration of piezoelectro-optomechanical interfaces with superconducting quantum processors.
翻訳日:2023-03-29 07:16:02 公開日:2021-05-27
# 強結合限界における共鳴光間相互作用のコヒーレンス

Coherence of resonant light-matter interaction in the strong-coupling limit ( http://arxiv.org/abs/2105.13112v1 )

ライセンス: Link先を確認
Th. K. Mavrogordatos(参考訳) 共振によって駆動される散逸性Jaynes-Cummings発振器の強結合限界における量子揺らぎの役割について検討する。 弱い励起のために、コヒーレント駆動キャビティモードに結合した2状態原子によって散乱された光子のスペクトルの解析式と強度相関関数を導出した。 我々は, [h] に導入された方法に従って, 純状態因子化を超越するために必要な励起強度に高い秩序を付加する生死過程を記述する。 J. Carmichael, {\it Statistical Methods in Quantum Optics 2}, Springer, 2008 Sec. 16.3.4] 第1次相関関数と第2次相関関数の結果は、光子放射指向横方向の待ち時間分布の数値的研究と通常の共鳴蛍光との比較によって補完される。 この議論を締めくくるために, 駆動場振幅を増加させ, 有限系の大きさのキャビティ内電界分布の励起経路を記述することにより, 2次散逸量子相転移を組織する臨界点に接近する。

We explore the role of quantum fluctuations in the strong-coupling limit of the dissipative Jaynes-Cummings oscillator driven on resonance. For weak excitation, we derive analytical expressions for the spectrum and the intensity correlation function for the photons scattered by the two-state atom coupled to the coherently driven cavity mode. We do so by writing down a birth-death process adding the higher orders in the excitation strength needed to go beyond the pure-state factorization, following the method introduced in [H. J. Carmichael, {\it Statistical Methods in Quantum Optics 2}, Springer, 2008, Sec. 16.3.4]. Our results for the first and second-order correlation functions are complemented by the numerical investigation of the waiting-time distribution for the photon emissions directed sideways, and the comparison with ordinary resonance fluorescence. To close out our discussion, we increase the driving field amplitude and approach the critical point organizing a second-order dissipative quantum phase transition by depicting the excitation pathways in the intracavity field distribution for a finite system size.
翻訳日:2023-03-29 07:15:04 公開日:2021-05-27
# ロボット脳ストーム最適化:Swarm Roboticsのための多目的協調探索パラダイム

Robotic Brain Storm Optimization: A Multi-target Collaborative Searching Paradigm for Swarm Robotics ( http://arxiv.org/abs/2105.13108v1 )

ライセンス: Link先を確認
Jian Yang and Yuhui Shi(参考訳) swarm intelligence optimizationアルゴリズムは、ターゲット信号強度を適合値として扱うことで、2次元または3次元空間におけるターゲット探索タスクにswarm roboticsで採用することができる。 文学における現在の多くの研究は、単一ターゲット探索問題において優れた成果を上げている。 しかし、探索すべき環境に複数の目標が存在する場合、多くの群集知能に基づく手法が特定の場所に早期に収束し、環境をさらに探索することは不可能である。 brain storm optimization (bso) アルゴリズムは、人間の集団を模倣して問題解決を行う。 一連のガイド付き探索は、最終的に特定の最適化問題に対して比較的最適な解が得られる。 さらに、適切なクラスタリング操作により、より優れたマルチモーダル最適化性能、すなわち、目的空間に複数の最適化を見出すことができる。 本稿では,ロボット群れのメンバを環境とロボットの制約の下でアルゴリズムの個人とマッチングすることにより,ロボット群ロボットのためのbsoベースの協調探索フレームワークであるrobotic bsoを提案する。 シミュレーションの結果,提案手法はbsoの誘導探索特性をシミュレートでき,swarm roboticsのマルチターゲット探索問題に対して優れた可能性を示した。

Swarm intelligence optimization algorithms can be adopted in swarm robotics for target searching tasks in a 2-D or 3-D space by treating the target signal strength as fitness values. Many current works in the literature have achieved good performance in single-target search problems. However, when there are multiple targets in an environment to be searched, many swarm intelligence-based methods may converge to specific locations prematurely, making it impossible to explore the environment further. The Brain Storm Optimization (BSO) algorithm imitates a group of humans in solving problems collectively. A series of guided searches can finally obtain a relatively optimal solution for particular optimization problems. Furthermore, with a suitable clustering operation, it has better multi-modal optimization performance, i.e., it can find multiple optima in the objective space. By matching the members in a robotic swarm to the individuals in the algorithm under both environments and robots constraints, this paper proposes a BSO-based collaborative searching framework for swarm robotics called Robotic BSO. The simulation results show that the proposed method can simulate the BSO's guided search characteristics and has an excellent prospect for multi-target searching problems for swarm robotics.
翻訳日:2023-03-29 07:14:41 公開日:2021-05-27
# ハード整数値問題に対する量子平均値近似器

Quantum mean value approximator for hard integer value problems ( http://arxiv.org/abs/2105.13106v1 )

ライセンス: Link先を確認
David Joseph, Antonio J. Martinez, Cong Ling, Florian Mintert(参考訳) 量子回路の期待評価は、量子平均値問題(qmv)として知られる古典的な難しい問題である。 量子近似最適化アルゴリズムや他の変分量子固有解法を最適化するために用いられる。 このような最適化は、正確な期待よりも近似を用いて大幅に改善できることを示す。 効率的な古典的サンプリングアルゴリズムとともに、最小ゲート数を持つ量子アルゴリズムは、この研究で研究された最短ベクトル問題(SVP)のような一般的な整数値問題の効率を向上させることができる。

Evaluating the expectation of a quantum circuit is a classically difficult problem known as the quantum mean value problem (QMV). It is used to optimize the quantum approximate optimization algorithm and other variational quantum eigensolvers. We show that such an optimization can be improved substantially by using an approximation rather than the exact expectation. Together with efficient classical sampling algorithms, a quantum algorithm with minimal gate count can thus improve the efficiency of general integer-value problems, such as the shortest vector problem (SVP) investigated in this work.
翻訳日:2023-03-29 07:14:23 公開日:2021-05-27
# マルチモーダル最適化問題に対する注意方向脳ストーム最適化

Attention-oriented Brain Storm Optimization for Multimodal Optimization Problems ( http://arxiv.org/abs/2105.13095v1 )

ライセンス: Link先を確認
Jian Yang and Yuhui Shi(参考訳) 集団に基づく手法はしばしばマルチモーダル最適化問題を解くために用いられる。 ニッチやクラスタリングの戦略を組み合わせることで、最先端のアプローチは一般に集団をいくつかのサブ集団に分割し、問題に対する複数の解決策を見つける。 しかし、これらの手法は、イテレーション中の適合度値のみに導かれ、亜集団の数、すなわちニッチな領域やクラスタの数を決定するのに苦しむ。 本稿では,この欠点を補うために,比較的新しいswarm intelligenceアルゴリズム,すなわちブレインストーム最適化(bso)に注意機構を導入する注意指向ブレインストーム最適化(abso)手法を提案する。 目標空間をフィットネス空間から「アテンション」空間に変換することにより、個人は正当値に従ってクラスタ化され、反復的に更新される。 提案手法は,単一の大域的最適解に収束する代わりに,探索手順を複数の「安定解」に収束させるように導くことができる。 予備結果は,提案手法が複数のマルチモーダルベンチマーク関数の多元的最適解と局所最適解を探索できることを示す。 提案手法は,問題の事前知識を少なくし,アテンション機構によって導かれる複数の最適化に自動的に収束し,さらなる発展の可能性が期待できる。

Population-based methods are often used to solve multimodal optimization problems. By combining niching or clustering strategy, the state-of-the-art approaches generally divide the population into several subpopulations to find multiple solutions for a problem at hand. However, these methods only guided by the fitness value during iterations, which are suffering from determining the number of subpopulations, i.e., the number of niche areas or clusters. To compensate for this drawback, this paper presents an Attention-oriented Brain Storm Optimization (ABSO) method that introduces the attention mechanism into a relatively new swarm intelligence algorithm, i.e., Brain Storm Optimization (BSO). By converting the objective space from the fitness space into "attention" space, the individuals are clustered and updated iteratively according to their salient values. Rather than converge to a single global optimum, the proposed method can guide the search procedure to converge to multiple "salient" solutions. The preliminary results show that the proposed method can locate multiple global and local optimal solutions of several multimodal benchmark functions. The proposed method needs less prior knowledge of the problem and can automatically converge to multiple optimums guided by the attention mechanism, which has excellent potential for further development.
翻訳日:2023-03-29 07:14:14 公開日:2021-05-27
# 相互作用パラメータの分数値を持つクーロン遷移行列

Coulomb transition matrix with fractional values of interaction parameter ( http://arxiv.org/abs/2105.13092v1 )

ライセンス: Link先を確認
V.F. Kharchenko(参考訳) 4次元運動量空間におけるクーロン相互作用ポテンシャルの特定のフォック対称性に基づき、相互作用パラメータの分数値における負エネルギーの場合のクーロン遷移行列に対するリップマン・シュウィンガー方程式の解析解を実行する。 相互作用パラメータの最も単純な派閥値を持つ3次元および部分クーロン遷移行列の解析式を得る。

Leaning upon the specific Fock symmetry of the Coulomb interaction potential in the four-dimensional momentum space we perform the analytical solution of the Lippman-Schwinger equation for the Coulomb transition matrix in the case of negative energy at fraction values of the interaction parameter. Analytical expressions for the three dimensional and partial Coulomb transition matrix with simplest factional values of the interaction parameter are obtained.
翻訳日:2023-03-29 07:13:51 公開日:2021-05-27
# イスタンブール条約に対するオンライン偽情報キャンペーンの戦術的改ざん

Tactical Reframing of Online Disinformation Campaigns Against The Istanbul Convention ( http://arxiv.org/abs/2105.13398v1 )

ライセンス: Link先を確認
Tu\u{g}rulcan Elmas, Rebekah Overdorf, Karl Aberer(参考訳) 2021年3月、トルコは女性に対する暴力に対処する人権条約であるイスタンブール条約(英語版)から離脱し、この条約が性的・性的マイノリティを暗黙的に認めている問題を引用した。 この研究では、イスタンブール条約と、離婚した男性のfacebookグループで流通するトルコ法に関連する偽情報キャンペーンを追跡する。 これらのグループは、キャンペーンの物語と焦点を調整し、より大きな聴衆にアピールし、「戦術的リフレーミング(tactical reframing)」と呼ぶ。 当初、男たちはトルコの法律に反対する草の根的なやり方で組織され、条約を成文化するために可決され、一方的な子どもの保護と無期限の無罪に焦点が当てられた。 その後、彼らは選挙運動を再編成し、同性愛を認めてイスタンブール会議を攻撃し始めた。 このケーススタディは、女性の権利を制限するために、偽情報キャンペーンがホモフォビアを武器化する方法について強調する。 我々の知る限りでは、ソーシャルメディア上での偽情報キャンペーンの文脈における物語のリフレーミングを分析する最初のケーススタディである。

In March 2021, Turkey withdrew from The Istanbul Convention, a human-rights treaty that addresses violence against women, citing issues with the convention's implicit recognition of sexual and gender minorities. In this work, we trace disinformation campaigns related to the Istanbul Convention and its associated Turkish law that circulate on divorced men's rights Facebook groups. We find that these groups adjusted the narrative and focus of the campaigns to appeal to a larger audience, which we refer to as "tactical reframing." Initially, the men organized in a grass-roots manner to campaign against the Turkish law that was passed to codify the convention, focusing on one-sided custody of children and indefinite alimony. Later, they reframed their campaign and began attacking the Istanbul Convention, highlighting its acknowledgment of homosexuality. This case study highlights how disinformation campaigns can be used to weaponize homophobia in order to limit the rights of women. To the best of our knowledge, this is the first case study that analyzes a narrative reframing in the context of a disinformation campaign on social media.
翻訳日:2023-03-29 07:06:26 公開日:2021-05-27
# 結合パラメトリック発振器の光子と光子付加インテリジェント状態

Photon and Photon-Added Intelligent States of Coupled Parametric Oscillators ( http://arxiv.org/abs/2105.13386v1 )

ライセンス: Link先を確認
A.E. Neira and R. Mulet(参考訳) 本稿では,そのパラメータを周期的に励起した結合振動子の量子系について検討する。 Floquet-Lyapunov理論を用いて、系の運動の線型積分を導出し、それらの共分散行列を標準可観測関数のそれと関連付ける。 作用素積分は、システムの知的(最小の不確かさ)状態と対応する光子付加状態を構築することができる。 これらの状態の波動関数、ウィグナー関数、共分散行列に対する明示的な表現を見出した。

We study a quantum system of coupled oscillators subject to a periodic excitation of its parameters. Using Floquet-Lyapunov theory we derive the linear integrals of motion of the system and relate their covariance matrix to that for the canonical observables. The operator integrals allows us to construct the intelligent (minimum uncertainty) states of the system and the corresponding photon-added states. We found explicit expressions for the wavefunction, Wigner function and covariance matrix of these states.
翻訳日:2023-03-29 07:06:07 公開日:2021-05-27
# カラーセンターとファイバーカップリングのためのダイヤモンド反転ナノコーンの最適化

Optimized diamond inverted nanocones for enhanced color center to fiber coupling ( http://arxiv.org/abs/2105.13333v1 )

ライセンス: Link先を確認
Cem G\"uney Torun, Philipp-Immanuel Schneider, Martin Hammerschmidt, Sven Burger, Joseph H.D. Munns, and Tim Schr\"oder(参考訳) ナノ構造はダイヤモンド中の色中心の光アウトカップリングを促進するために用いられるが、これらのナノ構造の繊維結合性能はめったに研究されていない。 本稿では,反転ナノコーン中の色中心からの放射と,この放射と単一モードファイバの伝搬モードとの重なりを有限要素法で計算する。 逆転したナノコーンパラメータは異なる値を用いて最適化され、最大繊維結合効率、自由空間収集効率、速度向上が得られる。 最適化されたナノコーンの設計は66%のファイバーカップリングまたは83%のフリースペースカップリング効率で619nmのスズ空白中心ゼロフォノン線波長で有望な結果を示している。 さらに, 広帯域性能を評価した場合, ファイバーカップリングとフリースペース効率をそれぞれ55%, 76%で評価し, 室温で全スズ空室発光スペクトルを収集した。 製造不感性の解析は、これらのナノ構造が不完全性に対して堅牢であることを示している。 ファイバモードへの最大エミッションレートについては、パーセル係数が2.34である設計が特定される。 最後に、2つの異なる材料にパターニングして形成されるハイブリッド型反転ナノコーンによる改善の可能性について検討し、達成可能なファイバーカップリング効率を71%に向上させる。

Nanostructures can be used for boosting the light outcoupling of color centers in diamond; however, the fiber coupling performance of these nanostructures is rarely investigated. Here, we use a finite element method for computing the emission from color centers in inverted nanocones and the overlap of this emission with the propagation mode in a single-mode fiber. Using different figures of merit, the inverted nanocone parameters are optimized to obtain maximal fiber coupling efficiency, free-space collection efficiency, or rate enhancement. The optimized inverted nanocone designs show promising results with 66% fiber coupling or 83% free-space coupling efficiency at the tin-vacancy center zero-phonon line wavelength of 619 nm. Moreover, when evaluated for broadband performance, the optimized designs show 55% and 76% for fiber coupling and free-space efficiencies respectively, for collecting the full tin-vacancy emission spectrum at room temperature. An analysis of fabrication insensitivity indicates that these nanostructures are robust against imperfections. For maximum emission rate into a fiber mode, a design with a Purcell factor of 2.34 is identified. Finally, possible improvements offered by a hybrid inverted nanocone, formed by patterning into two different materials, are investigated, and increases the achievable fiber coupling efficiency to 71%.
翻訳日:2023-03-29 07:05:11 公開日:2021-05-27
# 新しいパラメータ領域を持つ超電導カプラ構造における高忠実二ビットゲートの実装

Implementing High-fidelity Two-Qubit Gates in Superconducting Coupler Architecture with Novel Parameter Regions ( http://arxiv.org/abs/2105.13306v1 )

ライセンス: Link先を確認
Lijing Jin(参考訳) カプラアーキテクチャを持つ超伝導回路は、チューニング性とスケーラビリティの優位性からかなりの注目を集めている。 誤りの少ないシングルキュービットゲートは達成されているが、カプラアーキテクチャにおける高忠実度2キュービットゲートはいまだに困難である。 本稿では, ゲートエラー源の検討に特に注目し, 系統的効果的なハミルトニアンアプローチを用いて, zzパラシティックカップリングの物理機構を主に研究する。 実効ハミルトニアンから恩恵を受け、数値的および実験的観点から以前に研究されたZZ寄生結合の単純かつ直接的な洞察を提供する。 その結果、zzパラシティックカップリングを除去できる正確な定量的条件が得られ、高い忠実度2量子ビットゲートが期待できる4つの新しい実現可能なパラメータ領域が引き起こされた。 数値シミュレーションの他に、キュービットエネルギー緩和効果とZZパラサイト結合のトレードオフ効果が理解され、その結果の2キュービットゲート誤差を簡単に推定できる2キュービットゲート誤差の単純な解析結果の駆動にも成功している。 本研究は,超伝導カプラアーキテクチャにおける高忠実度2量子ゲートを実現する新たな機会を開くものである。

Superconducting circuits with coupler architecture receive considerable attention due to their advantages in tunability and scalability. Although single-qubit gates with low error have been achieved, high-fidelity two-qubit gates in coupler architecture are still challenging. This paper pays special attention to examining the gate error sources and primarily concentrates on the related physical mechanism of ZZ parasitic couplings using a systematic effective Hamiltonian approach. Benefiting from the effective Hamiltonian, we provide simple and straightforward insight into the ZZ parasitic couplings that were investigated previously from numerical and experimental perspectives. The analytical results obtained provide exact quantitative conditions for eliminating ZZ parasitic couplings, and trigger four novel realizable parameter regions in which higher fidelity two-qubit gates are expected. Beyond the numerical simulation, we also successfully drive a simple analytical result of the two-qubit gate error from which the trade-off effect between qubit energy relaxation effects and ZZ parasitic couplings is understood, and the resulting two-qubit gate error can be estimated straightforwardly. Our study opens up new opportunities to implement high-fidelity two-qubit gates in superconducting coupler architecture.
翻訳日:2023-03-29 07:04:48 公開日:2021-05-27
# スマートフォンとスマートウォッチを用いた直感的・ユビキタスフィーバーモニタリング

Intuitive and Ubiquitous Fever Monitoring Using Smartphones and Smartwatches ( http://arxiv.org/abs/2106.11855v1 )

ライセンス: Link先を確認
Joseph Breda, Shwetak Patel(参考訳) スマートフォンやスマートウォッチなどのすべてのスマートデバイスの中には、サーミスタとして知られる熱に敏感な抵抗器があり、デバイスの温度をモニターする。 これらのサーミスタは、デバイス上の位置付近の温度変化に敏感である。 バッテリーなどのデバイスコンポーネントの温度を測定するように設計されているが、周囲の環境やデバイスとの接触時の温度の変化を感知することもできる。 我々は,ユーザがスマートデバイスの静電容量タッチスクリーンを額などの身体の温熱部位に設置するユーザインタラクションにおいて,これらのサーミスタが感知する信号からコア体温を推定するモデルを開発した。 相互作用の間、この装置は、サーミスタが感知した温度と、タッチスクリーンで見る生容量とを記録し、それぞれ、体からデバイスへの熱伝達率と、デバイスと皮膚との接触率を記述する特徴をキャプチャする。 これらの温度と接触特性は、ユーザの身体からデバイスに伝達される熱の速度をモデル化するために使用され、スマートデバイスのみを使用して、ユビキタスでアクセス可能なフィーバーモニタリングのためにユーザーのコアボディ温度をモデル化する。 温度推定値が 0.743$^{\circ}$f (約 0.4$^{\circ}$c) と、市販の周辺温度計や鼓膜温度計に匹敵する$\pm2.374^{\circ}$f (約 1.3$^{\circ}$c) の限界を持つ皮膚のような熱源を用いて、実験環境でこのシステムを検証した。 その結果,本システムで推定される地中真理温度と温度の間に,ピアソンの相関値である$r^2$ 0.837 が得られた。 また, シミュレーションと臨床の類似性を示すために, 臨床環境における7人の被験者を対象に, 実施中の臨床研究に本システムを投入した。

Inside all smart devices, such as smartphones or smartwatches, there are thermally sensitive resistors known as thermistors which are used to monitor the temperature of the device. These thermistors are sensitive to temperature changes near their location on-device. While they are designed to measure the temperature of the device components such as the battery, they can also sense changes in the temperature of the ambient environment or thermal entities in contact with the device. We have developed a model to estimate core body temperature from signals sensed by these thermistors during a user interaction in which the user places the capacitive touchscreen of a smart device against a thermal site on their body such as their forehead. During the interaction, the device logs the temperature sensed by the thermistors as well as the raw capacitance seen by the touch screen to capture features describing the rate of heat transfer from the body to the device and device-to-skin contact respectively. These temperature and contact features are then used to model the rate of heat transferred from the user's body to the device and thus core-body temperature of the user for ubiquitous and accessible fever monitoring using only a smart device. We validate this system in a lab environment on a simulated skin-like heat source with a temperature estimate mean absolute error of 0.743$^{\circ}$F (roughly 0.4$^{\circ}$C) and limit of agreement of $\pm2.374^{\circ}$F (roughly 1.3$^{\circ}$C) which is comparable to some off-the-shelf peripheral and tympanic thermometers. We found a Pearson's correlation $R^2$ of 0.837 between ground truth temperature and temperature estimated by our system. We also deploy this system in an ongoing clinical study on a population of 7 participants in a clinical environment to show the similarity between simulated and clinical trials.
翻訳日:2023-03-29 06:57:46 公開日:2021-05-27
# ビジネストランザクションワークフローのための統合概念モデリングカーネルを目指して

Towards an Integrated Conceptual Modelling Kernel for Business Transaction Workflows ( http://arxiv.org/abs/2105.15139v1 )

ライセンス: Link先を確認
Alistair P. Barros, Arthur H.M. ter Hofstede and Henderik A. Proper(参考訳) 最近登場したcscw(computer supported collaborative work)システムとワークフローシステムを通じて普及したワークフローの概念は、ビジネスプロセスに協調と協調の側面を組み込むことで情報システム(is)実装モデルを進化させる。 従来の実装モデルでは、アプリケーションは個別の機能単位に分割され、(典型的には)ビジネスプロセスのヒューマンおよびコンピュータ化されたアクションがビジネスサービスを提供するためにどのように結合するかを記述するのに使われる。 本稿では,ビジネストランザクションのワークフローに不可欠なモデリング概念と機能について述べる。

The workflow concept, proliferated through the recently emergent computer supported cooperative work (CSCW) systems and workflow systems, advances information systems (IS) implementation models by incorporating aspects of collaboration and coordination in business processes. Under traditional implementation models, applications are partitioned into discrete units of functionality, with (typically) operational procedures used to describe how human and computerised actions of business processes combine to deliver business services. In this paper, a number of essential modelling concepts and features for business transaction workflows are developed.
翻訳日:2023-03-29 06:57:11 公開日:2021-05-27
# 量子力学における隠れ変数の不確かさのJ. von Neumannの証明の無条件妥当性について

On the Unconditional Validity of J. von Neumann's Proof of the Impossibility of Hidden Variables in Quantum Mechanics ( http://arxiv.org/abs/2105.13996v1 )

ライセンス: Link先を確認
C. S. Unnikrishnan(参考訳) 量子力学の代替として隠れ変数を持つ理論の不可能性は、1932年にJ. von Neumannによって議論された。 彼の証明は論理的に円形であると批判され、すぐにグリーテ・ヘルマンによって批判され、1964年にジョン・ベルによって根本的な欠陥があった。 ベルによるノイマンの証明に対する厳しい批判と、量子スピンの測定のための隠れ変数モデルの明示的な(数理的な)例は、多くの研究者によって、すべてではないが、ノイマンの証明が不十分であるという決定的な実証と見なされている。 数学物理学の議論であるにもかかわらず、決定の曖昧さは今日まで残っている。 ノイマンの期待値の線形加法性(英語版)(linear additivity of the expectation value)の仮定は、(非可換な)可観測性に対しても、観測可能な物理変数の性質や保存則に関連する必要制約であることを示した。 したがって、いかなる理論も必然的にそれを物理的に妥当な理論とみなすべきである。 そして、明らかにこの仮定に違反する分散フリーアンサンブルを持つ隠れ変数理論は除外される。 ベルの反例が根本的な欠陥であり、事実力学と矛盾していることを示します。 さらに、ベルの不等式が導出された局所的な隠れ変数理論は、基本的な保存法則と完全に相容れないことが示されている。 動作の本質的な不確実性は、既約分散の理由であり、任意のスケールのメカニックに分散のないアンサンブルがないことを意味する。 中心仮定の無条件の妥当性を示すと、ノイマンの証明は完全に復活する。

The impossibility of theories with hidden variables as an alternative and replacement for quantum mechanics was discussed by J. von Neumann in 1932. His proof was criticized as being logically circular, by Grete Hermann soon after, and as fundamentally flawed, by John Bell in 1964. Bell's severe criticism of Neumann's proof and the explicit (counter) example of a hidden variable model for the measurement of a quantum spin are considered by most researchers, though not all, as the definitive demonstration that Neumann's proof is inadequate. Despite being an argument of mathematical physics, an ambiguity of decision remains to this day. I show that Neumann's assumption of the linear additivity of the expectation values, even for incompatible (noncommuting) observables, is a necessary constraint related to the nature of observable physical variables and to the conservation laws. Therefore, any theory should necessarily obey it to qualify as a physically valid theory. Then, obviously, the hidden variable theories with dispersion-free ensembles that violate this assumption are ruled out. I show that it is Bell's counter-example that is fundamentally flawed, being inconsistent with the factual mechanics. Further, it is shown that the local hidden variable theories, for which the Bell's inequalities were derived, are grossly incompatible with the fundamental conservation laws. I identify the intrinsic uncertainty in the action as the reason for the irreducible dispersion, which implies that there are no dispersion-free ensembles at any scale of mechanics. With the unconditional validity of its central assumption shown, Neumann's proof is fully resurrected.
翻訳日:2023-03-29 06:56:48 公開日:2021-05-27
# 都市シミュレーションモデルの統合と検証

Integrating and validating urban simulation models ( http://arxiv.org/abs/2105.13490v1 )

ライセンス: Link先を確認
Juste Raimbault(参考訳) 都市システムは本質的に複雑であり、様々な次元と規模を巻き込み、様々なアプローチと科学的規律を伴っている。 この文脈において、都市シミュレーションモデルは、エビデンスに基づく統合都市科学の構築に欠かせないものとなっている。 本稿では, 都市モデルとの結合と統合に着目し, シミュレーションモデルの探索と検証に焦点をあてた先行研究の概観と位置決めを行った。 これらの研究の方向性は、持続可能な地域計画へのいくつかの応用の観点から、統合都市理論の開発に向けた研究プログラムの補完的な基礎である。

Urban systems are intrinsically complex, involving different dimensions and scales, and consequently various approaches and scientific disciplines. In that context, urban simulation models have been coined as essential for the construction of evidence-based and integrated urban sciences. This review and position paper synthesises previous work focused on coupling and integrating urban models on the one hand, and exploring and validating such simulation models on the other hand. These research directions are complementary basis for a research program towards the development of integrated urban theories, with some application perspectives to sustainable territorial planning.
翻訳日:2023-03-29 06:55:39 公開日:2021-05-27
# FAT-GAN(Feature-Augmented and Transformed Generative Adversarial Network)による電子プロトン散乱現象のシミュレーション

Simulation of electron-proton scattering events by a Feature-Augmented and Transformed Generative Adversarial Network (FAT-GAN) ( http://arxiv.org/abs/2001.11103v2 )

ライセンス: Link先を確認
Yasir Alanazi, N. Sato, Tianbo Liu, W. Melnitchouk, Pawel Ambrozewicz, Florian Hauenstein, Michelle P. Kuchera, Evan Pritchard, Michael Robertson, Ryan Strauss, Luisa Velasco, Yaohang Li(参考訳) 我々は,電子-陽子散乱における粒子生成をシミュレートする事象発生器を構築するためにgan技術を適用する。 GANイベントシミュレータを効率的に訓練することの難しさは、粒子物性の分布の複雑なパターンを学習することにある。 生成器によって容易に生成できる粒子モーメントから変換された特徴のセットを選択するganを開発し、これらを用いて識別器の感度を向上させる拡張特徴のセットを作成する。 新しいFeature-Augmented and Transformed GAN (FAT-GAN)は、ドメインベースの理論的仮定から入力されることなく、包括的電子散乱における最終状態電子モーメントの分布を忠実に再現することができる。 この技術は、Electron-Ion Colliderのような既存の加速器施設や将来の加速器施設の科学を強化する上で重要な役割を果たす。

We apply generative adversarial network (GAN) technology to build an event generator that simulates particle production in electron-proton scattering that is free of theoretical assumptions about underlying particle dynamics. The difficulty of efficiently training a GAN event simulator lies in learning the complicated patterns of the distributions of the particles physical properties. We develop a GAN that selects a set of transformed features from particle momenta that can be generated easily by the generator, and uses these to produce a set of augmented features that improve the sensitivity of the discriminator. The new Feature-Augmented and Transformed GAN (FAT-GAN) is able to faithfully reproduce the distribution of final state electron momenta in inclusive electron scattering, without the need for input derived from domain-based theoretical assumptions. The developed technology can play a significant role in boosting the science of existing and future accelerator facilities, such as the Electron-Ion Collider.
翻訳日:2023-01-05 21:03:33 公開日:2021-05-27
# 割引mdpに対する後悔の限界

Regret Bounds for Discounted MDPs ( http://arxiv.org/abs/2002.05138v3 )

ライセンス: Link先を確認
Shuang Liu and Hao Su(参考訳) 強化学習(rl)は伝統的にエピソドックス的な視点から理解されており、再始動がなく信頼性の高い回復が得られない非緩和学習の概念はいまだに解明されていない。 非エポゾディックRLの基本的な問題は、学習者のパフォーマンスをどうやって測定し、そのような性能を最大化するアルゴリズムを導出するかである。 従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。 本稿では,総時間予算が環境の複雑さと比較して比較的限られている場合,学習者の有限時間最適性を反映しない可能性について考察する。 我々は「\gamma$-regret」と呼ばれる有限時間最適性をよりよく捉えた測度の族を提案する。 我々はモチベーションを与え、そのような措置の上下境界を導出する。 注: 後続の作業 (arXiv: 2010.00587) は下界と上界の両方を改善し、ギャップは $\tilde{\Theta}\left(\frac{\sqrt{SAT}}{(1 - \gamma)^{\frac{1}{2}}}\right)$ で閉じられる。

Reinforcement learning (RL) has traditionally been understood from an episodic perspective; the concept of non-episodic RL, where there is no restart and therefore no reliable recovery, remains elusive. A fundamental question in non-episodic RL is how to measure the performance of a learner and derive algorithms to maximize such performance. Conventional wisdom is to maximize the difference between the average reward received by the learner and the maximal long-term average reward. In this paper, we argue that if the total time budget is relatively limited compared to the complexity of the environment, such comparison may fail to reflect the finite-time optimality of the learner. We propose a family of measures, called $\gamma$-regret, which we believe to better capture the finite-time optimality. We give motivations and derive lower and upper bounds for such measures. Note: A follow-up work (arXiv:2010.00587) has improved both our lower and upper bound, the gap is now closed at $\tilde{\Theta}\left(\frac{\sqrt{SAT}}{(1 - \gamma)^{\frac{1}{2}}}\right)$.
翻訳日:2023-01-01 19:20:51 公開日:2021-05-27
# 知識グラフ補完のためのリレーショナルメッセージパッシング

Relational Message Passing for Knowledge Graph Completion ( http://arxiv.org/abs/2002.06757v2 )

ライセンス: Link先を確認
Hongwei Wang, Hongyu Ren, Jure Leskovec(参考訳) 知識グラフ補完は、知識グラフ内のエンティティ間の欠落の関係を予測することを目的としている。 本研究では,知識グラフ補完のためのリレーショナルメッセージパッシング手法を提案する。 既存の埋め込みベースメソッドと異なり、リレーショナルメッセージパッシングは知識グラフにエンティティidを含まないエッジ機能(すなわちリレーショナルタイプ)のみを考慮し、リレーショナルメッセージをエッジ間で反復的に渡すことで周辺情報を集約する。 具体的には、リレーショナルメッセージパッシングフレームワークの下で、与えられたエンティティペアに対して、2種類の近傍トポロジーをモデル化する。(1) 与えられたエンティティペアに隣接するエッジの関係型をキャプチャするリレーショナルコンテキスト、(2) 知識グラフにおける与えられた2つのエンティティ間の相対的な位置を特徴付けるリレーショナルパス。 2つのメッセージパッシングモジュールは、関係予測のために結合される。 ナレッジグラフベンチマークおよび新たに提案するデータセットを用いた実験結果から,提案手法が最先端ナレッジグラフ補完手法を大差で上回ることがわかった。 PathConは、トレーニング段階でエンティティが見えないインダクティブな設定にも適用でき、予測された結果に対して解釈可能な説明を提供することができる。 コードとデータセットはすべて、https://github.com/hwwang55/pathconで入手できる。

Knowledge graph completion aims to predict missing relations between entities in a knowledge graph. In this work, we propose a relational message passing method for knowledge graph completion. Different from existing embedding-based methods, relational message passing only considers edge features (i.e., relation types) without entity IDs in the knowledge graph, and passes relational messages among edges iteratively to aggregate neighborhood information. Specifically, two kinds of neighborhood topology are modeled for a given entity pair under the relational message passing framework: (1) Relational context, which captures the relation types of edges adjacent to the given entity pair; (2) Relational paths, which characterize the relative position between the given two entities in the knowledge graph. The two message passing modules are combined together for relation prediction. Experimental results on knowledge graph benchmarks as well as our newly proposed dataset show that, our method PathCon outperforms state-of-the-art knowledge graph completion methods by a large margin. PathCon is also shown applicable to inductive settings where entities are not seen in training stage, and it is able to provide interpretable explanations for the predicted results. The code and all datasets are available at https://github.com/hwwang55/PathCon.
翻訳日:2022-12-31 11:59:42 公開日:2021-05-27
# アンサンブル逆学習による自然言語推論における仮説のみバイアスの回避

Avoiding the Hypothesis-Only Bias in Natural Language Inference via Ensemble Adversarial Training ( http://arxiv.org/abs/2004.07790v5 )

ライセンス: Link先を確認
Joe Stacey, Pasquale Minervini, Haim Dubossarsky, Sebastian Riedel, Tim Rockt\"aschel(参考訳) 自然言語推論(NLI)データセットにはアノテーションアーティファクトが含まれており、自然言語の発声とそれぞれの含意クラスの間に急激な相関関係が生じる。 これらの人工物は仮説や前提を無視しただけでニューラルネットワークによって利用され、望ましくないバイアスをもたらす。 Belinkov et al. (2019b) は敵対的な訓練を通じてこの問題に取り組むことを提案したが、それでも同じバイアスに悩まされる文表現の学習につながる可能性がある。 本研究は, 文表現において, 敵のアンサンブルを用いてバイアスを低減できることを示し, データを適合させながら, 異なる敵の精度を両立させることを奨励する。 このアプローチはより堅牢なNLIモデルを生成し、12の他のデータセット(Belinkov et al., 2019a; Mahabadi et al., 2020)に一般化された場合、以前の非バイアス処理よりも優れている。 さらに, 逆分類器の最適個数は文表現の次元に依存しており, より大きな文表現は, より多くの逆数の使用の利益を享受しながら, 脱バイアスが困難であることがわかった。

Natural Language Inference (NLI) datasets contain annotation artefacts resulting in spurious correlations between the natural language utterances and their respective entailment classes. These artefacts are exploited by neural networks even when only considering the hypothesis and ignoring the premise, leading to unwanted biases. Belinkov et al. (2019b) proposed tackling this problem via adversarial training, but this can lead to learned sentence representations that still suffer from the same biases. We show that the bias can be reduced in the sentence representations by using an ensemble of adversaries, encouraging the model to jointly decrease the accuracy of these different adversaries while fitting the data. This approach produces more robust NLI models, outperforming previous de-biasing efforts when generalised to 12 other datasets (Belinkov et al., 2019a; Mahabadi et al., 2020). In addition, we find that the optimal number of adversarial classifiers depends on the dimensionality of the sentence representations, with larger sentence representations being more difficult to de-bias while benefiting from using a greater number of adversaries.
翻訳日:2022-12-12 20:44:32 公開日:2021-05-27
# mimoチャネル推定のためのunsupervised deep unfolding

Online unsupervised deep unfolding for MIMO channel estimation ( http://arxiv.org/abs/2004.14615v4 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com), St\'ephane Paquelet (IRT b-com)(参考訳) チャネル推定はMIMOシステムでは難しい問題である。 物理モデルを使用することで問題を緩和し、伝播の物理に基づく事前情報を注入することができる。 しかし,このようなモデルは仮定を単純化し,非現実的なシステム構成を正確に把握する必要がある。本稿では,大規模mimoコンテキストにおけるチャネル推定のためのオンライン学習を行い,チャネル推定アルゴリズム(マッチング追跡)をニューラルネットワークとして展開することにより,物理モデルに柔軟性を加えることを提案する。 これにより、不完全なモデルで初期化されると、オンラインでトレーニングできる計算効率のよいニューラルネットワークが実現される。 この手法により、基地局は、個別のオフライントレーニングフェーズを必要とせずに、受信データに基づくチャネル推定アルゴリズムを自動的に修正することができ、リアルなチャネルに適用され、優れた性能を示し、完全に校正されたシステムで得られるのとほぼ同等の精度でチャネル推定エラーを発生させることができる。

Channel estimation is a difficult problem in MIMO systems. Using a physical model allows to ease the problem, injecting a priori information based on the physics of propagation. However, such models rest on simplifying assumptions and require to know precisely the system configuration, which is unrealistic.In this paper, we propose to perform online learning for channel estimation in a massive MIMO context, adding flexibility to physical models by unfolding a channel estimation algorithm (matching pursuit) as a neural network. This leads to a computationally efficient neural network that can be trained online when initialized with an imperfect model. The method allows a base station to automatically correct its channel estimation algorithm based on incoming data, without the need for a separate offline training phase.It is applied to realistic channels and shows great performance, achieving channel estimation error almost as low as one would get with a perfectly calibrated system.
翻訳日:2022-12-08 05:16:29 公開日:2021-05-27
# グラデーションに基づく説明は、androidマルウェアに対する敵意の強固さについて何か教えてくれるか?

Do Gradient-based Explanations Tell Anything About Adversarial Robustness to Android Malware? ( http://arxiv.org/abs/2005.01452v2 )

ライセンス: Link先を確認
Marco Melis, Michele Scalas, Ambra Demontis, Davide Maiorca, Battista Biggio, Giorgio Giacinto, Fabio Roli(参考訳) 機械学習アルゴリズムは、Androidマルウェアを検出できる強力な能力を示しているが、侵入機能を損なうことなく、例えば許可やシステムコールなどの小さな偽のコンポーネントを注入することで、わずかな回避攻撃によって回避することができる。 これまでの研究によると、このような攻撃に対する堅牢性を改善するために、学習アルゴリズムは少数の差別的特徴を過度に強調することを避け、代わりにコンポーネントの大規模なサブセットに依存する決定を提供するべきである。 本研究では,よりロバストなアルゴリズムを識別・選択するために,最も関連する特徴を識別することで分類器の判断を説明するために用いられる勾配に基づく帰属法について検討する。 この目的のために、説明の均一性を表す2つの異なるメトリクスと、Adversarial Robustness Metricと呼ばれる新しいコンパクトなセキュリティ対策を提案する。 2つの異なるデータセットと5つのandroidマルウェア検出のための分類アルゴリズムを用いて実験を行った結果、説明の均一性と敵対的ロバスト性の間に強い関係があることが判明した。 特に,グラデーション*インプットや統合勾配といった一般的な手法は,線形および非線形検出器の両方に適用した場合のセキュリティに強く相関するが,単純なグラデーションのようなより基本的な説明手法は,そのような分類器の頑健性に関する信頼できる情報を提供していない。

While machine-learning algorithms have demonstrated a strong ability in detecting Android malware, they can be evaded by sparse evasion attacks crafted by injecting a small set of fake components, e.g., permissions and system calls, without compromising intrusive functionality. Previous work has shown that, to improve robustness against such attacks, learning algorithms should avoid overemphasizing few discriminant features, providing instead decisions that rely upon a large subset of components. In this work, we investigate whether gradient-based attribution methods, used to explain classifiers' decisions by identifying the most relevant features, can be used to help identify and select more robust algorithms. To this end, we propose to exploit two different metrics that represent the evenness of explanations, and a new compact security measure called Adversarial Robustness Metric. Our experiments conducted on two different datasets and five classification algorithms for Android malware detection show that a strong connection exists between the uniformity of explanations and adversarial robustness. In particular, we found that popular techniques like Gradient*Input and Integrated Gradients are strongly correlated to security when applied to both linear and nonlinear detectors, while more elementary explanation techniques like the simple Gradient do not provide reliable information about the robustness of such classifiers.
翻訳日:2022-12-07 00:30:24 公開日:2021-05-27
# 高次元データの一貫性とフレキシブル選択性の推定

Consistent and Flexible Selectivity Estimation for High-Dimensional Data ( http://arxiv.org/abs/2005.09908v4 )

ライセンス: Link先を確認
Yaoshu Wang, Chuan Xiao, Jianbin Qin, Rui Mao, Onizuka Makoto, Wei Wang, Rui Zhang, Yoshiharu Ishikawa(参考訳) 選択度推定は、選択基準を満たすデータベースオブジェクトの数を推定することを目的としている。 この問題に正確かつ効率的に答えることは、密度推定、異常検出、クエリ最適化、データ統合など、多くのアプリケーションにとって不可欠である。 推定問題は、次元の呪い、異なるクエリ間の選択性の大きなばらつき、そして推定器を一貫性を持たせる必要性(すなわち、選択性はしきい値で非減少する)により、大規模な高次元データにとって特に困難である。 本稿では,任意の距離関数とクエリオブジェクトの選択曲線に適合し,出力がしきい値の非減少を保証しながら,クエリ依存の断片的線形関数を選択性推定器として学習する新しいディープラーニングモデルを提案する。 大規模データセットの精度を向上させるため、データセットを複数の非結合サブセットに分割し、それぞれにローカルモデルを構築することを提案する。 実データを用いて実験を行い,提案モデルが精度よく最先端のモデルより一貫して優れており,実際のアプリケーションに有用であることを示す。

Selectivity estimation aims at estimating the number of database objects that satisfy a selection criterion. Answering this problem accurately and efficiently is essential to many applications, such as density estimation, outlier detection, query optimization, and data integration. The estimation problem is especially challenging for large-scale high-dimensional data due to the curse of dimensionality, the large variance of selectivity across different queries, and the need to make the estimator consistent (i.e., the selectivity is non-decreasing in the threshold). We propose a new deep learning-based model that learns a query-dependent piecewise linear function as selectivity estimator, which is flexible to fit the selectivity curve of any distance function and query object, while guaranteeing that the output is non-decreasing in the threshold. To improve the accuracy for large datasets, we propose to partition the dataset into multiple disjoint subsets and build a local model on each of them. We perform experiments on real datasets and show that the proposed model consistently outperforms state-of-the-art models in accuracy in an efficient way and is useful for real applications.
翻訳日:2022-12-01 06:17:40 公開日:2021-05-27
# DeCLUTR:教師なしテキスト表現のための深層コントラスト学習

DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations ( http://arxiv.org/abs/2006.03659v4 )

ライセンス: Link先を確認
John Giorgi, Osvald Nitski, Bo Wang, Gary Bader(参考訳) 文埋め込みは多くの自然言語処理(NLP)システムにおいて重要なコンポーネントである。 単語の埋め込みと同様に、文の埋め込みは通常、大きなテキストコーパスで学習され、クラスタリングや検索などの様々な下流タスクに転送される。 単語埋め込みとは異なり、文埋め込みを学習するための最もパフォーマンスの高いソリューションはラベル付きデータを必要とし、ラベル付きデータが豊富である言語やドメインにその有用性を制限する。 本稿では,教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。 近年のディープラーニング(dml)の進歩に触発されて,ラベル付きトレーニングデータを必要としない普遍文埋め込み学習のための自己教師付き目標を慎重に設計した。 変換器に基づく言語モデルの事前学習の拡張に使用すると、ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋める。 実験では,学習した組込みの質は,学習可能なパラメータ数とラベルなしのトレーニングデータ量の両方でスケールすることが示唆された。 私たちのコードと事前学習済みモデルは公開されており、新しいドメインに簡単に適応したり、未公開のテキストを埋め込むことができます。

Sentence embeddings are an important component of many natural language processing (NLP) systems. Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval. Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant. In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations. Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data. When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders. Importantly, our experiments suggest that the quality of the learned embeddings scale with both the number of trainable parameters and the amount of unlabelled training data. Our code and pretrained models are publicly available and can be easily adapted to new domains or used to embed unseen text.
翻訳日:2022-11-25 02:51:47 公開日:2021-05-27
# ニューラルネットワークによる3D表面の整合性

Neural Splines: Fitting 3D Surfaces with Infinitely-Wide Neural Networks ( http://arxiv.org/abs/2006.13782v3 )

ライセンス: Link先を確認
Francis Williams, Matthew Trager, Joan Bruna, Denis Zorin(参考訳) 無限幅浅部ReLUネットワークから生じるランダムな特徴カーネルをベースとした3次元表面再構成技術であるNeural Splinesを提案する。 本手法は,最近のニューラルネットワークに基づく手法や広く用いられているポアソン表面再構成技術(カーネル手法の一種としても見ることができる)を上回って,最先端の結果を得る。 提案手法は単純なカーネルの定式化に基づいているため,解析が容易であり,カーネルベースの学習のために設計された一般的な技術によって加速することができる。 我々はカーネルに対して明示的な解析式を提供し、我々の定式化は高次元への立方スプライン補間の一般化と見なすことができると論じる。 特に、ニューラルスプラインに関連するRKHSノルムは滑らかな補間物に偏りがある。

We present Neural Splines, a technique for 3D surface reconstruction that is based on random feature kernels arising from infinitely-wide shallow ReLU networks. Our method achieves state-of-the-art results, outperforming recent neural network-based techniques and widely used Poisson Surface Reconstruction (which, as we demonstrate, can also be viewed as a type of kernel method). Because our approach is based on a simple kernel formulation, it is easy to analyze and can be accelerated by general techniques designed for kernel-based learning. We provide explicit analytical expressions for our kernel and argue that our formulation can be seen as a generalization of cubic spline interpolation to higher dimensions. In particular, the RKHS norm associated with Neural Splines biases toward smooth interpolants.
翻訳日:2022-11-17 13:15:49 公開日:2021-05-27
# AMBERT:多言語化による事前学習型言語モデル

AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization ( http://arxiv.org/abs/2008.11869v4 )

ライセンス: Link先を確認
Xinsong Zhang, Pengshuai Li, and Hang Li(参考訳) BERTのような事前訓練された言語モデルは、自然言語理解(NLU)において多くのタスクにおいて顕著な性能を示した。 モデルのトークンは通常、英語のような言語は単語またはサブワードであり、中国語のような言語は文字であるという意味できめ細かな粒度である。 例えば英語では、自然の語彙単位を形成する多語表現があり、粗い粒度のトークン化の使用も妥当であるようである。 実際、微粒化と粗粒化の両方のトークン化は、事前訓練された言語モデルの学習に利点と欠点がある。 本稿では,細粒度および粗粒度の両方のトークン化に基づいて,AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習言語モデルを提案する。 英語では、アンバートは単語のシーケンス(きめ細かいトークン)とフレーズのシーケンス(細かなトークン)の両方をトークン化の後に入力し、単語のシーケンスを処理する1つのエンコーダと、フレーズのシーケンスを処理する他のエンコーダを使用し、2つのエンコーダ間の共有パラメータを利用し、最後に、単語のコンテキスト化された表現のシーケンスと句の文脈化された表現のシーケンスを作成する。 CLUE、GLUE、SQuAD、RACEなど、中国語と英語のベンチマークデータセットで実験が行われた。 その結果、AMBERTはBERTよりも優れており、特に中国語では改善が重要であることがわかった。 また,推定におけるAMBERTの効率を向上する手法を開発し,BERTと同等の計算コストでBERTよりも優れた性能を示す。

Pre-trained language models such as BERT have exhibited remarkable performances in many tasks in natural language understanding (NLU). The tokens in the models are usually fine-grained in the sense that for languages like English they are words or sub-words and for languages like Chinese they are characters. In English, for example, there are multi-word expressions which form natural lexical units and thus the use of coarse-grained tokenization also appears to be reasonable. In fact, both fine-grained and coarse-grained tokenizations have advantages and disadvantages for learning of pre-trained language models. In this paper, we propose a novel pre-trained language model, referred to as AMBERT (A Multi-grained BERT), on the basis of both fine-grained and coarse-grained tokenizations. For English, AMBERT takes both the sequence of words (fine-grained tokens) and the sequence of phrases (coarse-grained tokens) as input after tokenization, employs one encoder for processing the sequence of words and the other encoder for processing the sequence of the phrases, utilizes shared parameters between the two encoders, and finally creates a sequence of contextualized representations of the words and a sequence of contextualized representations of the phrases. Experiments have been conducted on benchmark datasets for Chinese and English, including CLUE, GLUE, SQuAD and RACE. The results show that AMBERT can outperform BERT in all cases, particularly the improvements are significant for Chinese. We also develop a method to improve the efficiency of AMBERT in inference, which still performs better than BERT with the same computational cost as BERT.
翻訳日:2022-10-24 07:08:43 公開日:2021-05-27
# 連続強化学習のためのモデルベース確率値勾配について

On the model-based stochastic value gradient for continuous reinforcement learning ( http://arxiv.org/abs/2008.12775v3 )

ライセンス: Link先を確認
Brandon Amos, Samuel Stanton, Denis Yarats, Andrew Gordon Wilson(参考訳) 10年以上にわたり、モデルベースの強化学習は、強化学習エージェントのサンプル効率を改善するために制御ベースのドメイン知識を活用する方法と見なされてきた。 モデルベースエージェントは概念的に魅力的だが、そのポリシーは最終的な報酬、特に非自明な環境ではモデルフリーエージェントよりも遅れやすい。 これに対し、研究者は確率力学モデルのアンサンブルからモデル誤差を緩和するためのヒューリスティックスまで、ますます複雑な成分を持つモデルベースエージェントを提案した。 この傾向の逆転として、単純なモデルベースのエージェントは、サンプル効率と最終報酬の両方の観点から、既存のアイデアとマッチするだけでなく、最先端のモデルフリーエージェントよりも優れています。 政策評価のためのモデルフリーなソフト価値推定と、政策改善のためのモデルベース確率的価値勾配は効果的な組み合わせであり、ほとんどのモデルベースエージェントでは解決できない高次元ヒューマノイド制御タスクで最先端の結果が得られる。 以上の結果から,モデルに基づく政策評価が注目に値することが示唆された。

For over a decade, model-based reinforcement learning has been seen as a way to leverage control-based domain knowledge to improve the sample-efficiency of reinforcement learning agents. While model-based agents are conceptually appealing, their policies tend to lag behind those of model-free agents in terms of final reward, especially in non-trivial environments. In response, researchers have proposed model-based agents with increasingly complex components, from ensembles of probabilistic dynamics models, to heuristics for mitigating model error. In a reversal of this trend, we show that simple model-based agents can be derived from existing ideas that not only match, but outperform state-of-the-art model-free agents in terms of both sample-efficiency and final reward. We find that a model-free soft value estimate for policy evaluation and a model-based stochastic value gradient for policy improvement is an effective combination, achieving state-of-the-art results on a high-dimensional humanoid control task, which most model-based agents are unable to solve. Our findings suggest that model-based policy evaluation deserves closer attention.
翻訳日:2022-10-24 01:21:07 公開日:2021-05-27
# センサ・ツー・ビジョン動作認識のためのセマンティクス・アウェア適応知識蒸留

Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition ( http://arxiv.org/abs/2009.00210v5 )

ライセンス: Link先を確認
Yang Liu, Keze Wang, Guanbin Li, Liang Lin(参考訳) 既存の視覚ベースの行動認識は、咬合や外観の変化に影響を受けやすいが、ウェアラブルセンサーは人間の動きを1次元の時系列信号で捉えることで、これらの課題を軽減できる。 同じアクションのために、視覚センサーとウェアラブルセンサーから学んだ知識は、関連して補完的かもしれない。 しかし、ウェアラブルセンサーが捉えたアクションデータと、データ次元、データ分布、固有情報内容の視覚センサーの間には、かなり大きなモダリティ差が存在する。 本稿では,複数のウェアラブルセンサからの知識を適応的に伝達・蒸留することにより,視覚センサのモダリティ(動画)における行動認識を強化するための,セマンティックス対応型適応的知識蒸留ネットワーク(SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGBビデオを学生のモダリティとして使用している。 局所的な時間的関係を保ち、視覚的深層学習モデルの利用を容易にするため、グラミアン角場に基づく仮想画像生成モデルの設計により、ウェアラブルセンサの1次元時系列信号を2次元画像に変換する。 次に,異なる教師ネットワークから中間表現知識を適応的に融合する,新しい類似性保存型適応マルチモーダル融合モジュールを構築する。 最後に,複数の教師ネットワークの知識を十分に活用し,学生ネットワークに伝達するために,グラフ誘導アブレーション解析を用いて,重要領域を特徴付け,原データの相互関係を同時保存する,新しいグラフ誘導意味判別マッピング損失を提案する。 バークレー・MHAD, UTD-MHADおよびMMActデータセットの実験結果は, 提案したSAKDNの有効性をよく示している。

Existing vision-based action recognition is susceptible to occlusion and appearance variations, while wearable sensors can alleviate these challenges by capturing human motion with one-dimensional time-series signal. For the same action, the knowledge learned from vision sensors and wearable sensors, may be related and complementary. However, there exists significantly large modality difference between action data captured by wearable-sensor and vision-sensor in data dimension, data distribution and inherent information content. In this paper, we propose a novel framework, named Semantics-aware Adaptive Knowledge Distillation Networks (SAKDN), to enhance action recognition in vision-sensor modality (videos) by adaptively transferring and distilling the knowledge from multiple wearable sensors. The SAKDN uses multiple wearable-sensors as teacher modalities and uses RGB videos as student modality. To preserve local temporal relationship and facilitate employing visual deep learning model, we transform one-dimensional time-series signals of wearable sensors to two-dimensional images by designing a gramian angular field based virtual image generation model. Then, we build a novel Similarity-Preserving Adaptive Multi-modal Fusion Module to adaptively fuse intermediate representation knowledge from different teacher networks. Finally, to fully exploit and transfer the knowledge of multiple well-trained teacher networks to the student network, we propose a novel Graph-guided Semantically Discriminative Mapping loss, which utilizes graph-guided ablation analysis to produce a good visual explanation highlighting the important regions across modalities and concurrently preserving the interrelations of original data. Experimental results on Berkeley-MHAD, UTD-MHAD and MMAct datasets well demonstrate the effectiveness of our proposed SAKDN.
翻訳日:2022-10-23 01:20:11 公開日:2021-05-27
# 準シンプレクティックなランゲヴィン変分オートエンコーダ

Quasi-symplectic Langevin Variational Autoencoder ( http://arxiv.org/abs/2009.01675v4 )

ライセンス: Link先を確認
Zihao Wang, Herv\'e Delingette(参考訳) 変分オートエンコーダ(VAE)は、ニューラルネットワーク研究において非常に人気があり、よく研究されている生成モデルである。 大規模データセットを扱う現実的なタスクにおいて,VAEを活用するためには,低分散証拠低境界(ELBO)の構築の困難さに対処する必要がある。 マルコフ・チェイン・モンテカルロ (MCMC) は後部分布を近似するためにELBOを強化するための効果的なアプローチであり、ハミルトン変分オートエンコーダ (HVAE) は再パラメータ化法に適応する低分散ELBOを構築するための効果的なMCMCのアプローチである。 HVAEはハミルトンの動的流れを変分推論に適応させ、後部推定の性能を大幅に向上させた。 本稿では,HVAEに類似したMCMC法の一種であるLangevin Dynamicを通じて,推論プロセスの勾配情報を組み込むことにより,Langevin動的フローベース推論手法を提案する。 具体的には,準シンプレクティック積分器を用いて,単純ランジュバン流れにおけるヘッセン計算の禁止問題に対処する。 提案手法の理論的および実用的効果を他の勾配流法で示す。

Variational autoencoder (VAE) is a very popular and well-investigated generative model in neural learning research. To leverage VAE in practical tasks dealing with a massive dataset of large dimensions, it is required to deal with the difficulty of building low variance evidence lower bounds (ELBO). Markov Chain Monte Carlo (MCMC) is an effective approach to tighten the ELBO for approximating the posterior distribution and Hamiltonian Variational Autoencoder (HVAE) is an effective MCMC inspired approach for constructing a low-variance ELBO that is amenable to the reparameterization trick. The HVAE adapted the Hamiltonian dynamic flow into variational inference that significantly improves the performance of the posterior estimation. We propose in this work a Langevin dynamic flow-based inference approach by incorporating the gradients information in the inference process through the Langevin dynamic which is a kind of MCMC based method similar to HVAE. Specifically, we employ a quasi-symplectic integrator to cope with the prohibit problem of the Hessian computing in naive Langevin flow. We show the theoretical and practical effectiveness of the proposed framework with other gradient flow-based methods.
翻訳日:2022-10-22 18:17:13 公開日:2021-05-27
# KILT: 知識集約型言語タスクのベンチマーク

KILT: a Benchmark for Knowledge Intensive Language Tasks ( http://arxiv.org/abs/2009.02252v4 )

ライセンス: Link先を確認
Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vladimir Karpukhin, Jean Maillard, Vassilis Plachouras, Tim Rockt\"aschel, Sebastian Riedel(参考訳) オープンドメインの質問応答、事実チェック、スロット充填、エンティティリンクといった困難な問題は、大きな外部の知識ソースへのアクセスを必要とする。 個々のタスクでうまく機能するモデルもあるが、各タスクに専用のインフラに加えて、独自の知識ソースの計算コストの高いインデックスを必要とするため、一般的なモデルの開発は困難である。 そこで本研究では,大規模テキスト資源の特定情報に係わるモデルについて,知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアと同じスナップショットに基礎を置いており、コンポーネントの再使用によるエンジニアリングのターンアラウンドを減らし、タスクに依存しないメモリアーキテクチャの研究を加速している。 タスク固有のベースラインと一般的なベースラインの両方をテストし、下流のパフォーマンスを評価するとともに、モデルの証明を提供する能力を評価する。 セク2セックモデルと結合した共有密度ベクトル指数は強いベースラインであり, 事実チェック, オープンドメイン質問応答, 対話, および, エンティティリンクとスロットフィリングにおける競合的な結果を得るために, 不明瞭なテキストを生成することにより, より優れた仕上がりのアプローチが得られた。 KILTデータとコードはhttps://github.com/facebookresearch/KILTで入手できる。

Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as each task might require computationally expensive indexing of custom knowledge sources, in addition to dedicated infrastructure. To catalyze research on models that condition on specific information in large textual resources, we present a benchmark for knowledge-intensive language tasks (KILT). All tasks in KILT are grounded in the same snapshot of Wikipedia, reducing engineering turnaround through the re-use of components, as well as accelerating research into task-agnostic memory architectures. We test both task-specific and general baselines, evaluating downstream performance in addition to the ability of the models to provide provenance. We find that a shared dense vector index coupled with a seq2seq model is a strong baseline, outperforming more tailor-made approaches for fact checking, open-domain question answering and dialogue, and yielding competitive results on entity linking and slot filling, by generating disambiguated text. KILT data and code are available at https://github.com/facebookresearch/KILT.
翻訳日:2022-10-22 01:34:23 公開日:2021-05-27
# 誕生系列に基づくニューラルネットワーク摂動理論

A Neural Network Perturbation Theory Based on the Born Series ( http://arxiv.org/abs/2009.03192v2 )

ライセンス: Link先を確認
Bastian Kaspschak and Ulf-G. Mei{\ss}ner(参考訳) 深層ニューラルネットワーク(dnns)を用いたディープラーニングは、過去10年間で理論物理学のさまざまなデータベース問題に対して魅力的なアプローチになっている。 ますます強力で関連するレイヤを含む、より深いアーキテクチャに対する明確な傾向があります。 対照的に、DNNのテイラー係数は、主に解釈可能性の研究の光に現れ、そこではそれらが最大で1次に計算される。 しかし、特に理論物理学では、高次数へのアクセスにも多くの問題がある。 このギャップは、ニューラルネットワーク(NN)テイラー展開の一般的な定式化を動機付けている。 解析を多層パーセプトロン (MLPs) に制限し, MLPの重みと偏りに依存して, プロパゲータおよび頂点と呼ぶ量を導入することにより, グラフ理論的アプローチを確立する。 量子場理論におけるファインマン則と同様に、プロパゲーターと頂点を含む図を対応する部分微分に体系的に割り当てることができる。 浅いポテンシャルのS波散乱長に対するこのアプローチを考察し、その微分を主にターゲット関数のテイラー展開の先頭順に適応させるためにNNを観察する。 この問題を回避するために,反復的NN摂動理論を提案する。 各イテレーションにおいて、次から次への順番が続くイテレーションの間に忠実に学習されるように、先頭の順序を排除します。 2回のイテレーションを行った後、各イテレーションの間に1次および2次生まれの用語が正しく適合していることがわかりました。 最後に、両方の結果を組み合わせて、マシン学習の第2次Born近似として機能するプロキシを見つけます。

Deep Learning using the eponymous deep neural networks (DNNs) has become an attractive approach towards various data-based problems of theoretical physics in the past decade. There has been a clear trend to deeper architectures containing increasingly more powerful and involved layers. Contrarily, Taylor coefficients of DNNs still appear mainly in the light of interpretability studies, where they are computed at most to first order. However, especially in theoretical physics numerous problems benefit from accessing higher orders, as well. This gap motivates a general formulation of neural network (NN) Taylor expansions. Restricting our analysis to multilayer perceptrons (MLPs) and introducing quantities we refer to as propagators and vertices, both depending on the MLP's weights and biases, we establish a graph-theoretical approach. Similarly to Feynman rules in quantum field theories, we can systematically assign diagrams containing propagators and vertices to the corresponding partial derivative. Examining this approach for S-wave scattering lengths of shallow potentials, we observe NNs to adapt their derivatives mainly to the leading order of the target function's Taylor expansion. To circumvent this problem, we propose an iterative NN perturbation theory. During each iteration we eliminate the leading order, such that the next-to-leading order can be faithfully learned during the subsequent iteration. After performing two iterations, we find that the first- and second-order Born terms are correctly adapted during the respective iterations. Finally, we combine both results to find a proxy that acts as a machine-learned second-order Born approximation.
翻訳日:2022-10-21 02:38:57 公開日:2021-05-27
# CounteRGAN:Residual Generative Adversarial Netsを用いた現実的対物生成

CounteRGAN: Generating Realistic Counterfactuals with Residual Generative Adversarial Nets ( http://arxiv.org/abs/2009.05199v2 )

ライセンス: Link先を確認
Daniel Nemirovsky, Nicolas Thiebaut, Ye Xu, Abhishek Gupta(参考訳) さまざまな業界で機械学習モデルが普及したことで、モデル解釈性や有意義なリコースを提供する能力に対する需要が高まっている。 例えば、診断やローン申請者の改善を望む患者は、承認の機会を増やそうとしている。 ファクトファクトは、より望ましい予測結果をもたらす入力摂動を特定することで、この観点から役立つ。 意味のある反事実は、望ましい結果を達成するだけでなく、現実的で、実行可能で、計算が効率的であるべきです。 現在のアプローチは、適度な動作性で望ましい結果を達成するが、リアリズムと遅延の点で非常に制限されている。 これらの制約に対処するために,GAN(Generative Adversarial Nets)を対実探索に適用する。 また,正規のganと比較して反事実主義や行動可能性を改善するための新しい残余gan(rgan)についても紹介する。 提案手法では, RGAN とターゲット分類器を用いて, 意味のある会話を提供することができる偽物を生成する。 一般的な2つのデータセットの評価では、CounteRGANが50xから90000xまでのレイテンシの改善など、既存のメソッドの制限を克服し、リアルタイムに有意義なリコースを可能とし、幅広いドメインに適用することが可能であることを強調している。

The prevalence of machine learning models in various industries has led to growing demands for model interpretability and for the ability to provide meaningful recourse to users. For example, patients hoping to improve their diagnoses or loan applicants seeking to increase their chances of approval. Counterfactuals can help in this regard by identifying input perturbations that would result in more desirable prediction outcomes. Meaningful counterfactuals should be able to achieve the desired outcome, but also be realistic, actionable, and efficient to compute. Current approaches achieve desired outcomes with moderate actionability but are severely limited in terms of realism and latency. To tackle these limitations, we apply Generative Adversarial Nets (GANs) toward counterfactual search. We also introduce a novel Residual GAN (RGAN) that helps to improve counterfactual realism and actionability compared to regular GANs. The proposed CounteRGAN method utilizes an RGAN and a target classifier to produce counterfactuals capable of providing meaningful recourse. Evaluations on two popular datasets highlight how the CounteRGAN is able to overcome the limitations of existing methods, including latency improvements of >50x to >90,000x, making meaningful recourse available in real-time and applicable to a wide range of domains.
翻訳日:2022-10-19 20:42:19 公開日:2021-05-27
# RGB-D屋内シーン分類のための多階層グラフ畳み込みを用いた2次元3次元幾何融合ネットワーク

2D-3D Geometric Fusion Network using Multi-Neighbourhood Graph Convolution for RGB-D Indoor Scene Classification ( http://arxiv.org/abs/2009.11154v3 )

ライセンス: Link先を確認
Albert Mosella-Montoro, Javier Ruiz-Hidalgo(参考訳) マルチモーダル融合はシーン分類タスクの性能向上に役立つことが証明されている。 本稿では,2次元畳み込みニューラルネットワークにより得られた3次元幾何特徴と2次元テクスチャ特徴を組み合わせた2次元3次元融合ステージを提案する。 堅牢な3次元幾何埋め込みを実現するために,2つの新しい層を用いたネットワークを提案する。 最初のレイヤであるMulti-Neighbourhood Graph Convolutionは、ユークリッド空間とフィーチャー空間の2つの異なる領域を組み合わせた、より堅牢な幾何学的記述子を学ぶことを目的としている。 2番目の提案されたレイヤであるNearest Voxel Poolingは、よく知られたVoxel Poolingのパフォーマンスを改善している。 実験の結果、NYU-Depth-V2とSUN RGB-Dデータセットを用いて、RGB-D屋内シーン分類作業において、提案手法が現在の最先端技術よりも優れていることが示された。

Multi-modal fusion has been proved to help enhance the performance of scene classification tasks. This paper presents a 2D-3D Fusion stage that combines 3D Geometric Features with 2D Texture Features obtained by 2D Convolutional Neural Networks. To get a robust 3D Geometric embedding, a network that uses two novel layers is proposed. The first layer, Multi-Neighbourhood Graph Convolution, aims to learn a more robust geometric descriptor of the scene combining two different neighbourhoods: one in the Euclidean space and the other in the Feature space. The second proposed layer, Nearest Voxel Pooling, improves the performance of the well-known Voxel Pooling. Experimental results, using NYU-Depth-V2 and SUN RGB-D datasets, show that the proposed method outperforms the current state-of-the-art in RGB-D indoor scene classification task.
翻訳日:2022-10-15 15:26:38 公開日:2021-05-27
# NN-EVCLUS:ニューラルネットワークによるエビデンシャルクラスタリング

NN-EVCLUS: Neural Network-based Evidential Clustering ( http://arxiv.org/abs/2009.12795v2 )

ライセンス: Link先を確認
Thierry Denoeux(参考訳) エビデンシャルクラスタリング(Evidential clustering)は、クラスタメンバシップの不確実性を表すためにDempster-Shaferマス関数を使用するクラスタリングのアプローチである。 本稿では,属性ベクトルからマス関数へのマッピングを学習するnn-evclusと呼ばれるニューラルネットワークに基づく実証的クラスタリングアルゴリズムを提案する。 ニューラルネットワークは、一級サポートベクターマシンと組み合わせて、外れ値に対して堅牢で、新規性検出を可能にする。 ネットワークは、すべてのまたはいくつかのオブジェクトペアの相違点と相反点の差を最小限に抑えるように訓練されている。 損失関数に追加用語を加えることで、ペアの制約やラベル付きデータを考慮できる。 比較実験により、属性と異種データの両方を含む教師なしおよび制約付きクラスタリングタスクにおいて、n-evclusが最先端の実証的クラスタリングアルゴリズムよりも優れていることが示された。

Evidential clustering is an approach to clustering based on the use of Dempster-Shafer mass functions to represent cluster-membership uncertainty. In this paper, we introduce a neural-network based evidential clustering algorithm, called NN-EVCLUS, which learns a mapping from attribute vectors to mass functions, in such a way that more similar inputs are mapped to output mass functions with a lower degree of conflict. The neural network can be paired with a one-class support vector machine to make it robust to outliers and allow for novelty detection. The network is trained to minimize the discrepancy between dissimilarities and degrees of conflict for all or some object pairs. Additional terms can be added to the loss function to account for pairwise constraints or labeled data, which can also be used to adapt the metric. Comparative experiments show the superiority of N-EVCLUS over state-of-the-art evidential clustering algorithms for a range of unsupervised and constrained clustering tasks involving both attribute and dissimilarity data.
翻訳日:2022-10-14 03:10:20 公開日:2021-05-27
# 日内電力価格の深い分布時系列モデルと確率的予測

Deep Distributional Time Series Models and the Probabilistic Forecasting of Intraday Electricity Prices ( http://arxiv.org/abs/2010.01844v2 )

ライセンス: Link先を確認
Nadja Klein, Michael Stanley Smith, David J. Nott(参考訳) 過去の値の豊富な特徴ベクトルを持つリカレントニューラルネットワーク(RNN)は、複雑な直列依存を示すシリーズの正確な点予測を提供することができる。 本研究では,エコー状態ネットワーク (esn) と呼ばれるrnnの変種に基づいて,深い時系列確率モデルを構築するための2つの手法を提案する。 1つ目は、ESNの出力層が、さらなる正規化に先立って確率的乱れと縮小がある点である。 第二のアプローチは、特徴空間上の深いコプラ過程であるガウス乱れを伴うESNの暗黙のコプラを用いる。 このコプラと非パラメトリック推定限界分布を組み合わせることで、深い分布時系列モデルを生成する。 結果として生じる確率予測は特徴ベクトルの深い関数であり、極端に校正される。 どちらのアプローチでも、ベイジアンマルコフ連鎖モンテカルロ法はモデルの推定と予測の計算に使用される。 提案モデルは日内電力価格予測の複雑なタスクに適している。 オーストラリア国立電力市場のデータを用いて、我々のディープ時系列モデルがコプラモデルが支配する短期的確率的価格予測を精度良く提供することを示した。 さらに,電力需要の確率的予測を付加的な特徴として組み込むフレキシブルな枠組みを提供し,コプラモデルから高いテール予測精度を著しく向上させる。

Recurrent neural networks (RNNs) with rich feature vectors of past values can provide accurate point forecasts for series that exhibit complex serial dependence. We propose two approaches to constructing deep time series probabilistic models based on a variant of RNN called an echo state network (ESN). The first is where the output layer of the ESN has stochastic disturbances and a shrinkage prior for additional regularization. The second approach employs the implicit copula of an ESN with Gaussian disturbances, which is a deep copula process on the feature space. Combining this copula with a non-parametrically estimated marginal distribution produces a deep distributional time series model. The resulting probabilistic forecasts are deep functions of the feature vector and also marginally calibrated. In both approaches, Bayesian Markov chain Monte Carlo methods are used to estimate the models and compute forecasts. The proposed models are suitable for the complex task of forecasting intraday electricity prices. Using data from the Australian National Electricity Market, we show that our deep time series models provide accurate short term probabilistic price forecasts, with the copula model dominating. Moreover, the models provide a flexible framework for incorporating probabilistic forecasts of electricity demand as additional features, which increases upper tail forecast accuracy from the copula model significantly.
翻訳日:2022-10-10 22:15:03 公開日:2021-05-27
# クロスラーニングによるマルチタスク指導学習

Multi-task Supervised Learning via Cross-learning ( http://arxiv.org/abs/2010.12993v3 )

ライセンス: Link先を確認
Juan Cervino, Juan Andres Bazerque, Miguel Calvo-Fullana and Alejandro Ribeiro(参考訳) 本稿では,異なるタスクを解くことを目的とした分類器や回帰関数の集合を組み込んだマルチタスク学習(multi-task learning)と呼ばれる問題を考える。 新しい定式化では、これらの関数のパラメータを結合することで、互いに親しみながらタスク固有のドメインで学習できるようにします。 これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロスファーティライズが促進される。 まず、提案したクロスラーニング戦略の利点についていくつかの知見を得るために、2つのガウス変数の手段を推定することを目的とした簡易ケースを提案する。 次に,一般化損失関数のクロスラーニングを行う確率射影勾配アルゴリズムを提案する。 パラメータの数が大きければ、プロジェクションステップは計算的に高価になる。 このような状況を避けるために、双対問題の構造を利用する原始双対アルゴリズムを導出し、複雑性がタスク数にのみ依存する定式化を達成する。 異なる領域に分割されたデータセットでトレーニングされたニューラルネットワークによる画像分類のための予備的な数値実験は、クロスリード関数がタスク固有とコンセンサスの両方のアプローチを上回っていることを裏付ける。

In this paper we consider a problem known as multi-task learning, consisting of fitting a set of classifier or regression functions intended for solving different tasks. In our novel formulation, we couple the parameters of these functions, so that they learn in their task specific domains while staying close to each other. This facilitates cross-fertilization in which data collected across different domains help improving the learning performance at each other task. First, we present a simplified case in which the goal is to estimate the means of two Gaussian variables, for the purpose of gaining some insights on the advantage of the proposed cross-learning strategy. Then we provide a stochastic projected gradient algorithm to perform cross-learning over a generic loss function. If the number of parameters is large, then the projection step becomes computationally expensive. To avoid this situation, we derive a primal-dual algorithm that exploits the structure of the dual problem, achieving a formulation whose complexity only depends on the number of tasks. Preliminary numerical experiments for image classification by neural networks trained on a dataset divided in different domains corroborate that the cross-learned function outperforms both the task-specific and the consensus approaches.
翻訳日:2022-10-03 12:35:19 公開日:2021-05-27
# 不均衡データ学習のための非線形モンテカルロ法

Nonlinear Monte Carlo Method for Imbalanced Data Learning ( http://arxiv.org/abs/2010.14060v2 )

ライセンス: Link先を確認
Xuli Shen, Qing Xu, Xiangyang Xue(参考訳) 基本的機械学習問題に対しては、予測誤差を用いてモデル性能を評価する。 データの分布は通常不明であるため、データを独立にサンプリングし、同一に分散する(すなわち、損失関数の平均値は、大数法則(LLN)による経験的リスクとして用いられる)という単純な仮説を立てることができる。 これはモンテカルロ法として知られている。 しかし、不均衡なデータ問題などLLNが適用されない場合、経験的リスクは過度に適合し、堅牢性と一般化能力が低下する可能性がある。 非線形期待理論の枠組みに着想を得て,損失関数の平均値を部分群平均損失の最大値に置き換える。 これを非線形モンテカルロ法と呼ぶ。 最適化の数値的手法を利用するために,最大経験的リスクの関数を線形化・平滑化し,二次計画による降下方向を得る。 提案手法により,訓練手順の少ないSOTAバックボーンモデルよりも性能が向上し,基本回帰および非バランスな分類タスクに対する堅牢性が向上する。

For basic machine learning problems, expected error is used to evaluate model performance. Since the distribution of data is usually unknown, we can make simple hypothesis that the data are sampled independently and identically distributed (i.i.d.) and the mean value of loss function is used as the empirical risk by Law of Large Numbers (LLN). This is known as the Monte Carlo method. However, when LLN is not applicable, such as imbalanced data problems, empirical risk will cause overfitting and might decrease robustness and generalization ability. Inspired by the framework of nonlinear expectation theory, we substitute the mean value of loss function with the maximum value of subgroup mean loss. We call it nonlinear Monte Carlo method. In order to use numerical method of optimization, we linearize and smooth the functional of maximum empirical risk and get the descent direction via quadratic programming. With the proposed method, we achieve better performance than SOTA backbone models with less training steps, and more robustness for basic regression and imbalanced classification tasks.
翻訳日:2022-10-02 11:23:01 公開日:2021-05-27
# マルチパスフレーム予測によるロバスト非教師付きビデオ異常検出

Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction ( http://arxiv.org/abs/2011.02763v2 )

ライセンス: Link先を確認
Xuanzhao Wang, Zhengping Che, Bo Jiang, Ning Xiao, Ke Yang, Jian Tang, Jieping Ye, Jingyu Wang, Qi Qi(参考訳) セキュリティ監視などの多くのアプリケーションでビデオ異常検出が一般的に使われており,近年のビデオ異常検出手法の大部分が深部再構成モデルを使用しているが,実際のビデオフレームと異常フレームの再構成誤差が不十分なため,その性能は低いことが多い。 一方,フレーム予測に基づく異常検出手法は有望な性能を示した。 本稿では,監視ビデオの特徴に則した適切な設計を施したフレーム予測による,新規で堅牢なビデオ異常検出手法を提案する。 提案手法はマルチパスのConvGRUベースのフレーム予測ネットワークを用いて,意味的情報的オブジェクトや異なるスケールの領域をよりよく処理し,通常のビデオにおける空間的依存関係をキャプチャする。 バックグラウンドノイズによる干渉を軽減するために、トレーニング中にノイズ耐性損失を導入する。 CUHK Avenue, ShanghaiTech Campus, UCSD Pedestrian のデータセットに対して大規模な実験を行い, 提案手法が既存の最先端手法よりも優れていることを示す。 提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROC値を得る。

Video anomaly detection is commonly used in many applications such as security surveillance and is very challenging.A majority of recent video anomaly detection approaches utilize deep reconstruction models, but their performance is often suboptimal because of insufficient reconstruction error differences between normal and abnormal video frames in practice. Meanwhile, frame prediction-based anomaly detection methods have shown promising performance. In this paper, we propose a novel and robust unsupervised video anomaly detection method by frame prediction with proper design which is more in line with the characteristics of surveillance videos. The proposed method is equipped with a multi-path ConvGRU-based frame prediction network that can better handle semantically informative objects and areas of different scales and capture spatial-temporal dependencies in normal videos. A noise tolerance loss is introduced during training to mitigate the interference caused by background noise. Extensive experiments have been conducted on the CUHK Avenue, ShanghaiTech Campus, and UCSD Pedestrian datasets, and the results show that our proposed method outperforms existing state-of-the-art approaches. Remarkably, our proposed method obtains the frame-level AUROC score of 88.3% on the CUHK Avenue dataset.
翻訳日:2022-09-29 11:41:21 公開日:2021-05-27
# (参考訳) 近傍粗い集合に基づくマルチドキュメント要約

Neighborhood Rough Set based Multi-document Summarization ( http://arxiv.org/abs/2106.07338v1 )

ライセンス: CC BY 4.0
Nidhika Yadav(参考訳) 本研究は,MDTSの要約結果の分析と影響を考慮した,教師付き多文書テキスト要約(MDTS)のための新しいNeighbourhood Rough Setアプローチを提案する。 そこで,Rough SetをベースとしたLERSアルゴリズムを,Neighborhood-LERSと呼ばれる新しい組み合わせであるNeighborhood Rough Setを用いて改良し,有効性と有効性を評価する。 本稿では,MDTS の基本 LERS 技術よりも優れていることが実験的に証明された多文書要約のためのNighborhood-LERS を適用・評価する。

This research paper proposes a novel Neighbourhood Rough Set based approach for supervised Multi-document Text Summarization (MDTS) with analysis and impact on the summarization results for MDTS. Here, Rough Set based LERS algorithm is improved using Neighborhood Rough Set which is itself a novel combination called Neighborhood-LERS to be experimented for evaluations of efficacy and efficiency. In this paper, we shall apply and evaluate the proposed Neighborhood-LERS for Multi-document Summarization which here is proved experimentally to be superior to the base LERS technique for MDTS.
翻訳日:2021-06-20 22:16:13 公開日:2021-05-27
# (参考訳) BPLF:感情集合画像からの表情生成のための双方向線形流れモデル

BPLF: A Bi-Parallel Linear Flow Model for Facial Expression Generation from Emotion Set Images ( http://arxiv.org/abs/2106.07563v1 )

ライセンス: CC BY 4.0
Gao Xu (1), Yuanpeng Long (2), Siwei Liu (1), Lijia Yang (1), Shimei Xu (3), Xiaoming Yao (1,3), Kunxian Shu (1) ((1) School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, (2) School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China (3) 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China)(参考訳) フローベース生成モデルはディープラーニング生成モデルであり、データ分布を明示的に学習することでデータを生成する能力を得る。 理論的には、データ復元能力は他の生成モデルよりも強い。 しかし、その実装には、限られたモデル設計、過剰なモデルパラメータ、退屈な計算など、多くの制限がある。 本稿では、感情セット画像から顔の感情を生成するための双方向線形フローモデルを構築し、モデルの表現能力とトレーニングにおける収束速度の観点から、一連の改善を行った。 モデルは主に複数の結合層を重畳して構成され、各結合層は1*1の可逆畳み込みと線形演算モジュールを含んでいる。 さらに、顔の感情画像の現在の公開データセットを整理し、新しい感情データを作成し、このデータセットを通してモデルを検証した。 実験の結果,従来の畳み込みニューラルネットワークでは,3層3*3畳み込みカーネルの方が顔画像の特徴を抽出しやすくなっていることがわかった。 主成分分解の導入はモデルの収束速度を改善することができる。

The flow-based generative model is a deep learning generative model, which obtains the ability to generate data by explicitly learning the data distribution. Theoretically its ability to restore data is stronger than other generative models. However, its implementation has many limitations, including limited model design, too many model parameters and tedious calculation. In this paper, a bi-parallel linear flow model for facial emotion generation from emotion set images is constructed, and a series of improvements have been made in terms of the expression ability of the model and the convergence speed in training. The model is mainly composed of several coupling layers superimposed to form a multi-scale structure, in which each coupling layer contains 1*1 reversible convolution and linear operation modules. Furthermore, this paper sorted out the current public data set of facial emotion images, made a new emotion data, and verified the model through this data set. The experimental results show that, under the traditional convolutional neural network, the 3-layer 3*3 convolution kernel is more conducive to extracte the features of the face images. The introduction of principal component decomposition can improve the convergence speed of the model.
翻訳日:2021-06-20 22:11:16 公開日:2021-05-27
# (参考訳) ビデオシーケンスを用いた表情認識のためのキャプリル-LSTMモデル

An optimized Capsule-LSTM model for facial expression recognition with video sequences ( http://arxiv.org/abs/2106.07564v1 )

ライセンス: CC BY 4.0
Siwei Liu (1), Yuanpeng Long (2), Gao Xu (1), Lijia Yang (1), Shimei Xu (3), Xiaoming Yao (1,3), Kunxian Shu (1) ((1) School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, (2) School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China, (3) 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China)(参考訳) 表情認識における畳み込みニューラルネットワークの限界を克服するために,ビデオフレームシーケンスに基づく表情認識モデルCapsule-LSTMを提案する。 このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。 カプセルエンコーダは、ビデオフレーム内の表情の空間情報を抽出する。 capsuleデコーダは画像を再構成してネットワークを最適化する。 LSTMは、ビデオフレーム間の時間情報を抽出し、フレーム間の表現変化の違いを分析する。 MMIデータセットによる実験結果から,本論文で提案するCapsule-LSTMモデルは,映像表現認識の精度を効果的に向上できることが示された。

To overcome the limitations of convolutional neural network in the process of facial expression recognition, a facial expression recognition model Capsule-LSTM based on video frame sequence is proposed. This model is composed of three networks includingcapsule encoders, capsule decoders and LSTM network. The capsule encoder extracts the spatial information of facial expressions in video frames. Capsule decoder reconstructs the images to optimize the network. LSTM extracts the temporal information between video frames and analyzes the differences in expression changes between frames. The experimental results from the MMI dataset show that the Capsule-LSTM model proposed in this paper can effectively improve the accuracy of video expression recognition.
翻訳日:2021-06-20 22:02:16 公開日:2021-05-27
# ビデオによる転倒リスク評価 : 症例報告

Video-Based Inpatient Fall Risk Assessment: A Case Study ( http://arxiv.org/abs/2106.07565v1 )

ライセンス: Link先を確認
Ziqing Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt-Aristizabal(参考訳) 入院は病院や医療施設において深刻な安全上の問題である。 患者監視のためのビデオ分析の最近の進歩は、継続的な活動監視によってリスクを軽減できる非介入的な手段を提供する。 しかし, 転倒リスク評価システムは文献上ではあまり注目されていない。 先行研究の大半は転倒イベントの検出に焦点を合わせており、急激な転倒を示すような状況は考慮していない。 そこで本研究では,転倒の危険を監視できる映像ベースのシステムを提案するとともに,転倒を予防するための安全でない行動をスタッフに警告する。 シミュレーション環境に記録された映像フレームから空間的特徴を抽出するために,人間の位置推定と骨格ポーズ推定の最近の進歩を活用する手法を提案する。 身体の位置を効果的に認識し,転倒リスク評価に有用な証拠を提示できることを実証した。 本研究は,興味のある行動を分析するためのビデオベースのモデルの利点を強調するとともに,このようなシステムが,医療従事者が患者のニーズに応え,対処するための十分なリードタイムを実現する方法を示す。

Inpatient falls are a serious safety issue in hospitals and healthcare facilities. Recent advances in video analytics for patient monitoring provide a non-intrusive avenue to reduce this risk through continuous activity monitoring. However, in-bed fall risk assessment systems have received less attention in the literature. The majority of prior studies have focused on fall event detection, and do not consider the circumstances that may indicate an imminent inpatient fall. Here, we propose a video-based system that can monitor the risk of a patient falling, and alert staff of unsafe behaviour to help prevent falls before they occur. We propose an approach that leverages recent advances in human localisation and skeleton pose estimation to extract spatial features from video frames recorded in a simulated environment. We demonstrate that body positions can be effectively recognised and provide useful evidence for fall risk assessment. This work highlights the benefits of video-based models for analysing behaviours of interest, and demonstrates how such a system could enable sufficient lead time for healthcare professionals to respond and address patient needs, which is necessary for the development of fall intervention programs.
翻訳日:2021-06-20 16:03:53 公開日:2021-05-27
# UVid-Net: 時間情報埋め込みによるUAV空中映像のセマンティックセグメンテーションの強化

UVid-Net: Enhanced Semantic Segmentation of UAV Aerial Videos by Embedding Temporal Information ( http://arxiv.org/abs/2011.14284v2 )

ライセンス: Link先を確認
Girisha S, Ujjwal Verma, Manohara Pai M M and Radhika Pai(参考訳) 航空映像の意味セグメンテーションは、環境変化のモニタリング、都市計画、災害管理における意思決定に広く使われている。 これらの意思決定支援システムの信頼性は,ビデオ意味セグメンテーションアルゴリズムの精度に依存する。 既存のcnnベースの映像意味セマンティクスセグメンテーション手法は,計算オーバーヘッドである映像の時間的ダイナミクスを計算するためにlstmや光フローなどの付加モジュールを組み込むことで画像意味セマンティクスセグメンテーション手法を強化した。 提案研究は,映像セマンティックセグメンテーションの効率を向上させるために,時間情報を統合することでCNNアーキテクチャを改良する。 本稿では,uavビデオセマンティクスセグメンテーションのための拡張エンコーダデコーダベースのcnnアーキテクチャ(uvid-net)を提案する。 提案アーキテクチャのエンコーダは、時間的に一貫したラベリングのための時間情報を埋め込む。 デコーダは、クラスラベルの正確なローカライズを支援するfeature-refinerモジュールを導入することで強化される。 UAVビデオセマンティックセグメンテーションのためのUVid-Netアーキテクチャを拡張ManipalUAVidデータセット上で定量的に評価する。 パフォーマンス指標のmiouは 0.79 であり、これは他の最先端アルゴリズムよりもかなり大きい。 さらに,提案した研究は,UAV空中映像の最終層を微調整した都市路面におけるUVid-Netの事前学習モデルに対しても,有望な結果をもたらした。

Semantic segmentation of aerial videos has been extensively used for decision making in monitoring environmental changes, urban planning, and disaster management. The reliability of these decision support systems is dependent on the accuracy of the video semantic segmentation algorithms. The existing CNN based video semantic segmentation methods have enhanced the image semantic segmentation methods by incorporating an additional module such as LSTM or optical flow for computing temporal dynamics of the video which is a computational overhead. The proposed research work modifies the CNN architecture by incorporating temporal information to improve the efficiency of video semantic segmentation. In this work, an enhanced encoder-decoder based CNN architecture (UVid-Net) is proposed for UAV video semantic segmentation. The encoder of the proposed architecture embeds temporal information for temporally consistent labelling. The decoder is enhanced by introducing the feature-refiner module, which aids in accurate localization of the class labels. The proposed UVid-Net architecture for UAV video semantic segmentation is quantitatively evaluated on extended ManipalUAVid dataset. The performance metric mIoU of 0.79 has been observed which is significantly greater than the other state-of-the-art algorithms. Further, the proposed work produced promising results even for the pre-trained model of UVid-Net on urban street scene with fine tuning the final layer on UAV aerial videos.
翻訳日:2021-06-07 09:04:53 公開日:2021-05-27
# FEDHCベイジアンネットワーク学習アルゴリズム

The FEDHC Bayesian network learning algorithm ( http://arxiv.org/abs/2012.00113v3 )

ライセンス: Link先を確認
Michail Tsagris(参考訳) FEDHC (Forward Early Dropping Hill Climbing) と呼ばれる新しいハイブリッドベイズネットワーク学習アルゴリズムは、連続変数またはカテゴリー変数を扱うために考案された。 FEDHCは骨格識別フェーズと、(因果)方向を割り当てるその後のスコアリングフェーズから構成される。 さらに,統計ソフトウェア \textit{r} におけるmmhc の唯一の実装は,禁止的に高価であり,新たな実装が提供されていることを示す。 さらに、特に連続データの場合、他のBN学習アルゴリズムにも適用可能なFEDHCの堅牢で外れやすいバージョンが提案されている。 FEDHCはモンテカルロシミュレーションを用いてテストされ、計算的に効率的であることを明確に示し、MMHCやPCHCよりも高い精度でベイズネットワークを生成する。 具体的には、FEDHCは連続データではPCHCよりも正確なベイズネットワークを生成するが、分類データでは正確ではない。 最後に、FEDHC、PCHC、MMHCのアルゴリズムを経済学の分野から実データに適用し、統計ソフトウェア \textit{R} を用いて実証する。

A new hybrid Bayesian network learning algorithm, termed Forward Early Dropping Hill Climbing (FEDHC), devised to work with either continuous or categorical variables. FEDHC consists of a skeleton identification phase and a subsequent scoring phase that assigns the (causal) directions. Further, the paper manifests that the only implementation of MMHC in the statistical software \textit{R}, is prohibitively expensive and a new implementation is offered. In addition, specifically for the case of continuous data, a robust to outliers version of FEDHC, that can be adopted by other BN learning algorithms as well is proposed. The FEDHC is tested via Monte Carlo simulations that distinctly show it is computationally efficient, and produces Bayesian networks of similar to, or of higher accuracy than MMHC and PCHC. Specifically, FEDHC yields more accurate Bayesian networks than PCHC with continuous data but less accurate with categorical data. Finally, an application of FEDHC, PCHC and MMHC algorithms to real data, from the field of economics, is demonstrated using the statistical software \textit{R}.
翻訳日:2021-06-06 14:59:46 公開日:2021-05-27
# モデルロバストネスにスタイルトランスファーと絵画は何ができるのか?

What Can Style Transfer and Paintings Do For Model Robustness? ( http://arxiv.org/abs/2011.14477v2 )

ライセンス: Link先を確認
Hubert Lin, Mitchell van Zuijlen, Sylvia C. Pont, Maarten W.A. Wijntjes, Kavita Bala(参考訳) モデルのロバスト性を改善する一般的な戦略は、データ拡張である。 データ拡張はモデルに、水平反転への不変性や色の変化など、望ましい不変性を学ぶように促す。 近年の研究では、任意のスタイル転送を、写真から絵のような画像を作成することによって、テクスチャへのばらつきを促進するためのデータ拡張の一形態として使用できることが示されている。 しかし、様式化された写真は、画家が制作した絵画と全く同じではない。 画家は、絵画において知覚的に意味のある手がかりを描き、人間がシーンの聖なる構成要素を認識できるようにする。 そこで本研究では,モデルロバスト性に及ぼすスタイル伝達と絵画の影響について検討する。 まず,スタイライゼーションに基づくデータ拡張のためのスタイルイメージとしての絵画の役割について検討する。 絵画をスタイルイメージとしていなくても,スタイル転送機能は良好であることがわかった。 第2に,知覚データ拡張の形式として絵画から学ぶことで,モデルの堅牢性が向上することを示す。 最後に,スタイル化や絵画から得られた不変性について検討し,異なる形式のデータからモデルが異なる不変性を学ぶことを示す。 以上の結果から,スタイリゼーションがモデルロバスト性をどのように改善するか,また,アーティストが作成した絵画がモデルロバスト性に有用なデータ源であることを示す。

A common strategy for improving model robustness is through data augmentations. Data augmentations encourage models to learn desired invariances, such as invariance to horizontal flipping or small changes in color. Recent work has shown that arbitrary style transfer can be used as a form of data augmentation to encourage invariance to textures by creating painting-like images from photographs. However, a stylized photograph is not quite the same as an artist-created painting. Artists depict perceptually meaningful cues in paintings so that humans can recognize salient components in scenes, an emphasis which is not enforced in style transfer. Therefore, we study how style transfer and paintings differ in their impact on model robustness. First, we investigate the role of paintings as style images for stylization-based data augmentation. We find that style transfer functions well even without paintings as style images. Second, we show that learning from paintings as a form of perceptual data augmentation can improve model robustness. Finally, we investigate the invariances learned from stylization and from paintings, and show that models learn different invariances from these differing forms of data. Our results provide insights into how stylization improves model robustness, and provide evidence that artist-created paintings can be a valuable source of data for model robustness.
翻訳日:2021-06-06 14:51:05 公開日:2021-05-27
# (参考訳) ontoed:オントロジー埋め込みによる低リソースイベント検出

OntoED: Low-resource Event Detection with Ontology Embedding ( http://arxiv.org/abs/2105.10922v3 )

ライセンス: CC BY 4.0
Shumin Deng, Ningyu Zhang, Luoqiu Li, Hui Chen, Huaixiao Tou, Mosha Chen, Fei Huang, Huajun Chen(参考訳) イベント検出(ED)は、所定のテキストからイベントトリガーワードを特定し、イベントタイプに分類することを目的としている。 EDへの現在のメソッドのほとんどは、トレーニングインスタンスに大きく依存しており、イベントタイプの相関をほとんど無視しています。 したがって、データ不足に苦しむ傾向があり、新しい未発見のイベントタイプには対処できない。 これらの問題に対処するため,イベントオントロジー集団のプロセスとしてEDを定式化し,イベントインスタンスをイベントオントロジーで事前に定義されたイベントタイプにリンクし,オントロジーを組み込んだ新しいEDフレームワークを提案する。 イベントオントロジーをイベントタイプ間のリンクで強化し、さらにイベント-イベント相関を誘導する。 イベントオントロジーに基づいて、ontedは相関知識、特にデータリッチからデータポーアなイベントタイプを活用し、伝播することができる。 さらに oned は,既存のイベントへのリンクを確立することで,新たな未認識のイベントタイプにも適用可能だ。 実験によると、OntoEDは従来のEDアプローチよりも支配的であり、堅牢である。

Event Detection (ED) aims to identify event trigger words from a given text and classify it into an event type. Most of current methods to ED rely heavily on training instances, and almost ignore the correlation of event types. Hence, they tend to suffer from data scarcity and fail to handle new unseen event types. To address these problems, we formulate ED as a process of event ontology population: linking event instances to pre-defined event types in event ontology, and propose a novel ED framework entitled OntoED with ontology embedding. We enrich event ontology with linkages among event types, and further induce more event-event correlations. Based on the event ontology, OntoED can leverage and propagate correlation knowledge, particularly from data-rich to data-poor event types. Furthermore, OntoED can be applied to new unseen event types, by establishing linkages to existing ones. Experiments indicate that OntoED is more predominant and robust than previous approaches to ED, especially in data-scarce scenarios.
翻訳日:2021-06-06 09:50:40 公開日:2021-05-27
# 頚部癌解析のための解釈型注意ネットワークを目指して

Towards Interpretable Attention Networks for Cervical Cancer Analysis ( http://arxiv.org/abs/2106.00557v1 )

ライセンス: Link先を確認
Ruiqi Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt-Aristizabal(参考訳) 近年の深層学習の進歩により、頚部癌の診断を含む医療画像や信号の自動分析フレームワークの開発が可能となった。 以前の多くの研究は、孤立した頚椎細胞の分析に焦点を当てているか、あるいは提案されたモデルがどのようにしてマルチセル画像の分類決定に到達したかを説明したり理解するための十分な方法を提供していない。 本稿では,複数の頸腺細胞の画像分類のための各種最先端ディープラーニングモデルと注意基盤フレームワークについて検討する。 この課題に対処するために解釈可能なディープラーニングモデルを提供するため、勾配の可視化を通じてその説明可能性を比較する。 孤立した単細胞画像よりも複数のセルを含む画像を使用することの重要性を示す。 本稿では,セル群から重要な特徴を抽出するための残留チャネル注意モデルの有効性を示し,このモデルの有効性を示す。 本研究は,複数セル画像の解析におけるチャネル注目機構の利点を強調する。 また、子宮頸部細胞の分類に対処するための解釈可能なモデルも提供する。

Recent advances in deep learning have enabled the development of automated frameworks for analysing medical images and signals, including analysis of cervical cancer. Many previous works focus on the analysis of isolated cervical cells, or do not offer sufficient methods to explain and understand how the proposed models reach their classification decisions on multi-cell images. Here, we evaluate various state-of-the-art deep learning models and attention-based frameworks for the classification of images of multiple cervical cells. As we aim to provide interpretable deep learning models to address this task, we also compare their explainability through the visualization of their gradients. We demonstrate the importance of using images that contain multiple cells over using isolated single-cell images. We show the effectiveness of the residual channel attention model for extracting important features from a group of cells, and demonstrate this model's efficiency for this classification task. This work highlights the benefits of channel attention mechanisms in analyzing multiple-cell images for potential relations and distributions within a group of cells. It also provides interpretable models to address the classification of cervical cells.
翻訳日:2021-06-06 08:55:51 公開日:2021-05-27
# cp-netsを用いた複合サービス評価ブートストラップ

Reputation Bootstrapping for Composite Services using CP-nets ( http://arxiv.org/abs/2105.15135v1 )

ライセンス: Link先を確認
Sajib Mistry and Athman Bouguettaya(参考訳) オンデマンドサービス構成の評判をブートストラップする新しいフレームワークを提案する。 オンデマンドのコンポジションは通常コンテキスト対応であり、消費者からの直接のフィードバックはほとんど、あるいは全くない。 単一サービスや原子サービスの評判ブートストラップは、構成のトポロジや評判に関連する要因間の関係を考慮していない。 評価関連要因の条件付き選好ネットワーク(cp-nets)を構成の構成要素サービスに適用する。 複合サービスの評判はCP-netsの合成によってブートストラップされる。 構成における評価相互依存を決定するために,コンポーネントサービス間の呼び出し履歴を考える。 構成規則は構成トポロジーとコンポーネントサービス間の4種類の評価影響を用いて構成される。 ヒューリスティックなQ-ラーニング手法を提案し,評価関連CP-netの最適セットを選択する。 実験により提案手法の有効性が証明された。

We propose a novel framework to bootstrap the reputation of on-demand service compositions. On-demand compositions are usually context-aware and have little or no direct consumer feedback. The reputation bootstrapping of single or atomic services does not consider the topology of the composition and relationships among reputation-related factors. We apply Conditional Preference Networks (CP-nets) of reputation-related factors for component services in a composition. The reputation of a composite service is bootstrapped by the composition of CP-nets. We consider the history of invocation among component services to determine reputation-interdependence in a composition. The composition rules are constructed using the composition topology and four types of reputation-influence among component services. A heuristic-based Q-learning approach is proposed to select the optimal set of reputation-related CP-nets. Experimental results prove the efficiency of the proposed approach.
翻訳日:2021-06-01 17:18:56 公開日:2021-05-27
# (参考訳) 物理インフォームドニューラルネットワークの最適輸送に基づくリファインメント

Optimal Transport Based Refinement of Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.12307v2 )

ライセンス: CC BY 4.0
Vaishnav Tadiparthi and Raktim Bhattacharya(参考訳) 本稿では,偏微分方程式(PDE)を最適輸送(OT)の概念に基づいて解くために,よく知られた物理情報ニューラルネットワーク(PINN)の改良戦略を提案する。 従来のブラックボックスのPINNは、完全連結アーキテクチャにおけるスペクトルバイアス、不安定な勾配の病理、収束と精度の難しさなど、多くの問題に悩まされている。 現在のネットワークトレーニング戦略は次元サイズに依存せず、多数のコロケーションポイントを最適化するための強力なコンピューティングリソースの可用性に依存している。 これはフォッカー・プランク・コルモゴロフ方程式 (Fokker-Planck-Kolmogorov Equation, FPKE) を用いて確率力学系を研究する際に特に困難である。 我々は、FPKEの定常形式にのみ焦点をあてるが、そのソリューションに対する肯定性と正規化の制約により、標準のPINNアプローチを使って直接解決することがより好ましくない。 上記の課題を軽減するため,既存のPINNフレームワークを補完するためにOTベースのサンプリングを用いてFPKEを解くための新たなトレーニング戦略を提案する。 これは、小さなデータセットでトレーニングされたネットワークに、名目上最もエラーの多いリージョンからトレーニングデータセットにサンプルを追加するように誘導する反復的なアプローチである。 新しいサンプルは、反復毎に線形プログラミング問題を解くことで見つかる。 本論文は,非線形力学を持つ種々の確率系に適用性を示す提案手法を実験的に評価して補足する。

In this paper, we propose a refinement strategy to the well-known Physics-Informed Neural Networks (PINNs) for solving partial differential equations (PDEs) based on the concept of Optimal Transport (OT). Conventional black-box PINNs solvers have been found to suffer from a host of issues: spectral bias in fully-connected architectures, unstable gradient pathologies, as well as difficulties with convergence and accuracy. Current network training strategies are agnostic to dimension sizes and rely on the availability of powerful computing resources to optimize through a large number of collocation points. This is particularly challenging when studying stochastic dynamical systems with the Fokker-Planck-Kolmogorov Equation (FPKE), a second-order PDE which is typically solved in high-dimensional state space. While we focus exclusively on the stationary form of the FPKE, positivity and normalization constraints on its solution make it all the more unfavorable to solve directly using standard PINNs approaches. To mitigate the above challenges, we present a novel training strategy for solving the FPKE using OT-based sampling to supplement the existing PINNs framework. It is an iterative approach that induces a network trained on a small dataset to add samples to its training dataset from regions where it nominally makes the most error. The new samples are found by solving a linear programming problem at every iteration. The paper is complemented by an experimental evaluation of the proposed method showing its applicability on a variety of stochastic systems with nonlinear dynamics.
翻訳日:2021-06-01 03:55:24 公開日:2021-05-27
# (参考訳) 森林道路における自動運転のための組込みビジョン

Embedded Vision for Self-Driving on Forest Roads ( http://arxiv.org/abs/2105.13754v1 )

ライセンス: CC BY 4.0
Sorin Grigorescu, Mihai Zaha, Bogdan Trasnea and Cosmin Ginerica(参考訳) ルーマニアの森林道路は、無数の観光客がレクリエーションに使用する天然の野生生物の場所である。 これらの道路を保護・維持するために,道路外を自律走行するロボットシステムであるRovisLab AMTU(Autonomous Mobile Test Unit)を提案する。 AMTUのコアコンポーネントは組み込みビジョンモジュールで、リアルタイム環境認識に最適化されている。 高速な計算を実現するために,物体のシーンとインスタンスのセグメンテーションにマルチタスクディープニューラルネットワーク(DNN)を学習する学習システムを用いて,手作りFAST特徴検出器とルーカス・カナーデ追跡アルゴリズムを用いて,同時ローカライゼーションとマッピングに必要なキーポイントを算出する。 DNNと手作りのバックボーンはどちらもNVIDIA AGX XavierボードのGPU上で並列に実行される。 本研究施設の試験軌道について実験結果を示す。

Forest roads in Romania are unique natural wildlife sites used for recreation by countless tourists. In order to protect and maintain these roads, we propose RovisLab AMTU (Autonomous Mobile Test Unit), which is a robotic system designed to autonomously navigate off-road terrain and inspect if any deforestation or damage occurred along tracked route. AMTU's core component is its embedded vision module, optimized for real-time environment perception. For achieving a high computation speed, we use a learning system to train a multi-task Deep Neural Network (DNN) for scene and instance segmentation of objects, while the keypoints required for simultaneous localization and mapping are calculated using a handcrafted FAST feature detector and the Lucas-Kanade tracking algorithm. Both the DNN and the handcrafted backbone are run in parallel on the GPU of an NVIDIA AGX Xavier board. We show experimental results on the test track of our research facility.
翻訳日:2021-06-01 03:29:25 公開日:2021-05-27
# (参考訳) TensorFlow ManOpt:リーマン多様体の最適化のためのライブラリ

TensorFlow ManOpt: a library for optimization on Riemannian manifolds ( http://arxiv.org/abs/2105.13921v1 )

ライセンス: CC BY 4.0
Oleg Smirnov(参考訳) ニューラルネットワークの採用と非ユークリッドドメインでのディープラーニングは、スケーラブルで効率的な学習フレームワークが欠如するまで妨げられてきた。 既存のツールボックスは、主に研究や教育のユースケースによって動機付けられていたが、機械学習モデルのデプロイや保守といった実践的な側面はしばしば見過ごされた。 TensorFlowのリーマン多様体を最適化するPythonライブラリであるTensorFlow ManOptを提案することで、このギャップを埋めようとしている。 このライブラリはTensorFlowエコシステムとのシームレスな統合を目的として設計されており、研究だけでなく、プロダクション機械学習パイプラインの合理化も目標としている。

The adoption of neural networks and deep learning in non-Euclidean domains has been hindered until recently by the lack of scalable and efficient learning frameworks. Existing toolboxes in this space were mainly motivated by research and education use cases, whereas practical aspects, such as deploying and maintaining machine learning models, were often overlooked. We attempt to bridge this gap by proposing TensorFlow ManOpt, a Python library for optimization on Riemannian manifolds in TensorFlow. The library is designed with the aim for a seamless integration with the TensorFlow ecosystem, targeting not only research, but also streamlining production machine learning pipelines.
翻訳日:2021-06-01 03:24:35 公開日:2021-05-27
# (参考訳) ディープニューラルネットワークのための学習構造

Learning Structures for Deep Neural Networks ( http://arxiv.org/abs/2105.13905v1 )

ライセンス: CC BY 4.0
Jinhui Yuan and Fei Pan and Chunting Zhou and Tao Qin and Tie-Yan Liu(参考訳) 本稿では,深層ニューラルネットワークの構造学習の教師なし設定に着目し,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用し,ラベル情報なしで構造学習の手順を導くことを提案する。 この原理は、良いネットワーク構造は入力と出力の間の相互情報を最大化するか、あるいは穏やかな仮定の下で出力のエントロピーを同等に最大化するべきであることを示唆している。 この原理とベイズ最適分類理論との関係をさらに確立し、ディープニューラルネットワークの出力のより大きなエントロピーが、より優れた分類精度に対応することを実証的に検証する。 そして、この原理の実装として、スパース符号化が出力信号のエントロピーを効果的に最大化できることを示すとともに、大域群スパース符号化に基づくアルゴリズムを設計し、層間接続を自動的に学習し、ニューラルネットワークの深さを決定する。 公開画像分類データセットを用いた実験により,提案アルゴリズムによりスクラッチから学習した構造を用いて,最適なエキスパート設計構造(畳み込みニューラルネットワーク(cnn))に匹敵する分類精度が得られることを示した。 さらに,提案アルゴリズムは局所的な接続性(CNNの局所受容場に対応する)と非分散構造(CNNの引き込みに対応する)の発見に成功し,限界性能ゲインとネットワーク深度との良好なトレードオフを実現する。

In this paper, we focus on the unsupervised setting for structure learning of deep neural networks and propose to adopt the efficient coding principle, rooted in information theory and developed in computational neuroscience, to guide the procedure of structure learning without label information. This principle suggests that a good network structure should maximize the mutual information between inputs and outputs, or equivalently maximize the entropy of outputs under mild assumptions. We further establish connections between this principle and the theory of Bayesian optimal classification, and empirically verify that larger entropy of the outputs of a deep neural network indeed corresponds to a better classification accuracy. Then as an implementation of the principle, we show that sparse coding can effectively maximize the entropy of the output signals, and accordingly design an algorithm based on global group sparse coding to automatically learn the inter-layer connection and determine the depth of a neural network. Our experiments on a public image classification dataset demonstrate that using the structure learned from scratch by our proposed algorithm, one can achieve a classification accuracy comparable to the best expert-designed structure (i.e., convolutional neural networks (CNN)). In addition, our proposed algorithm successfully discovers the local connectivity (corresponding to local receptive fields in CNN) and invariance structure (corresponding to pulling in CNN), as well as achieves a good tradeoff between marginal performance gain and network depth.
翻訳日:2021-06-01 02:52:23 公開日:2021-05-27
# (参考訳) DMInet:膜選択性のある薬物発見のための高精度で柔軟なディープラーニングフレームワーク

DMInet: An Accurate and Highly Flexible Deep Learning Framework for Drug Discovery with Membrane Selectivity ( http://arxiv.org/abs/2105.13928v1 )

ライセンス: CC BY 4.0
Guang Chen(参考訳) 薬物膜相互作用は、創薬において非常に重要なバイオプロセスである。 本稿では,6種類の脂質膜にまたがる薬物様分子の透過に関する大規模マルティニ粗粒分子シミュレーションを活用し,薬物-膜相互作用を研究するために,dminetという新しい深層学習フレームワークを提案する。 DMInetのネットワークは、Viz、薬物様分子、膜型および膜厚間の空間距離の3つの入力を受け取り、膜膜を横断する構造分解能と膜選択性で平均力のポテンシャルを予測する。 DMInetは、有機分子の粗粒化マルティニーの表現と深層学習の組み合わせを継承し、物理ベースのシミュレーションだけで調べられるよりもはるかに大きな化学空間における薬物発見において、より高速な高スループットスクリーニングを行う可能性がある。 さらに、DMInetはその性質上非常に柔軟であり、アーキテクチャに大きな変更を加えることなく、他の特性予測の可能性を持っている。 最後に、DMInetのアーキテクチャは一般的なものであり、透過と選択を含む他の膜問題にも適用できる。

Drug membrane interaction is a very significant bioprocess to consider in drug discovery. Here, we propose a novel deep learning framework coined DMInet to study drug-membrane interactions that leverages large-scale Martini coarse-grained molecular simulations of permeation of drug-like molecules across six different lipid membranes. The network of DMInet receives three inputs, viz, the drug-like molecule, membrane type and spatial distance across membrane thickness, and predicts the potential of mean force with structural resolution across the lipid membrane and membrane selectivity. Inheriting from coarse-grained Martini representation of organic molecules and combined with deep learning, DMInet has the potential for more accelerated high throughput screening in drug discovery across a much larger chemical space than that can be explored by physics-based simulations alone. Moreover, DMInet is highly flexible in its nature and holds the possibilities for other properties prediction without significant change of the architecture. Last but not least, the architecture of DMInet is general and can be applied to other membrane problems involving permeation and selection.
翻訳日:2021-06-01 02:37:25 公開日:2021-05-27
# (参考訳) iii型太陽電波バースト検出と分類:深層学習によるアプローチ

Type III solar radio burst detection and classification: A deep learning approach ( http://arxiv.org/abs/2105.13387v1 )

ライセンス: CC BY 4.0
Jeremiah Scully, Ronan Flynn, Eoin Carley, Peter Gallagher and Mark Daly(参考訳) 太陽電波バースト (solar radio burst, srbs) は一般的にダイナミックスペクトルで観測され、タイプiからタイプvまでのスペクトル分類は、その形状と周波数と時間によって異なる。 その複雑な特徴から、太陽電波物理学における課題は、そのような電波バーストの自動検出と分類である。 SRBの分類は、Low-Frequency ARray (LOFAR) のような先進的な電波望遠鏡によって生成される大きなデータ率により、近年は基本となっている。 現在の最先端アルゴリズムは、画像内の予め定義されたパラメトリック形状を検出する手段として、ハフまたはラドン変換を実装している。 これらのアルゴリズムは、電波バーストの種類に応じて最大84%の精度を達成している。 その他のテクニックとしては、動的スペクトルにおけるノイズ除去と適応しきい値を用いて本質的に電波バーストを検出する、Constant-FalseAlarm-Rate検出に依存するプロシージャがある。 様々な種類の無線バーストでうまく動作し、最大70%の精度を実現している。 本研究では、太陽電波バースト分類のためのYou Only Look Once v2 (YOLOv2) という方法論を導入する。 Type IIIシミュレーション手法を用いることで、実際のIII型太陽放射バーストをAccuでリアルタイムで分類するアルゴリズムを訓練することができる。

Solar Radio Bursts (SRBs) are generally observed in dynamic spectra and have five major spectral classes, labelled Type I to Type V depending on their shape and extent in frequency and time. Due to their complex characterisation, a challenge in solar radio physics is the automatic detection and classification of such radio bursts. Classification of SRBs has become fundamental in recent years due to large data rates generated by advanced radio telescopes such as the LOw-Frequency ARray, (LOFAR). Current state-of-the-art algorithms implement the Hough or Radon transform as a means of detecting predefined parametric shapes in images. These algorithms achieve up to 84% accuracy, depending on the Type of radio burst being classified. Other techniques include procedures that rely on Constant-FalseAlarm-Rate detection, which is essentially detection of radio bursts using a de-noising and adaptive threshold in dynamic spectra. It works well for a variety of different Types of radio bursts and achieves an accuracy of up to 70%. In this research, we are introducing a methodology named You Only Look Once v2 (YOLOv2) for solar radio burst classification. By using Type III simulation methods we can train the algorithm to classify real Type III solar radio bursts in real-time at an accu
翻訳日:2021-06-01 02:30:17 公開日:2021-05-27
# (参考訳) 組織グラフにおけるコミュニケーションのプライバシーと秘密性について

On Privacy and Confidentiality of Communications in Organizational Graphs ( http://arxiv.org/abs/2105.13418v1 )

ライセンス: CC BY 4.0
Masoumeh Shafieinejad and Huseyin Inan and Marcello Hasegawa and Robert Sim(参考訳) 企業内のeメールなどの組織的コミュニケーションデータに基づいてトレーニングされた機械学習モデルは、たとえモデルが内部使用のみを意図していたとしても、機密性に違反する独自のリスクを負う。 この研究は、企業におけるプライバシーと機密性がどのように異なるかを示し、差分プライバシーの原則を生かしながら機密性を保存するためのアプローチを定式化することを目的としている。 目標は、言語モデル学習やトピック分析といった機械学習タスクを実行し、組織内で共有される機密情報を学習することなく、組織内の対人コミュニケーションを使用することである。 自然言語処理タスクに差分プライバシー技術を適用する作業は通常、独立して分散データを仮定し、レコード間の潜在的な相関を見落としている。 この相関を無視することは、架空のプライバシーの約束をもたらす。 ディファレンシャルプライバシのテクニックを、レコードレベルのプライバシではなくグループプライバシに拡張することは、この問題を軽減するための直接的なアプローチである。 このアプローチは、より現実的なプライバシー保証を提供するが、過度に注意し、モデルユーティリティに深刻な影響を与える。 2つの言語タスクにおけるこの2つの極端なプライバシー対策のギャップを示し、中間的な解決策を導入する。 本稿では,ソーシャルネットワークグラフの相関関係を捉えるモデルを提案し,この相関関係をPufferfishのプライバシー原則によるプライバシー計算に組み込む。

Machine learned models trained on organizational communication data, such as emails in an enterprise, carry unique risks of breaching confidentiality, even if the model is intended only for internal use. This work shows how confidentiality is distinct from privacy in an enterprise context, and aims to formulate an approach to preserving confidentiality while leveraging principles from differential privacy. The goal is to perform machine learning tasks, such as learning a language model or performing topic analysis, using interpersonal communications in the organization, while not learning about confidential information shared in the organization. Works that apply differential privacy techniques to natural language processing tasks usually assume independently distributed data, and overlook potential correlation among the records. Ignoring this correlation results in a fictional promise of privacy. Naively extending differential privacy techniques to focus on group privacy instead of record-level privacy is a straightforward approach to mitigate this issue. This approach, although providing a more realistic privacy-guarantee, is over-cautious and severely impacts model utility. We show this gap between these two extreme measures of privacy over two language tasks, and introduce a middle-ground solution. We propose a model that captures the correlation in the social network graph, and incorporates this correlation in the privacy calculations through Pufferfish privacy principles.
翻訳日:2021-06-01 02:20:38 公開日:2021-05-27
# (参考訳) オンライン自動実験による生産システムのモデル選択

Model Selection for Production System via Automated Online Experiments ( http://arxiv.org/abs/2105.13420v1 )

ライセンス: CC BY 4.0
Zhenwen Dai, Praveen Chandar, Ghazal Fazelnia, Ben Carterette, Mounia Lalmas-Roelleke(参考訳) 業界で機械学習の実践者が直面する課題は、本番環境でデプロイする最良のモデルを選択することだ。 モデルはしばしばプロダクションシステムの中間的なコンポーネントであるため、a/bテストのようなオンライン制御実験はシステム全体の有効性を最も信頼できる評価を与えるが、予算上の制約のため2つまたは数つのモデルしか比較できない。 少数のオンライン実験を伴って,大規模なモデルプールからモデル選択を効率的に行うことができるオンライン自動実験機構を提案する。 我々は、履歴ログを用いて訓練したベイズ式サロゲートモデルからモデル不確実性を含む関心の計量の確率分布を導出する。 本手法は,探索-探索のバランスをとる候補集合からモデルのリストを逐次選択し,配置することにより,最適なモデルを特定する。 実データに基づくシミュレーションを用いて、2つの異なるタスクに対する提案手法の有効性を実証する。

A challenge that machine learning practitioners in the industry face is the task of selecting the best model to deploy in production. As a model is often an intermediate component of a production system, online controlled experiments such as A/B tests yield the most reliable estimation of the effectiveness of the whole system, but can only compare two or a few models due to budget constraints. We propose an automated online experimentation mechanism that can efficiently perform model selection from a large pool of models with a small number of online experiments. We derive the probability distribution of the metric of interest that contains the model uncertainty from our Bayesian surrogate model trained using historical logs. Our method efficiently identifies the best model by sequentially selecting and deploying a list of models from the candidate set that balance exploration-exploitation. Using simulations based on real data, we demonstrate the effectiveness of our method on two different tasks.
翻訳日:2021-06-01 02:04:28 公開日:2021-05-27
# (参考訳) Sinan: データ駆動でQoS対応のマイクロサービスクラスタ管理

Sinan: Data-Driven, QoS-Aware Cluster Management for Microservices ( http://arxiv.org/abs/2105.13424v1 )

ライセンス: CC BY 4.0
Yanqi Zhang, Weizhe Hua, Zhuangzhuang Zhou, Edward Suh, Christina Delimitrou(参考訳) クラウドアプリケーションはますます、巨大なモノリシックサービスから、疎結合で専門的なマイクロサービスへとシフトしつつある。 開発、デプロイ、モジュール性、分離を容易にするという点では優位性があるが、マイクロサービスはリソース管理を複雑にしている。 オンラインおよびqos対応のインタラクティブクラウドマイクロサービスのためのデータ駆動型クラスタマネージャであるsinanを紹介する。 sinan氏は、スケーラブルで検証可能なマシンラーニングモデルセットを活用して、マイクロサービス間の依存関係のパフォーマンスへの影響を判断し、エンドツーエンドのレイテンシ目標を維持する方法で、層毎に適切なリソースを割り当てる。 私たちはSinanを、専用のローカルクラスタとGoogle Compute Engine(GCE)上の大規模デプロイメントの両方に、ソーシャルネットワークやホテル予約サイトなど、マイクロサービスで構築された代表的なエンドツーエンドアプリケーションを評価します。 予測不能なパフォーマンスやリソース効率の犠牲につながる先行作業とは対照的に,sinanは常にqosを満たしていると同時に,クラスタ利用率も高いことが分かる。 さらに、Sinanのテクニックは説明可能である。つまり、クラウドオペレータは予測不可能なパフォーマンスを減らすために、アプリケーションのデプロイと設計をより良くする方法に関するMLモデルから洞察を得ることができる。

Cloud applications are increasingly shifting from large monolithic services, to large numbers of loosely-coupled, specialized microservices. Despite their advantages in terms of facilitating development, deployment, modularity, and isolation, microservices complicate resource management, as dependencies between them introduce backpressure effects and cascading QoS violations. We present Sinan, a data-driven cluster manager for interactive cloud microservices that is online and QoS-aware. Sinan leverages a set of scalable and validated machine learning models to determine the performance impact of dependencies between microservices, and allocate appropriate resources per tier in a way that preserves the end-to-end tail latency target. We evaluate Sinan both on dedicated local clusters and large-scale deployments on Google Compute Engine (GCE) across representative end-to-end applications built with microservices, such as social networks and hotel reservation sites. We show that Sinan always meets QoS, while also maintaining cluster utilization high, in contrast to prior work which leads to unpredictable performance or sacrifices resource efficiency. Furthermore, the techniques in Sinan are explainable, meaning that cloud operators can yield insights from the ML models on how to better deploy and design their applications to reduce unpredictable performance.
翻訳日:2021-06-01 01:43:57 公開日:2021-05-27
# (参考訳) GuideMe:グローバル位置決めシステムに基づくモバイルアプリケーションとスマートツーリストガイドに向けたオブジェクト認識

GuideMe: A Mobile Application based on Global Positioning System and Object Recognition Towards a Smart Tourist Guide ( http://arxiv.org/abs/2105.13426v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Anmar Abuhamdah, Maha Driss, Slim Kammoun, Jawad Ahmad(参考訳) 訪問する観光地に関する情報を見つけることは、異なる国を訪れている人々が直面する困難な問題である。 この問題は、人々が異なる国から来て、異なる言語を話し、社会のあらゆる部分から来ているときに強調される。 この文脈では、参詣者や巡礼者は、聖地を訪れる際に適切な道を見つけるために重要な問題に直面している。 本稿では,ユーザが与えられた聖地に対して,簡単かつ直感的に適切な道を見つけるためのモバイルアプリケーションを提案する。 この目的を達成するために,(1)手動探索,(2)神聖な場所とそれに対応する道順を特定するGPS位置,(3)来訪者が撮影した画像を分析して神聖な場所を決定する深層学習(DL)に基づく方法の3つの選択肢が開発されている。 実験は、訪問した聖地に対して適切な doaa を提供することで、提案するモバイルアプリケーションの優れた性能を示す。

Finding information about tourist places to visit is a challenging problem that people face while visiting different countries. This problem is accentuated when people are coming from different countries, speak different languages, and are from all segments of society. In this context, visitors and pilgrims face important problems to find the appropriate doaas when visiting holy places. In this paper, we propose a mobile application that helps the user find the appropriate doaas for a given holy place in an easy and intuitive manner. Three different options are developed to achieve this goal: 1) manual search, 2) GPS location to identify the holy places and therefore their corresponding doaas, and 3) deep learning (DL) based method to determine the holy place by analyzing an image taken by the visitor. Experiments show good performance of the proposed mobile application in providing the appropriate doaas for visited holy places.
翻訳日:2021-06-01 01:22:20 公開日:2021-05-27
# (参考訳) PIVデータの機械学習再構成のためのフローベース特徴と検証基準

Flow based features and validation metric for machine learning reconstruction of PIV data ( http://arxiv.org/abs/2105.13429v1 )

ライセンス: CC BY 4.0
Ghasem Akbari, Nader Montazerin(参考訳) 物理指向アプローチによる実際のスパースデータからのフローフィールドの再構築は、AIコミュニティにおける流体科学者の現在の課題である。 問題は、再構成されたデータを生成するために、データを物理的な特徴空間にリンクするAIアルゴリズムの機能認識と実装を含む。 本稿では, ターボ機械PIV計測の欠落データ復元のための流体力学を応用した, 異なる流れ特性の寄与を機械学習を用いて研究する。 支持ベクトル回帰(SVR)と多層パーセプトロン(MLP)は非線形流体現象をモデル化可能な2つの頑健な回帰器として選択される。 提案するフローベースの機能は最適な構成を抽出するために最適にスケールされフィルタされる。 従来のデータに基づく回帰器の検証に加えて, 物質保存則を物理フロー再生の重要な要件とする計量法が提案されている。 クラスタ化欠落データの25%を含む速度場において、R2スコアでSVRが達成した再現精度は、最大0.981のMLPに比べて、平面内速度ベクトルに対して0.993である。 質量保存距離の面では、R2スコアによるSVRモデルは、MLP推定器よりもかなり正確である。 空隙率75%の極小データに対して,SVRおよびMLPのベクトルおよび輪郭プロットは元のフィールドと一致していた。

Reconstruction of flow field from real sparse data by a physics-oriented approach is a current challenge for fluid scientists in the AI community. The problem includes feature recognition and implementation of AI algorithms that link data to a physical feature space in order to produce reconstructed data. The present article applies machine learning approach to study contribution of different flow-based features with practical fluid mechanics applications for reconstruction of the missing data of turbomachinery PIV measurements. Support vector regression (SVR) and multi-layer perceptron (MLP) are selected as two robust regressors capable of modelling non-linear fluid flow phenomena. The proposed flow-based features are optimally scaled and filtered to extract the best configuration. In addition to conventional data-based validation of the regressors, a metric is proposed that reflects mass conservation law as an important requirement for a physical flow reproduction. For a velocity field including 25% of clustered missing data, the reconstruction accuracy achieved by SVR in terms of R2-score is as high as 0.993 for the in-plane velocity vectors in comparison with that obtained by MLP which is up to 0.981. In terms of mass conservation metric, the SVR model by R2-score up to 0.96 is considerably more accurate than the MLP estimator. For extremely sparse data with a gappiness of 75%, vector and contour plots from SVR and MLP were consistent with those of the original field.
翻訳日:2021-06-01 01:14:50 公開日:2021-05-27
# (参考訳) CAMH COVID-19メンタルヘルスデータのマルチクラス分類

Explainable Multi-class Classification of the CAMH COVID-19 Mental Health Data ( http://arxiv.org/abs/2105.13430v1 )

ライセンス: CC BY 4.0
YuanZheng Hu and Marina Sokolova(参考訳) 機械学習のアルゴリズムを医療分野に適用することは、医学知識の進歩に役立つ新しいトレンドである。 同時に、情報的、透明で、解釈可能な機械学習アルゴリズムの使用を促進する説明可能な研究が欠如している。 本稿では,Covid-19のメンタルヘルスデータの多クラス分類について説明する。 機械学習研究では、コビッドウイルスのパンデミックにおいて、個人のメンタルヘルスに影響を与える潜在的な要因を見つけることを目的としている。 ランダムフォレスト (rf) と勾配昇降 (gb) はそれぞれ68.08%, 68.19%と高い精度を示し, rfでは65.5%, gbでは61.8%のライム予測精度を示した。 次に、得られた機械学習結果を説明する能力として、ポストホックシステム(ローカル解釈可能なモデル非依存記述(LIME))とアンテホックシステム(Gini Importance)を比較した。 この研究は、新型コロナウイルス(covid-19)パンデミックで収集されたメンタルヘルスデータに関する、最初の説明可能な機械学習研究です。

Application of Machine Learning algorithms to the medical domain is an emerging trend that helps to advance medical knowledge. At the same time, there is a significant a lack of explainable studies that promote informed, transparent, and interpretable use of Machine Learning algorithms. In this paper, we present explainable multi-class classification of the Covid-19 mental health data. In Machine Learning study, we aim to find the potential factors to influence a personal mental health during the Covid-19 pandemic. We found that Random Forest (RF) and Gradient Boosting (GB) have scored the highest accuracy of 68.08% and 68.19% respectively, with LIME prediction accuracy 65.5% for RF and 61.8% for GB. We then compare a Post-hoc system (Local Interpretable Model-Agnostic Explanations, or LIME) and an Ante-hoc system (Gini Importance) in their ability to explain the obtained Machine Learning results. To the best of these authors knowledge, our study is the first explainable Machine Learning study of the mental health data collected during Covid-19 pandemics.
翻訳日:2021-06-01 01:13:34 公開日:2021-05-27
# (参考訳) 非負行列分解アルゴリズムはトピックモデル適合を大幅に改善する

Non-negative matrix factorization algorithms greatly improve topic model fits ( http://arxiv.org/abs/2105.13440v1 )

ライセンス: CC BY 4.0
Peter Carbonetto, Abhishek Sarkar, Zihao Wang and Matthew Stephens(参考訳) 非負行列因数分解(NMF)アルゴリズムを用いてトピックモデルにおけるパラメータ推定を改善する可能性について報告する。 いくつかの論文ではNMFとトピックモデル間の接続について研究しているが、これらの接続を活用してトピックモデルに適合する新しいアルゴリズムを開発することは提案されていない。 重要なことに、NMFはトピックモデルパラメータの「sum-to-one」制約を避け、より単純な構造とより効率的な計算を伴う最適化問題をもたらす。 NMFの最適化アルゴリズムの最近の進歩に基づき、まずNMFの問題を解き、トピックモデルに適合する問題を解くことにより、トピックモデルに対する標準的なアルゴリズムよりもはるかに優れた適合性が得られることを示す。 我々は主に最大推定に焦点をあてるが、本手法は話題モデルの変分推論を改善する可能性も示している。 我々のメソッドはRパッケージfastTopicsに実装されています。

We report on the potential for using algorithms for non-negative matrix factorization (NMF) to improve parameter estimation in topic models. While several papers have studied connections between NMF and topic models, none have suggested leveraging these connections to develop new algorithms for fitting topic models. Importantly, NMF avoids the "sum-to-one" constraints on the topic model parameters, resulting in an optimization problem with simpler structure and more efficient computations. Building on recent advances in optimization algorithms for NMF, we show that first solving the NMF problem then recovering the topic model fit can produce remarkably better fits, and in less time, than standard algorithms for topic models. While we focus primarily on maximum likelihood estimation, we show that this approach also has the potential to improve variational inference for topic models. Our methods are implemented in the R package fastTopics.
翻訳日:2021-06-01 00:57:16 公開日:2021-05-27
# (参考訳) 確率勾配降下のソボレフ正則化効果

The Sobolev Regularization Effect of Stochastic Gradient Descent ( http://arxiv.org/abs/2105.13462v1 )

ライセンス: CC BY 4.0
Chao Ma, Lexing Ying(参考訳) ニューラルネットワークの第1層におけるパラメータと入力データの乗算構造について検討し、パラメータに対する損失関数のランドスケープと入力データに対するモデル関数のランドスケープとの接続を構築する。 この関係により、フラットミニマはモデル関数の勾配を正則化し、フラットミニマのよい一般化性能を説明することが示される。 次に、平坦性を超えて勾配雑音の高次モーメントを考察し、sgd(sastic gradient dascent)が大域ミニマ周辺のsgdの線形安定性解析によってこれらのモーメントに制約を課す傾向があることを示す。 乗法構造とともに,SGDのソボレフ正則化効果,すなわちソボレフ正則化効果を同定する。 SGDは入力データに関してモデル関数のソボレフ半ノルムを正規化する。 最後に、データ分布の仮定の下でSGDで見つかる解に対して、一般化誤差と対向ロバスト性のためのバウンダリを提供する。

The multiplicative structure of parameters and input data in the first layer of neural networks is explored to build connection between the landscape of the loss function with respect to parameters and the landscape of the model function with respect to input data. By this connection, it is shown that flat minima regularize the gradient of the model function, which explains the good generalization performance of flat minima. Then, we go beyond the flatness and consider high-order moments of the gradient noise, and show that Stochastic Gradient Dascent (SGD) tends to impose constraints on these moments by a linear stability analysis of SGD around global minima. Together with the multiplicative structure, we identify the Sobolev regularization effect of SGD, i.e. SGD regularizes the Sobolev seminorms of the model function with respect to the input data. Finally, bounds for generalization error and adversarial robustness are provided for solutions found by SGD under assumptions of the data distribution.
翻訳日:2021-06-01 00:02:09 公開日:2021-05-27
# (参考訳) データ依存型動的学習率によるトレーニング

Training With Data Dependent Dynamic Learning Rates ( http://arxiv.org/abs/2105.13464v1 )

ライセンス: CC BY 4.0
Shreyas Saxena, Nidhi Vyas, Dennis DeCoste(参考訳) 近年、深層ニューラルネットワーク(dnn)の訓練を容易にするために、sgdの1次および2次変種が提案されている。 これらの作業の一般的な制限は、データセットに存在するすべてのインスタンスで同じ学習率を使用しているという事実にある。 この設定は、各インスタンスの損失関数が本質的に類似しているという仮定の下で広く採用されており、共通の学習率を用いることができる。 本稿では,この仮定を緩和し,インスタンス間の損失関数特性の違いを考慮した最適化フレームワークを提案する。 具体的には、データセットに存在する各インスタンスの動的学習率について学習する。 各インスタンスに対する動的学習率の学習により、最適化フレームワークは最適化中のトレーニングデータのさまざまなモードに集中することができます。 画像分類タスクに適用すると、異なるCNNアーキテクチャで動的学習率が標準オプティマイザよりも一貫して向上する。 破損したインスタンスを含むデータセットに適用した場合、我々のフレームワークはノイズの多いインスタンスの学習率を低減し、最先端技術よりも改善する。 最後に,機械学習モデルから既知のターゲットデータ分布へのパーソナライズに,我々の最適化フレームワークが利用できることを示す。

Recently many first and second order variants of SGD have been proposed to facilitate training of Deep Neural Networks (DNNs). A common limitation of these works stem from the fact that they use the same learning rate across all instances present in the dataset. This setting is widely adopted under the assumption that loss functions for each instance are similar in nature, and hence, a common learning rate can be used. In this work, we relax this assumption and propose an optimization framework which accounts for difference in loss function characteristics across instances. More specifically, our optimizer learns a dynamic learning rate for each instance present in the dataset. Learning a dynamic learning rate for each instance allows our optimization framework to focus on different modes of training data during optimization. When applied to an image classification task, across different CNN architectures, learning dynamic learning rates leads to consistent gains over standard optimizers. When applied to a dataset containing corrupt instances, our framework reduces the learning rates on noisy instances, and improves over the state-of-the-art. Finally, we show that our optimization framework can be used for personalization of a machine learning model towards a known targeted data distribution.
翻訳日:2021-05-31 23:36:53 公開日:2021-05-27
# (参考訳) 現代言語モデルで符号化された概念知識グラフの検査

Inspecting the concept knowledge graph encoded by modern language models ( http://arxiv.org/abs/2105.13471v1 )

ライセンス: CC BY 4.0
Carlos Aspillaga, Marcelo Mendoza, Alvaro Soto(参考訳) 自然言語理解の分野はここ数年で指数関数的に進歩し、いくつかのタスクで印象的な結果が得られた。 この成功は、研究者がこれらのモデルによって符号化された基礎知識を研究する動機となった。 それにもかかわらず、それらの意味的能力を理解する試みは成功せず、しばしば異なる作品の間で非決定的あるいは矛盾する結論に至る。 探索型分類器を用いて,単語埋め込み,テキスト生成,コンテキストエンコーダなど,過去9年間で最も影響力のある言語モデルの知識グラフを抽出する。 このプローブはWordNetに基づく概念関連性に基づいている。 その結果、すべてのモデルがこの知識をエンコードしているが、いくつかの不正確さに苦しむことが明らかとなった。 さらに,異なるアーキテクチャとトレーニング戦略が異なるモデルバイアスをもたらすことを示す。 我々は、ある概念がなぜ難しいのかを説明する特定の要因を発見するために、体系的な評価を行う。 私たちの洞察が、概念をより正確に捉えるモデルの開発を動機付けることを期待しています。

The field of natural language understanding has experienced exponential progress in the last few years, with impressive results in several tasks. This success has motivated researchers to study the underlying knowledge encoded by these models. Despite this, attempts to understand their semantic capabilities have not been successful, often leading to non-conclusive, or contradictory conclusions among different works. Via a probing classifier, we extract the underlying knowledge graph of nine of the most influential language models of the last years, including word embeddings, text generators, and context encoders. This probe is based on concept relatedness, grounded on WordNet. Our results reveal that all the models encode this knowledge, but suffer from several inaccuracies. Furthermore, we show that the different architectures and training strategies lead to different model biases. We conduct a systematic evaluation to discover specific factors that explain why some concepts are challenging. We hope our insights will motivate the development of models that capture concepts more precisely.
翻訳日:2021-05-31 23:26:07 公開日:2021-05-27
# (参考訳) sars-cov-2ウイルス負荷分布の非パラメトリックベイズ因果モデルvs. 患者の年齢

Non-parametric Bayesian Causal Modeling of the SARS-CoV-2 Viral Load Distribution vs. Patient's Age ( http://arxiv.org/abs/2105.13483v1 )

ライセンス: CC BY 4.0
Matteo Guardiani, Philipp Frank, Andrija Kosti\'c, Gordian Edenhofer, Jakob Roth, Berit Uhlmann, Torsten En{\ss}lin(参考訳) SARS-CoV-2に感染した患者のウイルス量は対数スケールや年齢によって異なる。 ウイルスの負荷分布が患者の年齢に依存するかどうかに関する文献では、議論の的となっている。 このような依存は、新型コロナウイルスの拡散機構、年齢依存性免疫系反応、つまり政策形成に影響を及ぼす。 本稿では,患者年齢の関数としてのウイルス負荷分布データを,柔軟で非パラメトリック,階層的,ベイズ的,因果的モデルで解析する手法を開発した。 この方法は、他の文脈にも適用でき、この目的のために自由に利用できる。 開発した再構成法では,データのバイアスの検証も可能である。 これは例えば、患者の検査とデータ収集のバイアスや、ウイルス負荷の測定における系統的なエラーによる可能性がある。 これらの実験は,各因果方向のベイズ的証拠を計算して行う。 これらの検査を公開年齢とSARS-CoV-2ウイルス負荷データに適用すると、年齢とともにウイルス負荷が統計的に顕著に増加するが、分析された2つのデータセットのうちの1つに限られる。 このデータセットを考察し、ウイルス負荷が患者の感染率に与える影響の現在の理解に基づいて、異なる年齢集団の感染率に非無視的な違いが期待できる。 この違いは、いかなる年齢層も感染しないと考えるには小さすぎる。

The viral load of patients infected with SARS-CoV-2 varies on logarithmic scales and possibly with age. Controversial claims have been made in the literature regarding whether the viral load distribution actually depends on the age of the patients. Such a dependence would have implications for the COVID-19 spreading mechanism, the age-dependent immune system reaction, and thus for policymaking. We hereby develop a method to analyze viral-load distribution data as a function of the patients' age within a flexible, non-parametric, hierarchical, Bayesian, and causal model. This method can be applied to other contexts as well, and for this purpose, it is made freely available. The developed reconstruction method also allows testing for bias in the data. This could be due to, e.g., bias in patient-testing and data collection or systematic errors in the measurement of the viral load. We perform these tests by calculating the Bayesian evidence for each implied possible causal direction. When applying these tests to publicly available age and SARS-CoV-2 viral load data, we find a statistically significant increase in the viral load with age, but only for one of the two analyzed datasets. If we consider this dataset, and based on the current understanding of viral load's impact on patients' infectivity, we expect a non-negligible difference in the infectivity of different age groups. This difference is nonetheless too small to justify considering any age group as noninfectious.
翻訳日:2021-05-31 23:08:47 公開日:2021-05-27
# (参考訳) 新たな視点から学ぶ

Learning to Stylize Novel Views ( http://arxiv.org/abs/2105.13509v1 )

ライセンス: CC BY 4.0
Hsin-Ping Huang, Hung-Yu Tseng, Saurabh Saini, Maneesh Singh, Ming-Hsuan Yang(参考訳) 我々は,同じシーンの画像の集合と所望のスタイルの参照画像が入力として与えられた任意の新規ビューから,シーンのスタイリング画像を生成する3Dシーンスタイリング問題に取り組む。 新規なビュー合成とスタイル化アプローチを組み合わせる直接的なソリューションは、異なるビュー間でぼやけたり一貫性のない結果をもたらす。 本稿では,一貫した3次元シーンスタイリングのためのポイントクラウド方式を提案する。 まず,画像特徴を3次元空間にバックプロジェクションすることで点雲を構築する。 第2に、3次元シーンのスタイル情報を収集する点群集約モジュールを開発し、それから線形変換行列を用いて点群内の特徴を変調する。 最後に、変換された特徴を2次元空間に投影し、新しいビューを得る。 実世界のシーンの2つの多様なデータセットによる実験結果から,本手法が他の手法に対して一貫したスタイル化された新規ビュー合成結果を生成することを確認した。

We tackle a 3D scene stylization problem - generating stylized images of a scene from arbitrary novel views given a set of images of the same scene and a reference image of the desired style as inputs. Direct solution of combining novel view synthesis and stylization approaches lead to results that are blurry or not consistent across different views. We propose a point cloud-based method for consistent 3D scene stylization. First, we construct the point cloud by back-projecting the image features to the 3D space. Second, we develop point cloud aggregation modules to gather the style information of the 3D scene, and then modulate the features in the point cloud with a linear transformation matrix. Finally, we project the transformed features to 2D space to obtain the novel views. Experimental results on two diverse datasets of real-world scenes validate that our method generates consistent stylized novel view synthesis results against other alternative approaches.
翻訳日:2021-05-31 22:44:10 公開日:2021-05-27
# ニューラルSDEのための効率的かつ正確な勾配

Efficient and Accurate Gradients for Neural SDEs ( http://arxiv.org/abs/2105.13493v1 )

ライセンス: Link先を確認
Patrick Kidger and James Foster and Xuechen Li and Terry Lyons(参考訳) ニューラルSDEは、RNNとSDEの両方の最高の品質を多く組み合わせており、多くの時間力学をモデル化するための自然な選択である。 メモリ効率、高容量関数近似、モデル空間に対する強い先行性を提供する。 ニューラルSDEは、VAEまたはGANとして訓練され、いずれの場合でも、SDE解決を通じてバックプロパゲートする必要がある。 特にこれは、所望のパラメータ勾配を解とする逆向きの SDE を構築することで実現できる。 しかし、これは以前、高い計算複雑性、SDE解決における数値誤差、ブラウン運動の再構成コストなど、厳しい速度と精度の問題に悩まされてきた。 ここでは、これらの問題を克服するためにいくつかの技術革新を行います。 まず,代数的に可逆な新しいSDE解法である可逆Hun法を導入し,数値勾配誤差をほぼゼロに減らし,最先端よりもかなりのマージンでいくつかのテスト指標を改善した。 さらに、同等のソルバの半分の関数評価が必要で、最大で1.98\times$ speedupとなる。 次に、ブラウン間隔を紹介する。 これはブラウン運動を正確にサンプリングし再構成する新しい計算効率の良い方法であり、近似的かつ比較的遅い以前の再構成技術とは対照的である。 これにより、従来の技術よりも10.6\times$スピードが向上する。 その後、神経SDEをGAN(Kidger et al)として訓練する。 2021) で, SDE-GAN を慎重に切断し, 活性化機能の選択によってどのように訓練するかを示した。 これにより計算コスト(最大$1.87\times$スピードアップ)が削減され、勾配のペナルティに必要な二重共役のトランケーションエラーが取り除かれ、いくつかのテストメトリクスが大幅に改善される。 これらの技術は、最先端技術よりも大幅に改善されている。

Neural SDEs combine many of the best qualities of both RNNs and SDEs, and as such are a natural choice for modelling many types of temporal dynamics. They offer memory efficiency, high-capacity function approximation, and strong priors on model space. Neural SDEs may be trained as VAEs or as GANs; in either case it is necessary to backpropagate through the SDE solve. In particular this may be done by constructing a backwards-in-time SDE whose solution is the desired parameter gradients. However, this has previously suffered from severe speed and accuracy issues, due to high computational complexity, numerical errors in the SDE solve, and the cost of reconstructing Brownian motion. Here, we make several technical innovations to overcome these issues. First, we introduce the reversible Heun method: a new SDE solver that is algebraically reversible -- which reduces numerical gradient errors to almost zero, improving several test metrics by substantial margins over state-of-the-art. Moreover it requires half as many function evaluations as comparable solvers, giving up to a $1.98\times$ speedup. Next, we introduce the Brownian interval. This is a new and computationally efficient way of exactly sampling and reconstructing Brownian motion; this is in contrast to previous reconstruction techniques that are both approximate and relatively slow. This gives up to a $10.6\times$ speed improvement over previous techniques. After that, when specifically training Neural SDEs as GANs (Kidger et al. 2021), we demonstrate how SDE-GANs may be trained through careful weight clipping and choice of activation function. This reduces computational cost (giving up to a $1.87\times$ speedup), and removes the truncation errors of the double adjoint required for gradient penalty, substantially improving several test metrics. Altogether these techniques offer substantial improvements over the state-of-the-art.
翻訳日:2021-05-31 13:56:06 公開日:2021-05-27
# オープンワールド機械学習: アプリケーション、挑戦、機会

Open-world Machine Learning: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2105.13448v1 )

ライセンス: Link先を確認
Jitendra Parmar, Satyendra Singh Chouhan and Santosh Singh Rathore(参考訳) 従来の機械学習、特に教師付き学習は、クローズドワールド学習の仮定に従っている。 しかし、このような機械学習モデルは、トレーニング中に使用できなかったクラスを識別できない。 これらのクラスをunseenクラスと呼ぶことができる。 一方、オープンワールド機械学習は、機械学習システムに対する任意の入力(未認識のクラスを含むデータ)を扱う。 さらに、従来の機械学習は、視点とソース、および/またはデータ量が急速に変化するアクティブな環境には適さない静的学習である。 本稿では,まず,実世界の文脈を重視したオープンワールド学習の概要について述べる。 次に,オープンワールド学習の異なる次元を考察し,考察する。 オープンワールド学習の分野は、この10年だけで研究コミュニティの注目を集めた。 私たちは、さまざまなオンラインデジタルライブラリを検索し、過去10年間に行われた作業を調査しました。 本稿では,オープンワールド機械学習のための様々な手法を体系的に検討する。 また、オープンワールド学習における研究のギャップ、課題、そして今後の方向性を示す。 本稿では,オープンワールド学習の包括的発展と,研究を適切な領域に広げる可能性の理解を支援する。 さらに、適用可能な方法論やデータセットの選択にも役立ちます。

Traditional machine learning especially supervised learning follows the assumptions of closed-world learning i.e., for each testing class a training class is available. However, such machine learning models fail to identify the classes which were not available during training time. These classes can be referred to as unseen classes. Whereas, open-world machine learning deals with arbitrary inputs (data with unseen classes) to machine learning systems. Moreover, traditional machine learning is static learning which is not appropriate for an active environment where the perspective and sources, and/or volume of data are changing rapidly. In this paper, first, we present an overview of open-world learning with importance to the real-world context. Next, different dimensions of open-world learning are explored and discussed. The area of open-world learning gained the attention of the research community in the last decade only. We have searched through different online digital libraries and scrutinized the work done in the last decade. This paper presents a systematic review of various techniques for open-world machine learning. It also presents the research gaps, challenges, and future directions in open-world learning. This paper will help researchers to understand the comprehensive developments of open-world learning and the likelihoods to extend the research in suitable areas. It will also help to select applicable methodologies and datasets to explore this further.
翻訳日:2021-05-31 13:50:58 公開日:2021-05-27
# 半スーパービジョンオートエンコーダを用いた故障データの分類と不確かさの定量化

Classification and Uncertainty Quantification of Corrupted Data using Semi-Supervised Autoencoders ( http://arxiv.org/abs/2105.13393v1 )

ライセンス: Link先を確認
Philipp Joppich, Sebastian Dorn, Oliver De Candido, Wolfgang Utschick, Jakob Knollm\"uller(参考訳) パラメトリックおよび非パラメトリックな分類器は、ノイズ、オクルージョン、ぼやけなどの腐敗が大きな課題となる現実世界のデータを扱う必要がある。 モデルが非破壊的なデータでのみ訓練されているにもかかわらず、強い破損したデータを分類し、不確実性を定量化する確率論的アプローチを提案する。 破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。 復号部を実データ生成モデルとして用い,畳み込み,マスキング,付加ガウス雑音を用いて不完全性を記述する。 これは、基礎となる未崩壊ダタムの最適潜時空間活性化の観点からの統計的推測タスクを構成する。 この問題は、Metric Gaussian Variational Inference (MGVI) を用いて解決する。 オートエンコーダの潜在空間の監督は、統計的に推定された潜在空間の活性化と不確実性の下で、腐敗したデータを直接分類することを可能にする。 さらに, モデルの不確かさは, 分類が正しいか間違っているかに大きく依存し, 分類の統計的「lie検出器」の基礎を定めている。 それとは独立に、生成モデルは、推定された潜在空間の活性化を復号することにより、未分解のデームを最適に復元できることを示す。

Parametric and non-parametric classifiers often have to deal with real-world data, where corruptions like noise, occlusions, and blur are unavoidable - posing significant challenges. We present a probabilistic approach to classify strongly corrupted data and quantify uncertainty, despite the model only having been trained with uncorrupted data. A semi-supervised autoencoder trained on uncorrupted data is the underlying architecture. We use the decoding part as a generative model for realistic data and extend it by convolutions, masking, and additive Gaussian noise to describe imperfections. This constitutes a statistical inference task in terms of the optimal latent space activations of the underlying uncorrupted datum. We solve this problem approximately with Metric Gaussian Variational Inference (MGVI). The supervision of the autoencoder's latent space allows us to classify corrupted data directly under uncertainty with the statistically inferred latent space activations. Furthermore, we demonstrate that the model uncertainty strongly depends on whether the classification is correct or wrong, setting a basis for a statistical "lie detector" of the classification. Independent of that, we show that the generative model can optimally restore the uncorrupted datum by decoding the inferred latent space activations.
翻訳日:2021-05-31 13:49:14 公開日:2021-05-27
# オブジェクト検出器の教師なしドメイン適応:サーベイ

Unsupervised Domain Adaption of Object Detectors: A Survey ( http://arxiv.org/abs/2105.13502v1 )

ライセンス: Link先を確認
Poojan Oza, Vishwanath A. Sindagi, Vibashan VS, Vishal M. Patel(参考訳) 近年のディープラーニングの進歩は、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出など、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。 しかし、高精度なモデルの学習は、大量の注釈付き画像を含むデータセットの可用性に依存している。 このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。 この問題は一般的に、共変量シフトまたはデータセットバイアスと呼ばれる。 ドメイン適応は、ラベルスカースターゲットデータセットの分類器を学習する際に、関連するドメイン内のラベル付きデータからドメインシフト特性を活用することでこの問題に対処しようとする。 オブジェクト分類とセマンティックセグメンテーションモデルを、教師なしドメイン適応を通じてラベル/スカースターゲットデータセットに適応させる作業は数多く存在する。 オブジェクト検出がコンピュータビジョンの基本的なタスクであることを考えると、最近の多くの研究は、最近オブジェクト検出のドメイン適応問題にも焦点を当てている。 本稿では,オブジェクト検出のための領域適応問題の簡単な紹介と,この問題に対処するために提案されている様々な手法の概要を紹介する。 さらに,この問題に対して提案する戦略と,それに伴う欠点を浮き彫りにする。 次に,この分野の将来研究に最も有望な教師なし領域適応検出問題の複数の側面を明らかにする。 この調査は、コンピュータビジョン、バイオメトリックス、医療画像、自律ナビゲーションの分野で働くパターン認識の専門家にとって、問題にそれらを導入し、進捗状況に精通させ、将来の研究に有望な方向性を提供することにより、有用であると信じている。

Recent advances in deep learning have led to the development of accurate and efficient models for various computer vision applications such as object classification, semantic segmentation, and object detection. However, learning highly accurate models relies on the availability of datasets with a large number of annotated images. Due to this, model performance drops drastically when evaluated on label-scarce datasets having visually distinct images. This issue is commonly referred to as covariate shift or dataset bias. Domain adaptation attempts to address this problem by leveraging domain shift characteristics from labeled data in a related domain when learning a classifier for label-scarce target dataset. There are a plethora of works to adapt object classification and semantic segmentation models to label-scarce target dataset through unsupervised domain adaptation. Considering that object detection is a fundamental task in computer vision, many recent works have recently focused on addressing the domain adaptation issue for object detection as well. In this paper, we provide a brief introduction to the domain adaptation problem for object detection and present an overview of various methods proposed to date for addressing this problem. Furthermore, we highlight strategies proposed for this problem and the associated shortcomings. Subsequently, we identify multiple aspects of the unsupervised domain adaptive detection problem that are most promising for future research in the area. We believe that this survey shall be valuable to the pattern recognition experts working in the fields of computer vision, biometrics, medical imaging, and autonomous navigation by introducing them to the problem, getting them familiar with the current status of the progress, and providing them with promising direction for future research.
翻訳日:2021-05-31 13:48:53 公開日:2021-05-27
# 爆発対注意:オフライン学習におけるリスク感応的政策

Exploitation vs Caution: Risk-sensitive Policies for Offline Learning ( http://arxiv.org/abs/2105.13431v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel(参考訳) 計画のためのオフラインモデル学習は、エージェントが以前に収集された経験の固定バッチを使用して未知の環境でアクションを実行するように訓練する機械学習の分野である。 データセットの限られたサイズは、相対マルコフ決定プロセス(MDP)の値関数の推定を妨げ、実世界で得られたポリシーのパフォーマンスを制限します。 この文脈において、近年の研究では、評価フェーズで使用するものよりも割引率の低いプランニングが、よりパフォーマンスの高いポリシーをもたらすことが示されている。 しかし、最適割引係数はクロスバリデーションによって最終的に選択される。 当社の目標は,ベイズmdpの下位最適化ソリューションを探すことで,オフライン環境で動作している現在のベースラインに対して,パフォーマンスが向上する可能性を示すことです。 そこで我々は,リスクに敏感なベイズ型MDPを,異なる割引係数と遷移ダイナミクスを特徴とする複数のMDPを解くことで得られる一連のポリシーで自動的に選択するアルゴリズムであるExpploitation vs Caution (EvC)を提案する。 一方、ベイズ形式はモデルの不確かさをエレガントに含み、一方、リスクに敏感なユーティリティ関数の導入は堅牢性を保証する。 提案手法を多種多様なMDPクラスを提供する離散的単純環境下で評価した。 また,MOPO や MOReL などの計画ベースラインに対する最先端のオフライン学習と比較した。 テストシナリオでは、EvCは、モデル不確実性の下で計画するための健全な枠組みを定義するために、オフラインリスクに敏感なベイズ MDP (ORBMDP) をサブ最適に解くことを示唆するアプローチよりも堅牢である。

Offline model learning for planning is a branch of machine learning that trains agents to perform actions in an unknown environment using a fixed batch of previously collected experiences. The limited size of the data set hinders the estimate of the Value function of the relative Markov Decision Process (MDP), bounding the performance of the obtained policy in the real world. In this context, recent works showed that planning with a discount factor lower than the one used during the evaluation phase yields more performing policies. However, the optimal discount factor is finally chosen by cross-validation. Our aim is to show that looking for a sub-optimal solution of a Bayesian MDP might lead to better performances with respect to the current baselines that work in the offline setting. Hence, we propose Exploitation vs Caution (EvC), an algorithm that automatically selects the policy that solves a Risk-sensitive Bayesian MDP in a set of policies obtained by solving several MDPs characterized by different discount factors and transition dynamics. On one hand, the Bayesian formalism elegantly includes model uncertainty and on another hand the introduction of a risk-sensitive utility function guarantees robustness. We evaluated the proposed approach in different discrete simple environments offering a fair variety of MDP classes. We also compared the obtained results with state-of-the-art offline learning for planning baselines such as MOPO and MOReL. In the tested scenarios EvC is more robust than the said approaches suggesting that sub-optimally solving an Offline Risk-sensitive Bayesian MDP (ORBMDP) could define a sound framework for planning under model uncertainty.
翻訳日:2021-05-31 13:48:16 公開日:2021-05-27
# リアルタイムライドシェアリングのための学習モデルに基づく配車決定--学習と最適化のハイブリッド化

Learning Model-Based Vehicle-Relocation Decisions for Real-Time Ride-Sharing: Hybridizing Learning and Optimization ( http://arxiv.org/abs/2105.13461v1 )

ライセンス: Link先を確認
Enpeng Yuan, Pascal Van Hentenryck(参考訳) 大規模なライドシェアリングシステムは、リアルタイムのディスパッチと経路最適化を、需要を予測するためにアイドル車両を移動させるモデル予測制御(mpc)コンポーネントと組み合わせている。 mpc最適化は、リアルタイムディスパッチの固有ミオピックな性質を補うために、より長い時間軸で動作します。 これらの長い時間軸は、決定の質には有益であるが、計算の複雑さは増大する。 この計算課題に対処するために,機械学習と最適化を組み合わせたハイブリッドアプローチを提案する。 機械学習コンポーネントは、集約レベルにおけるMPC最適化の最適解を学び、MPCソリューションの空間性と高次元性を克服する。 最適化コンポーネントは、抽出可能な輸送モデルを介して、機械学習予測を元の粒度に戻す。 その結果、元のNPハードMPC問題は多項式時間予測と最適化に還元される。 実験の結果,このハイブリッド手法は,計算限界内で長い時間軸をモデル化できることから,mpc最適化よりもライダー待ち時間を27%削減できることがわかった。

Large-scale ride-sharing systems combine real-time dispatching and routing optimization over a rolling time horizon with a model predictive control(MPC) component that relocates idle vehicles to anticipate the demand. The MPC optimization operates over a longer time horizon to compensate for the inherent myopic nature of the real-time dispatching. These longer time horizons are beneficial for the quality of the decisions but increase computational complexity. To address this computational challenge, this paper proposes a hybrid approach that combines machine learning and optimization. The machine-learning component learns the optimal solution to the MPC optimization on the aggregated level to overcome the sparsity and high-dimensionality of the MPC solutions. The optimization component transforms the machine-learning predictions back to the original granularity via a tractable transportation model. As a consequence, the original NP-hard MPC problem is reduced to a polynomial time prediction and optimization. Experimental results show that the hybrid approach achieves 27% further reduction in rider waiting time than the MPC optimization, thanks to its ability to model a longer time horizon within the computational limits.
翻訳日:2021-05-31 13:47:48 公開日:2021-05-27
# Dyadic CARTによる格子分割回復

Lattice partition recovery with dyadic CART ( http://arxiv.org/abs/2105.13504v1 )

ライセンス: Link先を確認
Oscar Hernan Madrid Padilla, Yi Yu, Alessandro Rinaldo(参考訳) 我々は,d$次元格子上のガウス雑音により分解された断片的定数信号について検討する。 この形式のデータは、自然に多くのアプリケーションで発生し、信号検出やテスト、脱ノイズ、推定のタスクは、統計学や信号処理の文献で広く研究されている。 本稿では, 分割回復問題, すなわち, 未知信号の連続領域によって誘導される格子の分割を, \citep{donoho 1997cart} が提唱した計算効率の良いダイアディック分類と回帰木(DCART)手法を用いて推定する。 We prove that, under appropriate regularity conditions on the shape of the partition elements, a DCART-based procedure consistently estimates the underlying partition at a rate of order $\sigma^2 k^* \log (N)/\kappa^2$, where $k^*$ is the minimal number of rectangular sub-graphs obtained using recursive dyadic partitions supporting the signal partition, $\sigma^2$ is the noise variance, $\kappa$ is the minimal magnitude of the signal difference among contiguous elements of the partition and $N$ is the size of the lattice. さらに、より強い仮定の下では、最小値が最適であることを示すk^*$とは独立に、位数$\sigma^2\log(N)/\kappa^2$のよりシャープな推定誤差が得られる。 この理論的な保証は, <cite{chatterjee2019adaptive} の最適回帰木推定器 (ort) とnp-hard exhaustive search 法による分割推定器 (partition estimator) にさらに拡張される。 シミュレーションにおける分割回復におけるDCARTの有効性と理論的知見の相関について検討した。

We study piece-wise constant signals corrupted by additive Gaussian noise over a $d$-dimensional lattice. Data of this form naturally arise in a host of applications, and the tasks of signal detection or testing, de-noising and estimation have been studied extensively in the statistical and signal processing literature. In this paper we consider instead the problem of partition recovery, i.e.~of estimating the partition of the lattice induced by the constancy regions of the unknown signal, using the computationally-efficient dyadic classification and regression tree (DCART) methodology proposed by \citep{donoho1997cart}. We prove that, under appropriate regularity conditions on the shape of the partition elements, a DCART-based procedure consistently estimates the underlying partition at a rate of order $\sigma^2 k^* \log (N)/\kappa^2$, where $k^*$ is the minimal number of rectangular sub-graphs obtained using recursive dyadic partitions supporting the signal partition, $\sigma^2$ is the noise variance, $\kappa$ is the minimal magnitude of the signal difference among contiguous elements of the partition and $N$ is the size of the lattice. Furthermore, under stronger assumptions, our method attains a sharper estimation error of order $\sigma^2\log(N)/\kappa^2$, independent of $ k^*$, which we show to be minimax rate optimal. Our theoretical guarantees further extend to the partition estimator based on the optimal regression tree estimator (ORT) of \cite{chatterjee2019adaptive} and to the one obtained through an NP-hard exhaustive search method. We corroborate our theoretical findings and the effectiveness of DCART for partition recovery in simulations.
翻訳日:2021-05-31 13:46:57 公開日:2021-05-27
# 時空間的注意を伴う脳コネクトームの動的グラフ表現の学習

Learning Dynamic Graph Representation of Brain Connectome with Spatio-Temporal Attention ( http://arxiv.org/abs/2105.13495v1 )

ライセンス: Link先を確認
Byung-Hoon Kim, Jong Chul Ye, Jae-Jin Kim(参考訳) 脳の領域間の機能的接続(FC)は、機能的ニューロイメージングによる時間的相関度によって評価することができる。 これらのコネクティビティがネットワークを構築するという事実に基づいて、脳コネクティビティを解析するためのグラフベースのアプローチは、人間の脳の機能に関する洞察を提供する。 グラフ構造化データから表現を学習できるグラフニューラルネットワーク(GNN)の開発により、脳コネクトームのグラフ表現の学習への関心が高まっている。 FCネットワークにGNNを適用しようとする最近の試みは有望な結果を示しているが、通常は時間とともに変動するFCネットワークの動的特性を取り入れないという一般的な制限がある。 さらに、GNNの入力として動的FCを使用しようとするいくつかの研究は、静的FC法と比較して性能の低下を報告し、時間的説明性を提供しなかった。 本稿では,脳コネクトームの動的グラフ表現を時空間的注意で学習する方法であるstaginを提案する。 具体的には、脳グラフの時系列シーケンスをスタギンに入力して動的グラフ表現を得る一方、新しい読み出し機能とトランスフォーマエンコーダは、それぞれ注意して空間的及び時間的説明性を提供する。 HCP-RestとHCP-Taskデータセットの実験は,提案手法の優れた性能を示す。 時空間的注意の解析は神経科学知識の同時解釈にも役立ち,本手法をさらに検証する。 コードはhttps://github.com/egyptdj/staginで入手できる。

Functional connectivity (FC) between regions of the brain can be assessed by the degree of temporal correlation measured with functional neuroimaging modalities. Based on the fact that these connectivities build a network, graph-based approaches for analyzing the brain connectome have provided insights into the functions of the human brain. The development of graph neural networks (GNNs) capable of learning representation from graph structured data has led to increased interest in learning the graph representation of the brain connectome. Although recent attempts to apply GNN to the FC network have shown promising results, there is still a common limitation that they usually do not incorporate the dynamic characteristics of the FC network which fluctuates over time. In addition, a few studies that have attempted to use dynamic FC as an input for the GNN reported a reduction in performance compared to static FC methods, and did not provide temporal explainability. Here, we propose STAGIN, a method for learning dynamic graph representation of the brain connectome with spatio-temporal attention. Specifically, a temporal sequence of brain graphs is input to the STAGIN to obtain the dynamic graph representation, while novel READOUT functions and the Transformer encoder provide spatial and temporal explainability with attention, respectively. Experiments on the HCP-Rest and the HCP-Task datasets demonstrate exceptional performance of our proposed method. Analysis of the spatio-temporal attention also provide concurrent interpretation with the neuroscientific knowledge, which further validates our method. Code is available at https://github.com/egyptdj/stagin
翻訳日:2021-05-31 13:44:34 公開日:2021-05-27
# オンライン学習は機械翻訳の評価と出会う:人間の最小の努力で最適なシステムを見つける

Online Learning Meets Machine Translation Evaluation: Finding the Best Systems with the Least Human Effort ( http://arxiv.org/abs/2105.13385v1 )

ライセンス: Link先を確認
V\^ania Mendon\c{c}a (1 and 2), Ricardo Rei (1 and 2 and 3), Luisa Coheur (1 and 2), Alberto Sardinha (1 and 2), Ana L\'ucia Santos (4 and 5) ((1) INESC-ID Lisboa, (2) Instituto Superior T\'ecnico, (3) Unbabel AI, (4) Centro de Lingu\'istica da Universidade de Lisboa, (5) Faculdade de Letras da Universidade de Lisboa)(参考訳) 機械翻訳では、大量の自動翻訳の品質を評価することは困難である。 自動メトリクスは、ハイパフォーマンスなシステムに関しては信頼できない。 また,複数のシステムを評価する場合,人的評価を行うには費用がかかる。 後者の課題を克服するために,機械翻訳システムのアンサンブルが与えられた場合,利用可能な人間のフィードバックを生かして,動的に最善のシステムに収束するオンライン学習の新たな応用を提案する。 WMT'19データセットに対する我々の実験は、我々のオンラインアプローチが、多くの翻訳に対する人間のフィードバックの欠如にもかかわらず、考慮された言語ペアの上位3位のシステムに急速に収束していることを示している。

In Machine Translation, assessing the quality of a large amount of automatic translations can be challenging. Automatic metrics are not reliable when it comes to high performing systems. In addition, resorting to human evaluators can be expensive, especially when evaluating multiple systems. To overcome the latter challenge, we propose a novel application of online learning that, given an ensemble of Machine Translation systems, dynamically converges to the best systems, by taking advantage of the human feedback available. Our experiments on WMT'19 datasets show that our online approach quickly converges to the top-3 ranked systems for the language pairs considered, despite the lack of human feedback for many translations.
翻訳日:2021-05-31 13:42:38 公開日:2021-05-27
# 関係性ゲーティングによる"what if"推論

Relational Gating for "What If" Reasoning ( http://arxiv.org/abs/2105.13449v1 )

ライセンス: Link先を確認
Chen Zheng, Parisa Kordjamshidi(参考訳) 本稿では,テキスト上で手続き的推論を行い,"what if..." 質問に答えることの難しさについて述べる。 本稿では,重要なエンティティと関係をフィルタリングし,手続きと質問の両方の文脈的および横断的な表現を学習し,回答を求める新しい関係ゲーティングネットワークを提案する。 リレーショナルゲーティングネットワークには、エンティティゲーティングモジュール、リレーショナルゲーティングモジュール、コンテキストインタラクションモジュールが含まれています。 これらのモジュールは、"What if ..."推論問題の解決に役立つ。 ペア関係のモデル化は、高次関係を捉え、手続き記述における原因と効果の推論の線を見つけるのに役立つ。 提案手法は,WIQAデータセットの最先端結果を実現する。

This paper addresses the challenge of learning to do procedural reasoning over text to answer "What if..." questions. We propose a novel relational gating network that learns to filter the key entities and relationships and learns contextual and cross representations of both procedure and question for finding the answer. Our relational gating network contains an entity gating module, relation gating module, and contextual interaction module. These modules help in solving the "What if..." reasoning problem. We show that modeling pairwise relationships helps to capture higher-order relations and find the line of reasoning for causes and effects in the procedural descriptions. Our proposed approach achieves the state-of-the-art results on the WIQA dataset.
翻訳日:2021-05-31 13:42:27 公開日:2021-05-27
# 知識強化集団推論による共同生体医学的実体と関係抽出

Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference ( http://arxiv.org/abs/2105.13456v1 )

ライセンス: Link先を確認
Tuan Lai, Heng Ji, ChengXiang Zhai, and Quan Hung Tran(参考訳) 一般的なニュースドメインと比較して、バイオメディカルテキストからの情報抽出(IE)はより広範なドメイン知識を必要とする。 しかし、以前のieメソッドの多くは推論中に外部の知識を使用しない。 生物医学出版物の指数関数的な成長のため、固定されたパラメータセットを超えないモデルは遅れる可能性が高い。 そこで我々は,KECI (Knowledge-Enhanced Collective Inference, 知識強化型集団推論) という,共同エンティティと関係抽出のための外部知識を活用した新しい枠組みを提案する。 入力テキストが与えられると、keciはまずテキストの最初の理解を表す初期スパングラフを構築する。 その後、エンティティリンカを使用して、テキストで言及されているエンティティの関連する背景知識を含む知識グラフを形成する。 最終的な予測を行うため、KECIは注意機構を用いて初期スパングラフと知識グラフをより洗練されたグラフに融合する。 KECIは、グローバルリレーショナル情報をグラフ畳み込みネットワークを用いて局所表現に統合することで、参照スパンをエンティティにリンクする集合的なアプローチをとる。 実験の結果,BioRelEx(結合相互作用検出)とADE(逆薬物イベント抽出)の2つのベンチマークデータセットにおいて,このフレームワークは高い有効性を示した。 例えば、KECIはBioRelExエンティティと関係抽出タスクの最先端よりもF1スコアの4.59%と4.91%の絶対的な改善を実現している。

Compared to the general news domain, information extraction (IE) from biomedical text requires much broader domain knowledge. However, many previous IE methods do not utilize any external knowledge during inference. Due to the exponential growth of biomedical publications, models that do not go beyond their fixed set of parameters will likely fall behind. Inspired by how humans look up relevant information to comprehend a scientific text, we present a novel framework that utilizes external knowledge for joint entity and relation extraction named KECI (Knowledge-Enhanced Collective Inference). Given an input text, KECI first constructs an initial span graph representing its initial understanding of the text. It then uses an entity linker to form a knowledge graph containing relevant background knowledge for the the entity mentions in the text. To make the final predictions, KECI fuses the initial span graph and the knowledge graph into a more refined graph using an attention mechanism. KECI takes a collective approach to link mention spans to entities by integrating global relational information into local representations using graph convolutional networks. Our experimental results show that the framework is highly effective, achieving new state-of-the-art results in two different benchmark datasets: BioRelEx (binding interaction detection) and ADE (adverse drug event extraction). For example, KECI achieves absolute improvements of 4.59% and 4.91% in F1 scores over the state-of-the-art on the BioRelEx entity and relation extraction tasks.
翻訳日:2021-05-31 13:42:15 公開日:2021-05-27
# 文脈的単語表現を用いた意味フレーム誘導のための動詞センスクラスタリング

Verb Sense Clustering using Contextualized Word Representations for Semantic Frame Induction ( http://arxiv.org/abs/2105.13465v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 文脈化された単語表現は様々な自然言語処理タスクに有用であることが証明されている。 しかし、これらの表現が、述語に関連する引数のセマンティックロールを規定するセマンティックフレームのような手書きの意味情報をどの程度カバーできるかは、まだ不明である。 本稿では,文脈によって異なるフレームを喚起する動詞に着目し,文脈化された単語表現が同一動詞が発するフレームの違いをどのように認識できるかを検討する。 また,セマンティクスフレーム誘導に適した表現形式についても検討する。 実験では,フレームセマンティックな2つのリソースであるFrameNetとPropBankについて,文脈表現の異なる7つの単語表現を比較した。 いくつかの文脈化語表現,特にBERTとその変種が意味的フレーム帰納に有意義であることを示す。 さらに,動詞の文脈化表現が,動詞が引き起こすフレームの数を推定できる範囲について検討する。

Contextualized word representations have proven useful for various natural language processing tasks. However, it remains unclear to what extent these representations can cover hand-coded semantic information such as semantic frames, which specify the semantic role of the arguments associated with a predicate. In this paper, we focus on verbs that evoke different frames depending on the context, and we investigate how well contextualized word representations can recognize the difference of frames that the same verb evokes. We also explore which types of representation are suitable for semantic frame induction. In our experiments, we compare seven different contextualized word representations for two English frame-semantic resources, FrameNet and PropBank. We demonstrate that several contextualized word representations, especially BERT and its variants, are considerably informative for semantic frame induction. Furthermore, we examine the extent to which the contextualized representation of a verb can estimate the number of frames that the verb can evoke.
翻訳日:2021-05-31 13:41:52 公開日:2021-05-27
# マスク付き単語埋め込みと2ステップクラスタリングを用いた意味フレーム誘導

Semantic Frame Induction using Masked Word Embeddings and Two-Step Clustering ( http://arxiv.org/abs/2105.13466v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 近年,文脈型単語埋め込みを用いたクラスタリング手法により,比較的高い性能を実現している。 しかし、これらの手法には潜在的な欠点が2つある: 1つは、フレーム誘発動詞の表層情報に重きを置くこと、もう1つは、同じ動詞のインスタンスを、あまりに多くの異なるフレームクラスタに分割する傾向があることである。 これらの欠点を克服するために,マスキングワード埋め込みと2段階クラスタリングを用いた意味フレーム誘導手法を提案する。 英語のFrameNetデータを用いた実験により, 単語の埋め込みは, フレーム呼出動詞の表面情報への過度な依存を避けるのに有効であり, 2段階のクラスタリングにより, 同一動詞の場合のフレームクラスタ数を改善することができることを示した。

Recent studies on semantic frame induction show that relatively high performance has been achieved by using clustering-based methods with contextualized word embeddings. However, there are two potential drawbacks to these methods: one is that they focus too much on the superficial information of the frame-evoking verb and the other is that they tend to divide the instances of the same verb into too many different frame clusters. To overcome these drawbacks, we propose a semantic frame induction method using masked word embeddings and two-step clustering. Through experiments on the English FrameNet data, we demonstrate that using the masked word embeddings is effective for avoiding too much reliance on the surface information of frame-evoking verbs and that two-step clustering can improve the number of resulting frame clusters for the instances of the same verb.
翻訳日:2021-05-31 13:41:38 公開日:2021-05-27
# BERTを用いた終末応答選択のためのNベスト候補のランク付けにおける言語コーディネーションの活用

Leveraging Linguistic Coordination in Reranking N-Best Candidates For End-to-End Response Selection Using BERT ( http://arxiv.org/abs/2105.13479v1 )

ライセンス: Link先を確認
Mingzhi Yu (1), Diane Litman (1), ((1) University of Pittsburgh)(参考訳) 検索に基づく対話システムは,多くの候補から最適な応答を選択する。 多くの最先端モデルでは対話応答選択タスクにおいて有望な性能を示しているが、R@1とR@10のパフォーマンスの間にはまだかなりのギャップがある。 そこで本研究では,従来の言語モデルであるBERTのNベスト候補を再現するために,言語コーディネート(会話において個人が類似の言語行動を開発する傾向にある現象)を活用することを提案する。 以上の結果から,BERTベースラインに比べてR@1が向上し,言語理論を応用した機械出力の修復の有用性が示された。

Retrieval-based dialogue systems select the best response from many candidates. Although many state-of-the-art models have shown promising performance in dialogue response selection tasks, there is still quite a gap between R@1 and R@10 performance. To address this, we propose to leverage linguistic coordination (a phenomenon that individuals tend to develop similar linguistic behaviors in conversation) to rerank the N-best candidates produced by BERT, a state-of-the-art pre-trained language model. Our results show an improvement in R@1 compared to BERT baselines, demonstrating the utility of repairing machine-generated outputs by leveraging a linguistic theory.
翻訳日:2021-05-31 13:41:21 公開日:2021-05-27
# タスク指向意味解析におけるトランスフォーマーの診断

Diagnosing Transformers in Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2105.13496v1 )

ライセンス: Link先を確認
Shrey Desai and Ahmed Aly(参考訳) 現代のタスク指向セマンティックパーシングアプローチでは、テキストの発話をインテントとスロットで構成されるセマンティックフレームにマッピングするために、Seq2seq変換を用いるのが一般的である。 これらのモデルは経験的に強いが、その特異な強みと弱みはほとんど未解明のままである。 本研究では,単言語と多言語の両方において,最先端のパーサであるbartとxlm-rについて検討した。 トランスフォーマーベースのパーサーは、曖昧な意図やスロットだけでなく、構文的に有意なフレームの生成にも苦労する。 構文的帰納的バイアスを持つimbuesトランスフォーマーの事前学習では,発話スパンをフレームにコピーする曖昧さがしばしば木の無効性につながり,スパン抽出が現在のパーサーにとって大きなボトルネックであることを示している。 しかし、銀のライニングとして、トランスフォーマーベースのパーサーは、フレームが正しいか間違っているかを示す十分な指標を与え、プロダクション環境でのデプロイを容易にする。

Modern task-oriented semantic parsing approaches typically use seq2seq transformers to map textual utterances to semantic frames comprised of intents and slots. While these models are empirically strong, their specific strengths and weaknesses have largely remained unexplored. In this work, we study BART and XLM-R, two state-of-the-art parsers, across both monolingual and multilingual settings. Our experiments yield several key results: transformer-based parsers struggle not only with disambiguating intents/slots, but surprisingly also with producing syntactically-valid frames. Though pre-training imbues transformers with syntactic inductive biases, we find the ambiguity of copying utterance spans into frames often leads to tree invalidity, indicating span extraction is a major bottleneck for current parsers. However, as a silver lining, we show transformer-based parsers give sufficient indicators for whether a frame is likely to be correct or incorrect, making them easier to deploy in production settings.
翻訳日:2021-05-31 13:41:08 公開日:2021-05-27
# FastRIFE:ビデオフレーム補間のためのリアルタイム中間流れ推定の最適化

FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for Video Frame Interpolation ( http://arxiv.org/abs/2105.13482v1 )

ライセンス: Link先を確認
Malwina Kubas and Grzegorz Sarwas(参考訳) 映像フレーム間補間の問題は画像処理の分野において重要な課題である。 円滑な動きを維持しながら、記録のフレーム数を正しく増やすことで、再生されたビデオシーケンスの品質を向上させ、より効率的な圧縮を可能にし、スローモーション記録を作成する。 本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。 本手法は,最近発表された他のアルゴリズムと比較した。 すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで入手できる。

The problem of video inter-frame interpolation is an essential task in the field of image processing. Correctly increasing the number of frames in the recording while maintaining smooth movement allows to improve the quality of played video sequence, enables more effective compression and creating a slow-motion recording. This paper proposes the FastRIFE algorithm, which is some speed improvement of the RIFE (Real-Time Intermediate Flow Estimation) model. The novel method was examined and compared with other recently published algorithms. All source codes are available at https://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videos
翻訳日:2021-05-31 13:38:17 公開日:2021-05-27
# Hailstorm : IoTアプリケーションのための静的型、純粋関数型言語

Hailstorm : A Statically-Typed, Purely Functional Language for IoT Applications ( http://arxiv.org/abs/2105.13468v1 )

ライセンス: Link先を確認
Abhiroop Sarkar, Mary Sheeran(参考訳) IoT(Internet of Things)の普及に伴い、リソースに制約のあるIoTデバイス上では、C言語のみを使用して、より複雑なロジックがプログラムされている。 C言語は低レベルのメモリ制御を提供するが、高階関数、多型、強い静的型付け、メモリ安全性、自動メモリ管理など、多くのハイレベルなプログラミング抽象化を欠いている。 本稿では,静的型付けされた純粋関数型プログラミング言語であるHailstormについて述べる。 厳格なタイピングの規律を持つハイレベルなプログラミング言語である。 宣言的な方法でIoTデバイスをプログラムするために、高次関数、テール再帰、自動メモリ管理などの機能をサポートする。 これらのデバイス上で動作するアプリケーションは、i/oに大きく支配される傾向がある。 hailstormは、リソースタイプを使用して型システムにおけるlikei/oの副作用を追跡する。 この選択により、命令型シェルに関数型コアを埋め込むのが一般的である領域において、純粋に機能的なスタンドアロン言語の設計を探索できるようになりました。 この言語はarrowized frpのコンビネータを借りているが、離散時間セマンティクスを持っている。 完全なコンビネータの設計は、例によって推進されて進行中である。 これまでのところ、文献(地震検出、鉄道横断システム、その他様々なクロックシステム)から標準的な例を書き、Erlangの生成を通じてGRiSP組み込みシステムボード上でも例を挙げて、Hailstormを評価してきた。

With the growing ubiquity of Internet of Things(IoT), more complex logic is being programmed on resource-constrained IoT devices, almost exclusively using the C programming language. While C provides low-level control over memory, it lacks a number of high-level programming abstractions such as higher-order functions, polymorphism, strong static typing, memory safety, and automatic memory management. We present Hailstorm, a statically-typed, purely functional programming language that attempts to address the above problem. It is a high-level programming language with a strict typing discipline. It supports features like higher-order functions, tail-recursion, and automatic memory management, to program IoT devices in a declarative manner. Applications running on these devices tend to be heavily dominated by I/O. Hailstorm tracks side effects likeI/O in its type system using resource types. This choice allowed us to explore the design of a purely functional standalone language, in an area where it is more common to embed a functional core in an imperative shell. The language borrows the combinators of arrowized FRP, but has discrete-time semantics. The design of the full set of combinators is work in progress, driven by examples. So far, we have evaluated Hailstorm by writing standard examples from the literature (earthquake detection, a railway crossing system and various other clocked systems), and also running examples on the GRiSP embedded systems board, through generation of Erlang.
翻訳日:2021-05-31 13:34:14 公開日:2021-05-27
# グラフ畳み込みネットワークを用いた都市建築エネルギー消費量の時系列予測

Times Series Forecasting for Urban Building Energy Consumption Based on Graph Convolutional Network ( http://arxiv.org/abs/2105.13399v1 )

ライセンス: Link先を確認
Yuqing Hu, Xiaoyuan Cheng, Suhang Wang, Jianli Chen, Tianxiang Zhao, Enyan Dai(参考訳) 世界は都市化が進み、建築産業はアメリカ合衆国におけるエネルギー消費の40%以上を占めている。 都市の持続性を改善するために、多くの都市は既存の建物を改修し、新しいコミュニティを構築することで野心的な省エネルギー戦略を採用している。 この状況において、正確な都市建築エネルギーモデル(ubem)は、エネルギー効率の高いコミュニティの設計を支援する基礎である。 しかしながら、現在のUBEMは、動的および非線形特性のため、建築間依存関係を捕捉する能力に制限がある。 これらのモデルは、これらの建物間の相互依存を無視したり、過度に単純化した。 研究ギャップを埋めるために,太陽系建物間依存性と時空間グラフ畳み込みネットワーク(ST-GCN)アルゴリズムを合成する新しいデータ駆動UBEMを提案する。 特に、アトランタのダウンタウンにある大学キャンパスを、時給エネルギーの消費予測の例として取り上げました。 さらに,ST-GCNモデルと他の一般的な時系列機械学習モデルとの比較により,提案モデルの有効性を検証した。 その結果,ST-GCNモデルは他のモデルよりも優れていた。 加えて、モデルに埋め込まれた物理的知識はよく解釈される。 議論の結果,データ駆動モデルの統合工学や物理知識が都市建築エネルギーシミュレーションを著しく改善できることが判明した。

The world is increasingly urbanizing and the building industry accounts for more than 40% of energy consumption in the United States. To improve urban sustainability, many cities adopt ambitious energy-saving strategies through retrofitting existing buildings and constructing new communities. In this situation, an accurate urban building energy model (UBEM) is the foundation to support the design of energy-efficient communities. However, current UBEM are limited in their abilities to capture the inter-building interdependency due to their dynamic and non-linear characteristics. Those models either ignored or oversimplified these building interdependencies, which can substantially affect the accuracy of urban energy modeling. To fill the research gap, this study proposes a novel data-driven UBEM synthesizing the solar-based building interdependency and spatial-temporal graph convolutional network (ST-GCN) algorithm. Especially, we took a university campus located in downtown Atlanta as an example to predict the hourly energy consumption. Furthermore, we tested the feasibility of the proposed model by comparing the performance of the ST-GCN model with other common time-series machine learning models. The results indicate that the ST-GCN model overall outperforms all others. In addition, the physical knowledge embedded in the model is well interpreted. After discussion, it is found that data-driven models integrated engineering or physical knowledge can significantly improve the urban building energy simulation.
翻訳日:2021-05-31 13:33:52 公開日:2021-05-27
# 量子エンコーダ:回帰問題における高次心性カテゴリーの特徴に対処する

Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems ( http://arxiv.org/abs/2105.13783v1 )

ライセンス: Link先を確認
Carlos Mougan, David Masip, Jordi Nin, Oriol Pujol(参考訳) 回帰問題は機械学習の文献で広く研究され、多くの回帰モデルと性能測定結果が得られた。 しかし,回帰問題に分類学的特徴をどのように組み込むかという課題を特に解決するための技術は少ない。 通常、分類的特徴エンコーダは分類問題と回帰問題の両方をカバーするのに十分な一般性を持つ。 この特異性の欠如は、回帰モデルの性能の低下をもたらす。 本稿では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。 提案手法は, 従来の統計平均対象エンコーダを含むエンコーダよりも, 平均絶対誤差を考慮した場合, 特に長テール分布や歪分布が存在する場合において優れている。 さらに、サポートが小さいカテゴリがある場合のオーバーフィッティングに対処するために、エンコーダは付加的なスムージングによってメリットを享受します。 最後に、異なる量子量を持つ特徴セットを作成し、エンコードされた値を拡張する方法について述べる。 この拡張エンコーダは、問題のカテゴリ的特徴に関するより情報的な出力を提供し、回帰モデルの性能をさらに向上させる。

Regression problems have been widely studied in machinelearning literature resulting in a plethora of regression models and performance measures. However, there are few techniques specially dedicated to solve the problem of how to incorporate categorical features to regression problems. Usually, categorical feature encoders are general enough to cover both classification and regression problems. This lack of specificity results in underperforming regression models. In this paper,we provide an in-depth analysis of how to tackle high cardinality categor-ical features with the quantile. Our proposal outperforms state-of-the-encoders, including the traditional statistical mean target encoder, when considering the Mean Absolute Error, especially in the presence of long-tailed or skewed distributions. Besides, to deal with possible overfitting when there are categories with small support, our encoder benefits from additive smoothing. Finally, we describe how to expand the encoded values by creating a set of features with different quantiles. This expanded encoder provides a more informative output about the categorical feature in question, further boosting the performance of the regression model.
翻訳日:2021-05-31 13:31:45 公開日:2021-05-27
# バッチ正規化を伴わないリソース制限デバイスによる全8ビット整数DNNオンライントレーニング

Towards Efficient Full 8-bit Integer DNN Online Training on Resource-limited Devices without Batch Normalization ( http://arxiv.org/abs/2105.13890v1 )

ライセンス: Link先を確認
Yukuan Yang, Xiaowei Chi, Lei Deng, Tianyi Yan, Feng Gao, Guoqi Li(参考訳) 畳み込みとバッチ正規化(BN)によってもたらされる膨大な計算コストは、特にリソース制限されたデバイスにおいて、オンライントレーニングとそれに対応するディープニューラルネットワーク(DNN)の応用に大きな課題を引き起こしている。 既存の作業は畳み込みやbn加速にのみ焦点を合わせており、どちらの問題も満足な性能で解決できない。 オンライントレーニングは、携帯電話のようなリソース制限されたデバイスでは徐々にトレンドになりつつあるが、モデル性能、処理速度、計算コストを許容する完全な技術スキームはいまだに存在しない。 本研究では,固定化初期化とdnnモデル圧縮と高速化のための新しい量子化スキームを組み合わせることで,eoqと呼ばれる効率的なオンライン学習量子化フレームワークを提案する。 提案手法に基づき,大規模DNNにおける完全8ビット整数ネットワークトレーニングとBN除去を実現した。 特に、ウェイト更新は初めて8ビット整数に量子化される。 BNを除去するために固定化初期化を利用するEOQの理論解析は、より弱い仮定を持つ新しいブロック力学等方性理論を用いてさらに研究されている。 合理的量子化戦略とBNの欠如により、EOQに基づく完全な8ビットネットワークは、最先端の精度と計算コストと処理速度の大幅なアドバンテージを達成できる。 さらに、bnに不都合な平方根演算がないため、ディープラーニングチップの設計は大幅に単純化することができる。 さらにEOQは、バッチサンプルが少ない小さなバッチオンライントレーニングにおいて、より有利であることが証明されている。 要約すると、EOQフレームワークは、ネットワークトレーニングにおける高コストの畳み込みとBNを減らすために特別に設計されており、リソース制限デバイスにおけるオンライントレーニングの幅広い応用可能性を示している。

Huge computational costs brought by convolution and batch normalization (BN) have caused great challenges for the online training and corresponding applications of deep neural networks (DNNs), especially in resource-limited devices. Existing works only focus on the convolution or BN acceleration and no solution can alleviate both problems with satisfactory performance. Online training has gradually become a trend in resource-limited devices like mobile phones while there is still no complete technical scheme with acceptable model performance, processing speed, and computational cost. In this research, an efficient online-training quantization framework termed EOQ is proposed by combining Fixup initialization and a novel quantization scheme for DNN model compression and acceleration. Based on the proposed framework, we have successfully realized full 8-bit integer network training and removed BN in large-scale DNNs. Especially, weight updates are quantized to 8-bit integers for the first time. Theoretical analyses of EOQ utilizing Fixup initialization for removing BN have been further given using a novel Block Dynamical Isometry theory with weaker assumptions. Benefiting from rational quantization strategies and the absence of BN, the full 8-bit networks based on EOQ can achieve state-of-the-art accuracy and immense advantages in computational cost and processing speed. What is more, the design of deep learning chips can be profoundly simplified for the absence of unfriendly square root operations in BN. Beyond this, EOQ has been evidenced to be more advantageous in small-batch online training with fewer batch samples. In summary, the EOQ framework is specially designed for reducing the high cost of convolution and BN in network training, demonstrating a broad application prospect of online training in resource-limited devices.
翻訳日:2021-05-31 13:30:49 公開日:2021-05-27
# 全ラベル雑音レベルに普遍的ロバストな学習用分類器

Training Classifiers that are Universally Robust to All Label Noise Levels ( http://arxiv.org/abs/2105.13892v1 )

ライセンス: Link先を確認
Jingyi Xu, Tony Q. S. Quek, Kai Fong Ernest Chong(参考訳) 分類タスクでは、ディープニューラルネットワークはラベルノイズの存在下で過度に適合する傾向がある。 既存の手法ではこの問題を低騒音レベルにおいて緩和することができるが、高い騒音レベル、あるいはラベルノイズが非対称な中雑音レベルにおいても顕著な性能低下が発生する。 あらゆる雑音レベルに対して普遍的に頑健であり,ノイズモデルの変動に敏感でない分類器を訓練するために,新しい肯定的非ラベル学習のサブカテゴリを組み込んだ蒸留ベースフレームワークを提案する。 特に、任意の騒がしいデータセットの小さなサブセットが正しいラベルを持つことが知られていると仮定し、それは「正」として扱われ、残りのノイズのあるサブセットは「ラベルなし」として扱われる。 フレームワークは以下の2つのコンポーネントから構成される。(1) 反復更新により、"ラベルなし"サンプルからフィルタリングされた信頼性の高い"陽性"サンプルを付加した拡張クリーンサブセットを生成し、(2) より大規模な拡張クリーンセットで教師モデルをトレーニングする。 教師モデルのガイダンスを用いて、データセット全体の学生モデルをトレーニングする。 CIFAR-10データセットを用いて、複数のノイズレベルにおける合成ラベルノイズを用いた実験を行った。 その結果,本フレームワークは中~高騒音レベルにおいて概ね優れていた。 また,実際のノイズの多いデータセットであるwears1mのフレームワークを評価し,既存の最先端手法よりも2.94%精度が向上した。

For classification tasks, deep neural networks are prone to overfitting in the presence of label noise. Although existing methods are able to alleviate this problem at low noise levels, they encounter significant performance reduction at high noise levels, or even at medium noise levels when the label noise is asymmetric. To train classifiers that are universally robust to all noise levels, and that are not sensitive to any variation in the noise model, we propose a distillation-based framework that incorporates a new subcategory of Positive-Unlabeled learning. In particular, we shall assume that a small subset of any given noisy dataset is known to have correct labels, which we treat as "positive", while the remaining noisy subset is treated as "unlabeled". Our framework consists of the following two components: (1) We shall generate, via iterative updates, an augmented clean subset with additional reliable "positive" samples filtered from "unlabeled" samples; (2) We shall train a teacher model on this larger augmented clean set. With the guidance of the teacher model, we then train a student model on the whole dataset. Experiments were conducted on the CIFAR-10 dataset with synthetic label noise at multiple noise levels for both symmetric and asymmetric noise. The results show that our framework generally outperforms at medium to high noise levels. We also evaluated our framework on Clothing1M, a real-world noisy dataset, and we achieved 2.94% improvement in accuracy over existing state-of-the-art methods.
翻訳日:2021-05-31 13:30:21 公開日:2021-05-27
# 医学画像解析におけるディープラーニングの最近の進歩と臨床応用

Recent advances and clinical applications of deep learning in medical image analysis ( http://arxiv.org/abs/2105.13381v1 )

ライセンス: Link先を確認
Xuxin Chen, Ximin Wang, Ke Zhang, Roy Zhang, Kar-Ming Fung, Theresa C. Thai, Kathleen Moore, Robert S. Mannel, Hong Liu, Bin Zheng, Yuchen Qiu(参考訳) 深層学習はコンピュータビジョンの主流技術となり、疾患の検出と診断を支援する新しい医用画像処理アルゴリズムの開発に多大な研究関心を集めている。 従来の機械学習技術と比較して、ディープラーニングの大きな利点は、手作りの機能の開発の手間を省きながら、階層型モデルアーキテクチャを通じて、モデルが代表的特徴を自動的に識別し認識できることである。 本稿では,200件以上の論文をレビュー・要約し,様々な医用画像解析タスクにおける深層学習手法の適用について概観する。 特に, 病変分類, セグメンテーション, 検出, 画像登録など, さまざまな応用シナリオに基づいて要約した医用画像における最先端の非教師あり半教師あり深層学習の進歩と貢献を強調した。 さらに、技術的な課題についても議論し、今後の研究で考えられる解決策を提案しました。

Deep learning has become the mainstream technology in computer vision, and it has received extensive research interest in developing new medical image processing algorithms to support disease detection and diagnosis. As compared to conventional machine learning technologies, the major advantage of deep learning is that models can automatically identify and recognize representative features through the hierarchal model architecture, while avoiding the laborious development of hand-crafted features. In this paper, we reviewed and summarized more than 200 recently published papers to provide a comprehensive overview of applying deep learning methods in various medical image analysis tasks. Especially, we emphasize the latest progress and contributions of state-of-the-art unsupervised and semi-supervised deep learning in medical images, which are summarized based on different application scenarios, including lesion classification, segmentation, detection, and image registration. Additionally, we also discussed the major technical challenges and suggested the possible solutions in future research efforts.
翻訳日:2021-05-31 13:29:27 公開日:2021-05-27
# FuSeConv:シストリックアレイ上の高速推論のための完全分離可能な畳み込み

FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic Arrays ( http://arxiv.org/abs/2105.13434v1 )

ライセンス: Link先を確認
Surya Selvam, Vinod Ganesan and Pratyush Kumar(参考訳) 効率的なニューラルネットワークとハードウェアアクセラレータは、エッジデバイスでのdnn推論を高速化するために検討されている。 例えば、MobileNetは深度的に分離可能な畳み込みを使用してレイテンシをはるかに低くする一方、シストリックアレイはワット当たりのパフォーマンスをはるかに高くする。 しかし、これら2つのアイデアの組み合わせは非効率である: 深度的に分離可能な畳み込みの計算パターンはシストリックではなく、シストリックアレイの制約されたデータフローを飽和させるデータ再利用が欠如している。 本稿では,深度的に分離可能な畳み込みの代替としてFuSeConv(Fully-Separable Convolution)を提案する。 fuseconvは畳み込みの分解を空間次元と深さ次元に沿って分離可能な1次元畳み込みに完全に一般化する。 結果の計算はsystolicで、少し修正されたデータフローを持つsystolic配列を効率的に利用する。 FuSeConvでは、画像Netデータセットに匹敵する精度で、64x64サイズのサイストリックアレイ上で、MobileNetのネットワークファミリで3x-7倍のスピードアップを実現しています。 この高速化は、ハードウェア対応のNeural Operator Search (NOS) の探索を動機付け、Neural Architecture Search (NAS) の継続的な取り組みを補完するものである。

Both efficient neural networks and hardware accelerators are being explored to speed up DNN inference on edge devices. For example, MobileNet uses depthwise separable convolution to achieve much lower latency, while systolic arrays provide much higher performance per watt. Interestingly however, the combination of these two ideas is inefficient: The computational patterns of depth-wise separable convolution are not systolic and lack data reuse to saturate the systolic array's constrained dataflow. In this paper, we propose FuSeConv (Fully-Separable Convolution) as a drop-in replacement for depth-wise separable convolution. FuSeConv generalizes the decomposition of convolutions fully to separable 1D convolutions along spatial and depth dimensions. The resultant computation is systolic and efficiently utilizes the systolic array with a slightly modified dataflow. With FuSeConv, we achieve a significant speed-up of 3x-7x with the MobileNet family of networks on a systolic array of size 64x64, with comparable accuracy on the ImageNet dataset. The high speed-up motivates exploration of hardware-aware Neural Operator Search (NOS) in complement to ongoing efforts on Neural Architecture Search (NAS).
翻訳日:2021-05-31 13:28:23 公開日:2021-05-27
# Avancee-1 Mission and SaDoD Method: LiDARをベースとした光ニューラルネットワークによる宇宙ゴミの原子分解

Avancee-1 Mission and SaDoD Method: LiDAR-based stimulated atomic disintegration of space debris (SaDoD) using Optical Neural Networks ( http://arxiv.org/abs/2105.13485v1 )

ライセンス: Link先を確認
Manuel Ntumba, Saurabh Gore(参考訳) 低軌道(LEO)における衛星の表面劣化は、原子酸素(AO)の影響を受け、宇宙船の軌道パラメータによって異なる。 原子酸素はいくつかの化学反応と物理反応を起こし、高エネルギーで破片の浸食と自己分解を発生させる。 本稿では,光学ニューラルネットワーク(ONN)を用いた宇宙デブリ除去のためのAvancee-1 Missionについて述べる。 SaDoD法は軌道デブリの促進原子分解であり、この場合、LiDAR技術と光ニューラルネットワークを用いて達成されている。 本稿では,画像検出と分類能力の高い光ニューラルネットワークアルゴリズムを提案する。 その結果、地球軌道(GEO)衛星からレーザービームが来ており、高太陽活動が存在する場合、軌道の破片が崩壊する確率が高いことが示された。 本稿では、軌道パラメータと太陽エネルギーレベルによる原子酸素浸食の変動に応じて、LiDARを用いた宇宙ゴミ除去手法を提案する。 その結果、軌道デブリは低い高度と高い温度で最も激しい劣化を受けることが判明した。 GEOの衛星は、レーザービームを送る前に物体検出に光学ニューラルネットワークアルゴリズムを使用している。 SaDoD法は他の技術で実装できるが、特にAvancee-1ミッションでは、LiDAR技術と光ニューラルネットワークアルゴリズムで実装された。

The surface degradation of satellites in Low Earth Orbit (LEO) is affected by Atomic Oxygen (AO) and varies depending on the spacecraft orbital parameters. Atomic oxygen initiates several chemical and physical reactions with materials and produces erosion and self-disintegration of the debris at high energy. This paper discusses Avancee-1 Mission, LiDAR-based space debris removal using Optical Neural Networks (ONN) to optimize debris detection and mission accuracy. The SaDoD Method is a Stimulated Atomic Disintegration of Orbital Debris, which in this case has been achieved using LiDAR technology and Optical Neural Networks. We propose Optical Neural Network algorithms with a high ability of image detection and classification. The results show that orbital debris has a higher chance of disintegration when the laser beam is coming from Geostationary Orbit (GEO) satellites and in the presence of high solar activities. This paper proposes a LiDAR-based space debris removal method depending on the variation of atomic oxygen erosion with orbital parameters and solar energy levels. The results obtained show that orbital debris undergoes the most intense degradation at low altitudes and higher temperatures. The satellites in GEO use Optical Neural Network algorithms for object detection before sending the laser beams to achieve self-disintegration. The SaDoD Method can be implemented with other techniques, but especially for the Avancee-1 Mission, the SaDoD was implemented with LiDAR technologies and Optical Neural Network algorithms.
翻訳日:2021-05-31 13:28:04 公開日:2021-05-27
# 「なぜあなたの番号を信用するのですか。 サッカーにおける期待値の説明可能性について

"Why Would I Trust Your Numbers?" On the Explainability of Expected Values in Soccer ( http://arxiv.org/abs/2105.13778v1 )

ライセンス: Link先を確認
Jan Van Haaren(参考訳) 近年,サッカー選手のパフォーマンスを定量化するための様々なアプローチが提案されている。 選手のパフォーマンスはサッカーの低スコア性のために直接定量化が難しいため、ほとんどの場合、選手の得点に対するボール上のアクションが期待する影響を見積もる。 効果はあるものの、これらのアプローチはサッカーの実践者によって広く受け入れられていない。 サッカー分析コミュニティは、主にモデルの正確性を改善することに重点を置いていますが、生成されたメトリクスの説明可能性はしばしば実践者にとってより重要です。 科学者と実践者のギャップを埋めるために、ショットの期待値を推定する説明可能な一般化付加モデルを導入する。 既存のモデルとは異なり、我々のモデルは広範なサッカーの概念に対応する機能を活用している。 この目的のために、練習者が慣れ親しんだピッチ上の指定ゾーンにショットをファジィに割り当てることで、ショットの位置を表す。 実験により,我々のモデルは既存のモデルと同じくらい正確であり,サッカー実践者には説明し易いことがわかった。

In recent years, many different approaches have been proposed to quantify the performances of soccer players. Since player performances are challenging to quantify directly due to the low-scoring nature of soccer, most approaches estimate the expected impact of the players' on-the-ball actions on the scoreline. While effective, these approaches are yet to be widely embraced by soccer practitioners. The soccer analytics community has primarily focused on improving the accuracy of the models, while the explainability of the produced metrics is often much more important to practitioners. To help bridge the gap between scientists and practitioners, we introduce an explainable Generalized Additive Model that estimates the expected value for shots. Unlike existing models, our model leverages features corresponding to widespread soccer concepts. To this end, we represent the locations of shots by fuzzily assigning the shots to designated zones on the pitch that practitioners are familiar with. Our experimental evaluation shows that our model is as accurate as existing models, while being easier to explain to soccer practitioners.
翻訳日:2021-05-31 13:25:26 公開日:2021-05-27
# AoIの時間変化コスト最適化のためのオンライン学習手法

An Online Learning Approach to Optimizing Time-Varying Costs of AoI ( http://arxiv.org/abs/2105.13383v1 )

ライセンス: Link先を確認
Vishrant Tripathi, Eytan Modiano(参考訳) 遅延情報のコストが未知で、時間的変化があり、おそらくは敵対的な通信ネットワーク上のソースのタイムリーな監視を必要とするシステムを考える。 単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。 複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計し、計算可能でありながら、後見の最良の固定スケジューリングポリシーに比べて後悔の少ないことを示す。 このアルゴリズムとその後悔の分析は新規であり、オンラインのレストレスマルチアームバンディット問題の研究には独立した関心がある。 環境の変化が緩やかに変化するときの最良の動的ポリシーと比較して、サブ線形後悔を実現するアルゴリズムをさらに設計する。 最後に、我々のアルゴリズムを移動追跡問題に適用する。 我々は,非定常モビリティモデルと敵対的モビリティモデルについて考察し,オンライン学習アルゴリズムの利用による性能上のメリットを,厳密なスケジューリングポリシーと比較した。

We consider systems that require timely monitoring of sources over a communication network, where the cost of delayed information is unknown, time-varying and possibly adversarial. For the single source monitoring problem, we design algorithms that achieve sublinear regret compared to the best fixed policy in hindsight. For the multiple source scheduling problem, we design a new online learning algorithm called Follow-the-Perturbed-Whittle-Leader and show that it has low regret compared to the best fixed scheduling policy in hindsight, while remaining computationally feasible. The algorithm and its regret analysis are novel and of independent interest to the study of online restless multi-armed bandit problems. We further design algorithms that achieve sublinear regret compared to the best dynamic policy when the environment is slowly varying. Finally, we apply our algorithms to a mobility tracking problem. We consider non-stationary and adversarial mobility models and illustrate the performance benefit of using our online learning algorithms compared to an oblivious scheduling policy.
翻訳日:2021-05-31 13:24:19 公開日:2021-05-27
# オーディオミックス中の音事象検出のための相互参照自己学習ネットワーク

Cross-Referencing Self-Training Network for Sound Event Detection in Audio Mixtures ( http://arxiv.org/abs/2105.13392v1 )

ライセンス: Link先を確認
Sangwook Park, David K. Han, Mounya Elhilali(参考訳) 音響イベント検出は、興味のある音を識別し、連続録音における各音のカテゴリと時間境界の両方を定義することを目的とした、オーディオタグの重要な側面である。 ディープニューラルネットワークの進歩により、コストのかかるデータ収集とラベル付けの努力を犠牲にして、音響イベント検出システムの性能が大幅に向上した。 実際、現在の最先端の手法では、大量のデータサンプルと対応するラベルを活用して、イベントの音声カテゴリとタイムスタンプの識別を容易にする教師付きトレーニング手法を採用している。 そこで本研究では,非教師データから疑似ラベルを生成する半教師方式を提案し,自己学習とクロストレーニングのバランスをとる学生教師方式を提案する。 さらに,ネットワーク予測から音声区間を抽出する後処理について検討し,音事象検出性能のさらなる向上を図る。 提案手法はDCASE2020チャレンジの音響事象検出タスクに基づいて評価される。 DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。

Sound event detection is an important facet of audio tagging that aims to identify sounds of interest and define both the sound category and time boundaries for each sound event in a continuous recording. With advances in deep neural networks, there has been tremendous improvement in the performance of sound event detection systems, although at the expense of costly data collection and labeling efforts. In fact, current state-of-the-art methods employ supervised training methods that leverage large amounts of data samples and corresponding labels in order to facilitate identification of sound category and time stamps of events. As an alternative, the current study proposes a semi-supervised method for generating pseudo-labels from unsupervised data using a student-teacher scheme that balances self-training and cross-training. Additionally, this paper explores post-processing which extracts sound intervals from network prediction, for further improvement in sound event detection performance. The proposed approach is evaluated on sound event detection task for the DCASE2020 challenge. The results of these methods on both "validation" and "public evaluation" sets of DESED database show significant improvement compared to the state-of-the art systems in semi-supervised learning.
翻訳日:2021-05-31 13:24:03 公開日:2021-05-27
# (参考訳) i3dloc:不整合環境にロバストな画像間クロスドメイン局在

i3dLoc: Image-to-range Cross-domain Localization Robust to Inconsistent Environmental Conditions ( http://arxiv.org/abs/2105.12883v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Ji Zhang, Sebastian Scherer(参考訳) 本研究では,屋内および屋外シーンにおける点雲マップに対して,単一カメラを位置決めする方法を提案する。 この問題は、局所不変特徴の対応が画像と3Dの領域間で矛盾するためである。 この問題は、照明、天候、季節変化といった様々な環境条件を扱う必要があるため、さらに困難である。 本手法は, クロスドメイン対称位置記述子を抽出し, 等角像を3次元射影と一致させることができる。 我々の重要な洞察は、設計したジェネレーティブ・アドバイサル・ネットワークによる条件関連機能を排除しつつ、限られたデータサンプルから条件不変の3D幾何学的特徴を維持することである。 このような特徴に基づき,さらに球形畳み込みネットワークの設計を行い,視点不変な対称位置記述子を学習する。 提案手法は, 大規模自己コンパイル型データセットにおいて, 外観条件が変化し, 構造/非構造環境が最大2km以上となる, 空間が4フロアに制限された) となる, 自己コンパイル型データセットについて検討した。 本手法は,一貫性のない環境に対して3 倍高い位置検索を実現し,オンラインローカライズにおける3 倍の精度を実現した。 また,提案手法の一般化を強調するために,異なるデータセット間の認識を評価する。 単一のトレーニングモデルにより、i3dLocはランダムな条件下で、信頼できる視覚的ローカライゼーションを示すことができる。

We present a method for localizing a single camera with respect to a point cloud map in indoor and outdoor scenes. The problem is challenging because correspondences of local invariant features are inconsistent across the domains between image and 3D. The problem is even more challenging as the method must handle various environmental conditions such as illumination, weather, and seasonal changes. Our method can match equirectangular images to the 3D range projections by extracting cross-domain symmetric place descriptors. Our key insight is to retain condition-invariant 3D geometry features from limited data samples while eliminating the condition-related features by a designed Generative Adversarial Network. Based on such features, we further design a spherical convolution network to learn viewpoint-invariant symmetric place descriptors. We evaluate our method on extensive self-collected datasets, which involve \textit{Long-term} (variant appearance conditions), \textit{Large-scale} (up to $2km$ structure/unstructured environment), and \textit{Multistory} (four-floor confined space). Our method surpasses other current state-of-the-arts by achieving around $3$ times higher place retrievals to inconsistent environments, and above $3$ times accuracy on online localization. To highlight our method's generalization capabilities, we also evaluate the recognition across different datasets. With a single trained model, i3dLoc can demonstrate reliable visual localization in random conditions.
翻訳日:2021-05-29 10:15:18 公開日:2021-05-27
# (参考訳) スパースアノテーションと階層記述子による3次元セグメンテーション学習

3D Segmentation Learning from Sparse Annotations and Hierarchical Descriptors ( http://arxiv.org/abs/2105.12885v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Jianmin Ji(参考訳) 3Dセマンティックセグメンテーションの主な障害の1つは、完全に教師されたトレーニングのために高価なポイントワイズアノテーションを生成するのに必要な膨大な労力である。 そこで本研究では,グローバル地域構造と個人選択特性の推論を通じて,分散アノテーションからセグメンテーションを同時に学習する手法であるgidsegを提案する。 GIDSegは、動的エッジ畳み込みネットワークとカーネル化されたID記述子を結合したグローバルおよび個別の関係を描いている。 このアンサンブル効果は、微粒な受容場を低解像度のボキセル化マップに付与することにより得られる。 我々のGIDSegでは,共同特徴分布におけるID記述子の条件制約を強化するために,逆学習モジュールも設計されている。 明快な単純さにもかかわらず,提案手法は,分散アノテーションのみを用いた3次元高密度セグメンテーションの参照において,最先端よりも優れた性能を実現する。 特に、生データの$5\%$アノテーションでは、gidsegは他の3dセグメンテーションメソッドよりも優れている。

One of the main obstacles to 3D semantic segmentation is the significant amount of endeavor required to generate expensive point-wise annotations for fully supervised training. To alleviate manual efforts, we propose GIDSeg, a novel approach that can simultaneously learn segmentation from sparse annotations via reasoning global-regional structures and individual-vicinal properties. GIDSeg depicts global- and individual- relation via a dynamic edge convolution network coupled with a kernelized identity descriptor. The ensemble effects are obtained by endowing a fine-grained receptive field to a low-resolution voxelized map. In our GIDSeg, an adversarial learning module is also designed to further enhance the conditional constraint of identity descriptors within the joint feature distribution. Despite the apparent simplicity, our proposed approach achieves superior performance over state-of-the-art for inferencing 3D dense segmentation with only sparse annotations. Particularly, with $5\%$ annotations of raw data, GIDSeg outperforms other 3D segmentation methods.
翻訳日:2021-05-29 09:55:08 公開日:2021-05-27
# (参考訳) 医療領域におけるシングルターンデータを用いたマルチターンダイアログシステム

Multi-turn Dialog System on Single-turn Data in Medical Domain ( http://arxiv.org/abs/2105.12887v1 )

ライセンス: CC BY 4.0
Nazib Sorathiya, Chuan-An Lin, Daniel Chen Daniel Xiong, Scott Zin, Yi Zhang, He Sarina Yang, Sharon Xiaolei Huang(参考訳) 近年,対話システムに大きな関心が寄せられている。 この関心は、医学領域におけるダイアログシステムの構築に研究者が力を入れている医療領域の分野でも発展してきた。 本研究は,マルチターンダイアログデータに基づいて訓練されたマルチターンダイアログシステムに焦点をあてる。 専門家によって検証され,信頼できる医療領域において,多面的な会話データを大量に収集することは困難である。 しかしながら、専門家が検証し、マルチターンダイアログシステムを構築するために使用できる情報を持つ、頻繁に聞かれる質問(faq)やシングルターンのqaペアがいくつか存在する。

Recently there has been a huge interest in dialog systems. This interest has also been developed in the field of the medical domain where researchers are focusing on building a dialog system in the medical domain. This research is focused on the multi-turn dialog system trained on the multi-turn dialog data. It is difficult to gather a huge amount of multi-turn conversational data in the medical domain that is verified by professionals and can be trusted. However, there are several frequently asked questions (FAQs) or single-turn QA pairs that have information that is verified by the experts and can be used to build a multi-turn dialog system.
翻訳日:2021-05-29 09:31:51 公開日:2021-05-27
# (参考訳) 因果効果推定のための確率的介入

Stochastic Intervention for Causal Effect Estimation ( http://arxiv.org/abs/2105.12898v1 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 因果推論法は、精密医療、最適政策、経済学など様々な意思決定領域に広く適用されている。 これらの応用の中心は介入戦略の処理効果評価である。 現在の推定法は主に決定論的処理に制限されているが、確率的空間的処理方針に対処できない。 さらに, 従来の方法では, 処理効果に基づいた二分決定のみを行うことができ, 決定のプロセスを説明するためのきめ細かい効果推定度を提供する能力が欠如している。 そこで本研究では,新しい確率的プロペンサリティスコアと確率的介入効果推定器(sie)を考案し,確率的介入効果を推定するための因果推論研究を進める。 一方,決定のための因果的証拠の提供を目的として,確率的介入効果(Ge-SIO)に特化した遺伝的アルゴリズムを設計する。 我々は理論解析を行い,提案手法とアルゴリズムが最先端のベースラインと比較して大幅な性能向上を実現することを正当化するための実証研究を行う。

Causal inference methods are widely applied in various decision-making domains such as precision medicine, optimal policy and economics. Central to these applications is the treatment effect estimation of intervention strategies. Current estimation methods are mostly restricted to the deterministic treatment, which however, is unable to address the stochastic space treatment policies. Moreover, previous methods can only make binary yes-or-no decisions based on the treatment effect, lacking the capability of providing fine-grained effect estimation degree to explain the process of decision making. In our study, we therefore advance the causal inference research to estimate stochastic intervention effect by devising a new stochastic propensity score and stochastic intervention effect estimator (SIE). Meanwhile, we design a customized genetic algorithm specific to stochastic intervention effect (Ge-SIO) with the aim of providing causal evidence for decision making. We provide the theoretical analysis and conduct an empirical study to justify that our proposed measures and algorithms can achieve a significant performance lift in comparison with state-of-the-art baselines.
翻訳日:2021-05-29 09:23:13 公開日:2021-05-27
# (参考訳) 対話型感情認識のための非循環グラフネットワーク

Directed Acyclic Graph Network for Conversational Emotion Recognition ( http://arxiv.org/abs/2105.12907v1 )

ライセンス: CC BY 4.0
Weizhou Shen, Siyue Wu, Yunyi Yang and Xiaojun Quan(参考訳) 会話コンテキストのモデリングは、会話からの感情認識(erc)において重要な役割を果たす。 In this paper, we put forward a novel idea of encoding the utterances with a directed acyclic graph (DAG) to better model the intrinsic structure within a conversation, and design a directed acyclic neural network,~namely DAG-ERC, to implement this idea.~In an attempt to combine the strengths of conventional graph-based neural models and recurrence-based neural models,~DAG-ERC provides a more intuitive way to model the information flow between long-distance conversation background and nearby context.~Extensive experiments are conducted on four ERC benchmarks with state-of-the-art models employed as baselines for comparison.~The empirical results demonstrate the superiority of this new model and confirm the motivation of the directed acyclic graph architecture for ERC.

The modeling of conversational context plays a vital role in emotion recognition from conversation (ERC). In this paper, we put forward a novel idea of encoding the utterances with a directed acyclic graph (DAG) to better model the intrinsic structure within a conversation, and design a directed acyclic neural network,~namely DAG-ERC, to implement this idea.~In an attempt to combine the strengths of conventional graph-based neural models and recurrence-based neural models,~DAG-ERC provides a more intuitive way to model the information flow between long-distance conversation background and nearby context.~Extensive experiments are conducted on four ERC benchmarks with state-of-the-art models employed as baselines for comparison.~The empirical results demonstrate the superiority of this new model and confirm the motivation of the directed acyclic graph architecture for ERC.
翻訳日:2021-05-29 09:04:00 公開日:2021-05-27
# (参考訳) 頂点除去による非周期性及び到達可能性の命題符号化

Propositional Encodings of Acyclicity and Reachability by using Vertex Elimination ( http://arxiv.org/abs/2105.12908v1 )

ライセンス: CC BY 4.0
Masood Feyzbakhsh Rankooh, Jussi Rintanen(参考訳) 本稿では,有向グラフを用いた命題式に対する非巡回性とs-t-リーチ可能性制約を符号化する新しい手法を提案する。 これらは頂点除去グラフに基づいており、基礎となるグラフがスパースである場合に適している。 グラフSATのような非巡回性および到達性制約のためのアドホック制約プロパゲータを持つ解法とは対照的に、これらの制約を標準命題句としてエンコードし、SATソルバに直接適用する。 経験的な研究では、我々の手法と効率的なsatソルバは、これらの制約の以前のエンコーディングとグラフsat、特に基礎となるグラフのスパースよりも優れています。

We introduce novel methods for encoding acyclicity and s-t-reachability constraints for propositional formulas with underlying directed graphs. They are based on vertex elimination graphs, which makes them suitable for cases where the underlying graph is sparse. In contrast to solvers with ad hoc constraint propagators for acyclicity and reachability constraints such as GraphSAT, our methods encode these constraints as standard propositional clauses, making them directly applicable with any SAT solver. An empirical study demonstrates that our methods together with an efficient SAT solver can outperform both earlier encodings of these constraints as well as GraphSAT, particularly when underlying graphs are sparse.
翻訳日:2021-05-29 08:44:08 公開日:2021-05-27
# (参考訳) ガウス過程を用いたデコンディショナルダウンスケール

Deconditional Downscaling with Gaussian Processes ( http://arxiv.org/abs/2105.12909v1 )

ライセンス: CC BY 4.0
Siu Lun Chau, Shahine Bouabid, Dino Sejdinovic(参考訳) 低分解能(LR)空間場を高分解能(HR)情報で精製することは、空間データセットの多様性がしばしば観測の直接マッチングを妨げるため困難である。 しかし、世界規模で観測される媒介変数に関して、LRサンプルをHRサンプルの集合条件としてモデル化する場合、基礎となる細粒度場の回復は条件付き期待値の「逆」、すなわち非条件付き問題とみなすことができる。 本研究では条件付き平均過程(conditional mean process, cmp)について述べる。 CMPを基礎フィールドのドメイン間特徴として扱うことにより、非条件問題の解として潜伏フィールドの後方を確立することができる。 さらに, この解は2段階のベクトル値を持つカーネルリッジレグレッサと見なすことができ, 軽度仮定下でのミニマックス最適収束率を持つことを示した。 最後に,実世界の大気圏ダウンスケーリング問題におけるその熟練度を実証し,既存の手法よりも大幅に改善することを示す。

Refining low-resolution (LR) spatial fields with high-resolution (HR) information is challenging as the diversity of spatial datasets often prevents direct matching of observations. Yet, when LR samples are modeled as aggregate conditional means of HR samples with respect to a mediating variable that is globally observed, the recovery of the underlying fine-grained field can be framed as taking an "inverse" of the conditional expectation, namely a deconditioning problem. In this work, we introduce conditional mean processes (CMP), a new class of Gaussian Processes describing conditional means. By treating CMPs as inter-domain features of the underlying field, a posterior for the latent field can be established as a solution to the deconditioning problem. Furthermore, we show that this solution can be viewed as a two-staged vector-valued kernel ridge regressor and show that it has a minimax optimal convergence rate under mild assumptions. Lastly, we demonstrate its proficiency in a synthetic and a real-world atmospheric field downscaling problem, showing substantial improvements over existing methods.
翻訳日:2021-05-29 08:18:40 公開日:2021-05-27
# (参考訳) 半監督型医用画像分割のための自己構成型コントラスト学習

Self-Ensembling Contrastive Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2105.12924v1 )

ライセンス: CC BY 4.0
Jinxi Xiang, Zhuowei Li, Wenji Wang, Qing Xia and Shaoting Zhang(参考訳) 深層学習は、手動ラベルによる十分な量のトレーニングデータを用いて、医用画像のセグメンテーションを著しく改善した。 よく表現されたラベルを取得するには、専門家の知識と徹底的な労働が必要である。 本稿では,自己理解型コントラスト学習技術を用いて,限られたラベルを用いた医用画像セグメンテーションのための半教師付き学習の性能向上を目指す。 そこで本研究では,ラベル付き画像の少ない画像レベルでエンコーダ-デコーダネットワークを訓練することを提案する。 この方法は, クラス内コンパクト性とクラス間分離性を高め, より優れたピクセル分類器を得る。 さらに、オンライン学習のための学生エンコーダと、その指数的な移動平均版である教師エンコーダを考案し、自己学習方式で性能を反復的に改善する。 非ラベル画像を用いたコントラストサンプリングを構築するために, 医用画像間の構造類似性を利用して擬似ラベルを用いた2つのサンプリング手法について検討した。 mriとctセグメンテーションデータセットを広範囲に実験し,制限ラベル設定において,提案手法が最先端の性能を実現することを示す。 さらに,擬似ラベルを用いたコントラッシブサンプルをオンザフライで作成する解剖学的手法により,特徴表現のコントラスト正規化が向上する。

Deep learning has demonstrated significant improvements in medical image segmentation using a sufficiently large amount of training data with manual labels. Acquiring well-representative labels requires expert knowledge and exhaustive labors. In this paper, we aim to boost the performance of semi-supervised learning for medical image segmentation with limited labels using a self-ensembling contrastive learning technique. To this end, we propose to train an encoder-decoder network at image-level with small amounts of labeled images, and more importantly, we learn latent representations directly at feature-level by imposing contrastive loss on unlabeled images. This method strengthens intra-class compactness and inter-class separability, so as to get a better pixel classifier. Moreover, we devise a student encoder for online learning and an exponential moving average version of it, called teacher encoder, to improve the performance iteratively in a self-ensembling manner. To construct contrastive samples with unlabeled images, two sampling strategies that exploit structure similarity across medical images and utilize pseudo-labels for construction, termed region-aware and anatomical-aware contrastive sampling, are investigated. We conduct extensive experiments on an MRI and a CT segmentation dataset and demonstrate that in a limited label setting, the proposed method achieves state-of-the-art performance. Moreover, the anatomical-aware strategy that prepares contrastive samples on-the-fly using pseudo-labels realizes better contrastive regularization on feature representations.
翻訳日:2021-05-29 07:51:25 公開日:2021-05-27
# (参考訳) YOLO5Face:Face Detectorを再発明する理由

YOLO5Face: Why Reinventing a Face Detector ( http://arxiv.org/abs/2105.12931v1 )

ライセンス: CC BY 4.0
Delong Qi, Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 近年,畳み込みニューラルネットワークを用いた顔検出が大きな進歩を遂げている。 多くの顔検出装置は顔検出のために指定された設計を用いるが、顔検出は一般的な物体検出タスクとして扱う。 我々は、YOLOv5オブジェクト検出器に基づく顔検出器を実装し、YOLO5Faceと呼ぶ。 5点のランドマーク回帰ヘッドを追加し、翼損失関数を使用する。 我々は,大規模モデルから,組み込みデバイスやモバイルデバイス上でリアルタイム検出を行うための超小型モデルまで,モデルサイズが異なる検出器を設計した。 widefaceデータセットにおける実験結果は、顔検出器が、より複雑な顔検出器を超える、ほとんどすべての簡単な中堅のサブセットで最先端のパフォーマンスを達成できることを示しています。 コードは \url{https://www.github.com/deepcam-cn/yolov5-face} で入手できる。

Tremendous progress has been made on face detection in recent years using convolutional neural networks. While many face detectors use designs designated for the detection of face, we treat face detection as a general object detection task. We implement a face detector based on YOLOv5 object detector and call it YOLO5Face. We add a five-point landmark regression head into it and use the Wing loss function. We design detectors with different model sizes, from a large model to achieve the best performance, to a super small model for real-time detection on an embedded or mobile device. Experiment results on the WiderFace dataset show that our face detectors can achieve state-of-the-art performance in almost all the Easy, Medium, and Hard subsets, exceeding the more complex designated face detectors. The code is available at \url{https://www.github.com/deepcam-cn/yolov5-face}.
翻訳日:2021-05-29 07:38:38 公開日:2021-05-27
# (参考訳) コントラストファインチューニングによるニューラルネットワークのロバスト性向上

Contrastive Fine-tuning Improves Robustness for Neural Rankers ( http://arxiv.org/abs/2105.12932v1 )

ライセンス: CC BY 4.0
Xiaofei Ma, Cicero Nogueira dos Santos and Andrew O. Arnold(参考訳) 最先端のニューラルランク装置の性能は、ノイズの多い入力に晒されたり、新しい領域に適用されたりすると著しく低下する。 本稿では,ドメイン外データやクエリの摂動に対するロバスト性を大幅に向上させるニューラルランカの微調整手法を提案する。 具体的には、表現空間内のデータポイントを比較するコントラスト損失と、微調整時の標準ランキング損失とを組み合わせる。 関連ラベルを用いて、類似/異種ペアを表現し、異なるクエリとドキュメントのペア間で基礎となるマッチングセマンティクスを学習し、ロバスト性を向上させる。 4つのパッセージランキングデータセットを用いた実験において,提案手法は,bert と bart ベースの両方のランカに対して,クエリの再構成,ノイズの摂動,ゼロショット転送に対するロバスト性を改善した。 さらに,神経ランカのロバスト化において,コントラスト的微調整がデータ拡張よりも優れていることを示した。

The performance of state-of-the-art neural rankers can deteriorate substantially when exposed to noisy inputs or applied to a new domain. In this paper, we present a novel method for fine-tuning neural rankers that can significantly improve their robustness to out-of-domain data and query perturbations. Specifically, a contrastive loss that compares data points in the representation space is combined with the standard ranking loss during fine-tuning. We use relevance labels to denote similar/dissimilar pairs, which allows the model to learn the underlying matching semantics across different query-document pairs and leads to improved robustness. In experiments with four passage ranking datasets, the proposed contrastive fine-tuning method obtains improvements on robustness to query reformulations, noise perturbations, and zero-shot transfer for both BERT and BART based rankers. Additionally, our experiments show that contrastive fine-tuning outperforms data augmentation for robustifying neural rankers.
翻訳日:2021-05-29 07:21:22 公開日:2021-05-27
# (参考訳) イベントQAのためのコーパスレベル評価:2002年のGujarat ViolenceをカバーするIndiaPoliceEventsコーパス

Corpus-Level Evaluation for Event QA: The IndiaPoliceEvents Corpus Covering the 2002 Gujarat Violence ( http://arxiv.org/abs/2105.12936v1 )

ライセンス: CC BY 4.0
Andrew Halterman, Katherine A. Keith, Sheikh Muhammad Sarwar, Brendan O'Connor(参考訳) 社会科学の応用における自動イベント抽出は、しばしばコーパスレベルの評価を必要とする。 2002年3月、インドのグジャラート州における出来事に関する1257の英英字記事から21,391文を全て紹介し、コーパスレベルの評価要件を現実世界の社会科学的な設定と組み合わせた。 訓練された注釈者は、すべての文書を警察活動イベントの言及のために読み、ラベル付けし、不偏なリコール評価を可能にしました。 構造化されたイベント表現を持つ他のデータセットとは対照的に、自然な質問をすることでアノテーションを収集し、3つの異なるタスク(文の分類、文書のランク付け、ターゲットイベントの時間的集約)の既定モデルを評価する。 自然言語推論とパッセージ検索タスクを微調整したゼロショットbertモデルの基本結果を示す。 提案するコーパスレベルの評価とアノテーションアプローチは, 今後, 同様の社会科学的資源の創造を導くことができる。

Automated event extraction in social science applications often requires corpus-level evaluations: for example, aggregating text predictions across metadata and unbiased estimates of recall. We combine corpus-level evaluation requirements with a real-world, social science setting and introduce the IndiaPoliceEvents corpus--all 21,391 sentences from 1,257 English-language Times of India articles about events in the state of Gujarat during March 2002. Our trained annotators read and label every document for mentions of police activity events, allowing for unbiased recall evaluations. In contrast to other datasets with structured event representations, we gather annotations by posing natural questions, and evaluate off-the-shelf models for three different tasks: sentence classification, document ranking, and temporal aggregation of target events. We present baseline results from zero-shot BERT-based models fine-tuned on natural language inference and passage retrieval tasks. Our novel corpus-level evaluations and annotation approach can guide creation of similar social-science-oriented resources in the future.
翻訳日:2021-05-29 06:57:45 公開日:2021-05-27
# (参考訳) Intellige: ナラティブな説明のためのユーザファクタモデル説明器

Intellige: A User-Facing Model Explainer for Narrative Explanations ( http://arxiv.org/abs/2105.12941v1 )

ライセンス: CC BY 4.0
Jilei Yang, Diana Negoescu, Parvez Ahammad(参考訳) 予測機械学習モデルは解釈可能性に欠けることが多く、予測性能が高いにもかかわらず、モデルエンドユーザーからの信頼は低い。 多くのモデル解釈アプローチは、モデル予測を解釈する上で重要な機能を返すが、これらのトップ機能は、エンドユーザーにとって十分に構成されたり直観的なものではないかもしれない。 本稿では,モデル予測の背後にある理論的根拠を反映した,ユーザの理解可能な解釈と洞察を生成する,ユーザ向けモデル説明器intelligeを提案する。 Intelligeは、マシンラーニングプラットフォームからエンドユーザプラットフォームへのエンドツーエンドパイプラインを構築し、モデル解釈アプローチの実装と物語の洞察のカスタマイズのためのインターフェースを提供する。 Intelligeは、Model Importer、Model Interpreter、Narrative Generator、Narrative Exporterの4つのコンポーネントで構成されるプラットフォームである。 これらのコンポーネントを説明し、LinkedInのユースケースを通じてIntelligeの有効性を実証する。 定量的なパフォーマンス分析は、intelligeのナラティブな洞察が予測モデルのレコメンデーションの採用率の上昇につながり、また、前回のアプローチと比較して収益などの下流の重要指標の増加につながることを示している一方、質的分析はエンドユーザーからのポジティブなフィードバックを示している。

Predictive machine learning models often lack interpretability, resulting in low trust from model end users despite having high predictive performance. While many model interpretation approaches return top important features to help interpret model predictions, these top features may not be well-organized or intuitive to end users, which limits model adoption rates. In this paper, we propose Intellige, a user-facing model explainer that creates user-digestible interpretations and insights reflecting the rationale behind model predictions. Intellige builds an end-to-end pipeline from machine learning platforms to end user platforms, and provides users with an interface for implementing model interpretation approaches and for customizing narrative insights. Intellige is a platform consisting of four components: Model Importer, Model Interpreter, Narrative Generator, and Narrative Exporter. We describe these components, and then demonstrate the effectiveness of Intellige through use cases at LinkedIn. Quantitative performance analyses indicate that Intellige's narrative insights lead to lifts in adoption rates of predictive model recommendations, as well as to increases in downstream key metrics such as revenue when compared to previous approaches, while qualitative analyses indicate positive feedback from end users.
翻訳日:2021-05-29 06:20:25 公開日:2021-05-27
# (参考訳) 逐次決定空間に対するより良い正規化:nash,relationed,team equilibriaの高速収束率

Better Regularization for Sequential Decision Spaces: Fast Convergence Rates for Nash, Correlated, and Team Equilibria ( http://arxiv.org/abs/2105.12954v1 )

ライセンス: CC BY 4.0
Gabriele Farina, Christian Kroer, Tuomas Sandholm(参考訳) 大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。 一階法は通常、プレイヤーの判定セットの距離生成機能として機能する正規化器でインスタンス化されなければならない。 2人プレイのゼロサムゲームの場合、ナッシュ均衡の最先端理論収束率は拡張エントロピー関数を用いて達成される。 本稿では,2プレーヤゼロサムゲームに対する新しいエントロピーベースの距離生成関数を導入し,拡張エントロピーよりもはるかに優れた凸性を実現するとともに,実装が容易な閉形式近位写像も維持することを示す。 広範な数値シミュレーションは、これらの優れた理論特性がより優れた数値性能をもたらすことを示している。 次に、新しいエントロピー距離関数と一般拡張距離関数をスケールド拡張作用素に一般化する。 スケールド拡張演算子は再帰的に凸集合を構成する方法であり、広範な形式のゲームの決定ポリトープと相関とチームの平衡に対応する凸ポリトープを一般化する。 正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。 我々の手法は線形時間近位更新とともに1/T$の収束率を保証する。

We study the application of iterative first-order methods to the problem of computing equilibria of large-scale two-player extensive-form games. First-order methods must typically be instantiated with a regularizer that serves as a distance-generating function for the decision sets of the players. For the case of two-player zero-sum games, the state-of-the-art theoretical convergence rate for Nash equilibrium is achieved by using the dilated entropy function. In this paper, we introduce a new entropy-based distance-generating function for two-player zero-sum games, and show that this function achieves significantly better strong convexity properties than the dilated entropy, while maintaining the same easily-implemented closed-form proximal mapping. Extensive numerical simulations show that these superior theoretical properties translate into better numerical performance as well. We then generalize our new entropy distance function, as well as general dilated distance functions, to the scaled extension operator. The scaled extension operator is a way to recursively construct convex sets, which generalizes the decision polytope of extensive-form games, as well as the convex polytopes corresponding to correlated and team equilibria. By instantiating first-order methods with our regularizers, we develop the first accelerated first-order methods for computing correlated equilibra and ex-ante coordinated team equilibria. Our methods have a guaranteed $1/T$ rate of convergence, along with linear-time proximal updates.
翻訳日:2021-05-29 05:51:59 公開日:2021-05-27
# (参考訳) リアルタイムセマンティックセグメンテーションのための特徴再利用と融合

Feature Reuse and Fusion for Real-time Semantic segmentation ( http://arxiv.org/abs/2105.12964v1 )

ライセンス: CC BY 4.0
Tan Sixiang(参考訳) リアルタイムセマンティックセグメンテーションでは、高解像度を維持しながら速度を向上する方法が議論され、解決されてきた問題である。 バックボーン設計とフュージョン設計は、常にリアルタイムセマンティクスセグメンテーションの重要な2つの部分であった。 我々は,従来の設計経験に基づいて軽量ネットワークを設計し,事前学習なしに最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに達することを望んでいる。 この目的を達成するために、デコーダネットワークをリアルタイムセグメンテーションタスク用に設計したバックボーンモデルに適用し、アグリゲーションフェーズにおけるセマンティクスと詳細な情報を融合する3つの異なる方法を提案する。 2つのセマンティクスセグメンテーションベンチマークについて広範な実験を行った。 CityscapesとCamVidデータセットの実験では、提案されたRFFNetは、速度計算と精度のバランスをとる。 1枚のRTX 2080Tiカード上で161 FPSの速度で、Cityscapesテストデータセット上で76.4\%の平均接点(mIoU\%)を達成する。 コードはhttps://github.com/favoMJ/FRFNetで入手できる。

For real-time semantic segmentation, how to increase the speed while maintaining high resolution is a problem that has been discussed and solved. Backbone design and fusion design have always been two essential parts of real-time semantic segmentation. We hope to design a light-weight network based on previous design experience and reach the level of state-of-the-art real-time semantic segmentation without any pre-training. To achieve this goal, a encoder-decoder architectures are proposed to solve this problem by applying a decoder network onto a backbone model designed for real-time segmentation tasks and designed three different ways to fuse semantics and detailed information in the aggregation phase. We have conducted extensive experiments on two semantic segmentation benchmarks. Experiments on the Cityscapes and CamVid datasets show that the proposed FRFNet strikes a balance between speed calculation and accuracy. It achieves 76.4\% Mean Intersection over Union (mIoU\%) on the Cityscapes test dataset with the speed of 161 FPS on a single RTX 2080Ti card. The Code is available at https://github.com/favoMJ/FRFNet.
翻訳日:2021-05-29 05:09:59 公開日:2021-05-27
# (参考訳) 解答関連性の導入による要約クエリの改善

Improve Query Focused Abstractive Summarization by Incorporating Answer Relevance ( http://arxiv.org/abs/2105.12969v1 )

ライセンス: CC BY 4.0
Dan Su, Tiezheng Yu, Pascale Fung(参考訳) query focus summarization(qfs)モデルは、与えられたクエリに答えられるソースドキュメントから要約を生成することを目的としている。 QFSに関するこれまでのほとんどの研究は、要約を生成する際のクエリ関連基準のみを考慮していた。 しかし,要約生成過程における回答の関連性の検討も重要である。 本稿では,質問応答モデルによる質問文の回答関係を明示するモデルであるQFS-BARTを提案し,一貫性と回答関連要約を生成する。 さらに,本モデルでは,要約性能を大幅に向上する大規模事前学習モデルの活用も可能である。 Debatepediaデータセットの実証結果は、提案モデルが新しい最先端のパフォーマンスを達成することを示している。

Query focused summarization (QFS) models aim to generate summaries from source documents that can answer the given query. Most previous work on QFS only considers the query relevance criterion when producing the summary. However, studying the effect of answer relevance in the summary generating process is also important. In this paper, we propose QFS-BART, a model that incorporates the explicit answer relevance of the source documents given the query via a question answering model, to generate coherent and answer-related summaries. Furthermore, our model can take advantage of large pre-trained models which improve the summarization performance significantly. Empirical results on the Debatepedia dataset show that the proposed model achieves the new state-of-the-art performance.
翻訳日:2021-05-29 04:54:20 公開日:2021-05-27
# (参考訳) infonceの再検討: 負のサンプルはいくつ必要か?

Rethinking InfoNCE: How Many Negative Samples Do You Need? ( http://arxiv.org/abs/2105.13003v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) 情報損失は、コントラストモデルトレーニングで広く使用される損失関数である。 これは、各正の対とその関連する$K$負の対を識別することで、変数のペア間の相互情報を推定することを目的としている。 サンプルラベルがクリーンであれば,より負のサンプルを組み込んだ場合の相互情報推定の上限がより厳しくなり,モデル性能が向上することが証明された。 しかし、実世界の多くのタスクではラベルにはノイズが含まれており、モデルトレーニングにノイズの多い負のサンプルを多用することは最適ではないかもしれない。 本稿では, 半定量的理論フレームワークを用いて, InfoNCE に最適な負サンプル数について検討する。 より具体的には、まず、負サンプリング率$k$がトレーニングサンプル情報量に与える影響を分析する確率モデルを提案する。 そこで本研究では,モデル学習におけるトレーニングサンプルの全体的影響を,その情報性に基づいて測定する訓練効果関数を設計する。 トレーニングの有効性関数を最大化する$K$値を用いて最適負サンプリング比を推定する。 さらに,本フレームワークに基づいて,負サンプリング率を動的に調整し,InfoNCEに基づくモデルトレーニングを改善する適応型負サンプリング手法を提案する。 実世界の異なるデータセットに対する広範囲な実験により,提案手法は異なるタスクにおける最適負サンプリング比を正確に予測でき,提案手法は一般的な固定負サンプリング比戦略よりも優れた性能が得られることを示した。

InfoNCE loss is a widely used loss function for contrastive model training. It aims to estimate the mutual information between a pair of variables by discriminating between each positive pair and its associated $K$ negative pairs. It is proved that when the sample labels are clean, the lower bound of mutual information estimation is tighter when more negative samples are incorporated, which usually yields better model performance. However, in many real-world tasks the labels often contain noise, and incorporating too many noisy negative samples for model training may be suboptimal. In this paper, we study how many negative samples are optimal for InfoNCE in different scenarios via a semi-quantitative theoretical framework. More specifically, we first propose a probabilistic model to analyze the influence of the negative sampling ratio $K$ on training sample informativeness. Then, we design a training effectiveness function to measure the overall influence of training samples on model learning based on their informativeness. We estimate the optimal negative sampling ratio using the $K$ value that maximizes the training effectiveness function. Based on our framework, we further propose an adaptive negative sampling method that can dynamically adjust the negative sampling ratio to improve InfoNCE based model training. Extensive experiments on different real-world datasets show our framework can accurately predict the optimal negative sampling ratio in different tasks, and our proposed adaptive negative sampling method can achieve better performance than the commonly used fixed negative sampling ratio strategy.
翻訳日:2021-05-29 04:40:03 公開日:2021-05-27
# (参考訳) マルチチャネル材料テクスチャの3チャンネル損失への伝達

Passing Multi-Channel Material Textures to a 3-Channel Loss ( http://arxiv.org/abs/2105.13012v1 )

ライセンス: CC BY 4.0
Thomas Chambon, Eric Heitz, and Laurent Belcour(参考訳) 本研究の目的は,albedo, normal, roughness, metalness, ambient occlusionなどの物理ベースレンダリングに使用される複数の素材チャネルを用いたテクスチャ生成器のトレーニングに使用できるテクスチャロスを計算することである。 ニューラルネットワークは、事前訓練された畳み込みニューラルネットワークの特徴空間の上に構築されることが多い。 残念なことに、これらの事前訓練されたモデルは3チャンネルのRGBデータでしか利用できないため、このフォーマットでは神経のテクスチャ損失が制限される。 この限界を克服するために、3チャンネルの損失にランダムな三重項を渡すことは、高品質な素材テクスチャを生成するのに使用できるマルチチャネル損失をもたらすことを示した。

Our objective is to compute a textural loss that can be used to train texture generators with multiple material channels typically used for physically based rendering such as albedo, normal, roughness, metalness, ambient occlusion, etc. Neural textural losses often build on top of the feature spaces of pretrained convolutional neural networks. Unfortunately, these pretrained models are only available for 3-channel RGB data and hence limit neural textural losses to this format. To overcome this limitation, we show that passing random triplets to a 3-channel loss provides a multi-channel loss that can be used to generate high-quality material textures.
翻訳日:2021-05-29 04:22:50 公開日:2021-05-27
# (参考訳) 線形バンディットにおけるミニマックス最適腕同定に向けて

Towards Minimax Optimal Best Arm Identification in Linear Bandits ( http://arxiv.org/abs/2105.13017v1 )

ライセンス: CC BY 4.0
Junwen Yang, Vincent Y. F. Tan(参考訳) 固定予算設定における線形包帯における最適な腕識別の問題について検討する。 g-optimal designの特性を活用し、アーム割り当てルールに組み込むことにより、パラメータフリーな最適設計に基づく線形最良アーム識別(od-linbai)を設計する。 OD-LinBAIの故障確率に関する理論的解析を行った。 既存の方法(例えばベイズガップ)のパフォーマンスはすべての最適性ギャップに依存するが、od-linbai は最上位の$d$ arms のギャップに依存しており、ここで $d$ はリニア・バンディット・インスタンスの有効次元である。 さらに,この問題に対してミニマックス下限を提案する。 上と下の境界は、OD-LinBAI が指数の乗算因子まで極小であることを示している。 最後に,数値実験によって理論的知見が一致した。

We study the problem of best arm identification in linear bandits in the fixed-budget setting. By leveraging properties of the G-optimal design and incorporating it into the arm allocation rule, we design a parameter-free algorithm, Optimal Design-based Linear Best Arm Identification (OD-LinBAI). We provide a theoretical analysis of the failure probability of OD-LinBAI. While the performances of existing methods (e.g., BayesGap) depend on all the optimality gaps, OD-LinBAI depends on the gaps of the top $d$ arms, where $d$ is the effective dimension of the linear bandit instance. Furthermore, we present a minimax lower bound for this problem. The upper and lower bounds show that OD-LinBAI is minimax optimal up to multiplicative factors in the exponent. Finally, numerical experiments corroborate our theoretical findings.
翻訳日:2021-05-29 04:17:48 公開日:2021-05-27
# (参考訳) 神経密度場による不規則小天体の測地:測地ネットワーク

Geodesy of irregular small bodies via neural density fields: geodesyNets ( http://arxiv.org/abs/2105.13031v1 )

ライセンス: CC BY 4.0
Dario Izzo and Pablo G\'omez(参考訳) 本稿では, ニューラルネットワーク, いわゆるジオデシネットをベースとした新しいアプローチを提案するとともに, 身体の最小限の事前情報を用いて, 極めて不規則な天体の正確な測地モデルとして機能する能力を示す。 このアプローチはボディシェイプ情報に依存しないが、利用可能であればそれを活用できる。 GeodesyNetsは、ニューラルネットワークと呼ばれる体密度を表す3次元の微分可能な関数を学習する。 体の形状は、他の測地特性と同様に容易に回収できる。 身長101955ベンヌ,67pチュリュモフ・ゲラシメンコ,433エロス,25143イトカワの6種類の形状を調査し,近接調査で形状モデルが得られた。 不均一質量分布と均質質量分布の両方を考慮する。 トレーニングされた測地線モデルから計算された重力加速度と推定された天体形状は、小惑星表面の1\%よりも小さい予測加速度の相対誤差が全ての場合において高い精度を示す。 体の形に関する情報が得られれば、ジオデシーネットはシームレスにそれを利用でき、身体の内部構造に関する洞察を与えることができる高忠実な神経密度場を表現するように訓練することができる。 本研究は,球面高調波,マスコンモデル,多面体重力に基づく高調波を統合するための強力なツールである。

We present a novel approach based on artificial neural networks, so-called geodesyNets, and present compelling evidence of their ability to serve as accurate geodetic models of highly irregular bodies using minimal prior information on the body. The approach does not rely on the body shape information but, if available, can harness it. GeodesyNets learn a three-dimensional, differentiable, function representing the body density, which we call neural density field. The body shape, as well as other geodetic properties, can easily be recovered. We investigate six different shapes including the bodies 101955 Bennu, 67P Churyumov-Gerasimenko, 433 Eros and 25143 Itokawa for which shape models developed during close proximity surveys are available. Both heterogeneous and homogeneous mass distributions are considered. The gravitational acceleration computed from the trained geodesyNets models, as well as the inferred body shape, show great accuracy in all cases with a relative error on the predicted acceleration smaller than 1\% even close to the asteroid surface. When the body shape information is available, geodesyNets can seamlessly exploit it and be trained to represent a high-fidelity neural density field able to give insights into the internal structure of the body. This work introduces a new unexplored approach to geodesy, adding a powerful tool to consolidated ones based on spherical harmonics, mascon models and polyhedral gravity.
翻訳日:2021-05-29 03:34:57 公開日:2021-05-27
# (参考訳) 多関節帯域調整による確率勾配MCMC

Stochastic Gradient MCMC with Multi-Armed Bandit Tuning ( http://arxiv.org/abs/2105.13059v1 )

ライセンス: CC BY 4.0
Jeremie Coullon, Leah South, Christopher Nemeth(参考訳) 確率的勾配マルコフ連鎖モンテカルロ(sgmcmc)はスケーラブルベイズ推定のための一般的なアルゴリズムである。 しかしながら、これらのアルゴリズムは、得られたサンプルに基づいて推定器の精度に影響を与えるステップサイズやバッチサイズなどのハイパーパラメータを含む。 結果として、これらのハイパーパラメータは実践者によってチューニングされなければならず、現在それらをチューニングするための原則と自動化された方法は存在しない。 受け入れ率に基づく標準MCMCチューニング手法は、SGMCMCでは使用できないため、代替ツールや診断が必要である。 sgmcmcハイパーパラメータをチューニングし,kernel stein discrepancy (ksd) を最小化することにより後続近似の精度を最大化するbanditに基づく新しいアルゴリズムを提案する。 このアプローチを支持する理論的結果を提供し、KSDの代替指標を評価する。 シミュレーションと実データの両方で実験を行い,本手法が広範囲の応用分野に適用可能であることを確認した。

Stochastic gradient Markov chain Monte Carlo (SGMCMC) is a popular class of algorithms for scalable Bayesian inference. However, these algorithms include hyperparameters such as step size or batch size that influence the accuracy of estimators based on the obtained samples. As a result, these hyperparameters must be tuned by the practitioner and currently no principled and automated way to tune them exists. Standard MCMC tuning methods based on acceptance rates cannot be used for SGMCMC, thus requiring alternative tools and diagnostics. We propose a novel bandit-based algorithm that tunes SGMCMC hyperparameters to maximize the accuracy of the posterior approximation by minimizing the kernel Stein discrepancy (KSD). We provide theoretical results supporting this approach and assess alternative metrics to KSD. We support our results with experiments on both simulated and real datasets, and find that this method is practical for a wide range of application areas.
翻訳日:2021-05-29 03:33:33 公開日:2021-05-27
# (参考訳) 想像的生成的敵ネットワーク : ダイナミックスケルトンに基づくハンドジェスチャとヒューマンアクション認識のための自動データ拡張

The Imaginative Generative Adversarial Network: Automatic Data Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action Recognition ( http://arxiv.org/abs/2105.13061v1 )

ライセンス: CC BY 4.0
Junxiao Shen and John Dudley and Per Ola Kristensson(参考訳) ディープラーニングのアプローチは、時空間的な人間の動きデータを認識することで最先端のパフォーマンスを提供する。 しかし、これらの認識タスクの主な課題の1つは、利用可能なトレーニングデータに制限があることである。 トレーニングデータ不足は過剰フィッティングを引き起こし、データ拡張はこの課題に対処する1つのアプローチである。 スケーリング、シフト、補間などのトランスフォーメーションのような既存のデータ拡張戦略では、ハイパーパラメータの最適化が必要で、簡単に数百gpu時間かかります。 本稿では,入力データの分布を近似し,その分布から新たなデータをサンプリングする,新たなデータ拡張モデルである想像型生成逆ネットワーク(gan)を提案する。 データ検査やハイパーパラメータチューニングをほとんど必要とせず、そのため、合成データを生成するための低コストで安価なアプローチである。 提案されたデータ拡張戦略はトレーニングが高速であり、合成データは古典的なアプローチで拡張されたデータよりも高い認識精度をもたらす。

Deep learning approaches deliver state-of-the-art performance in recognition of spatiotemporal human motion data. However, one of the main challenges in these recognition tasks is limited available training data. Insufficient training data results in over-fitting and data augmentation is one approach to address this challenge. Existing data augmentation strategies, such as transformations including scaling, shifting and interpolating, require hyperparameter optimization that can easily cost hundreds of GPU hours. In this paper, we present a novel automatic data augmentation model, the Imaginative Generative Adversarial Network (GAN) that approximates the distribution of the input data and samples new data from this distribution. It is automatic in that it requires no data inspection and little hyperparameter tuning and therefore it is a low-cost and low-effort approach to generate synthetic data. The proposed data augmentation strategy is fast to train and the synthetic data leads to higher recognition accuracy than using data augmented with a classical approach.
翻訳日:2021-05-29 03:03:06 公開日:2021-05-27
# (参考訳) 近縁言語のための極低リソース機械翻訳

Extremely low-resource machine translation for closely related languages ( http://arxiv.org/abs/2105.13065v1 )

ライセンス: CC BY-SA 4.0
Maali Tars, Andre T\"attar, Mark Fi\v{s}el(参考訳) 非常に低リソースのニューラルマシン翻訳を改善する効果的な方法は、単言語データを活用して、バックトランスレーション法による合成バイリンガルコーパスを作成することで改善できる多言語訓練である。 この研究は、エストニア語とフィンランドの地理的地域であるウラル語族の言語に密接に関連している。 多言語学習と合成コーパスは、データを持つ全ての言語対の翻訳品質を高めることが判明した。 転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。 我々は,V\~oro,North,South Saamiの並列データを収集し,これらの言語に対するニューラルマシン翻訳の最初の結果を示した。

An effective method to improve extremely low-resource neural machine translation is multilingual training, which can be improved by leveraging monolingual data to create synthetic bilingual corpora using the back-translation method. This work focuses on closely related languages from the Uralic language family: from Estonian and Finnish geographical regions. We find that multilingual learning and synthetic corpora increase the translation quality in every language pair for which we have data. We show that transfer learning and fine-tuning are very effective for doing low-resource machine translation and achieve the best results. We collected new parallel data for V\~oro, North and South Saami and present first results of neural machine translation for these languages.
翻訳日:2021-05-29 02:38:01 公開日:2021-05-27
# (参考訳) transmart: 実用的な対話型機械翻訳システム

TranSmart: A Practical Interactive Machine Translation System ( http://arxiv.org/abs/2105.13072v1 )

ライセンス: CC BY 4.0
Guoping Huang, Lemao Liu, Xing Wang, Longyue Wang, Huayang Li, Zhaopeng Tu, Chengyan Huang and Shuming Shi(参考訳) 自動機械翻訳は翻訳を行うのに非常に効率的であるが、その品質は保証されていない。 本手法では,翻訳品質と効率をトレードオフできる人間機械対話型翻訳システムであるTranSmartを紹介する。 既存の対話型翻訳システムと比較して、TranSmartは単語レベルのオートコンプリート、文レベルのオートコンプリート、翻訳メモリという3つの重要な機能をサポートしている。 TranSmartは、単語レベルと文レベルの自動補完によって、ユーザーは左から右へ厳格なやり方ではなく、自分のやり方で対話的に単語を翻訳できる。 さらにTranSmartは、歴史の翻訳文をメモリとして使用することで、類似の翻訳ミスを避けることができる。 本稿では,TranSmartの主要な機能,これらの機能を実現するアルゴリズム,TranSmart APIの使用方法,重要な機能の評価結果について述べる。 TranSmartはホームページ(https://transmart.qq.com)で公開されている。

Automatic machine translation is super efficient to produce translations yet their quality is not guaranteed. This technique report introduces TranSmart, a practical human-machine interactive translation system that is able to trade off translation quality and efficiency. Compared to existing publicly available interactive translation systems, TranSmart supports three key features, word-level autocompletion, sentence-level autocompletion and translation memory. By word-level and sentence-level autocompletion, TranSmart allows users to interactively translate words in their own manners rather than the strict manner from left to right. In addition, TranSmart has the potential to avoid similar translation mistakes by using translated sentences in history as its memory. This report presents major functions of TranSmart, algorithms for achieving these functions, how to use the TranSmart APIs, and evaluation results of some key functions. TranSmart is publicly available at its homepage (https://transmart.qq.com).
翻訳日:2021-05-29 02:12:20 公開日:2021-05-27
# (参考訳) 知識蒸留の理解に向けて

Towards Understanding Knowledge Distillation ( http://arxiv.org/abs/2105.13093v1 )

ライセンス: CC BY 4.0
Mary Phuong, Christoph H. Lampert(参考訳) 知識蒸留(英: knowledge distillation)とは、ある分類器が他の分類器の出力で訓練され、経験的に非常に成功した技術である。 分類器は他の分類器の出力をソフトラベルとしてトレーニングした場合、基底的真理データではなく、より高速かつ確実に学習することが観察されている。 しかし、今のところこの現象の理論的説明は十分ではない。 本研究では, 線形および深部線形分類器の特別な場合を研究することにより, 蒸留の作業機構に関する最初の知見を提供する。 具体的には,蒸留訓練線形分類器の期待リスクを高速に収束させる一般化境界を証明した。 From the bound and its proof we extract three key factors that determine the success of distillation: * data geometry -- geometric properties of the data distribution, in particular class separation, has a direct influence on the convergence speed of the risk; * optimization bias -- gradient descent optimization finds a very favorable minimum of the distillation objective; and * strong monotonicity -the expected risk of the student classifier always decreases when the size of the training set grows.

Knowledge distillation, i.e., one classifier being trained on the outputs of another classifier, is an empirically very successful technique for knowledge transfer between classifiers. It has even been observed that classifiers learn much faster and more reliably if trained with the outputs of another classifier as soft labels, instead of from ground truth data. So far, however, there is no satisfactory theoretical explanation of this phenomenon. In this work, we provide the first insights into the working mechanisms of distillation by studying the special case of linear and deep linear classifiers. Specifically, we prove a generalization bound that establishes fast convergence of the expected risk of a distillation-trained linear classifier. From the bound and its proof we extract three key factors that determine the success of distillation: * data geometry -- geometric properties of the data distribution, in particular class separation, has a direct influence on the convergence speed of the risk; * optimization bias -- gradient descent optimization finds a very favorable minimum of the distillation objective; and * strong monotonicity -- the expected risk of the student classifier always decreases when the size of the training set grows.
翻訳日:2021-05-29 01:28:08 公開日:2021-05-27
# (参考訳) 条件付き生成逆ネットワークを用いたPDEのデータ駆動解とパラメータ推定のためのフレームワーク

A framework for data-driven solution and parameter estimation of PDEs using conditional generative adversarial networks ( http://arxiv.org/abs/2105.13136v1 )

ライセンス: CC BY 4.0
Teeratorn Kadeethum, Daniel O'Malley, Jan Niklas Fuhg, Youngsoo Choi, Jonghyun Lee, Hari S. Viswanathan, Nikolaos Bouklas(参考訳) この研究は、条件付き生成逆数ネットワーク(cGAN)に基づく画像から画像への変換の概念を、偏微分方程式(PDE)の前方および逆解作用素の学習に適用し、適応する最初のものである。 提案手法は,任意のpdesの解に対するサロゲートモデルとして適用することができるが,不均質多孔質媒質中の結合水力機械過程の定常解に着目する。 PDEの係数の不均一性と解の不連続な特徴を変換する強いヘテロジニアスな材料特性は、これらの問題の前方および逆解のための特別な技術を必要とする。 さらに, 空間的不均一係数のパラメトリゼーションは, 標準還元次数モデリング技術を用いることで過度に困難である。 本研究では,画像から画像への変換概念を用いて前方および逆の解演算子を学習し,u-net生成器とパッチベースの判別器を活用することで,これらの課題を克服する。 提案したデータ駆動型縮小順序モデルでは,前処理と逆処理の両問題に対する最先端データ駆動手法と比較して,精度と計算効率の競争性能が向上することを示した。

This work is the first to employ and adapt the image-to-image translation concept based on conditional generative adversarial networks (cGAN) towards learning a forward and an inverse solution operator of partial differential equations (PDEs). Even though the proposed framework could be applied as a surrogate model for the solution of any PDEs, here we focus on steady-state solutions of coupled hydro-mechanical processes in heterogeneous porous media. Strongly heterogeneous material properties, which translate to the heterogeneity of coefficients of the PDEs and discontinuous features in the solutions, require specialized techniques for the forward and inverse solution of these problems. Additionally, parametrization of the spatially heterogeneous coefficients is excessively difficult by using standard reduced order modeling techniques. In this work, we overcome these challenges by employing the image-to-image translation concept to learn the forward and inverse solution operators and utilize a U-Net generator and a patch-based discriminator. Our results show that the proposed data-driven reduced order model has competitive predictive performance capabilities in accuracy and computational efficiency as well as training time requirements compared to state-of-the-art data-driven methods for both forward and inverse problems.
翻訳日:2021-05-29 00:55:06 公開日:2021-05-27
# (参考訳) Liebig's Barrelが顔のランドマーク検出に遭遇:実用モデル

When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model ( http://arxiv.org/abs/2105.13150v1 )

ライセンス: CC BY 4.0
Haibo Jin, Jinpeng Li, Shengcai Liao, Ling Shao(参考訳) 近年,顔のランドマーク検出の研究において有意な進歩がみられた。 しかしながら、実用的応用のためのモデルについて徹底的に論じられた先行研究はほとんどない。 代わりに、彼らはしばしば、他の問題を無視しながら、一度にいくつかの問題を改善することに焦点を合わせます。 このギャップを埋めるために、我々は、正確で堅牢で、効率的で、一般化可能で、エンドツーエンドで同時にトレーニング可能な実用モデルを探求することを目指している。 そこで本研究では,まず1つのトランスデコーダを検出ヘッドとするベースラインモデルを提案する。 精度を向上させるために,動的クエリ初期化(DQInit)とクエリ対応メモリ(QAMem)の2つの軽量モジュールを提案する。 具体的には、DQInitはインプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度の特徴マップ上のクエリの識別能力を高めるように設計されている。 QAMemの助けを借りて、我々のモデルは高分解能特徴写像への依存を排除し、高い精度を得ることができる。 3つの一般的なベンチマーク実験と分析により,提案モデルの有効性と実用性を示した。 特に,本モデルでは,50FPS以上で動作しながら,300WおよびCOFWの競争結果とともに,WFLW上の新たな技術状況を達成する。

In recent years, significant progress has been made in the research of facial landmark detection. However, few prior works have thoroughly discussed about models for practical applications. Instead, they often focus on improving a couple of issues at a time while ignoring the others. To bridge this gap, we aim to explore a practical model that is accurate, robust, efficient, generalizable, and end-to-end trainable at the same time. To this end, we first propose a baseline model equipped with one transformer decoder as detection head. In order to achieve a better accuracy, we further propose two lightweight modules, namely dynamic query initialization (DQInit) and query-aware memory (QAMem). Specifically, DQInit dynamically initializes the queries of decoder from the inputs, enabling the model to achieve as good accuracy as the ones with multiple decoder layers. QAMem is designed to enhance the discriminative ability of queries on low-resolution feature maps by assigning separate memory values to each query rather than a shared one. With the help of QAMem, our model removes the dependence on high-resolution feature maps and is still able to obtain superior accuracy. Extensive experiments and analysis on three popular benchmarks show the effectiveness and practical advantages of the proposed model. Notably, our model achieves new state of the art on WFLW as well as competitive results on 300W and COFW, while still running at 50+ FPS.
翻訳日:2021-05-29 00:53:16 公開日:2021-05-27
# (参考訳) 形状認識輪郭注意によるCT画像の心臓分画

Cardiac Segmentation on CT Images through Shape-Aware Contour Attentions ( http://arxiv.org/abs/2105.13153v1 )

ライセンス: CC BY 4.0
Sanguk Park and Minyoung Chung(参考訳) CT画像における心房, 心室, 心筋のセグメンテーションは, 心血管疾患診断の第一線として重要な課題である。 最近のいくつかの研究で、深層学習モデルは医療画像分割タスクにおいて大きなブレークスルーを示している。 肺や肝臓などの他の臓器とは異なり、心臓臓器は複数のサブ構造(心室、心房、大動脈、動脈、静脈、心筋)から構成される。 これらの心サブ構造は互いに近縁であり、識別できない境界(等質な強度値)を持つため、セグメンテーションネットワークがサブ構造間の境界に集中するのは困難である。 本稿では,近位臓器間のセグメンテーション精度を向上させるため,形状と境界認識機能を利用する新しいモデルを提案する。 形状認識型アテンションモジュールを主に提案し, 距離回帰を活用し, モデルがサブ構造間のエッジに焦点を合わせるように誘導することで, 従来の輪郭型アテンション法を上回らせることができる。 実験では、トレーニングと検証のために20個のct心筋画像と、テストのために40個のct心筋画像を含むマルチモダリティ全心分画データセットを用いた。 実験の結果,Diceの類似度係数のスコアを4.97%向上させることにより,現状のネットワークよりも正確な結果が得られることがわかった。 提案した形状認識輪郭注意機構は, 距離変換と境界特性が実際の注意マップを改善し, 境界領域の応答を強化することを実証する。 さらに,提案手法は最終出力の偽陽性反応を著しく低減し,精度の高いセグメンテーションを実現する。

Cardiac segmentation of atriums, ventricles, and myocardium in computed tomography (CT) images is an important first-line task for presymptomatic cardiovascular disease diagnosis. In several recent studies, deep learning models have shown significant breakthroughs in medical image segmentation tasks. Unlike other organs such as the lungs and liver, the cardiac organ consists of multiple substructures, i.e., ventricles, atriums, aortas, arteries, veins, and myocardium. These cardiac substructures are proximate to each other and have indiscernible boundaries (i.e., homogeneous intensity values), making it difficult for the segmentation network focus on the boundaries between the substructures. In this paper, to improve the segmentation accuracy between proximate organs, we introduce a novel model to exploit shape and boundary-aware features. We primarily propose a shape-aware attention module, that exploits distance regression, which can guide the model to focus on the edges between substructures so that it can outperform the conventional contour-based attention method. In the experiments, we used the Multi-Modality Whole Heart Segmentation dataset that has 20 CT cardiac images for training and validation, and 40 CT cardiac images for testing. The experimental results show that the proposed network produces more accurate results than state-of-the-art networks by improving the Dice similarity coefficient score by 4.97%. Our proposed shape-aware contour attention mechanism demonstrates that distance transformation and boundary features improve the actual attention map to strengthen the responses in the boundary area. Moreover, our proposed method significantly reduces the false-positive responses of the final output, resulting in accurate segmentation.
翻訳日:2021-05-29 00:35:59 公開日:2021-05-27
# (参考訳) プロセスマイニングにおける説明可能な概念ドリフト検出フレームワーク

A Framework for Explainable Concept Drift Detection in Process Mining ( http://arxiv.org/abs/2105.13155v1 )

ライセンス: CC BY 4.0
Jan Niklas Adams, Sebastiaan J. van Zelst, Lara Quack, Kathrin Hausmann, Wil M.P. van der Aalst, and Thomas Rose(参考訳) 急速に変化するビジネス環境は、企業を高いレベルの不確実性にさらしている。 この不確実性は、プロセスの存続期間を通じて起こり、おそらくそのパフォーマンスに影響を及ぼしがちな重大な変化に現れます。 このような変化の根本原因を理解することが重要です。 プロセスマイニングの研究はこれまで、プロセスにおける重要な変化の検出、特定、特徴付けにのみ重点を置いてきた。 本稿では,このギャップを埋めることを目的とする。 我々は,プロセスマイニングにおける概念ドリフト検出に説明可能性レベルを追加し,重要な変化の背後にある原因-影響関係について洞察を与えるフレームワークを提案する。 プロセスの異なる視点を定義し、これらの視点における概念ドリフトを検出し、これらの概念ドリフトが相互に因果的かどうかを決定する因果チェックに視点をプラグインする。 合成イベントデータと実イベントデータの両方で評価することで,フレームワークの有効性を示す。 実験の結果,本手法は原因と効果の関係を悪化させ,実行プロセスに新たな洞察を与えることがわかった。

Rapidly changing business environments expose companies to high levels of uncertainty. This uncertainty manifests itself in significant changes that tend to occur over the lifetime of a process and possibly affect its performance. It is important to understand the root causes of such changes since this allows us to react to change or anticipate future changes. Research in process mining has so far only focused on detecting, locating and characterizing significant changes in a process and not on finding root causes of such changes. In this paper, we aim to close this gap. We propose a framework that adds an explainability level onto concept drift detection in process mining and provides insights into the cause-effect relationships behind significant changes. We define different perspectives of a process, detect concept drifts in these perspectives and plug the perspectives into a causality check that determines whether these concept drifts can be causal to each other. We showcase the effectiveness of our framework by evaluating it on both synthetic and real event data. Our experiments show that our approach unravels cause-effect relationships and provides novel insights into executed processes.
翻訳日:2021-05-29 00:11:39 公開日:2021-05-27
# (参考訳) コニックブラックウェルアルゴリズム:パラメータフリー凸凹サドル点解法

Conic Blackwell Algorithm: Parameter-Free Convex-Concave Saddle-Point Solving ( http://arxiv.org/abs/2105.13203v1 )

ライセンス: CC BY 4.0
Julien Grand-Cl\'ement, Christian Kroer(参考訳) 我々は凸凹型サドルポイント問題の解法として,新しいパラメータとスケールフリーアルゴリズムを開発した。 我々の結果は、新しい単純な後悔最小化器であるコニック・ブラックウェル・アルゴリズム$^+$ (CBA$^+$) に基づいており、O(1/\sqrt{T})$平均後悔となる。 直感的には、本手法は、直観的に、直観上のシーケンシャルゲームを解くための非常に強力な実用性能を持つCFR$^+$アルゴリズムから、他の決定的関心の集合に一般化する。 本稿では,simplex,$\ell_{p}$ノルムボール,楕円型信頼領域に対してcba$^+$を実装する方法を示し,行列ゲームを解くための数値実験と分布的ロバストな最適化問題を提案する。 実験の結果, CBA$^+$は, ステップサイズやアルゴリズムパラメータの選択を必要とせずに, 合成データや実データインスタンス上で最先端の手法より優れた単純なアルゴリズムであることがわかった。

We develop new parameter and scale-free algorithms for solving convex-concave saddle-point problems. Our results are based on a new simple regret minimizer, the Conic Blackwell Algorithm$^+$ (CBA$^+$), which attains $O(1/\sqrt{T})$ average regret. Intuitively, our approach generalizes to other decision sets of interest ideas from the Counterfactual Regret minimization (CFR$^+$) algorithm, which has very strong practical performance for solving sequential games on simplexes. We show how to implement CBA$^+$ for the simplex, $\ell_{p}$ norm balls, and ellipsoidal confidence regions in the simplex, and we present numerical experiments for solving matrix games and distributionally robust optimization problems. Our empirical results show that CBA$^+$ is a simple algorithm that outperforms state-of-the-art methods on synthetic data and real data instances, without the need for any choice of step sizes or other algorithmic parameters.
翻訳日:2021-05-28 23:24:05 公開日:2021-05-27
# (参考訳) Pose2Drone:Human-DroneインタラクションのためのSkeleton-Poseベースのフレームワーク

Pose2Drone: A Skeleton-Pose-based Framework forHuman-Drone Interaction ( http://arxiv.org/abs/2105.13204v1 )

ライセンス: CC BY 4.0
Zdravko Marinov, Stanka Vasileva, Qing Wang, Constantin Seibold, Jiaming Zhang and Rainer Stiefelhagen(参考訳) ドローンは一般的なツールとなり、航空写真、監視、配送などの多くのタスクで利用されている。 しかし、ドローンを操作するにはユーザーとの対話がますます必要になる。 HDI(Human-Drone Interaction)の自然で安全な方法はジェスチャーである。 本稿では,スケルトンに基づくポーズ推定に基づくhdiフレームワークを提案する。 我々のフレームワークは、簡単なアームジェスチャーでドローンの動きを制御し、安全な距離を維持しながらユーザーをフォローする機能を提供する。 また,画像特徴に基づく単分子距離推定法を提案し,追加の深度センサを必要としない。 包括的な実験と定量的分析を行うために、カスタムテストデータセットを作成します。 実験の結果,HDIフレームワークは11つの共通ジェスチャーの認識において平均93.5%の精度が得られることがわかった。 コードは、将来の研究を促進するために公開されます。 https://github.com/zrrr1997/pose2drone

Drones have become a common tool, which is utilized in many tasks such as aerial photography, surveillance, and delivery. However, operating a drone requires more and more interaction with the user. A natural and safe method for Human-Drone Interaction (HDI) is using gestures. In this paper, we introduce an HDI framework building upon skeleton-based pose estimation. Our framework provides the functionality to control the movement of the drone with simple arm gestures and to follow the user while keeping a safe distance. We also propose a monocular distance estimation method, which is entirely based on image features and does not require any additional depth sensors. To perform comprehensive experiments and quantitative analysis, we create a customized testing dataset. The experiments indicate that our HDI framework can achieve an average of93.5% accuracy in the recognition of 11 common gestures. The code will be made publicly available to foster future research. Code is available at: https://github.com/Zrrr1997/Pose2Drone
翻訳日:2021-05-28 22:33:54 公開日:2021-05-27
# (参考訳) 核密度ドリフト検出とコンバイン・ガウス混合モデルに基づく音響シーン分類器の概念ドリフト適応の評価

Evaluation of concept drift adaptation for acoustic scene classifier based on Kernel Density Drift Detection and Combine Merge Gaussian Mixture Model ( http://arxiv.org/abs/2105.13220v1 )

ライセンス: CC BY 4.0
Ibnu Daqiqil Id, Masanobu Abe, Sunao Hara(参考訳) 実験結果に基づいて、ドリフト型はそれぞれのハイパーパラメータ構成を持つ。 単純で漸進的な概念ドリフトは、このタイプのドリフトでは、新しい概念が連続的に現れるため、高頻度モデル適応が必要であるため、反復的な概念ドリフトよりもより小さい「アルファ」値を必要とする同様のパターンを持つ。 しかし、反復する概念では、新しい概念が将来繰り返される可能性があり、より低い周波数適応が良い。 さらに、高周波モデル適応は過度な問題を引き起こす可能性がある。 cmgmmコンポーネントのプルーニング機構の実装は、アクティブコンポーネントの数を制御し、モデルパフォーマンスを改善するのに役立つ。

Based on the experimental results, all concepts drift types have their respective hyperparameter configurations. Simple and gradual concept drift have similar pattern which requires a smaller {\alpha} value than recurring concept drift because, in this type of drift, a new concept appear continuously, so it needs a high-frequency model adaptation. However, in recurring concepts, the new concept may repeat in the future, so the lower frequency adaptation is better. Furthermore, high-frequency model adaptation could lead to an overfitting problem. Implementing CMGMM component pruning mechanism help to control the number of the active component and improve model performance.
翻訳日:2021-05-28 22:21:00 公開日:2021-05-27
# (参考訳) NAAS:Neural Accelerator Architecture Search

NAAS: Neural Accelerator Architecture Search ( http://arxiv.org/abs/2105.13258v1 )

ライセンス: CC BY 4.0
Yujun Lin, Mengtian Yang and Song Han(参考訳) データ駆動で自動設計空間を探索するニューラルアクセラレーターアーキテクチャは、特殊化と生産性のために望ましい。 以前のフレームワークでは、ペコネクティビティやコンパイラマッピングの検索を怠りながら、数値的なアーキテクチャ上のハイパーパラメータのサイズに重点を置いていた。 この課題に取り組むために,ニューラルネットワークアーキテクチャ,アクセラレーションアーキテクチャ,コンパイラマッピングを1つの最適化ループで段階的に検索するneural accelerator architecture search (naas)を提案する。 naasは高度に整合したアーキテクチャを効率的なマッピングと共に構成する。 データ駆動型アプローチとして、NAASは人間設計のEyerissを4.4倍のEDP削減、ImageNetの2.7%の精度向上、アーキテクチャのハイパーパラメータのサイズよりも1.4倍から3.5倍のEDP削減を提供する。

Data-driven, automatic design space exploration of neural accelerator architecture is desirable for specialization and productivity. Previous frameworks focus on sizing the numerical architectural hyper-parameters while neglect searching the PE connectivities and compiler mappings. To tackle this challenge, we propose Neural Accelerator Architecture Search (NAAS) which holistically searches the neural network architecture, accelerator architecture, and compiler mapping in one optimization loop. NAAS composes highly matched architectures together with efficient mapping. As a data-driven approach, NAAS rivals the human design Eyeriss by 4.4x EDP reduction with 2.7% accuracy improvement on ImageNet under the same computation resource, and offers 1.4x to 3.5x EDP reduction than only sizing the architectural hyper-parameters.
翻訳日:2021-05-28 22:13:22 公開日:2021-05-27
# (参考訳) 深層ネットワークの解釈可能性にサスカディック・ビジョンがどう役立つか

How saccadic vision might help with theinterpretability of deep networks ( http://arxiv.org/abs/2105.13264v1 )

ライセンス: CC BY 4.0
Iana Sereda and Grigory Osipov(参考訳) 本稿では,現代の深層ネットワークのいくつかの問題(解釈可能性,オブジェクト指向性)が,生物学的に妥当な認識機構に適応することでどのように解決されるかを述べる。 このようなsaccadic visionmodelのスケッチが提案されている。 概念実証実験の結果は,提案手法を裏付けるものである。

We describe how some problems (interpretability,lack of object-orientedness) of modern deep networks potentiallycould be solved by adapting a biologically plausible saccadicmechanism of perception. A sketch of such a saccadic visionmodel is proposed. Proof of concept experimental results areprovided to support the proposed approach.
翻訳日:2021-05-28 21:54:25 公開日:2021-05-27
# (参考訳) ICDAR 2021 歴史地図セグメンテーションに関するコンペティション

ICDAR 2021 Competition on Historical Map Segmentation ( http://arxiv.org/abs/2105.13265v1 )

ライセンス: CC BY-SA 4.0
Joseph Chazalon (1), Edwin Carlinet (1), Yizi Chen (1 and 2), Julien Perret (2 and 3), Bertrand Dum\'enieu (3), Cl\'ement Mallet (2), Thierry G\'eraud (1), Vincent Nguyen (4 and 5), Nam Nguyen (4), Josef Baloun (6 and 7), Ladislav Lenc (6 and 7), Pavel Kr\'al (6 and 7) ((1) EPITA Research and Development Lab. (LRDE), EPITA, France, (2) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, France, (3) LaD\'eHiS, CRH, EHESS, France, (4) L3i, University of La Rochelle, France, (5) Liris, INSA-Lyon, France, (6) Department of Computer Science and Engineering, University of West Bohemia, Univerzitn\'i, Pilsen, Czech Republic, (7) NTIS - New Technologies for the Information Society, University of West Bohemia, Univerzitn\'i, Pilsen, Czech Republic)(参考訳) 本稿では,1894年から1937年までの1/5000スケールのフランス・パリの一連の歴史地図に関する研究を奨励する,歴史地図セグメンテーションに関するICDAR 2021コンペティション(MapSeg)の最終結果を示す。 コンペティションでは3つの課題がそれぞれ別々に与えられた。 Task~1はビルディングブロックを検出し、L3IRISチームによって、弱い教師付きで訓練されたDenseNet-121ネットワークを使用して勝利した。 このタスクは、検出するために数百の形状を含む3つの大きな画像で評価される。 Task~2は、より大きな地図シートからのセグメンテーションマップの内容で構成され、U-NetライクなFCNとバイナライズ法を組み合わせて検出エッジの精度を高めるためにUWBチームが獲得した。 Task~3は、ジオレファレンスラインの交差点点の位置決めで構成されており、二項化、ハフ変換による線検出、候補フィルタリング、交差修正のためのテンプレートマッチングを組み合わせたパイプラインを使用してUWBチームも勝利した。 タスク~2と~3は、複雑なコンテントを持つ95のマップシートで評価される。 データセット、評価ツール、結果は、parmissive licensing at \url{https://icdar21-mapseg.github.io/} で利用可能である。

This paper presents the final results of the ICDAR 2021 Competition on Historical Map Segmentation (MapSeg), encouraging research on a series of historical atlases of Paris, France, drawn at 1/5000 scale between 1894 and 1937. The competition featured three tasks, awarded separately. Task~1 consists in detecting building blocks and was won by the L3IRIS team using a DenseNet-121 network trained in a weakly supervised fashion. This task is evaluated on 3 large images containing hundreds of shapes to detect. Task~2 consists in segmenting map content from the larger map sheet, and was won by the UWB team using a U-Net-like FCN combined with a binarization method to increase detection edge accuracy. Task~3 consists in locating intersection points of geo-referencing lines, and was also won by the UWB team who used a dedicated pipeline combining binarization, line detection with Hough transform, candidate filtering, and template matching for intersection refinement. Tasks~2 and~3 are evaluated on 95 map sheets with complex content. Dataset, evaluation tools and results are available under permissive licensing at \url{https://icdar21-mapseg.github.io/}.
翻訳日:2021-05-28 21:37:02 公開日:2021-05-27
# (参考訳) raw-c: あいまいな単語の関連性--inコンテキスト(英語の新しい語彙資源)

RAW-C: Relatedness of Ambiguous Words--in Context (A New Lexical Resource for English) ( http://arxiv.org/abs/2105.13266v1 )

ライセンス: CC BY 4.0
Sean Trott and Benjamin Bergen(参考訳) ほとんどの単語は曖昧であり、異なる文脈で異なる意味を伝え、曖昧でない単語の意味も文脈依存である。 どちらの現象もNLPに挑戦する。 近年、文脈化された単語埋め込みの出現は、Word Sense Disambiguationのような語彙的曖昧性を含むタスクの成功につながっている。 しかしながら、これらの文脈化された埋め込みが単語の意味のより連続的で動的な性質にどの程度うまく適合しているかを直接的に評価するタスクはほとんどない。 本研究では,文脈の曖昧な112語(合計672文ペア)について,人間関係性判断のデータセットであるraw-cと,感覚支配の人的推定について紹介する。 平均的なアノテータ間合意(Left-one-annotator-out法による評価)は0.79。 次に, bert と elmo の文脈的埋め込みを用いて計算されたコサイン距離の尺度は, ヒトの判断と相関するが, コサイン距離は, 類似する人間が単語の同じ感覚をどのように利用するのかを, 体系的に過小評価し, 類似する人間が異なる意味のホモニムをどのように利用するかを体系的に過大評価しているかを示す。 最後に,精神語彙の心理言語理論と語彙意味論の計算モデルとの合成を提案する。

Most words are ambiguous--i.e., they convey distinct meanings in different contexts--and even the meanings of unambiguous words are context-dependent. Both phenomena present a challenge for NLP. Recently, the advent of contextualized word embeddings has led to success on tasks involving lexical ambiguity, such as Word Sense Disambiguation. However, there are few tasks that directly evaluate how well these contextualized embeddings accommodate the more continuous, dynamic nature of word meaning--particularly in a way that matches human intuitions. We introduce RAW-C, a dataset of graded, human relatedness judgments for 112 ambiguous words in context (with 672 sentence pairs total), as well as human estimates of sense dominance. The average inter-annotator agreement (assessed using a leave-one-annotator-out method) was 0.79. We then show that a measure of cosine distance, computed using contextualized embeddings from BERT and ELMo, correlates with human judgments, but that cosine distance also systematically underestimates how similar humans find uses of the same sense of a word to be, and systematically overestimates how similar humans find uses of different-sense homonyms. Finally, we propose a synthesis between psycholinguistic theories of the mental lexicon and computational models of lexical semantics.
翻訳日:2021-05-28 21:17:06 公開日:2021-05-27
# (参考訳) MeshCNNの基礎: 再構成可能な表現による幾何学的学習

MeshCNN Fundamentals: Geometric Learning through a Reconstructable Representation ( http://arxiv.org/abs/2105.13277v1 )

ライセンス: CC BY 4.0
Amir Barda, Yotam Erel, Amit H. Bermano(参考訳) メッシュベースの学習は、近年、形状を学ぶための一般的なアプローチの1つです。 この分野で最も確立されたバックボーンはMeshCNNである。 本稿では,より高品質な学習を実現するために,幾何学的推論を用いたmeshcnnの導入を提案する。 ネットワーク上での幾何表現の仕方を注意深く分析することで、この表現は剛体運動不変量であり、元の幾何学を再構築できるべきである。 したがって、第一基本形式と第二基本形式を、エッジ中心、回転および変換不変な再構成可能な表現として導入する。 さらに,当初提案していたプーリングスキームをより幾何学的に駆動できるように更新する。 実験を通じて分析を検証し,meshcnnベースライン上で一貫した改善と,より精巧な最先端アーキテクチャを示す。 さらに、この基本的な形式に基づく表現は、メッシュ上でアクセス可能な生成機械学習への扉を開くことを実証する。

Mesh-based learning is one of the popular approaches nowadays to learn shapes. The most established backbone in this field is MeshCNN. In this paper, we propose infusing MeshCNN with geometric reasoning to achieve higher quality learning. Through careful analysis of the way geometry is represented through-out the network, we submit that this representation should be rigid motion invariant, and should allow reconstructing the original geometry. Accordingly, we introduce the first and second fundamental forms as an edge-centric, rotation and translation invariant, reconstructable representation. In addition, we update the originally proposed pooling scheme to be more geometrically driven. We validate our analysis through experimentation, and present consistent improvement upon the MeshCNN baseline, as well as other more elaborate state-of-the-art architectures. Furthermore, we demonstrate this fundamental forms-based representation opens the door to accessible generative machine learning over meshes.
翻訳日:2021-05-28 20:52:48 公開日:2021-05-27
# (参考訳) ベイズの視点からの深層アンサンブル

Deep Ensembles from a Bayesian Perspective ( http://arxiv.org/abs/2105.13283v1 )

ライセンス: CC BY 4.0
Lara Hoffmann and Clemens Elster(参考訳) 深層アンサンブルは、ディープラーニングにおける不確実性定量化の現在の最先端と見なすことができる。 この手法はもともと非ベイズ的手法として提案されたが、ベイズ的足場に対する議論も進められている。 深いアンサンブルは対応する仮定を指定して近似ベイズ法とみなすことができることを示す。 我々の発見は、不確実性のエピステマティクス部分の増大をもたらす近似の改善につながる。 数値的な例は、改良された近似がより信頼できる不確実性をもたらすことを示唆している。 解析的導出により結果の計算が容易になる。

Deep ensembles can be seen as the current state-of-the-art for uncertainty quantification in deep learning. While the approach was originally proposed as an non-Bayesian technique, arguments towards its Bayesian footing have been put forward as well. We show that deep ensembles can be viewed as an approximate Bayesian method by specifying the corresponding assumptions. Our finding leads to an improved approximation which results in an increased epistemic part of the uncertainty. Numerical examples suggest that the improved approximation can lead to more reliable uncertainties. Analytical derivations ensure easy calculation of results.
翻訳日:2021-05-28 20:30:31 公開日:2021-05-27
# (参考訳) 艦隊再バランス問題に対するモジュール型・移動型強化学習フレームワーク

A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem ( http://arxiv.org/abs/2105.13284v1 )

ライセンス: CC BY 4.0
Erotokritos Skordilis, Yi Hou, Charles Tripp, Matthew Moniot, Peter Graf, David Biagioni(参考訳) モビリティ・オン・デマンド(MoD)システムは、柔軟で効率的な都市交通を実現する上で大きな可能性を秘めている。 しかし、重要な技術的課題は、MoD車両の派遣と艦隊の再バランスに関連する運用上の決定によって生じる。 このため、演算子は特定の環境でうまく機能することが証明された単純化されたアルゴリズムを用いる傾向にある。 新規な手法と既存手法のギャップを埋めるために,既存のディスパッチ手法を利用してシステムコストを最小化できるモデルフリー強化学習(RL)に基づく,フリートリバランシングのためのモジュラーフレームワークを提案する。 特に、ディスパッチを環境力学の一部として扱うことにより、中央集権エージェントは、ディスパッチを断続的にフリー車両の配置を指示し、艦隊の不均衡を軽減できる。 動作領域のグリッドパーティショニング上の分布としてRLの状態と動作空間を定式化し、フレームワークをスケーラブルにし、マルチエージェントRLに関連する複雑さを回避する。 実世界の旅行データとネットワークデータを用いた数値実験により, システムコストの改善, 選択したディスパッチ法への適応性の向上, 類似した車両や要求分布を持つ問題インスタンス間のスケール不変移動学習の実施など, ベースライン法に対していくつかのメリットがあることが示された。

Mobility on demand (MoD) systems show great promise in realizing flexible and efficient urban transportation. However, significant technical challenges arise from operational decision making associated with MoD vehicle dispatch and fleet rebalancing. For this reason, operators tend to employ simplified algorithms that have been demonstrated to work well in a particular setting. To help bridge the gap between novel and existing methods, we propose a modular framework for fleet rebalancing based on model-free reinforcement learning (RL) that can leverage an existing dispatch method to minimize system cost. In particular, by treating dispatch as part of the environment dynamics, a centralized agent can learn to intermittently direct the dispatcher to reposition free vehicles and mitigate against fleet imbalance. We formulate RL state and action spaces as distributions over a grid partitioning of the operating area, making the framework scalable and avoiding the complexities associated with multiagent RL. Numerical experiments, using real-world trip and network data, demonstrate that this approach has several distinct advantages over baseline methods including: improved system cost; high degree of adaptability to the selected dispatch method; and the ability to perform scale-invariant transfer learning between problem instances with similar vehicle and request distributions.
翻訳日:2021-05-28 19:40:02 公開日:2021-05-27
# (参考訳) タグ付き破壊モデルを用いた文法誤り訂正のための合成データ生成

Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models ( http://arxiv.org/abs/2105.13318v1 )

ライセンス: CC BY 4.0
Felix Stahlberg and Shankar Kumar(参考訳) 合成データ生成は、神経文法的誤り訂正(GEC)システムの精度を高めるために広く知られているが、既存の手法は多様性を欠いている場合や、人間の書き手による幅広い文法的誤りを生成するには単純すぎる場合が多い。 本研究では,errantなどの自動アノテーションツールのエラー型タグを用いて,合成データ生成のガイドを行う。 クリーンな文とエラータイプタグが与えられた非文法的な文を生成できるモデルをいくつか比較した。 我々はこれらのモデルを用いて、与えられた開発セットと一致するエラータグ頻度分布を持つ新しい大規模合成事前学習データセットを構築する。 我々の合成データセットは、BEA-19およびCoNLL-14テストセットの最先端性を向上し、大きく一貫した利得を得る。 また,本手法は,母国語と母国語を混合した英語で学習したGECシステムを,高品質な文対からなる実際の学習データを超えたネイティブ英語テストセットに適応する上で,特に有効であることを示す。

Synthetic data generation is widely known to boost the accuracy of neural grammatical error correction (GEC) systems, but existing methods often lack diversity or are too simplistic to generate the broad range of grammatical errors made by human writers. In this work, we use error type tags from automatic annotation tools such as ERRANT to guide synthetic data generation. We compare several models that can produce an ungrammatical sentence given a clean sentence and an error type tag. We use these models to build a new, large synthetic pre-training data set with error tag frequency distributions matching a given development set. Our synthetic data set yields large and consistent gains, improving the state-of-the-art on the BEA-19 and CoNLL-14 test sets. We also show that our approach is particularly effective in adapting a GEC system, trained on mixed native and non-native English, to a native English test set, even surpassing real training data consisting of high-quality sentence pairs.
翻訳日:2021-05-28 19:07:15 公開日:2021-05-27
# (参考訳) 短期住宅エネルギー需要予測のための連合学習

Federated Learning for Short-term Residential Energy Demand Forecasting ( http://arxiv.org/abs/2105.13325v1 )

ライセンス: CC BY 4.0
Christopher Briggs, Zhong Fan, Peter Andras(参考訳) エネルギー需要予測は、需要と供給のバランスを保ち、電力網の安定的な負荷を維持するためにエネルギー産業内で実施される重要な課題である。 供給が信頼性の低い再生可能エネルギー生成へと移行するにつれ、スマートメーターはこれらの予測タスクを支援する上で不可欠な要素であることが証明される。 しかし、プライバシーを意識した消費者は、詳細な消費データへの侵入を恐れている。 本研究では,基礎となるデータのプライバシを保ちながら,分散かつ協調的に予測モデルをトレーニングするためのフェデレーション学習(fl)ベースのアプローチを提案し,検討する。 flとクラスタ型fl+hcの2つのアプローチを比較して,非プライベート,集中型学習アプローチと,完全にプライベートでローカライズされた学習アプローチを比較した。 これらのアプローチでは,各シナリオでモデルのトレーニングに必要なサンプル数から,rmseを用いたモデル性能と計算効率を測定した。 さらに、fl戦略をパーソナライズステップに追従し、それを行うことでモデルパフォーマンスが向上できることを示す。 FL+HCの後続のパーソナライズによりモデル性能が$\sim$5%向上し,ローカライズドラーニングに比べて計算量が$\sim$10x削減できることを示す。 最後に、民間のエンドツーエンドのエネルギー需要予測アプリケーションを構築するための予測のプライベートアグリゲーションについてアドバイスする。

Energy demand forecasting is an essential task performed within the energy industry to help balance supply with demand and maintain a stable load on the electricity grid. As supply transitions towards less reliable renewable energy generation, smart meters will prove a vital component to aid these forecasting tasks. However, smart meter take-up is low among privacy-conscious consumers that fear intrusion upon their fine-grained consumption data. In this work we propose and explore a federated learning (FL) based approach for training forecasting models in a distributed, collaborative manner whilst retaining the privacy of the underlying data. We compare two approaches: FL, and a clustered variant, FL+HC against a non-private, centralised learning approach and a fully private, localised learning approach. Within these approaches, we measure model performance using RMSE and computational efficiency via the number of samples required to train models under each scenario. In addition, we suggest the FL strategies are followed by a personalisation step and show that model performance can be improved by doing so. We show that FL+HC followed by personalisation can achieve a $\sim$5% improvement in model performance with a $\sim$10x reduction in computation compared to localised learning. Finally we provide advice on private aggregation of predictions for building a private end-to-end energy demand forecasting application.
翻訳日:2021-05-28 18:39:17 公開日:2021-05-27
# (参考訳) タスクフリー連続学習のためのエンコーダとアンサンブル

Encoders and Ensembles for Task-Free Continual Learning ( http://arxiv.org/abs/2105.13327v1 )

ライセンス: CC BY 4.0
Murray Shanahan and Christos Kaplanis and Jovana Mitrovi\'c(参考訳) タスク境界が存在しない,あるいは未知な,特に要求の多い環境において,継続的な学習に有効なアーキテクチャを提案する。 我々のアーキテクチャは、別のデータセットで事前訓練されたエンコーダと、単純な1層分類器のアンサンブルから構成される。 この組み合わせを機能させるためには、2つの大きなイノベーションが必要です。 まず, 自己指導型訓練手法の進歩により, 汎用的な事前学習エンコーダの提供が可能となった。 第二に、アンサンブル内の各分類器と鍵をペアにすると、鍵空間はエンコーダの潜在空間と同一であり、k-ネアレスト近傍のルックアップを通じて集合的かつ選択的にそれらを使用することができる。 エンコーダとアンサンブルアーキテクチャで訓練されたモデルは、標準画像分類連続学習ベンチマークにおけるタスクフリー設定のための最先端であり、最も困難なケースでは、先行技術の改善が大きなマージンであることを示す。 また、1つのクラスが一度に学習されるような、完全にインクリメンタルな設定でアーキテクチャがうまく学習できることを示し、100クラスまでのこの設定でその効果を実証する。 最後に,データ分散が徐々に変化するタスクフリーな連続学習コンテキストでアーキテクチャが動作し,タスク境界に関する知識を必要とする既存のアプローチは適用できないことを示す。

We present an architecture that is effective for continual learning in an especially demanding setting, where task boundaries do not exist or are unknown. Our architecture comprises an encoder, pre-trained on a separate dataset, and an ensemble of simple one-layer classifiers. Two main innovations are required to make this combination work. First, the provision of suitably generic pre-trained encoders has been made possible thanks to recent progress in self-supervised training methods. Second, pairing each classifier in the ensemble with a key, where the key-space is identical to the latent space of the encoder, allows them to be used collectively, yet selectively, via k-nearest neighbour lookup. We show that models trained with the encoders-and-ensembles architecture are state-of-the-art for the task-free setting on standard image classification continual learning benchmarks, and improve on prior state-of-the-art by a large margin in the most challenging cases. We also show that the architecture learns well in a fully incremental setting, where one class is learned at a time, and we demonstrate its effectiveness in this setting with up to 100 classes. Finally, we show that the architecture works in a task-free continual learning context where the data distribution changes gradually, and existing approaches requiring knowledge of task boundaries cannot be applied.
翻訳日:2021-05-28 18:12:46 公開日:2021-05-27
# (参考訳) 共感型AIのためのジェネレーティブ・アドバイサル・模倣学習

Generative Adversarial Imitation Learning for Empathy-based AI ( http://arxiv.org/abs/2105.13328v1 )

ライセンス: CC BY 4.0
Pratyush Muthukumar, Karishma Muthukumar, Deepan Muthirayan, Pramod Khargonekar(参考訳) GAIL(Generative Adversarial mimicion Learning)は、高次元環境における複雑な振る舞いを模倣する強力な結果をもたらすモデルのないアルゴリズムである。 本稿では,GAILモデルを用いてテキスト生成を行い,共感に基づく会話型AIを開発する。 本モデルでは,共感的即応答対話の専門的軌跡を用いて,応答生成時の共感的感情を正確に提示する。 GAILモデルのGeneratorは、40GBのインターネットデータから1700万のパラメータでトレーニングされたGPT-2シーケンシャル事前訓練言語モデルを使用する。 本稿では,GPT-2モデルを微調整するトランスファーラーニングの手法を考案し,識別器に対して検証された簡潔でユーザ固有の共感応答を生成する手法を提案する。 提案するgailモデルでは,感情分析履歴に基づく強化学習手法を用いて,人間とのインタラクションに共感的に応答する。 facebook empathetic dialoguesデータセットから収集したさまざまな人間生成プロンプトに対して,モデルの応答スコアがベースラインよりも優れていることがわかった。 さらに,3以上の対話の持続的な会話に対する性能が類似した会話型aiモデルを上回るため,近年開発されたさまざまな履歴ベースの会話型aiモデルも改良した。

Generative adversarial imitation learning (GAIL) is a model-free algorithm that has been shown to provide strong results in imitating complex behaviors in high-dimensional environments. In this paper, we utilize the GAIL model for text generation to develop empathy-based context-aware conversational AI. Our model uses an expert trajectory of empathetic prompt-response dialogues which can accurately exhibit the correct empathetic emotion when generating a response. The Generator of the GAIL model uses the GPT-2 sequential pre-trained language model trained on 117 million parameters from 40 GB of internet data. We propose a novel application of an approach used in transfer learning to fine tune the GPT-2 model in order to generate concise, user-specific empathetic responses validated against the Discriminator. Our novel GAIL model utilizes a sentiment analysis history-based reinforcement learning approach to empathetically respond to human interactions in a personalized manner. We find that our model's response scores on various human-generated prompts collected from the Facebook Empathetic Dialogues dataset outperform baseline counterparts. Moreover, our model improves upon various history-based conversational AI models developed recently, as our model's performance over a sustained conversation of 3 or more interactions outperform similar conversational AI models.
翻訳日:2021-05-28 17:41:27 公開日:2021-05-27
# (参考訳) マイクロコントローラにおけるディープニューラルネットワークの量子化と展開

Quantization and Deployment of Deep Neural Networks on Microcontrollers ( http://arxiv.org/abs/2105.13331v1 )

ライセンス: CC BY 4.0
Pierre-Emmanuel Novac (1), Ghouthi Boukli Hacene (2 and 3), Alain Pegatoquet (1), Beno\^it Miramond (1), Vincent Gripon (2) ((1) Universit\'e C\^ote d'Azur, CNRS, LEAT, Sophia Antipolis, France, (2) IMT Atlantique, Brest, France, (3) MILA, Montreal, Canada)(参考訳) 人工知能を低消費電力デバイスに組み込むことは、機械学習とハードウェア設計の最近の進歩で部分的に克服された課題である。 現在、ディープニューラルネットワークは、組み込みターゲットに展開して、音声認識、オブジェクト検出、ヒューマンアクティビティ認識などのさまざまなタスクを実行することができる。 しかし、組み込みデバイスにディープニューラルネットワークを最適化する余地はまだ残っている。 これらの最適化は主に消費電力、メモリ、リアルタイムの制約に対処するが、エッジでのデプロイも容易である。 さらに、異なるユースケースで何が達成されるのかをよりよく理解する必要がある。 この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。 マイクロコントローラへの組み込み実行のコンテキストに関連する量子化手法を最初に概説する。 次に、エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークを示す。 このフレームワークはMicroAIと呼ばれ、既存の推論エンジン(マイクロコントローラ用のTensorFlow LiteとSTM32Cube.AI)の代替として設計されている。 私たちのフレームワークは、特定のユースケースに対して簡単に調整したり、拡張したりできます。 シングル精度32ビット浮動小数点と8ビットおよび16ビット整数の固定点を用いた実行がサポートされている。 提案手法は3つの異なるデータセット(UCI-HAR, Spoken MNIST, GTSRB)を用いて評価する。 最後に,MicroAIと既存の組み込み推論エンジンの比較研究を,メモリと電力効率の観点から行った。 ARM Cortex-M4Fベースのマイクロコントローラ(Ambiq Apollo3とSTM32L452RE)を用いてデバイス上での評価を行う。

Embedding Artificial Intelligence onto low-power devices is a challenging task that has been partly overcome with recent advances in machine learning and hardware design. Presently, deep neural networks can be deployed on embedded targets to perform different tasks such as speech recognition,object detection or Human Activity Recognition. However, there is still room for optimization of deep neural networks onto embedded devices. These optimizations mainly address power consumption,memory and real-time constraints, but also an easier deployment at the edge. Moreover, there is still a need for a better understanding of what can be achieved for different use cases. This work focuses on quantization and deployment of deep neural networks onto low-power 32-bit microcontrollers. The quantization methods, relevant in the context of an embedded execution onto a microcontroller, are first outlined. Then, a new framework for end-to-end deep neural networks training, quantization and deployment is presented. This framework, called MicroAI, is designed as an alternative to existing inference engines (TensorFlow Lite for Microcontrollers and STM32Cube.AI). Our framework can indeed be easily adjusted and/or extended for specific use cases. Execution using single precision 32-bit floating-point as well as fixed-point on 8- and 16-bit integers are supported. The proposed quantization method is evaluated with three different datasets (UCI-HAR, Spoken MNIST and GTSRB). Finally, a comparison study between MicroAI and both existing embedded inference engines is provided in terms of memory and power efficiency. On-device evaluation is done using ARM Cortex-M4F-based microcontrollers (Ambiq Apollo3 and STM32L452RE).
翻訳日:2021-05-28 17:25:30 公開日:2021-05-27
# (参考訳) 人間と機械の再認識のない追跡

Tracking Without Re-recognition in Humans and Machines ( http://arxiv.org/abs/2105.13351v1 )

ライセンス: CC BY 4.0
Drew Linsley, Girik Malik, Junkyung Kim, Lakshmi N Govindarajan, Ennio Mingolla, and Thomas Serre(参考訳) 数百羽の群れの中で1羽の果実を追跡しようという試みを想像してみてほしい。 高次生物視覚システムは、外観と運動の特徴の両方に依存することによって、動く物体を追跡するために進化してきた。 視覚追跡のための最先端のディープニューラルネットワークが同等であるかどうかについて検討する。 そこで本研究では,人間のオブザーバとマシンに対して,同一の"ディストラクタ(distractor)"オブジェクトの中で対象オブジェクトを追跡するように求める合成ビジュアルチャレンジであるpathtrackerを紹介する。 人間がPathTrackerを熱心に学び、タスクデザインの体系的なバリエーションに一般化する一方で、最先端のディープネットワークは苦労する。 この制限に対処するために,動作手がかりに基づく物体の追跡に関係した生体脳の回路機構を同定し,モデル化する。 我々の回路モデルは、リカレントネットワークとしてインスタンス化されると、人間のパフォーマンスに匹敵する堅牢な視覚戦略でPathTrackerを解くことを学び、その課題に対する意思決定のかなりの割合を説明する。 また,この回路モデルの成功は,自然映像における物体追跡にまで及ぶことを示した。 オブジェクトトラッキングのためのトランスフォーマーベースのアーキテクチャにそれを追加することで、オブジェクトの外観に影響を与える視覚的ニュアンスに対する耐性が向上する。 私たちの研究は、人間の視覚を理解し、コンピュータビジョンを改善するのに役立つ人工視覚モデルを構築することの重要性を強調しています。

Imagine trying to track one particular fruitfly in a swarm of hundreds. Higher biological visual systems have evolved to track moving objects by relying on both appearance and motion features. We investigate if state-of-the-art deep neural networks for visual tracking are capable of the same. For this, we introduce PathTracker, a synthetic visual challenge that asks human observers and machines to track a target object in the midst of identical-looking "distractor" objects. While humans effortlessly learn PathTracker and generalize to systematic variations in task design, state-of-the-art deep networks struggle. To address this limitation, we identify and model circuit mechanisms in biological brains that are implicated in tracking objects based on motion cues. When instantiated as a recurrent network, our circuit model learns to solve PathTracker with a robust visual strategy that rivals human performance and explains a significant proportion of their decision-making on the challenge. We also show that the success of this circuit model extends to object tracking in natural videos. Adding it to a transformer-based architecture for object tracking builds tolerance to visual nuisances that affect object appearance, resulting in a new state-of-the-art performance on the large-scale TrackingNet object tracking challenge. Our work highlights the importance of building artificial vision models that can help us better understand human vision and improve computer vision.
翻訳日:2021-05-28 17:24:06 公開日:2021-05-27
# ProtAugment:意図検出メタラーニングのための教師なし多種多様な短文パラフレーズ

ProtAugment: Unsupervised diverse short-texts paraphrasing for intent detection meta-learning ( http://arxiv.org/abs/2105.12995v1 )

ライセンス: Link先を確認
Thomas Dopierre, Christophe Gravier, Wilfried Logerais(参考訳) 近年の研究では、メタラーニングの問題として、少数の意図検出が考えられている:モデルは、連続した一連の小課題から学習することを学習している。 本研究では,短いテキスト分類(意図検出タスク)のためのメタ学習アルゴリズムであるProtAugmentを提案する。 ProtAugmentはプロトタイプネットワークの新たな拡張であり、各エピソードで数発の分類目的によって導入されたバイアスの過度な適合を制限する。 条件付き言語モデルは、まずパラフレージングのために微調整され、その後、メタラーニングの各エピソードの復号段階で多様性が導入される。 多様なパラフレーズは、ラベルのないデータに適用され、整合性損失としてプロトタイプネットワークトレーニング目標に燃料を供給されるため、教師なしである。 protaugmentはインテント検出メタラーニングの最先端の方法であり、追加のラベル付けはせず、特定のアプリケーションドメインで条件付き言語モデルを微調整する必要もない。

Recent research considers few-shot intent detection as a meta-learning problem: the model is learning to learn from a consecutive set of small tasks named episodes. In this work, we propose ProtAugment, a meta-learning algorithm for short texts classification (the intent detection task). ProtAugment is a novel extension of Prototypical Networks, that limits overfitting on the bias introduced by the few-shots classification objective at each episode. It relies on diverse paraphrasing: a conditional language model is first fine-tuned for paraphrasing, and diversity is later introduced at the decoding stage at each meta-learning episode. The diverse paraphrasing is unsupervised as it is applied to unlabelled data, and then fueled to the Prototypical Network training objective as a consistency loss. ProtAugment is the state-of-the-art method for intent detection meta-learning, at no extra labeling efforts and without the need to fine-tune a conditional language model on a given application domain.
翻訳日:2021-05-28 16:44:45 公開日:2021-05-27
# 自己監督型マルチモーダルオピニオン要約

Self-Supervised Multimodal Opinion Summarization ( http://arxiv.org/abs/2105.13135v1 )

ライセンス: Link先を確認
Jinbae Im, Moonki Kim, Hoyeop Lee, Hyunsouk Cho, Sehee Chung(参考訳) 近年,複数のレビューから要約を生成する意見要約は,サンプルレビューを擬似要約として考慮して自己指導的に行われている。 しかし、レビューに関連する画像やメタデータなどの非テキストデータはあまり考えられていない。 非テキストデータに含まれる豊富な情報を利用するために,MultimodalSumと呼ばれる自己教師型マルチモーダル意見要約フレームワークを提案する。 本フレームワークは,各モダリティに対する個別エンコーダを用いて各モダリティの表現を取得し,テキストデコーダは要約を生成する。 マルチモーダルデータの固有不均一性を解決するために,マルチモーダルトレーニングパイプラインを提案する。 まず,テキストのモダリティデータのみに基づいて,テキストエンコーダ-デコーダをプリトレーニングする。 その後、事前訓練されたテキストデコーダをマルチモーダルデータの同次表現のピボットとして考慮し、非テキストモダリティエンコーダを事前訓練する。 最後に、マルチモーダル表現を融合するために、フレームワーク全体をエンドツーエンドでトレーニングします。 YelpとAmazonのデータセットで実験を行うことで、MultimodalSumの優位性を実証する。

Recently, opinion summarization, which is the generation of a summary from multiple reviews, has been conducted in a self-supervised manner by considering a sampled review as a pseudo summary. However, non-text data such as image and metadata related to reviews have been considered less often. To use the abundant information contained in non-text data, we propose a self-supervised multimodal opinion summarization framework called MultimodalSum. Our framework obtains a representation of each modality using a separate encoder for each modality, and the text decoder generates a summary. To resolve the inherent heterogeneity of multimodal data, we propose a multimodal training pipeline. We first pretrain the text encoder--decoder based solely on text modality data. Subsequently, we pretrain the non-text modality encoders by considering the pretrained text decoder as a pivot for the homogeneous representation of multimodal data. Finally, to fuse multimodal representations, we train the entire framework in an end-to-end manner. We demonstrate the superiority of MultimodalSum by conducting experiments on Yelp and Amazon datasets.
翻訳日:2021-05-28 16:44:16 公開日:2021-05-27
# 模倣学習とモジュール化に基づくレース用ドローンのロバストナビゲーション

Robust Navigation for Racing Drones based on Imitation Learning and Modularization ( http://arxiv.org/abs/2105.12923v1 )

ライセンス: Link先を確認
Tianqi Wang, Dong Eui Chang(参考訳) 本稿では、認識モジュールにカスタマイズされた畳み込みニューラルネットワーク(CNN)を用いて高レベルのナビゲーションコマンドを生成し、次に最先端のプランナーとコントローラを用いて低レベルの制御コマンドを生成することにより、データベースとモデルベースの両方のアプローチの利点を活用する。 現行のカメラ画像のみをCNN入力とする最先端の手法とは異なり、最新の3つのドローン状態を入力の一部として追加する。 提案手法は,様々なトラックレイアウトにおいて最先端の手法よりも優れ,単一のトレーニングネットワークで2つの切り替え可能なナビゲーション挙動を提供する。 cnnベースの知覚モジュールは、事前に計算されたグローバルトラジェクタに基づいて、グランド真実のナビゲーションコマンドを自動的に生成するエキスパートポリシーを模倣するように訓練される。 広範なランダム化とデータ収集中のデータセットアグリゲーション(dagger)ポリシーの変更により、合成テクスチャによるシミュレーションを純粋に訓練したナビゲーションシステムは、無作為な無作為なフォトリアリスティックなテクスチャを持つ環境で、さらに微調整することなくうまく動作する。

This paper presents a vision-based modularized drone racing navigation system that uses a customized convolutional neural network (CNN) for the perception module to produce high-level navigation commands and then leverages a state-of-the-art planner and controller to generate low-level control commands, thus exploiting the advantages of both data-based and model-based approaches. Unlike the state-of-the-art method which only takes the current camera image as the CNN input, we further add the latest three drone states as part of the inputs. Our method outperforms the state-of-the-art method in various track layouts and offers two switchable navigation behaviors with a single trained network. The CNN-based perception module is trained to imitate an expert policy that automatically generates ground truth navigation commands based on the pre-computed global trajectories. Owing to the extensive randomization and our modified dataset aggregation (DAgger) policy during data collection, our navigation system, which is purely trained in simulation with synthetic textures, successfully operates in environments with randomly-chosen photorealistic textures without further fine-tuning.
翻訳日:2021-05-28 16:43:12 公開日:2021-05-27
# 神経機械翻訳のための選択的知識蒸留

Selective Knowledge Distillation for Neural Machine Translation ( http://arxiv.org/abs/2105.12967v1 )

ライセンス: Link先を確認
Fusheng Wang, Jianhao Yan, Fandong Meng, Jie Zhou(参考訳) ニューラル機械翻訳(NMT)モデルは、多くの翻訳ベンチマークで最先端のパフォーマンスを達成する。 nmtの活発な研究分野として,教師モデルの知識を各トレーニングサンプルに移し,モデルの性能を高めるために知識蒸留が広く適用されている。 しかし,教師の知識を伝達する媒体として機能する,これらのサンプルの異なる影響と相互関係について論じることは稀である。 本稿では,サンプルの分割を比較することで,サンプルの異なる影響を効果的に分析できる新しいプロトコルを設計する。 以上のプロトコルに基づき,広範な実験を行い,教師の知識が多ければ多いほどよいものではないことを発見した。 特定のサンプルに関する知識は、知識蒸留の性能を損なう可能性がある。 最後に, これらの問題に対処するため, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。 我々は,WMT'14ドイツ語とWMT'19中国語の2つの大規模機械翻訳タスクに対するアプローチを評価する。 実験結果から,Transformer ベースラインに対する +1.28 および +0.89 BLEU 点の改善が得られた。

Neural Machine Translation (NMT) models achieve state-of-the-art performance on many translation benchmarks. As an active research field in NMT, knowledge distillation is widely applied to enhance the model's performance by transferring teacher model's knowledge on each training sample. However, previous work rarely discusses the different impacts and connections among these samples, which serve as the medium for transferring teacher knowledge. In this paper, we design a novel protocol that can effectively analyze the different impacts of samples by comparing various samples' partitions. Based on above protocol, we conduct extensive experiments and find that the teacher's knowledge is not the more, the better. Knowledge over specific samples may even hurt the whole performance of knowledge distillation. Finally, to address these issues, we propose two simple yet effective strategies, i.e., batch-level and global-level selections, to pick suitable samples for distillation. We evaluate our approaches on two large-scale machine translation tasks, WMT'14 English->German and WMT'19 Chinese->English. Experimental results show that our approaches yield up to +1.28 and +0.89 BLEU points improvements over the Transformer baseline, respectively.
翻訳日:2021-05-28 16:42:13 公開日:2021-05-27
# maria: ビジュアルエクスペリエンスを活用した会話エージェント

Maria: A Visual Experience Powered Conversational Agent ( http://arxiv.org/abs/2105.13073v1 )

ライセンス: Link先を確認
Zujie Liang, Huang Hu, Can Xu, Chongyang Tao, Xiubo Geng, Yining Chen, Fan Liang and Daxin Jiang(参考訳) 物理的世界に対する会話エージェントの視覚的認識は、人間のような知性を示すための鍵となる方法である。 そこで,この課題に対処するために,画像地上会話を提案する。 既存の作業は、ある画像上の会話を基盤とするマルチモーダルダイアログモデルの探索に重点を置いている。 本稿では,組合わせダイアログや画像が利用できない完全開放的な設定の下で,画像接地会話についてさらに検討する。 具体的には、大規模画像インデックスから検索した視覚世界体験を利用したニューラルネットワークエージェントであるMariaを紹介する。 mariaは3つの柔軟なコンポーネントで構成されており、テキストから画像へのレトリバー、視覚概念検出器、視覚知識接地応答生成器である。 検索者は、画像インデックスからダイアログに関連付けられた画像を取得し、視覚概念検出器は、画像から豊かな視覚知識を抽出する。 そして、抽出された視覚知識と対話コンテキストに基づいて応答生成装置を接地し、ターゲット応答を生成する。 大規模な実験では、マリアは自動測定と人的評価で過去の最先端の手法よりも優れており、物理的な世界の視覚的な共通点を持つ情報応答を生成することができる。

Arguably, the visual perception of conversational agents to the physical world is a key way for them to exhibit the human-like intelligence. Image-grounded conversation is thus proposed to address this challenge. Existing works focus on exploring the multimodal dialog models that ground the conversation on a given image. In this paper, we take a step further to study image-grounded conversation under a fully open-ended setting where no paired dialog and image are assumed available. Specifically, we present Maria, a neural conversation agent powered by the visual world experiences which are retrieved from a large-scale image index. Maria consists of three flexible components, i.e., text-to-image retriever, visual concept detector and visual-knowledge-grounded response generator. The retriever aims to retrieve a correlated image to the dialog from an image index, while the visual concept detector extracts rich visual knowledge from the image. Then, the response generator is grounded on the extracted visual knowledge and dialog context to generate the target response. Extensive experiments demonstrate Maria outperforms previous state-of-the-art methods on automatic metrics and human evaluation, and can generate informative responses that have some visual commonsense of the physical world.
翻訳日:2021-05-28 16:41:41 公開日:2021-05-27
# 医学知識グラフ完成のためのテキスト意味情報を用いたパスベース知識推論

Path-based knowledge reasoning with textual semantic information for medical knowledge graph completion ( http://arxiv.org/abs/2105.13074v1 )

ライセンス: Link先を確認
Yinyu Lan, Shizhu He, Xiangrong Zeng, Shengping Liu, Jun Zhao(参考訳) 背景知識グラフ(KG)、特に医学知識グラフは、しばしば著しく不完全であるため、医学知識グラフ補完(MedKGC)の要求が必要とされる。 MedKGCはKGsの知識から新たな事実を見つけることができる。 経路に基づく知識推論アルゴリズムは、この課題に対する最も重要なアプローチの1つである。 近年,高い性能と解釈可能性から,このような手法が注目されている。 実際、パスランキングアルゴリズム(PRA)のような伝統的な手法は、エンティティペア間のパスをアトミックな特徴として捉えている。 しかし、医療用KGは非常に疎いため、非常に疎い経路の特徴に対して効果的な意味表現をモデル化することは困難である。 医学的KGsの空間性は、主にエンティティとパスの長い尾の分布に反映される。 従来の方法は、知識グラフのパスにおける文脈構造を単に考慮し、パス内のシンボルのテキスト意味論を無視する。 したがって、エンティティスパースネスとパススパースネスの2つの側面により、パフォーマンスをさらに向上することはできない。 そこで本稿では,MedKGCにおけるエンティティとパスのテキスト意味情報を活用する,エンティティとパスの疎結合問題を解決する2つの新しい経路ベース推論手法を提案する。 事前学習モデルBERTを用いて、エンティティのテキスト意味表現と関係を組み合わせ、医用KGにおける記号推論のタスクを、テキスト意味表現における数値計算問題としてモデル化する。

Background Knowledge graphs (KGs), especially medical knowledge graphs, are often significantly incomplete, so it necessitating a demand for medical knowledge graph completion (MedKGC). MedKGC can find new facts based on the exited knowledge in the KGs. The path-based knowledge reasoning algorithm is one of the most important approaches to this task. This type of method has received great attention in recent years because of its high performance and interpretability. In fact, traditional methods such as path ranking algorithm (PRA) take the paths between an entity pair as atomic features. However, the medical KGs are very sparse, which makes it difficult to model effective semantic representation for extremely sparse path features. The sparsity in the medical KGs is mainly reflected in the long-tailed distribution of entities and paths. Previous methods merely consider the context structure in the paths of the knowledge graph and ignore the textual semantics of the symbols in the path. Therefore, their performance cannot be further improved due to the two aspects of entity sparseness and path sparseness. To address the above issues, this paper proposes two novel path-based reasoning methods to solve the sparsity issues of entity and path respectively, which adopts the textual semantic information of entities and paths for MedKGC. By using the pre-trained model BERT, combining the textual semantic representations of the entities and the relationships, we model the task of symbolic reasoning in the medical KG as a numerical computing issue in textual semantic representation.
翻訳日:2021-05-28 16:41:08 公開日:2021-05-27
# Gazetteer-based Fusion を用いたニューラルエンティティ認識

Neural Entity Recognition with Gazetteer based Fusion ( http://arxiv.org/abs/2105.13225v1 )

ライセンス: Link先を確認
Qing Sun, Parminder Bhatia(参考訳) 名前付きエンティティ認識(NER)システムに外部知識を組み込むことは、ジェネリックドメインにおいて広く研究されている。 本稿では,限られたデータしかアクセスできず,解釈性が重要である臨床領域に注目した。 近年の技術進歩と臨床試験の加速は、新しい薬物、処置、および医療条件の発見につながっている。 これらの要因は、新しい医学用語に迅速に適応できる堅牢なゼロショットナーシステムの構築に動機づけられている。 そこで我々は,NERシステムを用いて補助的なガゼテアモデルを提案し,その結果,異なる臨床データセット間での堅牢性と解釈性が向上することを示した。 我々のガゼッテラーベース核融合モデルはデータ効率が良く、20%のトレーニングデータを用いてi2b2データセット上で+1.7マイクロF1ゲインを達成する。 さらに,我々の融合モデルは,再学習することなく,ガゼッタにおける新たな言及に迅速に適応することができ,提案する融合モデルからのゲインは関連するデータセットに転送可能である。

Incorporating external knowledge into Named Entity Recognition (NER) systems has been widely studied in the generic domain. In this paper, we focus on clinical domain where only limited data is accessible and interpretability is important. Recent advancement in technology and the acceleration of clinical trials has resulted in the discovery of new drugs, procedures as well as medical conditions. These factors motivate towards building robust zero-shot NER systems which can quickly adapt to new medical terminology. We propose an auxiliary gazetteer model and fuse it with an NER system, which results in better robustness and interpretability across different clinical datasets. Our gazetteer based fusion model is data efficient, achieving +1.7 micro-F1 gains on the i2b2 dataset using 20% training data, and brings + 4.7 micro-F1 gains on novel entity mentions never presented during training. Moreover, our fusion model is able to quickly adapt to new mentions in gazetteers without re-training and the gains from the proposed fusion model are transferable to related datasets.
翻訳日:2021-05-28 16:40:28 公開日:2021-05-27
# 画像に基づくプラントワイティング推定

Image-Based Plant Wilting Estimation ( http://arxiv.org/abs/2105.12926v1 )

ライセンス: Link先を確認
Changye Yang, Sriram Baireddy, Enyu Cai, Valerian Meline, Denise Caldwell, Anjali S. Iyer-Pascuzzi, Edward J. Delp(参考訳) 多くの植物は、熱、水の喪失、病気によって、しわや垂れ落ちる。 これはワイルティング(Wilting)とも呼ばれる。 本稿では,細菌感染による植物破壊について検討する。 特に,植物から取得した画像に基づいてワイルティングのためのメトリクスを設計したい。 定量化ワイルティング計量は、細菌のワイルトの研究や耐性遺伝子の同定に有用である。 ワイルティングを推定する標準的な方法がないため、アドホックな視覚スコアを用いるのが一般的である。 これは非常に主観的であり、植物の専門知識と病気のメカニズムを必要とする。 我々のソリューションは、植物のRGB画像から取得した様々なワイルティングメトリクスを用いて構成される。 また,植物における反りの推定に有効であることを示すために,いくつかの実験を設計した。

Many plants become limp or droop through heat, loss of water, or disease. This is also known as wilting. In this paper, we examine plant wilting caused by bacterial infection. In particular, we want to design a metric for wilting based on images acquired of the plant. A quantifiable wilting metric will be useful in studying bacterial wilt and identifying resistance genes. Since there is no standard way to estimate wilting, it is common to use ad hoc visual scores. This is very subjective and requires expert knowledge of the plants and the disease mechanism. Our solution consists of using various wilting metrics acquired from RGB images of the plants. We also designed several experiments to demonstrate that our metrics are effective at estimating wilting in plants.
翻訳日:2021-05-28 16:39:56 公開日:2021-05-27
# Joint-DetNAS:NAS、プルーニング、動的蒸留による検出器のアップグレード

Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic Distillation ( http://arxiv.org/abs/2105.12971v1 )

ライセンス: Link先を確認
Lewei Yao, Renjie Pi, Hang Xu, Wei Zhang, Zhenguo Li, Tong Zhang(参考訳) オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案し,ニューラルアーキテクチャ検索,プルーニング,知識蒸留という3つの重要なコンポーネントを統合した。 これらのテクニックをナビゲートする代わりに、Joint-DetNASはそれらを共同で最適化します。 このアルゴリズムは2つのコアプロセスで構成されている: 学生の射は学生のアーキテクチャを最適化し、冗長なパラメータを除去する。 動的蒸留を容易にするために、動的蒸留を容易にするために、弾力性のある教師プールを統合的なプログレッシブ縮小戦略によって訓練し、教師検出器をその後の検索で追加のコストなしでサンプリングすることができる。 入力としてベース検出器が与えられると、本アルゴリズムは、追加のトレーニングなしで、高パフォーマンスで派生した学生検出器を直接出力する。 実験により, 実験により, 継手デトナスは, ナイーブパイプライニングアプローチを大きく上回ることがわかった。 ベース検出器として古典的なR101-FPNが与えられた後、Joint-DetNASはMS COCOでmAPを41.4から43.9に引き上げ、遅延を47%削減した。 提案手法は,NAS,KD,プルーニングを共同で最適化する新しい方法を提供することを願っている。

We propose Joint-DetNAS, a unified NAS framework for object detection, which integrates 3 key components: Neural Architecture Search, pruning, and Knowledge Distillation. Instead of naively pipelining these techniques, our Joint-DetNAS optimizes them jointly. The algorithm consists of two core processes: student morphism optimizes the student's architecture and removes the redundant parameters, while dynamic distillation aims to find the optimal matching teacher. For student morphism, weight inheritance strategy is adopted, allowing the student to flexibly update its architecture while fully utilize the predecessor's weights, which considerably accelerates the search; To facilitate dynamic distillation, an elastic teacher pool is trained via integrated progressive shrinking strategy, from which teacher detectors can be sampled without additional cost in subsequent searches. Given a base detector as the input, our algorithm directly outputs the derived student detector with high performance without additional training. Experiments demonstrate that our Joint-DetNAS outperforms the naive pipelining approach by a great margin. Given a classic R101-FPN as the base detector, Joint-DetNAS is able to boost its mAP from 41.4 to 43.9 on MS COCO and reduce the latency by 47%, which is on par with the SOTA EfficientDet while requiring less search cost. We hope our proposed method can provide the community with a new way of jointly optimizing NAS, KD and pruning.
翻訳日:2021-05-28 16:39:39 公開日:2021-05-27
# 口の中にお金を置く: ディープラーニングを使って単語の使用から消費者の種族を識別する

Put your money where your mouth is: Using deep learning to identify consumer tribes from word usage ( http://arxiv.org/abs/2105.13036v1 )

ライセンス: Link先を確認
P. Gloor, A. Fronzetti Colladon, J. M. de Oliveira, P. Rovelli(参考訳) インターネットとソーシャルメディアは、マーケティング戦略を管理し競争上の優位性を得る新しい方法を提供する。 特定のトピック、製品、ブランドについてインターネットで表現するユーザーのグループは、しばしば仮想部族(virtual tribe)またはeトリブ(e-tribe)と呼ばれる。 しかし、これらの仮想部族の特徴を特定し、研究するための自動ツールはない。 そこで本稿では,Twitter 利用者の部族関係を明らかにするシステムである Tribefinder について,そのつぶやきや言語利用を分析して紹介する。 本手法の可能性を示すために, 代替現実性, ライフスタイル, レクリエーションの3つの部族マクロカテゴリーについて考察する。 さらに,言語と社会的相互作用の指標を用いて,識別された種族ごとに異なる特徴を考察する。 Tribefinderは、企業がマーケティング戦略を適切に設計し、学者が以前のマーケティング研究を拡張するために不可欠である仮想部族を研究するために、新しいレンズを採用することの重要性を説明している。

Internet and social media offer firms novel ways of managing their marketing strategy and gain competitive advantage. The groups of users expressing themselves on the Internet about a particular topic, product, or brand are frequently called a virtual tribe or E-tribe. However, there are no automatic tools for identifying and studying the characteristics of these virtual tribes. Towards this aim, this paper presents Tribefinder, a system to reveal Twitter users' tribal affiliations, by analyzing their tweets and language use. To show the potential of this instrument, we provide an example considering three specific tribal macro-categories: alternative realities, lifestyle, and recreation. In addition, we discuss the different characteristics of each identified tribe, in terms of use of language and social interaction metrics. Tribefinder illustrates the importance of adopting a new lens for studying virtual tribes, which is crucial for firms to properly design their marketing strategy, and for scholars to extend prior marketing research.
翻訳日:2021-05-28 16:39:03 公開日:2021-05-27
# 項の細粒度領域関連性の測定:階層的コアフィングアプローチ

Measuring Fine-Grained Domain Relevance of Terms: A Hierarchical Core-Fringe Approach ( http://arxiv.org/abs/2105.13255v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) 我々は、ある用語が広い領域(コンピュータ科学など)や狭い領域(ディープラーニングなど)に関係している程度について、きめ細かいドメインの関連性を測定することを提案する。 このような測定は、自然言語処理における多くの下流タスクに不可欠である。 長い語を扱うために、コアアンチョートな意味グラフを構築し、コア語と豊富な記述情報を使用して、巨大なフリンジ語を意味的に橋渡しします。 そこで我々は,ドメインの階層構造においてコンテキスト化された半教師付き方式で,コア語とフランジ語を共同で学習する階層的コアフランジ学習を開発した。 コストのかかる人的努力を減らすために,自動アノテーションと階層的肯定的学習を用いる。 私たちのアプローチは、大きなドメインや小さなドメインに適用し、頭や尾の用語をカバーし、人間の努力をほとんど必要としません。 大規模な実験により、我々の手法は強いベースラインを上回り、プロの人間のパフォーマンスを上回ります。

We propose to measure fine-grained domain relevance - the degree that a term is relevant to a broad (e.g., computer science) or narrow (e.g., deep learning) domain. Such measurement is crucial for many downstream tasks in natural language processing. To handle long-tail terms, we build a core-anchored semantic graph, which uses core terms with rich description information to bridge the vast remaining fringe terms semantically. To support a fine-grained domain without relying on a matching corpus for supervision, we develop hierarchical core-fringe learning, which learns core and fringe terms jointly in a semi-supervised manner contextualized in the hierarchy of the domain. To reduce expensive human efforts, we employ automatic annotation and hierarchical positive-unlabeled learning. Our approach applies to big or small domains, covers head or tail terms, and requires little human effort. Extensive experiments demonstrate that our methods outperform strong baselines and even surpass professional human performance.
翻訳日:2021-05-28 16:38:34 公開日:2021-05-27
# 市場グラフから見たスタートアッププロジェクトの資金調達実績の推定

Estimating Fund-Raising Performance for Start-up Projects from a Market Graph Perspective ( http://arxiv.org/abs/2105.12918v1 )

ライセンス: Link先を確認
Likang Wu, Zhi Li, Hongke Zhao, Qi Liu, Enhong Chen(参考訳) オンラインイノベーション市場では、スタートアッププロジェクトの資金調達パフォーマンスは、クリエーター、投資家、プラットフォームにとって問題となる。 残念なことに、既存の研究はプロジェクトの公開後の資金調達プロセスのモデル化に常に焦点を合わせているが、セットアップ前の市場でのプロジェクトアトラクションの予測はほとんど未定である。 通常、この予測は常にスタートアッププロジェクトと市場環境の両方を包括的に理解する上で大きな課題を抱えています。 そこで,本稿では,市場グラフの観点から,この課題に焦点をあてた研究を行う。 具体的には,市場環境を利用して未公開プロジェクトの資金調達実績を予測するグラフベース市場環境(gme)モデルを提案する。 さらに、2つのグラフベースのニューラルネットワークアーキテクチャを設計し、それらを共同最適化段階に組み込むことにより、プロジェクトの競争性と市場優先性を識別的にモデル化する。 さらに、大規模市場グラフにおける動的環境による情報伝搬問題を探るため、競合性定量化と階層的伝搬アルゴリズムを並列化してGMEモデルを拡張した。 最後に,実世界データに関する広範囲な実験を行う。 実験の結果,提案モデルの有効性が明らかとなった。

In the online innovation market, the fund-raising performance of the start-up project is a concerning issue for creators, investors and platforms. Unfortunately, existing studies always focus on modeling the fund-raising process after the publishment of a project but the predicting of a project attraction in the market before setting up is largely unexploited. Usually, this prediction is always with great challenges to making a comprehensive understanding of both the start-up project and market environment. To that end, in this paper, we present a focused study on this important problem from a market graph perspective. Specifically, we propose a Graph-based Market Environment (GME) model for predicting the fund-raising performance of the unpublished project by exploiting the market environment. In addition, we discriminatively model the project competitiveness and market preferences by designing two graph-based neural network architectures and incorporating them into a joint optimization stage. Furthermore, to explore the information propagation problem with dynamic environment in a large-scale market graph, we extend the GME model with parallelizing competitiveness quantification and hierarchical propagation algorithm. Finally, we conduct extensive experiments on real-world data. The experimental results clearly demonstrate the effectiveness of our proposed model.
翻訳日:2021-05-28 16:38:03 公開日:2021-05-27
# AndroidEnv: Androidの強化学習プラットフォーム

AndroidEnv: A Reinforcement Learning Platform for Android ( http://arxiv.org/abs/2105.13231v1 )

ライセンス: Link先を確認
Daniel Toyama, Philippe Hamel, Anita Gergely, Gheorghe Comanici, Amelia Glaese, Zafarali Ahmed, Tyler Jackson, Shibl Mourad and Doina Precup(参考訳) Androidエコシステム上に構築された強化学習(RL)研究用のオープンソースプラットフォームであるAndroidEnvを紹介する。 AndroidEnvは、RLエージェントがユニバーサルタッチスクリーンインターフェースを通じて、人間が一般的に使用するさまざまなアプリやサービスと対話することを可能にする。 エージェントはandroidデバイスの現実的なシミュレーションをトレーニングするため、実際のデバイスにデプロイされる可能性がある。 本報告では,この環境を概観し,それが研究にもたらす重要な特徴を明らかにするとともに,このプラットフォーム上に構築された一連のタスクに対して,一般的な強化学習エージェントを実証的に評価する。

We introduce AndroidEnv, an open-source platform for Reinforcement Learning (RL) research built on top of the Android ecosystem. AndroidEnv allows RL agents to interact with a wide variety of apps and services commonly used by humans through a universal touchscreen interface. Since agents train on a realistic simulation of an Android device, they have the potential to be deployed on real devices. In this report, we give an overview of the environment, highlighting the significant features it provides for research, and we present an empirical evaluation of some popular reinforcement learning agents on a set of tasks built on this platform.
翻訳日:2021-05-28 16:36:37 公開日:2021-05-27
# $\ell_1$-regularizationとbi-fidelityデータを用いたニューラルネットワークトレーニング

Neural Network Training Using $\ell_1$-Regularization and Bi-fidelity Data ( http://arxiv.org/abs/2105.13011v1 )

ライセンス: Link先を確認
Subhayan De and Alireza Doostan(参考訳) 物理系のモデルの入力と興味の出力との間の機能的関係を正確に表現する能力により、ニューラルネットワークは科学応用における代理モデリングに人気がある。 しかしながら、これらのネットワークは過パラメータ化されているため、トレーニングには大量のデータを必要とすることが多い。 オーバーフィッティングを防止し、一般化誤差を改善するために、パラメータの$\ell_1$- および $\ell_2$-norms に基づく正規化を適用する。 同様に、ネットワークの複数の接続をprunしてネットワークパラメータのスパーシティを高めることもできる。 本稿では,高忠実度モデルから少量のトレーニングデータセットのみを利用できる場合,ニューラルネットワークのトレーニングに$\ell_1$-regularizationを助長するスパーシリティの効果について検討する。 標準の$\ell_1$-regularizationが不十分であることが知られているのに対し、問題の低忠実度モデルからのデータを用いて訓練された同一ネットワークのパラメータから入力される$\ell_1$-regularizationの2つの変種を考える。 これらのバイフィデリティ戦略は、大きな低フィデリティデータセットから学んだパラメータを使用して、小さな高フィデリティデータセットのためにネットワークを効率的にトレーニングするニューラルネットワークの転送学習の一般化である。 また,高忠実度データセットのみを使用する2つの$\ell_1$-regularization手法との比較を行った。 物理系を介して不確実性を伝播する3つの数値的な例を用いて、提案した二相性$\ell_1$-regularization戦略が、高忠実度モデルからのデータセットのみを用いてトレーニングされたネットワークの1桁の誤差を生成することを示す。

With the capability of accurately representing a functional relationship between the inputs of a physical system's model and output quantities of interest, neural networks have become popular for surrogate modeling in scientific applications. However, as these networks are over-parameterized, their training often requires a large amount of data. To prevent overfitting and improve generalization error, regularization based on, e.g., $\ell_1$- and $\ell_2$-norms of the parameters is applied. Similarly, multiple connections of the network may be pruned to increase sparsity in the network parameters. In this paper, we explore the effects of sparsity promoting $\ell_1$-regularization on training neural networks when only a small training dataset from a high-fidelity model is available. As opposed to standard $\ell_1$-regularization that is known to be inadequate, we consider two variants of $\ell_1$-regularization informed by the parameters of an identical network trained using data from lower-fidelity models of the problem at hand. These bi-fidelity strategies are generalizations of transfer learning of neural networks that uses the parameters learned from a large low-fidelity dataset to efficiently train networks for a small high-fidelity dataset. We also compare the bi-fidelity strategies with two $\ell_1$-regularization methods that only use the high-fidelity dataset. Three numerical examples for propagating uncertainty through physical systems are used to show that the proposed bi-fidelity $\ell_1$-regularization strategies produce errors that are one order of magnitude smaller than those of networks trained only using datasets from the high-fidelity models.
翻訳日:2021-05-28 16:35:26 公開日:2021-05-27
# 大規模ランダムグラフ上のグラフニューラルネットワークの普遍性について

On the Universality of Graph Neural Networks on Large Random Graphs ( http://arxiv.org/abs/2105.13099v1 )

ライセンス: Link先を確認
Nicolas Keriven, Alberto Bietti, Samuel Vaiter(参考訳) グラフニューラルネットワーク(GNN)の潜在位置ランダムグラフに対する近似能力について検討する。 大きなグラフ極限では、GNNはc-GNNとして知られるある種の「連続」モデルに収束することが知られており、ランダムグラフモデルに対する近似力を直接的に研究することができる。 しかし、入力ノード機能がない場合、Weisfeiler-Lehman同型テストによってGNNが制限されるのと同様に、c-GNNは単純なランダムグラフモデルに対して著しく制限される。 例えば、定次関数を持つよく分離された確率ブロックモデル(sbm)のコミュニティを区別できない。 そこで本稿では,GNNを独自のノード識別子で拡張するアーキテクチャを,グラフウェーブレットニューラルネットワーク(GWNN)と呼ぶことがある。 本研究では,ノード識別子の新たな条件下で,大きなランダムグラフ極限におけるgwnnの連続対応(c-gwnn)への収束について検討する。 次に、c-gwnn は連続極限において c-gnn よりも厳密に強く、多くの sbm や大きなランダムな幾何グラフを含むいくつかのランダムグラフモデル上でそれらの普遍性を証明する。 この結果は置換不変量と置換同値なアーキテクチャの両方をカバーする。

We study the approximation power of Graph Neural Networks (GNNs) on latent position random graphs. In the large graph limit, GNNs are known to converge to certain "continuous" models known as c-GNNs, which directly enables a study of their approximation power on random graph models. In the absence of input node features however, just as GNNs are limited by the Weisfeiler-Lehman isomorphism test, c-GNNs will be severely limited on simple random graph models. For instance, they will fail to distinguish the communities of a well-separated Stochastic Block Model (SBM) with constant degree function. Thus, we consider recently proposed architectures that augment GNNs with unique node identifiers, sometimes referred to as Graph Wavelets Neural Networks (GWNNs). We study the convergence of GWNNs to their continuous counterpart (c-GWNNs) in the large random graph limit, under new conditions on the node identifiers. We then show that c-GWNNs are strictly more powerful than c-GNNs in the continuous limit, and prove their universality on several random graph models of interest, including most SBMs and a large class of random geometric graphs. Our results cover both permutation-invariant and permutation-equivariant architectures.
翻訳日:2021-05-28 16:34:37 公開日:2021-05-27
# 制約問題に対するベイズ最適化

Bayesian Optimisation for Constrained Problems ( http://arxiv.org/abs/2105.13245v1 )

ライセンス: Link先を確認
Juan Ungredda and Juergen Branke(参考訳) 機械学習におけるハイパーパラメータチューニングやシミュレーションベースの最適化といった現実世界の多くの最適化問題は、高価なブラックボックス関数として定式化することができる。 このような問題に対処する一般的なアプローチは、これまでに収集したデータに基づいて応答面モデルを構築するベイズ最適化(bo)であり、モデルが予測した平均と不確実性を使用して、次に収集する情報を決定する。 本稿では,制約を扱えるような,よく知られた知識グラディエント獲得関数の新たな変種を提案する。 新しいアルゴリズムを4つの最先端制約ベイズ最適化アルゴリズムと比較し,その優れた性能を示す。 また、無限予算限界における理論的収束も証明する。

Many real-world optimisation problems such as hyperparameter tuning in machine learning or simulation-based optimisation can be formulated as expensive-to-evaluate black-box functions. A popular approach to tackle such problems is Bayesian optimisation (BO), which builds a response surface model based on the data collected so far, and uses the mean and uncertainty predicted by the model to decide what information to collect next. In this paper, we propose a novel variant of the well-known Knowledge Gradient acquisition function that allows it to handle constraints. We empirically compare the new algorithm with four other state-of-the-art constrained Bayesian optimisation algorithms and demonstrate its superior performance. We also prove theoretical convergence in the infinite budget limit.
翻訳日:2021-05-28 16:34:01 公開日:2021-05-27
# テストエラーを効果的に低減するトレーニング中の画像当たりの複数拡張サンプルの描画

Drawing Multiple Augmentation Samples Per Image During Training Efficiently Decreases Test Error ( http://arxiv.org/abs/2105.13343v1 )

ライセンス: Link先を確認
Stanislav Fort, Andrew Brock, Razvan Pascanu, Soham De, Samuel L. Smith(参考訳) コンピュータビジョンでは、ミニバッチ内の各ユニークな画像に対して、データ拡張手順から1つのサンプルを描くのが一般的であるが、この選択が一般化に最適かどうかは不明である。 本研究では,一意画像当たりの増補サンプルの数が保持データの性能に与える影響について,実験的な評価を行う。 注目すべきは、画像毎に複数のサンプルを描画することで、各ミニバッチにおけるユニークなトレーニング例の数を減らしながら、小さなバッチトレーニングと大規模なバッチトレーニングの両方で達成されたテスト精度が一貫して向上することである。 この利点は、異なる拡張乗算が同じ数のパラメータ更新と勾配評価を実行しても生じる。 その結果,データセットのサブサンプリングによる勾配推定のばらつきは暗黙の正規化効果を持つものの,データ拡張過程から生じるばらつきはテスト精度を損なうことが示唆された。 最近提案されたNFNetモデルファミリに増乗乗法を適用することで、86.8$\%$ top-1 w/o余剰データの新たなImageNet状態を実現する。

In computer vision, it is standard practice to draw a single sample from the data augmentation procedure for each unique image in the mini-batch, however it is not clear whether this choice is optimal for generalization. In this work, we provide a detailed empirical evaluation of how the number of augmentation samples per unique image influences performance on held out data. Remarkably, we find that drawing multiple samples per image consistently enhances the test accuracy achieved for both small and large batch training, despite reducing the number of unique training examples in each mini-batch. This benefit arises even when different augmentation multiplicities perform the same number of parameter updates and gradient evaluations. Our results suggest that, although the variance in the gradient estimate arising from subsampling the dataset has an implicit regularization benefit, the variance which arises from the data augmentation process harms test accuracy. By applying augmentation multiplicity to the recently proposed NFNet model family, we achieve a new ImageNet state of the art of 86.8$\%$ top-1 w/o extra data.
翻訳日:2021-05-28 16:33:27 公開日:2021-05-27
# MAGI-X:未知システムダイナミクスのためのマニフォールド制約ガウス過程推論

MAGI-X: Manifold-Constrained Gaussian Process Inference for Unknown System Dynamics ( http://arxiv.org/abs/2105.12894v1 )

ライセンス: Link先を確認
Chaofan Huang, Simin Ma, Shihao Yang(参考訳) 力学系を特徴付けるのによく使われる常微分方程式(ODE)は、ドメインエキスパートの助けを借りて、多くの複雑な科学的応用に対して閉形式で提案することは困難である。 ドメイン知識を必要とせず、非パラメトリックな方法で観測データから未知の力学を学ぶための高速で正確なデータ駆動手法であるmagi-xを提案する。 主にコストのかかる数値積分に依存する既存の手法とは異なり、MAGI-Xはニューラルネットワークの強力な機能近似を用いて、数値積分を完全に回避するManifold-Constrained Gaussian Process Inference (MAGI)フレームワーク内で未知の非線形ダイナミクスを学ぶ。 3つの実例における最先端の手法と比較して、MAGI-Xは、計算時間のみを要し、適合性と予測の両方において競争精度を達成する。 さらに、MAGI-Xは、従来の方法では扱えない部分的な観測システムの推論に実用的な解決策を提供する。

Ordinary differential equations (ODEs), commonly used to characterize the dynamic systems, are difficult to propose in closed-form for many complicated scientific applications, even with the help of domain expert. We propose a fast and accurate data-driven method, MAGI-X, to learn the unknown dynamic from the observation data in a non-parametric fashion, without the need of any domain knowledge. Unlike the existing methods that mainly rely on the costly numerical integration, MAGI-X utilizes the powerful functional approximator of neural network to learn the unknown nonlinear dynamic within the MAnifold-constrained Gaussian process Inference (MAGI) framework that completely circumvents the numerical integration. Comparing against the state-of-the-art methods on three realistic examples, MAGI-X achieves competitive accuracy in both fitting and forecasting while only taking a fraction of computational time. Moreover, MAGI-X provides practical solution for the inference of partial observed systems, which no previous method is able to handle.
翻訳日:2021-05-28 16:31:27 公開日:2021-05-27
# 推薦のための線形モデルの理解を深める

Towards a Better Understanding of Linear Models for Recommendation ( http://arxiv.org/abs/2105.12937v1 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li and Jing Gao and Zhi Liu and Li Chen and Yang Zhou(参考訳) 近年、EASEやSLIMのような線形回帰モデルは、より洗練されたディープラーニングモデルに対してかなり競争力のある結果をもたらすことがしばしば示されている。 一方、(重み付けされた)行列分解アプローチは、過去に推奨の選択肢として人気があり、業界で広く採用されてきた。 本研究では,モデルベースレコメンデーションの基礎となる2つのアプローチの関係を理論的に理解することを目的とする。 2つの基本回帰および行列因数分解に対する閉形式解の導出と解析により、これらの2つのアプローチは本質的に関連性があるが、元のユーザ-イテム相互作用行列の特異値の「スケールダウン」方法にも相違があることが判明した。 この分析は、正規化パラメータ範囲とモデル複雑度に関連する問題の解決にも役立ちます。 さらに,閉形式解の(ハイパー)パラメータを探索する新しい学習アルゴリズムを導入し,それを用いて既存解の近傍モデルの発見を行う。 実験結果から, 基本モデルとその閉形式解は, 現状のモデルとかなり競合していることが明らかとなり, 基礎モデル研究の有効性が確認された。 近くのモデルを探索する効果も実験的に検証される。

Recently, linear regression models, such as EASE and SLIM, have shown to often produce rather competitive results against more sophisticated deep learning models. On the other side, the (weighted) matrix factorization approaches have been popular choices for recommendation in the past and widely adopted in the industry. In this work, we aim to theoretically understand the relationship between these two approaches, which are the cornerstones of model-based recommendations. Through the derivation and analysis of the closed-form solutions for two basic regression and matrix factorization approaches, we found these two approaches are indeed inherently related but also diverge in how they "scale-down" the singular values of the original user-item interaction matrix. This analysis also helps resolve the questions related to the regularization parameter range and model complexities. We further introduce a new learning algorithm in searching (hyper)parameters for the closed-form solution and utilize it to discover the nearby models of the existing solutions. The experimental results demonstrate that the basic models and their closed-form solutions are indeed quite competitive against the state-of-the-art models, thus, confirming the validity of studying the basic models. The effectiveness of exploring the nearby models are also experimentally validated.
翻訳日:2021-05-28 16:30:56 公開日:2021-05-27
# 学習分布のための生成型adversarial networkの誤り解析

An error analysis of generative adversarial networks for learning distributions ( http://arxiv.org/abs/2105.13010v1 )

ライセンス: Link先を確認
Jian Huang, Yuling Jiao, Zhen Li, Shiao Liu, Yang Wang, Yunfei Yang(参考訳) 本稿では,GANが有限標本から確率分布をいかによく学習するかを検討する。 我々の主な結果は,wasserstein距離を特別に含むh\"olderクラスを通じて定義される積分的確率計量の集合の下でのganの収束率を推定する。 また,ネットワークアーキテクチャが適切に選択された場合,GANは低次元構造を持つデータ分布を適応的に学習したり,より古い密度を持つことを示す。 特に、分布が低次元集合を中心に集中すると、GANの学習速度は高い周囲次元ではなく低い内在次元に依存することが証明される。 今回の分析は,推定誤差をジェネレータと判別子近似誤差と統計誤差に分解する,oracleの新たな不等式に基づいている。

This paper studies how well generative adversarial networks (GANs) learn probability distributions from finite samples. Our main results estimate the convergence rates of GANs under a collection of integral probability metrics defined through H\"older classes, including the Wasserstein distance as a special case. We also show that GANs are able to adaptively learn data distributions with low-dimensional structure or have H\"older densities, when the network architectures are chosen properly. In particular, for distributions concentrate around a low-dimensional set, it is proved that the learning rates of GANs do not depend on the high ambient dimension, but on the lower intrinsic dimension. Our analysis is based on a new oracle inequality decomposing the estimation error into generator and discriminator approximation error and statistical error, which may be of independent interest.
翻訳日:2021-05-28 16:30:21 公開日:2021-05-27
# ランダム化特異値分解の一般化

A generalization of the randomized singular value decomposition ( http://arxiv.org/abs/2105.13052v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Alex Townsend(参考訳) ランダム化特異値分解(SVD)は、標準的なガウスベクトルを持つ行列ベクトル積を用いて行列の$A$の近似を最上位の$k$で計算するアルゴリズムである。 ここでは、ランダム化svdの理論を多変数ガウスベクトルに一般化し、アルゴリズムに$a$の事前知識を組み込むことができる。 これにより、Hilbert-Schmidt (HS) 作用素に対するランダム化された SVD の連続的な類似を、ガウス過程 (GP) から引き出された関数を持つ作用素関数積を用いて探索することができる。 次に、重み付きヤコビ多項式に基づくGPの新しい共分散カーネルを構築し、GPを迅速にサンプリングし、ランダムに生成された関数の滑らかさを制御する。 行列とHS演算子の数値例はアルゴリズムの適用性を示している。

The randomized singular value decomposition (SVD) is a popular and effective algorithm for computing a near-best rank $k$ approximation of a matrix $A$ using matrix-vector products with standard Gaussian vectors. Here, we generalize the theory of randomized SVD to multivariable Gaussian vectors, allowing one to incorporate prior knowledge of $A$ into the algorithm. This enables us to explore the continuous analogue of the randomized SVD for Hilbert--Schmidt (HS) operators using operator-function products with functions drawn from a Gaussian process (GP). We then construct a new covariance kernel for GPs, based on weighted Jacobi polynomials, which allows us to rapidly sample the GP and control the smoothness of the randomly generated functions. Numerical examples on matrices and HS operators demonstrate the applicability of the algorithm.
翻訳日:2021-05-28 16:29:57 公開日:2021-05-27
# ノード埋め込みの不可能性理論

An Impossibility Theorem for Node Embedding ( http://arxiv.org/abs/2105.13251v1 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Yu Zhu, Santiago Segarra(参考訳) 次元減少と表現学習のためのグラフベースの手法の人気が高まり、ノード埋め込み関数は文学において重要な研究対象となっている。 本稿では,ノード埋め込み法を理解するための公理的なアプローチを取り,まず,類似性ネットワークを組込むための3つの性質を述べる。 ある種の公理的仮定の下でのクラスタリングの不可能性に関する既存の結果と同様、これはノード埋め込みタスクに固有の根本的な困難を指摘する。 これらの困難が特定されると、これらの公理を緩和して、特定のノード埋め込みメソッドをフレームワークで許容できるようにします。

With the increasing popularity of graph-based methods for dimensionality reduction and representation learning, node embedding functions have become important objects of study in the literature. In this paper, we take an axiomatic approach to understanding node embedding methods, first stating three properties for embedding dissimilarity networks, then proving that all three cannot be satisfied simultaneously by any node embedding method. Similar to existing results on the impossibility of clustering under certain axiomatic assumptions, this points to fundamental difficulties inherent to node embedding tasks. Once these difficulties are identified, we then relax these axioms to allow for certain node embedding methods to be admissible in our framework.
翻訳日:2021-05-28 16:29:37 公開日:2021-05-27
# 医用診断・分析のためのグラフベース深層学習:過去・現在・未来

Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future ( http://arxiv.org/abs/2105.13137v1 )

ライセンス: Link先を確認
David Ahmedt-Aristizabal, Mohammad Ali Armin, Simon Denman, Clinton Fookes, Lars Petersson(参考訳) データ駆動機械学習研究の進歩により、様々な予測問題に取り組んできた。 機械学習、特に深層学習手法が医療データ分析にどのように活用できるかを探求することが重要になっている。 既存の方法の大きな制限はグリッドのようなデータに焦点を合わせることであるが、生理的記録の構造はしばしば不規則で順序付けされていないため、それらを行列として概念化することは困難である。 このように、グラフニューラルネットワークは、生物学的システムに存在する暗黙の情報を活用し、重みが時間的関連または解剖学的結合であるエッジで接続された対話ノードによって大きな注目を集めている。 本調査では,異なるタイプのグラフアーキテクチャとその医療への応用について概観する。 機能的接続性,解剖学的構造,電気的解析などの応用領域を整理し,それらの手法の概要を体系的に示す。 また,既存技術の限界について概説し,今後の研究の方向性について論じる。

With the advances of data-driven machine learning research, a wide variety of prediction problems have been tackled. It has become critical to explore how machine learning and specifically deep learning methods can be exploited to analyse healthcare data. A major limitation of existing methods has been the focus on grid-like data; however, the structure of physiological recordings are often irregular and unordered which makes it difficult to conceptualise them as a matrix. As such, graph neural networks have attracted significant attention by exploiting implicit information that resides in a biological system, with interactive nodes connected by edges whose weights can be either temporal associations or anatomical junctions. In this survey, we thoroughly review the different types of graph architectures and their applications in healthcare. We provide an overview of these methods in a systematic manner, organized by their domain of application including functional connectivity, anatomical structure and electrical-based analysis. We also outline the limitations of existing techniques and discuss potential directions for future research.
翻訳日:2021-05-28 16:29:18 公開日:2021-05-27
# TENSILE: 複数の動的ワークロードシステムに向けたテンソル粒度動的GPUメモリスケジューラ手法

TENSILE: A Tensor granularity dynamic GPU memory scheduler method towards multiple dynamic workloads system ( http://arxiv.org/abs/2105.13336v1 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Tongxin Li, Han Hu, Jiye Qiu, Songling Zou(参考訳) 近年、深層学習は激しい研究の領域となっている。 しかし、計算集約的なタスクの一種として、ディープラーニングはgpuメモリの規模に大きく依存しています。 動的GPUメモリ管理には広範な研究が提案されているが、データベース内機械学習システムのようなマルチタスク動的ワークロードを持つシステムに適用することは困難である。 本稿では,GPUメモリをテンソル粒度で管理し,GPUメモリのピークを減らし,マルチタスクの動的ワークロードを考慮に入れたTENSILEを実演した。 私たちが知る限り、テンションは複数のワークロードのgpuメモリを管理するために設計された最初の方法です。 我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。 実験の結果,本手法は,より多くのgpuメモリを節約した前処理よりも少ない時間オーバーヘッドを達成できることがわかった。

Recently, deep learning has been an area of intense researching. However, as a kind of computing intensive task, deep learning highly relies on the the scale of the GPU memory, which is usually expensive and scarce. Although there are some extensive works have been proposed for dynamic GPU memory management, they are hard to be applied to systems with multitasking dynamic workloads, such as in-database machine learning system. In this paper, we demonstrated TENSILE, a method of managing GPU memory in tensor granularity to reduce the GPU memory peak, with taking the multitasking dynamic workloads into consideration. As far as we know, TENSILE is the first method which is designed to manage multiple workloads' GPU memory using. We implement TENSILE on our own deep learning framework, and evaluated its performance. The experiment results shows that our method can achieve less time overhead than prior works with more GPU memory saved.
翻訳日:2021-05-28 16:28:51 公開日:2021-05-27
# 動的空間フィルタリングによる劣化脳波からのロバスト学習

Robust learning from corrupted EEG with dynamic spatial filtering ( http://arxiv.org/abs/2105.12916v1 )

ライセンス: Link先を確認
Hubert Banville, Sean U.N. Wood, Chris Aimone, Denis-Alexander Engemann and Alexandre Gramfort(参考訳) 実験室の外で記録されたEEGを使用して機械学習モデルを構築するには、ノイズの多いデータとランダムに欠落したチャネルに対して堅牢な方法が必要である。 このニーズは、コンシューマグレードやモバイルのEEGデバイスでしばしば発生する、スパースなEEGモンタージュ(1-6チャネル)を扱う場合、特に大きい。 古典的な機械学習モデルや、脳波でエンドツーエンドを訓練したディープニューラルネットワークは、典型的には、腐敗に対する堅牢性、特にランダムに欠けているチャネルのために設計またはテストされない。 チャネルが不足しているデータを使用するための戦略を提案している研究もあるが、スパースモンタージュが使われ、計算能力(例えばウェアラブルや携帯電話)が限られている場合には、これらのアプローチは実用的ではない。 この問題に対処するために,ニューラルネットワークの第1層の前に挿入可能なマルチヘッドアテンションモジュールである動的空間フィルタリング(DSF)を提案する。 我々は, チャネル破壊をシミュレーションした4,000以上の記録を含む公開脳波データと, 自然腐敗のある100以上の家庭内記録のプライベートデータセットを用いて, dsfをテストした。 提案手法は,ノイズを伴わない場合のベースラインモデルと同じ性能を実現するが,有意なチャネル破壊が発生した場合のベースラインの精度は29.4%も向上する。 さらに、DSF出力は解釈可能であり、リアルタイムでチャンネルの重要度を監視することができる。 このアプローチは、チャンネルの腐敗が脳信号の読み取りを阻害する困難な環境で脳波の分析を可能にする可能性がある。

Building machine learning models using EEG recorded outside of the laboratory setting requires methods robust to noisy data and randomly missing channels. This need is particularly great when working with sparse EEG montages (1-6 channels), often encountered in consumer-grade or mobile EEG devices. Neither classical machine learning models nor deep neural networks trained end-to-end on EEG are typically designed or tested for robustness to corruption, and especially to randomly missing channels. While some studies have proposed strategies for using data with missing channels, these approaches are not practical when sparse montages are used and computing power is limited (e.g., wearables, cell phones). To tackle this problem, we propose dynamic spatial filtering (DSF), a multi-head attention module that can be plugged in before the first layer of a neural network to handle missing EEG channels by learning to focus on good channels and to ignore bad ones. We tested DSF on public EEG data encompassing ~4,000 recordings with simulated channel corruption and on a private dataset of ~100 at-home recordings of mobile EEG with natural corruption. Our proposed approach achieves the same performance as baseline models when no noise is applied, but outperforms baselines by as much as 29.4% accuracy when significant channel corruption is present. Moreover, DSF outputs are interpretable, making it possible to monitor channel importance in real-time. This approach has the potential to enable the analysis of EEG in challenging settings where channel corruption hampers the reading of brain signals.
翻訳日:2021-05-28 16:28:25 公開日:2021-05-27
# SLOPEトレードオフの特徴付け:変分的視点とDonoho-Tanner制限

Characterizing the SLOPE Trade-off: A Variational Perspective and the Donoho-Tanner Limit ( http://arxiv.org/abs/2105.13302v1 )

ライセンス: Link先を確認
Zhiqi Bu, Jason Klusowski, Cynthia Rush, Weijie J. Su(参考訳) 線形回帰におけるSLOPE推定器を含む高次元統計的推定問題を解くための多くの方法に、sorted l1正規化が組み込まれている。 本稿では,この比較的新しい正規化手法が,偽発見率 (fdp) と真正率 (tpp) の最適な傾きトレードオフを特徴付けることで,変数選択をいかに改善するか,あるいは,タイプiの誤差とパワーの尺度を等価に評価する。 線形スパーシティのレジームを仮定し、ガウスのランダムな設計の下で働くことを仮定し、スロープの最適トレードオフを上限とし、ドノホ・タナーのパワー限界を破る能力を示す。 この限界は、おそらく最も人気のあるl1ベースの手法であるlassoが、任意に強い効果サイズでも達成できる最大の力である。 次に、TPP に対して FDP を最適に取引する際に、ソートした l1 正規化の基本極限を規定する厳密な下限を導出する。 最後に、任意の問題に対して、ある正規化シーケンスを持つSLOPEは、より小さいFDP、大きいTPP、小さいl2推定リスクを同時に持つという意味で、Lassoよりも優れていることを示す。 我々の証明は、変動計算問題を無限次元凸最適化問題に還元する新しい手法と、近似メッセージパッシング理論による非常に最近の結果に基づいている。

Sorted l1 regularization has been incorporated into many methods for solving high-dimensional statistical estimation problems, including the SLOPE estimator in linear regression. In this paper, we study how this relatively new regularization technique improves variable selection by characterizing the optimal SLOPE trade-off between the false discovery proportion (FDP) and true positive proportion (TPP) or, equivalently, between measures of type I error and power. Assuming a regime of linear sparsity and working under Gaussian random designs, we obtain an upper bound on the optimal trade-off for SLOPE, showing its capability of breaking the Donoho-Tanner power limit. To put it into perspective, this limit is the highest possible power that the Lasso, which is perhaps the most popular l1-based method, can achieve even with arbitrarily strong effect sizes. Next, we derive a tight lower bound that delineates the fundamental limit of sorted l1 regularization in optimally trading the FDP off for the TPP. Finally, we show that on any problem instance, SLOPE with a certain regularization sequence outperforms the Lasso, in the sense of having a smaller FDP, larger TPP and smaller l2 estimation risk simultaneously. Our proofs are based on a novel technique that reduces a variational calculus problem to a class of infinite-dimensional convex optimization problems and a very recent result from approximate message passing theory.
翻訳日:2021-05-28 16:27:40 公開日:2021-05-27
# 蒸留データ複雑度は非自己回帰機械翻訳の品質と信頼性にどのように影響するか?

How Does Distilled Data Complexity Impact the Quality and Confidence of Non-Autoregressive Machine Translation? ( http://arxiv.org/abs/2105.12900v1 )

ライセンス: Link先を確認
Weijia Xu, Shuming Ma, Dongdong Zhang, Marine Carpuat(参考訳) 非自己回帰型(nar)モデルは機械翻訳に大いに期待されているが、その使用は自己回帰型モデルからの知識蒸留に依存するため制限されている。 この問題に対処するため,蒸留がなぜ効果的かを理解する。 先行研究では、蒸留訓練データは手動翻訳よりも複雑ではないことを示唆している。 Based on experiments with the Levenshtein Transformer and the Mask-Predict NAR models on the WMT14 German-English task, this paper shows that different types of complexity have different impacts: while reducing lexical diversity and decreasing reordering complexity both help NAR learn better alignment between source and target, and thus improve translation quality, lexical diversity is the main reason why distillation increases model confidence, which affects the calibration of different NAR models differently.

While non-autoregressive (NAR) models are showing great promise for machine translation, their use is limited by their dependence on knowledge distillation from autoregressive models. To address this issue, we seek to understand why distillation is so effective. Prior work suggests that distilled training data is less complex than manual translations. Based on experiments with the Levenshtein Transformer and the Mask-Predict NAR models on the WMT14 German-English task, this paper shows that different types of complexity have different impacts: while reducing lexical diversity and decreasing reordering complexity both help NAR learn better alignment between source and target, and thus improve translation quality, lexical diversity is the main reason why distillation increases model confidence, which affects the calibration of different NAR models differently.
翻訳日:2021-05-28 16:26:57 公開日:2021-05-27
# ドイツ・コビッドのソーシャルメディアにおける意見マイニングのためのラベル提案の検討

Investigating label suggestions for opinion mining in German Covid-19 social media ( http://arxiv.org/abs/2105.12980v1 )

ライセンス: Link先を確認
Tilman Beck, Ji-Ung Lee, Christina Viehmann, Marcus Maurer, Oliver Quiring, Iryna Gurevych(参考訳) 本研究は,ドイツ・コビッド19のソーシャルメディアデータにおける意見マイニング作業におけるアノテーション収集の効率向上のために,インタラクティブに更新されたラベル提案を使用することを検討する。 社会科の学生とのアノテーション研究の指導を行うためのガイドラインを開発し、専門家による小さなデータセットでトレーニングされたモデルからの提案は、アノテーション間の合意(+.14 fleiss' $\kappa$)とアノテーションの品質に関して、ラベルの推奨を受けていない学生と比較して、すでに大幅に改善されていることを見出します。 さらに、インタラクティブにトレーニングされたモデルからのラベル提案は、静的モデルからの提案よりも改善しないことがわかった。 それにもかかわらず、提案バイアスの分析は、アノテータが一般に提案されたラベルを反映できることを示す。 最後に,異なるアノテータ群間でのトランスファー学習実験において,アノテートデータの品質を確認する。 ソーシャルメディアデータに対する意見マイニングのさらなる研究を促進するために,200名と2,785名の学生アノテーションからなる収集データをリリースする。

This work investigates the use of interactively updated label suggestions to improve upon the efficiency of gathering annotations on the task of opinion mining in German Covid-19 social media data. We develop guidelines to conduct a controlled annotation study with social science students and find that suggestions from a model trained on a small, expert-annotated dataset already lead to a substantial improvement - in terms of inter-annotator agreement(+.14 Fleiss' $\kappa$) and annotation quality - compared to students that do not receive any label suggestions. We further find that label suggestions from interactively trained models do not lead to an improvement over suggestions from a static model. Nonetheless, our analysis of suggestion bias shows that annotators remain capable of reflecting upon the suggested label in general. Finally, we confirm the quality of the annotated data in transfer learning experiments between different annotator groups. To facilitate further research in opinion mining on social media data, we release our collected data consisting of 200 expert and 2,785 student annotations.
翻訳日:2021-05-28 16:26:40 公開日:2021-05-27
# Adaptive Nearest Neighbor Machine Translation

Adaptive Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2105.13022v1 )

ライセンス: Link先を確認
Xin Zheng, Zhirui Zhang, Junliang Guo, Shujian Huang, Boxing Chen, Weihua Luo and Jiajun Chen(参考訳) kNN-MT - Khandelwalらによって最近提案された。 (2020a)は、学習済みニューラルネットワーク翻訳(NMT)モデルとトークンレベルのk-nearest-neighbor(kNN)検索をうまく組み合わせ、翻訳精度を向上させる。 しかし、kNN-MTで使用される従来のkNNアルゴリズムは、ターゲットトークン毎に同じ数の近接した隣人を検索するだけで、取得した隣人がノイズを含む場合に予測エラーを引き起こす可能性がある。 本稿では,ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。 我々は,少量のトレーニングサンプルで効率的にトレーニングできる軽量なメタkネットワークを導入することで,これを実現する。 4つのベンチマーク機械翻訳データセットにおいて,提案手法が検索結果のノイズを効果的に除去し,vanilla knn-mtモデルを大きく上回ることを示す。 さらに注目すべきは、あるドメインで学習したMeta-kネットワークが、他のドメインに直接適用され、一貫した改善が得られ、メソッドの汎用性を示すことである。 私たちの実装は、https://github.com/zhengxxn/adaptive-knn-mtでオープンソースです。

kNN-MT, recently proposed by Khandelwal et al. (2020a), successfully combines pre-trained neural machine translation (NMT) model with token-level k-nearest-neighbor (kNN) retrieval to improve the translation accuracy. However, the traditional kNN algorithm used in kNN-MT simply retrieves a same number of nearest neighbors for each target token, which may cause prediction errors when the retrieved neighbors include noises. In this paper, we propose Adaptive kNN-MT to dynamically determine the number of k for each target token. We achieve this by introducing a light-weight Meta-k Network, which can be efficiently trained with only a few training samples. On four benchmark machine translation datasets, we demonstrate that the proposed method is able to effectively filter out the noises in retrieval results and significantly outperforms the vanilla kNN-MT model. Even more noteworthy is that the Meta-k Network learned on one domain could be directly applied to other domains and obtain consistent improvements, illustrating the generality of our method. Our implementation is open-sourced at https://github.com/zhengxxn/adaptive-knn-mt.
翻訳日:2021-05-28 16:26:05 公開日:2021-05-27
# 産業規模の動的ピックアップとデリバリー問題の最適化のための学習

Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems ( http://arxiv.org/abs/2105.12899v1 )

ライセンス: Link先を確認
Xijun Li, Weilin Luo, Mingxuan Yuan, Jun Wang, Jiawen Lu, Jie Wang, Jinhu Lu and Jia Zeng(参考訳) dynamic pickup and delivery problem (dpdp) は,事前注文が分かっていない場合にコストを最小化するために,複数のサイト間で車両を動的にスケジューリングすることを目的としている。 DPDPは現代のロジスティクスやサプライチェーン管理において重要な役割を担っているが、最先端のDPDPアルゴリズムは依然としてソリューションの品質と効率に制限されている。 実際には、車両やサイトの数が大きくなるにつれて、スケーラブルなソリューションを提供できない。 本稿では,産業規模のDPDPを解決するために,データ駆動型空間時間援用ダブルディープグラフネットワーク(ST-DDGN)を提案する。 本手法では,配車時の配送需要の時空間分布をニューラルネットワークが知覚する時空間予測法を用いて,まず配送需要の予測を行う。 さらに、グラフベースの値関数を確立することにより、車両のような個人の関係をモデル化する。 ST-DDGNはDouble DQN (DDQN) とアテンションベースのグラフ埋め込みを組み込んでいる。 そのため、従来の手法に比べて車両間の推論をより効率的に行うことができる。 提案手法は完全にデータ駆動であり,隣接車両のリレーショナル表現をst-ddgnによって周期的に学習・修正することができる。 ソリューションを評価するために,実世界データに関する広範な実験を行った。 その結果、ST-DDGNは使用車両の11.27%を削減し、UAT(User Acceptance Test)環境に展開されるヒューリスティックアルゴリズムや様々なバニラDRL手法を含む、強力なベースライン上での平均輸送コストを13.12%削減した。 ソリューションをオンラインロジスティクスシステムに完全にデプロイする予定で、年間数百万ドルのusdロジスティクスコストを節約できると見積もられています。

The Dynamic Pickup and Delivery Problem (DPDP) is aimed at dynamically scheduling vehicles among multiple sites in order to minimize the cost when delivery orders are not known a priori. Although DPDP plays an important role in modern logistics and supply chain management, state-of-the-art DPDP algorithms are still limited on their solution quality and efficiency. In practice, they fail to provide a scalable solution as the numbers of vehicles and sites become large. In this paper, we propose a data-driven approach, Spatial-Temporal Aided Double Deep Graph Network (ST-DDGN), to solve industry-scale DPDP. In our method, the delivery demands are first forecast using spatial-temporal prediction method, which guides the neural network to perceive spatial-temporal distribution of delivery demand when dispatching vehicles. Besides, the relationships of individuals such as vehicles are modelled by establishing a graph-based value function. ST-DDGN incorporates attention-based graph embedding with Double DQN (DDQN). As such, it can make the inference across vehicles more efficiently compared with traditional methods. Our method is entirely data driven and thus adaptive, i.e., the relational representation of adjacent vehicles can be learned and corrected by ST-DDGN from data periodically. We have conducted extensive experiments over real-world data to evaluate our solution. The results show that ST-DDGN reduces 11.27% number of the used vehicles and decreases 13.12% total transportation cost on average over the strong baselines, including the heuristic algorithm deployed in our UAT (User Acceptance Test) environment and a variety of vanilla DRL methods. We are due to fully deploy our solution into our online logistics system and it is estimated that millions of USD logistics cost can be saved per year.
翻訳日:2021-05-28 16:25:22 公開日:2021-05-27
# 局所リプシッツ制約を用いた教師なし適応的意味セグメンテーション

Unsupervised Adaptive Semantic Segmentation with Local Lipschitz Constraint ( http://arxiv.org/abs/2105.12939v1 )

ライセンス: Link先を確認
Guanyu Cai, Lianghua He(参考訳) 教師なしドメイン適応の最近の進歩は意味セグメンテーションがかなり進歩している。 既存の方法は、異なるドメインを敵対的なトレーニングと整合させるか、または擬似ラベルを使って教師付きトレーニングを行う自己学習を含む。 前者は常に逆行訓練による不安定なトレーニングに悩まされており、ドメイン内の知識を無視したドメイン間ギャップのみに焦点を当てている。 後者は、間違ったカテゴリに過剰なラベル予測をし、より多くのサンプルにエラーを伝達する傾向がある。 これらの問題を解決するために,ドメインアライメントとドメイン固有探索の両方を統一原理で満足する局所リプシッツ制約に基づく2段階適応型セマンティックセマンティックセマンティクス法を提案する。 第1段階では,非敵適応的セマンティクスセグメンテーションのための有望な方向を探索する領域内知識を活用し,異なる領域を整列する目的関数として局所リプシッツ性正規化を提案する。 第2段階では,局所リプシッツ正則化を用いて各画素に対するリプシッツ性を満たす確率を推定し,擬似ラベルの閾値を動的に設定して自己学習を行う。 このような動的自己学習はノイズラベルによる誤り伝播を効果的に回避する。 どちらの段階においても最適化は同じ原理、すなわち局所リプシッツの制約に基づいており、第1段階で学んだ知識を第2段階で維持することができる。 さらに,本手法はモデルに依存しないため,任意のCNNに基づくセマンティックセグメンテーションネットワークに容易に適応できる。 実験の結果,本手法は標準ベンチマークにおいて優れた性能を示す。

Recent advances in unsupervised domain adaptation have seen considerable progress in semantic segmentation. Existing methods either align different domains with adversarial training or involve the self-learning that utilizes pseudo labels to conduct supervised training. The former always suffers from the unstable training caused by adversarial training and only focuses on the inter-domain gap that ignores intra-domain knowledge. The latter tends to put overconfident label prediction on wrong categories, which propagates errors to more samples. To solve these problems, we propose a two-stage adaptive semantic segmentation method based on the local Lipschitz constraint that satisfies both domain alignment and domain-specific exploration under a unified principle. In the first stage, we propose the local Lipschitzness regularization as the objective function to align different domains by exploiting intra-domain knowledge, which explores a promising direction for non-adversarial adaptive semantic segmentation. In the second stage, we use the local Lipschitzness regularization to estimate the probability of satisfying Lipschitzness for each pixel, and then dynamically sets the threshold of pseudo labels to conduct self-learning. Such dynamical self-learning effectively avoids the error propagation caused by noisy labels. Optimization in both stages is based on the same principle, i.e., the local Lipschitz constraint, so that the knowledge learned in the first stage can be maintained in the second stage. Further, due to the model-agnostic property, our method can easily adapt to any CNN-based semantic segmentation networks. Experimental results demonstrate the excellent performance of our method on standard benchmarks.
翻訳日:2021-05-28 16:21:49 公開日:2021-05-27
# PSRR-MaxpoolNMS: ピラミッドシフトマックスプールNMSとリレーショナルリカバリ

PSRR-MaxpoolNMS: Pyramid Shifted MaxpoolNMS with Relationship Recovery ( http://arxiv.org/abs/2105.12990v1 )

ライセンス: Link先を確認
Tianyi Zhang, Jie Lin, Peng Hu, Bin Zhao, Mohamed M. Sabry Aly(参考訳) 非最大抑圧(NMS)は、オブジェクト検出のための現代の畳み込みニューラルネットワークにおいて重要な後処理ステップである。 本質的に並列な畳み込みとは異なり、NMSのデファクト標準であるGreedyNMSは容易に並列化できないため、畳み込みオブジェクト検出パイプラインのパフォーマンスボトルネックになる可能性がある。 maxpoolnms は greedynms の並列化可能な代替として導入されており、同等の精度で greedynms よりも高速な速度を実現している。 しかし、マクスプールNMSは、Faster-RCNNのような2段検出器の最初の段階で、グレディNMSを置き換える能力しか持たない。 最終検出段階でmaxpoolnmsを適用する場合、maxpoolnmsが境界ボックス選択の観点で正確にグレジンを近似できないため、精度が大幅に低下する。 本稿では,すべての検出器においてGreedyNMSを完全に置き換える汎用的で並列化可能なPSRR-MaxpoolNMSを提案する。 単純なリレーション・リカバリ・モジュールとピラミッドシフトのMaxpoolNMSモジュールを導入することで、我々のPSRR-MaxpoolNMSはGreedyNMSをMaxpoolNMSよりも正確に近似することができる。 総合的な実験により,本手法はMaxpoolNMSよりも大きなマージンで優れており,GreedyNMSよりも精度が高いことが確認された。 初めてPSRR-MaxpoolNMSは、カスタマイズされたハードウェア設計のための完全に並列化可能なソリューションを提供する。

Non-maximum Suppression (NMS) is an essential postprocessing step in modern convolutional neural networks for object detection. Unlike convolutions which are inherently parallel, the de-facto standard for NMS, namely GreedyNMS, cannot be easily parallelized and thus could be the performance bottleneck in convolutional object detection pipelines. MaxpoolNMS is introduced as a parallelizable alternative to GreedyNMS, which in turn enables faster speed than GreedyNMS at comparable accuracy. However, MaxpoolNMS is only capable of replacing the GreedyNMS at the first stage of two-stage detectors like Faster-RCNN. There is a significant drop in accuracy when applying MaxpoolNMS at the final detection stage, due to the fact that MaxpoolNMS fails to approximate GreedyNMS precisely in terms of bounding box selection. In this paper, we propose a general, parallelizable and configurable approach PSRR-MaxpoolNMS, to completely replace GreedyNMS at all stages in all detectors. By introducing a simple Relationship Recovery module and a Pyramid Shifted MaxpoolNMS module, our PSRR-MaxpoolNMS is able to approximate GreedyNMS more precisely than MaxpoolNMS. Comprehensive experiments show that our approach outperforms MaxpoolNMS by a large margin, and it is proven faster than GreedyNMS with comparable accuracy. For the first time, PSRR-MaxpoolNMS provides a fully parallelizable solution for customized hardware design, which can be reused for accelerating NMS everywhere.
翻訳日:2021-05-28 16:21:06 公開日:2021-05-27
# 命令表現とハイパーネットワークによる3次元シーンのスタイリング

Stylizing 3D Scene via Implicit Representation and HyperNetwork ( http://arxiv.org/abs/2105.13016v1 )

ライセンス: Link先を確認
Pei-Ze Chiang, Meng-Shiun Tsai, Hung-Yu Tseng, Wei-sheng Lai, Wei-Chen Chiu(参考訳) 本研究では,任意の視点でシーンのスタイリング画像を生成する3Dシーンスタイリング問題に対処することを目的とする。 単純な解決策は、既存の新しいビュー合成と画像/ビデオスタイル転送を組み合わせることで、しばしばぼやけた結果や一貫性のない外観につながる。 ニューラルレイディアンスフィールド(NeRF)法の高品質な結果にインスパイアされ,新しいビューを所望のスタイルで直接描画するジョイントフレームワークを提案する。 本フレームワークは,ニューラルネットワークを用いた3次元シーンの暗黙的表現と,シーン表現にスタイル情報を転送するハイパーネットワークという2つのコンポーネントから構成される。 特に、暗黙的表現モデルは、シーンを幾何学的および外見的分岐に切り離し、ハイパーネットワークは、参照スタイル画像から外見的分岐のパラメータを予測することを学習する。 トレーニングの困難さと記憶負荷を軽減するため,ニューラルレイディアンスフィールドモデルを用いて2段階のトレーニング手順とパッチサブサンプリング手法を提案し,そのスタイルと内容の損失を最適化する。 最適化後は、任意のビュー角で一貫した新しいビューを任意のスタイルでレンダリングすることができる。 定量的評価と人体実験の両方で,異なる視点で一貫した外観の忠実なスタイリゼーション結果が得られた。

In this work, we aim to address the 3D scene stylization problem - generating stylized images of the scene at arbitrary novel view angles. A straightforward solution is to combine existing novel view synthesis and image/video style transfer approaches, which often leads to blurry results or inconsistent appearance. Inspired by the high quality results of the neural radiance fields (NeRF) method, we propose a joint framework to directly render novel views with the desired style. Our framework consists of two components: an implicit representation of the 3D scene with the neural radiance field model, and a hypernetwork to transfer the style information into the scene representation. In particular, our implicit representation model disentangles the scene into the geometry and appearance branches, and the hypernetwork learns to predict the parameters of the appearance branch from the reference style image. To alleviate the training difficulties and memory burden, we propose a two-stage training procedure and a patch sub-sampling approach to optimize the style and content losses with the neural radiance field model. After optimization, our model is able to render consistent novel views at arbitrary view angles with arbitrary style. Both quantitative evaluation and human subject study have demonstrated that the proposed method generates faithful stylization results with consistent appearance across different views.
翻訳日:2021-05-28 16:20:23 公開日:2021-05-27
# SSAN:ビデオ表現学習のための分離型自己認識ネットワーク

SSAN: Separable Self-Attention Network for Video Representation Learning ( http://arxiv.org/abs/2105.13033v1 )

ライセンス: Link先を確認
Xudong Guo, Xun Guo, Yan Lu(参考訳) ビデオ表現学習において,長期依存のモデル化の有効性から自己注意がうまく適用されている。 既存のアプローチでは、単に空間的および時間的次元に沿ってペアワイズ相関を計算するだけで依存関係を構築することができる。 しかし、空間的相関と時間的相関は、場面の異なる文脈情報と時間的推論を表す。 直感的には、まず空間的文脈情報を学ぶことは、時間的モデリングに役立つ。 本稿では,空間的・時間的相関を逐次的にモデル化し,空間的コンテキストを時間的モデリングに効率的に利用できる分離型自己注意モジュールを提案する。 2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。 ビデオ行動認識のタスクにおいて,本手法は,Something と Kinetics-400 データセットの最先端手法よりも優れている。 私たちのモデルは、ネットワークが浅く、モダリティも少ないモデルよりも優れています。 さらに,ビデオ検索の視覚的タスクにおける本手法のセマンティック学習能力を検証し,映像表現とテキスト埋め込みの均一性を示す。 MSR-VTTとYoucook2データセットでは、SSAが学習したビデオ表現が最先端のパフォーマンスを大幅に向上させる。

Self-attention has been successfully applied to video representation learning due to the effectiveness of modeling long range dependencies. Existing approaches build the dependencies merely by computing the pairwise correlations along spatial and temporal dimensions simultaneously. However, spatial correlations and temporal correlations represent different contextual information of scenes and temporal reasoning. Intuitively, learning spatial contextual information first will benefit temporal modeling. In this paper, we propose a separable self-attention (SSA) module, which models spatial and temporal correlations sequentially, so that spatial contexts can be efficiently used in temporal modeling. By adding SSA module into 2D CNN, we build a SSA network (SSAN) for video representation learning. On the task of video action recognition, our approach outperforms state-of-the-art methods on Something-Something and Kinetics-400 datasets. Our models often outperform counterparts with shallower network and fewer modalities. We further verify the semantic learning ability of our method in visual-language task of video retrieval, which showcases the homogeneity of video representations and text embeddings. On MSR-VTT and Youcook2 datasets, video representations learnt by SSA significantly improve the state-of-the-art performance.
翻訳日:2021-05-28 16:19:40 公開日:2021-05-27
# 超解像を損なうブラインド運動:動的時空間学習が静的画像理解と出会うとき

Blind Motion Deblurring Super-Resolution: When Dynamic Spatio-Temporal Learning Meets Static Image Understanding ( http://arxiv.org/abs/2105.13077v1 )

ライセンス: Link先を確認
Wenjia Niu, Kaihao Zhang, Wenhan Luo, Yiran Zhong, Xin Yu, Hongdong Li(参考訳) シングルイメージスーパーレゾリューション(sr)とマルチフレームsrは、低解像度画像をスーパーレゾリューションする2つの方法である。 シングルイメージSRは一般的に各画像を独立に扱うが、継続フレームに暗示される時間情報を無視する。 マルチフレームSRは、モーション情報をキャプチャすることで、時間依存性をモデル化することができる。 しかし、現実世界では必ずしも利用できない近隣のフレームに依存している。 一方、わずかなカメラの振れは、遠距離の低解像度画像に重い動きのぼやけを引き起こす。 これらの問題に対処するために, 動画像から動的時空間情報を学ぶために, bmdsrnet (bmdsrnet) が提案されている。 BMDSRNetは逆過程を学習し、3つのストリームを用いて、よく設計された再構成損失関数に基づいて双方向時空間情報を学習し、高解像度画像のクリーンな復元を行う。 広範な実験により、bmdsrnetは最新の最先端手法よりも優れており、画像デブラリングとsrを同時に処理できることを示した。

Single-image super-resolution (SR) and multi-frame SR are two ways to super resolve low-resolution images. Single-Image SR generally handles each image independently, but ignores the temporal information implied in continuing frames. Multi-frame SR is able to model the temporal dependency via capturing motion information. However, it relies on neighbouring frames which are not always available in the real world. Meanwhile, slight camera shake easily causes heavy motion blur on long-distance-shot low-resolution images. To address these problems, a Blind Motion Deblurring Super-Reslution Networks, BMDSRNet, is proposed to learn dynamic spatio-temporal information from single static motion-blurred images. Motion-blurred images are the accumulation over time during the exposure of cameras, while the proposed BMDSRNet learns the reverse process and uses three-streams to learn Bidirectional spatio-temporal information based on well designed reconstruction loss functions to recover clean high-resolution images. Extensive experiments demonstrate that the proposed BMDSRNet outperforms recent state-of-the-art methods, and has the ability to simultaneously deal with image deblurring and SR.
翻訳日:2021-05-28 16:19:11 公開日:2021-05-27
# 早期学習の正規化による実世界の雑音データ分類

Using Early-Learning Regularization to Classify Real-World Noisy Data ( http://arxiv.org/abs/2105.13244v1 )

ライセンス: Link先を確認
Alessio Galatolo, Alfred Nilsson, Roderick Karlemstrand, Yineng Wang(参考訳) 記憶問題はコンピュータビジョンの分野でよく知られている。 liu et alの略。 ラベルノイズ発生時のCIFARデータセットの精度を向上させる早期学習規則化手法を提案する。 このプロジェクトは実験を再現し、本質的なノイズを伴う実世界のデータセットのパフォーマンスを調査する。 その結果,実験結果が一致した。 また、sgdに加えてシャープネス対応の最小化も検討し、さらに14.6ポイント改善が見られた。 今後の作業には、600万の画像すべてを使用し、手動で画像の一部をクリーニングして、転写学習モデルを微調整することが含まれる。 最後に、テストのためにクリーンなデータにアクセスすることで、精度の測定も向上します。

The memorization problem is well-known in the field of computer vision. Liu et al. propose a technique called Early-Learning Regularization, which improves accuracy on the CIFAR datasets when label noise is present. This project replicates their experiments and investigates the performance on a real-world dataset with intrinsic noise. Results show that their experimental results are consistent. We also explore Sharpness-Aware Minimization in addition to SGD and observed a further 14.6 percentage points improvement. Future work includes using all 6 million images and manually clean a fraction of the images to fine-tune a transfer learning model. Last but not the least, having access to clean data for testing would also improve the measurement of accuracy.
翻訳日:2021-05-28 16:18:42 公開日:2021-05-27
# 共同表現学習とオンラインクラスタリングによる教師なしアクティビティセグメンテーション

Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering ( http://arxiv.org/abs/2105.13353v1 )

ライセンス: Link先を確認
Sateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,ビデオフレームクラスタリングをプリテキストタスクとして使用し,表現学習とオンラインクラスタリングを同時に行う,教師なしアクティビティセグメンテーションのための新しいアプローチを提案する。 これは、表現学習とオンラインクラスタリングが連続的に実行される従来の作業とは対照的である。 我々は時間的最適輸送と時間的コヒーレンス損失を利用してビデオの時間的情報を活用する。 特に、時間的正規化項を標準最適輸送モジュールに組み込むことにより、アクティビティの時間的順序を保ち、擬似ラベルクラスタ割り当てを計算する時間的最適輸送モジュールが得られる。 次に、時間的コヒーレンス損失により、隣接するビデオフレームを近くのポイントにマッピングし、遠方のビデオフレームを埋め込み空間内の遠く離れたポイントにマッピングする。 これら2つのコンポーネントの組み合わせは、教師なしアクティビティセグメンテーションの効果的な表現をもたらす。 さらに、従来の方法では、オフラインでクラスタ化する前にデータセット全体の学習機能を格納する必要がありますが、当社のアプローチでは、一度にひとつのミニバッチをオンライン形式で処理します。 3つの公開データセットの大規模な評価 50-Salads、YouTube Instructions、Breakfast、および私たちのデータセット、すなわちDesktop Assemblyは、メモリ制約が大幅に少ないにもかかわらず、これまでの教師なしアクティビティセグメンテーションの方法と同等かそれ以上のパフォーマンスを示す。

We present a novel approach for unsupervised activity segmentation, which uses video frame clustering as a pretext task and simultaneously performs representation learning and online clustering. This is in contrast with prior works where representation learning and online clustering are often performed sequentially. We leverage temporal information in videos by employing temporal optimal transport and temporal coherence loss. In particular, we incorporate a temporal regularization term into the standard optimal transport module, which preserves the temporal order of the activity, yielding the temporal optimal transport module for computing pseudo-label cluster assignments. Next, the temporal coherence loss encourages neighboring video frames to be mapped to nearby points while distant video frames are mapped to farther away points in the embedding space. The combination of these two components results in effective representations for unsupervised activity segmentation. Furthermore, previous methods require storing learned features for the entire dataset before clustering them in an offline manner, whereas our approach processes one mini-batch at a time in an online manner. Extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par or better than previous methods for unsupervised activity segmentation, despite having significantly less memory constraints.
翻訳日:2021-05-28 16:18:23 公開日:2021-05-27
# CoSQA:コード検索と質問回答のための2万以上のWebクエリ

CoSQA: 20,000+ Web Queries for Code Search and Question Answering ( http://arxiv.org/abs/2105.13239v1 )

ライセンス: Link先を確認
Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan(参考訳) 自然言語クエリが与えられたコードを見つけることは、ソフトウェア開発者の生産性に有効である。 クエリとコード間のセマンティックマッチングを改善するためには、より豊富な教師付きトレーニングリソースが必要になる。 これを改善するために、我々はCoSQAデータセットを導入し、20,604個の自然言語クエリとコードのためのラベルを含み、それぞれに少なくとも3人のアノテータがアノテートする。 さらに,coclrと呼ばれるコントラスト学習手法を導入して,クエリコードマッチングを強化し,より人工的に生成されたトレーニングインスタンスを実現するためのデータインテンサとして機能する。 CodeXGLUEを同じCodeBERTモデルで評価し、CoSQAのトレーニングにより、コード質問応答の精度が5.1%向上し、CoCLRの導入によりさらに10.5%向上したことを示す。

Finding codes given natural language query isb eneficial to the productivity of software developers. Future progress towards better semantic matching between query and code requires richer supervised training resources. To remedy this, we introduce the CoSQA dataset.It includes 20,604 labels for pairs of natural language queries and codes, each annotated by at least 3 human annotators. We further introduce a contrastive learning method dubbed CoCLR to enhance query-code matching, which works as a data augmenter to bring more artificially generated training instances. We show that evaluated on CodeXGLUE with the same CodeBERT model, training on CoSQA improves the accuracy of code question answering by 5.1%, and incorporating CoCLR brings a further improvement of 10.5%.
翻訳日:2021-05-28 16:17:18 公開日:2021-05-27
# ニューラルモデル学習のための探索空間

Search Spaces for Neural Model Training ( http://arxiv.org/abs/2105.12920v1 )

ライセンス: Link先を確認
Darko Stosic, Dusan Stosic(参考訳) 大きなニューラルモデルは、ディープラーニングができることの境界を押し広げている一方で、タスクの推論を実行するよりも、モデルのトレーニングにより多くの重みが必要になることが多い。 重みを加えることで、ニューラルネットワークモデルのトレーニングをより効果的にするための最適化(あるいはより広い検索空間)のための新しい経路を形成する追加の自由度が生まれます。 次に、検索スペースを拡張して、数十のディープラーニングワークロードで競合するスコアを獲得するスパースモデルをトレーニングする方法を示します。 彼らはまた、現在のハードウェアをターゲットにした構造に寛容であり、トレーニングと推論の加速のための道を開く。 私たちの研究は、現在使われている巨大なニューラルモデルを超えて研究を奨励します。

While larger neural models are pushing the boundaries of what deep learning can do, often more weights are needed to train models rather than to run inference for tasks. This paper seeks to understand this behavior using search spaces -- adding weights creates extra degrees of freedom that form new paths for optimization (or wider search spaces) rendering neural model training more effective. We then show how we can augment search spaces to train sparse models attaining competitive scores across dozens of deep learning workloads. They are also are tolerant of structures targeting current hardware, opening avenues for training and inference acceleration. Our work encourages research to explore beyond massive neural models being used today.
翻訳日:2021-05-28 16:16:56 公開日:2021-05-27
# Forward Kullback-Leibler Divergence Optimization による最適強化学習

Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization ( http://arxiv.org/abs/2105.12991v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 本稿では,強化学習(RL)を逆Kullback-Leibler(KL)分散最適化と解釈し,前方KL分散を用いた新しい最適化手法を提案する。 RL は当初、ポリシーの最適化を通じて間接的に戻りを最大化することを目的としていたが、Levin の最近の研究は、確率変数としての最適性を明確に考慮した異なる導出プロセスを提案している。 本稿では,この概念に従い,価値関数と政策の両方に対する従来の学習則を,最適性を含む逆kl発散を伴う最適化問題として定式化する。 KL分散の非対称性に着目して、前方KL分散を伴う新しい最適化問題を導出する。 注目すべきことに、このような新しい最適化問題は楽観的なRLと見なすことができる。 その楽観性は不確実性パラメータから変換されたハイパーパラメータによって直感的に特定される。 さらに、優先された体験リプレイや、学習を加速する適性トレースと統合された場合には、強化することができる。 この最適化がPybulletを用いた数値シミュレーションに与える影響を学習傾向から検討した。 その結果、適度な楽観主義は学習を加速し、より高い報酬を得た。 現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。

This paper addresses a new interpretation of reinforcement learning (RL) as reverse Kullback-Leibler (KL) divergence optimization, and derives a new optimization method using forward KL divergence. Although RL originally aims to maximize return indirectly through optimization of policy, the recent work by Levine has proposed a different derivation process with explicit consideration of optimality as stochastic variable. This paper follows this concept and formulates the traditional learning laws for both value function and policy as the optimization problems with reverse KL divergence including optimality. Focusing on the asymmetry of KL divergence, the new optimization problems with forward KL divergence are derived. Remarkably, such new optimization problems can be regarded as optimistic RL. That optimism is intuitively specified by a hyperparameter converted from an uncertainty parameter. In addition, it can be enhanced when it is integrated with prioritized experience replay and eligibility traces, both of which accelerate learning. The effects of this expected optimism was investigated through learning tendencies on numerical simulations using Pybullet. As a result, moderate optimism accelerated learning and yielded higher rewards. In a realistic robotic simulation, the proposed method with the moderate optimism outperformed one of the state-of-the-art RL method.
翻訳日:2021-05-28 16:16:38 公開日:2021-05-27
# DNNを用いたインスタンス依存ラベルノイズ遷移行列の推定

Estimating Instance-dependent Label-noise Transition Matrix using DNNs ( http://arxiv.org/abs/2105.13001v1 )

ライセンス: Link先を確認
Shuo Yang, Erkun Yang, Bo Han, Yang Liu, Min Xu, Gang Niu, Tongliang Liu(参考訳) ラベルノイズ学習では、行列が統計的に一貫性のある分類器を構築する上で重要な役割を果たすため、遷移行列の推定はホットな話題である。 従来、クリーン分布からノイズ分布(すなわちクリーンラベル遷移行列)への移行は、ノイズデータを用いてクリーンラベル分類法を学ぶために広く利用されてきた。 本稿では,ベイズ最適分布から雑音分布(ベイズラベル遷移行列)への遷移を直接モデル化し,ベイズ最適ラベル分類法を学習する。 ノイズデータのみを与えられた場合、クリーンラベル遷移行列またはベイズラベル遷移行列のいずれかを推定することは不適切である。 しかし好ましくは、ベイズ最適ラベルはクリーンラベルに比べて不確実性が低く、すなわちベイズ最適ラベルのクラス後方はワンホットベクターであり、クリーンラベルはそうではない。 これによりベイズラベル遷移行列を推定する2つの利点、すなわち (a) マイルドな条件下でベイズ最適ラベルの集合を理論的に回収することができる、 (b) 実現可能な解空間はずっと小さい。 この利点を生かして,深層ニューラルネットワークをパラメータ化することでベイズラベル遷移行列を推定し,より一般化され,分類性能が向上した。

In label-noise learning, estimating the transition matrix is a hot topic as the matrix plays an important role in building statistically consistent classifiers. Traditionally, the transition from clean distribution to noisy distribution (i.e., clean label transition matrix) has been widely exploited to learn a clean label classifier by employing the noisy data. Motivated by that classifiers mostly output Bayes optimal labels for prediction, in this paper, we study to directly model the transition from Bayes optimal distribution to noisy distribution (i.e., Bayes label transition matrix) and learn a Bayes optimal label classifier. Note that given only noisy data, it is ill-posed to estimate either the clean label transition matrix or the Bayes label transition matrix. But favorably, Bayes optimal labels are less uncertain compared with the clean labels, i.e., the class posteriors of Bayes optimal labels are one-hot vectors while those of clean labels are not. This enables two advantages to estimate the Bayes label transition matrix, i.e., (a) we could theoretically recover a set of Bayes optimal labels under mild conditions; (b) the feasible solution space is much smaller. By exploiting the advantages, we estimate the Bayes label transition matrix by employing a deep neural network in a parameterized way, leading to better generalization and superior classification performance.
翻訳日:2021-05-28 16:16:08 公開日:2021-05-27
# 順序パッシングにおける強化学習のためのパターン伝達学習

Pattern Transfer Learning for Reinforcement Learning in Order Dispatching ( http://arxiv.org/abs/2105.13218v1 )

ライセンス: Link先を確認
Runzhe Wan, Sheng Zhang, Chengchun Shi, Shikai Luo and Rui Song(参考訳) オーダーディスパッチは、ライドシェアリングプラットフォームの中心的な問題のひとつだ。 近年,価値に基づく強化学習アルゴリズムがこの問題に対して有望な性能を示している。 しかし、現実のアプリケーションでは、需要供給システムの非定常性は、異なる期間に生成されたデータを再利用して値関数を学習する上で困難をもたらす。 本研究では, ある状態の値の相対関係が, 様々な環境においてほぼ安定であるという事実から, 秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。 提案手法は, 一致ペナルティを組み込んだ値パターンを効率的に捕捉する。 提案手法の優れた性能は実験によって支持される。

Order dispatch is one of the central problems to ride-sharing platforms. Recently, value-based reinforcement learning algorithms have shown promising performance on this problem. However, in real-world applications, the non-stationarity of the demand-supply system poses challenges to re-utilizing data generated in different time periods to learn the value function. In this work, motivated by the fact that the relative relationship between the values of some states is largely stable across various environments, we propose a pattern transfer learning framework for value-based reinforcement learning in the order dispatch problem. Our method efficiently captures the value patterns by incorporating a concordance penalty. The superior performance of the proposed method is supported by experiments.
翻訳日:2021-05-28 16:15:29 公開日:2021-05-27
# 多目的ベイズ最適化における一段階選好

One Step Preference Elicitation in Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2105.13278v1 )

ライセンス: Link先を確認
Juan Ungredda, Mariapia Marchi, Teresa Montrone and Juergen Branke(参考訳) 評価に費用がかかる目的関数を持つ多目的最適化問題を考察する。 意思決定者(DM)は好ましくないため、標準的なアプローチはParetoフロントの近似を生成し、DMが生成した非支配的な設計から選択させることである。 しかし、特に評価可能な設計数が非常に限られている問題を評価するために、DMの未知の選好による真の最良の解は、たとえこれらの解が真にパレート最適であるとしても、見いだされる非支配解の小さなセットに含まれない。 我々は,多目的ベイズ最適化アルゴリズムを用いて,dmがアルゴリズムの終了直前の1回だけ,予測された連続パレートフロントから望ましい解を選択できるようにすることでこの問題に対処した。 これにより、アルゴリズムはdmの好みを理解し、より望ましいソリューションを特定する最後の試みを行うことができる。 我々はparegoを用いてそのアイデアを実証し、dmが最終的に単にソリューションを選ぶよりも、真のdmの好みの方がはるかに優れていることを実証的に示します。

We consider a multi-objective optimization problem with objective functions that are expensive to evaluate. The decision maker (DM) has unknown preferences, and so the standard approach is to generate an approximation of the Pareto front and let the DM choose from the generated non-dominated designs. However, especially for expensive to evaluate problems where the number of designs that can be evaluated is very limited, the true best solution according to the DM's unknown preferences is unlikely to be among the small set of non-dominated solutions found, even if these solutions are truly Pareto optimal. We address this issue by using a multi-objective Bayesian optimization algorithm and allowing the DM to select a preferred solution from a predicted continuous Pareto front just once before the end of the algorithm rather than selecting a solution after the end. This allows the algorithm to understand the DM's preferences and make a final attempt to identify a more preferred solution. We demonstrate the idea using ParEGO, and show empirically that the found solutions are significantly better in terms of true DM preferences than if the DM would simply pick a solution at the end.
翻訳日:2021-05-28 16:15:12 公開日:2021-05-27
# フェデレーションと継続学習のための概念ドリフトの検出と適応

Concept drift detection and adaptation for federated and continual learning ( http://arxiv.org/abs/2105.13309v1 )

ライセンス: Link先を確認
Fernando E. Casado, Dylan Lema, Marcos F. Criado, Roberto Iglesias, Carlos V. Regueiro, Sen\'en Barro(参考訳) スマートフォン、ウェアラブル、ロボットなどのスマートデバイスは、環境から大量のデータを収集することができる。 このデータは、機械学習モデルのトレーニングに適しており、その動作を大幅に改善することができるため、ユーザエクスペリエンスが向上する。 フェデレーション学習(Federated Learning)は、データプライバシを保持しながら、複数の分散デバイスが協調してディープラーニングモデルをトレーニングできる、若く人気のあるフレームワークである。 それでもこのアプローチは、データ分散が参加者間で識別できないシナリオや、時間とともに変化するシナリオに最適ではないかもしれない。 この分野ではまだほとんど研究が行われていないが、実生活ではこのような状況は極めて頻繁であり、継続的な学習と連合学習の両方に新たな課題をもたらす。 そこで本研究では,Concept-Drift-Aware Federated Averaging (CDA-FedAvg) と呼ばれる新しい手法を提案する。 提案手法はフェデレーション平均化法(federated averaging, fedavg)の拡張であり,概念ドリフト下での継続的な適応を実現する。 我々は、通常のFedAvgの弱点を実証的に証明し、CDA-FedAvgがこの種のシナリオでそれより優れていることを証明します。

Smart devices, such as smartphones, wearables, robots, and others, can collect vast amounts of data from their environment. This data is suitable for training machine learning models, which can significantly improve their behavior, and therefore, the user experience. Federated learning is a young and popular framework that allows multiple distributed devices to train deep learning models collaboratively while preserving data privacy. Nevertheless, this approach may not be optimal for scenarios where data distribution is non-identical among the participants or changes over time, causing what is known as concept drift. Little research has yet been done in this field, but this kind of situation is quite frequent in real life and poses new challenges to both continual and federated learning. Therefore, in this work, we present a new method, called Concept-Drift-Aware Federated Averaging (CDA-FedAvg). Our proposal is an extension of the most popular federated algorithm, Federated Averaging (FedAvg), enhancing it for continual adaptation under concept drift. We empirically demonstrate the weaknesses of regular FedAvg and prove that CDA-FedAvg outperforms it in this type of scenario.
翻訳日:2021-05-28 16:14:39 公開日:2021-05-27
# 強化学習における固有動機づけ

Adversarial Intrinsic Motivation for Reinforcement Learning ( http://arxiv.org/abs/2105.13345v1 )

ライセンス: Link先を確認
Ishan Durugkar, Mauricio Tec, Scott Niekum, Peter Stone(参考訳) 参照分布とのミスマッチを最小限に抑える目的関数による学習は、生成的モデリングや模倣学習に有用であることが示されている。 本稿では,政策の国家訪問分布と目標分布とのWasserstein-1距離の1つの目的が,強化学習(RL)タスクに有効に活用できるかどうかを検討する。 具体的には、理想化された(達成不可能な)目標分布が目標の全ての確率質量を持つ目標条件強化学習に焦点を当てる。 本稿では,マルコフ決定過程(MDPs)に特異的な準測度を導入し,この準測度の下では,その状態訪問分布から目標分布へのワッサーシュタイン-1距離を極力最小化する政策が,目標を達成するための政策であることを示す。 我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。 実験の結果, この報酬関数はMDPの遷移に対して円滑に変化し, エージェントの学習を支援することがわかった。 さらに,AIM と Hindsight Experience Replay (HER) を組み合わせることで,HER が目標状態の低い正の報酬と比べ,複数のシミュレーションロボットタスクにおいて,アルゴリズムが学習を著しく加速することを示す。

Learning with an objective function that seeks to minimize the mismatch with a reference distribution has been shown to be useful for generative modeling and imitation learning. In this paper, we investigate whether one such objective, the Wasserstein-1 distance between a policy's state visitation distribution and a target distribution, can be utilized effectively for reinforcement learning (RL) tasks. Specifically, this paper focuses on goal-conditioned reinforcement learning where the idealized (unachievable) target distribution has all the probability mass at the goal. We introduce a quasimetric specific to Markov Decision Processes (MDPs), and show that the policy that minimizes the Wasserstein-1 distance of its state visitation distribution to this target distribution under this quasimetric is the policy that reaches the goal in as few steps as possible. Our approach, termed Adversarial Intrinsic Motivation (AIM), estimates this Wasserstein-1 distance through its dual objective and uses it to compute a supplemental reward function. Our experiments show that this reward function changes smoothly with respect to transitions in the MDP and assists the agent in learning. Additionally, we combine AIM with Hindsight Experience Replay (HER) and show that the resulting algorithm accelerates learning significantly on several simulated robotics tasks when compared to HER with a sparse positive reward at the goal state.
翻訳日:2021-05-28 16:14:07 公開日:2021-05-27
# BSNN: バイスタブルニューロンを持つニューラルネットワークをスパイクするニューラルネットワークの高速かつより良い変換を目指す

BSNN: Towards Faster and Better Conversion of Artificial Neural Networks to Spiking Neural Networks with Bistable Neurons ( http://arxiv.org/abs/2105.12917v1 )

ライセンス: Link先を確認
Yang Li, Yi Zeng, Dongcheng Zhao(参考訳) spiking neural network(snn)は、離散的なバイナリイベントを通じて情報を計算し、通信する。 ニューロモルフィック・ハードウェアでは、ニューラルネットワーク(ann)よりも生物学的に有益でエネルギー効率が高いと考えられている。 しかし,不連続性や不連続性のため,SNNの訓練は比較的難しい課題である。 近年の成果は, ANN を SNN に変換することで, 優れた性能を実現している。 情報処理の違いにより、変換された深部SNNは通常、重大な性能損失と大きな遅延を被る。 本稿では,本研究の目的は,位相リードと位相ラグによる不活性化ニューロン(sin)のスパイク問題に対処する,新しいbistable spiking neural network(bsnn)を提案することである。 また、ResNet構造に基づくANNが変換されると、ショートカットパスの高速伝送により出力ニューロンの情報が不完全となる。 同期ニューロン(SN)を設計し,性能向上に寄与する。 実験結果から,提案手法は従来よりも1/4-1/10の時間ステップしか必要としなかった。 我々は、CIFAR-10(95.16% トップ-1)、CIFAR-100(78.12% トップ-1)、ImageNet(72.64% トップ-1)などの挑戦的なデータセットに対して、VGG16、ResNet20、ResNet34に対する最先端のANN-SNN変換を示す。

The spiking neural network (SNN) computes and communicates information through discrete binary events. It is considered more biologically plausible and more energy-efficient than artificial neural networks (ANN) in emerging neuromorphic hardware. However, due to the discontinuous and non-differentiable characteristics, training SNN is a relatively challenging task. Recent work has achieved essential progress on an excellent performance by converting ANN to SNN. Due to the difference in information processing, the converted deep SNN usually suffers serious performance loss and large time delay. In this paper, we analyze the reasons for the performance loss and propose a novel bistable spiking neural network (BSNN) that addresses the problem of spikes of inactivated neurons (SIN) caused by the phase lead and phase lag. Also, when ResNet structure-based ANNs are converted, the information of output neurons is incomplete due to the rapid transmission of the shortcut path. We design synchronous neurons (SN) to help efficiently improve performance. Experimental results show that the proposed method only needs 1/4-1/10 of the time steps compared to previous work to achieve nearly lossless conversion. We demonstrate state-of-the-art ANN-SNN conversion for VGG16, ResNet20, and ResNet34 on challenging datasets including CIFAR-10 (95.16% top-1), CIFAR-100 (78.12% top-1), and ImageNet (72.64% top-1).
翻訳日:2021-05-28 16:13:12 公開日:2021-05-27
# GANを用いた局所変動を用いた大規模ゲームレベルのハイブリッド符号化

Hybrid Encoding For Generating Large Scale Game Level Patterns With Local Variations Using a GAN ( http://arxiv.org/abs/2105.12960v1 )

ライセンス: Link先を確認
Jacob Schrum, Benjamin Capps, Kirby Steckel, Vanessa Volz, Sebastian Risi(参考訳) Generative Adversarial Networks (GAN) は進化的探索のための強力な間接的なジェノタイプ-フェノタイプマッピングであるが、制限がある。 特にgan出力は任意の次元にスケールせず、gan出力を結合的な全体に変換する明確な方法は存在せず、ゲームレベル生成のような多くの分野において有用である。 ゲームレベルは、しばしばいくつかのセグメントで構成され、しばしば直接または変化して、エンゲージメントパターンに編成される。 このようなパターンをコンポジションパターン生成ネットワーク(CPPN)で生成することができる。 具体的には、CPPN は遅延ベクトル GAN 入力を幾何学の関数として定義することができ、GAN によって出力されるレベルセグメントを完全なレベルに整理する方法を提供する。 しかし、潜在ベクトルの集まりはよりカオスレベルを生み出すために直接進化することもできる。 ここでは,まず cppn を進化させるが, 潜在ベクトルが後に進化することを可能にする新しいハイブリッドアプローチを提案し, 両者の利点を組み合わせる。 これらのアプローチはスーパーマリオブラザーズとゼルダの伝説で評価されている。 CPPNsは直接的に進化するレベルよりも、可能レベルの空間をよりよくカバーできることを示した。 ここでは、ハイブリッド手法は、どちらの手法も同等あるいは優れたQDスコアを達成できない領域をカバーすることができることを示す。

Generative Adversarial Networks (GANs) are a powerful indirect genotype-to-phenotype mapping for evolutionary search, but they have limitations. In particular, GAN output does not scale to arbitrary dimensions, and there is no obvious way to combine GAN outputs into a cohesive whole, which would be useful in many areas, such as video game level generation. Game levels often consist of several segments, sometimes repeated directly or with variation, organized into an engaging pattern. Such patterns can be produced with Compositional Pattern Producing Networks (CPPNs). Specifically, a CPPN can define latent vector GAN inputs as a function of geometry, which provides a way to organize level segments output by a GAN into a complete level. However, a collection of latent vectors can also be evolved directly, to produce more chaotic levels. Here, we propose a new hybrid approach that evolves CPPNs first, but allows the latent vectors to evolve later, and combines the benefits of both approaches. These approaches are evaluated in Super Mario Bros. and The Legend of Zelda. We previously demonstrated via divergent search (MAP-Elites) that CPPNs better cover the space of possible levels than directly evolved levels. Here, we show that the hybrid approach can cover areas that neither of the other methods can and achieves comparable or superior QD scores.
翻訳日:2021-05-28 16:12:29 公開日:2021-05-27
# 集合の代数とギャンブルのコヒーレント集合

Algebras of Sets and Coherent Sets of Gambles ( http://arxiv.org/abs/2105.12986v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 近年の研究では、一般可能性空間上で定義されるギャンブルのコヒーレント集合の情報代数を構築する方法が示されている。 ここでは、そのような代数と、ギャンブルが定義される可能性空間の部分集合と、その原子の集合の集合の成す代数の集合との接続を解析する。 集合代数はそれらの原型構造であるため、特に重要な情報代数である。 さらに、それらは古典命題論理の代数的対応である。 その結果、命題論理が不正確確率理論にどのように自然に埋め込まれているかについても述べる。

In a recent work we have shown how to construct an information algebra of coherent sets of gambles defined on general possibility spaces. Here we analyze the connection of such an algebra with the set algebra of subsets of the possibility space on which gambles are defined and the set algebra of sets of its atoms. Set algebras are particularly important information algebras since they are their prototypical structures. Furthermore, they are the algebraic counterparts of classical propositional logic. As a consequence, this paper also details how propositional logic is naturally embedded into the theory of imprecise probabilities.
翻訳日:2021-05-28 16:11:51 公開日:2021-05-27
# 文書検索のためのグラフ駆動生成モデルと意味論と近傍情報の統合

Integrating Semantics and Neighborhood Information with Graph-Driven Generative Models for Document Retrieval ( http://arxiv.org/abs/2105.13066v1 )

ライセンス: Link先を確認
Zijing Ou, Qinliang Su, Jianxing Yu, Bang Liu, Jingwen Wang, Ruihui Zhao, Changyou Chen and Yefeng Zheng(参考訳) 高速な検索速度とメモリフットプリントの必要性から,ドキュメントハッシュは大規模情報検索において重要な役割を担っている。 高品質なハッシュコードを生成するには、セマンティクスと近所の情報の両方が不可欠である。 しかしながら、既存のほとんどのメソッドは、その1つしか利用していないか、直感的な基準で組み合わせているだけで、統合プロセスを導く理論的原理が欠如している。 本稿では,近傍情報をグラフ誘導ガウス分布にエンコードし,これら2種類の情報をグラフ駆動生成モデルと統合することを提案する。 さらに,文書間の複雑な相関に対処するために,木構造近似による学習法を提案する。 この近似の下では、トレーニング対象がシングルトンまたはペアワイズドキュメントのみを含む用語に分解可能であることを証明し、モデルが非相関文書と同じくらい効率的にトレーニングできることを示す。 3つのベンチマークデータセットの広範な実験結果から,本手法は最先端手法よりも優れた性能を達成でき,提案手法の有効性が実証された。

With the need of fast retrieval speed and small memory footprint, document hashing has been playing a crucial role in large-scale information retrieval. To generate high-quality hashing code, both semantics and neighborhood information are crucial. However, most existing methods leverage only one of them or simply combine them via some intuitive criteria, lacking a theoretical principle to guide the integration process. In this paper, we encode the neighborhood information with a graph-induced Gaussian distribution, and propose to integrate the two types of information with a graph-driven generative model. To deal with the complicated correlations among documents, we further propose a tree-structured approximation method for learning. Under the approximation, we prove that the training objective can be decomposed into terms involving only singleton or pairwise documents, enabling the model to be trained as efficiently as uncorrelated ones. Extensive experimental results on three benchmark datasets show that our method achieves superior performance over state-of-the-art methods, demonstrating the effectiveness of the proposed model for simultaneously preserving semantic and neighborhood information.\
翻訳日:2021-05-28 16:11:36 公開日:2021-05-27
# 制度分析・開発枠組みの計算モデル

A Computational Model of the Institutional Analysis and Development Framework ( http://arxiv.org/abs/2105.13151v1 )

ライセンス: Link先を確認
Nieves Montes(参考訳) Institutional Analysis and Development (IAD) フレームワークは、エリナー・オストロムらによって提唱された概念的ツールボックスであり、多種多様な人間の相互作用を構成する普遍的な共通変数を識別し、記述することを目的としている。 このフレームワークは、ルールをインタラクションの構造を決定するコアコンセプトの1つとして定義し、コミュニティをより有益で社会的に望ましい結果へと導く可能性を認識している。 この研究は、IADフレームワークを計算モデルに転換し、エージェントのコミュニティが与えられたルール構成に対してWhat-if分析を正式に実行できるようにする最初の試みである。 そのために私たちは、iadフレームワークのコンポーネントに厳格にカスタマイズされた構文を持つアクション状況言語 -- あるいはasl -- を定義し、社会的インタラクションの記述を書くために使用します。 ASLはゲームエンジンによって補完され、そのセマンティクスを広義のゲームとして生成する。 これらのモデルはゲーム理論の標準的なツールを用いて分析し、どの結果が最もインセンティブ付けされているかを予測し、社会的に関係のある性質に基づいて評価することができる。

The Institutional Analysis and Development (IAD) framework is a conceptual toolbox put forward by Elinor Ostrom and colleagues in an effort to identify and delineate the universal common variables that structure the immense variety of human interactions. The framework identifies rules as one of the core concepts to determine the structure of interactions, and acknowledges their potential to steer a community towards more beneficial and socially desirable outcomes. This work presents the first attempt to turn the IAD framework into a computational model to allow communities of agents to formally perform what-if analysis on a given rule configuration. To do so, we define the Action Situation Language -- or ASL -- whose syntax is hgighly tailored to the components of the IAD framework and that we use to write descriptions of social interactions. ASL is complemented by a game engine that generates its semantics as an extensive-form game. These models, then, can be analyzed with the standard tools of game theory to predict which outcomes are being most incentivized, and evaluated according to their socially relevant properties.
翻訳日:2021-05-28 16:11:06 公開日:2021-05-27
# メールパターン分析によるトップパフォーマーの検索

Finding top performers through email patterns analysis ( http://arxiv.org/abs/2105.13025v1 )

ライセンス: Link先を確認
Q. Wen, P. A. Gloor, A. Fronzetti Colladon, P. Tickoo, T. Joshi(参考訳) 情報経済では、個人の仕事のパフォーマンスはデジタルコミュニケーション戦略と密接に関連している。 本研究は,ソーシャル・ネットワークと意味分析を組み合わせることで,メール・コミュニケーションに基づいてトップ・パフォーマーを識別する手法を開発した。 既存の文献をレビューすることで,メール通信を定量化する指標を測定可能な次元に同定した。 提案指標の予測力を実証的に検証するため,国際サービス会社で578人の幹部の200万通のメールアーカイブを収集した。 パネル回帰はメール指標とトップパフォーマンスの解釈可能な関連を導出するために用いられた。 その結果、トップパフォーマーは中央ネットワークの位置を仮定し、メールに対する応答性が高い傾向が示唆された。 メールの内容では、トップパフォーマーはよりポジティブで複雑な言語を使い、感情は低いが、おそらく同僚によって再利用される影響力のある言葉が豊富である。 メールインジケータの予測能力をよりよく調査するため、AdaBoostの機械学習モデルを用いて、トップパフォーマーを特定する精度を83.56%向上させた。 さらに,クラスタ分析により,トップパフォーマー,中央ネットワークポジションの"ネットワーク",影響力のあるアイデアの"インフルエンサー",ポジティブな感情を持った"ポジティビスト"の3つのカテゴリを見出した。 以上の結果から,トップパフォーマーはメールコミュニケーションの特有なパターンを持ち,理論上は電子メールコミュニケーション能力の基盤となっていることが示唆された。 提案手法はまた,個々の通信スタイルの異なるタイプを評価するためのツールも提供する。

In the information economy, individuals' work performance is closely associated with their digital communication strategies. This study combines social network and semantic analysis to develop a method to identify top performers based on email communication. By reviewing existing literature, we identified the indicators that quantify email communication into measurable dimensions. To empirically examine the predictive power of the proposed indicators, we collected 2 million email archive of 578 executives in an international service company. Panel regression was employed to derive interpretable association between email indicators and top performance. The results suggest that top performers tend to assume central network positions and have high responsiveness to emails. In email contents, top performers use more positive and complex language, with low emotionality, but rich in influential words that are probably reused by co-workers. To better explore the predictive power of the email indicators, we employed AdaBoost machine learning models, which achieved 83.56% accuracy in identifying top performers. With cluster analysis, we further find three categories of top performers, "networkers" with central network positions, "influencers" with influential ideas and "positivists" with positive sentiments. The findings suggest that top performers have distinctive email communication patterns, laying the foundation for grounding email communication competence in theory. The proposed email analysis method also provides a tool to evaluate the different types of individual communication styles.
翻訳日:2021-05-28 16:10:03 公開日:2021-05-27
# 差分プライベートデンセストサブグラフ検出

Differentially Private Densest Subgraph Detection ( http://arxiv.org/abs/2105.13287v1 )

ライセンス: Link先を確認
Dung Nguyen and Anil Vullikanti(参考訳) デンセスト部分グラフ検出は基礎的なグラフマイニング問題であり、多くの応用がある。 大規模ネットワークにおける最も密集した部分グラフを見つけるための効率的なアルゴリズムには多くの研究があった。 しかし、多くのドメインでは、ネットワークはプライベートであり、最も密度の高いサブグラフを返すと、ネットワークに関する情報が明らかになる。 差分プライバシーはそのような設定を扱うための強力なフレームワークである。 本稿では,グラフのエッジがプライベートなエッジプライバシモデルにおいて,最も密度の高いサブグラフ問題について検討する。 この問題に対する最初の逐次および並列微分プライベートアルゴリズムを提案する。 我々は,アルゴリズムが付加近似を保証することを示す。 我々は,本アルゴリズムを多数の実世界のネットワーク上で評価し,ネットワークの密度が高い場合に適切なプライバシーと精度のトレードオフを観測する。

Densest subgraph detection is a fundamental graph mining problem, with a large number of applications. There has been a lot of work on efficient algorithms for finding the densest subgraph in massive networks. However, in many domains, the network is private, and returning a densest subgraph can reveal information about the network. Differential privacy is a powerful framework to handle such settings. We study the densest subgraph problem in the edge privacy model, in which the edges of the graph are private. We present the first sequential and parallel differentially private algorithms for this problem. We show that our algorithms have an additive approximation guarantee. We evaluate our algorithms on a large number of real-world networks, and observe a good privacy-accuracy tradeoff when the network has high density.
翻訳日:2021-05-28 16:09:23 公開日:2021-05-27
# マルチスケール勾配U-Netを用いた高分解能画像変換

Efficient High-Resolution Image-to-Image Translation using Multi-Scale Gradient U-Net ( http://arxiv.org/abs/2105.13067v1 )

ライセンス: Link先を確認
Kumarapu Laxman, Shiv Ram Dubey, Baddam Kalyan, and Satya Raj Vineel Kojjarapu(参考訳) 近年,条件付き生成型adversarial network (conditional gan) は,画像から画像への翻訳において非常に有望な性能を示している。 しかし、これらの条件付きGANは256X256などの低解像度画像に限られており、Pix2Pix-HDは高解像度画像合成に条件付きGANを利用する最近の試みである。 本稿では,2048X1024解像度までの高解像度画像変換のためのマルチスケールグラディエントベースU-Net(MSG U-Net)モデルを提案する。 提案モデルでは,複数の判別器から複数スケールの1つの発電機へ勾配を流すことができる。 提案したMSG U-Netアーキテクチャは、フォトリアリスティックな高解像度画像から画像への変換をもたらす。 さらに,提案手法はPix2Pix-HDに比較して計算効率が良く,推定時間を2.5倍近く改善する。 https://github.com/laxmaniron/MSG-U-NetでMSG U-Netモデルのコードを提供する。

Recently, Conditional Generative Adversarial Network (Conditional GAN) have shown very promising performance in several image-to-image translation applications. However, the uses of these conditional GANs are quite limited to low-resolution images, such as 256X256.The Pix2Pix-HD is a recent attempt to utilize the conditional GAN for high-resolution image synthesis. In this paper, we propose a Multi-Scale Gradient based U-Net (MSG U-Net) model for high-resolution image-to-image translation up to 2048X1024 resolution. The proposed model is trained by allowing the flow of gradients from multiple-discriminators to a single generator at multiple scales. The proposed MSG U-Net architecture leads to photo-realistic high-resolution image-to-image translation. Moreover, the proposed model is computationally efficient as com-pared to the Pix2Pix-HD with an improvement in the inference time nearly by 2.5 times. We provide the code of MSG U-Net model at https://github.com/laxmaniron/MSG-U-Net.
翻訳日:2021-05-28 16:08:50 公開日:2021-05-27
# HDRUNet: Denoising and Dequantizationによる単一画像HDR再構成

HDRUNet: Single Image HDR Reconstruction with Denoising and Dequantization ( http://arxiv.org/abs/2105.13084v1 )

ライセンス: Link先を確認
Xiangyu Chen, Yihao Liu, Zhengwen Zhang, Yu Qiao and Chao Dong(参考訳) ほとんどのコンシューマグレードのデジタルカメラは、センサーの制約により現実世界のシーンで限られた輝度しか撮影できない。 また、撮像過程でノイズや量子化誤差がしばしば導入される。 視覚的品質の優れた高ダイナミックレンジ(HDR)画像を得るために、最も一般的な解決策は複数の画像と異なる露出を組み合わせることである。 しかし、同一シーンの複数の画像を取得することは必ずしも不可能であり、ほとんどのHDR再構成手法はノイズや量子化損失を無視している。 本研究では,空間的にダイナミックなエンコーダデコーダネットワークであるHDRUNetを用いた新しい学習手法を提案する。 ネットワークは、階層的マルチスケール情報をフル活用するunetスタイルのベースネットワークと、パターン固有の変調を行う条件ネットワークと、情報を選択的に保持する重み付けネットワークとからなる。 さらに,ネットワーク学習における過剰な値と良好な値の影響をバランスさせるために,tanh_l1損失関数を提案する。 本手法は定量的比較と視覚的品質において最先端の性能を実現する。 提案されたHDRUNetモデルは、NITRE2021 High Dynamic Range Challengeの1フレームトラックで2位を獲得した。

Most consumer-grade digital cameras can only capture a limited range of luminance in real-world scenes due to sensor constraints. Besides, noise and quantization errors are often introduced in the imaging process. In order to obtain high dynamic range (HDR) images with excellent visual quality, the most common solution is to combine multiple images with different exposures. However, it is not always feasible to obtain multiple images of the same scene and most HDR reconstruction methods ignore the noise and quantization loss. In this work, we propose a novel learning-based approach using a spatially dynamic encoder-decoder network, HDRUNet, to learn an end-to-end mapping for single image HDR reconstruction with denoising and dequantization. The network consists of a UNet-style base network to make full use of the hierarchical multi-scale information, a condition network to perform pattern-specific modulation and a weighting network for selectively retaining information. Moreover, we propose a Tanh_L1 loss function to balance the impact of over-exposed values and well-exposed values on the network learning. Our method achieves the state-of-the-art performance in quantitative comparisons and visual quality. The proposed HDRUNet model won the second place in the single frame track of NITRE2021 High Dynamic Range Challenge.
翻訳日:2021-05-28 16:08:27 公開日:2021-05-27
# 夜間の車両検出のためのデータセット

A Dataset for Provident Vehicle Detection at Night ( http://arxiv.org/abs/2105.13236v1 )

ライセンス: Link先を確認
Sascha Saralajew and Lars Ohnemus and Lukas Ewecker and Ebubekir Asan and Simon Isele and Stefan Roos(参考訳) 現在のオブジェクト検出では、アルゴリズムは検出するために直接オブジェクトを見えるようにする必要がある。 しかし、人間として、私たちはそれぞれの物体によって引き起こされる視覚的手がかりを直感的に使い、その外観について既に仮定している。 運転の文脈では、そのような手がかりは日中の影であり、夜の光の反射であることが多い。 本稿では,この直感的な人間の行動をコンピュータビジョンアルゴリズムにマッピングして,夜間に出現する車両をヘッドライトによって引き起こされる光反射から検出する方法について議論する。 そこで我々は,夜間の農村環境における346の異なるシーンのうち,59746の注釈付きグレースケール画像を含む大規模なオープンソースデータセットを提案する。 これらの画像では、すべての対向車、対応する光オブジェクト(例えばヘッドランプ)、およびそれぞれの光反射(例えばガードレールの光反射)がラベル付けされている。 本稿では,このデータセットの特徴と,光反射などの視覚的手がかりを客観的に記述する上での課題について論じる。 タスクにアプローチするためのさまざまなメトリクスを提供し、最初のベンチマークとして最先端およびカスタムオブジェクト検出モデルを使用して達成した結果を報告します。 これにより、これまで無視されていたコンピュータビジョン研究の分野に注意を向け、より多くの研究者にこの問題に取り組むように促し、その結果、人間のパフォーマンスとコンピュータビジョンシステムの間のギャップをさらに縮めたいと考えています。

In current object detection, algorithms require the object to be directly visible in order to be detected. As humans, however, we intuitively use visual cues caused by the respective object to already make assumptions about its appearance. In the context of driving, such cues can be shadows during the day and often light reflections at night. In this paper, we study the problem of how to map this intuitive human behavior to computer vision algorithms to detect oncoming vehicles at night just from the light reflections they cause by their headlights. For that, we present an extensive open-source dataset containing 59746 annotated grayscale images out of 346 different scenes in a rural environment at night. In these images, all oncoming vehicles, their corresponding light objects (e.g., headlamps), and their respective light reflections (e.g., light reflections on guardrails) are labeled. In this context, we discuss the characteristics of the dataset and the challenges in objectively describing visual cues such as light reflections. We provide different metrics for different ways to approach the task and report the results we achieved using state-of-the-art and custom object detection models as a first benchmark. With that, we want to bring attention to a new and so far neglected field in computer vision research, encourage more researchers to tackle the problem, and thereby further close the gap between human performance and computer vision systems.
翻訳日:2021-05-28 16:07:53 公開日:2021-05-27
# 物体検出タスクのための動的ネットワーク選択:なぜそれが重要で何が達成できないのか

Dynamic Network selection for the Object Detection task: why it matters and what we (didn't) achieve ( http://arxiv.org/abs/2105.13279v1 )

ライセンス: Link先を確認
Emanuele Vitali and Anton Lokhmotov and Gianluca Palermo(参考訳) 本稿では,Deep Neural Network(DNN)コンテキストにおける推論プロセスに対する動的オートチューニングアプローチの潜在的なメリットを示し,オブジェクト検出の課題に対処する。 我々は、よく知られたCOCO 17データベースの最適検出器を見つけるために、異なるニューラルネットワークをベンチマークした。 これは、最も適切なネットワークを評価し、選択するための指標としてソリューションの時間も考慮すれば、さらに明確になります。 これにより、実行時の要求に応じて、異なるオブジェクト検出ネットワーク間で適応的手法を切り替える可能性を開く(例えば、)。 最大品質は解法までの時間制約)。 さらに, アドホックオラクルの開発により, 追加のプロアクティブな手法によりさらに大きなメリットが得られ, 処理された画像の特徴を考慮し, 利用可能なものの中から最適なネットワークを選択できることを実証した。 この手法を利用するには、最も有望なネットワーク上で決定を下すために使用できるいくつかの画像特徴を特定する必要がある。 最適化の機会が特定されたにもかかわらず、この試みが古典的な画像機能やdnn分類器を使わずに検証できる予測子関数は特定できなかった。

In this paper, we want to show the potential benefit of a dynamic auto-tuning approach for the inference process in the Deep Neural Network (DNN) context, tackling the object detection challenge. We benchmarked different neural networks to find the optimal detector for the well-known COCO 17 database, and we demonstrate that even if we only consider the quality of the prediction there is not a single optimal network. This is even more evident if we also consider the time to solution as a metric to evaluate, and then select, the most suitable network. This opens to the possibility for an adaptive methodology to switch among different object detection networks according to run-time requirements (e.g. maximum quality subject to a time-to-solution constraint). Moreover, we demonstrated by developing an ad hoc oracle, that an additional proactive methodology could provide even greater benefits, allowing us to select the best network among the available ones given some characteristics of the processed image. To exploit this method, we need to identify some image features that can be used to steer the decision on the most promising network. Despite the optimization opportunity that has been identified, we were not able to identify a predictor function that validates this attempt neither adopting classical image features nor by using a DNN classifier.
翻訳日:2021-05-28 16:07:16 公開日:2021-05-27
# ガウス帯域のベストアーム同定に対する非漸近的アプローチ

A Non-asymptotic Approach to Best-Arm Identification for Gaussian Bandits ( http://arxiv.org/abs/2105.12978v1 )

ライセンス: Link先を確認
Antoine Barrier (UMPA-ENSL, LMO), Aur\'elien Garivier (UMPA-ENSL), Tom\'a\v{s} Koc\'ak (UMPA-ENSL)(参考訳) 有界な手段と単位分散を持つガウス変数の信頼度を固定した最良アーム識別のための新しい戦略を提案する。 探索バイアスサンプリングと呼ばれるこの戦略は漸近的に最適であるだけでなく、高い確率で生じる非漸近境界も証明する。 私たちの知る限りでは、このような保証を持つ最初の戦略です。 探索バイアスサンプリング(Exploration-Biased Smpling)は、微妙だが自然な方法で探索を好んでおり、より安定し、解釈しやすくしています。 これらの改善は、より高速な数値解法と高利害関係にあるいくつかの定量正則性結果をもたらすサンプル複雑性最適化問題の新たな解析によって可能となる。

We propose a new strategy for best-arm identification with fixed confidence of Gaussian variables with bounded means and unit variance. This strategy called Exploration-Biased Sampling is not only asymptotically optimal: we also prove non-asymptotic bounds occurring with high probability. To the best of our knowledge, this is the first strategy with such guarantees. But the main advantage over other algorithms like Track-and-Stop is an improved behavior regarding exploration: Exploration-Biased Sampling is slightly biased in favor of exploration in a subtle but natural way that makes it more stable and interpretable. These improvements are allowed by a new analysis of the sample complexity optimization problem, which yields a faster numerical resolution scheme and several quantitative regularity results that we believe of high independent interest.
翻訳日:2021-05-28 16:06:39 公開日:2021-05-27
# クエリによる整数ハイパーキューブの学習連合(技術報告)

Learning Union of Integer Hypercubes with Queries (Technical Report) ( http://arxiv.org/abs/2105.13071v1 )

ライセンス: Link先を確認
Oliver Markgraf, Daniel Stan, and Anthony W. Lin(参考訳) 我々は、d次元整数格子(つまり、エッジが座標軸に平行な)上の整数(軸方向の)ハイパーキューブの有限和を求める問題を研究する。 これは、矩形学習の計算学習理論における古典問題の自然な一般化である。 最小限の適切な教師(すなわち教師)にアクセスできる学習アルゴリズムを提供する。 多項式時間において、任意の固定次元 d に対してこの問題を解決する会員と等価オラクル) 非固定次元では、問題は DNF ブール式を学習する問題を仮定する。 また、連合における無限のハイパーキューブを扱うための拡張や、サブセットクエリが実際に学習アルゴリズムの性能をどのように改善するかを示した。 この問題は、近年活発に研究されている量化子なし整数線形算術公式のモナディック分解問題への自然な応用がある。 特に、整数超キューブの有限和は、(モジュラー制約なしで)整数線型算術上のモナディック述語有限和に対応する。 我々の実験は、学習アルゴリズムが既存のアルゴリズムを大きく上回っていることを示唆している。

We study the problem of learning a finite union of integer (axis-aligned) hypercubes over the d-dimensional integer lattice, i.e., whose edges are parallel to the coordinate axes. This is a natural generalization of the classic problem in the computational learning theory of learning rectangles. We provide a learning algorithm with access to a minimally adequate teacher (i.e. membership and equivalence oracles) that solves this problem in polynomial-time, for any fixed dimension d. Over a non-fixed dimension, the problem subsumes the problem of learning DNF boolean formulas, a central open problem in the field. We have also provided extensions to handle infinite hypercubes in the union, as well as showing how subset queries could improve the performance of the learning algorithm in practice. Our problem has a natural application to the problem of monadic decomposition of quantifier-free integer linear arithmetic formulas, which has been actively studied in recent years. In particular, a finite union of integer hypercubes correspond to a finite disjunction of monadic predicates over integer linear arithmetic (without modulo constraints). Our experiments suggest that our learning algorithms substantially outperform the existing algorithms.
翻訳日:2021-05-28 16:04:53 公開日:2021-05-27
# 個人データリリースのための因果的制約付きデータ合成

Causally Constrained Data Synthesis for Private Data Release ( http://arxiv.org/abs/2105.13144v1 )

ライセンス: Link先を確認
Varun Chandrasekaran, Darren Edge, Somesh Jha, Amit Sharma, Cheng Zhang, Shruti Tople(参考訳) 証拠に基づく意思決定にはデータが必要だ。 しかし、現実世界のアプリケーションでは、データのプライバシーが重要です。 原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。 この目的のために、プリエントワークは、形式的なプライバシー保証を提供するために、差分プライベートなデータリリースメカニズムを使用する。 しかし、そのようなメカニズムは、プライバシーとユーティリティのトレードオフを容認できない。 上記のトレードオフを好適に修正するために,トレーニングプロセスに因果情報を統合することを提案する。 理論的には、さらなる因果知識で訓練された生成モデルは、より強力な差分プライバシー保証を提供する。 実験により,変分オートエンコーダ(VAE)に基づいて異なるモデルを比較した結果,因果的情報によるレジリエンスの向上,および下流ユーティリティの向上が得られた。

Making evidence based decisions requires data. However for real-world applications, the privacy of data is critical. Using synthetic data which reflects certain statistical properties of the original data preserves the privacy of the original data. To this end, prior works utilize differentially private data release mechanisms to provide formal privacy guarantees. However, such mechanisms have unacceptable privacy vs. utility trade-offs. We propose incorporating causal information into the training process to favorably modify the aforementioned trade-off. We theoretically prove that generative models trained with additional causal knowledge provide stronger differential privacy guarantees. Empirically, we evaluate our solution comparing different models based on variational auto-encoders (VAEs), and show that causal information improves resilience to membership inference, with improvements in downstream utility.
翻訳日:2021-05-28 16:03:25 公開日:2021-05-27
# 最適化誘起平衡ネットワーク

Optimization Induced Equilibrium Networks ( http://arxiv.org/abs/2105.13228v1 )

ライセンス: Link先を確認
Xingyu Xie, Qiuhao Wang, Zenan Ling, Xia Li, Yisen Wang, Guangcan Liu, Zhouchen Lin(参考訳) 暗黙の方程式によって定義されるディープニューラルネットワーク(DNN)のような暗黙の平衡モデルは最近ますます魅力的になりつつある。 本稿では,モデルの平衡点を最適化問題の解として捉えることができるかという疑問について検討する。 具体的には、まずDNNを暗黙の凸関数の微分である新しい単位層に分解し、出力を一定に保つ。 次に、単位層の平衡モデルを導出し、最適化誘起平衡ネットワーク(OptEq)と名付け、深層に容易に拡張できる。 OptEq の平衡点は、その対応する凸最適化問題の解と明確な目的によって理論的に関連付けられる。 これに基づいて, 1) 基礎となる凸問題を, opteq のアーキテクチャを変更するために明示的に修正する, 2) 固定点反復に情報をマージする, 固定点集合が非シングルトンであるときに所望の平衡を選択することを保証する, といった, 平衡点に対する事前特性を柔軟に導入することができる。 この研究は深層モデルの最適化に向けた重要な第一歩を定めている。

Implicit equilibrium models, i.e., deep neural networks (DNNs) defined by implicit equations, have been becoming more and more attractive recently. In this paper, we investigate one emerging question if model's equilibrium point can be regarded as the solution of an optimization problem. Specifically, we first decompose DNNs into a new class of unit layer that is differential of an implicit convex function while keeping its output unchanged. Then, the equilibrium model of the unit layer can be derived, named Optimization Induced Equilibrium Networks (OptEq), which can be easily extended to deep layers. The equilibrium point of OptEq can be theoretically connected to the solution of its corresponding convex optimization problem with explicit objectives. Based on this, we can flexibly introduce prior properties to the equilibrium points: 1) modifying the underlying convex problems explicitly so as to change the architectures of OptEq; and 2) merging the information into the fixed point iteration, which guarantees to choose the desired equilibrium when the fixed point set is non-singleton. This work establishes an important first step towards optimization guided design of deep models.
翻訳日:2021-05-28 16:02:37 公開日:2021-05-27
# opreg-boost:オペレータ回帰によるオンラインアルゴリズムの高速化

OpReg-Boost: Learning to Accelerate Online Algorithms with Operator Regression ( http://arxiv.org/abs/2105.13271v1 )

ライセンス: Link先を確認
Nicola Bastianello, Andrea Simonetto, Emiliano Dall'Anese(参考訳) 本稿では,オンライン最適化と学習アルゴリズムの漸近誤差を低減するために,新たな正規化手法であるOpsReg-Boostを提案する。 特に,時間的(弱く)凸複合コストを伴う最適化問題に対するオンラインアルゴリズムについて考察する。 与えられたオンラインアルゴリズムに対して、OpReg-Boostは線形収束をもたらす最も近いアルゴリズムマップを学習する。 演算子回帰問題を定式化する方法を示し,単純な二次制約付き二次プログラム (qcqps) の閉形式解法を利用する計算効率の高いpeaceman-rachfordソルバを提案する。 シミュレーション結果はopreg-boost w.r.t.の優れた特性を示す。 より古典的なフォワード・バックワードアルゴリズムであるFISTAとアンダーソン・アクセラレーションは、その近接相対凸-回帰-ブースト(CvxReg-Boost)に関して、これも新しいが性能は低い。

This paper presents a new regularization approach -- termed OpReg-Boost -- to boost the convergence and lessen the asymptotic error of online optimization and learning algorithms. In particular, the paper considers online algorithms for optimization problems with a time-varying (weakly) convex composite cost. For a given online algorithm, OpReg-Boost learns the closest algorithmic map that yields linear convergence; to this end, the learning procedure hinges on the concept of operator regression. We show how to formalize the operator regression problem and propose a computationally-efficient Peaceman-Rachford solver that exploits a closed-form solution of simple quadratically-constrained quadratic programs (QCQPs). Simulation results showcase the superior properties of OpReg-Boost w.r.t. the more classical forward-backward algorithm, FISTA, and Anderson acceleration, and with respect to its close relative convex-regression-boost (CvxReg-Boost) which is also novel but less performing.
翻訳日:2021-05-28 16:02:06 公開日:2021-05-27
# 過パラメータシミュレーションモデルの校正:適性セットによる枠組み

Calibrating Over-Parametrized Simulation Models: A Framework via Eligibility Set ( http://arxiv.org/abs/2105.12893v1 )

ライセンス: Link先を確認
Yuanlu Bai and Tucker Balch and Haoxian Chen and Danial Dervovic and Henry Lam and Svitlana Vyetrenko(参考訳) 確率シュミレーションは解析性に欠ける複雑なモデルの出力性能を計算することを目的としている。 正確な予測を保証するためには、モデルを校正し、実際のデータに対して検証する必要がある。 従来の手法では、単純な仮説テストや距離最小化によるモデルデータマッチングをアドホックな方法で評価するが、非識別性と高次元から生じる課題に直面することがある。 本稿では,厳密な頻度主義的統計保証を満たすキャリブレーションスキームを開発するための枠組みを,集合ベース推定による非識別性をバイパスするように設計された適性セットと呼ぶ基本的な概念を用いて検討する。 多変量出力で対象とするこれらの集合を構成するための特徴抽出-理論集約手法について検討する。 本稿では,制限順序ブックマーケットシミュレータ (ABIDES) の校正など,いくつかの数値例で方法論を実証する。

Stochastic simulation aims to compute output performance for complex models that lack analytical tractability. To ensure accurate prediction, the model needs to be calibrated and validated against real data. Conventional methods approach these tasks by assessing the model-data match via simple hypothesis tests or distance minimization in an ad hoc fashion, but they can encounter challenges arising from non-identifiability and high dimensionality. In this paper, we investigate a framework to develop calibration schemes that satisfy rigorous frequentist statistical guarantees, via a basic notion that we call eligibility set designed to bypass non-identifiability via a set-based estimation. We investigate a feature extraction-then-aggregation approach to construct these sets that target at multivariate outputs. We demonstrate our methodology on several numerical examples, including an application to calibration of a limit order book market simulator (ABIDES).
翻訳日:2021-05-28 16:00:29 公開日:2021-05-27
# 協調的局所化のための神経拡張的信念伝播

Neural Enhanced Belief Propagation for Cooperative Localization ( http://arxiv.org/abs/2105.12903v1 )

ライセンス: Link先を確認
Mingchao Liang, Florian Meyer(参考訳) 位置対応ネットワークは、現代的な利便性、応用海洋科学、公共安全のための革新的なサービスと応用を導入する。 本稿では,モデルベースとデータ駆動推論のハイブリッド手法を提案する。 本稿では,無線ネットワーク内の移動エージェントが,他のエージェントとのペアワイズによる観測や位置情報の交換によって,自己のローカライズを目指す協調的ローカライズ(cl)シナリオについて考察する。 大規模エージェントネットワークにおける分散clの伝統的な方法は、完全にモデルベースであり、一貫性のない(信頼できる)推定を提供するのに苦しむ信条伝播(bp)である。 提案手法は,グラフニューラルネットワーク(GNN)が提供する学習情報とBPを補完することにより,これらの制約に対処する。 計算複雑性はBPに匹敵するが,提案手法は推定精度を向上し,自信過剰な信念を回避することができることを示す。 特に、より一貫した信念は、GNNの訓練に使用される損失関数の過信に明示的に対処しないことによって得られる。

Location-aware networks will introduce innovative services and applications for modern convenience, applied ocean sciences, and public safety. In this paper, we establish a hybrid method for model-based and data-driven inference. We consider a cooperative localization (CL) scenario where the mobile agents in a wireless network aim to localize themselves by performing pairwise observations with other agents and by exchanging location information. A traditional method for distributed CL in large agent networks is belief propagation (BP) which is completely model-based and is known to suffer from providing inconsistent (overconfident) estimates. The proposed approach addresses these limitations by complementing BP with learned information provided by a graph neural network (GNN). We demonstrate numerically that our method can improve estimation accuracy and avoid overconfident beliefs, while its computational complexity remains comparable to BP. Notably, more consistent beliefs are obtained by not explicitly addressing overconfidence in the loss function used for training of the GNN.
翻訳日:2021-05-28 16:00:05 公開日:2021-05-27
# 高海での船舶運動の短時間リアルタイム予測のためのリカレント型ニューラルネットワーク

Recurrent-type Neural Networks for Real-time Short-term Prediction of Ship Motions in High Sea State ( http://arxiv.org/abs/2105.13102v1 )

ライセンス: Link先を確認
Danny D'Agostino, Andrea Serani, Frederick Stern, Matteo Diez(参考訳) 船体運動のリアルタイム短期予測(流速予測)において, 繰り返し型ニューラルネットワークの予測能力について検討した。 具体的には, 連続ニューラルネットワーク, 長期記憶, ゲート再帰単位モデルの性能を, 自走型駆逐艦型船体を船尾に配置した船体7の数値流体力学シミュレーションから得られたデータを用いて評価し, 比較した。 入射波の時系列、船の動き、舵角、および浸漬プローブは、現在のキャスティング問題の変数として使用される。 目標は,約20秒前の予測を取得することだ。 全体として、3つの手法は有望で同等の結果をもたらす。

The prediction capability of recurrent-type neural networks is investigated for real-time short-term prediction (nowcasting) of ship motions in high sea state. Specifically, the performance of recurrent neural networks, long-short term memory, and gated recurrent units models are assessed and compared using a data set coming from computational fluid dynamics simulations of a self-propelled destroyer-type vessel in stern-quartering sea state 7. Time series of incident wave, ship motions, rudder angle, as well as immersion probes, are used as variables for a nowcasting problem. The objective is to obtain about 20 s ahead prediction. Overall, the three methods provide promising and comparable results.
翻訳日:2021-05-28 15:59:35 公開日:2021-05-27
# 非消滅勾配を設計で保証するハミルトンディープニューラルネットワーク

Hamiltonian Deep Neural Networks Guaranteeing Non-vanishing Gradients by Design ( http://arxiv.org/abs/2105.13205v1 )

ライセンス: Link先を確認
Clara Luc\'ia Galimberti, Luca Furieri, Liang Xu, Giancarlo Ferrari-Trecate(参考訳) ディープニューラルネットワーク(dnn)トレーニングは、バックプロパゲーションによる重み付け最適化中の勾配の消失と爆発のために難しい場合がある。 そこで本研究では, 連続時間ハミルトン系の離散化を起点とし, 常微分方程式に基づく既存のアーキテクチャを含む, ハミルトン dnn (h-dnns) の一般クラスを提案する。 我々の主な成果は、広範囲のH-DNNが任意のネットワーク深さを設計することで、不要な勾配を保証することである。 これは、半単純オイラー離散化スキームを用いて、勾配計算に関わる後方感度行列がシンプレクティックであることを示すことによって得られる。 また, 感度行列の大きさに対する上限を与え, 爆発勾配は正規化によって制御できるか, 特殊なアーキテクチャでは回避できることを示した。 最後に,重み行列に対する適切な空間制約を特徴付けることにより,H-DNNにおける後方・前方伝搬アルゴリズムの分散実装を実現する。 MNISTデータセットを用いた画像分類を含むベンチマーク分類問題において,H-DNNの性能を示す。

Deep Neural Networks (DNNs) training can be difficult due to vanishing and exploding gradients during weight optimization through backpropagation. To address this problem, we propose a general class of Hamiltonian DNNs (H-DNNs) that stem from the discretization of continuous-time Hamiltonian systems and include several existing architectures based on ordinary differential equations. Our main result is that a broad set of H-DNNs ensures non-vanishing gradients by design for an arbitrary network depth. This is obtained by proving that, using a semi-implicit Euler discretization scheme, the backward sensitivity matrices involved in gradient computations are symplectic. We also provide an upper bound to the magnitude of sensitivity matrices, and show that exploding gradients can be either controlled through regularization or avoided for special architectures. Finally, we enable distributed implementations of backward and forward propagation algorithms in H-DNNs by characterizing appropriate sparsity constraints on the weight matrices. The good performance of H-DNNs is demonstrated on benchmark classification problems, including image classification with the MNIST dataset.
翻訳日:2021-05-28 15:58:43 公開日:2021-05-27
# ニューラルネットワークによる時間可変粒子データの特徴抽出と追跡

Time Varying Particle Data Feature Extraction and Tracking with Neural Networks ( http://arxiv.org/abs/2105.13240v1 )

ライセンス: Link先を確認
Haoyu Li and Han-Wei Shen(参考訳) 粒子データの解析は、流体シミュレーション、宇宙論シミュレーション、分子動力学など多くの科学応用において重要な役割を果たす。 ボリュームデータの特徴抽出と追跡が可能な方法はあるが、明示的な接続情報の欠如により、パーティクルデータに対するそれらのタスクの実行はより困難である。 粒子データを最初にボリュームに変換することができるが、このアプローチはエラーが発生し、データのサイズが大きくなるリスクがある。 本稿では,科学的な粒子データのための特徴表現を深層学習で作成し,特徴抽出と追跡を支援する。 我々は,地域近傍における空間的位置と物理的属性の関係を表現するために,潜在ベクトルを生成するディープラーニングモデルを用いる。 潜在ベクトルでは、これらのベクトルをクラスタリングすることで特徴を抽出することができる。 高速な特徴追跡を実現するために、平均シフト追跡アルゴリズムが特徴空間に適用される。 2つのデータセットを用いてアプローチを検証するとともに,既存の手法と比較する。

Analyzing particle data plays an important role in many scientific applications such as fluid simulation, cosmology simulation and molecular dynamics. While there exist methods that can perform feature extraction and tracking for volumetric data, performing those tasks for particle data is more challenging because of the lack of explicit connectivity information. Although one may convert the particle data to volume first, this approach is at risk of incurring error and increasing the size of the data. In this paper, we take a deep learning approach to create feature representations for scientific particle data to assist feature extraction and tracking. We employ a deep learning model, which produces latent vectors to represent the relation between spatial locations and physical attributes in a local neighborhood. With the latent vectors, features can be extracted by clustering these vectors. To achieve fast feature tracking, the mean-shift tracking algorithm is applied in the feature space, which only requires inference of the latent vector for selected regions of interest. We validate our approach using two datasets and compare our method with other existing methods.
翻訳日:2021-05-28 15:58:13 公開日:2021-05-27
# 時間的ニューラルネットワークを用いたオンライン学習のためのマイクロアーキテクチャ実装フレームワーク

A Microarchitecture Implementation Framework for Online Learning with Temporal Neural Networks ( http://arxiv.org/abs/2105.13262v1 )

ライセンス: Link先を確認
Harideep Nair, John Paul Shen and James E. Smith(参考訳) TNN(Temporal Neural Networks)は、哺乳類の新皮質と同様、時間を使って情報を表現し、処理するニューラルネットワークである。 異なるトレーニングと推論フェーズを使用する計算集約型ディープニューラルネットワークとは対照的に、TNNはオンラインインクリメンタル/連続学習を極めて効率的に行うことができ、エッジネイティブな知覚処理ユニットを構築するための優れた候補である。 本研究では,標準CMOSを用いたTNN実装のためのマイクロアーキテクチャフレームワークを提案する。 1)マルチシナプスニューロン、2)マルチニューロンカラム、3)スパイクタイミング依存可塑性(stdp)に基づく教師なし・教師なしオンライン学習アルゴリズムである。 TNNマイクロアーキテクチャは、TNN設計におけるゲート数、面積、遅延および消費電力を評価するための一連の特徴的なスケーリング方程式に具体化されている。 提案した設計に対する後合成結果(45nm CMOS)を提示し,そのオンラインインクリメンタル学習能力を示す。

Temporal Neural Networks (TNNs) are spiking neural networks that use time as a resource to represent and process information, similar to the mammalian neocortex. In contrast to compute-intensive Deep Neural Networks that employ separate training and inference phases, TNNs are capable of extremely efficient online incremental/continuous learning and are excellent candidates for building edge-native sensory processing units. This work proposes a microarchitecture framework for implementing TNNs using standard CMOS. Gate-level implementations of three key building blocks are presented: 1) multi-synapse neurons, 2) multi-neuron columns, and 3) unsupervised and supervised online learning algorithms based on Spike Timing Dependent Plasticity (STDP). The TNN microarchitecture is embodied in a set of characteristic scaling equations for assessing the gate count, area, delay and power consumption for any TNN design. Post-synthesis results (in 45nm CMOS) for the proposed designs are presented, and their online incremental learning capability is demonstrated.
翻訳日:2021-05-28 15:57:45 公開日:2021-05-27
# GoSafe:グローバルに最適な安全なロボット学習

GoSafe: Globally Optimal Safe Robot Learning ( http://arxiv.org/abs/2105.13281v1 )

ライセンス: Link先を確認
Dominik Baumann and Alonso Marco and Matteo Turchetta and Sebastian Trimpe(参考訳) データからロボットシステムのポリシーを学ぶ際には、安全上の制約がハードウェアにダメージを与える可能性があるため、安全性が大きな懸念事項である。 SafeOptは、安全性を高い確率で保証しながらポリシーを学習できる効率的なベイズ最適化(BO)アルゴリズムである。 しかし、その検索空間は当初与えられた安全な領域に限定されている。 我々は,安全を高い確率で保証しつつ,初期安全領域の外側を探索することにより,この手法を拡張する。 これは、潜在的な障害が発生した場合、学習したバックアップコントローラを使用して安全に回復できる一連の初期条件を学習することによって達成される。 ハードウェア実験において,グローバルな最適化への収束を保証する条件を導出し,GoSafeを検証する。

When learning policies for robotic systems from data, safety is a major concern, as violation of safety constraints may cause hardware damage. SafeOpt is an efficient Bayesian optimization (BO) algorithm that can learn policies while guaranteeing safety with high probability. However, its search space is limited to an initially given safe region. We extend this method by exploring outside the initial safe area while still guaranteeing safety with high probability. This is achieved by learning a set of initial conditions from which we can recover safely using a learned backup controller in case of a potential failure. We derive conditions for guaranteed convergence to the global optimum and validate GoSafe in hardware experiments.
翻訳日:2021-05-28 15:57:18 公開日:2021-05-27
# Falicov-Kimballモデルにおける超クラスターの異常相分離と隠れ粗大化

Anomalous phase separation and hidden coarsening of super-clusters in the Falicov-Kimball model ( http://arxiv.org/abs/2105.13304v1 )

ライセンス: Link先を確認
Sheng Zhang, Puhan Zhang, Gia-Wei Chern(参考訳) 有名なファリコフ・キンボールモデルでは、豊かな位相秩序のダイナミクスが示される。 大規模量子力学モンテカルロシミュレーションを実現するための機械学習手法を応用し、電荷チェッカーボードクラスタの成長と隠れ対称性の破れに関連するドメインの粗大化とが競合する異常な位相分離シナリオを明らかにする。 この競争の結果、自己トラッピングメカニズムは、チェッカーボードパターンとそのスーパークラスタの逮捕された成長を引き起こす。 この研究で報告されているものと類似したガラスの挙動は、他の相関電子系では一般的である。

We show that the celebrated Falicov-Kimball model exhibits rich and intriguing phase-ordering dynamics. Applying modern machine learning methods to enable large-scale quantum kinetic Monte Carlo simulations, we uncover an unusual phase-separation scenario in which the growth of charge checkerboard clusters competes with domain coarsening related to a hidden symmetry-breaking. A self-trapping mechanism as a result of this competition gives rise to arrested growth of checkerboard patterns and their super-clusters. Glassy behaviors similar to the one reported in this work could be generic for other correlated electron systems.
翻訳日:2021-05-28 15:57:00 公開日:2021-05-27
# 神経オプションの価格設定

Neural Options Pricing ( http://arxiv.org/abs/2105.13320v1 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 本研究は,ニューラルsdesに適用される従来の仲裁価格理論に基づく金融オプションについて検討する。 我々はニューラルSDEを普遍的な It\^o プロセス近似器として扱う。 このようにして、すべての仮定を基礎となる価格プロセスで持ち上げ、理論的オプション価格を数値的に計算することができる。 本稿では,学習用損失関数としてワッサーシュタイン距離計を実装したSDE-GAN手法のバリエーションを提案する。 さらに、学習者モデルによって示唆されるオプション価格の誤差は、経験的データに適合するために使われた非常にワッサーシュタイン距離計量によって境界付けられると推測される。

This research investigates pricing financial options based on the traditional martingale theory of arbitrage pricing applied to neural SDEs. We treat neural SDEs as universal It\^o process approximators. In this way we can lift all assumptions on the form of the underlying price process, and compute theoretical option prices numerically. We propose a variation of the SDE-GAN approach by implementing the Wasserstein distance metric as a loss function for training. Furthermore, it is conjectured that the error of the option price implied by the learnt model can be bounded by the very Wasserstein distance metric that was used to fit the empirical data.
翻訳日:2021-05-28 15:56:43 公開日:2021-05-27
# Dual Averagingによるオープンネットワークの最適化

Optimization in Open Networks via Dual Averaging ( http://arxiv.org/abs/2105.13348v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Franck Iutzeler, J\'er\^ome Malick, Panayotis Mertikopoulos(参考訳) 自律エージェント(例えば、車両群、散乱センサーなど)のネットワークでは、エージェントのローカル機能の総和を最小化することの問題は大きな関心を集めている。 我々は,エージェントがいつでもネットワークに参加・離脱できるオープンネットワークの場合,この分散最適化問題に取り組む。 近年のオンライン最適化技術を活用し,オープンネットワークのための分散非同期最適化手法の収束性を提案し,解析する。

In networks of autonomous agents (e.g., fleets of vehicles, scattered sensors), the problem of minimizing the sum of the agents' local functions has received a lot of interest. We tackle here this distributed optimization problem in the case of open networks when agents can join and leave the network at any time. Leveraging recent online optimization techniques, we propose and analyze the convergence of a decentralized asynchronous optimization method for open networks.
翻訳日:2021-05-28 15:56:29 公開日:2021-05-27
# (参考訳) 記号式検証のための欠陥データセット

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v3 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-28 12:54:54 公開日:2021-05-27
# (参考訳) 合成コンテンツ識別のための活性化空間におけるパターン検出

Pattern Detection in the Activation Space for Identifying Synthesized Content ( http://arxiv.org/abs/2105.12479v2 )

ライセンス: CC BY 4.0
Celia Cintas, Skyler Speakman, Girmaw Abebe Tadesse, Victor Akinwande, Edward McFowland III, Komminist Weldemariam(参考訳) GAN(Generative Adversarial Networks)は、最近、低次元ランダムノイズからのフォトリアリスティック画像合成において、前例のない成功を収めている。 高品質なコンテンツを大規模に合成する能力は、生成されたサンプルが深刻な社会的、政治的、健康、ビジネス上の危険をもたらす誤報につながる可能性があるため、潜在的なリスクをもたらす。 トレーニング済みニューラルネットワークの内部層における異常なノードアクティベーションのサブセットを検出することにより、生成されたコンテンツを特定するためのSubsetGANを提案する。 これらのノードは群として、実際のデータから生成される活性化の期待分布から逸脱する非パラメトリック測度を最大化する。 これにより,その分布を事前に知ることなく合成画像の識別が可能となる。 SubsetGANは、ノードのサブセットを効率よくスコアし、最大スコアに寄与する事前訓練された分類器内のノードのグループを返す。 分類器は、複数のソースのサンプルや異なるGANの識別器ネットワークで訓練された一般的な偽分類器である。 提案手法は, 既存の検出手法に比べて, 既存のGAN(PGGAN, StarGAN, CycleGAN) や, 生成されたコンテントの比率よりも高い検出能力を示す。

Generative Adversarial Networks (GANs) have recently achieved unprecedented success in photo-realistic image synthesis from low-dimensional random noise. The ability to synthesize high-quality content at a large scale brings potential risks as the generated samples may lead to misinformation that can create severe social, political, health, and business hazards. We propose SubsetGAN to identify generated content by detecting a subset of anomalous node-activations in the inner layers of pre-trained neural networks. These nodes, as a group, maximize a non-parametric measure of divergence away from the expected distribution of activations created from real data. This enable us to identify synthesised images without prior knowledge of their distribution. SubsetGAN efficiently scores subsets of nodes and returns the group of nodes within the pre-trained classifier that contributed to the maximum score. The classifier can be a general fake classifier trained over samples from multiple sources or the discriminator network from different GANs. Our approach shows consistently higher detection power than existing detection methods across several state-of-the-art GANs (PGGAN, StarGAN, and CycleGAN) and over different proportions of generated content.
翻訳日:2021-05-28 12:44:43 公開日:2021-05-27
# (参考訳) インスタンス対応潜時空間探索による不整形顔属性編集

Disentangled Face Attribute Editing via Instance-Aware Latent Space Search ( http://arxiv.org/abs/2105.12660v2 )

ライセンス: CC BY 4.0
Yuxuan Han, Jiaolong Yang, and Ying Fu(参考訳) 近年の研究では、GAN(Generative Adversarial Networks)の潜在空間に、多様な顔属性編集アプリケーションを可能にする、豊富な意味方向が存在することが示されている。 しかし、既存のメソッドは属性のばらつきのばらつきに苦しむ可能性があり、望ましいメソッドを変更する際に他の属性が望ましくない変更となる。 既存の手法で使われている意味方向は属性レベルであり、特にGANのトレーニングセットにおける属性分布バイアスの存在下では、複雑な属性相関をモデル化することは困難である。 本稿では,インスタンス認識型潜在空間探索による属性編集のための意味的方向探索を行う新しいフレームワーク (ials) を提案する。 インスタンス情報は、入力画像上で評価された属性分類器の集合からの監督を利用して注入される。 さらに,属性変換と不等角化の有効性を定量化するための不等角変換(dt)メトリックを提案し,それに基づく属性レベルとインスタンス固有の方向の最適な制御因子を求める。 GAN生成画像と実世界の画像の両方に対する実験結果から,本手法は近年提案されている最先端手法よりも高い性能を示した。 コードはhttps://github.com/yxuhan/ialsで入手できる。

Recent works have shown that a rich set of semantic directions exist in the latent space of Generative Adversarial Networks (GANs), which enables various facial attribute editing applications. However, existing methods may suffer poor attribute variation disentanglement, leading to unwanted change of other attributes when altering the desired one. The semantic directions used by existing methods are at attribute level, which are difficult to model complex attribute correlations, especially in the presence of attribute distribution bias in GAN's training set. In this paper, we propose a novel framework (IALS) that performs Instance-Aware Latent-Space Search to find semantic directions for disentangled attribute editing. The instance information is injected by leveraging the supervision from a set of attribute classifiers evaluated on the input images. We further propose a Disentanglement-Transformation (DT) metric to quantify the attribute transformation and disentanglement efficacy and find the optimal control factor between attribute-level and instance-specific directions based on it. Experimental results on both GAN-generated and real-world images collectively show that our method outperforms state-of-the-art methods proposed recently by a wide margin. Code is available at https://github.com/yxuhan/IALS.
翻訳日:2021-05-28 12:20:35 公開日:2021-05-27
# (参考訳) コンピュータ断層撮影による肺塞栓症の診断 : 深層学習技術を用いた検討

Pulmonary embolism identification in computerized tomography pulmonary angiography scans with deep learning technologies in COVID-19 patients ( http://arxiv.org/abs/2105.11187v2 )

ライセンス: CC BY 4.0
Chairi Kiourt, Georgios Feretzakis, Konstantinos Dalamarinis, Dimitris Kalles, Georgios Pantos, Ioannis Papadopoulos, Spyros Kouris, George Ioannakis, Evangelos Loupelis, Petros Antonopoulos, Aikaterini Sakagianni(参考訳) 本研究の主な目的は、新型コロナウイルス患者のCTPA-Scansにおける肺塞栓症の診断に最先端の深層学習アプローチを利用し、そのパフォーマンスを初期評価し、最終的には高速トラックプロトタイプソリューション(システム)を提供することである。 我々は、モデル精度と高速トレーニングを組み合わせるために、トランスファーラーニングアプローチを通じて最も人気のある畳み込みニューラルネットワークアーキテクチャを採用し、評価した。 さらに,肺塞栓領域(関心領域)の局在化(対象検出)において,最も人気のある一段階検出モデルの一つを利用した。 いずれのアプローチもCTPA-Scanデータセットを用いてトレーニングし,673個のCTPA-Scan画像に1,465個のバウンディングボックスをアノテートした。 肺塞栓症分類における91%の妥当性を検証し,最先端画像分類モデルの簡易評価を行った。 また, 50%のiou閾値下での肺塞栓症局在に対する対象検出モデルでは, 平均で約68%の精度を示した。 どちらのアプローチも、将来の研究のためのトレーニングパイプライン全体(ソースコードによるステップバイステッププロセス)を提供しています。 本研究では,CTPA-Scans画像における肺塞栓症同定のための最も正確かつ高速な深層学習モデルについて,COVID-19感染患者の分類と局所化(物体検出)アプローチを用いて紹介する。 本研究は,肺塞栓症の診断精度を向上させるために,分類モデルと物体検出モデルを組み合わせた地域研究コミュニティのための高速追跡ソリューション(システム)を提供する。

The main objective of this work is to utilize state-of-the-art deep learning approaches for the identification of pulmonary embolism in CTPA-Scans for COVID-19 patients, provide an initial assessment of their performance and, ultimately, provide a fast-track prototype solution (system). We adopted and assessed some of the most popular convolutional neural network architectures through transfer learning approaches, to strive to combine good model accuracy with fast training. Additionally, we exploited one of the most popular one-stage object detection models for the localization (through object detection) of the pulmonary embolism regions-of-interests. The models of both approaches are trained on an original CTPA-Scan dataset, where we annotated of 673 CTPA-Scan images with 1,465 bounding boxes in total, highlighting pulmonary embolism regions-of-interests. We provide a brief assessment of some state-of-the-art image classification models by achieving validation accuracies of 91% in pulmonary embolism classification. Additionally, we achieved a precision of about 68% on average in the object detection model for the pulmonary embolism localization under 50% IoU threshold. For both approaches, we provide the entire training pipelines for future studies (step by step processes through source code). In this study, we present some of the most accurate and fast deep learning models for pulmonary embolism identification in CTPA-Scans images, through classification and localization (object detection) approaches for patients infected by COVID-19. We provide a fast-track solution (system) for the research community of the area, which combines both classification and object detection models for improving the precision of identifying pulmonary embolisms.
翻訳日:2021-05-28 11:57:05 公開日:2021-05-27
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v3 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-28 11:35:09 公開日:2021-05-27
# 最新サリエンシーモデリングのための領域内外の校正予測

Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling ( http://arxiv.org/abs/2105.12441v2 )

ライセンス: Link先を確認
Akis Linardos, Matthias K\"ummerer, Ori Press, Matthias Bethge(参考訳) 2014年以降、トランスファーラーニングは空間塩分濃度予測の改善の鍵となっているが、過去3~5年間の進歩は停滞している。 我々は,deepgaze ii から採用した同じ readout architecture と learning protocol を使用して,さまざまなimagenet バックボーンをテストする大規模転送学習研究を行っている。 DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。 しかし、より優れたImageNetモデルをバックボーンとして(例えばEfficientNetB5)テストし続けるにつれて、サリエンシ予測のさらなる改善は見られません。 バックボーンを解析することで、他のデータセットへの一般化は大幅に異なり、モデルはその固定予測において常に過信されていることが分かる。 複数のバックボーンを原則的に組み合わせることで、未発見のデータセットに対する十分な信頼性のキャリブレーションが可能になることを示す。 これにより、DeepGaze IIよりも15%改善され、MIT1003では93%に向上し、すべての利用可能なメトリクス(AUC:88.3%、sAUC:79.4%、CC:82.4%)でMIT/Tuebingen Saliency Benchmarkの新たな技術状況が記録された。

Since 2014 transfer learning has become the key driver for the improvement of spatial saliency prediction; however, with stagnant progress in the last 3-5 years. We conduct a large-scale transfer learning study which tests different ImageNet backbones, always using the same read out architecture and learning protocol adopted from DeepGaze II. By replacing the VGG19 backbone of DeepGaze II with ResNet50 features we improve the performance on saliency prediction from 78% to 85%. However, as we continue to test better ImageNet models as backbones (such as EfficientNetB5) we observe no additional improvement on saliency prediction. By analyzing the backbones further, we find that generalization to other datasets differs substantially, with models being consistently overconfident in their fixation predictions. We show that by combining multiple backbones in a principled manner a good confidence calibration on unseen datasets can be achieved. This yields a significant leap in benchmark performance in and out-of-domain with a 15 percent point improvement over DeepGaze II to 93% on MIT1003, marking a new state of the art on the MIT/Tuebingen Saliency Benchmark in all available metrics (AUC: 88.3%, sAUC: 79.4%, CC: 82.4%).
翻訳日:2021-05-28 11:34:22 公開日:2021-05-27
# 映像処理における機械学習の透明化に向けて

Towards Transparent Application of Machine Learning in Video Processing ( http://arxiv.org/abs/2105.12700v2 )

ライセンス: Link先を確認
Luka Murn, Marc Gorriz Blanch, Maria Santamaria, Fiona Rivera, Marta Mrak(参考訳) より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。 人工知能(AI)の先進的な形態と見なされるこの新技術は、これまで予期せぬ能力をもたらす。 しかし、それらは典型的には、資源不足のブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。 したがって、それらの応用は予測不可能であり、大規模な用途(例えば、)では一般的に信頼できない。 ライブ放送)。 この研究の目的は、ビデオ処理アプリケーションにおける学習モデルを理解し、最適化することで、それらを組み込んだシステムがより信頼できる方法で使用できるようにすることである。 この文脈では、ビデオ制作および配信アプリケーションのための機械学習の実装における透明性の向上を目的とした学習モデルの簡易化のための原則を導入する。 これらの原理はビデオ圧縮の例で示されており、関連するディープラーニングモデルを単純化することで、ビットレートの節約と複雑さの低減がいかに達成できるかを示している。

Machine learning techniques for more efficient video compression and video enhancement have been developed thanks to breakthroughs in deep learning. The new techniques, considered as an advanced form of Artificial Intelligence (AI), bring previously unforeseen capabilities. However, they typically come in the form of resource-hungry black-boxes (overly complex with little transparency regarding the inner workings). Their application can therefore be unpredictable and generally unreliable for large-scale use (e.g. in live broadcast). The aim of this work is to understand and optimise learned models in video processing applications so systems that incorporate them can be used in a more trustworthy manner. In this context, the presented work introduces principles for simplification of learned models targeting improved transparency in implementing machine learning for video production and distribution applications. These principles are demonstrated on video compression examples, showing how bitrate savings and reduced complexity can be achieved by simplifying relevant deep learning models.
翻訳日:2021-05-28 11:33:41 公開日:2021-05-27
# バイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習

Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2105.12523v2 )

ライセンス: Link先を確認
Yangyifan Xu, Yijin Liu, Fandong Meng, Jiajun Zhang, Jinan Xu, Jie Zhou(参考訳) 近年,トークンレベルの適応トレーニングは,異なるトークンに異なるトレーニング重みを割り当てることで,クロスエントロピー損失関数を調整し,トークンの不均衡問題を軽減し,機械翻訳における有望な改善を実現している。 しかし、従来の手法では、ソース言語を考慮せずにターゲット言語の静的単語頻度情報のみを使用しており、機械翻訳のようなバイリンガルタスクには不十分である。 本稿では,両言語主義の観点から目標トークンの学習困難度を測定し,トークンレベルの適応訓練を改善するために適応重みを割り当てる,新しいバイリンガル相互情報(BMI)に基づく適応目標を提案する。 この方法はbmiの高いトークンに対してより大きなトレーニング重みを割り当て、簡単なトークンは粗い粒度で更新され、難しいトークンは細かい粒度で更新される。 WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。 さらなる分析により,本手法は語彙多様性を向上できることが確認された。

Recently, token-level adaptive training has achieved promising improvement in machine translation, where the cross-entropy loss function is adjusted by assigning different training weights to different tokens, in order to alleviate the token imbalance problem. However, previous approaches only use static word frequency information in the target language without considering the source language, which is insufficient for bilingual tasks like machine translation. In this paper, we propose a novel bilingual mutual information (BMI) based adaptive objective, which measures the learning difficulty for each target token from the perspective of bilingualism, and assigns an adaptive weight accordingly to improve token-level adaptive training. This method assigns larger training weights to tokens with higher BMI, so that easy tokens are updated with coarse granularity while difficult tokens are updated with fine granularity. Experimental results on WMT14 English-to-German and WMT19 Chinese-to-English demonstrate the superiority of our approach compared with the Transformer baseline and previous token-level adaptive training approaches. Further analyses confirm that our method can improve the lexical diversity.
翻訳日:2021-05-28 11:33:17 公開日:2021-05-27
# 双方向LSTMと畳み込みニューラルネットワークハイブリッドモデルを用いたスマートホームネットワークの侵入検知システム

Intrusion Detection System in Smart Home Network Using Bidirectional LSTM and Convolutional Neural Networks Hybrid Model ( http://arxiv.org/abs/2105.12096v2 )

ライセンス: Link先を確認
Nelly Elsayed, Zaghloul Saad Zaghloul, Sylvia Worlali Azumah, Chengcheng Li(参考訳) IoT(Internet of Things)によって、スマートホームは私たちの日常生活の質と快適さを向上することができた。 しかし、これらの利便性は、急速に増加するいくつかのセキュリティ上の懸念をもたらした。 IoTデバイス、スマートホームハブ、ゲートウェイはさまざまなセキュリティリスクを引き起こす。 スマートホームゲートウェイは、IoTデバイス間の通信の集中的なポイントとして機能し、ハッカーのためのネットワークデータへのバックドアを作ることができる。 このような攻撃を検出する一般的な方法の1つは、ネットワークトラフィックの侵入検出である。 本稿では,双方向のlong short-term memory(bilstm)とconvolutional neural network(cnn)ハイブリッドモデルを用いて,スマートホームネットワークの異常を検出するための侵入検出システム(ids)を提案する。 BiLSTM繰り返し動作は、学習した情報を時間を通して保存するための侵入検出モデルを提供し、CNNはデータ特徴を完全に抽出する。 提案モデルは、任意のスマートホームネットワークゲートウェイに適用することができる。

Internet of Things (IoT) allowed smart homes to improve the quality and the comfort of our daily lives. However, these conveniences introduced several security concerns that increase rapidly. IoT devices, smart home hubs, and gateway raise various security risks. The smart home gateways act as a centralized point of communication between the IoT devices, which can create a backdoor into network data for hackers. One of the common and effective ways to detect such attacks is intrusion detection in the network traffic. In this paper, we proposed an intrusion detection system (IDS) to detect anomalies in a smart home network using a bidirectional long short-term memory (BiLSTM) and convolutional neural network (CNN) hybrid model. The BiLSTM recurrent behavior provides the intrusion detection model to preserve the learned information through time, and the CNN extracts perfectly the data features. The proposed model can be applied to any smart home network gateway.
翻訳日:2021-05-28 11:32:13 公開日:2021-05-27
# LTEとWi-Fi共存におけるベイズ非パラメトリック強化学習

Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence ( http://arxiv.org/abs/2105.12249v2 )

ライセンス: Link先を確認
Po-Kan Shih(参考訳) 次世代のワイヤレス通信の形成に伴い、モノのインターネット、自動運転車、ドローンといった新しいアプリケーションが、無許可の帯域を混雑させている。 長期進化(LTE)のようなライセンスネットワークは、低コストで高容量のコンテンツを提供するために、ライセンスされていないスペクトルにもたらされる。 しかし、LTEは他とスペクトルを共有するように設計されていない。 これらのネットワークのための協力センターは、不均一な特性を持ち、誰もが自由にスペクトルを入力・離脱できるため、設計は困難である。 一つの統一設計で無限のシナリオを組み込むことは不可能であるため、別の解決策は各ネットワークに自身の共存ポリシーを学習させることである。 以前のソリューションは固定シナリオでのみ動作する。 本研究では,5GHz帯帯のWi-FiとLTEエージェントの共存に対処する強化学習アルゴリズムを提案する。 共存問題は、分散部分可観測マルコフ決定過程 (dec-pomdp) としてモデル化され、異なるエージェントに対する政策の不確実性に対応するために、非パラメトリックな政策学習にベイズ的アプローチが採用された。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を奨励した。 後部近似の確率および変分推論として値関数を変換することにより,強化学習を最適化問題とした。 シミュレーションの結果、このアルゴリズムはコンパクトなポリシー表現で高い値に達し、エージェントセットに適用しても計算効率が保たれることが示された。

With the formation of next generation wireless communication, a growing number of new applications like internet of things, autonomous car, and drone is crowding the unlicensed spectrum. Licensed network such as the long-term evolution (LTE) also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed for sharing spectrum with others. A cooperation center for these networks is costly because they possess heterogeneous properties and everyone can enter and leave the spectrum unrestrictedly, so the design will be challenging. Since it is infeasible to incorporate potentially infinite scenarios with one unified design, an alternative solution is to let each network learn its own coexistence policy. Previous solutions only work on fixed scenarios. In this work a reinforcement learning algorithm is presented to cope with the coexistence between Wi-Fi and LTE agents in 5 GHz unlicensed spectrum. The coexistence problem was modeled as a decentralized partially observable Markov decision process (Dec-POMDP) and Bayesian approach was adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure was introduced in the reward function to encourage fair sharing between agents. The reinforcement learning was turned into an optimization problem by transforming the value function as likelihood and variational inference for posterior approximation. Simulation results demonstrate that this algorithm can reach high value with compact policy representations, and stay computationally efficient when applying to agent set.
翻訳日:2021-05-28 11:31:46 公開日:2021-05-27
# 修飾分子表現を用いた深層学習モデルによる有機分子の水溶性予測

Predicting Aqueous Solubility of Organic Molecules Using Deep Learning Models with Varied Molecular Representations ( http://arxiv.org/abs/2105.12638v2 )

ライセンス: Link先を確認
Gihan Panapitiya, Michael Girard, Aaron Hollas, Vijay Murugesan, Wei Wang, Emily Saldanha(参考訳) 分子の水溶性を決定することは、多くの医薬品、環境、エネルギー貯蔵用途において重要なステップである。 数十年にわたる努力にもかかわらず、これらのアプリケーションの多くに十分な精度を持つ溶解度予測モデルの開発には依然として課題がある。 本研究の目的は,幅広い有機分子の溶解度を予測できる汎用モデルを開発することである。 Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. 分子ディスクリプタを用いたモデルでは,GNNモデルでも優れた性能が得られた。 モデル性能に影響を与える分子特性を理解し,どの分子構造に関する情報が最も価値があるかを理解するために特徴解析を行い,モデル性能に対するデータ可用性の影響を理解するために,転送学習とデータサイズ研究を行う。

Determining the aqueous solubility of molecules is a vital step in many pharmaceutical, environmental, and energy storage applications. Despite efforts made over decades, there are still challenges associated with developing a solubility prediction model with satisfactory accuracy for many of these applications. The goal of this study is to develop a general model capable of predicting the solubility of a broad range of organic molecules. Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. We find that models using molecular descriptors achieve the best performance, with GNN models also achieving good performance. We perform extensive error analysis to understand the molecular properties that influence model performance, perform feature analysis to understand which information about molecular structure is most valuable for prediction, and perform a transfer learning and data size study to understand the impact of data availability on model performance.
翻訳日:2021-05-28 11:31:06 公開日:2021-05-27