このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200611となっている論文です。

PDF登録状況(公開日: 20200611)

TitleAuthorsAbstract論文公表日・翻訳日
# 数相絡みとアインシュタイン-ポドルスキー-ローゼン操舵

Number-phase entanglement and Einstein-Podolsky-Rosen steering ( http://arxiv.org/abs/2002.08431v2 )

ライセンス: Link先を確認
Matteo Fadel, Laura Ares, Alfredo Luis and Qiongyi He(参考訳) 粒子の総数に関連する演算子と2つのボソニックモードの相対位相間の不確かさ関係を用いて、絡み合いとアインシュタイン-ポドルスキー-ローゼンステアリング基準を構築した。 これらは光学場、ボース=アインシュタイン凝縮体、機械振動子など様々なシステムで実験的に試験できる。 位相オブザーバブルを含む既知の絡み合いの基準は、2つの系を組み換えることで干渉測定を行う必要があるが、我々の基準は2つの空間的に異なる位置における局所的な測定により、量子相関の非局所的な性質を調べることができる。 我々の基準に違反する簡単な例を示し、騒音に対する頑健さを示す。 状態のキャラクタリゼーションに有用であること以外は、例えば数相テレポーテーションに基づく量子情報プロトコルに応用できるかもしれない。

We use the uncertainty relation between the operators associated to the total number of particles and to the relative phase of two bosonic modes to construct entanglement and Einstein-Podolsky-Rosen steering criteria. These can be tested experimentally in a variety of systems, such as optical fields, Bose-Einstein condensates or mechanical oscillators. While known entanglement criteria involving the phase observable typically require to perform interference measurements by recombining the two systems, our criteria can be tested through local measurements at two spatially distinct positions, to investigate the nonlocal nature of quantum correlations. We present simple examples where our criteria are violated, and show their robustness to noise. Apart from being useful for state characterization, they might find application in quantum information protocols, for example based on number-phase teleportation.
翻訳日:2023-06-03 04:48:54 公開日:2020-06-11
# Covid19 Impact Survey: スペインで発生したCOVID-19パンデミックのパルスを評価する

The Covid19Impact Survey: Assessing the Pulse of the COVID-19 Pandemic in Spain via 24 questions ( http://arxiv.org/abs/2004.01014v2 )

ライセンス: Link先を確認
Nuria Oliver, Xavier Barber, Kirsten Roomp, and Kristof Roomp(参考訳) 本稿では,スペインにおける新型コロナウイルスのパンデミックに関連する4つの分野,社会的接触行動,経済的影響,労働状況,健康状態に関する市民のフィードバックを評価するために,Covid19Impact Surveyと呼ばれる大規模調査の結果について述べる。 総計24の質問が、人口統計、家庭状況、社会的接触行動、個人的経済的影響、職場状況、健康の分野をカバーしている。 調査は3月28日から2020年4月2日までに156,614人が回答した。 このような大きな反応は、新たな洞察を得るだけでなく、現在の新型コロナウイルス(COVID-19)パンデミックにおける個人の経験や懸念を前例のない形で垣間見ることができます。 この分析から、新型コロナウイルスのパンデミック管理に関連する公共政策の設計にいくつかの意味をなしている。

In this paper, we describe the results of analyzing a large-scale survey, called the Covid19Impact survey, to assess citizens feedback on four areas related to the COVID-19 pandemic in Spain: social contact behavior, financial impact, working situation and health status. A total of 24 questions cover the areas of demographics, their home situation, social contact behavior, personal economic impact, their workplace situation and their health. The survey was responded to by 156,614 participants between the evening of March 28th and April 2nd, 2020. Such a large response enables us to gain new insights, as well as an unprecedented glimpse at respondents personal experiences and concerns during the current COVID-19 pandemic. From the analysis, we draw several implications for the design of public policies related to the management of the COVID-19 pandemic.
翻訳日:2023-05-27 03:27:03 公開日:2020-06-11
# 誤り率に基づく最適鍵リサイクル率を用いた量子鍵リサイクル

Quantum Key Recycling with Optimal Key Recycling Rate based on Error Rate ( http://arxiv.org/abs/2004.11596v5 )

ライセンス: Link先を確認
Yu-Chin Lu, Chia-Wei Tsai and Tzonelih Hwang(参考訳) 本稿では,量子チャネル内のノイズを許容できる新しい量子鍵リサイクル(QKR)プロトコルを提案する。 我々のQKRプロトコルは、使用鍵をエラー率に応じてリサイクルする。 我々のQKRプロトコルにおける事前共有鍵の鍵リサイクル率は、量子チャネルの実際のエラー率に応じて最適化される。 また,我々のQKRプロトコルは,エラー耐性を持つQKRプロトコルよりも高効率である。 セキュリティ証明は、リサイクルされたキーのセキュリティが普遍的に構成可能であることを示している。

We propose a new Quantum Key Recycling (QKR) protocol, which can tolerate the noise in the quantum channel. Our QKR protocol recycles the used keys according to the error rate. The key recycling rate of the pre-shared keys in our QKR protocol is optimized depending on the real error rate in the quantum channel. And our QKR protocol has higher efficiency than the exiting QKR protocol with error-tolerance. The security proof shows the security of the recycled keys is universal composable.
翻訳日:2023-05-22 06:23:39 公開日:2020-06-11
# 2つの効率的な測定装置独立量子対話プロトコル

Two Efficient Measurement Device Independent Quantum Dialogue Protocols ( http://arxiv.org/abs/2005.03518v2 )

ライセンス: Link先を確認
Nayana Das and Goutam Paul(参考訳) 量子対話 (quantum dialogue) とは、単一チャネルを用いたセキュアかつ同時通信のプロセスである。 近年、測定装置独立量子対話(mdi-qd)プロトコルが提案されている(量子情報処理16.12 (2017): 305)。 筆者らは,このプロトコルを情報漏洩に対してセキュアにするため,エラー推定フェーズ後に残るキュービットのほぼ半分を破棄した。 本稿では,MDI-QDプロトコルの2つの修正版を提案する。 約半数の廃棄されたキュービットと使用済みキュービットを使用して、キュービット数でプロトコルをより効率的にします。 両プロトコルはMDI-QDプロトコルで与えられるのと同じ逆モデルでセキュアであることを示す。

Quantum dialogue is a process of two way secure and simultaneous communication using a single channel. Recently, a Measurement Device Independent Quantum Dialogue (MDI-QD) protocol has been proposed (Quantum Information Processing 16.12 (2017): 305). To make the protocol secure against information leakage, the authors have discarded almost half of the qubits remaining after the error estimation phase. In this paper, we propose two modified versions of the MDI-QD protocol such that the number of discarded qubits is reduced to almost one-fourth of the remaining qubits after the error estimation phase. We use almost half of their discarded qubits along with their used qubits to make our protocol more efficient in qubits count. We show that both of our protocols are secure under the same adversarial model given in MDI-QD protocol.
翻訳日:2023-05-20 22:36:49 公開日:2020-06-11
# 隔離的疲労:米国再開前の新型コロナウイルス感染拡大後初の社会距離の低下

Quarantine Fatigue: first-ever decrease in social distancing measures after the COVID-19 outbreak before reopening United States ( http://arxiv.org/abs/2006.03716v2 )

ライセンス: Link先を確認
Jun Zhao, Minha Lee, Sepehr Ghader, Hannah Younes, Aref Darzi, Chenfeng Xiong, Lei Zhang(参考訳) 中国武漢で発生した新型コロナウイルス(COVID-19)の流行と、世界的な感染拡大により、この感染症は私たちの日常の旅行パターンを変えました。 本研究では,パンデミック時の人々の日常生活行動パターンの変化を,総合的なデータパネルを用いて調査した。 ヒトのモビリティのさまざまな側面を取り入れるため、チームは5つの基本的なモビリティ指標に基づいて算出されたソーシャルディスタンシング指標(SDI)に焦点を当てた。 SDIパターンは4月初旬に高原のステージを示し,約2週間続いた。 この現象の後、sdiが普遍的に減少し、旅行の数が増加し、家にいる人の比率が低下した。 私たちは観察検疫疲労と呼んだ。 変更率(ROC)法は,4月15日と推定された検疫疲労の開始日をさかのぼるものである。 分析の結果, 状態変化が存在するにもかかわらず, 大半の州では同時期に隔離疲労現象が発生し始めた。 この観察は、公式の再開発表の前に社会的距離を緩めることに決めた州が4月下旬まで公式に再開を発表していないことを知り、より重要になった。 また,本研究は,sdiの再開が急速に減少し,第2波のアウトブレイクの懸念が高まったことを示唆した。 州間の同期傾向は、各州の状況が全国的な行動に依存するため、将来の全国的な意思決定態度の重要性も強調している。

By the emergence of the novel coronavirus disease (COVID-19) in Wuhan, China, and its rapid outbreak worldwide, the infectious illness has changed our everyday travel patterns. In this research, our team investigated the changes in the daily mobility pattern of people during the pandemic by utilizing an integrated data panel. To incorporate various aspects of human mobility, the team focused on the Social Distancing Index (SDI) which was calculated based on five basic mobility measures. The SDI patterns showed a plateau stage in the beginning of April that lasted for about two weeks. This phenomenon then followed by a universal decline of SDI, increased number of trips and reduction in percentage of people staying at home. We called the observation Quarantine Fatigue. The Rate of Change (ROC) method was employed to trace back the start date of quarantine fatigue which was indicated to be April 15th. Our analysis showed that despite the existence of state-to-state variations, most states started experiencing a quarantine fatigue phenomenon during the same period. This observation became more important by knowing that none of the states had officially announced the reopening until late April showing that people decided to loosen up their social distancing practices before the official reopening announcement. Moreover, our analysis indicated that official reopening led to a rapid decline in SDI, raising the concern of a second wave of outbreak. The synchronized trend among states also emphasizes the importance of a more nationwide decision-making attitude for the future as the condition of each state depends on the nationwide behavior.
翻訳日:2023-05-17 02:00:25 公開日:2020-06-11
# 超電導粒状アルミニウム共振器の磁気抵抗は1テスラまで

Superconducting granular aluminum resonators resilient to magnetic fields up to 1 Tesla ( http://arxiv.org/abs/2006.05171v2 )

ライセンス: Link先を確認
K. Borisov, D. Rieger, P. Winkel, F. Henriques, F. Valenti, A. Ionita, M. Wessbecher, M. Spiecker, D. Gusenkova, I. M. Pop, and W. Wernsdorfer(参考訳) 高速度インダクタンス材料は超伝導量子回路やハイブリッドアーキテクチャにとって貴重な資源である。 超伝導グラニュラーアルミニウム(grAl)はnH/$\ square$の範囲で運動性シートインダクタンスに達し、超伝導量子ビットやマイクロ波検出器にも適用可能であることが証明された。 ここでは1光子内部品質係数$Q_{\mathrm{i}}$ of grAlマイクロ波共振器が1Tまでの磁場で10^5$を超え、平面上に配向していることを示す。 0.5mTの範囲で小さな垂直磁場が$Q_{\mathrm{i}}$を約15%向上させる。 さらに垂直場の増大は共振器の品質を悪化させる。 これらの結果は、磁場要求を持つ回路量子電磁力学およびハイブリッドアーキテクチャにおける高速度インダクタンスグラル構造の使用の扉を開く。

High kinetic inductance materials constitute a valuable resource for superconducting quantum circuits and hybrid architectures. Superconducting granular aluminum (grAl) reaches kinetic sheet inductances in the nH/$\square$ range, with proven applicability in superconducting quantum bits and microwave detectors. Here we show that the single photon internal quality factor $Q_{\mathrm{i}}$ of grAl microwave resonators exceeds $10^5$ in magnetic fields up to 1T, aligned in-plane to the grAl films. Small perpendicular magnetic fields, in the range of 0.5mT, enhance $Q_{\mathrm{i}}$ by approximately 15%, possibly due to the introduction of quasiparticle traps in the form of fluxons. Further increasing the perpendicular field deteriorates the resonators' quality factor. These results open the door for the use of high kinetic inductance grAl structures in circuit quantum electrodynamics and hybrid architectures with magnetic field requirements.
翻訳日:2023-05-16 04:57:00 公開日:2020-06-11
# 3レベル量子ラグ系のカスケード放出を利用した不明瞭な光子の生成

The crux of using the cascaded emission of a 3-level quantum ladder system to generate indistinguishable photons ( http://arxiv.org/abs/2006.05476v2 )

ライセンス: Link先を確認
Eva Sch\"oll (1), Lucas Schweickert (1), Lukas Hanschke (2 and 3), Katharina D. Zeuner (1), Friedrich Sbresny (2 and 3), Thomas Lettner (1), Rahul Trivedi (4), Marcus Reindl (5), Saimon Filipe Covre da Silva (5), Rinaldo Trotta (6), Jonathan J. Finley (7 and 3), Jelena Vu\v{c}kovi\'c (4), Kai M\"uller (2 and 3), Armando Rastelli (5), Val Zwiller (1), and Klaus D. J\"ons (1) ((1) Department of Applied Physics, Royal Institute of Technology, Albanova University Centre, Stockholm, Sweden, (2) Walter Schottky Institut and Department of Electrical and Computer Engineering, Technische Universit\"at M\"unchen, Garching, Germany, (3) Munich Center of Quantum Science and Technology (MCQST), Germany, (4) Ginzton Laboratory, Stanford University, USA, (5) Institute of Semiconductor and Solid State Physics, Johannes Kepler University Linz, Austria, (6) Dipartimento di Fisica, Sapienza Universit\`a di Roma, Italy, (7) Walter Schottky Institut and Physik Department, Technische Universit\"at M\"unchen, Garching, Germany)(参考訳) 半導体量子ドットのバイエクシトン・エキシトンカスケードを用いて,3レベル量子ラグ系から放出されるカスケード光子の識別可能性について検討した。 3段階の量子ラグ系では、独立性は本質的に発光光子の両方に制限され、励起状態と中間状態の寿命の比によって決定される。 我々は、同じ半導体量子ドットからの非カスケード放出とカスケード放出の量子干渉可視性を比較することで、この発見を実験的に確認した。 量子光学シミュレーションは測定値と非常によく一致し、大きなパラメータ空間を探索することができる。 本モデルに基づいて, 寿命比を最適化し, 3レベル量子はしご系からのカスケード光子放出の限定的不明瞭性を克服するフォトニック構造を提案する。

We investigate the degree of indistinguishability of cascaded photons emitted from a 3-level quantum ladder system; in our case the biexciton-exciton cascade of semiconductor quantum dots. For the 3-level quantum ladder system we theoretically demonstrate that the indistinguishability is inherently limited for both emitted photons and determined by the ratio of the lifetimes of the excited and intermediate states. We experimentally confirm this finding by comparing the quantum interference visibility of non-cascaded emission and cascaded emission from the same semiconductor quantum dot. Quantum optical simulations produce very good agreement with the measurements and allow to explore a large parameter space. Based on our model, we propose photonic structures to optimize the lifetime ratio and overcome the limited indistinguishability of cascaded photon emission from a 3-level quantum ladder system.
翻訳日:2023-05-16 04:47:23 公開日:2020-06-11
# トレース非増加マップと付加雑音から誘導される量子モノトン測定

Quantum monotone metrics induced from trace non-increasing maps and additive noise ( http://arxiv.org/abs/2006.05739v2 )

ライセンス: Link先を確認
Koichi Yamagata(参考訳) 量子モノトン計量はペッツによって導入され、トレースされた量子状態の集合上の量子モノトン計量が作用素モノトン関数によって特徴づけられることが証明された。 後にこれらは、完全正のトレース保存(cptp)マップに基づいて必ずしもトレースが1つとは限らない正の演算子の集合のモノトーンメトリクスに拡張された。 これらの拡張単調計量は、正の作用素のトレースによって連続的にパラメータ化される作用素単調関数によって特徴づけられ、正の作用素に対する単調性や凸性といった理想的性質を持っていなかった。 本稿では,cptni(trace non-increasing)写像と付加雑音の下での単調性を持つ量子モノトン計量の新たな拡張を提案する。 拡張された単調測度は、測度の連続性を仮定することなく、少数の仮定から静的作用素単調関数を特徴付けることができる。 我々の単調測度は、正の作用素に対する直和の加法性、凸性、単調性などの自然な性質を持つことを示す。

Quantum monotone metric was introduced by Petz,and it was proved that quantum monotone metrics on the set of quantum states with trace one were characterized by operator monotone functions. Later, these were extended to monotone metrics on the set of positive operators whose traces are not always one based on completely positive, trace preserving (CPTP) maps. It was shown that these extended monotone metrics were characterized by operator monotone functions continuously parameterized by traces of positive operators,and did not have some ideal properties such as monotonicity and convexity with respect to the positive operators. In this paper, we introduce another extension of quantum monotone metrics which have monotonicity under completely positive, trace non-increasing (CPTNI) maps and additive noise. We prove that our extended monotone metrics can be characterized only by static operator monotone functions from few assumptions without assuming continuities of metrics. We show that our monotone metrics have some natural properties such as additivity of direct sum, convexity and monotonicity with respect to positive operators.
翻訳日:2023-05-16 03:01:03 公開日:2020-06-11
# 通信の高度化によるレジリエンス-軍用通信路としての短波の復活

Resiliency by Retrograded Communication- The Revival of Shortwave as a Military Communication Channel ( http://arxiv.org/abs/2006.06148v1 )

ライセンス: Link先を確認
Jan Kallberg, Stephen S. Hamilton(参考訳) 過去30年間で、大国は衛星通信(satcom)、超高周波(vhf)、超高周波(uhf)に依存し、高帯域ライン・オブ・アイズ(los)通信を提供している。 これらの軍事通信チャネルは、EWキャンペーンがVHFとSATCOMの両方に同時に影響を及ぼすため、レジリエンスを欠いている。 1940年代に好まれたスペクトル、高周波(HF)は、異なる伝播パターンを持ち、21世紀の軍事通信の回復の機会となった。 レトログレーディングの概念は運用上の優位性を与え、電子戦争(EW)飽和環境で通信を維持する能力を生み出す可能性がある。

In the last three decades, the great powers have become increasingly dependent on satellite communication (SATCOM), very high frequency (VHF), and ultra-high frequency (UHF) providing high bandwidth line of sight (LOS) communications. These military communication channels lack resilience because an EW campaign can affect both VHF and SATCOM simultaneously. The 1940s preferred spectrum, high frequency (HF), with its different propagation patterns, offers an opportunity for military communication resiliency in the 21st century. The concept of retrograding could give an operational advantage and create the ability to sustain communication in electronic warfare (EW) saturated environment.
翻訳日:2023-05-16 00:53:58 公開日:2020-06-11
# フォトニックガウスモードを用いた3レベル系の量子ジャンプシミュレーション

Quantum jump simulation in three-level systems using photonic Gaussian modes ( http://arxiv.org/abs/2006.06144v1 )

ライセンス: Link先を確認
A. C. Cardoso and J. G. L. Cond\'e and B. Marques and J. S. Cabral and S. P\'adua(参考訳) マルチレベル量子系は、内部レベル間の量子ジャンプや自然崩壊によるコヒーレンスを緩める。 本稿では,3モードフォトニックシステムを用いて,量子ジャンプ下での3レベルシステムを実験的にシミュレートする方法を提案する。 我々は3段階の原子系における自発的崩壊の3つの異なるダイナミクスをシミュレートした:カスケード崩壊、$\lambda$崩壊、$v$崩壊。 光子レベルの減衰光コヒーレント源を用いて、ガウスモードの平行経路に符号化されたフォトニッククトリット状態を作成した。 空間光変調器における周期位相変調の探索により, 量子ジャンプに対応する動的マップをクラウス作用素分解法を用いて実装した。 強化荷電結合型デバイス(iccd)カメラによる画像計測により,初期状態密度行列の対角要素を得る。 進化したクォート状態の画像と干渉パターンを計測し, 3段階の崩壊構成のための3レベル系の量子ジャンプによる集団の変動とデコヒーレンス効果を実験的に検証した。

Multi-level quantum systems loose coherence due to quantum jumps or spontaneous decay between their internal levels. Here we propose a way to simulate experimentally a three-level system under quantum jump using a three-mode photonic system. We simulated three different dynamics of spontaneous decay in a three-level atomic system: cascade decay, $\Lambda$ decay and $V$ decay. With an attenuated light coherent source at the photon level, we prepared a photonic qutrit state encoded in the parallel path of Gaussian modes. By exploring periodical phase modulation in spatial light modulator, the corresponding dynamical maps for quantum jumps were implemented in terms of the Kraus operator decomposition. With image measurements with an intensified charged-coupled device (ICCD) camera we obtain the diagonal elements of the initial state density matrix. Measuring the image and interference patterns of the evolved qutrit state we verified experimentally the variation of the populations and the decoherence effects caused by the quantum jumps in the three-level system for the three-level decay configurations.
翻訳日:2023-05-16 00:53:44 公開日:2020-06-11
# 量子マルチパラメータ推定のための変分ツールボックス

A variational toolbox for quantum multi-parameter estimation ( http://arxiv.org/abs/2006.06303v1 )

ライセンス: Link先を確認
Johannes Jakob Meyer, Johannes Borregaard, Jens Eisert(参考訳) ノイズと中間スケールの量子デバイスのエコシステムが拡大する中で、その応用の可能性を探究することは、量子情報科学の急速に成長する分野である。 本研究では,このようなデバイスで実現可能な変分量子アルゴリズムが,量子メトロロジーの分野において中心となる課題である,ノイズ多パラメータ推定問題に対する近接光学プローブと測定演算子の同定に対処できることを実証する。 まず,変分パラメータの逐次更新によってプローブの状態や測定精度が向上し,離散的および連続的変数設定にも広く適用可能な汎用フレームワークを提案する。 次に,提案手法の実用的機能を示すために数値シミュレーションを行い,雑音環境下での標準手法に対してプローブと計測がいかに改善されるかを示す。 その過程で、変分量子アルゴリズムにおける一般的な関心を期待するノイズ進化に対する一般パラメータシフト則の有効性を証明した。 提案手法では,量子支援設計の考え方を提唱し,量子技術を利用して最適かつ実験的に実現可能な量子メトロジープロトコルを学習する。

With an ever-expanding ecosystem of noisy and intermediate-scale quantum devices, exploring their possible applications is a rapidly growing field of quantum information science. In this work, we demonstrate that variational quantum algorithms feasible on such devices address a challenge central to the field of quantum metrology: The identification of near-optimal probes and measurement operators for noisy multi-parameter estimation problems. We first introduce a general framework which allows for sequential updates of variational parameters to improve probe states and measurements and is widely applicable to both discrete and continuous-variable settings. We then demonstrate the practical functioning of the approach through numerical simulations, showcasing how tailored probes and measurements improve over standard methods in the noisy regime. Along the way, we prove the validity of a general parameter-shift rule for noisy evolutions, expected to be of general interest in variational quantum algorithms. In our approach, we advocate the mindset of quantum-aided design, exploiting quantum technology to learn close to optimal, experimentally feasible quantum metrology protocols.
翻訳日:2023-05-16 00:49:50 公開日:2020-06-11
# モントリオールAI倫理研究所がスコットランドのAI戦略に反応

Montreal AI Ethics Institute's Response to Scotland's AI Strategy ( http://arxiv.org/abs/2006.06300v1 )

ライセンス: Link先を確認
Abhishek Gupta (Montreal AI Ethics Institute and Microsoft)(参考訳) 2020年1月と2月、スコットランド政府は人工知能(AI)戦略に関する2つの文書を公開した。 モントリオールAI倫理研究所(MAIEI)はこれらの文書をレビューし、2020年6月4日に回答を発表した。 MaIEI氏の回答は、提案されたAIの定義、人中心の戦略の性質、すべての人がAIから恩恵を受けることを保証するための考慮、戦略の全体的ビジョン、スコットランドのAIエコシステム、提案された戦略的テーマ、責任と倫理的なシステムを構築することでAIに対する大衆の信頼を高める方法について、いくつかの質問を調査している。 上記のポイントの検証に加えて、maiei氏はこの戦略を拡張してバイオメトリックデータと、それがaiのコンテキストでどのように処理され使用されるかを検討することを提案している。 また、深層学習システムの本質的に確率的な性質に取り組むことの重要性を強調し、特に機械学習がよりアクセスしやすくなれば、これらのシステムが責任を持って倫理的に構築されることを保証するための具体的なガイドラインを開発する。 最後に、あらゆる国家AI戦略は、戦略が一貫して解釈され、適用されることを保証するために、戦略の指示された目標とビジョンに関する成功の測定に明確に対処する必要があると結論付けている。 そのためには、システム構築者とそれを使用する人の間には、包摂性と透明性が必要です。

In January and February 2020, the Scottish Government released two documents for review by the public regarding their artificial intelligence (AI) strategy. The Montreal AI Ethics Institute (MAIEI) reviewed these documents and published a response on 4 June 2020. MAIEI's response examines several questions that touch on the proposed definition of AI; the people-centered nature of the strategy; considerations to ensure that everyone benefits from AI; the strategy's overarching vision; Scotland's AI ecosystem; the proposed strategic themes; and how to grow public confidence in AI by building responsible and ethical systems. In addition to examining the points above, MAIEI suggests that the strategy be extended to include considerations on biometric data and how that will be processed and used in the context of AI. It also highlights the importance of tackling head-on the inherently stochastic nature of deep learning systems and developing concrete guidelines to ensure that these systems are built responsibly and ethically, particularly as machine learning becomes more accessible. Finally, it concludes that any national AI strategy must clearly address the measurements of success in regards to the strategy's stated goals and vision to ensure that they are interpreted and applied consistently. To do this, there must be inclusion and transparency between those building the systems and those using them in their work.
翻訳日:2023-05-16 00:49:32 公開日:2020-06-11
# クープマン・フォン・ノイマン力学におけるエルマコフ・ルウィス不変量

Ermakov-Lewis invariant in Koopman-von Neumann mechanics ( http://arxiv.org/abs/2006.06489v1 )

ライセンス: Link先を確認
Abhijit Sen and Zurab Silagadze(参考訳) 新聞『sci』に登場。 ermakov-lewis不変量(ermakov-lewis invariant)は、クープマン・フォン・ノイマン力学における時間依存調和振動子のために構築された。 我々は、この不変量を見つけるためのより単純な方法が存在することを指摘した。

In the paper Sci. Rep. 8, 8401 (2018), among other things, the Ermakov-Lewis invariant was constructed for the time dependent harmonic oscillator in Koopman-von Neumann mechanics. We point out that there is a simpler method that allows one to find this invariant.
翻訳日:2023-05-16 00:39:01 公開日:2020-06-11
# デッドエイティブ物理学者実験: 量子計測過程における意識が波動関数の崩壊を引き起こすという仮説を実証するケーススタディ

The Dead-Alive Physicist experiment: a case-study disproving the hypothesis that consciousness causes the wave-function collapse in the quantum measurement process ( http://arxiv.org/abs/2006.06368v1 )

ライセンス: Link先を確認
Carlo Roselli and Bruno Raffaele Stella(参考訳) 本稿では,観測者の意識が量子測定に必要であるという仮説を解明することを目的とする。 目的を達成するために,ヒトが猫に取って代わる「死の物理学者」の略である「dap」と呼ばれるシュレーディンガーの猫思考実験のバリエーションを提案する。 この戦略は、上記の仮説の一貫性を論理的に反証し、その支持者をソリプシズムに閉じ込めるか、あるいは意識的なオブザーバの役割を見直しなければならない量子力学の代替解釈に頼ることを義務付けることができる。 そこで,本研究では,観察者の観察対象と実験対象との関係を明らかにするための支援を行うとともに,第4章および結論において,他のいくつかの意味について考察する。

This paper aims to falsify the hypothesis that the observer's consciousness is necessary for quantum measurement. To achieve our target, we propose a variation of the Schroedinger's cat thought experiment called "DAP", short for "Dead-Alive Physicist", in which a human being replaces the cat. This strategy enables us to logically disprove the consistency of the above hypothesis and to oblige its supporters either to be trapped in solipsism or to rely on an alternative interpretation of quantum mechanics in which the role of the conscious observer has to be reviewed. Our analysis hence provides support to clarify the relationship between the observer the objects of her/his experimental observation; this and a few other implications are discussed in the fourth section and in the conclusions.
翻訳日:2023-05-16 00:38:51 公開日:2020-06-11
# 外部重力場による2つの物体間の量子重力相互作用

Quantum gravitational interaction between two objects induced by external gravitational radiation fields ( http://arxiv.org/abs/2006.06354v1 )

ライセンス: Link先を確認
Yongshun Hu, Jiawei Hu, Hongwei Yu(参考訳) 線形化量子重力の枠組みにおいて、外部量子化重力放射場の存在下での2つの重力分極可能な物体の基底状態における誘起重力相互作用を探索する。 相互作用エネルギーは近くの状態では$r^{-5}$として減少し、遠方の状態では$r^{-1}$に比例して振幅が減少して振動する。 相互作用は、外部重力場の伝播方向、偏光、周波数によって魅力的または反発的である。 すなわち、誘導相互作用は、入射重力放射の伝播方向に対する物体の向きの間の相対方向を変化させることで操作できる。

We explore, in the framework of linearized quantum gravity, the induced gravitational interaction between two gravitationally polarizable objects in their ground states in the presence of an external quantized gravitational radiation field. The interaction energy decreases as $r^{-5}$ in the near regime, and oscillates with a decreasing amplitude proportional to $r^{-1}$ in the far regime, where $r$ is the distance between the two objects. The interaction can be either attractive or repulsive depending on the propagation direction, polarization and frequency of the external gravitational field. That is, the induced interaction can be manipulated by varying the relative direction between the orientation of the objects with respect to the propagation direction of the incident gravitational radiation.
翻訳日:2023-05-16 00:38:23 公開日:2020-06-11
# Lee-Yang dephasingチャネルにおけるスピンスクイーズとコンカレンス

Spin squeezing and concurrence under Lee-Yang dephasing channels ( http://arxiv.org/abs/2006.06342v1 )

ライセンス: Link先を確認
Yuguo Su, Hongbin Liang and Xiaoguang Wang(参考訳) リー・ヤン零点は、多体系に結合されたプローブスピンのコヒーレンスにおける零点への1対1の写像である。 ここでは, 分割関数がLee-Yang零点で消滅する2種類のLee-Yang dephasingチャネルのスピンスクイーズについて検討する。 プローブを自身の浴槽に結合する第1タイプのチャネルでは,スピンスクイーズの性能が向上し,その最大値は初期状態にのみ依存することがわかった。 さらに、全ての共起消滅領域の中心は、リー・ヤン零点に対応する。 プローブを1つの浴に結合する第2タイプのチャネルでは、スピンスクイーズの性能は改善されないが、コンカレンスはほぼ同じ特性を両チャネルで共有する。 これらの結果は多体物理学における新たな実験可能性を与え、プローブ-バス系における絡み合いとスピンスクイージングの関係の新たな視点を広げる。

The Lee-Yang zeros are one-to-one mapping to zeros in the coherence of a probe spin coupled to a many-body system. Here, we study the spin squeezing under two different types of Lee-Yang dephasing channels in which the partition functions vanish at Lee-Yang zeros. Under the first type of the channels in which probes are coupled to their own bath, we find that the performance of spin squeezing is improved and its maximum only depends on the initial state. Moreover, the centers of all the concurrence vanishing domains are corresponding to the Lee-Yang zeros. Under the second type of the channels in which probes are coupled to one bath together, the performance of spin squeezing is not improved, however, the concurrence shares almost the same properties under both channels. These results provide new experimental possibilities in many-body physics and extend a new perspective of the relationship between the entanglement and spin squeezing in probes-bath systems.
翻訳日:2023-05-16 00:38:13 公開日:2020-06-11
# 非線形光学系における機械振動子温度測定

Mechanical oscillator thermometry in the nonlinear optomechanical regime ( http://arxiv.org/abs/2006.06699v1 )

ライセンス: Link先を確認
Victor Montenegro, Marco G. Genoni, Abolfazl Bayat, Matteo G. A. Paris(参考訳) 光機械システムは、制御された光間相互作用のプラットフォームとして有望である。 メカニカル発振器が冷却されてほぼ基底状態に達すると、いくつかの基本的で実用的な新しい特徴を提供することができる。 この枠組みでは、発振器の有効温度を測定することは、これらのシステムの特徴付けにおいておそらく最も重要なステップである。 従来のスキームでは、空洞は強く駆動され、全体系は線型(ガウス保存)ハミルトニアンによって明確に記述される。 ここでは,非ゲージ放射圧相互作用による非駆動光力学系を考えることにより,この状態から脱却する。 機械発振器の温度を測定するために、まず熱状態において、光をプローブとして使用し、それをコヒーレントに相互作用させ、絡み合った状態を生成する。 光学プローブは非ガウス相互作用により非線形位相となり、非コヒーレント位相拡散過程を経ることを示す。 絡み合った光物質状態から効率的に温度を推定するために, ホモダイン検出器の前の非線形Kerr媒体を提案する。 興味深いことに、Kerr媒体を配置することで、量子フィッシャー情報によって与えられる究極の量子境界をほぼ飽和させる精度が向上する。 さらに、温度に依存しないホモダイン局所位相の選択を行うため、適応型センシングプロトコルの必要性を避けるため、温度測定手順を単純化する。

Optomechanical systems are promising platforms for controlled light-matter interactions. They are capable of providing several fundamental and practical novel features when the mechanical oscillator is cooled down to nearly reach its ground state. In this framework, measuring the effective temperature of the oscillator is perhaps the most relevant step in the characterization of those systems. In conventional schemes, the cavity is driven strongly, and the overall system is well-described by a linear (Gaussian preserving) Hamiltonian. Here, we depart from this regime by considering an undriven optomechanical system via non-Gaussian radiation-pressure interaction. To measure the temperature of the mechanical oscillator, initially in a thermal state, we use light as a probe to coherently interact with it and create an entangled state. We show that the optical probe gets a nonlinear phase, resulting from the non-Gaussian interaction, and undergoes an incoherent phase diffusion process. To efficiently infer the temperature from the entangled light-matter state, we propose using a nonlinear Kerr medium before a homodyne detector. Remarkably, placing the Kerr medium enhances the precision to nearly saturate the ultimate quantum bound given by the quantum Fisher information. Furthermore, it also simplifies the thermometry procedure as it makes the choice of the homodyne local phase independent of the temperature, which avoids the need for adaptive sensing protocols.
翻訳日:2023-05-16 00:31:32 公開日:2020-06-11
# 量子ネットワークの特徴付け:コヒーレンス理論からの洞察

Characterizing Quantum Networks: Insights from Coherence Theory ( http://arxiv.org/abs/2006.06693v1 )

ライセンス: Link先を確認
Tristan Kraft, Cornelia Spee, Xiao-Dong Yu, Otfried G\"uhne(参考訳) 絡み合った量子システムに基づくネットワークは量子情報処理において興味深い応用が可能であり、量子相関の理解は技術の進歩に不可欠である。 量子コヒーレンス理論は、この問題を解析するための強力なツールを提供する。 そこで本研究では,共分散行列に基づくネットワーク相関に対する最近提案されているアプローチを,最も重要な場合に対して改善し,分析的に評価できることを実証する。

Networks based on entangled quantum systems enable interesting applications in quantum information processing and the understanding of the resulting quantum correlations is essential for advancing the technology. We show that the theory of quantum coherence provides powerful tools for analyzing this problem. For that, we demonstrate that a recently proposed approach to network correlations based on covariance matrices can be improved and analytically evaluated for the most important cases.
翻訳日:2023-05-16 00:31:08 公開日:2020-06-11
# 拡張ディックモデルにおける量子相転移とベリー相

Quantum Phase Transition and Berry Phase in an Extended Dicke Model ( http://arxiv.org/abs/2006.06597v1 )

ライセンス: Link先を確認
C. A. Estrada Guerra (1 and 2), J. Mahecha-G\'omez (1), J. G. Hirsch (2) ((1) Universidad de Antioquia, Instituto de F\'isica, Facultad de Ciencias Exactas y Naturales, Medell\'in-Colombia, (2) Instituto de Ciencias Nucleares, Universidad Nacional Aut\'onoma de M\'exico, CDMX, Mexico)(参考訳) 非線形光学媒体に埋め込まれた非相互作用2レベル原子の基底状態について、量子相転移、量子臨界性、ベリー相を単一モード量子化電磁場と結合して検討する。 光媒体は古典電界を介して外部に励起されるので、縮退パラメトリック増幅効果があり、原子セクターに影響を与えることなく磁場力学を強く修飾する。 半古典的記述を通して、この拡張ディッケモデルの異なる位相を記述する。 量子相転移は、ベリー相やその第1導関数と同様に、系の観測可能ないくつかの期待値によって特徴づけられる。 このモデルは、非線形光学媒質のパラメータの適切な選択により量子臨界性を制御することができ、低強度レーザーを用いて実験的に超ラジアント領域にアクセスすることができることは注目すべきである。

We investigate quantum phase transitions, quantum criticality, and Berry phase for the ground state of an ensemble of non-interacting two-level atoms embedded in a non-linear optical medium, coupled to a single-mode quantized electromagnetic field. The optical medium is pumped externally through a classical electric field, so that there is a degenerate parametric amplification effect, which strongly modifies the field dynamics without affecting the atomic sector. Through a semiclassical description the different phases of this extended Dicke model are described. The quantum phase transition is characterized with the expectation values of some observables of the system as well as the Berry phase and its first derivative, where such quantities serve as order parameters. It is remarkable that the model allows the control of the quantum criticality through a suitable choice of the parameters of the non-linear optical medium, which could make possible the use of a low intensity laser to access the superradiant region experimentally.
翻訳日:2023-05-16 00:29:48 公開日:2020-06-11
# 量子2レベル系におけるゲージ原理とゲージ不変性

Gauge Principle and Gauge Invariance in Quantum Two-Level Systems ( http://arxiv.org/abs/2006.06583v1 )

ライセンス: Link先を確認
Salvatore Savasta, Omar Di Stefano, Alessio Settineri, David Zueco, Stephen Hughes, and Franco Nori(参考訳) 量子ラビモデル(quantum rabi model)は、2レベル系と電磁共振器の量子化された単一モードの結合について広く説明されている。 このモデルのゲージ不変性に関する問題が提起されている。 これらの問題は、光間相互作用がいわゆる超強結合状態に達すると明らかになる。 近年,任意の相互作用系においてゲージ不変な物理結果を提供できる修正量子rabiモデルが導入された [nature physics 15, 803 (2019)]。 ここでは、ゲージ原理の2状態系において、量子場理論における全ての基本相互作用が導出される原理として、この結果の代替導出を提案する。 この手法は、格子ゲージ理論においてゲージ原理を実装するのに使用される一般手法の2サイト版とみなすことができる。 この手法を応用し、非対称2状態系に対するゲージ不変量子ラビモデルと双極子近似を超えるマルチモードゲージ不変量子ラビモデルを得る。

The quantum Rabi model is a widespread description for the coupling between a two-level system and a quantized single mode of an electromagnetic resonator. Issues about this model's gauge invariance have been raised. These issues become evident when the light-matter interaction reaches the so-called ultrastrong coupling regime. Recently, a modified quantum Rabi model able to provide gauge-invariant physical results in any interaction regime was introduced [Nature Physics 15, 803 (2019)]. Here we provide an alternative derivation of this result, based on the implementation in two-state systems of the gauge principle, which is the principle from which all the fundamental interactions in quantum field theory are derived. The adopted procedure can be regarded as the two-site version of the general method used to implement the gauge principle in lattice gauge theories. Applying this method, we also obtain the gauge-invariant quantum Rabi model for asymmetric two-state systems, and the multi-mode gauge-invariant quantum Rabi model beyond the dipole approximation.
翻訳日:2023-05-16 00:29:32 公開日:2020-06-11
# 自己整合トモグラフィと計測デバイス独立暗号

Self-consistent tomography and measurement-device independent cryptography ( http://arxiv.org/abs/2006.06559v1 )

ライセンス: Link先を確認
I.D. Moore and S.J. van Enk(参考訳) 量子力学における繰り返しの問題は、量子系の状態またはそれに適用された測定演算子を推定することである。 両方を推定したい場合は、状態と測定値が常に一緒に現れることが困難である:状態を推定するには、測定値を使用しなければならず、測定演算子を推定するには、状態を使用する必要がある。 このような量子推定実験のデータは測定周波数の形で得られる。 理想的には、測定された平均周波数は平均状態と平均測定オペレータに起因することができる。 もしそうでなければ、相関状態準備測定(SPAM)エラーがある。 このような相関したエラーを検出するために開発されたいくつかのテストを拡張し、両者がそれぞれの状態を信頼する暗号シナリオに適用する。

A recurring problem in quantum mechanics is to estimate either the state of a quantum system or the measurement operator applied to it. If we wish to estimate both, then the difficulty is that the state and the measurement always appear together: to estimate the state, we must use a measurement; to estimate the measurement operator, we must use a state. The data of such quantum estimation experiments come in the form of measurement frequencies. Ideally, the measured average frequencies can be attributed to an average state and an average measurement operator. If this is not the case, we have correlated state-preparation-and-measurement (SPAM) errors. We extend some tests developed to detect such correlated errors to apply to a cryptographic scenario in which two parties trust their individual states but not the measurement performed on the joint state.
翻訳日:2023-05-16 00:29:15 公開日:2020-06-11
# データセンターのエネルギー分析のためのロバストなモデリングフレームワーク

A robust modeling framework for energy analysis of data centers ( http://arxiv.org/abs/2006.06819v1 )

ライセンス: Link先を確認
Nuoa Lei(参考訳) グローバルデジタル化は、現代生活のほぼ全ての分野において、デジタルサービスの爆発を生んだ。 人工知能、ブロックチェーン技術、モノのインターネットの応用は、デジタル化をさらに加速することを約束している。 その結果、データ処理、ストレージ、通信サービスのサービスを提供するデータセンターの数も急速に増加している。 データセンターは電力需要が大幅に増大するエネルギー集約的であるため、時間的、空間的、予測的分析能力を備えたデータセンターのエネルギーモデルは、技術投資の決定を産業や政府当局に導く上で重要である。 しかし、現在のモデルは、厳しいデータギャップのため、データセンターに対して一貫した高次元エネルギー分析を提供していない。 これは、現在のエネルギーモデルにおいて、it機器やデータセンター冷却および電力供給インフラを含むデータセンターコンポーネントのエネルギー分析のためのモデリング能力の欠如に起因する可能性がある。 本研究では,現在のデータセンターエネルギーモデルにおける知識のギャップに対処するために,データ駆動アプローチとハイブリッドな技術に基づくモデリングフレームワークを提案する。 この研究の目的は、政策立案者とデータセンターエネルギーアナリストに、データセンターのエネルギー利用と効率の機会の包括的理解と、マクロレベルのデータセンターのエネルギー需要と省エネポテンシャルの理解と、エネルギー効率対策を採用するための技術的障壁を提供することである。

Global digitalization has given birth to the explosion of digital services in approximately every sector of contemporary life. Applications of artificial intelligence, blockchain technologies, and internet of things are promising to accelerate digitalization further. As a consequence, the number of data centers, which provide the services of data processing, storage, and communication services, is also increasing rapidly. Because data centers are energy-intensive with significant and growing electricity demand, an energy model of data centers with temporal, spatial, and predictive analysis capability is critical for guiding industry and governmental authorities for making technology investment decisions. However, current models fail to provide consistent and high dimensional energy analysis for data centers due to severe data gaps. This can be further attributed to the lack of the modeling capabilities for energy analysis of data center components including IT equipment and data center cooling and power provisioning infrastructure in current energy models. In this research, a technology-based modeling framework, in hybrid with a data-driven approach, is proposed to address the knowledge gaps in current data center energy models. The research aims to provide policy makers and data center energy analysts with comprehensive understanding of data center energy use and efficiency opportunities and a better understanding of macro-level data center energy demand and energy saving potentials, in addition to the technological barriers for adopting energy efficiency measures.
翻訳日:2023-05-16 00:20:25 公開日:2020-06-11
# Twitterでプライバシーと監視について語る:COVID-19のケーススタディ

Discussing Privacy and Surveillance on Twitter: A Case Study of COVID-19 ( http://arxiv.org/abs/2006.06815v1 )

ライセンス: Link先を確認
Jayati Dev(参考訳) 新型コロナウイルス(COVID-19)のパンデミックなど公衆衛生上の懸念が広がる中、テクノロジーは大量の情報を分析し、貴重な洞察を提供するのに役立ちます。 事実、AppleやGoogleのような情報技術企業は最近、ウイルスの拡散を封じ込めるために、位置情報を処理して患者と接触した人を特定するツールをローンチした。 中国とシンガポールはこの取り組みを成功させたが、ますます多くの国がこうした監視システムを実装しており、この長期的な監視に関する潜在的なプライバシーの懸念が高まっている。 例えば、パンデミック後の情報に何が起こるかは、政府がデータポリシーを精査することなく、世界的危機の間に情報を共有する傾向が強いため、明らかではない。 世界で3億3000万人のユーザーがいるTwitter上のDigital Ethnography(デジタルエスノグラフィー)は、パンデミックが最悪の影響を受けている米国では、かなり自然主義的な状況で、一般大衆のリアルタイムな意見を学ぶ機会となっている。 その結果、Twitterのデータ分析や、前例のない公衆衛生のアウトブレイク時の情報共有ポリシーを通じて、ユーザのプライバシー上の懸念を強調できるかもしれない。 これにより、政府は健康上の緊急事態の時と後に市民を保護できる。

Technology is uniquely positioned to help us analyze large amounts of information to provide valuable insight during widespread public health concerns, like the ongoing COVID-19 pandemic. In fact, information technology companies like Apple and Google have recently launched tools for contact tracing-the ability to process location data to determine the people who have been in contact with a possible patient, in order to contain the spread of the virus. While China and Singapore have successfully led the effort, more and more countries are now implementing such surveillance systems, raising potential privacy concerns about this long term surveillance. For example, it is not clear what happens to the information post-pandemic because people are more likely to share their information during a global crisis without governments having to elaborate on their data policies. Digital Ethnography on Twitter, which has over 330 million users worldwide, with a majority in the United States where the pandemic has the worst effects provides a unique opportunity to learn about real-time opinions of the general public about current affairs in a rather naturalistic setting. Consequently, it might be useful to highlight the privacy concerns of users, should they exist, through analysis of Twitter data and information sharing policies during unprecedented public health outbreaks. This will allow governments to protect their citizens both during and after health emergencies.
翻訳日:2023-05-16 00:20:02 公開日:2020-06-11
# 空間分割多重光ファイバー技術を用いた高次元自己試験非バイアス基底

Self-testing mutually unbiased bases in higher dimensions with space-division multiplexing optical fiber technology ( http://arxiv.org/abs/2006.06784v1 )

ライセンス: Link先を確認
M\'at\'e Farkas, Nayda Guerrero, Jaime Cari\~ne, Gustavo Ca\~nas, Gustavo Lima(参考訳) デバイス非依存の量子情報アプローチでは、特定のタスクの実装は、記録された統計データからのみ自己テストでき、採用するデバイスの詳細なモデルがない。 実験的に要求されるにもかかわらず、関連する要件を自然に満たす高度な量子技術に対する魅力的な検証スキームを提供する。 本研究では, 空間分割多重光ファイバー技術を用いた新しい量子デバイスの適切な機能を証明するために, 自己試験プロトコルを適用できるかどうかを実験的に検討する。 具体的には,M の準備・測定プロトコルについて考察する。 ~FarkasとJ。 ~Kaniewski (Phys.~Rev.~A 99, 032316) は、次元$d>2$の相互非バイアス基底(MUB)に対応する自己試験測度である。 本手法では,新しいマルチコア光ファイバーおよび関連部品を内蔵したマルチアーム干渉計を用いて,状態の調製と測定を行う。 この技術で達成された干渉計の光学モードの高オーバーラップにより、我々は2つの4次元mubの実装を自己テストするために必要なビジビティに到達できる。 また、測定の2つの操作量を定量化します。 (i)ベル違反と結びついた非互換性の堅牢性、及び (ii)結果から抽出可能なランダム性。 mubは複数の量子情報プロトコルのコアにあるので、空間分割多重光ファイバーを応用した将来の量子研究に実用的関心が寄せられている。

In the device-independent quantum information approach, the implementation of a given task can be self-tested solely from the recorded statistics and without detailed models for the employed devices. Even though experimentally demanding, it provides appealing verification schemes for advanced quantum technologies that naturally fulfil the associated requirements. In this work, we experimentally study whether self-testing protocols can be adopted to certify the proper functioning of new quantum devices built with modern space-division multiplexing optical fiber technology. Specifically, we consider the prepare-and-measure protocol of M.~Farkas and J.~Kaniewski (Phys.~Rev.~A 99, 032316) for self-testing measurements corresponding to mutually unbiased bases (MUBs) in a dimension $d>2$. In our scheme, the state preparation and measurement stages are implemented with a multi-arm interferometer built with new multi-core optical fibers and related components. Due to the high-overlap of the interferometer's optical modes achieved with this technology, we are able to reach the required visibilities for self-testing the implementation of two four-dimensional MUBs. We also quantify two operational quantities of the measurements: (i) the incompatibility robustness, connected to Bell violations, and (ii) the randomness extractable from the outcomes. Since MUBs lie at the core of several quantum information protocols, our results are of practical interest for future quantum works relying on space-division multiplexing optical fibers.
翻訳日:2023-05-16 00:19:14 公開日:2020-06-11
# 計算機科学プログラムのカリキュラム複雑度バーサス品質

Curricular Complexity Versus Quality of Computer Science Programs ( http://arxiv.org/abs/2006.06761v1 )

ライセンス: Link先を確認
Gregory L. Heileman, Hayden W. Free, Johnny Flynn, Camden Mackowiak, Jerzy W. Jaromczyk, Chaouki T. Abdallah(参考訳) 本稿では,コンピュータ科学科の学部カリキュラムの複雑さを計測し,その品質をメートル法に基づくランキングシステムによって決定される学部の品質と比較する。 研究の目的は、コンピュータサイエンス部門の品質とそれらが提供するカリキュラムの複雑さの間に関係があるかどうかを判定することであった。 カリキュラムの複雑度とプログラム品質の関係を, 大学電気工学専攻の学生を対象に検討し, 驚くべき結果を得た。 その結果、もし米国ニュース&ワールドレポートのBest Undergraduate Programsランキングが品質のプロキシとして使われるなら、高品質の電気工学プログラムと低品質の電気工学プログラムの間には統計的に有意な差があることが判明した。 さらに, 高品質な電気工学プログラムは, 複雑度が低い傾向があり, その逆もあることがわかった。 本報告では,学部コンピュータサイエンス科において,プログラム品質とカリキュラムの複雑さの逆関係が存在していることを判断するために,十分な量のデータを収集した。 このことは、この現象がSTEM分野のスペクトルにわたってどの程度存在するかという興味深い疑問を引き起こす。

In this research paper we describe a study that involves measuring the complexities of undergraduate curricula offered by computer science departments, and then comparing them to the quality of these departments, where quality is determined by a metric-based ranking system. The study objective was to determine whether or not a relationship exists between the quality of computer science departments and the complexity of the curricula they offer. The relationship between curricular complexity and program quality was previously investigated for the case of undergraduate electrical engineering programs, with surprising results. It was found that if the US News & World Report Best Undergraduate Programs ranking is used as a proxy for quality, then a statistically significant difference in curricular complexities exists between higher and lower quality electrical engineering programs. Furthermore, it was found that higher quality electrical engineering programs tend to have lower complexity curricula, and vice versa. In the study reported in this paper, a sufficient amount of data was collected in order to determine that an inverse relationship between program quality and curricular complexity also exists in undergraduate computer science departments. This brings up an interesting question regarding the extent to which this phenomenon exists across the spectrum of STEM disciplines.
翻訳日:2023-05-16 00:18:47 公開日:2020-06-11
# 相関ポリシーを用いたマルチエージェントインタラクションモデリング

Multi-Agent Interactions Modeling with Correlated Policies ( http://arxiv.org/abs/2001.03415v3 )

ライセンス: Link先を確認
Minghuan Liu, Ming Zhou, Weinan Zhang, Yuzheng Zhuang, Jun Wang, Wulong Liu, Yong Yu(参考訳) 多エージェント系では、エージェント間の高い相関関係によって複雑な相互作用挙動が生じる。 しかしながら、実証から多エージェントインタラクションをモデル化する以前の研究は、主にポリシーと報酬構造の間の独立性を仮定することで制限されている。 本稿では,類似した相互作用を再現できるエージェントのポリシーを回復できる相手のポリシーを近似することにより,相関ポリシーを明示的にモデル化するマルチエージェント模倣学習フレームワークに,マルチエージェントインタラクションモデリング問題をキャストする。 そこで我々は,CoDAIL (Correlated Policy) を用いた分散適応模倣学習アルゴリズムを開発し,分散学習と実行を可能にした。 様々な実験により、CoDAILはデモレーターに近い複雑な相互作用を再現し、最先端のマルチエージェント模倣学習法より優れていることが示されている。 私たちのコードは \url{https://github.com/apexrl/CoDAIL} で利用可能です。

In multi-agent systems, complex interacting behaviors arise due to the high correlations among agents. However, previous work on modeling multi-agent interactions from demonstrations is primarily constrained by assuming the independence among policies and their reward structures. In this paper, we cast the multi-agent interactions modeling problem into a multi-agent imitation learning framework with explicit modeling of correlated policies by approximating opponents' policies, which can recover agents' policies that can regenerate similar interactions. Consequently, we develop a Decentralized Adversarial Imitation Learning algorithm with Correlated policies (CoDAIL), which allows for decentralized training and execution. Various experiments demonstrate that CoDAIL can better regenerate complex interactions close to the demonstrators and outperforms state-of-the-art multi-agent imitation learning methods. Our code is available at \url{https://github.com/apexrl/CoDAIL}.
翻訳日:2023-01-14 12:56:53 公開日:2020-06-11
# 深部グラフ拡散ネットワークを用いた教師なし画像検索のためのグローバル・ローカル一貫性表現の学習

Learning Global and Local Consistent Representations for Unsupervised Image Retrieval via Deep Graph Diffusion Networks ( http://arxiv.org/abs/2001.01284v2 )

ライセンス: Link先を確認
Zhiyong Dou, Haotian Cui, Lin Zhang, Bo Wang(参考訳) 画像多様体の高次構造を利用して,教師なし画像検索システムの精度向上に成功している。 しかし、既存の拡散法には3つの大きな制限がある。 1) それらは通常,大域多様体情報を考慮せずに,局所構造に依存する。 2) 既存の画像入力出力のペアワイド類似性の改善に重点を置いており, 新規な未確認インスタンスの表現を誘導的に学習する柔軟性を欠いている。 3)グラフ全体における本質的な高次演算によるメモリ消費の禁止と計算負荷のため,大規模なデータセットにスケールできない。 本稿では,これらの制約に対処するために,不規則グラフ上のディープラーニングアルゴリズムの新しい変種であるグラフニューラルネットワーク(gnns)を採用する新しい手法であるグラフ拡散ネットワーク(grad-net)を提案する。 GRAD-Netは、画像多様体の局所的構造と大域的構造の両方を教師なしで利用することによって意味表現を学習する。 スパースコーディング技術を利用することで、grad-netは画像多様体のグローバル情報を保存できるだけでなく、スケーラブルなトレーニングと効率的なクエリを可能にする。 いくつかの大規模ベンチマークデータセットにおける実験により,教師なし画像検索における最先端拡散アルゴリズムの有効性が実証された。

Diffusion has shown great success in improving accuracy of unsupervised image retrieval systems by utilizing high-order structures of image manifold. However, existing diffusion methods suffer from three major limitations: 1) they usually rely on local structures without considering global manifold information; 2) they focus on improving pair-wise similarities within existing images input output transductively while lacking flexibility to learn representations for novel unseen instances inductively; 3) they fail to scale to large datasets due to prohibitive memory consumption and computational burden due to intrinsic high-order operations on the whole graph. In this paper, to address these limitations, we propose a novel method, Graph Diffusion Networks (GRAD-Net), that adopts graph neural networks (GNNs), a novel variant of deep learning algorithms on irregular graphs. GRAD-Net learns semantic representations by exploiting both local and global structures of image manifold in an unsupervised fashion. By utilizing sparse coding techniques, GRAD-Net not only preserves global information on the image manifold, but also enables scalable training and efficient querying. Experiments on several large benchmark datasets demonstrate effectiveness of our method over state-of-the-art diffusion algorithms for unsupervised image retrieval.
翻訳日:2023-01-14 08:00:44 公開日:2020-06-11
# WeatherBench: データ駆動型天気予報のためのベンチマークデータセット

WeatherBench: A benchmark dataset for data-driven weather forecasting ( http://arxiv.org/abs/2002.00469v3 )

ライセンス: Link先を確認
Stephan Rasp, Peter D. Dueben, Sebastian Scher, Jonathan A. Weyn, Soukayna Mouatadid, Nils Thuerey(参考訳) データ駆動アプローチ(特にディープラーニング)は、多くの領域で強力な予測ツールになっています。 自然の疑問は、データ駆動の手法が、事前に世界の気象パターンを予測できるかどうかである。 最初の研究は、将来性を示すが、共通のデータセットと評価指標の欠如は、研究間の比較を困難にしている。 本稿では,データ駆動型中距離気象予報のためのベンチマークデータセットを提案する。 機械学習モデルでの使用を容易にするために処理されたERA5アーカイブから得られたデータを提供する。 本稿では,異なる手法の直接比較を可能にする簡易で明確な評価指標を提案する。 さらに,単純な線形回帰手法,深層学習モデル,純粋に物理的予測モデルによるベースラインスコアを提供する。 データセットはhttps://github.com/pangeo-data/WeatherBenchで公開されている。 このデータセットが、データ駆動の天気予報の研究を加速することを願っている。

Data-driven approaches, most prominently deep learning, have become powerful tools for prediction in many domains. A natural question to ask is whether data-driven methods could also be used to predict global weather patterns days in advance. First studies show promise but the lack of a common dataset and evaluation metrics make inter-comparison between studies difficult. Here we present a benchmark dataset for data-driven medium-range weather forecasting, a topic of high scientific interest for atmospheric and computer scientists alike. We provide data derived from the ERA5 archive that has been processed to facilitate the use in machine learning models. We propose simple and clear evaluation metrics which will enable a direct comparison between different methods. Further, we provide baseline scores from simple linear regression techniques, deep learning models, as well as purely physical forecasting models. The dataset is publicly available at https://github.com/pangeo-data/WeatherBench and the companion code is reproducible with tutorials for getting started. We hope that this dataset will accelerate research in data-driven weather forecasting.
翻訳日:2023-01-04 20:14:32 公開日:2020-06-11
# ソースコードモデルにおける意味的ロバスト性

Semantic Robustness of Models of Source Code ( http://arxiv.org/abs/2002.03043v2 )

ライセンス: Link先を確認
Goutham Ramakrishnan, Jordan Henkel, Zi Wang, Aws Albarghouthi, Somesh Jha, Thomas Reps(参考訳) 深層ニューラルネットワークは敵の例に弱い - 誤った予測をもたらす小さな入力摂動だ。 この問題をソースコードのモデルに適用し、コード機能を保持するソースコード修正に対して、ネットワークが堅牢になることを望む。 1)パラメトリック・セマンティクス保存プログラム変換のシーケンスを活用可能な強力な逆境を定義する。(2)このような逆境に頑健なモデルを学ぶために逆行訓練を実行する方法を示し,(3)異なる言語やアーキテクチャについて評価を行い,ロバスト性に有意な定量的向上を示す。

Deep neural networks are vulnerable to adversarial examples - small input perturbations that result in incorrect predictions. We study this problem for models of source code, where we want the network to be robust to source-code modifications that preserve code functionality. (1) We define a powerful adversary that can employ sequences of parametric, semantics-preserving program transformations; (2) we show how to perform adversarial training to learn models robust to such adversaries; (3) we conduct an evaluation on different languages and architectures, demonstrating significant quantitative gains in robustness.
翻訳日:2023-01-03 04:10:08 公開日:2020-06-11
# ブラックボックス最適化のための方向ガウス平滑化による新しい進化戦略

A Novel Evolution Strategy with Directional Gaussian Smoothing for Blackbox Optimization ( http://arxiv.org/abs/2002.03001v2 )

ライセンス: Link先を確認
Jiaxin Zhang, Hoang Tran, Dan Lu, Guannan Zhang(参考訳) 高次元ブラックボックス最適化のための新しい非局所勾配演算子を用いた進化戦略(es)の改良を提案する。 $d$次元ガウス滑らか化を持つ標準ES法は、モンテカルロ(MC)に基づく勾配推定器の高分散に起因する次元の呪いに悩まされる。 分散を制御するため、ガウス平滑化は通常、小さな領域で制限されるため、既存のes法には局所的ミニマからの脱出に必要な非局所的探索能力がない。 この課題に対処するために,方向ガウス平滑化(dgs)を持つ非局所勾配作用素を開発した。 DGSは$d$直交方向を$\mathbb{R}^d$で1Dの非局所探索を行い、それぞれが非局所方向微分を1D積分として定義する。 次に、mcサンプリングの代わりにgauss-hermite quadratureを使用して、d$ 1d積分を推定し、高い精度(すなわち、小さな分散)を確保する。 提案手法は,高次元最適化におけるグローバル探索を容易にするために有効な非局所探索を可能にする。 本手法の優れた性能は,グローバル最適化のためのベンチマーク関数や実世界科学・工学アプリケーションなど,3つの例で示している。

We propose an improved evolution strategy (ES) using a novel nonlocal gradient operator for high-dimensional black-box optimization. Standard ES methods with $d$-dimensional Gaussian smoothing suffer from the curse of dimensionality due to the high variance of Monte Carlo (MC) based gradient estimators. To control the variance, Gaussian smoothing is usually limited in a small region, so existing ES methods lack nonlocal exploration ability required for escaping from local minima. We develop a nonlocal gradient operator with directional Gaussian smoothing (DGS) to address this challenge. The DGS conducts 1D nonlocal explorations along $d$ orthogonal directions in $\mathbb{R}^d$, each of which defines a nonlocal directional derivative as a 1D integral. We then use Gauss-Hermite quadrature, instead of MC sampling, to estimate the $d$ 1D integrals to ensure high accuracy (i.e., small variance). Our method enables effective nonlocal exploration to facilitate the global search in high-dimensional optimization. We demonstrate the superior performance of our method in three sets of examples, including benchmark functions for global optimization, and real-world science and engineering applications.
翻訳日:2023-01-03 03:31:53 公開日:2020-06-11
# 自動談話セグメンテーション:フランス語における評価

Automatic Discourse Segmentation: an evaluation in French ( http://arxiv.org/abs/2002.04095v2 )

ライセンス: Link先を確認
R\'emy Saksik, Alejandro Molina-Villegas, Andr\'ea Carneiro Linhares, Juan-Manuel Torres-Moreno(参考訳) 本稿では,いくつかの非帰的セグメンテーション手法と,そのセグメンテーション品質の予備評価について述べる。 本実験はフランス語の文書に対して行われたが,複数の言語で同時に利用可能なリソースに基づく3つの非帰的セグメンテーションモデル(マーカリストと統計POSラベリング)を開発した。 また,手作業による注釈付き参照である Annodis corpus に対して,これらのシステムの自動評価を行った。 得られた結果は大いに励まされる。

In this article, we describe some discursive segmentation methods as well as a preliminary evaluation of the segmentation quality. Although our experiment were carried for documents in French, we have developed three discursive segmentation models solely based on resources simultaneously available in several languages: marker lists and a statistic POS labeling. We have also carried out automatic evaluations of these systems against the Annodis corpus, which is a manually annotated reference. The results obtained are very encouraging.
翻訳日:2023-01-02 08:47:46 公開日:2020-06-11
# 自己認識型連想記憶

Self-Attentive Associative Memory ( http://arxiv.org/abs/2002.03519v3 )

ライセンス: Link先を確認
Hung Le, Truyen Tran and Svetha Venkatesh(参考訳) この場合、外部メモリを持つニューラルネットワークは、メモリインタラクションの損失のある単一のメモリに制限される。 メモリ間の関係の豊かな表現は、高次および分離されたリレーショナルメモリを促進する。 本稿では、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。 このアイデアは、新しい自己注意型連想記憶(SAM)演算子によって実装される。 外部積上に存在するsamは、任意の記憶要素の対間の仮定的な高次関係を表す一連の連想記憶を形成し、そこで関係記憶をアイテム記憶から構築する。 2つの記憶は、記憶と関係推論の両方が可能な単一の逐次モデルに繋がる。 提案した2メモリモデルを用いて,合成問題への挑戦から,幾何学,グラフ,強化学習,質問応答といった実践的なテストベッドに至るまで,機械学習タスクの多様性を実現する。

Heretofore, neural networks with external memory are restricted to single memory with lossy representations of memory interactions. A rich representation of relationships between memory pieces urges a high-order and segregated relational memory. In this paper, we propose to separate the storage of individual experiences (item memory) and their occurring relationships (relational memory). The idea is implemented through a novel Self-attentive Associative Memory (SAM) operator. Found upon outer product, SAM forms a set of associative memories that represent the hypothetical high-order relationships between arbitrary pairs of memory elements, through which a relational memory is constructed from an item memory. The two memories are wired into a single sequential model capable of both memorization and relational reasoning. We achieve competitive results with our proposed two-memory model in a diversity of machine learning tasks, from challenging synthetic problems to practical testbeds such as geometry, graph, reinforcement learning, and question answering.
翻訳日:2023-01-02 07:42:15 公開日:2020-06-11
# spotnet:オブジェクト検出のためのセルフアテンションマルチタスクネットワーク

SpotNet: Self-Attention Multi-Task Network for Object Detection ( http://arxiv.org/abs/2002.05540v2 )

ライセンス: Link先を確認
Hughes Perreault and Guillaume-Alexandre Bilodeau and Nicolas Saunier and Maguelonne H\'eritier(参考訳) 人間は、異なる種類の物体を探索する際に、関連する領域に視覚的注意を向けるのが得意です。 例えば、車を検索するときは、建物の上部ではなく、通りを見ることになる。 本論文の動機は,マルチタスク学習アプローチを用いてネットワークを訓練することにある。 視覚注意をトレーニングするために,背景サブトラクションや光学フローを用いて,半教師あり方式で前景/後景セグメンテーションラベルを作成する。 これらのラベルを用いてオブジェクト検出モデルを訓練し,前景/後景セグメンテーションマップと境界ボックスを作成し,モデルパラメータの共有を行う。 ネットワーク内のセグメンテーションマップを自己接続機構として使用し,境界ボックス生成に使用する特徴マップの重み付けを行い,非関連領域の信号を低減する。 本手法を用いて,UA-DETRAC と UAVDT の2つのトラヒック監視データセットにおいて,mAP の大幅な改善が得られた。

Humans are very good at directing their visual attention toward relevant areas when they search for different types of objects. For instance, when we search for cars, we will look at the streets, not at the top of buildings. The motivation of this paper is to train a network to do the same via a multi-task learning approach. To train visual attention, we produce foreground/background segmentation labels in a semi-supervised way, using background subtraction or optical flow. Using these labels, we train an object detection model to produce foreground/background segmentation maps as well as bounding boxes while sharing most model parameters. We use those segmentation maps inside the network as a self-attention mechanism to weight the feature map used to produce the bounding boxes, decreasing the signal of non-relevant areas. We show that by using this method, we obtain a significant mAP improvement on two traffic surveillance datasets, with state-of-the-art results on both UA-DETRAC and UAVDT.
翻訳日:2023-01-01 13:32:13 公開日:2020-06-11
# Marvel: 空間加速器上のDNN演算子のためのデータ中心コンパイラ

Marvel: A Data-centric Compiler for DNN Operators on Spatial Accelerators ( http://arxiv.org/abs/2002.07752v2 )

ライセンス: Link先を確認
Prasanth Chatarasi, Hyoukjun Kwon, Natesh Raina, Saurabh Malik, Vaisakh Haridas, Angshuman Parashar, Michael Pellauer, Tushar Krishna, Vivek Sarkar(参考訳) 空間的DNNアクセラレータの効率は、コンパイラとそのコストモデル能力に大きく依存し、DNNモデルの様々な演算子に対して、アクセラレータの計算およびメモリリソースに最適化されたマッピングを生成する。 しかし、既存のコストモデルには、正確かつトラクタブルな分析のための演算子に対する公式な境界がないため、新しいDNN演算子には適応性の問題が生じる。 この課題に対処するために、最近導入されたMaestro Data-Centric(MDC)表記を利用する。 我々は,MDC のコストモデルで常に解析可能であるため,MDC の表記法で表現可能な DNN 演算子を形式的に理解する。 さらに、マッピング空間を探索するために、マッピングをMDC表記に変換する変換を導入する。 この課題に対処するために、我々は、オフチップとオンチップのサブ空間にマッピング空間を分解する分離オフチップ/オンチップアプローチを提案し、最初にオフチップサブ空間とオンチップサブ空間の次にオンチップサブ空間を最適化する。 この分解の動機は、探索空間のサイズを劇的に減らし、オンチップのデータ移動に比べて2~3桁のオフチップデータ移動の最適化を優先することにある。 我々はこの手法を {\em Marvel} と呼ばれるツールで実装し、また MDC 表記に適合する DNN 演算子にも適用できるというアプローチの大きな利点を生かした。

The efficiency of a spatial DNN accelerator depends heavily on the compiler and its cost model ability to generate optimized mappings for various operators of DNN models on to the accelerator's compute and memory resources. But, existing cost models lack a formal boundary over the operators for precise and tractable analysis, which poses adaptability challenges for new DNN operators. To address this challenge, we leverage the recently introduced Maestro Data-Centric (MDC) notation. We develop a formal understanding of DNN operators whose mappings can be described in the MDC notation, because any mapping adhering to the notation is always analyzable by the MDC's cost model. Furthermore, we introduce a transformation for translating mappings into the MDC notation for exploring the mapping space. Searching for the optimal mappings is challenging because of the large space of mappings, and this challenge gets exacerbated with new operators and diverse accelerator configurations.To address this challenge, we propose a decoupled off-chip/on-chip approach that decomposes the mapping space into off-chip and on-chip subspaces, and first optimizes the off-chip subspace followed by the on-chip subspace. The motivation for this decomposition is to reduce the size of the search space dramatically and also to prioritize the optimization of off-chip data movement, which is 2-3 orders of magnitude more compared to the on-chip data movement. We implemented our approach in a tool called {\em Marvel}, and another major benefit of our approach is that it is applicable to any DNN operator conformable with the MDC notation.
翻訳日:2022-12-30 20:52:55 公開日:2020-06-11
# 近似クロスバリデーション:モデル評価と選択の保証

Approximate Cross-validation: Guarantees for Model Assessment and Selection ( http://arxiv.org/abs/2003.00617v2 )

ライセンス: Link先を確認
Ashia Wilson, Maximilian Kasy, Lester Mackey(参考訳) クロスバリデーション(CV)は予測モデルの評価と選択のための一般的なアプローチである。 しかし、折り畳みの数が多ければ、CVは大量のトレーニングデータセットで繰り返し学習手順を適合させる必要性に悩まされる。 経験的リスク最小化(ERM)の最近の研究は、トレーニングセットオプティマイザからウォームスタートした1つのニュートンステップによる高価な調整を近似している。 これはランタイムを大幅に削減できるが、これらの近似が忠実なモデル選択に繋がるかどうか、非滑らかな目的に適合するかどうかなど、いくつかのオープンな疑問が残る。 これらの質問には3つの大きな貢献があります i) 近似CVに対する一様非漸近的決定論的モデルアセスメントを提供する。 (II)同じ条件でもCVに匹敵するモデル選択性能が保証されていることを示す。 (iii)非スムース予測問題に対する近似cvフレームワークの近位ニュートン拡張と、l1正規化ermなどの問題に対する評価保証の改善について述べる。

Cross-validation (CV) is a popular approach for assessing and selecting predictive models. However, when the number of folds is large, CV suffers from a need to repeatedly refit a learning procedure on a large number of training datasets. Recent work in empirical risk minimization (ERM) approximates the expensive refitting with a single Newton step warm-started from the full training set optimizer. While this can greatly reduce runtime, several open questions remain including whether these approximations lead to faithful model selection and whether they are suitable for non-smooth objectives. We address these questions with three main contributions: (i) we provide uniform non-asymptotic, deterministic model assessment guarantees for approximate CV; (ii) we show that (roughly) the same conditions also guarantee model selection performance comparable to CV; (iii) we provide a proximal Newton extension of the approximate CV framework for non-smooth prediction problems and develop improved assessment guarantees for problems such as l1-regularized ERM.
翻訳日:2022-12-27 04:24:13 公開日:2020-06-11
# ランダム初期化深層ネットワークにおけるランク崩壊を回避するバッチ正規化

Batch Normalization Provably Avoids Rank Collapse for Randomly Initialised Deep Networks ( http://arxiv.org/abs/2003.01652v3 )

ライセンス: Link先を確認
Hadi Daneshmand, Jonas Kohler, Francis Bach, Thomas Hofmann, Aurelien Lucchi(参考訳) ランダムに初期化されたニューラルネットワークは、残差接続やバッチ正規化のようなアーキテクチャ拡張が使用されない限り、深さの増大とともにトレーニングが難しくなることが知られている。 本稿では,ディープネットワークにおけるランダム初期化と乱数行列生成物のスペクトル不安定性との関係について再検討する。 ランダム行列に関する豊富な文献を考えると、非正規化ネットワークにおける中間表現のランクが深さで急速に崩壊するのも驚くことではない。 本稿では,線形ネットワークとreluネットワークのランク崩壊を回避するための効果的な戦略としてバッチ正規化を強調する。 マルコフ連鎖理論からツールを利用すると、深い線形ネットワークにおいて有意義な下位ランクが導かれる。 経験的に、この階数はReLUネットに一般化される。 最後に、実世界のデータセットに関する広範囲な実験を行い、ランク安定性が現代のディープニューラルアーキテクチャをトレーニングするための重要な条件であることを確認します。

Randomly initialized neural networks are known to become harder to train with increasing depth, unless architectural enhancements like residual connections and batch normalization are used. We here investigate this phenomenon by revisiting the connection between random initialization in deep networks and spectral instabilities in products of random matrices. Given the rich literature on random matrices, it is not surprising to find that the rank of the intermediate representations in unnormalized networks collapses quickly with depth. In this work we highlight the fact that batch normalization is an effective strategy to avoid rank collapse for both linear and ReLU networks. Leveraging tools from Markov chain theory, we derive a meaningful lower rank bound in deep linear networks. Empirically, we also demonstrate that this rank robustness generalizes to ReLU nets. Finally, we conduct an extensive set of experiments on real-world data sets, which confirm that rank stability is indeed a crucial condition for training modern-day deep neural architectures.
翻訳日:2022-12-26 22:08:50 公開日:2020-06-11
# CMBBモード観測のためのニューラルネットワークによる前景モデル認識

Foreground model recognition through Neural Networks for CMB B-mode observations ( http://arxiv.org/abs/2003.02278v2 )

ライセンス: Link先を確認
Farida Farsian, Nicoletta Krachmalnicoff, Carlo Baccigalupi(参考訳) 本研究では、宇宙マイクロ波背景(CMB)$B$モード多周波観測の文脈において、拡散偏光銀河放出の適切なパラメトリゼーションを同定するためのニューラルネットワーク(NN)アルゴリズムを提案する。 特に、偏光観測に関連する低周波フォアグラウンド(Galactic Synchrotron and Anomalous Microwave Emission (AME))について分析を行った。 我々は,将来の衛星や低周波地中プローブで表現される周波数範囲と感度に対応するシミュレーションマップを実装・テストした。 異なる空域における前景放射の正しいパラメトリゼーションの認識におけるNN効率は、約90\%の精度に達する。 我々は,マルチ周波数フィッティングを用いたパラメトリックフォアグラウンド推定後の$\chi^{2}$情報との比較を行い,nnアプローチによるゲインの定量化を行った。 以上の結果から,CMB $B$-mode 観測におけるモデル認識の関連性を示し,本目的への専用手順の活用を強調した。

In this work we present a Neural Network (NN) algorithm for the identification of the appropriate parametrization of diffuse polarized Galactic emissions in the context of Cosmic Microwave Background (CMB) $B$-mode multi-frequency observations. In particular, we have focused our analysis on low frequency foregrounds relevant for polarization observation: namely Galactic Synchrotron and Anomalous Microwave Emission (AME). We have implemented and tested our approach on a set of simulated maps corresponding to the frequency coverage and sensitivity represented by future satellite and low frequency ground based probes. The NN efficiency in recognizing the right parametrization of foreground emission in different sky regions reaches an accuracy of about $90\%$. We have compared this performance with the $\chi^{2}$ information following parametric foreground estimation using multi-frequency fitting, and quantify the gain provided by a NN approach. Our results show the relevance of model recognition in CMB $B$-mode observations, and highlight the exploitation of dedicated procedures to this purpose.
翻訳日:2022-12-26 13:43:23 公開日:2020-06-11
# アメリカと中国におけるA.I.研究の定量化史

A Quantitative History of A.I. Research in the United States and China ( http://arxiv.org/abs/2003.02763v2 )

ライセンス: Link先を確認
Daniel Ish, Andrew Lohn, Christian Curriden(参考訳) A.I.研究において、米国と中国間の競争の状況と結果に対する近年の関心に触発され、我々は、スコプスからスクラップされた60年間の抽象データを分析し、各国に属する機関のA.I.トピックに関する出版物の動向を調査し、定量化する。 両国で生産される出版物の総量は、何年にもわたって著しく定期的に増加している。 当初、中国は米国よりも出版量の伸びが速いが、中国が米国と同等に達すると成長が鈍化し、現在では両国の成長率が類似している。 また、両国とも1990年頃にトピック選択の地震的シフトを行い、これをニューラルネットワーク手法への関心の爆発と結びつけている。 最後に、2000年から2010年の間、中国のトピック選択は米国のそれよりも遅れがちだったが、近年ではトピックポートフォリオがより緊密に連携しているという証拠がある。

Motivated by recent interest in the status and consequences of competition between the U.S. and China in A.I. research, we analyze 60 years of abstract data scraped from Scopus to explore and quantify trends in publications on A.I. topics from institutions affiliated with each country. We find the total volume of publications produced in both countries grows with a remarkable regularity over tens of years. While China initially experienced faster growth in publication volume than the U.S., growth slowed in China when it reached parity with the U.S. and the growth rates of both countries are now similar. We also see both countries undergo a seismic shift in topic choice around 1990, and connect this to an explosion of interest in neural network methods. Finally, we see evidence that between 2000 and 2010, China's topic choice tended to lag that of the U.S. but that in recent decades the topic portfolios have come into closer alignment.
翻訳日:2022-12-26 07:36:35 公開日:2020-06-11
# 深部ResNetとそれを超える平均場解析:深さからの過度パラメータ化による予測可能な最適化に向けて

A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable Optimization Via Overparameterization From Depth ( http://arxiv.org/abs/2003.05508v2 )

ライセンス: Link先を確認
Yiping Lu, Chao Ma, Yulong Lu, Jianfeng Lu, Lexing Ying(参考訳) 確率勾配降下(SGD)を持つ深層ニューラルネットワークのトレーニングは、最適化の状況は極めて非凸であることが知られているが、現実のタスクにおいてゼロのトレーニング損失を達成することがしばしばある。 深層ニューラルネットワークの学習におけるsgdの成功を理解するため,本研究は,ネットワーク容量が無限大である場合,深層残留ネットワークの連続限界を常微分方程式として解釈する一連の研究に基づいて,深層残留ネットワークの平均場解析を提案する。 具体的には,すべての局所的最小化器が大域的であるという意味でよい景観を享受する,深層残留ネットワークの新たな連続限界を提案する。 この特徴により、平均場状態における多層ニューラルネットワークに対する第1次大域収束結果の導出が可能となる。 さらに、損失景観の凸性を仮定せずに、この証明は、モデルが普遍近似性を共有するときに達成できる大域的最小値におけるゼロ損失仮定に依存する。 この結果の鍵となるのは、深い残留ネットワークが浅いネットワークアンサンブル、すなわち2層ネットワークに類似していることである。 浅層ネットワークとResNetモデルとの差を随伴感度法により有界化し,既存の2層ネットワークの平均場解析を深層ネットワークに適用する。 さらに,新たな連続モデルに基づく新たなトレーニングスキームを提案する。このトレーニング手順は,残ブロックの順序を切り替えて,ベンチマークデータセットで強い経験的パフォーマンスを実現する。

Training deep neural networks with stochastic gradient descent (SGD) can often achieve zero training loss on real-world tasks although the optimization landscape is known to be highly non-convex. To understand the success of SGD for training deep neural networks, this work presents a mean-field analysis of deep residual networks, based on a line of works that interpret the continuum limit of the deep residual network as an ordinary differential equation when the network capacity tends to infinity. Specifically, we propose a new continuum limit of deep residual networks, which enjoys a good landscape in the sense that every local minimizer is global. This characterization enables us to derive the first global convergence result for multilayer neural networks in the mean-field regime. Furthermore, without assuming the convexity of the loss landscape, our proof relies on a zero-loss assumption at the global minimizer that can be achieved when the model shares a universal approximation property. Key to our result is the observation that a deep residual network resembles a shallow network ensemble, i.e. a two-layer network. We bound the difference between the shallow network and our ResNet model via the adjoint sensitivity method, which enables us to apply existing mean-field analyses of two-layer networks to deep networks. Furthermore, we propose several novel training schemes based on the new continuous model, including one training procedure that switches the order of the residual blocks and results in strong empirical performance on the benchmark datasets.
翻訳日:2022-12-24 14:32:11 公開日:2020-06-11
# ブロックMDPの不変因果予測

Invariant Causal Prediction for Block MDPs ( http://arxiv.org/abs/2003.06016v2 )

ライセンス: Link先を確認
Amy Zhang, Clare Lyle, Shagun Sodhani, Angelos Filos, Marta Kwiatkowska, Joelle Pineau, Yarin Gal, Doina Precup(参考訳) 環境をまたがる一般化は、現実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。 本稿では,潜在状態空間を共有した環境群であるブロックmdpにおいて一般化される抽象概念の学習の問題と,その潜在空間上でのダイナミクス構造について考察する。 因果推論のツールを活用して,多環境環境での新しい観察に一般化したモデル非関係状態抽象化(misa)を学習するための不変予測手法を提案する。 本研究では, ある環境のクラスに対して, 帰納的特徴集合に対応する状態抽象化を高い確率で出力することを証明する。 さらに,マルチ環境設定におけるモデル誤差と一般化誤差について,因果変数選択とMDPの状態抽象化フレームワークの関連性を示すプロセスにおいて,より一般的なバウンダリを提供する。 提案手法は線形および非線形の両方の条件下で動作し,単一およびマルチタスクベースラインに対する一般化が向上したことを示す。

Generalization across environments is critical to the successful application of reinforcement learning algorithms to real-world challenges. In this paper, we consider the problem of learning abstractions that generalize in block MDPs, families of environments with a shared latent state space and dynamics structure over that latent space, but varying observations. We leverage tools from causal inference to propose a method of invariant prediction to learn model-irrelevance state abstractions (MISA) that generalize to novel observations in the multi-environment setting. We prove that for certain classes of environments, this approach outputs with high probability a state abstraction corresponding to the causal feature set with respect to the return. We further provide more general bounds on model error and generalization error in the multi-environment setting, in the process showing a connection between causal variable selection and the state abstraction framework for MDPs. We give empirical evidence that our methods work in both linear and nonlinear settings, attaining improved generalization over single- and multi-task baselines.
翻訳日:2022-12-24 13:10:11 公開日:2020-06-11
# CompLex:Likertスケールデータによる語彙複雑度予測のための新しいコーパス

CompLex: A New Corpus for Lexical Complexity Prediction from Likert Scale Data ( http://arxiv.org/abs/2003.07008v3 )

ライセンス: Link先を確認
Matthew Shardlow, Michael Cooper, Marcos Zampieri(参考訳) テキストの単純化など、多くのNLPアプリケーションにおいて、どの単語が与えられたターゲット集団に対して理解しにくいかを予測することが重要なステップである。 このタスクは一般に複雑単語識別(CWI)と呼ばれる。 いくつかの例外を除いて、従来の研究では、テキスト中の対象単語の集合に対する複雑性値(複雑対非複雑)をシステムが予測するバイナリ分類タスクとして、このタスクにアプローチしてきた。 この選択は、これまでコンパイルされたすべてのCWIデータセットがバイナリアノテーションスキームを使用して注釈付けされているという事実によって動機付けられている。 本論文は,連続語彙複雑性予測のための最初の英語データセットを提示することで,この制限に対処する。 我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから複雑な単語をテキストに注釈付けする。 その結果、約7人の注釈者がそれぞれ9,476の文を注釈付けした。

Predicting which words are considered hard to understand for a given target population is a vital step in many NLP applications such as text simplification. This task is commonly referred to as Complex Word Identification (CWI). With a few exceptions, previous studies have approached the task as a binary classification task in which systems predict a complexity value (complex vs. non-complex) for a set of target words in a text. This choice is motivated by the fact that all CWI datasets compiled so far have been annotated using a binary annotation scheme. Our paper addresses this limitation by presenting the first English dataset for continuous lexical complexity prediction. We use a 5-point Likert scale scheme to annotate complex words in texts from three sources/domains: the Bible, Europarl, and biomedical texts. This resulted in a corpus of 9,476 sentences each annotated by around 7 annotators.
翻訳日:2022-12-23 03:13:49 公開日:2020-06-11
# 時空間交通データインプテーションのための非凸低ランクテンソル補完モデル

A Nonconvex Low-Rank Tensor Completion Model for Spatiotemporal Traffic Data Imputation ( http://arxiv.org/abs/2003.10271v2 )

ライセンス: Link先を確認
Xinyu Chen, Jinming Yang and Lijun Sun(参考訳) 様々なセンサシステムから収集された時空間的トラフィックデータには,空間性やデータ不足の問題が非常に多い。 インテリジェント輸送システムにおける多くの応用において、正確な計算が重要である。 本稿では、低ランクテンソル完備化(LRTC)フレームワークにおける時空間トラフィックデータにおける欠落データ計算問題を定式化し、位置$\times$day$\times$times$time of dayのトラフィックテンソル上で、新しいトランカテッド核ノルム(TNN)を定義する。 特に,提案するlrtc-tnnモデルにおいて,すべてのテンソルモードの切断度を制御するためのユニバーサルレートパラメータを導入することにより,時空間トラヒックデータの隠れたパターンをよりよく特徴付けることができる。 乗算器の交互方向法(ADMM)の枠組みに基づき,各変数に対する最適解を得るための効率的なアルゴリズムを提案する。 本研究では,4つの時空間トラヒックデータセットの数値実験を行い,提案したLRTC-TNNモデルが,不整合率/パターンを有する多くの最先端計算モデルより優れていることを示す。 さらに,提案モデルは他のベースラインモデルよりも,極端な欠落シナリオにおいて優れている。

Sparsity and missing data problems are very common in spatiotemporal traffic data collected from various sensing systems. Making accurate imputation is critical to many applications in intelligent transportation systems. In this paper, we formulate the missing data imputation problem in spatiotemporal traffic data in a low-rank tensor completion (LRTC) framework and define a novel truncated nuclear norm (TNN) on traffic tensors of location$\times$day$\times$time of day. In particular, we introduce an universal rate parameter to control the degree of truncation on all tensor modes in the proposed LRTC-TNN model, and this allows us to better characterize the hidden patterns in spatiotemporal traffic data. Based on the framework of the Alternating Direction Method of Multipliers (ADMM), we present an efficient algorithm to obtain the optimal solution for each variable. We conduct numerical experiments on four spatiotemporal traffic data sets, and our results show that the proposed LRTC-TNN model outperforms many state-of-the-art imputation models with missing rates/patterns. Moreover, the proposed model also outperforms other baseline models in extreme missing scenarios.
翻訳日:2022-12-20 23:42:34 公開日:2020-06-11
# strokecoder: トランスフォーマーを用いた単一例からのパスベース画像生成

StrokeCoder: Path-Based Image Generation from Single Examples using Transformers ( http://arxiv.org/abs/2003.11958v2 )

ライセンス: Link先を確認
Sabine Wieluch and Friedhelm Schwenker(参考訳) 本稿では、トランスフォーマーニューラルネットワークを用いて、単一経路に基づく例画像から生成モデルを学習する方法を示す。 さらに,データセットをサンプル画像から生成する方法と,そのモデルを用いて,元の画像のスタイルや概念を表現できるような,大きな逸脱した画像群を生成する方法を示す。

This paper demonstrates how a Transformer Neural Network can be used to learn a Generative Model from a single path-based example image. We further show how a data set can be generated from the example image and how the model can be used to generate a large set of deviated images, which still represent the original image's style and concept.
翻訳日:2022-12-19 21:15:07 公開日:2020-06-11
# データ操作:学習によるニューラル対話生成のための効果的なインスタンス学習を目指して

Data Manipulation: Towards Effective Instance Learning for Neural Dialogue Generation via Learning to Augment and Reweight ( http://arxiv.org/abs/2004.02594v5 )

ライセンス: Link先を確認
Hengyi Cai, Hongshen Chen, Yonghao Song, Cheng Zhang, Xiaofang Zhao, Dawei Yin(参考訳) 現在の最先端のニューラル対話モデルは、データ駆動パラダイムに従って人間の会話から学習する。 したがって、信頼できるトレーニングコーパスは、堅牢で十分に整備された対話モデルを構築するための要領である。 しかし、人間の会話のオープンな性質から、ユーザ生成トレーニングデータの質は大きく異なり、有効なトレーニングサンプルは一般的に不十分であり、ノイズの多いサンプルが頻繁に現れる。 これは、これらのデータ駆動型神経対話モデルの学習を妨げる。 したがって、効果的な対話学習には、より信頼性の高い学習サンプルだけでなく、ノイズの多いサンプルも必要となる。 本稿では,効果的な学習サンプルの強調表示と非効率サンプルの効果の同時低減により,信頼性の高いサンプルに対して積極的にデータ分布を再構成するデータ操作フレームワークを提案する。 特に、データ操作モデルは、トレーニングサンプルを選択的に増補し、各インスタンスに重み付けを行い、トレーニングデータを改革する。 なお、提案されているデータ操作フレームワークは完全にデータ駆動で学習可能である。 トレーニングサンプルを操作して対話生成モデルを最適化するだけでなく,評価サンプルを用いた勾配降下による操作スキルの向上も学んでいる。 大規模な実験により,様々な自動評価指標や人的判断に対する対話生成性能の向上が図られた。

Current state-of-the-art neural dialogue models learn from human conversations following the data-driven paradigm. As such, a reliable training corpus is the crux of building a robust and well-behaved dialogue model. However, due to the open-ended nature of human conversations, the quality of user-generated training data varies greatly, and effective training samples are typically insufficient while noisy samples frequently appear. This impedes the learning of those data-driven neural dialogue models. Therefore, effective dialogue learning requires not only more reliable learning samples, but also fewer noisy samples. In this paper, we propose a data manipulation framework to proactively reshape the data distribution towards reliable samples by augmenting and highlighting effective learning samples as well as reducing the effect of inefficient samples simultaneously. In particular, the data manipulation model selectively augments the training samples and assigns an importance weight to each instance to reform the training data. Note that, the proposed data manipulation framework is fully data-driven and learnable. It not only manipulates training samples to optimize the dialogue generation model, but also learns to increase its manipulation skills through gradient descent with validation samples. Extensive experiments show that our framework can improve the dialogue generation performance with respect to various automatic evaluation metrics and human judgments.
翻訳日:2022-12-16 05:16:47 公開日:2020-06-11
# ブラックボックスジェネレータの逆数自由推論

Adversarial Likelihood-Free Inference on Black-Box Generator ( http://arxiv.org/abs/2004.05803v2 )

ライセンス: Link先を確認
Dongjun Kim, Weonyoung Joo, Seungjae Shin, Kyungwoo Song, Il-Chul Moon(参考訳) generative adversarial network (gan) はデータ分布の暗黙的推定子と見なすことができ、この視点はブラックボックス生成器の真の入力パラメータ推定において逆数の概念を用いる動機付けとなる。 前回の研究では,生成器入力に対する暗黙的提案分布が導入されたが,本論文では提案手法の理論的限界を解析した。 さらに,解析された制約を緩和するアルゴリズムであるAdversarial Likelihood-Free Inference (ALFI)を導入することにより,ブラックボックス生成モデルの入力パラメータに後続分布を求めることができる。 様々なシミュレーションモデルと事前学習した統計モデルを用いてalfiを実験し,シミュレーション予算の限定された最適パラメータ推定精度をalfiが達成できることを見出した。

Generative Adversarial Network (GAN) can be viewed as an implicit estimator of a data distribution, and this perspective motivates using the adversarial concept in the true input parameter estimation of black-box generators. While previous works on likelihood-free inference introduces an implicit proposal distribution on the generator input, this paper analyzes theoretic limitations of the proposal distribution approach. On top of that, we introduce a new algorithm, Adversarial Likelihood-Free Inference (ALFI), to mitigate the analyzed limitations, so ALFI is able to find the posterior distribution on the input parameter for black-box generative models. We experimented ALFI with diverse simulation models as well as pre-trained statistical models, and we identified that ALFI achieves the best parameter estimation accuracy with a limited simulation budget.
翻訳日:2022-12-13 23:17:04 公開日:2020-06-11
# 非対称垂直フェデレーション学習

Asymmetrical Vertical Federated Learning ( http://arxiv.org/abs/2004.07427v3 )

ライセンス: Link先を確認
Yang Liu, Xiong Zhang, and Libin Wang(参考訳) フェデレートラーニング(Federated Learning)は、サンプル機能やラベルのプライバシを維持することを目的とした、分散機械学習手法である。 連合学習システムでは、IDベースのサンプルアライメントアプローチが通常適用され、IDプライバシ保護の取り組みはほとんど行われない。 しかし現実のアプリケーションでは、最も強力な行識別子であるサンプルidの機密性も多くの参加者から注目を集めている。 本論文は,IDプライバシに関するプライバシー上の懸念を緩和するため,非対称な垂直連邦学習の概念を提案し,サンプルIDの保護方法を示す。 標準プライベートセット交叉プロトコルは、非対称垂直フェデレート学習システムにおいて非対称idアライメント位相を達成するために適合する。 それに応じて、適合プロトコルのpohlig-hellman実現を提供する。 また,非対称なフェデレーションモデルトレーニングを実現するためのダミーアプローチを提案する。 その応用を説明するために、フェデレートされたロジスティック回帰アルゴリズムを例に挙げる。 このアプローチの有効性を検証する実験も行われている。

Federated learning is a distributed machine learning method that aims to preserve the privacy of sample features and labels. In a federated learning system, ID-based sample alignment approaches are usually applied with few efforts made on the protection of ID privacy. In real-life applications, however, the confidentiality of sample IDs, which are the strongest row identifiers, is also drawing much attention from many participants. To relax their privacy concerns about ID privacy, this paper formally proposes the notion of asymmetrical vertical federated learning and illustrates the way to protect sample IDs. The standard private set intersection protocol is adapted to achieve the asymmetrical ID alignment phase in an asymmetrical vertical federated learning system. Correspondingly, a Pohlig-Hellman realization of the adapted protocol is provided. This paper also presents a genuine with dummy approach to achieving asymmetrical federated model training. To illustrate its application, a federated logistic regression algorithm is provided as an example. Experiments are also made for validating the feasibility of this approach.
翻訳日:2022-12-12 22:11:56 公開日:2020-06-11
# マルチドメインエンドツーエンドタスク指向ダイアログのための動的フュージョンネットワーク

Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog ( http://arxiv.org/abs/2004.11019v3 )

ライセンス: Link先を確認
Libo Qin, Xiao Xu, Wanxiang Che, Yue Zhang, Ting Liu(参考訳) 近年,タスク指向対話システムにおいて顕著な成功を収めている。 しかし、ほとんどのニューラルモデルは大規模なトレーニングデータに依存しており、ナビゲーションやスケジューリングなど、特定のタスク領域でのみ利用可能である。 これにより、ラベル付きデータに制限のある新しいドメインではスケーラビリティが難しくなる。 しかし、各ドメインのパフォーマンスを向上させるために、すべてのドメインのデータを有効に利用する方法については、比較的研究が進んでいない。 そこで本研究では,ドメイン知識を明示的に活用する手法を検討するとともに,共有知識と特定の知識を学習するための共有プライベートネットワークを導入する。 さらに,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。 その結果,本モデルは,多領域対話における既存手法よりも優れており,文献に最先端の技術を与えることができた。 また, トレーニングデータが少ない場合には, 先行モデルよりも平均で13.9\%高い転送率を示す。

Recent studies have shown remarkable success in end-to-end task-oriented dialog system. However, most neural models rely on large training data, which are only available for a certain number of task domains, such as navigation and scheduling. This makes it difficult to scalable for a new domain with limited labeled data. However, there has been relatively little research on how to effectively use data from all domains to improve the performance of each domain and also unseen domains. To this end, we investigate methods that can make explicit use of domain knowledge and introduce a shared-private network to learn shared and specific knowledge. In addition, we propose a novel Dynamic Fusion Network (DF-Net) which automatically exploit the relevance between the target domain and each domain. Results show that our model outperforms existing methods on multi-domain dialogue, giving the state-of-the-art in the literature. Besides, with little training data, we show its transferability by outperforming prior best model by 13.9\% on average.
翻訳日:2022-12-10 09:38:50 公開日:2020-06-11
# メトリック学習支援ドメイン適応

Metric-Learning-Assisted Domain Adaptation ( http://arxiv.org/abs/2004.10963v3 )

ライセンス: Link先を確認
Yueming Yin, Zhen Yang, Haifeng Hu and Xiaofu Wu(参考訳) ドメインアライメント(da)は教師なしドメイン適応において広く使われている。 既存のDA手法の多くは、ソースとターゲットの分布のアライメントとともに、低いソースリスクが低いターゲットリスクを意味すると仮定している。 本稿では,これが常に成り立つとは限らないことを示す。 そこで本稿では,特徴整合性向上を支援するために,新しい三重項損失を用いたメタラーニング支援ドメイン適応(MLA-DA)手法を提案する。 対象サンプルの予測の2番目に大きい確率と決定境界までの距離の関係について検討する。 この関係に基づいて,目標予測に従って三重項損失のマージンを適応的に調整する新しいメカニズムを提案する。 実験結果から,提案した三重項損失を用いることで明らかに良好な結果が得られた。 また、4つの標準ベンチマークにおけるMLA-DAの性能改善を、最先端の教師なしドメイン適応法と比較した。 さらに、MLA-DAはロバストな実験において安定した性能を示す。

Domain alignment (DA) has been widely used in unsupervised domain adaptation. Many existing DA methods assume that a low source risk, together with the alignment of distributions of source and target, means a low target risk. In this paper, we show that this does not always hold. We thus propose a novel metric-learning-assisted domain adaptation (MLA-DA) method, which employs a novel triplet loss for helping better feature alignment. We explore the relationship between the second largest probability of a target sample's prediction and its distance to the decision boundary. Based on the relationship, we propose a novel mechanism to adaptively adjust the margin in the triplet loss according to target predictions. Experimental results show that the use of proposed triplet loss can achieve clearly better results. We also demonstrate the performance improvement of MLA-DA on all four standard benchmarks compared with the state-of-the-art unsupervised domain adaptation methods. Furthermore, MLA-DA shows stable performance in robust experiments.
翻訳日:2022-12-10 09:21:33 公開日:2020-06-11
# DSAC:リスク感性強化学習のための分散型ソフトアクター批判

DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2004.14547v2 )

ライセンス: Link先を確認
Xiaoteng Ma, Li Xia, Zhengyuan Zhou, Jun Yang, Qianchuan Zhao(参考訳) 本稿では,累積報酬の分布情報を活用し,よりよい性能を実現するための新しい強化学習(rl)アルゴリズムであるdistributal soft actor critic(dsac)を提案する。 SAC(エントロピーを用いて探索を促進する)と基礎となる目的の原則的な分布ビューを統合することで、DSACはアクションと報酬の両方のランダム性を考慮し、いくつかの連続制御ベンチマークで最先端のベースラインを破る。 さらに,報奨の分布情報を用いて,期待された累積報酬のみを最大化しない,リスクセンシティブな学習のための統一フレームワークを提案する。 このフレームワークでは、パーセンタイル、平均分散、歪んだ期待の3つのリスク関連メトリクスについて論じる。 我々は,RLにおける分布モデルを用いて,リスク逆制御とリスク探索制御の両方において,エージェントがより優れた性能を発揮することを示した。

In this paper, we present a new reinforcement learning (RL) algorithm called Distributional Soft Actor Critic (DSAC), which exploits the distributional information of accumulated rewards to achieve better performance. Seamlessly integrating SAC (which uses entropy to encourage exploration) with a principled distributional view of the underlying objective, DSAC takes into consideration the randomness in both action and rewards, and beats the state-of-the-art baselines in several continuous control benchmarks. Moreover, with the distributional information of rewards, we propose a unified framework for risk-sensitive learning, one that goes beyond maximizing only expected accumulated rewards. Under this framework we discuss three specific risk-related metrics: percentile, mean-variance and distorted expectation. Our extensive experiments demonstrate that with distribution modeling in RL, the agent performs better for both risk-averse and risk-seeking control tasks.
翻訳日:2022-12-08 03:22:32 公開日:2020-06-11
# スパース手術運動学の反復とスパイキングモデリング

Recurrent and Spiking Modeling of Sparse Surgical Kinematics ( http://arxiv.org/abs/2005.05868v2 )

ライセンス: Link先を確認
Neil Getty, Zixuan Zhao, Stephan Gruessner, Liaohai Chen, Fangfang Xia(参考訳) ロボットによる最小侵襲手術は、外科医のパフォーマンスと患者の成績を改善している。 このイノベーションは、これまでの主観的な実践を、正確に測定できる動き列に変えている。 ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックデータを機械学習で分析している。 これらの研究において、モデルは通常、外科医のスキルレベルを評価するために、代表的な外科的タスクのためのベンチマークデータセットで訓練される。 彼らは初心者や専門家が正確に分類できることを示したが、機械学習が高度に熟練した外科医を、特にビデオデータなしで分離できるかどうかは不明だ。 本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。 我々は,外科手術から作成した新しいデータセットを,スキルトレーニングのためのシミュレーション装置にフォーカスする。 単純で効率的な符号化方式は、キネマティックシーケンスを符号化し、エッジ学習に適するように考案された。 本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。 さらに,モデルがスパイクニューラルネットワークに変換され,精度を損なうことなく,nengoシミュレーションフレームワークのトレーニングと推論を行うことができた。 本研究は、スパースモーションの特徴からニューロモルフィックモデルを構築することは、ロボットシステムに実装されたチップで外科医やジェスチャーを識別し、手術中の適応支援と、追加のレイテンシとプライバシの利点を備えたトレーニングを提供するための潜在的に有用な戦略である可能性を示唆している。

Robot-assisted minimally invasive surgery is improving surgeon performance and patient outcomes. This innovation is also turning what has been a subjective practice into motion sequences that can be precisely measured. A growing number of studies have used machine learning to analyze video and kinematic data captured from surgical robots. In these studies, models are typically trained on benchmark datasets for representative surgical tasks to assess surgeon skill levels. While they have shown that novices and experts can be accurately classified, it is not clear whether machine learning can separate highly proficient surgeons from one another, especially without video data. In this study, we explore the possibility of using only kinematic data to predict surgeons of similar skill levels. We focus on a new dataset created from surgical exercises on a simulation device for skill training. A simple, efficient encoding scheme was devised to encode kinematic sequences so that they were amenable to edge learning. We report that it is possible to identify surgical fellows receiving near perfect scores in the simulation exercises based on their motion characteristics alone. Further, our model could be converted to a spiking neural network to train and infer on the Nengo simulation framework with no loss in accuracy. Overall, this study suggests that building neuromorphic models from sparse motion features may be a potentially useful strategy for identifying surgeons and gestures with chips deployed on robotic systems to offer adaptive assistance during surgery and training with additional latency and privacy benefits.
翻訳日:2022-12-03 19:01:15 公開日:2020-06-11
# 深層学習における計算言語学の急激な台頭

The Unstoppable Rise of Computational Linguistics in Deep Learning ( http://arxiv.org/abs/2005.06420v3 )

ライセンス: Link先を確認
James Henderson(参考訳) 本稿では,自然言語理解タスクに適用されるニューラルネットワークの歴史を追跡し,言語の性質がニューラルネットワークアーキテクチャ開発にもたらした重要な貢献を明らかにした。 我々は,注意に基づくモデルにおける可変結合の重要性とインスタンス化に注目し,トランスフォーマはシーケンスモデルではなく誘導構造モデルであると主張する。 この視点は、自然言語理解のためのディープラーニングアーキテクチャの研究が直面する課題の予測につながる。

In this paper, we trace the history of neural networks applied to natural language understanding tasks, and identify key contributions which the nature of language has made to the development of neural network architectures. We focus on the importance of variable binding and its instantiation in attention-based models, and argue that Transformer is not a sequence model but an induced-structure model. This perspective leads to predictions of the challenges facing research in deep learning architectures for natural language understanding.
翻訳日:2022-12-03 10:05:57 公開日:2020-06-11
# 意味判別器による一般化ゼロショット学習の改善

Improving Generalized Zero-Shot Learning by Semantic Discriminator ( http://arxiv.org/abs/2005.13956v2 )

ライセンス: Link先を確認
Xinpeng Li(参考訳) 一般ゼロショット学習(GZSL)の設定における未確認クラスの分類精度が従来のゼロショット学習(ZSL)よりもはるかに低いことは認識されている事実である。 理由の1つは、インスタンスが常に間違ったドメインに誤分類されていることだ。 ここでは、見られているクラスと見当たらないクラスをそれぞれ2つのドメインとして参照する。 インスタンスが見掛けられたクラスか、見当たらないクラスなのかを区別する新しいアプローチを提案する。 まず、インスタンスの視覚的特徴はセマンティック空間に投影される。 次に、投影された意味ベクトルとクラス意味埋め込みベクトルとの絶対ノルム差と、投影された意味ベクトルと観測されたクラスの意味埋め込みベクトルとの最小距離を識別基準として用いる。 このアプローチをSD(Semantic Discriminator)と呼ぶのは、ドメインの判断がセマンティック空間で実行されるからである。 提案手法は既存のZSL法と完全教師付き分類モデルと組み合わせて新しいGZSL法を構築することができる。 さらに、このアプローチは非常に単純で、固定パラメータは必要ありません。

It is a recognized fact that the classification accuracy of unseen classes in the setting of Generalized Zero-Shot Learning (GZSL) is much lower than that of traditional Zero-Shot Leaning (ZSL). One of the reasons is that an instance is always misclassified to the wrong domain. Here we refer to the seen and unseen classes as two domains respectively. We propose a new approach to distinguish whether the instances come from the seen or unseen classes. First the visual feature of instance is projected into the semantic space. Then the absolute norm difference between the projected semantic vector and the class semantic embedding vector, and the minimum distance between the projected semantic vectors and the semantic embedding vectors of the seen classes are used as discrimination basis. This approach is termed as SD (Semantic Discriminator) because domain judgement of instance is performed in the semantic space. Our approach can be combined with any existing ZSL method and fully supervision classification model to form a new GZSL method. Furthermore, our approach is very simple and does not need any fixed parameters.
翻訳日:2022-11-27 05:18:43 公開日:2020-06-11
# 確率的深部顔埋め込み学習のさらなる情報化

More Information Supervised Probabilistic Deep Face Embedding Learning ( http://arxiv.org/abs/2006.04518v2 )

ライセンス: Link先を確認
Ying Huang, Shangfeng Qiu, Wenwei Zhang, Xianghui Luo, Jinzhuo Wang(参考訳) マージンに基づく比較損失を用いた研究は、顔の特徴とそれに対応するクラスセンターの距離をペナルティ化する効果を示した。 その人気と優れた性能にもかかわらず、オープンセット認識問題に対するジェネリック組込み学習を明示的に奨励していない。 本稿では,確率ビューにおけるマージンベースソフトマックス損失を分析した。 この観点から、我々は2つの原則を提案する。 1)単調減少、及び 2) 新しいマージン損失関数を設計するためのマージン確率のペナルティ。 単一比較基準で最適化した手法とは異なり、オープンセット顔認識を情報伝達問題として扱うための新しい視点を提供する。 そして、よりクリーンな情報で顔埋め込みの一般化能力を得る。 この発見を裏付けるために、Linear-Auto-TS-Encoder (LATSE) と呼ばれる自動エンコーダアーキテクチャを提案する。 いくつかのベンチマークでの広範囲な実験は、latseがより一般化する能力を得るのに役立つことを証明し、オープントレーニングデータセットによる単一モデルのパフォーマンスをmegafaceテストで99ドル以上に向上させた。

Researches using margin based comparison loss demonstrate the effectiveness of penalizing the distance between face feature and their corresponding class centers. Despite their popularity and excellent performance, they do not explicitly encourage the generic embedding learning for an open set recognition problem. In this paper, we analyse margin based softmax loss in probability view. With this perspective, we propose two general principles: 1) monotonic decreasing and 2) margin probability penalty, for designing new margin loss functions. Unlike methods optimized with single comparison metric, we provide a new perspective to treat open set face recognition as a problem of information transmission. And the generalization capability for face embedding is gained with more clean information. An auto-encoder architecture called Linear-Auto-TS-Encoder(LATSE) is proposed to corroborate this finding. Extensive experiments on several benchmarks demonstrate that LATSE help face embedding to gain more generalization capability and it boosted the single model performance with open training dataset to more than $99\%$ on MegaFace test.
翻訳日:2022-11-24 01:18:54 公開日:2020-06-11
# スケール空間不変アテンションニューラルネットワークによる単一画像評価

Single Image Deraining via Scale-space Invariant Attention Neural Network ( http://arxiv.org/abs/2006.05049v2 )

ライセンス: Link先を確認
Bo Pang, Deming Zhai, Junjun Jiang, Xianming Liu(参考訳) 降雨アーティファクトの劣化による画像強調は、屋外視覚コンピューティングシステムにおいて重要な役割を果たす。 本稿では,カメラに対する雨ステーキの外観の視覚的変化を扱うスケールの概念について考察する。 具体的には,マルチスケール表現をスケール空間理論で再検討し,画素領域よりもコンパクトで頑健な畳み込み特徴領域におけるマルチスケール相関を表現することを提案する。 さらに,ネットワークのモデリング能力を向上させるために,抽出したマルチスケール特徴を等しく扱うのではなく,ネットワークが特徴の一部に焦点を合わせるのに役立つ,新しいスケール空間不変アテンション機構を設計する。 このようにして、機能マップの最も活発な存在を有能な特徴として要約する。 人工雨と実雨のシーンにおける広範囲な実験の結果は,最先端の手法よりも優れた性能を示している。

Image enhancement from degradation of rainy artifacts plays a critical role in outdoor visual computing systems. In this paper, we tackle the notion of scale that deals with visual changes in appearance of rain steaks with respect to the camera. Specifically, we revisit multi-scale representation by scale-space theory, and propose to represent the multi-scale correlation in convolutional feature domain, which is more compact and robust than that in pixel domain. Moreover, to improve the modeling ability of the network, we do not treat the extracted multi-scale features equally, but design a novel scale-space invariant attention mechanism to help the network focus on parts of the features. In this way, we summarize the most activated presence of feature maps as the salient features. Extensive experiments results on synthetic and real rainy scenes demonstrate the superior performance of our scheme over the state-of-the-arts.
翻訳日:2022-11-23 15:03:41 公開日:2020-06-11
# 意味的観察による実証からのナビゲーションコストの学習

Learning Navigation Costs from Demonstration with Semantic Observations ( http://arxiv.org/abs/2006.05043v2 )

ライセンス: Link先を確認
Tianyu Wang, Vikas Dhiman, Nikolay Atanasov(参考訳) 本稿では,自律ロボットナビゲーションのためのセマンティクス観測を用いた逆強化学習(irl)について述べる。 目的は、専門家の観察と状態制御の軌跡にのみ依存しながら、実証行動を説明するコスト関数を推論することである。 本研究では,観測シーケンスから意味クラス確率を推定するマップエンコーダと,その意味的特徴からディープニューラルネットワークとして定義されるコストエンコーダを開発した。 専門家のコストは直接観測できないため、表現パラメータは、実証された制御とコスト推定から計算された制御ポリシーとの誤差を微分することによってのみ最適化できる。 誤差は、動き計画アルゴリズムを介して有望な状態のサブセット上でのみ計算される閉形式部分次数を用いて最適化される。 提案手法は,自動車,歩道,道路路面のセマンティックな観察に頼って,自律走行CARLAシミュレータにおける交通ルールに従うことができることを示す。

This paper focuses on inverse reinforcement learning (IRL) for autonomous robot navigation using semantic observations. The objective is to infer a cost function that explains demonstrated behavior while relying only on the expert's observations and state-control trajectory. We develop a map encoder, which infers semantic class probabilities from the observation sequence, and a cost encoder, defined as deep neural network over the semantic features. Since the expert cost is not directly observable, the representation parameters can only be optimized by differentiating the error between demonstrated controls and a control policy computed from the cost estimate. The error is optimized using a closed-form subgradient computed only over a subset of promising states via a motion planning algorithm. We show that our approach learns to follow traffic rules in the autonomous driving CARLA simulator by relying on semantic observations of cars, sidewalks and road lanes.
翻訳日:2022-11-23 14:26:45 公開日:2020-06-11
# Sparse Dynamic Distribution Decomposition: 軌道とスナップショット時系列データの効率的な統合

Sparse Dynamic Distribution Decomposition: Efficient Integration of Trajectory and Snapshot Time Series Data ( http://arxiv.org/abs/2006.05138v2 )

ライセンス: Link先を確認
Jake P. Taylor-King, Cristian Regep, Jyothish Soman, Flawnson Tong, Catalina Cangea, Charlie Roberts(参考訳) 動的分散分解(DDD)はTaylor-Kingらによって導入された。 動的モード分解の変種としてのal.(plos comp biol, 2020) 簡単に言うと、DDDは、連続状態空間上の基底関数を使用することで、これらの基底関数に対する連続時間マルコフ連鎖の適合を可能にします。 dddのパラメータ数は基底関数の数の2乗でスケールします。問題を再構成し、メソッドをコンパクトな基底関数に制限することで、スパース行列のみの推論が可能になります。 最後に、DDDがトラジェクティブ時系列(後続の時間点間でペアリングされる)とスナップショット時系列(未ペアリング時間点)の両方を統合するのにどのように適しているかを示す。 どちらのシナリオも統合できる手法は、生物医学データの解析に特に重要であり、研究は、一定の時点(スナップショット)における個体数と、反復的なフォローアップ(軌道)を伴う個々の患者の移動を観察する。

Dynamic Distribution Decomposition (DDD) was introduced in Taylor-King et. al. (PLOS Comp Biol, 2020) as a variation on Dynamic Mode Decomposition. In brief, by using basis functions over a continuous state space, DDD allows for the fitting of continuous-time Markov chains over these basis functions and as a result continuously maps between distributions. The number of parameters in DDD scales by the square of the number of basis functions; we reformulate the problem and restrict the method to compact basis functions which leads to the inference of sparse matrices only -- hence reducing the number of parameters. Finally, we demonstrate how DDD is suitable to integrate both trajectory time series (paired between subsequent time points) and snapshot time series (unpaired time points). Methods capable of integrating both scenarios are particularly relevant for the analysis of biomedical data, whereby studies observe population at fixed time points (snapshots) and individual patient journeys with repeated follow ups (trajectories).
翻訳日:2022-11-23 13:53:29 公開日:2020-06-11
# 分類器のロバスト性の定義に向けて

Towards an Intrinsic Definition of Robustness for a Classifier ( http://arxiv.org/abs/2006.05095v2 )

ライセンス: Link先を確認
Th\'eo Giraudon, Vincent Gripon, Matthias L\"owe, Franck Vermet(参考訳) 分類器のロバスト性は、ここ数年で最も重要な問題となっている。 実際、最先端のディープラーニングアーキテクチャは、入力に対する理解できない変更で簡単に騙せることが示されている。 したがって、訓練された分類器の堅牢性の優れた尺度を見つけることは、この分野において重要な問題である。 本稿では, 検証セットにおける試料のロバスト性半径の平均化は, 統計的に弱い尺度であることを示す。 我々は,その難易度に応じてサンプルの重要性を重み付けることを提案する。 我々は,ロジスティック回帰を用いた理論的ケーススタディにより提案スコアの動機付けを行い,提案スコアは評価したサンプルの選択とは無関係であることを示した。 また,深層畳み込みニューラルネットワークや実際のデータセットなど,より複雑な設定でのサンプル選択に依存することなく,分類器のロバスト性を測定するための提案スコアの有用性を実証的に実証した。

The robustness of classifiers has become a question of paramount importance in the past few years. Indeed, it has been shown that state-of-the-art deep learning architectures can easily be fooled with imperceptible changes to their inputs. Therefore, finding good measures of robustness of a trained classifier is a key issue in the field. In this paper, we point out that averaging the radius of robustness of samples in a validation set is a statistically weak measure. We propose instead to weight the importance of samples depending on their difficulty. We motivate the proposed score by a theoretical case study using logistic regression, where we show that the proposed score is independent of the choice of the samples it is evaluated upon. We also empirically demonstrate the ability of the proposed score to measure robustness of classifiers with little dependence on the choice of samples in more complex settings, including deep convolutional neural networks and real datasets.
翻訳日:2022-11-23 13:33:19 公開日:2020-06-11
# confnet2seq: 音声質問からの完全長回答生成

ConfNet2Seq: Full Length Answer Generation from Spoken Questions ( http://arxiv.org/abs/2006.05163v2 )

ライセンス: Link先を確認
Vaishali Pal, Manish Shrivastava and Laurent Besacier(参考訳) 会話やタスク指向の対話システムは,テキストや音声などのマルチモーダルインタフェースを通じて,自然な応答を用いてユーザと対話することを目的としている。 これらの望ましい回答は、知識ソースから取得した事実よりも長い自然な回答の形で生成される。 回答スパンから質問への自然な回答を生成するタスクは広く研究されているが、音声コンテンツよりも自然文生成に関する研究は少ない。 本稿では,音声質問とファクトイド回答から全長の自然言語回答を生成するシステムを提案する。 予め訓練された自動音声認識装置から抽出された混乱ネットワークとして音声シーケンスをコンパクトに表現する。 これは、グラフ入力(コンフュージョンネットワーク)から我々の知識を最大限に活用するための、完全な自然解を生成する最初の試みである。 音声質問の大規模データセット259,788件, 事実型回答, 対応する全文回答を公表した。 提案手法に従えば,最高のASR仮説で同等の性能が得られる。

Conversational and task-oriented dialogue systems aim to interact with the user using natural responses through multi-modal interfaces, such as text or speech. These desired responses are in the form of full-length natural answers generated over facts retrieved from a knowledge source. While the task of generating natural answers to questions from an answer span has been widely studied, there has been little research on natural sentence generation over spoken content. We propose a novel system to generate full length natural language answers from spoken questions and factoid answers. The spoken sequence is compactly represented as a confusion network extracted from a pre-trained Automatic Speech Recognizer. This is the first attempt towards generating full-length natural answers from a graph input(confusion network) to the best of our knowledge. We release a large-scale dataset of 259,788 samples of spoken questions, their factoid answers and corresponding full-length textual answers. Following our proposed approach, we achieve comparable performance with best ASR hypothesis.
翻訳日:2022-11-23 13:16:25 公開日:2020-06-11
# dfraud3- コールドスタートフリーの多成分不正検出

DFraud3- Multi-Component Fraud Detection freeof Cold-start ( http://arxiv.org/abs/2006.05718v2 )

ライセンス: Link先を確認
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) フラッドレビュー検出は最近の熱い研究トピックである。 コールドスタート(Cold-start)は特に新しいが重要な問題であり、新しいユーザの認証に検知システムが失敗したことを指す。 最先端のソリューションは、レビューシステムのコンポーネントの相互作用をモデル化するために翻訳知識グラフ埋め込みアプローチ(TransE)を用いる。 しかしながら、これらのアプローチは、N-1関係を扱うTransEinの制限と、単一の分類タスクの狭い範囲、すなわち詐欺師のみを検出することによる。 本稿では,各コンポーネントに一意に表現可能な異種情報ネットワーク (HIN) としてレビューシステムをモデル化し,近傍ノードの特徴を集約することで,レビューデータに対するグラフ帰納学習を行う。 HINとグラフ誘導はカモフラージュ問題(本物のレビュー付き詐欺師)に対処するのに役立ち、これはコールドスタートと組み合わされた場合、すなわち真に最初のレビューを持つ新しい詐欺師がより深刻であることが示されている。 本研究では,1つのコンポーネントのみに着目し,不正レビューや不正ユーザ(詐欺師)を検出する代わりに,各コンポーネントについてベクトル表現を学習し,複数コンポーネントの分類を可能にする。 言い換えれば、不正レビュー、詐欺師、不正ターゲットのアイテムを検知できるので、DFraud3というアプローチの名前がつけられる。 DFraud3はYelpの最先端技術に比べて13%の精度向上を示している。

Fraud review detection is a hot research topic inrecent years. The Cold-start is a particularly new but significant problem referring to the failure of a detection system to recognize the authenticity of a new user. State-of-the-art solutions employ a translational knowledge graph embedding approach (TransE) to model the interaction of the components of a review system. However, these approaches suffer from the limitation of TransEin handling N-1 relations and the narrow scope of a single classification task, i.e., detecting fraudsters only. In this paper, we model a review system as a Heterogeneous InformationNetwork (HIN) which enables a unique representation to every component and performs graph inductive learning on the review data through aggregating features of nearby nodes. HIN with graph induction helps to address the camouflage issue (fraudsterswith genuine reviews) which has shown to be more severe when it is coupled with cold-start, i.e., new fraudsters with genuine first reviews. In this research, instead of focusing only on one component, detecting either fraud reviews or fraud users (fraudsters), vector representations are learnt for each component, enabling multi-component classification. In other words, we are able to detect fraud reviews, fraudsters, and fraud-targeted items, thus the name of our approach DFraud3. DFraud3 demonstrates a significant accuracy increase of 13% over the state of the art on Yelp.
翻訳日:2022-11-23 06:27:45 公開日:2020-06-11
# 差分プライバシーによる学習

Learning With Differential Privacy ( http://arxiv.org/abs/2006.05609v2 )

ライセンス: Link先を確認
Poushali Sengupta, Sudipta Paul, Subhankar Mishra(参考訳) データ漏洩は、機密情報を含む場合、個人レベルでの極端な影響だった可能性がある。 暗号化復号化、エンドポイント保護、侵入検知システムなどの一般的な防止方法は漏れやすい。 異なるプライバシは、データ収集時にランダム化された応答技術を使用して、より優れたユーティリティで強力なプライバシを約束するので、リークに対する適切な保護の約束によって救助される。 差分プライバシーにより、個々の木を開示することなく、グループのパターンを記述することで、データの森にアクセスすることができる。 主要なテック企業や学術機関による現在の差分プライバシーの適応は、著者にこのトピックを詳細に探求することを奨励している。 異なるプライバシの異なる側面、プライバシ保護と情報の漏洩、比較議論、この分野における現在の研究アプローチ、現実世界における実用性、トレードオフなどについて論じる。

The leakage of data might have been an extreme effect on the personal level if it contains sensitive information. Common prevention methods like encryption-decryption, endpoint protection, intrusion detection system are prone to leakage. Differential privacy comes to the rescue with a proper promise of protection against leakage, as it uses a randomized response technique at the time of collection of the data which promises strong privacy with better utility. Differential privacy allows one to access the forest of data by describing their pattern of groups without disclosing any individual trees. The current adaption of differential privacy by leading tech companies and academia encourages authors to explore the topic in detail. The different aspects of differential privacy, it's application in privacy protection and leakage of information, a comparative discussion, on the current research approaches in this field, its utility in the real world as well as the trade-offs - will be discussed.
翻訳日:2022-11-23 05:07:23 公開日:2020-06-11
# グラフニューラルネットワーク学習用バンディットサンプリング器

Bandit Samplers for Training Graph Neural Networks ( http://arxiv.org/abs/2006.05806v2 )

ライセンス: Link先を確認
Ziqi Liu, Zhengwei Wu, Zhiqiang Zhang, Jun Zhou, Shuang Yang, Le Song, Yuan Qi(参考訳) グラフ畳み込みネットワーク (GCN) の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。 しかし、最適なサンプリング分布の難解な計算のため、これらのサンプリングアルゴリズムはGCNに最適であり、グラフ注意ネットワーク(GAT)のような固定重みではなく学習重量を含むより一般的なグラフニューラルネットワーク(GNN)には適用できない。 基本的な理由は、最適サンプリング分布にかかわる近傍の埋め込みや学習された重みの埋め込みがトレーニング中に変化し、事前は分かっていないが、サンプリング時にのみ部分的に観察されるため、最適分散還元サンプラーの導出は非自明である。 本稿では,サンプル分散の最適化を,ノードの埋め込みや学習重みに関する報奨問題として定式化し,常に変化させることができる。 したがって、良いサンプリング器は、即時サンプリング分散(exploit)を最適化しながら、より多くの隣人に関する分散情報(exploration)を取得する必要がある。 理論上,本アルゴリズムは3因子内の最適分散に漸近的に接近することを示した。 複数のデータセットに対するアプローチの効率性と有効性を示す。

Several sampling algorithms with variance reduction have been proposed for accelerating the training of Graph Convolution Networks (GCNs). However, due to the intractable computation of optimal sampling distribution, these sampling algorithms are suboptimal for GCNs and are not applicable to more general graph neural networks (GNNs) where the message aggregator contains learned weights rather than fixed weights, such as Graph Attention Networks (GAT). The fundamental reason is that the embeddings of the neighbors or learned weights involved in the optimal sampling distribution are changing during the training and not known a priori, but only partially observed when sampled, thus making the derivation of an optimal variance reduced samplers non-trivial. In this paper, we formulate the optimization of the sampling variance as an adversary bandit problem, where the rewards are related to the node embeddings and learned weights, and can vary constantly. Thus a good sampler needs to acquire variance information about more neighbors (exploration) while at the same time optimizing the immediate sampling variance (exploit). We theoretically show that our algorithm asymptotically approaches the optimal variance within a factor of 3. We show the efficiency and effectiveness of our approach on multiple datasets.
翻訳日:2022-11-23 04:29:07 公開日:2020-06-11
# リコメンダシステムのための自己監督型強化学習

Self-Supervised Reinforcement Learning for Recommender Systems ( http://arxiv.org/abs/2006.05779v2 )

ライセンス: Link先を確認
Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Joemon M. Jose(参考訳) セッションベースやシーケンシャルなレコメンデーションでは、長期ユーザエンゲージメントやクリックや購入といった複数のユーザ・テーマインタラクションなど、さまざまな要因を考慮することが重要である。 現在の最先端の監視アプローチでは、適切なモデル化に失敗している。 強化学習(RL)問題としてのシーケンシャルレコメンデーションタスクは有望な方向である。 RLアプローチの主要なコンポーネントは、環境とのインタラクションを通じてエージェントをトレーニングすることだ。 しかし、ユーザを無関係な推奨事項に公開する必要があるため、オンライン形式でレコメンダをトレーニングすることがしばしば問題となる。 結果として、ログ化された暗黙のフィードバックからポリシーを学ぶことは極めて重要であり、純粋なオフポリシー設定と負の報酬(フィードバック)の欠如のために難しい。 本稿では,シーケンシャルレコメンデーションタスクのための自己指導型強化学習を提案する。 このアプローチでは,自己教師付き学習とrlの2つのアウトプット層による標準レコメンデーションモデルを強化している。 rl部分は、特定の報酬(例えば、クリックではなく購入につながる可能性のあるアイテムを推奨する)に焦点を当てた監督層を駆動するレギュレータとして働き、クロスエントロピー損失のある自己監督層はパラメータ更新のための強い勾配信号を提供する。 そこで本研究では,SQN(Self Supervised Q-learning)とSAC(Self Supervised Actor-Critic)という2つのフレームワークを提案する。 提案するフレームワークを4つの最先端レコメンデーションモデルに統合する。 2つの実世界のデータセットの実験結果から,本手法の有効性が示された。

In session-based or sequential recommendation, it is important to consider a number of factors like long-term user engagement, multiple types of user-item interactions such as clicks, purchases etc. The current state-of-the-art supervised approaches fail to model them appropriately. Casting sequential recommendation task as a reinforcement learning (RL) problem is a promising direction. A major component of RL approaches is to train the agent through interactions with the environment. However, it is often problematic to train a recommender in an on-line fashion due to the requirement to expose users to irrelevant recommendations. As a result, learning the policy from logged implicit feedback is of vital importance, which is challenging due to the pure off-policy setting and lack of negative rewards (feedback). In this paper, we propose self-supervised reinforcement learning for sequential recommendation tasks. Our approach augments standard recommendation models with two output layers: one for self-supervised learning and the other for RL. The RL part acts as a regularizer to drive the supervised layer focusing on specific rewards(e.g., recommending items which may lead to purchases rather than clicks) while the self-supervised layer with cross-entropy loss provides strong gradient signals for parameter updates. Based on such an approach, we propose two frameworks namely Self-Supervised Q-learning(SQN) and Self-Supervised Actor-Critic(SAC). We integrate the proposed frameworks with four state-of-the-art recommendation models. Experimental results on two real-world datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-23 04:23:12 公開日:2020-06-11
# ClarQ: Clarification Question Generationのための大規模かつ多様なデータセット

ClarQ: A large-scale and diverse dataset for Clarification Question Generation ( http://arxiv.org/abs/2006.05986v2 )

ライセンス: Link先を確認
Vaibhav Kumar and Alan W. black(参考訳) 質問応答と会話システムはしばしば混乱し、特定の曖昧さを明らかにするのに役立ちます。 しかし、既存のデータセットの制限は、明確化問題の生成と利用が可能な大規模モデルの開発を妨げる。 これらの制限を克服するために,スタックエクスチェンジから抽出したポストコンプレックスタプルに基づいた,多様な大規模質問のデータセット作成を支援する,新しいブートストラップフレームワーク(セルフスーパービジョンに基づく)を考案した。 このフレームワークは、明確化質問を分類するためにニューラルネットワークベースのアーキテクチャを利用する。 第1は分類器の精度向上を目標とし,第2はリコールの精度向上を目標とする2段階の手法である。 質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。 最後のデータセットであるClarQは、スタックエクスチェンジの173ドメインに分散した約2Mのサンプルで構成されている。 我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。

Question answering and conversational systems are often baffled and need help clarifying certain ambiguities. However, limitations of existing datasets hinder the development of large-scale models capable of generating and utilising clarification questions. In order to overcome these limitations, we devise a novel bootstrapping framework (based on self-supervision) that assists in the creation of a diverse, large-scale dataset of clarification questions based on post-comment tuples extracted from stackexchange. The framework utilises a neural network based architecture for classifying clarification questions. It is a two-step method where the first aims to increase the precision of the classifier and second aims to increase its recall. We quantitatively demonstrate the utility of the newly created dataset by applying it to the downstream task of question-answering. The final dataset, ClarQ, consists of ~2M examples distributed across 173 domains of stackexchange. We release this dataset in order to foster research into the field of clarification question generation with the larger goal of enhancing dialog and question answering systems.
翻訳日:2022-11-23 04:03:41 公開日:2020-06-11
# Stackelbergゲームにおける学習リーダの最適決定

Optimally Deceiving a Learning Leader in Stackelberg Games ( http://arxiv.org/abs/2006.06566v1 )

ライセンス: Link先を確認
Georgios Birmpas, Jiarui Gan, Alexandros Hollender, Francisco J. Marmolejo-Coss\'io, Ninad Rajgopal, Alexandros A. Voudouris(参考訳) mlコミュニティの最近の結果は、stackelbergゲームでリーダーがコミットする最適な戦略を計算するのに使われる学習アルゴリズムが、従者による操作の影響を受けやすいことを明らかにしている。 このような学習アルゴリズムは、フォロワーのベストレスポンスや報酬をクエリすることで動作し、その結果、その報酬が実際のものと大きく異なるかのように応答することでアルゴリズムを欺くことができる。 この戦略的な行動が成功するためには、学習アルゴリズムがコミットメントを計算させ、それに対する最善の反応がフォロワーの効用を最大化する報酬を、彼の真の報酬によって特定することが主な課題である。 この問題は以前にも検討されてきたが、関連する文献では、ペイオフ空間が有限であるような単純なシナリオにのみ焦点が当てられている。 本稿では,このギャップを埋めるために,リーダとフォロワー間の学習相互作用に関するさまざまなシナリオに対して,フォロワーが(ほぼ)最適報酬を計算できることを示し,そのギャップを埋める。

Recent results in the ML community have revealed that learning algorithms used to compute the optimal strategy for the leader to commit to in a Stackelberg game, are susceptible to manipulation by the follower. Such a learning algorithm operates by querying the best responses or the payoffs of the follower, who consequently can deceive the algorithm by responding as if his payoffs were much different than what they actually are. For this strategic behavior to be successful, the main challenge faced by the follower is to pinpoint the payoffs that would make the learning algorithm compute a commitment so that best responding to it maximizes the follower's utility, according to his true payoffs. While this problem has been considered before, the related literature only focused on the simplified scenario in which the payoff space is finite, thus leaving the general version of the problem unanswered. In this paper, we fill in this gap, by showing that it is always possible for the follower to compute (near-)optimal payoffs for various scenarios about the learning interaction between leader and follower.
翻訳日:2022-11-22 14:52:24 公開日:2020-06-11
# 光フロー型CNNによる介護者ニーズに適応した転倒検知器

Fall Detector Adapted to Nursing Home Needs through an Optical-Flow based CNN ( http://arxiv.org/abs/2006.06201v1 )

ライセンス: Link先を確認
Alexy Carlier (IETR), Paul Peyramaure (IETR), Ketty Favre (UR1), Muriel Pressigout (IETR)(参考訳) 高齢者専用住宅における転倒検知は困難である。 視覚に基づく転倒検出ソリューションは、精神疾患に苦しむ住民を指標にしないため、センサーベースのものに対して大きな利点がある。 この研究は、老人ホームにおける転倒検出ソリューションの展開を目的としたプロジェクトの一部である。 提案したソリューションは、Deep Learningに基づいて、感度ベースのメトリックを最大化するためにトレーニングされた畳み込みニューラルネットワーク(CNN)上に構築されている。 この研究は、医療側からの要求とそれがCNNのチューニングに与える影響を提示する。 結果は転倒の時間的側面の重要性を浮き彫りにする。 そのため、医療チームの要件を最大限に満たすため、このユースケースに適合したカスタムメトリックと意思決定プロセスの実装を提案する。 臨床関連性 この研究は、86.2%のフォールを検知できるフォール検出ソリューションを示し、考慮されたデータベースで平均11.6%の誤報しか発生しない。

Fall detection in specialized homes for the elderly is challenging. Vision-based fall detection solutions have a significant advantage over sensor-based ones as they do not instrument the resident who can suffer from mental diseases. This work is part of a project intended to deploy fall detection solutions in nursing homes. The proposed solution, based on Deep Learning, is built on a Convolutional Neural Network (CNN) trained to maximize a sensitivity-based metric. This work presents the requirements from the medical side and how it impacts the tuning of a CNN. Results highlight the importance of the temporal aspect of a fall. Therefore, a custom metric adapted to this use case and an implementation of a decision-making process are proposed in order to best meet the medical teams requirements. Clinical relevance This work presents a fall detection solution enabled to detect 86.2% of falls while producing only 11.6% of false alarms in average on the considered databases.
翻訳日:2022-11-22 14:44:18 公開日:2020-06-11
# 自律運転のためのデータ駆動予測アーキテクチャとアポロプラットフォームへの応用

Data Driven Prediction Architecture for Autonomous Driving and its Application on Apollo Platform ( http://arxiv.org/abs/2006.06715v1 )

ライセンス: Link先を確認
Kecheng Xu, Xiangquan Xiao, Jinghao Miao, Qi Luo(参考訳) 自動運転車(ADV)は大規模道路を走行している。 安全かつ効率的な運用のためには、advは将来の状態を予測でき、複雑な現実の運転シナリオで道路エンティティと反復できる必要があります。 地形・交通規則・実体分布・運転・歩行パターンが異なる地域において大きく異なるため,適切に訓練された予測モデルをある地域から別の地域へ移行する方法はadv運用のスケールアップに不可欠であり,ほとんどの時間において困難である。 本稿では,baidu apolloの自動運転プラットフォームにデプロイされた高度に自動化された学習ベースの予測モデルパイプラインを紹介し,さまざまな予測学習サブモジュールのデータアノテーション,特徴抽出,モデルのトレーニング/チューニング,デプロイをサポートする。 このパイプラインは人間の介入なしに完全に自動化され、各国で異なるシナリオで大規模に展開する場合、パラメータチューニングの効率が最大400\%向上する。

Autonomous Driving vehicles (ADV) are on road with large scales. For safe and efficient operations, ADVs must be able to predict the future states and iterative with road entities in complex, real-world driving scenarios. How to migrate a well-trained prediction model from one geo-fenced area to another is essential in scaling the ADV operation and is difficult most of the time since the terrains, traffic rules, entities distributions, driving/walking patterns would be largely different in different geo-fenced operation areas. In this paper, we introduce a highly automated learning-based prediction model pipeline, which has been deployed on Baidu Apollo self-driving platform, to support different prediction learning sub-modules' data annotation, feature extraction, model training/tuning and deployment. This pipeline is completely automatic without any human intervention and shows an up to 400\% efficiency increase in parameter tuning, when deployed at scale in different scenarios across nations.
翻訳日:2022-11-22 14:43:42 公開日:2020-06-11
# ニューラルチェックポリトープ投影を用いたバイナリ線形符号のためのPDDデコーダ

A PDD Decoder for Binary Linear Codes With Neural Check Polytope Projection ( http://arxiv.org/abs/2006.06240v1 )

ライセンス: Link先を確認
Yi Wei, Ming-Min Zhao, Min-Jian Zhao and Ming Lei(参考訳) リニアプログラミング(Linear Programming、LP)は、2進線形符号の重要な復号法である。 しかし、低エラーフロアや強力な理論的保証といったLP復号化の利点は、低信号-雑音比(SNR)領域での計算複雑性と性能の低下を犠牲にしている。 本稿では、ペナルティ二重分解(PDD)フレームワークを採用し、基本ポリトープに基づく最大可能性(ML)復号問題に対処するPDDアルゴリズムを提案する。 さらに,PDD復号アルゴリズムの最も時間を要する部分,すなわちチェックポリトープ投影(CPP)に機械学習技術を統合することを提案する。 多層知覚(mlp)が理論的に任意の非線形マッピング関数を近似できるという事実に触発されて、特別に設計されたニューラルcpp(ncpp)アルゴリズムを提案する。 シミュレーションの結果,提案アルゴリズムの有効性が示された。

Linear Programming (LP) is an important decoding technique for binary linear codes. However, the advantages of LP decoding, such as low error floor and strong theoretical guarantee, etc., come at the cost of high computational complexity and poor performance at the low signal-to-noise ratio (SNR) region. In this letter, we adopt the penalty dual decomposition (PDD) framework and propose a PDD algorithm to address the fundamental polytope based maximum likelihood (ML) decoding problem. Furthermore, we propose to integrate machine learning techniques into the most time-consuming part of the PDD decoding algorithm, i.e., check polytope projection (CPP). Inspired by the fact that a multi-layer perception (MLP) can theoretically approximate any nonlinear mapping function, we present a specially designed neural CPP (NCPP) algorithm to decrease the decoding latency. Simulation results demonstrate the effectiveness of the proposed algorithms.
翻訳日:2022-11-22 14:42:08 公開日:2020-06-11
# 次世代自己組織化ネットワークにおけるハンドオーバ管理のためのリカレントニューラルネットワーク

Recurrent Neural Networks for Handover Management in Next-Generation Self-Organized Networks ( http://arxiv.org/abs/2006.06526v1 )

ライセンス: Link先を確認
Zoraze Ali, Marco Miozzo, Lorenza Giupponi, Paolo Dini, Stojan Denic, Stavroula Vassaki(参考訳) 本稿では,次世代自己組織化ネットワークのハンドオーバ管理方式について論じる。 本稿では,全プロトコルスタックデータから経験を抽出し,ユーザが移動し,停止の深いゾーンに挑戦するマルチセルシナリオにおいて,スマートハンドオーバ決定を行うことを提案する。 従来のハンドオーバ方式では、ハンドオーバの前にサービスからの信号強度とターゲットセルのみを考慮に入れるという欠点がある。 しかし、我々は、標的細胞をハンドオーバする決定から生じる期待されるQoE(Quality of Experience)が、ハンドオーバ決定の原動力となると信じている。 特に,多層多層LSTMアーキテクチャと多層LSTMオートエンコーダ(AE)と,MLP(MultiLayer Perceptron)ニューラルネットワークを併用した2つのモデルを提案する。 本研究では,データから抽出した経験を用いて,ユーザ数を18%削減できることを示すとともに,イベントベースのハンドオーバベンチマーク手法によるダウンロード時間を削減できることを示す。 さらに、一般化のために、LSTMオートエンコーダを異なるシナリオでテストし、元のシナリオと比較して若干の劣化を伴って性能改善を継続する。

In this paper, we discuss a handover management scheme for Next Generation Self-Organized Networks. We propose to extract experience from full protocol stack data, to make smart handover decisions in a multi-cell scenario, where users move and are challenged by deep zones of an outage. Traditional handover schemes have the drawback of taking into account only the signal strength from the serving, and the target cell, before the handover. However, we believe that the expected Quality of Experience (QoE) resulting from the decision of target cell to handover to, should be the driving principle of the handover decision. In particular, we propose two models based on multi-layer many-to-one LSTM architecture, and a multi-layer LSTM AutoEncoder (AE) in conjunction with a MultiLayer Perceptron (MLP) neural network. We show that using experience extracted from data, we can improve the number of users finalizing the download by 18%, and we can reduce the time to download, with respect to a standard event-based handover benchmark scheme. Moreover, for the sake of generalization, we test the LSTM Autoencoder in a different scenario, where it maintains its performance improvements with a slight degradation, compared to the original scenario.
翻訳日:2022-11-22 14:35:05 公開日:2020-06-11
# ジェファーソン研究所における機械学習を用いた超電導電波空洞断層分類

Superconducting radio-frequency cavity fault classification using machine learning at Jefferson Laboratory ( http://arxiv.org/abs/2006.06562v1 )

ライセンス: Link先を確認
Chris Tennant, Adam Carpenter, Tom Powers, Anna Shabalina Solopova, Lasitha Vidyaratne, Khan Iftekharuddin(参考訳) ジェファーソン研究所の連続電子ビーム加速器(cebaf)におけるc100超伝導高周波(srf)キャビティ障害の分類のための機械学習モデルの開発について報告する。 CEBAFは418個のSRFキャビティを用いて、12GeVから5パスまでの電子を加速する連続波循環リナックである。 これらのうち96個のキャビティ(12個のクライオモジュール)は、キャビティ障害が低温モジュール内の8つのキャビティそれぞれに対して17個のRF信号の波形記録をトリガーするように構成されたデジタル低レベルRFシステムで設計されている。 対象物の専門家(SME)は収集した時系列データを分析し、最初に故障した8つのキャビティのうちどれを識別し、障害の種類を分類することができる。 この情報はトレンドを見つけ出し、問題のあるCryomoduleへの戦略的デプロイに使用される。 しかし、手動でデータをラベル付けするのは手間と時間を要する。 機械学習の活用により,攻撃キャビティの(死後ではなく)ほぼリアルタイムな識別と,故障タイプの分類が実現されている。 近年の物理学におけるMLモデルの性能について論じる。 その結果, キャビティ同定モデルと断層分類モデルはそれぞれ84.9%, 78.2%であった。

We report on the development of machine learning models for classifying C100 superconducting radio-frequency (SRF) cavity faults in the Continuous Electron Beam Accelerator Facility (CEBAF) at Jefferson Lab. CEBAF is a continuous-wave recirculating linac utilizing 418 SRF cavities to accelerate electrons up to 12 GeV through 5-passes. Of these, 96 cavities (12 cryomodules) are designed with a digital low-level RF system configured such that a cavity fault triggers waveform recordings of 17 RF signals for each of the 8 cavities in the cryomodule. Subject matter experts (SME) are able to analyze the collected time-series data and identify which of the eight cavities faulted first and classify the type of fault. This information is used to find trends and strategically deploy mitigations to problematic cryomodules. However manually labeling the data is laborious and time-consuming. By leveraging machine learning, near real-time (rather than post-mortem) identification of the offending cavity and classification of the fault type has been implemented. We discuss performance of the ML models during a recent physics run. Results show the cavity identification and fault classification models have accuracies of 84.9% and 78.2%, respectively.
翻訳日:2022-11-22 14:34:44 公開日:2020-06-11
# IDEAL: 個別分散高速化ラグランジアン法

IDEAL: Inexact DEcentralized Accelerated Augmented Lagrangian Method ( http://arxiv.org/abs/2006.06733v1 )

ライセンス: Link先を確認
Yossi Arjevani, Joan Bruna, Bugra Can, Mert G\"urb\"uzbalaban, Stefanie Jegelka, Hongzhou Lin(参考訳) 本稿では,局所関数が滑らかで凸な分散最適化環境下でのプライマリメソッド設計フレームワークを提案する。 提案手法は, 高速化されたラグランジアン法により誘導される一連のサブプロブレムを概ね解くことで, EXTRA arXiv:1404.6264 や SSDA arXiv:1702.08704 などのよく知られた分散アルゴリズムを導出する体系的な方法を提供する。 加速度勾配降下と組み合わせることで,収束速度が最適で,最近導出された下界と一致した新しい原始アルゴリズムが得られる。 提案手法の有効性を示す実験結果について述べる。

We introduce a framework for designing primal methods under the decentralized optimization setting where local functions are smooth and strongly convex. Our approach consists of approximately solving a sequence of sub-problems induced by the accelerated augmented Lagrangian method, thereby providing a systematic way for deriving several well-known decentralized algorithms including EXTRA arXiv:1404.6264 and SSDA arXiv:1702.08704. When coupled with accelerated gradient descent, our framework yields a novel primal algorithm whose convergence rate is optimal and matched by recently derived lower bounds. We provide experimental results that demonstrate the effectiveness of the proposed algorithm on highly ill-conditioned problems.
翻訳日:2022-11-22 14:34:24 公開日:2020-06-11
# 機械学習によるCovid-19の確認症例数:方法と課題

The Number of Confirmed Cases of Covid-19 by using Machine Learning: Methods and Challenges ( http://arxiv.org/abs/2006.09184v1 )

ライセンス: Link先を確認
Amir Ahmada, Sunita Garhwal, Santosh Kumar Ray, Gagan Kumar, Sharaf J. Malebary, Omar Mohammed Omar Barukab(参考訳) Covid-19は、世界最大規模の健康問題の一つだ。 公衆衛生政策担当者は、将来医療施設を計画するために、確認されたケースの確実な予測が必要である。 機械学習の手法は、履歴データから学び、イベントについて予測する。 機械学習手法は、Covid-19の確認された症例数を予測するために使われてきた。 本稿では,これらの研究論文の詳細なレビューを行う。 我々はこれらを4つのカテゴリーに分類する分類を提示する。 我々はこの分野の課題をさらに提示する。 我々は,Covid-19の確認症例の予測のための機械学習手法の性能向上のために,機械学習実践者に提案を行う。

Covid-19 is one of the biggest health challenges that the world has ever faced. Public health policy makers need the reliable prediction of the confirmed cases in future to plan medical facilities. Machine learning methods learn from the historical data and make a prediction about the event. Machine learning methods have been used to predict the number of confirmed cases of Covid-19. In this paper, we present a detailed review of these research papers. We present a taxonomy that groups them in four categories. We further present the challenges in this field. We provide suggestions to the machine learning practitioners to improve the performance of machine learning methods for the prediction of confirmed cases of Covid-19.
翻訳日:2022-11-22 14:34:08 公開日:2020-06-11
# プレプロセッシングアルゴリズムを用いた胸部X線画像によるCNNの性能向上によるCOVID-19の予測

Improving performance of CNN to predict likelihood of COVID-19 using chest X-ray images with preprocessing algorithms ( http://arxiv.org/abs/2006.12229v1 )

ライセンス: Link先を確認
Morteza Heidari (1), Seyedehnafiseh Mirniaharikandehei (1), Abolfazl Zargari Khuzani (2), Gopichandh Danala (1), Yuchen Qiu (1), Bin Zheng (1) ((1) School of Electrical and Computer Engineering, University of Oklahoma, Norman USA, (2) Department of Electrical and Computer Engineering, University of California Santa Cruz, Santa Cruz, USA)(参考訳) 世界中の新型コロナウイルス(COVID-19)の急激な感染拡大に伴い、胸部X線撮影は、新型コロナウイルス感染症の検出や重症度の評価や、低コスト、低線量、広範囲のアクセス性による病院での予後の監視にも用いられている。 しかし、covid-19感染した肺炎をより正確かつ効率的に検出し、他のコミュニティが獲得した肺炎と区別する方法は依然として課題である。 本研究は,この課題に対処するために,新しいコンピュータ支援診断法(CAD)を開発し,検証する。 横隔膜を除去し、画像コントラストとノイズ比を正規化し、3つの入力画像を生成し、その後、移行学習に基づく畳み込みニューラルネットワーク(VGG16ベースのCNNモデル)にリンクして、胸部X線画像をCOVID-19感染性肺炎、その他の地域性肺炎および正常(非肺炎)の3つのクラスに分類する。 この目的のために、新型コロナウイルス感染肺炎415例、地域肺炎5,179例、非肺炎2,880例を含む8,474例の胸部X線画像が公開されている。 データセットは、CNNベースのCADスキームをトレーニングおよびテストするために、各サブセットの90%と10%のイメージを持つ2つのサブセットに分割される。 検査結果は、3つのクラスを分類する際の総合的精度の94.0%、コビッドウイルス感染症を検出する際の98.6%の精度を達成した。 そこで本研究では、胸部X線画像のCADスキームの開発と、新型コロナウイルス感染症の検出・診断に有用な意思決定支援ツールの提供の可能性を示した。

As the rapid spread of coronavirus disease (COVID-19) worldwide, chest X-ray radiography has also been used to detect COVID-19 infected pneumonia and assess its severity or monitor its prognosis in the hospitals due to its low cost, low radiation dose, and wide accessibility. However, how to more accurately and efficiently detect COVID-19 infected pneumonia and distinguish it from other community-acquired pneumonia remains a challenge. In order to address this challenge, we in this study develop and test a new computer-aided diagnosis (CAD) scheme. It includes several image pre-processing algorithms to remove diaphragms, normalize image contrast-to-noise ratio, and generate three input images, then links to a transfer learning based convolutional neural network (a VGG16 based CNN model) to classify chest X-ray images into three classes of COVID-19 infected pneumonia, other community-acquired pneumonia and normal (non-pneumonia) cases. To this purpose, a publicly available dataset of 8,474 chest X-ray images is used, which includes 415 confirmed COVID-19 infected pneumonia, 5,179 community-acquired pneumonia, and 2,880 non-pneumonia cases. The dataset is divided into two subsets with 90% and 10% of images in each subset to train and test the CNN-based CAD scheme. The testing results achieve 94.0% of overall accuracy in classifying three classes and 98.6% accuracy in detecting Covid-19 infected cases. Thus, the study demonstrates the feasibility of developing a CAD scheme of chest X-ray images and providing radiologists useful decision-making supporting tools in detecting and diagnosis of COVID-19 infected pneumonia.
翻訳日:2022-11-22 14:33:59 公開日:2020-06-11
# 3次元点集合登録の教師なし学習

Unsupervised Learning of 3D Point Set Registration ( http://arxiv.org/abs/2006.06200v1 )

ライセンス: Link先を確認
Lingjing Wang, Xiang Li, Yi Fang(参考訳) 点雲登録は、幾何変換を探索することで一対の点集合を整列する過程である。 最近の研究は、一対の点集合を登録する深層学習の力を活用している。 しかし残念なことに、ディープラーニングモデルはトレーニングのために大量の根拠ラベルを必要とすることが多い。 さらに、一対のソースとターゲットのポイントセットに対して、既存のディープラーニングメカニズムは、未構造化のポイントクラウドから深部空間特徴とそれらの空間相関表現の両方を抽出するために、明示的に設計されたエンコーダを必要とする。 本稿では,新たに導入された深部空間相関表現(SCR)機能に基づいた,新しい教師なし登録フレームワークであるDeep-3DAlignerを提案する。 SCRの特徴は、符号化のない方法でソースとターゲットポイントセット間の空間的相関の幾何学的本質を記述する。 より具体的には、この手法はランダムに初期化された潜在SCR特徴を最適化し、それから幾何変換(回転と変換)に復号し、ソースとターゲットの点集合を整列させる。 我々のDeep-3DAlignerは、教師なしアライメント損失の最小化に向けて、変換デコーダのSCR特徴と重みを共同で更新する。 点集合登録のための教師なしDeep-3DAlignerの性能を検証するために,ModelNet40データセットの実験を行った。 提案手法は, 基礎的真理や, 訓練用源点集合と目標点集合との直接対応の仮定がなくても, 最新の教師付き最先端手法と比較して, 比較性能が向上することを示した。

Point cloud registration is the process of aligning a pair of point sets via searching for a geometric transformation. Recent works leverage the power of deep learning for registering a pair of point sets. However, unfortunately, deep learning models often require a large number of ground truth labels for training. Moreover, for a pair of source and target point sets, existing deep learning mechanisms require explicitly designed encoders to extract both deep spatial features from unstructured point clouds and their spatial correlation representation, which is further fed to a decoder to regress the desired geometric transformation for point set alignment. To further enhance deep learning models for point set registration, this paper proposes Deep-3DAligner, a novel unsupervised registration framework based on a newly introduced deep Spatial Correlation Representation (SCR) feature. The SCR feature describes the geometric essence of the spatial correlation between source and target point sets in an encoding-free manner. More specifically, our method starts with optimizing a randomly initialized latent SCR feature, which is then decoded to a geometric transformation (i.e., rotation and translation) to align source and target point sets. Our Deep-3DAligner jointly updates the SCR feature and weights of the transformation decoder towards the minimization of an unsupervised alignment loss. We conducted experiments on the ModelNet40 datasets to validate the performance of our unsupervised Deep-3DAligner for point set registration. The results demonstrated that, even without ground truth and any assumption of a direct correspondence between source and target point sets for training, our proposed approach achieved comparative performance compared to most recent supervised state-of-the-art approaches.
翻訳日:2022-11-22 14:33:06 公開日:2020-06-11
# PRGFlow:SWAP対応統合ビジュアル慣性オドメトリーのベンチマーク

PRGFlow: Benchmarking SWAP-Aware Unified Deep Visual Inertial Odometry ( http://arxiv.org/abs/2006.06753v1 )

ライセンス: Link先を確認
Nitin J. Sanket, Chahat Deep Singh, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 空中ロボットのオドメトリは、ロボットのサイズによって要求されるサイズ、重量、面積、パワー(SWAP)の制約を尊重する一方で、低レイテンシと高ロバスト性でなければならない。 慣性測定ユニット(imus)と組み合わされた視覚センサの組み合わせは、資源制約された空中ロボットのロバストかつ低レイテンシのオドメトリを得るのに最適な組み合わせであることが証明されている。 近年,ビジュアル慣性融合の深層学習アプローチは,その精度と堅牢性から勢いを増している。 しかし、これらの技術の顕著な利点は、圧縮法とハードウェアアクセラレーションを利用して、その固有のスケーラビリティ(異なる大きさの空中ロボットへの適応)と統一(同じ方法で異なるサイズの空中ロボットで動く)である。 そこで本研究では,6次元オドメトリ推定のための慣性センサを用いて,視覚翻訳推定とゆるやかに融合する深層学習手法を提案する。 また,スケーラビリティを実現するために,異なるアーキテクチャ,損失関数,圧縮メソッドを比較した詳細なベンチマークも提示する。 我々は,MSCOCOデータセット上でネットワークを評価し,複数の実飛行軌道上でのVI融合を評価する。

Odometry on aerial robots has to be of low latency and high robustness whilst also respecting the Size, Weight, Area and Power (SWAP) constraints as demanded by the size of the robot. A combination of visual sensors coupled with Inertial Measurement Units (IMUs) has proven to be the best combination to obtain robust and low latency odometry on resource-constrained aerial robots. Recently, deep learning approaches for Visual Inertial fusion have gained momentum due to their high accuracy and robustness. However, the remarkable advantages of these techniques are their inherent scalability (adaptation to different sized aerial robots) and unification (same method works on different sized aerial robots) by utilizing compression methods and hardware acceleration, which have been lacking from previous approaches. To this end, we present a deep learning approach for visual translation estimation and loosely fuse it with an Inertial sensor for full 6DoF odometry estimation. We also present a detailed benchmark comparing different architectures, loss functions and compression methods to enable scalability. We evaluate our network on the MSCOCO dataset and evaluate the VI fusion on multiple real-flight trajectories.
翻訳日:2022-11-22 14:24:58 公開日:2020-06-11
# 画像処理アルゴリズムによるナッツ葉欠陥の定量化

Quantification of groundnut leaf defects using image processing algorithms ( http://arxiv.org/abs/2006.09887v1 )

ライセンス: Link先を確認
Asharf, Balasubramanian E, Sankarasrinivasan S(参考訳) 作物の欠陥の同定、分類、定量化は、農夫にとって予防措置と、必要な是正措置を通じて収量損失を減らすために最も関心がある。 広大な農地のため、農作物の手動検査は退屈で時間がかかる。 欠陥葉領域のUAVに基づくデータ収集,観測,同定,定量化は有効な解であると考えられる。 本研究は, 画像処理技術を用いて, アンドラプラデシュの4領域にまたがるマグロ葉面積のパーセンテージを推定することを目的としている。 提案手法では,色空間変換としきい値化技術を組み合わせてセグメンテーションを行う。 キャリブレーションは、UAV捕獲距離、角度、その他の関連するカメラパラメータに関して、取得中に行われる。 最後に,本手法では葉の集積と欠陥面積を推定できる。 これらの4地域にわたる画像解析の結果,葉面積の約14~28%がサトウキビ畑に分布し,収量も減少することが明らかとなった。 これにより、被害地域のみに農薬を噴霧して植物の成長を向上し、収量を増加させることが推奨される。

Identification, classification, and quantification of crop defects are of paramount of interest to the farmers for preventive measures and decrease the yield loss through necessary remedial actions. Due to the vast agricultural field, manual inspection of crops is tedious and time-consuming. UAV based data collection, observation, identification, and quantification of defected leaves area are considered to be an effective solution. The present work attempts to estimate the percentage of affected groundnut leaves area across four regions of Andharapradesh using image processing techniques. The proposed method involves colour space transformation combined with thresholding technique to perform the segmentation. The calibration measures are performed during acquisition with respect to UAV capturing distance, angle and other relevant camera parameters. Finally, our method can estimate the consolidated leaves and defected area. The image analysis results across these four regions reveal that around 14 - 28% of leaves area is affected across the groundnut field and thereby yield will be diminished correspondingly. Hence, it is recommended to spray the pesticides on the affected regions alone across the field to improve the plant growth and thereby yield will be increased.
翻訳日:2022-11-22 14:24:36 公開日:2020-06-11
# 咬合の有無による顔認識の一般化改善について

On Improving the Generalization of Face Recognition in the Presence of Occlusions ( http://arxiv.org/abs/2006.06787v1 )

ライセンス: Link先を確認
Xiang Xu, Nikolaos Sarafianos, Ioannis A. Kakadiaris(参考訳) 本稿では,既存の2次元顔認識手法の鍵となる限界について述べる。 この課題を達成するために,最先端顔認識法の性能に及ぼす顔特性の影響を体系的に解析し,様々な咬合形態における性能劣化を定量的に解析した。 提案するOcclusion-aware face REcOgnition (OREO) アプローチは, 咬合の有無に関わらず識別的顔テンプレートを学習した。 まず,局所的アイデンティティ関連領域を抽出した注意機構を提案する。 その後、ローカル機能はグローバル表現で集約され、単一のテンプレートを形成する。 第2に,非オクルード顔画像とオクルード顔画像のバランスをとるための,単純かつ効果的なトレーニング戦略が導入された。 広範な実験により、oreoはオクルージョン下の顔認識の一般化能力を単一画像ベースで(10.17%)向上させ、画像セットベースのシナリオでは約2%の精度でベースラインを上回った。

In this paper, we address a key limitation of existing 2D face recognition methods: robustness to occlusions. To accomplish this task, we systematically analyzed the impact of facial attributes on the performance of a state-of-the-art face recognition method and through extensive experimentation, quantitatively analyzed the performance degradation under different types of occlusion. Our proposed Occlusion-aware face REcOgnition (OREO) approach learned discriminative facial templates despite the presence of such occlusions. First, an attention mechanism was proposed that extracted local identity-related region. The local features were then aggregated with the global representations to form a single template. Second, a simple, yet effective, training strategy was introduced to balance the non-occluded and occluded facial images. Extensive experiments demonstrated that OREO improved the generalization ability of face recognition under occlusions by (10.17%) in a single-image-based setting and outperformed the baseline by approximately (2%) in terms of rank-1 accuracy in an image-set-based scenario.
翻訳日:2022-11-22 14:17:23 公開日:2020-06-11
# feudal steering: ステアリング角度予測のための階層学習

Feudal Steering: Hierarchical Learning for Steering Angle Prediction ( http://arxiv.org/abs/2006.06869v1 )

ライセンス: Link先を確認
Faith Johnson, Kristin Dana(参考訳) エゴセントリック道路画像を用いた自動運転車の自動操舵角予測の課題について考察する。 本研究では,階層的強化学習(HRL)に使用される封建的ネットワークを用いて,Udacity運転データセットのダッシュカム画像から,車両の操舵角度を予測するための車両エージェントを考案する。 本手法は,マネージャネットワークと,異なる時間スケールで動作し,異なる目標を持つワーカーネットワークからなるhrlにおける最近の作業に着想を得たものである。 マネージャは、作業者に比べて比較的粗い時間スケールで作業し、より高いレベルのタスク指向の目標空間を持つ。 封建学習を使ってタスクをマネージャとワーカーのサブネットワークに分割することで、より正確で堅牢な予測が可能になる。 運転時の時間的抽象化は、単一のインスタンスのステアリングアングルよりも複雑なプリミティブを可能にする。 複合アクションは、運転シーケンスを通して再利用できるサブルーチンまたはスキルを含む。 関連するサブルーチンIDは、マネージャネットワークのゴールであり、マネージャがハイレベルなタスク(例えば、シャープな右旋回、少し右旋回、トラフィックの直線的な移動、あるいはトラフィックに拘束されない直線的な移動)で成功しようとする。 特定の時間におけるステアリング角度は、マネージャのハイレベルタスクによって制御されるワーカーネットワーク出力である。 Udacityデータセット上で,最先端の操舵角度予測結果を示す。

We consider the challenge of automated steering angle prediction for self driving cars using egocentric road images. In this work, we explore the use of feudal networks, used in hierarchical reinforcement learning (HRL), to devise a vehicle agent to predict steering angles from first person, dash-cam images of the Udacity driving dataset. Our method, Feudal Steering, is inspired by recent work in HRL consisting of a manager network and a worker network that operate on different temporal scales and have different goals. The manager works at a temporal scale that is relatively coarse compared to the worker and has a higher level, task-oriented goal space. Using feudal learning to divide the task into manager and worker sub-networks provides more accurate and robust prediction. Temporal abstraction in driving allows more complex primitives than the steering angle at a single time instance. Composite actions comprise a subroutine or skill that can be re-used throughout the driving sequence. The associated subroutine id is the manager network's goal, so that the manager seeks to succeed at the high level task (e.g. a sharp right turn, a slight right turn, moving straight in traffic, or moving straight unencumbered by traffic). The steering angle at a particular time instance is the worker network output which is regulated by the manager's high level task. We demonstrate state-of-the art steering angle prediction results on the Udacity dataset.
翻訳日:2022-11-22 14:17:07 公開日:2020-06-11
# 言語生成における透明性: 自動化のレベル

Transparency in Language Generation: Levels of Automation ( http://arxiv.org/abs/2006.06295v1 )

ライセンス: Link先を確認
Justin Edwards and Allison Perrone and Philip R. Doyle(参考訳) 言語モデルと会話システムはますます進歩し、人間が間違える可能性のあるアウトプットを生み出している。 したがって、消費者は、言語生産における自動化の役割に関する広告、メディアレポート、曖昧さによって誤解される可能性がある。 本稿では,SAEの運転自動化レベルに基づく言語自動化の分類を提案し,自動化言語を記述するための共通用語セットを確立する。 この急速に進歩する分野において、提案された分類が透明性を高めることを願っている。

Language models and conversational systems are growing increasingly advanced, creating outputs that may be mistaken for humans. Consumers may thus be misled by advertising, media reports, or vagueness regarding the role of automation in the production of language. We propose a taxonomy of language automation, based on the SAE levels of driving automation, to establish a shared set of terms for describing automated language. It is our hope that the proposed taxonomy can increase transparency in this rapidly advancing field.
翻訳日:2022-11-22 14:16:42 公開日:2020-06-11
# 何言ってるか分かるか? ネイティブおよび非ネイティブ言語話者の知的パーソナルアシスタント使用の比較

See what I'm saying? Comparing Intelligent Personal Assistant use for Native and Non-Native Language Speakers ( http://arxiv.org/abs/2006.06328v1 )

ライセンス: Link先を確認
Yunhan Wu, Daniel Rough, Anna Bleakley, Justin Edwards, Orla Cooney, Philip R. Doyle, Leigh Clark, and Benjamin R. Cowan(参考訳) 知的パーソナルアシスタント(IPAs)の限定言語カバレッジは、多くの人が非ネイティブ言語で対話することを意味する。 しかし、現在のIPAがこれらのユーザーをどのようにサポートしたり妨げたりするかについてはほとんどわかっていません。 ネイティブ(L1)と非ネイティブ(L2)の英語話者がスマートフォンとスマートスピーカーでGoogleアシスタントと対話することで、より深く理解することを目指している。 インタビューの結果,L2話者は言語的制限に対する発話計画に優先しており,L1話者はシステム制限のために簡潔さを優先していた。 L2話者はIPAを言語的ニーズに敏感であるとみなし、相互作用が失敗する。 視覚フィードバックは、クエリ結果を処理する時間を確保しながら、コミュニケーション障害の診断をサポートするため、l2スピーカーは明らかにスマートフォンを使うのを好んだ。 逆に、l1スピーカーはスマートスピーカーを好み、オーディオフィードバックは十分と見なされている。 我々は,言語生産の負担を軽減しつつ,視覚的フィードバックを重視しながら,L2ユーザのためのIPA体験をカスタマイズする必要性について論じる。

Limited linguistic coverage for Intelligent Personal Assistants (IPAs) means that many interact in a non-native language. Yet we know little about how IPAs currently support or hinder these users. Through native (L1) and non-native (L2) English speakers interacting with Google Assistant on a smartphone and smart speaker, we aim to understand this more deeply. Interviews revealed that L2 speakers prioritised utterance planning around perceived linguistic limitations, as opposed to L1 speakers prioritising succinctness because of system limitations. L2 speakers see IPAs as insensitive to linguistic needs resulting in failed interaction. L2 speakers clearly preferred using smartphones, as visual feedback supported diagnoses of communication breakdowns whilst allowing time to process query results. Conversely, L1 speakers preferred smart speakers, with audio feedback being seen as sufficient. We discuss the need to tailor the IPA experience for L2 users, emphasising visual feedback whilst reducing the burden of language production.
翻訳日:2022-11-22 14:16:34 公開日:2020-06-11
# 非ネイティブ話者ipaインタラクションにおけるメンタルワークロードと言語生成

Mental Workload and Language Production in Non-Native Speaker IPA Interaction ( http://arxiv.org/abs/2006.06331v1 )

ライセンス: Link先を確認
Yunhan Wu, Justin Edwards, Orla Cooney, Anna Bleakley, Philip R.Doyle, Leigh Clark, Daniel Rough, and Benjamin R. Cowan(参考訳) スマートフォンやスマートスピーカーの普及を通じて、インテリジェントパーソナルアシスタント(IPAs)は、音声を共通の相互作用のモダリティとした。 しかし、言語の範囲や様々な機能レベルにより、多くの話者は非ネイティブ言語を使用してipaに関わります。 これは、非ネイティブ話者による言語生産のメンタルワークロードとパターンに影響を与える可能性がある。 スマートフォンとスマートスピーカーを介して、ネイティブ(L1)と非ネイティブ(L2)の英語話者がIPAでタスクを完了させる混合設計実験を行った。 IPAにおけるL2話者の心理的負荷は有意に高かった。 仮説とは対照的に,l1話者とl2話者の間には,ターン数,語彙複雑性,多様性,語彙適応の点で有意な差は認められなかった。 ipa相互作用におけるl2話者の言語生成と処理負荷増加について考察した。

Through proliferation on smartphones and smart speakers, intelligent personal assistants (IPAs) have made speech a common interaction modality. Yet, due to linguistic coverage and varying levels of functionality, many speakers engage with IPAs using a non-native language. This may impact the mental workload and pattern of language production displayed by non-native speakers. We present a mixed-design experiment, wherein native (L1) and non-native (L2) English speakers completed tasks with IPAs through smartphones and smart speakers. We found significantly higher mental workload for L2 speakers during IPA interactions. Contrary to our hypotheses, we found no significant differences between L1 and L2 speakers in terms of number of turns, lexical complexity, diversity, or lexical adaptation when encountering errors. These findings are discussed in relation to language production and processing load increases for L2 speakers in IPA interaction.
翻訳日:2022-11-22 14:16:18 公開日:2020-06-11
# パターンに基づく時間的事実抽出のためのコモンセンス制約付き確率モデル

A Probabilistic Model with Commonsense Constraints for Pattern-based Temporal Fact Extraction ( http://arxiv.org/abs/2006.06436v1 )

ライセンス: Link先を確認
Yang Zhou, Tong Zhao, Meng Jiang(参考訳) 非構造化データから事実情報を抽出するために、テキストパターン(例えば、国の大統領)を特定し、/又は生成する。 パターンに基づく情報抽出手法は,その効率と伝達性について認識されている。 しかし、すべてのパターンが信頼できるとは限らない: 大きな課題は、多様で時には矛盾する抽出から最も完全で正確な事実を導き出すことである。 本研究では,生成過程における事実抽出を定式化する確率的グラフィカルモデルを提案する。 監視なしで、事実やパターンの信頼性を自動的に推測します。 1)テキストの時間タグとテキスト生成時間の時間タグを含む2種類の時間信号のパターン信頼性をモデル化し,(2)可観測変数としてコモンセンス制約をモデル化する。 実験の結果,本モデルはニュースデータから真の時間的事実を抽出する既存の手法よりも優れていた。

Textual patterns (e.g., Country's president Person) are specified and/or generated for extracting factual information from unstructured data. Pattern-based information extraction methods have been recognized for their efficiency and transferability. However, not every pattern is reliable: A major challenge is to derive the most complete and accurate facts from diverse and sometimes conflicting extractions. In this work, we propose a probabilistic graphical model which formulates fact extraction in a generative process. It automatically infers true facts and pattern reliability without any supervision. It has two novel designs specially for temporal facts: (1) it models pattern reliability on two types of time signals, including temporal tag in text and text generation time; (2) it models commonsense constraints as observable variables. Experimental results demonstrate that our model significantly outperforms existing methods on extracting true temporal facts from news data.
翻訳日:2022-11-22 14:16:04 公開日:2020-06-11
# 科学文献からの創発概念の高精度抽出

High-Precision Extraction of Emerging Concepts from Scientific Literature ( http://arxiv.org/abs/2006.06877v1 )

ライセンス: Link先を確認
Daniel King, Doug Downey, Daniel S. Weld(参考訳) 科学文献における新しい概念の同定は、パワーフェイス検索、科学トレンド分析、知識ベース構築などに役立つが、現在の方法には欠けている。 手動による識別は、新しい出版物のトレントに遅れず、既存の自動技術の精度は、多くのアプリケーションにとって低すぎる。 従来の研究よりも高い精度を実現する科学的文献の教師なし概念抽出法を提案する。 それぞれの科学的概念は、この概念を言及した後の論文で不当に引用された1つの論文によって導入または普及される可能性が高い。 arXivのコンピュータサイエンス論文のコーパスから,従来の作業の86%に対して精度@1000が99%,トップ15,000の抽出における精度-収率トレードオフが大幅に向上していることが判明した。 この領域の研究を刺激するために、コードとデータ(https://github.com/allenai/ForeCite)をリリースします。

Identification of new concepts in scientific literature can help power faceted search, scientific trend analysis, knowledge-base construction, and more, but current methods are lacking. Manual identification cannot keep up with the torrent of new publications, while the precision of existing automatic techniques is too low for many applications. We present an unsupervised concept extraction method for scientific literature that achieves much higher precision than previous work. Our approach relies on a simple but novel intuition: each scientific concept is likely to be introduced or popularized by a single paper that is disproportionately cited by subsequent papers mentioning the concept. From a corpus of computer science papers on arXiv, we find that our method achieves a Precision@1000 of 99%, compared to 86% for prior work, and a substantially better precision-yield trade-off across the top 15,000 extractions. To stimulate research in this area, we release our code and data (https://github.com/allenai/ForeCite).
翻訳日:2022-11-22 14:15:51 公開日:2020-06-11
# 制約満足度問題の解法を段階的に説明する枠組み

A framework for step-wise explaining how to solve constraint satisfaction problems ( http://arxiv.org/abs/2006.06343v1 )

ライセンス: Link先を確認
Bart Bogaerts, Emilio Gamba, Tias Guns(参考訳) 本稿では,制約満足度問題の解法を論理グリッドパズルを用いて段階的に説明する問題について考察する。 より具体的には、人に対して容易に解釈できる方法で、伝播中に行うことができる推論ステップを説明する問題を考察する。 そこで,本研究では,説明から理解し,学ぶことで,解答者に対する信頼構築に役立つ制約解答者説明可能な機関を提示することを目的とする。 主な課題は、簡単な説明のシーケンスを見つけることであり、そこでは、人間の検証と理解を可能な限り容易にすることを目的としている。 これは、プロパゲーションにおいて解決者が使用する事実と制約の任意の組み合わせとは対照的である。 提案するコスト関数は,推論ステップの個々の説明がいかに単純であるかを定量化するために用いられ,cspの最良の説明列を見つけるための説明生産問題を特定する。 提案手法は,制約伝達機構に非依存であり,制約の組み合わせによる推論ステップにおいても説明が可能である。 複数の制約が伴う場合、最も難しいステップを分割し、ユーザが説明の特定の部分をズームインできるメカニズムも開発します。 提案手法は,コスト関数の楽観的推定を用いて説明列を反復的に構築し,各ステップにおける最良説明の探索を導く。 論理グリッドパズルに関する実験は,個々の説明の質と,得られた説明シーケンスの観点から,提案手法の有効性を示す。

We explore the problem of step-wise explaining how to solve constraint satisfaction problems, with a use case on logic grid puzzles. More specifically, we study the problem of explaining the inference steps that one can take during propagation, in a way that is easy to interpret for a person. Thereby, we aim to give the constraint solver explainable agency, which can help in building trust in the solver by being able to understand and even learn from the explanations. The main challenge is that of finding a sequence of simple explanations, where each explanation should aim to be as cognitively easy as possible for a human to verify and understand. This contrasts with the arbitrary combination of facts and constraints that the solver may use when propagating. We propose the use of a cost function to quantify how simple an individual explanation of an inference step is, and identify the explanation-production problem of finding the best sequence of explanations of a CSP. Our approach is agnostic of the underlying constraint propagation mechanisms, and can provide explanations even for inference steps resulting from combinations of constraints. In case multiple constraints are involved, we also develop a mechanism that allows to break the most difficult steps up and thus gives the user the ability to zoom in on specific parts of the explanation. Our proposed algorithm iteratively constructs the explanation sequence by using an optimistic estimate of the cost function to guide the search for the best explanation at each step. Our experiments on logic grid puzzles show the feasibility of the approach in terms of the quality of the individual explanations and the resulting explanation sequences obtained.
翻訳日:2022-11-22 14:15:34 公開日:2020-06-11
# 動的時系列分類を用いた医用vrトレーニングシミュレータのスコアと評価

Scoring and Assessment in Medical VR Training Simulators with Dynamic Time Series Classification ( http://arxiv.org/abs/2006.12366v1 )

ライセンス: Link先を確認
Neil Vaughan, Bogdan Gabrys(参考訳) 本研究では,仮想現実(vr)トレーニングシミュレータのスコアリングと評価手法を提案する。 VRシミュレーターは、パフォーマンス解析に有用な詳細なn次元の人体の動きデータをキャプチャする。 カスタムメイドの医療触覚VRトレーニングシミュレータが開発され、複数の臨床経験レベルの271人の研修生のデータを記録するために使用された。 DTW多変量プロトタイピング(DTW-MP)を提案する。 VRデータはNovice、Intermediate、Expertに分類された。 時系列分類に応用されたアルゴリズムの精度は、ダイナミック・タイム・ワープ 1-nearest neighbor (DTW-1NN) 60%、最寄りのセントロイド・ソフトDTW分類77.5%、Deep Learning: ResNet 85%、FCN 75%、CNN 72.5%、MCDCNN 28.5%である。 専門的なVRデータ記録は初心者の指導に利用できる。 評価のフィードバックは、研修生がスキルと一貫性を改善するのに役立つ。 動作分析は個人が使用する異なるテクニックを識別することができる。 ミスはリアルタイムで動的に検出でき、怪我を防ぐアラームを発生させる。

This research proposes and evaluates scoring and assessment methods for Virtual Reality (VR) training simulators. VR simulators capture detailed n-dimensional human motion data which is useful for performance analysis. Custom made medical haptic VR training simulators were developed and used to record data from 271 trainees of multiple clinical experience levels. DTW Multivariate Prototyping (DTW-MP) is proposed. VR data was classified as Novice, Intermediate or Expert. Accuracy of algorithms applied for time-series classification were: dynamic time warping 1-nearest neighbor (DTW-1NN) 60%, nearest centroid SoftDTW classification 77.5%, Deep Learning: ResNet 85%, FCN 75%, CNN 72.5% and MCDCNN 28.5%. Expert VR data recordings can be used for guidance of novices. Assessment feedback can help trainees to improve skills and consistency. Motion analysis can identify different techniques used by individuals. Mistakes can be detected dynamically in real-time, raising alarms to prevent injuries.
翻訳日:2022-11-22 14:14:51 公開日:2020-06-11
# セマンティックセグメンテーションの転送と正規化予測

Transferring and Regularizing Prediction for Semantic Segmentation ( http://arxiv.org/abs/2006.06570v1 )

ライセンス: Link先を確認
Yiheng Zhang and Zhaofan Qiu and Ting Yao and Chong-Wah Ngo and Dong Liu and Tao Mei(参考訳) セマンティックセグメンテーションは、しばしばピクセルレベルのアノテーションを持つ大きなイメージセットを必要とする。 極めて高価な専門家のラベル付けの観点から、最近の研究では、コンピュータが生成した注釈付きフォトリアリスティックな合成データ(コンピュータゲームなど)で訓練されたモデルが実画像に適応できることが示されている。 この進歩にもかかわらず、実際の画像の予測を制約することなく、モデルは厳しいドメインミスマッチのために合成データに容易に適合する。 本稿では,意味的セグメンテーションの本質的特性を新たに活用し,モデル伝達の問題を軽減する。 具体的には,教師なしの方法でモデル転送を規則化する制約として内在的特性を課す予測伝達規則化器(rpt)を提案する。 これらの制約には、パッチレベル、クラスタレベル、コンテキストレベルのセマンティック予測が含まれる。 転送はラベルフリーでデータ駆動であるため、モデル正規化のための画像領域のサブセットを選択的に含み、予測の堅牢性に対処する。 GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。 rptは、セマンティックセグメンテーションのために複数のニューラルネットワークに制約を注入するときに一貫した改善を示す。 さらに, RPT を敵ベースセグメンテーションフレームワークに統合する場合, それぞれ GTA5/SYNTHIA から Cityscapes へ移行した場合の 53.2%/51.7% の mIoU を報告した。

Semantic segmentation often requires a large set of images with pixel-level annotations. In the view of extremely expensive expert labeling, recent research has shown that the models trained on photo-realistic synthetic data (e.g., computer games) with computer-generated annotations can be adapted to real images. Despite this progress, without constraining the prediction on real images, the models will easily overfit on synthetic data due to severe domain mismatch. In this paper, we novelly exploit the intrinsic properties of semantic segmentation to alleviate such problem for model transfer. Specifically, we present a Regularizer of Prediction Transfer (RPT) that imposes the intrinsic properties as constraints to regularize model transfer in an unsupervised fashion. These constraints include patch-level, cluster-level and context-level semantic prediction consistencies at different levels of image formation. As the transfer is label-free and data-driven, the robustness of prediction is addressed by selectively involving a subset of image regions for model regularization. Extensive experiments are conducted to verify the proposal of RPT on the transfer of models trained on GTA5 and SYNTHIA (synthetic data) to Cityscapes dataset (urban street scenes). RPT shows consistent improvements when injecting the constraints on several neural networks for semantic segmentation. More remarkably, when integrating RPT into the adversarial-based segmentation framework, we report to-date the best results: mIoU of 53.2%/51.7% when transferring from GTA5/SYNTHIA to Cityscapes, respectively.
翻訳日:2022-11-22 14:08:11 公開日:2020-06-11
# 仮想クラスと実例によるDeep Metric Learningの改善

Improving Deep Metric Learning with Virtual Classes and Examples Mining ( http://arxiv.org/abs/2006.06611v1 )

ライセンス: Link先を確認
Pierre Jacob and David Picard and Aymeric Histace and Edouard Klein(参考訳) ディープメトリック学習では、トレーニング手順は情報的タプルのサンプリングに依存する。 しかし, トレーニング手順が進むにつれて, 適切な鉱業戦略や生成法を使わずに, 関連する負のサンプルを採取することはほぼ不可能となる。 近年の強陰性発生の研究は、鉱業問題の解決を大いに約束している。 しかし、この生成プロセスはチューニングが難しく、しばしば誤ってラベル付けされた例に繋がる。 この問題に対処するために、トレーニングクラス間のバッファ領域として機能する生成例を全て生成した仮想クラスに依存する世代ベースのメソッドであるMIRAGEを紹介する。 仮想クラスが一般的なデータセット(cub-200-2011,cars-196,stanford online products)の結果を,他の世代の方法と比較して著しく改善することを示す。

In deep metric learning, the training procedure relies on sampling informative tuples. However, as the training procedure progresses, it becomes nearly impossible to sample relevant hard negative examples without proper mining strategies or generation-based methods. Recent work on hard negative generation have shown great promises to solve the mining problem. However, this generation process is difficult to tune and often leads to incorrectly labelled examples. To tackle this issue, we introduce MIRAGE, a generation-based method that relies on virtual classes entirely composed of generated examples that act as buffer areas between the training classes. We empirically show that virtual classes significantly improve the results on popular datasets (Cub-200-2011, Cars-196 and Stanford Online Products) compared to other generation methods.
翻訳日:2022-11-22 14:07:29 公開日:2020-06-11
# インターネットの規模で人の手を理解する

Understanding Human Hands in Contact at Internet Scale ( http://arxiv.org/abs/2006.06669v1 )

ライセンス: Link先を確認
Dandan Shan, Jiaqi Geng, Michelle Shu, David F. Fouhey(参考訳) 手は、人間が自分の世界を操作し、手にある人間のインターネットビデオから手の状態情報を確実に抽出できる中心的な手段であり、ペタバイトのビデオデータから学習できるシステムへの道を開く可能性がある。 本稿では,手の位置,側方,接触状態,接触対象の周囲を囲む箱など,インタラクション方法に携わる手の豊富な表現を推測することで,これに向けたステップを提案する。 この取り組みをサポートするために,131日分の映像と100kの注釈付手接触ビデオフレームデータセットからなる物体との接触に関する大規模データセットを収集した。 このデータセットの学習モデルは、ビデオで手作業による理解の基礎となる。 人間の手の3dメッシュから予測と学習を行う目的で、自分自身と両方で定量的に評価する。

Hands are the central means by which humans manipulate their world and being able to reliably extract hand state information from Internet videos of humans engaged in their hands has the potential to pave the way to systems that can learn from petabytes of video data. This paper proposes steps towards this by inferring a rich representation of hands engaged in interaction method that includes: hand location, side, contact state, and a box around the object in contact. To support this effort, we gather a large-scale dataset of hands in contact with objects consisting of 131 days of footage as well as a 100K annotated hand-contact video frame dataset. The learned model on this dataset can serve as a foundation for hand-contact understanding in videos. We quantitatively evaluate it both on its own and in service of predicting and learning from 3D meshes of human hands.
翻訳日:2022-11-22 14:06:41 公開日:2020-06-11
# 合成画像を用いた視線推定問題

Gaze estimation problem tackled through synthetic images ( http://arxiv.org/abs/2006.06740v1 )

ライセンス: Link先を確認
Gonzalo Garde, Andoni Larumbe-Bergera, Beno\^it Bossavit, Rafael Cabeza, Sonia Porta and Arantxa Villanueva(参考訳) 本稿では,深層学習技術を用いた視線推定の分野で使用される合成フレームワークの評価を行う。 十分な注釈付きデータの欠如は、実際のシナリオの振る舞いに類似している限り、合成評価フレームワークの利用によって克服される可能性がある。 本研究では,I2Headデータセットを用いたU2Eyes合成環境を,代替トレーニングとテスト戦略に基づく実ベンチマークとして利用する。 その結果,両フレームワーク間の平均的挙動は比較できるが,より堅牢で安定な性能は合成画像から得られることがわかった。 また,ユーザの特定のキャリブレーション戦略に適用するための合成事前学習モデルの可能性について,優れた性能を示す。

In this paper, we evaluate a synthetic framework to be used in the field of gaze estimation employing deep learning techniques. The lack of sufficient annotated data could be overcome by the utilization of a synthetic evaluation framework as far as it resembles the behavior of a real scenario. In this work, we use U2Eyes synthetic environment employing I2Head datataset as real benchmark for comparison based on alternative training and testing strategies. The results obtained show comparable average behavior between both frameworks although significantly more robust and stable performance is retrieved by the synthetic images. Additionally, the potential of synthetically pretrained models in order to be applied in user's specific calibration strategies is shown with outstanding performances.
翻訳日:2022-11-22 14:06:28 公開日:2020-06-11
# オンライン顔ライブネス検出における時間的一貫性の改善について

On Improving Temporal Consistency for Online Face Liveness Detection ( http://arxiv.org/abs/2006.06756v1 )

ライセンス: Link先を確認
Xiang Xu and Yuanjun Xiong and Wei Xia(参考訳) 本稿では,下流の顔認識システムのセキュリティを高めるために,オンラインの顔認識システムの改善に焦点をあてる。 既存のフレームベース手法のほとんどは、時とともに予測の不整合に苦しんでいる。 この問題に対処するため,時間的整合性に基づく単純かつ効果的な解法を提案する。 具体的には、トレーニング段階では、ソフトマックスクロスエントロピー損失に加えて、時間的一貫性制約、時間的自己スーパービジョン損失、クラス一貫性損失を統合する。 展開段階では、トレーニング不要な非パラメトリック不確実性推定モジュールを開発し、予測を適応的に円滑にする。 一般的な評価手法以外にも,より実践的なシナリオに対応するため,ビデオセグメントに基づく評価が提案されている。 大規模な実験により、我々のソリューションは様々なシナリオにおける複数のプレゼンテーションアタックに対してより堅牢であることが示され、ACERの少なくとも40%は、複数の公開データセットの最先端を著しく上回った。 さらに、計算の複雑さがはるかに少なく(33%少ないFLOP)、低レイテンシのオンラインアプリケーションには大きな可能性がある。

In this paper, we focus on improving the online face liveness detection system to enhance the security of the downstream face recognition system. Most of the existing frame-based methods are suffering from the prediction inconsistency across time. To address the issue, a simple yet effective solution based on temporal consistency is proposed. Specifically, in the training stage, to integrate the temporal consistency constraint, a temporal self-supervision loss and a class consistency loss are proposed in addition to the softmax cross-entropy loss. In the deployment stage, a training-free non-parametric uncertainty estimation module is developed to smooth the predictions adaptively. Beyond the common evaluation approach, a video segment-based evaluation is proposed to accommodate more practical scenarios. Extensive experiments demonstrated that our solution is more robust against several presentation attacks in various scenarios, and significantly outperformed the state-of-the-art on multiple public datasets by at least 40% in terms of ACER. Besides, with much less computational complexity (33% fewer FLOPs), it provides great potential for low-latency online applications.
翻訳日:2022-11-22 14:06:02 公開日:2020-06-11
# パラメータ化されたデータを持つペトリネット:モデリングと検証(拡張版)

Petri Nets with Parameterised Data: Modelling and Verification (Extended Version) ( http://arxiv.org/abs/2006.06630v1 )

ライセンス: Link先を確認
Silvio Ghilardi, Alessandro Gianola, Marco Montali, Andrey Rivkin(参考訳) 過去10年間、ビジネスプロセスをさまざまな種類のデータに統合する様々なアプローチが提案されてきた。 これらのアプローチはそれぞれ、プロセスデータ統合スペクトル全体の特定の要求を反映している。 特に重要なポイントは、複数のケースを共進化させる必要のあるプロセスを柔軟に受け入れるためのこれらのアプローチの能力である。 本研究は,カタログネットと呼ばれるカラーペトリネットの拡張について紹介し,このタイプのプロセスを捉えるための2つの重要な特徴を提供する。 一方、net transitionsには、トークンの内容と、読み取り専用で永続的なデータベースに格納されたクエリ事実を同時に検査するガードが備えられている。 一方、このような遷移は、データベースから関連する値を抽出したり、真に新しい値を生成することによって、トークンにデータを注入することができる。 データとプロセスの(パラメータ化された)検証のための参照フレームワークにカタログネットを体系的にエンコードする。 我々は,フレッシュ・バリュー・インジェクションが特に複雑な機能であることを示し,それを実現するための戦略について議論する。 最後に、カタログネットがこの分野でよく知られた形式とどのように関連しているかについて議論する。

During the last decade, various approaches have been put forward to integrate business processes with different types of data. Each of such approaches reflects specific demands in the whole process-data integration spectrum. One particular important point is the capability of these approaches to flexibly accommodate processes with multiple cases that need to co-evolve. In this work, we introduce and study an extension of coloured Petri nets, called catalog-nets, providing two key features to capture this type of processes. On the one hand, net transitions are equipped with guards that simultaneously inspect the content of tokens and query facts stored in a read-only, persistent database. On the other hand, such transitions can inject data into tokens by extracting relevant values from the database or by generating genuinely fresh ones. We systematically encode catalog-nets into one of the reference frameworks for the (parameterised) verification of data and processes. We show that fresh-value injection is a particularly complex feature to handle, and discuss strategies to tame it. Finally, we discuss how catalog nets relate to well-known formalisms in this area.
翻訳日:2022-11-22 14:00:40 公開日:2020-06-11
# CLEval:テキスト検出・認識タスクのための文字レベル評価

CLEval: Character-Level Evaluation for Text Detection and Recognition Tasks ( http://arxiv.org/abs/2006.06244v1 )

ライセンス: Link先を確認
Youngmin Baek, Daehyun Nam, Sungrae Park, Junyeop Lee, Seung Shin, Jeonghun Baek, Chae Young Lee, Hwalsuk Lee(参考訳) 最近のテキスト検出および認識手法の成功にもかかわらず、既存の評価指標は、これらの方法間で公正かつ信頼性の高い比較を提供していない。 加えて、OCRタスクの特徴を考慮に入れたエンドツーエンド評価指標は存在しない。 従来のエンドツーエンドメトリックには、検出と認識の両方に適用されるバイナリスコアリングプロセスのカスケードエラーが含まれている。 部分的に正しい結果を無視することは、定量分析と定性的分析のギャップを生じさせ、きめ細かい評価を防ぐ。 本稿では,文字がテキストの重要な要素であるという事実に基づき,文字レベル評価尺度(CLEval)を提案する。 CLEvalでは、 \textit{instance matching} プロセスが分割およびマージ検出を処理し、 \textit{scoring process} が文字レベルの評価を行う。 文字レベルのスコアを集約することにより、CLEvalメトリックは、検出と認識からなるエンドツーエンド結果のきめ細かい評価と、エンドパフォーマンスの観点から各モジュールに対する個別評価を提供する。 我々のメトリクスは、最先端のテキスト検出・認識手法の開発と分析において重要な役割を果たすと信じている。 評価コードはhttps://github.com/clovaai/CLEval.comで公開されている。

Despite the recent success of text detection and recognition methods, existing evaluation metrics fail to provide a fair and reliable comparison among those methods. In addition, there exists no end-to-end evaluation metric that takes characteristics of OCR tasks into account. Previous end-to-end metric contains cascaded errors from the binary scoring process applied in both detection and recognition tasks. Ignoring partially correct results raises a gap between quantitative and qualitative analysis, and prevents fine-grained assessment. Based on the fact that character is a key element of text, we hereby propose a Character-Level Evaluation metric (CLEval). In CLEval, the \textit{instance matching} process handles split and merge detection cases, and the \textit{scoring process} conducts character-level evaluation. By aggregating character-level scores, the CLEval metric provides a fine-grained evaluation of end-to-end results composed of the detection and recognition as well as individual evaluations for each module from the end-performance perspective. We believe that our metrics can play a key role in developing and analyzing state-of-the-art text detection and recognition methods. The evaluation code is publicly available at https://github.com/clovaai/CLEval.
翻訳日:2022-11-22 13:59:56 公開日:2020-06-11
# ファーストパーソンオフィスビデオからのプライバシー対応行動分類

Privacy-Aware Activity Classification from First Person Office Videos ( http://arxiv.org/abs/2006.06246v1 )

ライセンス: Link先を確認
Partho Ghosh, Md. Abrar Istiak, Nayeeb Rashid, Ahsan Habib Akash, Ridwan Abrar, Ankan Ghosh Dastider, Asif Shahriyar Sushmit, Taufiq Hasan(参考訳) ウェアラブルボディカメラの出現により、ファーストパーソンビデオ(fpv)からのヒューマンアクティビティの分類は、生命記録、法執行、スポーツ、職場、医療など、様々なアプリケーションでの重要性が高まっている。 FPVの難しい側面の1つは、ユーザーの視野内で潜在的に敏感なオブジェクトに露出することである。 本研究では,オフィスビデオに着目したプライバシー対応活動分類システムを開発した。 mask-rcnnとinception-resnetハイブリッドを特徴抽出器として使用し,映像からセンシティブな物体(例えば,デジタル画面,人間の顔,紙)をぼかす。 アクティビティ分類には、ResNet、ResNext、DenseNetをベースとした特徴抽出器と、Recurrent Neural Networks(RNN)のアンサンブルを組み込む。 提案システムは、IEEE Video and Image Processing (VIP) Cup 2019で利用可能な18クラスを含むFPVオフィスビデオデータセットをトレーニングし、評価した。 元々の非保護FPVでは、提案された活性分類器のアンサンブルは精度85.078%に達し、精度、リコール、F1スコアはそれぞれ0.88、0.85、0.86となった。 プライバシー保護ビデオでは、精度、精度、リコール、F1スコアはそれぞれ73.68%、0.79、0.75、0.74で若干劣化した。 このシステムはIEEE VIPカップ2019コンクールで3位を獲得した。

In the advent of wearable body-cameras, human activity classification from First-Person Videos (FPV) has become a topic of increasing importance for various applications, including in life-logging, law-enforcement, sports, workplace, and healthcare. One of the challenging aspects of FPV is its exposure to potentially sensitive objects within the user's field of view. In this work, we developed a privacy-aware activity classification system focusing on office videos. We utilized a Mask-RCNN with an Inception-ResNet hybrid as a feature extractor for detecting, and then blurring out sensitive objects (e.g., digital screens, human face, paper) from the videos. For activity classification, we incorporate an ensemble of Recurrent Neural Networks (RNNs) with ResNet, ResNext, and DenseNet based feature extractors. The proposed system was trained and evaluated on the FPV office video dataset that includes 18-classes made available through the IEEE Video and Image Processing (VIP) Cup 2019 competition. On the original unprotected FPVs, the proposed activity classifier ensemble reached an accuracy of 85.078% with precision, recall, and F1 scores of 0.88, 0.85 & 0.86, respectively. On privacy protected videos, the performances were slightly degraded, with accuracy, precision, recall, and F1 scores at 73.68%, 0.79, 0.75, and 0.74, respectively. The presented system won the 3rd prize in the IEEE VIP Cup 2019 competition.
翻訳日:2022-11-22 13:59:36 公開日:2020-06-11
# 高速コヒーレント点ドリフト

Fast Coherent Point Drift ( http://arxiv.org/abs/2006.06281v1 )

ライセンス: Link先を確認
Xiang-Wei Feng, Da-Zheng Feng, Yun Zhu(参考訳) 非剛性点集合登録はコンピュータビジョンとパターン認識のタスクに広く適用されている。 コヒーレント点ドリフト(CPD)は、非剛性点集合登録のための古典的な方法である。 しかし、空間変換関数を解くためには、CPD は時間複雑性 O(M3) で反復毎の M*M 行列の反転を計算する必要がある。 単純な対応制約を導入することで, cpdの高速実装を実現する。 提案手法の最大の利点は,行列逆演算の回避である。 繰り返しが始まる前に、我々はM*M行列の固有値分解を一度行う必要がある。 繰り返し開始後、線形計算複雑性を持つ対角行列を更新し、各反復において時間複雑性をおよそO(M2)で行列乗算演算を実行するだけでよい。 また,本手法は低ランク行列近似によりさらに加速することができる。 3Dポイントクラウドデータによる実験結果から,本手法は登録処理の計算負担を大幅に低減し,CPDと同等の性能を精度良く維持できることがわかった。

Nonrigid point set registration is widely applied in the tasks of computer vision and pattern recognition. Coherent point drift (CPD) is a classical method for nonrigid point set registration. However, to solve spatial transformation functions, CPD has to compute inversion of a M*M matrix per iteration with time complexity O(M3). By introducing a simple corresponding constraint, we develop a fast implementation of CPD. The most advantage of our method is to avoid matrix-inverse operation. Before the iteration begins, our method requires to take eigenvalue decomposition of a M*M matrix once. After iteration begins, our method only needs to update a diagonal matrix with linear computational complexity, and perform matrix multiplication operation with time complexity approximately O(M2) in each iteration. Besides, our method can be further accelerated by the low-rank matrix approximation. Experimental results in 3D point cloud data show that our method can significantly reduce computation burden of the registration process, and keep comparable performance with CPD on accuracy.
翻訳日:2022-11-22 13:59:09 公開日:2020-06-11
# RTEX: 放射線検査のランク付け, タグ付け, 説明的診断のための新しい手法

RTEX: A novel methodology for Ranking, Tagging, and Explanatory diagnostic captioning of radiography exams ( http://arxiv.org/abs/2006.06316v1 )

ライセンス: Link先を確認
Vasiliki Kougia and John Pavlopoulos and Panagiotis Papapetrou and Max Gordon(参考訳) 本稿では,新しい手法RTExを紹介する。 a) 異常を含む確率に基づく放射線検査のランク付け ロ 異常検査用の異常タグを生成して c) 異常試験ごとに自然言語による診断説明を提供すること。 放射線検査のランク付けの課題は、例えば疲労によるミスや重労働(例えばパンデミック)の管理を避けるために、異常を含む可能性が高い放射線検査の特定と優先順位付けを行う実践者にとって重要な第一歩である。 私たちは2つの公開データセットを使用して、私たちの方法論を評価し、それをランク付けするタスクが、ndcg@kの点で競合他社よりも優れていることを実証しました。 各異常放射線検査においてRTExは、説明的診断テキストとともに一連の異常タグを生成し、タグを説明し、医療専門家を指導する。 タグ付けコンポーネントはF1の点で2つの強力な競合手法より優れている。 さらに、既に抽出されたタグを利用してキャプション過程を制限しているRTExの診断キャプション成分は、臨床精度とリコールに関して、全ての競合より優れている。

This paper introduces RTEx, a novel methodology for a) ranking radiography exams based on their probability to contain an abnormality, b) generating abnormality tags for abnormal exams, and c) providing a diagnostic explanation in natural language for each abnormal exam. The task of ranking radiography exams is an important first step for practitioners who want to identify and prioritize those radiography exams that are more likely to contain abnormalities, for example, to avoid mistakes due to tiredness or to manage heavy workload (e.g., during a pandemic). We used two publicly available datasets to assess our methodology and demonstrate that for the task of ranking it outperforms its competitors in terms of NDCG@k. For each abnormal radiography exam RTEx generates a set of abnormality tags alongside an explanatory diagnostic text to explain the tags and guide the medical expert. Our tagging component outperforms two strong competitor methods in terms of F1. Moreover, the diagnostic captioning component of RTEx, which exploits the already extracted tags to constrain the captioning process, outperforms all competitors with respect to clinical precision and recall.
翻訳日:2022-11-22 13:58:53 公開日:2020-06-11
# 開集合領域適応のためのカテゴリー非依存クラスタの探索

Exploring Category-Agnostic Clusters for Open-Set Domain Adaptation ( http://arxiv.org/abs/2006.06567v1 )

ライセンス: Link先を確認
Yingwei Pan and Ting Yao and Yehao Li and Chong-Wah Ngo and Tao Mei(参考訳) 教師なしドメイン適応は近年大きな注目を集めている。 既存の作品のほとんどはクローズドセットのシナリオに取り組み、ソースドメインとターゲットドメインが全く同じカテゴリを共有していると仮定する。 しかし実際には、ターゲットドメインはソースドメイン(すなわち未知のクラス)に見えないクラスのサンプルを含むことが多い。 閉集合からそのような開集合状態へのドメイン適応の拡張は、未知のクラスのターゲットサンプルがソースと一致しないため、簡単ではない。 本稿では,対象ドメインにカテゴリに依存しないクラスタを配置した,最先端のドメイン適応手法であるSelf-Ensemblingを拡張することで,この問題に対処する。 具体的には、カテゴリ非依存クラスタ(SE-CC)を用いた自己組織化(Self-Ensembling with Category-Agnostic Clusters)を提案する。 これらのクラスタリング情報はドメイン固有の視覚的手がかりを提供し、クローズドセットとオープンセットの両方のシナリオに対するSelf-Ensemblingの一般化を容易にする。 技術的には、クラスタリングは、まず、対象ドメインに特有の基盤となるデータ空間構造を明らかにするカテゴリ非依存クラスタを得るために、ラベルのないすべてのターゲットサンプルに対して実行される。 クラスタリングブランチは、クラスタ上の推定割り当て分布と、ターゲットサンプル毎の固有のクラスタ分布とを一致させることで、学習表現がそのような基盤構造を確実に保持する。 さらにse-ccは相互情報最大化により学習表現を強化する。 オープンセットとクローズドセットの両方のドメイン適応のためのOfficeとVisDAデータセットで大規模な実験を行い、最先端のアプローチと比較して優れた結果を報告する。

Unsupervised domain adaptation has received significant attention in recent years. Most of existing works tackle the closed-set scenario, assuming that the source and target domains share the exactly same categories. In practice, nevertheless, a target domain often contains samples of classes unseen in source domain (i.e., unknown class). The extension of domain adaptation from closed-set to such open-set situation is not trivial since the target samples in unknown class are not expected to align with the source. In this paper, we address this problem by augmenting the state-of-the-art domain adaptation technique, Self-Ensembling, with category-agnostic clusters in target domain. Specifically, we present Self-Ensembling with Category-agnostic Clusters (SE-CC) -- a novel architecture that steers domain adaptation with the additional guidance of category-agnostic clusters that are specific to target domain. These clustering information provides domain-specific visual cues, facilitating the generalization of Self-Ensembling for both closed-set and open-set scenarios. Technically, clustering is firstly performed over all the unlabeled target samples to obtain the category-agnostic clusters, which reveal the underlying data space structure peculiar to target domain. A clustering branch is capitalized on to ensure that the learnt representation preserves such underlying structure by matching the estimated assignment distribution over clusters to the inherent cluster distribution for each target sample. Furthermore, SE-CC enhances the learnt representation with mutual information maximization. Extensive experiments are conducted on Office and VisDA datasets for both open-set and closed-set domain adaptation, and superior results are reported when comparing to the state-of-the-art approaches.
翻訳日:2022-11-22 13:57:20 公開日:2020-06-11
# 低リソーステキスト分類のための離散的潜在変数表現

Discrete Latent Variable Representations for Low-Resource Text Classification ( http://arxiv.org/abs/2006.06226v1 )

ライセンス: Link先を確認
Shuning Jin, Sam Wiseman, Karl Stratos, Karen Livescu(参考訳) テキストの深い潜在変数モデルに対する多くの作業は連続的潜在変数を使っているが、離散的潜在変数はより解釈可能で、典型的には空間効率が高いため興味深い。 これらの変数に対する厳密なマージン化が難解である場合、テキストの離散的潜在変数モデルを学ぶいくつかの方法を考える。 学習表現の性能を低リソース文書と文の分類の特徴として比較した。 私たちの最良のモデルは、これらの低リソース設定における連続的な表現で、前回報告された最良の結果よりも優れています。 興味深いことに、Hard EMのアモータライズされた変種は、特に低リソースのレギュレーションにおいてよく機能する。

While much work on deep latent variable models of text uses continuous latent variables, discrete latent variables are interesting because they are more interpretable and typically more space efficient. We consider several approaches to learning discrete latent variable models for text in the case where exact marginalization over these variables is intractable. We compare the performance of the learned representations as features for low-resource document and sentence classification. Our best models outperform the previous best reported results with continuous representations in these low-resource settings, while learning significantly more compressed representations. Interestingly, we find that an amortized variant of Hard EM performs particularly well in the lowest-resource regimes.
翻訳日:2022-11-22 13:50:25 公開日:2020-06-11
# ラベルのない会話コンテキストによるサルカズム検出のためのデータ強化

Augmenting Data for Sarcasm Detection with Unlabeled Conversation Context ( http://arxiv.org/abs/2006.06259v1 )

ライセンス: Link先を確認
Hankyol Lee, Youngjae Yu, Gunhee Kim(参考訳) 本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。 また,モデルの入出力形式を変更し,コンテキスト長の変動を効果的に扱えるようにすることで,不均衡なコンテキスト長に関する問題を緩和する。 特に,提案手法で学習した提案モデルは,figlang2020のsarcasm検出タスクに参加し,redditとtwitterのデータセットで最高のパフォーマンスを達成している。

We present a novel data augmentation technique, CRA (Contextual Response Augmentation), which utilizes conversational context to generate meaningful samples for training. We also mitigate the issues regarding unbalanced context lengths by changing the input-output format of the model such that it can deal with varying context lengths effectively. Specifically, our proposed model, trained with the proposed data augmentation technique, participated in the sarcasm detection task of FigLang2020, have won and achieves the best performance in both Reddit and Twitter datasets.
翻訳日:2022-11-22 13:50:13 公開日:2020-06-11
# 前立腺癌に対するブレキセラピー治療計画におけるBezier曲線パラメタライゼーションによるスムーズなナビゲーション可能な近似セットの確立

Ensuring smoothly navigable approximation sets by Bezier curve parameterizations in evolutionary bi-objective optimization -- applied to brachytherapy treatment planning for prostate cancer ( http://arxiv.org/abs/2006.06449v1 )

ライセンス: Link先を確認
S. C. Maree, T. Alderliesten, P. A. N. Bosman(参考訳) 双目的最適化の目的は(近く)パレート最適解の近似集合を得ることである。 意思決定者は、このセットをナビゲートして、最終的な望ましいソリューションを選択し、しばしば近似フロントの視覚化を使用する。 前線はトラバースへの解のナビゲーション順序を与えるが、この順序付けは必ずしも決定空間を通る滑らかな軌道に写像するわけではない。 これにより、意思決定者は各ソリューションの決定変数を個別に検査し、近似のナビゲーションを直感的でないものにすることができる。 本研究では, 解間の滑らかさや連続性の形式を決定変数の観点で強制することにより, 近似集合ナビゲータビリティを向上させることを目的とする。 共通の支配に基づく多目的進化アルゴリズムの制限として滑らかさを課すことは単純ではない。 そこで,最近導入されたuncrowded hypervolume (uhv) を用いて,パラメータ化近似集合を直接最適化する単一目的問題として,多目的最適化問題を再構成する。 ここでは、決定空間における滑らかなベジエ曲線として近似集合をパラメータ化する場合について検討する。 我々は、遺伝子プール最適混合進化アルゴリズム(GOMEA)を用いて、結果の単目的問題にアプローチし、この結果のアルゴリズムをBezEAと呼ぶ。 我々はBezEAの挙動を分析し、UHVとGOMEAの最適化、および支配に基づく多目的GOMEAと比較する。 本研究では,BezEAを用いて高品質な近似集合を得ることができ,時には支配とUHVに基づくアルゴリズムよりも優れた結果が得られる一方で,ナビゲーション軌道の滑らかさは決定空間で保証されることを示す。

The aim of bi-objective optimization is to obtain an approximation set of (near) Pareto optimal solutions. A decision maker then navigates this set to select a final desired solution, often using a visualization of the approximation front. The front provides a navigational ordering of solutions to traverse, but this ordering does not necessarily map to a smooth trajectory through decision space. This forces the decision maker to inspect the decision variables of each solution individually, potentially making navigation of the approximation set unintuitive. In this work, we aim to improve approximation set navigability by enforcing a form of smoothness or continuity between solutions in terms of their decision variables. Imposing smoothness as a restriction upon common domination-based multi-objective evolutionary algorithms is not straightforward. Therefore, we use the recently introduced uncrowded hypervolume (UHV) to reformulate the multi-objective optimization problem as a single-objective problem in which parameterized approximation sets are directly optimized. We study here the case of parameterizing approximation sets as smooth Bezier curves in decision space. We approach the resulting single-objective problem with the gene-pool optimal mixing evolutionary algorithm (GOMEA), and we call the resulting algorithm BezEA. We analyze the behavior of BezEA and compare it to optimization of the UHV with GOMEA as well as the domination-based multi-objective GOMEA. We show that high-quality approximation sets can be obtained with BezEA, sometimes even outperforming the domination- and UHV-based algorithms, while smoothness of the navigation trajectory through decision space is guaranteed.
翻訳日:2022-11-22 13:49:04 公開日:2020-06-11
# スパイキングニューラルネットワークのニューロモルフィックハードウェアへの実行時マッピング

Run-time Mapping of Spiking Neural Networks to Neuromorphic Hardware ( http://arxiv.org/abs/2006.06777v1 )

ライセンス: Link先を確認
Adarsha Balaji and Thibaut Marty and Anup Das and Francky Catthoor(参考訳) 本稿では,オンライン学習 SNN をベースとしたニューロモーフィックアーキテクチャにおけるニューロンとシナプスの分割とマッピングのための設計手法を提案する。 提案手法は,SNNをニューロンとシナプスのクラスタに分割し,ニューロモルフィックアーキテクチャの制約を取り入れた階層的欲求的手法であり,ステップ2は,クラスタ間で通信される総スパイクを最小化し,アーキテクチャの相互接続におけるエネルギー消費量を向上するヒルクライミング最適化アルゴリズムである。 合成および現実的なSNNベースのアプリケーションを用いて,本アルゴリズムの有効性を評価する実験を行った。 提案アルゴリズムは, 設計時間に基づくSNN分割手法と比較して, 解品質が6.25倍のSNNマッピング時間を平均780倍に削減することを示した。

In this paper, we propose a design methodology to partition and map the neurons and synapses of online learning SNN-based applications to neuromorphic architectures at {run-time}. Our design methodology operates in two steps -- step 1 is a layer-wise greedy approach to partition SNNs into clusters of neurons and synapses incorporating the constraints of the neuromorphic architecture, and step 2 is a hill-climbing optimization algorithm that minimizes the total spikes communicated between clusters, improving energy consumption on the shared interconnect of the architecture. We conduct experiments to evaluate the feasibility of our algorithm using synthetic and realistic SNN-based applications. We demonstrate that our algorithm reduces SNN mapping time by an average 780x compared to a state-of-the-art design-time based SNN partitioning approach with only 6.25\% lower solution quality.
翻訳日:2022-11-22 13:48:38 公開日:2020-06-11
# 人間を模倣して遊び方を学ぶ

Learning to Play by Imitating Humans ( http://arxiv.org/abs/2006.06874v1 )

ライセンス: Link先を確認
Rostam Dinyari and Pierre Sermanet and Corey Lynch(参考訳) 複数のスキルの獲得は、通常、タスク毎の多数の専門家のデモンストレーションやエンジニアリングカスタム報酬関数の収集にかかわる。 近年,遠隔操作型プレイデータ上での自己監督制御により,多様なスキルの獲得が可能であることが示されている。 プレイは州空間のカバレッジに富み、このデータに基づいてトレーニングされたポリシーは、テスト時に特定のタスクに一般化することができる。 本研究では,ロボットが自律的にプレイデータを生成することで,最終的にパフォーマンスを向上させることができるかどうかを考察する。 比較的少量の人間の遊びについて行動クローンポリシーを訓練することにより、追加のトレーニングとして使用できる大量のクローンプレイデータを自律的に生成する。 この拡張データセット上でトレーニングされた汎用目標条件ポリシーは,シミュレーションロボットテーブル上環境における18の難解なユーザ特定操作タスクにおいて,元の人間データのみでトレーニングされたポリシーを実質的に上回っている。 人間の遊びを模倣するロボットの例を以下に示す。 https://learning-to-play.github.io/videos/undirected_play1.mp4

Acquiring multiple skills has commonly involved collecting a large number of expert demonstrations per task or engineering custom reward functions. Recently it has been shown that it is possible to acquire a diverse set of skills by self-supervising control on top of human teleoperated play data. Play is rich in state space coverage and a policy trained on this data can generalize to specific tasks at test time outperforming policies trained on individual expert task demonstrations. In this work, we explore the question of whether robots can learn to play to autonomously generate play data that can ultimately enhance performance. By training a behavioral cloning policy on a relatively small quantity of human play, we autonomously generate a large quantity of cloned play data that can be used as additional training. We demonstrate that a general purpose goal-conditioned policy trained on this augmented dataset substantially outperforms one trained only with the original human data on 18 difficult user-specified manipulation tasks in a simulated robotic tabletop environment. A video example of a robot imitating human play can be seen here: https://learning-to-play.github.io/videos/undirected_play1.mp4
翻訳日:2022-11-22 13:42:14 公開日:2020-06-11
# 確率最適化における乗法ノイズと重テール

Multiplicative noise and heavy tails in stochastic optimization ( http://arxiv.org/abs/2006.06293v1 )

ライセンス: Link先を確認
Liam Hodgkinson, Michael W. Mahoney(参考訳) 確率最適化は現代の機械学習の中心であるが、その成功の根底にある正確なメカニズム、特に確率性の正確な役割はまだ不明である。 確率的最適化アルゴリズムを離散ランダム再帰関係としてモデル化すると、局所収束率のばらつきによって生じる乗法的雑音がパラメータの重み付き定常挙動をもたらすことを示す。 単純な線形回帰問題に適用したSGDの詳細な解析を行い、さらに、より大規模なモデル(非線形および非凸を含む)とオプティマイザ(運動量、アダム、確率ニュートンを含む)の理論的結果を示し、定性的な結果がより一般的に成り立つことを示した。 いずれの場合においても、ステップサイズ、バッチサイズ、データ可変性といった重要な要因への依存を記述し、コンピュータビジョンや自然言語処理による最新のニューラルネットワークモデルにおける最近の経験結果と同様の質的振る舞いを示す。 さらに,積算雑音と重み付き構造が,積算雑音と軽量構造しか持たない一般的な確率力学よりも,盆地ホッピングや非凸損失面の探索能力を向上させることを実証的に示す。

Although stochastic optimization is central to modern machine learning, the precise mechanisms underlying its success, and in particular, the precise role of the stochasticity, still remain unclear. Modelling stochastic optimization algorithms as discrete random recurrence relations, we show that multiplicative noise, as it commonly arises due to variance in local rates of convergence, results in heavy-tailed stationary behaviour in the parameters. A detailed analysis is conducted for SGD applied to a simple linear regression problem, followed by theoretical results for a much larger class of models (including non-linear and non-convex) and optimizers (including momentum, Adam, and stochastic Newton), demonstrating that our qualitative results hold much more generally. In each case, we describe dependence on key factors, including step size, batch size, and data variability, all of which exhibit similar qualitative behavior to recent empirical results on state-of-the-art neural network models from computer vision and natural language processing. Furthermore, we empirically demonstrate how multiplicative noise and heavy-tailed structure improve capacity for basin hopping and exploration of non-convex loss surfaces, over commonly-considered stochastic dynamics with only additive noise and light-tailed structure.
翻訳日:2022-11-22 13:41:57 公開日:2020-06-11
# トシバコフ雑音による半空間学習

Learning Halfspaces with Tsybakov Noise ( http://arxiv.org/abs/2006.06467v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) Tsybakovノイズの存在下でのハーフスペースの効率的なPAC学習性について検討する。 ツィバコフ雑音モデルでは、それぞれのラベルは独立して、敵によって制御される確率で反転される。 このノイズモデルは、サンプルのごく一部に対して、旋回確率を任意に1/2$にすることで、マッサートノイズモデルを大幅に一般化する。 私たちの主な結果は、ログコンケーブ分布を含む特定の濃度と(反)反集中特性を満たす、構造化分布の幅広いファミリーの下で、この問題に対する最初の非自明なpac学習アルゴリズムです。 具体的には、準多項式のランタイム依存を1/\epsilin$とする、真のハーフスペースに関する誤分類誤差を$\epsilon$とするアルゴリズムを与えられた。 対数凹分布の特別な場合でさえ、この問題の以前の上限は1/\epsilon$で2倍に指数関数的であった。 提案手法は,半定値プログラミングに基づいて,候補解が最適に近いかどうかを証明するための新しい計算効率の手法に依存する。 我々は,この証明手続きをブラックボックスとして使用し,オンライン凸最適化によるハーフスペースの空間を探索することで,効率的な学習アルゴリズムに変換する。

We study the efficient PAC learnability of halfspaces in the presence of Tsybakov noise. In the Tsybakov noise model, each label is independently flipped with some probability which is controlled by an adversary. This noise model significantly generalizes the Massart noise model, by allowing the flipping probabilities to be arbitrarily close to $1/2$ for a fraction of the samples. Our main result is the first non-trivial PAC learning algorithm for this problem under a broad family of structured distributions -- satisfying certain concentration and (anti-)anti-concentration properties -- including log-concave distributions. Specifically, we given an algorithm that achieves misclassification error $\epsilon$ with respect to the true halfspace, with quasi-polynomial runtime dependence in $1/\epsilin$. The only previous upper bound for this problem -- even for the special case of log-concave distributions -- was doubly exponential in $1/\epsilon$ (and follows via the naive reduction to agnostic learning). Our approach relies on a novel computationally efficient procedure to certify whether a candidate solution is near-optimal, based on semi-definite programming. We use this certificate procedure as a black-box and turn it into an efficient learning algorithm by searching over the space of halfspaces via online convex optimization.
翻訳日:2022-11-22 13:41:34 公開日:2020-06-11
# AdaS:確率勾配の適応スケジューリング

AdaS: Adaptive Scheduling of Stochastic Gradients ( http://arxiv.org/abs/2006.06587v1 )

ライセンス: Link先を確認
Mahdi S. Hosseini and Konstantinos N. Plataniotis(参考訳) Stochastic Gradient Descent (SGD)最適化におけるステップサイズの選択は、ほとんどのトレーニング手順で経験的に選択される。 さらに、ステップデケイリング、サイクリックラーニング、ウォームアップといったスケジュールされた学習テクニックを使用してステップサイズを調整するには、広範囲な実践的経験が必要である。 ディープニューラルネットワークの反復的トレーニングにおいてどの程度の知識が得られたか?} ディープニューラルネットワークにおける畳み込み層の低ランク因数分解の特異値から導かれる2つの有用な指標を紹介する。 そこで本研究では,これらの手法を応用した適応スケジューリング(Adaptive Scheduling, AdaS)というアルゴリズムを提案し,SGD学習率を連続反復による知識獲得率の変化率に比例して適応する。 実験では、派生メトリクスを使用して、AdaSは次のように示す。 (a)既存の適応学習法よりも高速な収束と優れた一般化 b) トレーニングの中止時期を決定するための検証セットへの依存の欠如。 コードは \url{https://github.com/mahdihosseini/adas} で入手できる。

The choice of step-size used in Stochastic Gradient Descent (SGD) optimization is empirically selected in most training procedures. Moreover, the use of scheduled learning techniques such as Step-Decaying, Cyclical-Learning, and Warmup to tune the step-size requires extensive practical experience--offering limited insight into how the parameters update--and is not consistent across applications. This work attempts to answer a question of interest to both researchers and practitioners, namely \textit{"how much knowledge is gained in iterative training of deep neural networks?"} Answering this question introduces two useful metrics derived from the singular values of the low-rank factorization of convolution layers in deep neural networks. We introduce the notions of \textit{"knowledge gain"} and \textit{"mapping condition"} and propose a new algorithm called Adaptive Scheduling (AdaS) that utilizes these derived metrics to adapt the SGD learning rate proportionally to the rate of change in knowledge gain over successive iterations. Experimentation reveals that, using the derived metrics, AdaS exhibits: (a) faster convergence and superior generalization over existing adaptive learning methods; and (b) lack of dependence on a validation set to determine when to stop training. Code is available at \url{https://github.com/mahdihosseini/AdaS}.
翻訳日:2022-11-22 13:40:49 公開日:2020-06-11
# ビデオ符号化における低複雑性学習サブピクセル運動補償のためのCNNの解釈

Interpreting CNN for Low Complexity Learned Sub-pixel Motion Compensation in Video Coding ( http://arxiv.org/abs/2006.06392v1 )

ライセンス: Link先を確認
Luka Murn, Saverio Blasi, Alan F. Smeaton, Noel E. O'Connor, Marta Mrak(参考訳) ディープラーニングは、画像とビデオの圧縮タスクに大きな可能性を示している。 しかし、これはコーディングの複雑さが大幅に増加するコストでビット節約をもたらし、実用的なアプリケーションでの実装の可能性を制限する。 本稿では、分数精度の運動補償に必要な参照サンプルの補間を改善するニューラルネットワークベースの新しいツールを提案する。 従来の取り組みとは対照的に,提案手法では,ネットワークで学習した補間フィルタの解釈によって達成される複雑性の低減に焦点を当てている。 この手法がVersatile Video Coding (VVC) テストモデルで実装されると、ベースラインのVVCと比較して最大4.5%のBDレートの削減が達成され、フルニューラルネットワークの適用と比較して学習補間の複雑さが大幅に低減される。

Deep learning has shown great potential in image and video compression tasks. However, it brings bit savings at the cost of significant increases in coding complexity, which limits its potential for implementation within practical applications. In this paper, a novel neural network-based tool is presented which improves the interpolation of reference samples needed for fractional precision motion compensation. Contrary to previous efforts, the proposed approach focuses on complexity reduction achieved by interpreting the interpolation filters learned by the networks. When the approach is implemented in the Versatile Video Coding (VVC) test model, up to 4.5% BD-rate saving for individual sequences is achieved compared with the baseline VVC, while the complexity of learned interpolation is significantly reduced compared to the application of full neural network.
翻訳日:2022-11-22 13:40:17 公開日:2020-06-11
# 平均逆数をもつネットワークシステムに対するスケーラブルなマルチエージェント強化学習

Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward ( http://arxiv.org/abs/2006.06626v1 )

ライセンス: Link先を確認
Guannan Qu, Yiheng Lin, Adam Wierman, Na Li(参考訳) マルチエージェント強化学習(MARL)は,エージェント数において状態空間と行動空間のサイズが指数関数的に大きいため,スケーラビリティの問題に直面することが長年認識されてきた。 本稿では,モデルが局所的な依存構造を示し,スケーラブルな方法で解くことができるような,ネットワーク化されたmarl問題のリッチクラスを同定する。 具体的には,ネットワーク全体とは対照的に,ネットワーク全体の状態-動作空間サイズで複雑度をスケーリングすることで平均報酬を最適化する,ほぼ最適の局所化ポリシを学習できるスケーラブル・アクタ-クリティック(sac)手法を提案する。 本研究は, グラフ距離において, エージェントが互いに指数関数的に高速に崩壊することを保証する指数的崩壊特性の同定と利用を主眼とする。

It has long been recognized that multi-agent reinforcement learning (MARL) faces significant scalability issues due to the fact that the size of the state and action spaces are exponentially large in the number of agents. In this paper, we identify a rich class of networked MARL problems where the model exhibits a local dependence structure that allows it to be solved in a scalable manner. Specifically, we propose a Scalable Actor-Critic (SAC) method that can learn a near optimal localized policy for optimizing the average reward with complexity scaling with the state-action space size of local neighborhoods, as opposed to the entire network. Our result centers around identifying and exploiting an exponential decay property that ensures the effect of agents on each other decays exponentially fast in their graph distance.
翻訳日:2022-11-22 13:40:04 公開日:2020-06-11
# エッジ情報とマスクスライキングに基づく画像インペインティング手法

An Edge Information and Mask Shrinking Based Image Inpainting Approach ( http://arxiv.org/abs/2006.06196v1 )

ライセンス: Link先を確認
Huali Xu, Xiangdong Su, Meng Wang, Xiang Hao, Guanglai Gao(参考訳) 画像塗装作業において、欠落した領域の高周波情報と低周波情報の両方を修復する能力は、復元された画像の品質に大きな影響を与える。 しかし、既存の塗装法は通常、高周波情報と低周波情報の両方を同時に考えることができない。 そこで本研究では,2つのモデルからなるエッジ情報とマスク縮小画像の塗装手法を提案する。 第1モデルは、損傷画像から完全なエッジ情報を生成するために使用されるエッジ生成モデルであり、第2モデルは、発生したエッジ情報と損傷画像の有効内容とで不足領域を固定する画像補完モデルである。 マスク縮小戦略は、修復対象領域を追跡するために画像補完モデルに採用される。 提案手法はデータセットPlaces2で定性的に定量的に評価される。 その結果,本手法は最先端手法よりも優れていることがわかった。

In the image inpainting task, the ability to repair both high-frequency and low-frequency information in the missing regions has a substantial influence on the quality of the restored image. However, existing inpainting methods usually fail to consider both high-frequency and low-frequency information simultaneously. To solve this problem, this paper proposes edge information and mask shrinking based image inpainting approach, which consists of two models. The first model is an edge generation model used to generate complete edge information from the damaged image, and the second model is an image completion model used to fix the missing regions with the generated edge information and the valid contents of the damaged image. The mask shrinking strategy is employed in the image completion model to track the areas to be repaired. The proposed approach is evaluated qualitatively and quantitatively on the dataset Places2. The result shows our approach outperforms state-of-the-art methods.
翻訳日:2022-11-22 13:33:46 公開日:2020-06-11
# W-net:マルチタスクディープニューラルネットワークを用いたマルチ解剖学的網膜構造の同時セグメンテーション

W-net: Simultaneous segmentation of multi-anatomical retinal structures using a multi-task deep neural network ( http://arxiv.org/abs/2006.06277v1 )

ライセンス: Link先を確認
Hongwei Zhao, Chengtao Peng, Lei Liu and Bin Li(参考訳) 複数の解剖学的構造のセグメンテーションは医用画像解析において非常に重要である。 そこで本研究では,MTL(Multi-task Learning)方式に基づく網膜画像において,光ディスク(OD)とエキデントの両方を同時に分割する$\mathcal{W}$-netを提案する。 我々は、クラスバランス損失とマルチタスク重み付き損失を導入し、不均衡問題を緩和し、$\mathcal{w}$-netのロバスト性と一般化性を改善する。 本研究では,2つの公開データセット e\_ophtha\_EX と DiaRetDb1 に5倍のクロスバリデーション実験を適用し,本手法の有効性を実証した。 f1-scoreは94.76\%, 95.73\%, exudates segmentationは92.80\%, 94.14\%であった。 提案手法の一般化性をさらに証明するため,DOセグメンテーションのためのDRIONS-DBデータセットと,エグデントセグメンテーションのためのMESSIDORデータセットにトレーニングモデルを適用した。 その結果、各タスクの最適重みを選択することで、MTLをベースとした$\mathcal{W}$-netは各タスクで個別に訓練された個別モデルよりも優れていた。 コードおよび事前トレーニングされたモデルは、以下の通りである。

Segmentation of multiple anatomical structures is of great importance in medical image analysis. In this study, we proposed a $\mathcal{W}$-net to simultaneously segment both the optic disc (OD) and the exudates in retinal images based on the multi-task learning (MTL) scheme. We introduced a class-balanced loss and a multi-task weighted loss to alleviate the imbalanced problem and to improve the robustness and generalization property of the $\mathcal{W}$-net. We demonstrated the effectiveness of our approach by applying five-fold cross-validation experiments on two public datasets e\_ophtha\_EX and DiaRetDb1. We achieved F1-score of 94.76\% and 95.73\% for OD segmentation, and 92.80\% and 94.14\% for exudates segmentation. To further prove the generalization property of the proposed method, we applied the trained model on the DRIONS-DB dataset for OD segmentation and on the MESSIDOR dataset for exudate segmentation. Our results demonstrated that by choosing the optimal weights of each task, the MTL based $\mathcal{W}$-net outperformed separate models trained individually on each task. Code and pre-trained models will be available at: \url{https://github.com/FundusResearch/MTL_for_OD_and_exudates.git}.
翻訳日:2022-11-22 13:33:31 公開日:2020-06-11
# オブジェクト検出APIのためのユーザフレンドリなグラフィカルフレームワークTensorFlow

TensorFlow with user friendly Graphical Framework for object detection API ( http://arxiv.org/abs/2006.06385v1 )

ライセンス: Link先を確認
Heemoon Yoon, Sang-Hee Lee, Mira Park(参考訳) TensorFlowはディープラーニングデータフローのためのオープンソースのフレームワークであり、音声分析、自然言語処理、コンピュータビジョンのアプリケーションプログラミングインターフェース(API)を含んでいる。 特に、コンピュータビジョン分野におけるTensorFlowオブジェクト検出APIは、農業、工学、医学のテクノロジーに広く適用されてきたが、フレームワークの入力障壁は、コマンドラインインターフェース(CLI)とアマチュアやIT分野の初心者のためのコードを通じて依然として高い。 そのため、TensorFlow Graphical Framework(TF-GraF)と呼ばれるTensorFlow上のオブジェクト検出API用のユーザフレンドリなGraphical Frameworkを開発することを目指している。 TF-GraFは、サーバ側のユーザアカウントに従って独立した仮想環境を提供し、クライアント側のCLIなしでのデータ前処理、トレーニング、評価を実行する。 さらに、TF-GraFにより、ハイパーパラメータ設定、トレーニングプロセスのリアルタイム観察、テスト画像のオブジェクト可視化、テストデータのメトリクス評価も操作できる。 特にTF-GraFは、GUI環境を通じて畳み込みニューラルネットワーク(インセプションとResNet)を含むSSD、Faster-RCNN、RFCN、Mask-RCNNの柔軟なモデル選択をサポートする。 その結果、TF-GraFでは、ディープラーニングフレームワークに関するこれまでの知識がなくても、コーディングなしでマシンインテリジェンスモデルを設計、トレーニング、デプロイすることができる。 TF-GraFは設定と設定を行うので、複雑なソフトウェアや環境をインストールするのに時間を費やすことなく、プロジェクトのためにディープラーニング技術を使用することができます。

TensorFlow is an open-source framework for deep learning dataflow and contains application programming interfaces (APIs) of voice analysis, natural language process, and computer vision. Especially, TensorFlow object detection API in computer vision field has been widely applied to technologies of agriculture, engineering, and medicine but barriers to entry of the framework usage is still high through command-line interface (CLI) and code for amateurs and beginners of information technology (IT) field. Therefore, this is aim to develop an user friendly Graphical Framework for object detection API on TensorFlow which is called TensorFlow Graphical Framework (TF-GraF). The TF-GraF provides independent virtual environments according to user accounts in server-side, additionally, execution of data preprocessing, training, and evaluation without CLI in client-side. Furthermore, hyperparameter setting, real-time observation of training process, object visualization of test images, and metrics evaluations of test data can also be operated via TF-GraF. Especially, TF-GraF supports flexible model selection of SSD, Faster-RCNN, RFCN, and Mask-RCNN including convolutional neural networks (inceptions and ResNets) through GUI environment. Consequently, TF-GraF allows anyone, even without any previous knowledge of deep learning frameworks, to design, train and deploy machine intelligence models without coding. Since TF-GraF takes care of setting and configuration, it allows anyone to use deep learning technology for their project without spending time to install complex software and environment.
翻訳日:2022-11-22 13:32:16 公開日:2020-06-11
# ビジュアルトラッキングのための深部畳み込み様粒子フィルタ

Deep Convolutional Likelihood Particle Filter for Visual Tracking ( http://arxiv.org/abs/2006.06746v1 )

ライセンス: Link先を確認
Reza Jalil Mozhdehi and Henry Medeiros(参考訳) 畳み込み相関型ビジュアルトラッカーのための新しい粒子フィルタを提案する。 本手法では, 近似分布を推定するために相関応答写像を用い, 試料粒子の密度を推定する。 相関応答マップは、ターゲットの位置に関する追加情報を提供するため、ターゲット遷移分布に基づく提案密度よりも信頼性が高い。 さらに, 粒子フィルタは, 多モードの確率分布を探索し, より効率的に粒子をサンプリングすることで計算コストを低減しつつ, 目標咬合シナリオの性能を向上させる。 動きのぼけを含む他の困難なシナリオでは、1つのモードしか存在せず、より大きな探索領域が必要となる可能性がある場合、粒子フィルタにより確率分布のばらつきが増大する。 我々はこのアルゴリズムをvisual tracker benchmark v1.1 (otb100) でテストし,本フレームワークが最先端の手法を上回ることを実証した。

We propose a novel particle filter for convolutional-correlation visual trackers. Our method uses correlation response maps to estimate likelihood distributions and employs these likelihoods as proposal densities to sample particles. Likelihood distributions are more reliable than proposal densities based on target transition distributions because correlation response maps provide additional information regarding the target's location. Additionally, our particle filter searches for multiple modes in the likelihood distribution, which improves performance in target occlusion scenarios while decreasing computational costs by more efficiently sampling particles. In other challenging scenarios such as those involving motion blur, where only one mode is present but a larger search area may be necessary, our particle filter allows for the variance of the likelihood distribution to increase. We tested our algorithm on the Visual Tracker Benchmark v1.1 (OTB100) and our experimental results demonstrate that our framework outperforms state-of-the-art methods.
翻訳日:2022-11-22 13:31:21 公開日:2020-06-11
# 強化トレーニングパイプラインを用いた胸部x線画像からの胸部病理の自動同定

Automated Identification of Thoracic Pathology from Chest Radiographs with Enhanced Training Pipeline ( http://arxiv.org/abs/2006.06805v1 )

ライセンス: Link先を確認
Adora M. DSouza, Anas Z. Abidin, and Axel Wism\"uller(参考訳) 胸部X線は肺疾患や心臓病の診断において最も一般的な放射線学研究である。 したがって、胸部X線による病理所見の自動報告システムにより、放射線医の生産性が大幅に向上する。 そこで本研究では,胸部X線から胸部病理組織を分類するための新しいトレーニング手法を用いた深層学習フレームワークについて検討する。 現在利用可能な最大の注釈付きデータセットであるChestX-ray14は、30,805人の胸部X線写真112,120枚を用いている。 それぞれの画像には「nofinding」クラスまたは14の胸部病理ラベルの1つ以上の注釈が付された。 対象には複数の病理があり、結果として複数のクラス、複数ラベルの問題が発生する。 k-hotエンコーディングを用いてラベルをバイナリベクトルとして符号化した。 本研究では,imagenetで事前学習したresnet34アーキテクチャについて検討し,(1)運動量とコサインアニーリングによる再始動による確率的勾配降下,(2)過フィッティングを防止するための可変画像サイズについて検討した。 さらに,優れた学習率を選択するためにヒューリスティックアルゴリズムを用いる。 リスタートによる学習は、ローカルなミニマを避けるために使用された。 診断品質を定量的に評価するために、AUC(Area Under receiver operating characteristics Curve)を用いた。 Atelectasis:0.81, Cardiomegaly:0.91, Consolidation:0.81, Edema:0.92, Effusion:0.89, Emphysema: 0.92, Fibrosis:0.81, Hernia:0.84, Infiltration:0.73, Mass:0.85, Nodule:0.76, Pleural Thickening:0.81, Pneumonia:0.77, Pneumothorax:0.89, NoFinding:079。 その結果,高度なネットワークアーキテクチャを使うことに加えて,優れた学習率,スケジューラ,ロバストオプティマイザがパフォーマンスの向上に寄与することが示唆された。

Chest x-rays are the most common radiology studies for diagnosing lung and heart disease. Hence, a system for automated pre-reporting of pathologic findings on chest x-rays would greatly enhance radiologists' productivity. To this end, we investigate a deep-learning framework with novel training schemes for classification of different thoracic pathology labels from chest x-rays. We use the currently largest publicly available annotated dataset ChestX-ray14 of 112,120 chest radiographs of 30,805 patients. Each image was annotated with either a 'NoFinding' class, or one or more of 14 thoracic pathology labels. Subjects can have multiple pathologies, resulting in a multi-class, multi-label problem. We encoded labels as binary vectors using k-hot encoding. We study the ResNet34 architecture, pre-trained on ImageNet, where two key modifications were incorporated into the training framework: (1) Stochastic gradient descent with momentum and with restarts using cosine annealing, (2) Variable image sizes for fine-tuning to prevent overfitting. Additionally, we use a heuristic algorithm to select a good learning rate. Learning with restarts was used to avoid local minima. Area Under receiver operating characteristics Curve (AUC) was used to quantitatively evaluate diagnostic quality. Our results are comparable to, or outperform the best results of current state-of-the-art methods with AUCs as follows: Atelectasis:0.81, Cardiomegaly:0.91, Consolidation:0.81, Edema:0.92, Effusion:0.89, Emphysema: 0.92, Fibrosis:0.81, Hernia:0.84, Infiltration:0.73, Mass:0.85, Nodule:0.76, Pleural Thickening:0.81, Pneumonia:0.77, Pneumothorax:0.89 and NoFinding:0.79. Our results suggest that, in addition to using sophisticated network architectures, a good learning rate, scheduler and a robust optimizer can boost performance.
翻訳日:2022-11-22 13:31:08 公開日:2020-06-11
# ソースコードのニューラルモデルにおけるバックドア

Backdoors in Neural Models of Source Code ( http://arxiv.org/abs/2006.06841v1 )

ライセンス: Link先を確認
Goutham Ramakrishnan, Aws Albarghouthi(参考訳) ディープニューラルネットワークは、さまざまな敵に対して脆弱である。 特に厄介な種類の脆弱性はバックドアであり、入力に微妙なトリガーが存在する場合にモデル予測が分かれる。 攻撃者は、トレーニングデータを悪用してバックドアを埋め込んで、起動した入力に対して所望の目標予測を行うことができる。 ソースコードの深層学習の文脈でバックドアを研究する。 1)ソースコードタスクのバックドアクラスを定義し,そのバックドアをインストールするためにデータセットに毒を盛る方法を示す。 2)最近のアルゴリズムをロバスト統計から適応・改良し,背景ドアがソースコードの学習表現にスペクトルシグネチャを残すことを示し,有毒データの検出を可能にした。 3)異なるアーキテクチャや言語について徹底的な評価を行い,バックドアの注入の容易さとそれらを取り除く能力を示す。

Deep neural networks are vulnerable to a range of adversaries. A particularly pernicious class of vulnerabilities are backdoors, where model predictions diverge in the presence of subtle triggers in inputs. An attacker can implant a backdoor by poisoning the training data to yield a desired target prediction on triggered inputs. We study backdoors in the context of deep-learning for source code. (1) We define a range of backdoor classes for source-code tasks and show how to poison a dataset to install such backdoors. (2) We adapt and improve recent algorithms from robust statistics for our setting, showing that backdoors leave a spectral signature in the learned representation of source code, thus enabling detection of poisoned data. (3) We conduct a thorough evaluation on different architectures and languages, showing the ease of injecting backdoors and our ability to eliminate them.
翻訳日:2022-11-22 13:24:00 公開日:2020-06-11
# 属性ノイズを用いたリスト学習

List Learning with Attribute Noise ( http://arxiv.org/abs/2006.06850v1 )

ライセンス: Link先を確認
Mahdi Cheraghchi, Elena Grigorescu, Brendan Juba, Karl Wimmer, and Ning Xie(参考訳) 属性雑音を伴うリスト学習のモデルを紹介し,検討する。 属性ノイズによる学習は、Shackelford and Volper (COLT 1988) によってPAC学習の変種として導入され、そこではアルゴリズムがノイズのあるサンプルや未破損ラベルにアクセスでき、その目標は正確な仮説を復元することである。 Sloan (COLT 1988)とGoldman and Sloan (Algorithmica 1995)は、このモデルにおける学習に対する情報理論の限界を発見し、さらなる進歩を阻害した。 本稿では、このモデルをリスト学習に拡張し、コーディング理論におけるリスト復号モデルからインスピレーションを得て、学習の文脈で研究した最近の変種について述べる。 正の面では、スパース結合は基礎となる接地分布の仮定の下で効率的に学習されることを示す。 否定的な側面として, リスト学習モデルにおいても, 表現によらず, パリティとメジャーの効率的な学習は不可能であることを示す。

We introduce and study the model of list learning with attribute noise. Learning with attribute noise was introduced by Shackelford and Volper (COLT 1988) as a variant of PAC learning, in which the algorithm has access to noisy examples and uncorrupted labels, and the goal is to recover an accurate hypothesis. Sloan (COLT 1988) and Goldman and Sloan (Algorithmica 1995) discovered information-theoretic limits to learning in this model, which have impeded further progress. In this article we extend the model to that of list learning, drawing inspiration from the list-decoding model in coding theory, and its recent variant studied in the context of learning. On the positive side, we show that sparse conjunctions can be efficiently list learned under some assumptions on the underlying ground-truth distribution. On the negative side, our results show that even in the list-learning model, efficient learning of parities and majorities is not possible regardless of the representation used.
翻訳日:2022-11-22 13:23:47 公開日:2020-06-11
# 正規化層を用いたReLUニューラルネットワークの最適化理論

Optimization Theory for ReLU Neural Networks Trained with Normalization Layers ( http://arxiv.org/abs/2006.06878v1 )

ライセンス: Link先を確認
Yonatan Dukler, Quanquan Gu, Guido Mont\'ufar(参考訳) ディープニューラルネットワークの成功の一部は、正規化層の使用によるものである。 バッチ正規化やレイヤ正規化、ウェイト正規化といった正規化レイヤは、一般化性能を向上し、トレーニングを著しく高速化するため、実際にはユビキタスである。 それでも、現在のディープラーニング理論と非凸最適化文学の大部分は、考慮中の関数が一般的な正規化ニューラルネットワークの性質を示さない非正規化設定に焦点を当てている。 本稿では,ReLUアクティベーションを正規化層,すなわち重み正規化でトレーニングした2層ニューラルネットワークに対して,最初の大域収束結果を与えることにより,このギャップを埋める。 本研究では,正規化層の導入によって最適化の景観が変化し,非正規化ニューラルネットワークと比較してより高速に収束できることを示す。

The success of deep neural networks is in part due to the use of normalization layers. Normalization layers like Batch Normalization, Layer Normalization and Weight Normalization are ubiquitous in practice, as they improve generalization performance and speed up training significantly. Nonetheless, the vast majority of current deep learning theory and non-convex optimization literature focuses on the un-normalized setting, where the functions under consideration do not exhibit the properties of commonly normalized neural networks. In this paper, we bridge this gap by giving the first global convergence result for two-layer neural networks with ReLU activations trained with a normalization layer, namely Weight Normalization. Our analysis shows how the introduction of normalization layers changes the optimization landscape and can enable faster convergence as compared with un-normalized neural networks.
翻訳日:2022-11-22 13:23:15 公開日:2020-06-11
# 薬物-薬物相互作用予測のためのbiレベルグラフニューラルネットワーク

Bi-Level Graph Neural Networks for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2006.14002v1 )

ライセンス: Link先を確認
Yunsheng Bai, Ken Gu, Yizhou Sun, Wei Wang(参考訳) 薬物-薬物相互作用(DDI)やタンパク質-タンパク質相互作用(PPI)などの生物学的リンク予測タスクをモデル化するためのBi-GNNを提案する。 薬物と薬物の相互作用を例として、機械学習を用いた既存の方法は、各薬物分子のグラフ表現を使わずに薬物間のリンク構造を利用するか、より高レベルのDDIグラフのグラフ構造を使わずに個々の薬物化合物構造を利用するかのいずれかである。 この手法の重要な考え方は、データをバイレベルグラフと見なすことであり、最も高いレベルグラフは生物学的実体(相互作用グラフ)間の相互作用を表し、各生物学的実体自体はさらに内在的なグラフ表現(表現グラフ)へと拡張され、そのグラフは薬品化合物のように平坦か、アミノ酸レベルグラフ、二次構造、第三次構造などを持つタンパク質のように階層的になる。 我々のモデルは、高レベル相互作用グラフと低レベル表現グラフの両方からの情報の利用を可能にするだけでなく、データのバイレベルの性質に対処する将来の研究機会のベースラインも提供します。

We introduce Bi-GNN for modeling biological link prediction tasks such as drug-drug interaction (DDI) and protein-protein interaction (PPI). Taking drug-drug interaction as an example, existing methods using machine learning either only utilize the link structure between drugs without using the graph representation of each drug molecule, or only leverage the individual drug compound structures without using graph structure for the higher-level DDI graph. The key idea of our method is to fundamentally view the data as a bi-level graph, where the highest level graph represents the interaction between biological entities (interaction graph), and each biological entity itself is further expanded to its intrinsic graph representation (representation graphs), where the graph is either flat like a drug compound or hierarchical like a protein with amino acid level graph, secondary structure, tertiary structure, etc. Our model not only allows the usage of information from both the high-level interaction graph and the low-level representation graphs, but also offers a baseline for future research opportunities to address the bi-level nature of the data.
翻訳日:2022-11-22 13:23:02 公開日:2020-06-11
# カルマンフィルタを用いた多人数頭部追跡

Kalman Filter Based Multiple Person Head Tracking ( http://arxiv.org/abs/2006.06134v1 )

ライセンス: Link先を確認
Mohib Ullah, Maqsood Mahmud, Habib Ullah, Kashif Ahmad, Ali Shariq Imran, Faouzi Alaya Cheikh(参考訳) マルチターゲットトラッキングでは、ターゲット表現がパフォーマンスにおいて重要なルールとなる。 最先端のアプローチは、計算複雑性の高いコストで最適なパフォーマンスを提供するディープラーニングベースのビジュアル表現に依存している。 本稿では,人間追跡のための簡易かつ効果的なターゲット表現を考案する。 私たちのインスピレーションは、人体が時間の経過とともに激しく変形し、相互に閉塞するという事実から来ています。 そのため、身体全体をトラッキングする代わりに、長期にわたってヒトを追跡するための相対的な剛性臓器追跡が選択される。 そこで,追跡・検出のパラダイムに従い,各フレーム内の頭部の空間的位置のみを対象とする仮説を作成した。 頭部位置の局所化後、シーン内のターゲットの時間的進化に追従する目標毎に、一定の速度運動モデルを持つカルマンフィルタをインスタンス化する。 連続フレームにおけるターゲットの関連付けには、対応するターゲットをグリーディーな方法で関連付ける組合せ最適化を用いる。 4つの挑戦的ビデオ監視データセットで質的結果が評価され、有望な結果が得られた。

For multi-target tracking, target representation plays a crucial rule in performance. State-of-the-art approaches rely on the deep learning-based visual representation that gives an optimal performance at the cost of high computational complexity. In this paper, we come up with a simple yet effective target representation for human tracking. Our inspiration comes from the fact that the human body goes through severe deformation and inter/intra occlusion over the passage of time. So, instead of tracking the whole body part, a relative rigid organ tracking is selected for tracking the human over an extended period of time. Hence, we followed the tracking-by-detection paradigm and generated the target hypothesis of only the spatial locations of heads in every frame. After the localization of head location, a Kalman filter with a constant velocity motion model is instantiated for each target that follows the temporal evolution of the targets in the scene. For associating the targets in the consecutive frames, combinatorial optimization is used that associates the corresponding targets in a greedy fashion. Qualitative results are evaluated on four challenging video surveillance dataset and promising results has been achieved.
翻訳日:2022-11-22 13:22:11 公開日:2020-06-11
# 雑音耐性自己教師付きインバージョンによる画像デコンボリューション

Image Deconvolution via Noise-Tolerant Self-Supervised Inversion ( http://arxiv.org/abs/2006.06156v1 )

ライセンス: Link先を確認
Hirofumi Kobayashi, Ahmet Can Solak, Joshua Batson, Loic A. Royer(参考訳) 本稿では,信号先行や雑音推定,クリーントレーニングデータを必要としない雑音の存在下での逆問題に対する一般的な枠組みを提案する。 我々は、フォワードモデルが利用可能であることと、ノイズが測定次元にわたって統計的に独立することのみを要求する。 我々は、$\mathcal{J}$-invariant function (Batson & Royer 2019, arXiv:1901.11365) の理論に基づいて、自己教師付き denoising \emph{\`a la} noise2Self が、そのアイデンティティのノイズ耐性の擬逆を学習する特別なケースであることを示す。 本稿では,Lucy-Richardsonデコンボリューションのような画像品質の古典的インバージョンスキームを克服し,自己教師付きで畳み込みニューラルネットワークを学習する方法を示す。

We propose a general framework for solving inverse problems in the presence of noise that requires no signal prior, no noise estimate, and no clean training data. We only require that the forward model be available and that the noise be statistically independent across measurement dimensions. We build upon the theory of $\mathcal{J}$-invariant functions (Batson & Royer 2019, arXiv:1901.11365) and show how self-supervised denoising \emph{\`a la} Noise2Self is a special case of learning a noise-tolerant pseudo-inverse of the identity. We demonstrate our approach by showing how a convolutional neural network can be taught in a self-supervised manner to deconvolve images and surpass in image quality classical inversion schemes such as Lucy-Richardson deconvolution.
翻訳日:2022-11-22 13:21:39 公開日:2020-06-11
# 弱凸制約最適化のための適応アルゴリズムの収束性

Convergence of adaptive algorithms for weakly convex constrained optimization ( http://arxiv.org/abs/2006.06650v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Yura Malitsky, Volkan Cevher(参考訳) 適応1次アルゴリズム AMSGrad を解析し、制約付き確率最適化問題を弱凸目的で解く。 我々は、モロー包絡の勾配のノルムに対する収束率の $\mathcal{\tilde o}(t^{-1/4})$ を証明する。 これは、適応アルゴリズムが制約のない滑らかな確率最適化の特定のケースで楽しむ既知のレートと一致する。 私たちの分析では、ミニバッチサイズである1ドルの1次および2次モーメントパラメータ、そしておそらくは無制限の最適化ドメインで動作します。 最後に、特定の問題やアルゴリズムに対する結果の応用と拡張について説明する。

We analyze the adaptive first order algorithm AMSGrad, for solving a constrained stochastic optimization problem with a weakly convex objective. We prove the $\mathcal{\tilde O}(t^{-1/4})$ rate of convergence for the norm of the gradient of Moreau envelope, which is the standard stationarity measure for this class of problems. It matches the known rates that adaptive algorithms enjoy for the specific case of unconstrained smooth stochastic optimization. Our analysis works with mini-batch size of $1$, constant first and second order moment parameters, and possibly unbounded optimization domains. Finally, we illustrate the applications and extensions of our results to specific problems and algorithms.
翻訳日:2022-11-22 13:14:55 公開日:2020-06-11
# 多項式活性化を持つ広帯域ネットワークの漸近性について

On the asymptotics of wide networks with polynomial activations ( http://arxiv.org/abs/2006.06687v1 )

ライセンス: Link先を確認
Kyle Aitken, Guy Gur-Ari(参考訳) 本稿では, ニューラルネットワークの漸近的挙動を, 幅の広い範囲で考察する。 この予想から導かれる結果は、確率勾配降下中の広帯域ネットワークの挙動の厳密な境界と、それらの有限幅ダイナミクスの導出である。 多項式活性化関数を持つディープネットワークの予想を証明し、これらの結果の有効性を大幅に拡張する。 最後に,解析的(非線形)アクティベーション関数とreluのような分割線形アクティベーションを持つネットワークの漸近的挙動の違いを指摘する。

We consider an existing conjecture addressing the asymptotic behavior of neural networks in the large width limit. The results that follow from this conjecture include tight bounds on the behavior of wide networks during stochastic gradient descent, and a derivation of their finite-width dynamics. We prove the conjecture for deep networks with polynomial activation functions, greatly extending the validity of these results. Finally, we point out a difference in the asymptotic behavior of networks with analytic (and non-linear) activation functions and those with piecewise-linear activations such as ReLU.
翻訳日:2022-11-22 13:14:22 公開日:2020-06-11
# 未来からの借用語:モデルフリー制御における二重サンプリング対応

Borrowing From the Future: Addressing Double Sampling in Model-free Control ( http://arxiv.org/abs/2006.06173v1 )

ライセンス: Link先を確認
Yuhua Zhu, Zach Izzo, Lexing Ying(参考訳) モデルフリー強化学習では、時間差法とその変種は非線形関数近似と組み合わせて不安定になる。 確率勾配降下 (SGD) を伴うベルマン残差最小化はより安定であるが、二重サンプリング問題に悩まされる: 現在の状態を考えると、次の状態のための2つの独立したサンプルが必要であるが、しばしば1つのサンプルのみが利用可能である。 近年, [Zhu et al, 2020] の著者らは, 予測問題に対するこの問題に対処するために, 未来 (BFF) アルゴリズムの借入を導入した。 主なアイデアは、問題の基礎となるダイナミクスが十分に滑らかであるときに、将来から余分なランダム性を借りて、次の状態をほぼ再サンプルすることである。 本稿では,BFFアルゴリズムをアクション値関数に基づくモデルフリー制御に拡張する。 BFF が非バイアスの SGD に近づき、基礎となる力学が動作に関してゆっくりと変化する。 数値シミュレーションにより理論的知見を確認した。

In model-free reinforcement learning, the temporal difference method and its variants become unstable when combined with nonlinear function approximations. Bellman residual minimization with stochastic gradient descent (SGD) is more stable, but it suffers from the double sampling problem: given the current state, two independent samples for the next state are required, but often only one sample is available. Recently, the authors of [Zhu et al, 2020] introduced the borrowing from the future (BFF) algorithm to address this issue for the prediction problem. The main idea is to borrow extra randomness from the future to approximately re-sample the next state when the underlying dynamics of the problem are sufficiently smooth. This paper extends the BFF algorithm to action-value function based model-free control. We prove that BFF is close to unbiased SGD when the underlying dynamics vary slowly with respect to actions. We confirm our theoretical findings with numerical simulations.
翻訳日:2022-11-22 13:06:10 公開日:2020-06-11
# 低階とスパーステンソル分解による畳み込みニューラルネットワーク圧縮

Convolutional neural networks compression with low rank and sparse tensor decompositions ( http://arxiv.org/abs/2006.06443v1 )

ライセンス: Link先を確認
Pavel Kaloshin(参考訳) 畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて優れた結果を示す。 しかしながら、ニューラルネットワークアーキテクチャ設計は通常、モデルパフォーマンスと計算/メモリの複雑さの間のトレードオフに直面します。 一部の実世界のアプリケーションでは、エッジシステムやモバイルデバイスで動作可能な高速で軽量なモデルを開発することが不可欠である。 しかし、優れたパフォーマンスを示す多くのモダンなアーキテクチャは、推論時間とストレージ制限要件を満たしていない。 このようにして、ニューラルネットワーク圧縮の問題を発生させ、初期モデルと同等の、より小さくより高速なモデルを得る。 本研究では,テンソル分解に基づくニューラルネットワーク圧縮法について考察する。 具体的には,低ランク成分とスパース成分の和として表現できるテンソルを用いた畳み込み層重みを近似する。 このような近似の動機は、低ランク項とスパース項が2種類の冗長性を排除し、より良い圧縮率をもたらすという仮定に基づいている。 提案手法の効率的なCPU実装を開発した。 画像分類タスクでresnet50アーキテクチャを圧縮する場合、アルゴリズムは最大3.5倍のcpu層高速化と11倍の層サイズ削減を実証した。

Convolutional neural networks show outstanding results in a variety of computer vision tasks. However, a neural network architecture design usually faces a trade-off between model performance and computational/memory complexity. For some real-world applications, it is crucial to develop models, which can be fast and light enough to run on edge systems and mobile devices. However, many modern architectures that demonstrate good performance don't satisfy inference time and storage limitation requirements. Thus, arises a problem of neural network compression to obtain a smaller and faster model, which is on par with the initial one. In this work, we consider a neural network compression method based on tensor decompositions. Namely, we propose to approximate the convolutional layer weight with a tensor, which can be represented as a sum of low-rank and sparse components. The motivation for such approximation is based on the assumption that low-rank and sparse terms allow eliminating two different types of redundancy and thus yield a better compression rate. An efficient CPU implementation for the proposed method has been developed. Our algorithm has demonstrated up to 3.5x CPU layer speedup and 11x layer size reduction when compressing Resnet50 architecture for the image classification task.
翻訳日:2022-11-22 12:57:38 公開日:2020-06-11
# SegNBDT: セグメンテーションのための視覚的決定ルール

SegNBDT: Visual Decision Rules for Segmentation ( http://arxiv.org/abs/2006.06868v1 )

ライセンス: Link先を確認
Alvin Wan, Daniel Ho, Younjin Song, Henk Tillman, Sarah Adel Bargal, Joseph E. Gonzalez(参考訳) ニューラルネットワークのブラックボックスの性質は、特にコンピュータビジョンの高次元入力やセグメンテーションのような高密度画素予測タスクにおいて、モデル決定の解釈可能性を制限する。 これを解決するために、以前の研究はニューラルネットワークと決定木を組み合わせる。 しかし,(1)最先端のセグメンテーションモデルと比較した場合や,(2)空間的意味を持つ決定ルールの作成に失敗する場合は,その性能は低下する。 本研究では,(1)ニューラルネットワークのセグメンテーション精度を達成し,(2)「窓はあるか?」といった半自動的な視覚決定ルールを提供する,セグメンテーションのためのハイブリッドニューラルネットワークと決定木モデルを構築した。 画像分類のための決定木のディープラーニングアナログであるneural-backed decision treeからの洞察を活用し,サリエンシー法をセグメント化に拡張することで,意味的視覚的意味を得る。 我々は3つのベンチマークデータセット(Pascal-Context (49.12%)、Cityscapes (79.01%)、Look Into Person (51.64%)で説明可能なモデルに対する最先端のパフォーマンスを達成する。 さらに、ユーザ研究は、特に誤った予測に関して、視覚的な決定ルールがより解釈可能であることを示唆している。 コードと事前訓練されたモデルはhttps://github.com/daniel-ho/SegNBDT.comで見ることができる。

The black-box nature of neural networks limits model decision interpretability, in particular for high-dimensional inputs in computer vision and for dense pixel prediction tasks like segmentation. To address this, prior work combines neural networks with decision trees. However, such models (1) perform poorly when compared to state-of-the-art segmentation models or (2) fail to produce decision rules with spatially-grounded semantic meaning. In this work, we build a hybrid neural-network and decision-tree model for segmentation that (1) attains neural network segmentation accuracy and (2) provides semi-automatically constructed visual decision rules such as "Is there a window?". We obtain semantic visual meaning by extending saliency methods to segmentation and attain accuracy by leveraging insights from neural-backed decision trees, a deep learning analog of decision trees for image classification. Our model SegNBDT attains accuracy within ~2-4% of the state-of-the-art HRNetV2 segmentation model while also retaining explainability; we achieve state-of-the-art performance for explainable models on three benchmark datasets -- Pascal-Context (49.12%), Cityscapes (79.01%), and Look Into Person (51.64%). Furthermore, user studies suggest visual decision rules are more interpretable, particularly for incorrect predictions. Code and pretrained models can be found at https://github.com/daniel-ho/SegNBDT.
翻訳日:2022-11-22 12:56:28 公開日:2020-06-11
# XiaoiceSing:高品質で総合的な歌声合成システム

XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System ( http://arxiv.org/abs/2006.06261v1 )

ライセンス: Link先を確認
Peiling Lu, Jie Wu, Jian Luan, Xu Tan, Li Zhou(参考訳) 本稿では、スペクトル、F0、持続時間モデリングのための統合ネットワークを用いた高品質な歌声合成システムXiaoiceSingを提案する。 我々はFastSpeechの主要なアーキテクチャに従い、歌唱特有の設計を提案している。 1)音素idと位置符号化に加えて、楽譜(音高や長さなど)の特徴も付加される。 2) オフキー問題を軽減するために, F0 予測に残差接続を加える。 3)各音素の持続時間損失に加えて,音符中のすべての音素の持続時間を蓄積し,リズム強調のための音節持続時間損失を算出する。 実験の結果,畳み込みニューラルネットワークのベースラインシステムは音質が1.44 mos,発音精度が1.18 mos,自然性が1.38 mosであった。 2つのA/B試験において、提案したF0と持続時間モデリング法はそれぞれ97.3%と84.3%の優先レートを達成し、XiaoiceSingの圧倒的な優位性を示している。

This paper presents XiaoiceSing, a high-quality singing voice synthesis system which employs an integrated network for spectrum, F0 and duration modeling. We follow the main architecture of FastSpeech while proposing some singing-specific design: 1) Besides phoneme ID and position encoding, features from musical score (e.g.note pitch and length) are also added. 2) To attenuate off-key issues, we add a residual connection in F0 prediction. 3) In addition to the duration loss of each phoneme, the duration of all the phonemes in a musical note is accumulated to calculate the syllable duration loss for rhythm enhancement. Experiment results show that XiaoiceSing outperforms the baseline system of convolutional neural networks by 1.44 MOS on sound quality, 1.18 on pronunciation accuracy and 1.38 on naturalness respectively. In two A/B tests, the proposed F0 and duration modeling methods achieve 97.3% and 84.3% preference rate over baseline respectively, which demonstrates the overwhelming advantages of XiaoiceSing.
翻訳日:2022-11-22 12:55:59 公開日:2020-06-11
# 質問のない調査:強化学習アプローチ

Surveys without Questions: A Reinforcement Learning Approach ( http://arxiv.org/abs/2006.06323v1 )

ライセンス: Link先を確認
Atanu R Sinha, Deepali Jain, Nikhil Sheoran, Sopan Khosla, Reshmi Sasidharan(参考訳) 古い世界の」調査は、企業がオンラインで企業と対話しながら、顧客が認識した満足度と経験のレーティングを得るためのツールであり続けている。 調査の道はメールやリンクからポップアップまで進化してきたが、欠陥は続いている。 これには、顧客のオンラインインタラクションを推測するごく少数の回答者のレーティングに依存すること、レーティングが1回のスナップショットであるため、時間の経過とともに顧客のインタラクションをキャプチャできないこと、提供されたレーティングがすべてのインタラクションに関連するため、顧客のレーティングを特定のインタラクションに結びつけることができないこと、などが含まれる。 これらの欠陥を克服するために、Reinforcement Learning(RL)に基づいたアプローチを開発することで、顧客のオンラインインタラクション毎に収集されるクリックストリームデータからプロキシレーティングを抽出する。 本稿では,RLの値関数が生成した値をプロキシ評価として解釈する新しい手法を提案する。 我々のアプローチは、トレーニングのためにサーベイデータを必要としない。 しかし、実際の調査データに対する検証では、プロキシレーティングが適切なパフォーマンス結果をもたらす。 さらに、バリュー関数の値から洞察を引き出す新しい方法を提供し、プロキシのレーティングに特定のインタラクションを関連付けることができます。 1つは顧客レベルであり、もう1つは顧客間でのクリックアクションの集計レベルである。 どちらも、プロキシレーティングの増加を示す、すべてのペア、連続したアクションの比率で定義される。 この直感的な顧客レベルの指標は、時間の経過とともにレーティングのダイナミクスを拡大し、調査による顧客のレーティングよりも購入の予測が優れている。 集約レベルのメトリクスは、経験を補助したり、傷つけたりするアクションを特定できる。 まとめると、プロキシレーティングはクリックストリームから控えめに計算され、すべてのアクション、各顧客、各セッションは、調査の解釈可能で洞察に富んだ代替手段を提供することができる。

The 'old world' instrument, survey, remains a tool of choice for firms to obtain ratings of satisfaction and experience that customers realize while interacting online with firms. While avenues for survey have evolved from emails and links to pop-ups while browsing, the deficiencies persist. These include - reliance on ratings of very few respondents to infer about all customers' online interactions; failing to capture a customer's interactions over time since the rating is a one-time snapshot; and inability to tie back customers' ratings to specific interactions because ratings provided relate to all interactions. To overcome these deficiencies we extract proxy ratings from clickstream data, typically collected for every customer's online interactions, by developing an approach based on Reinforcement Learning (RL). We introduce a new way to interpret values generated by the value function of RL, as proxy ratings. Our approach does not need any survey data for training. Yet, on validation against actual survey data, proxy ratings yield reasonable performance results. Additionally, we offer a new way to draw insights from values of the value function, which allow associating specific interactions to their proxy ratings. We introduce two new metrics to represent ratings - one, customer-level and the other, aggregate-level for click actions across customers. Both are defined around proportion of all pairwise, successive actions that show increase in proxy ratings. This intuitive customer-level metric enables gauging the dynamics of ratings over time and is a better predictor of purchase than customer ratings from survey. The aggregate-level metric allows pinpointing actions that help or hurt experience. In sum, proxy ratings computed unobtrusively from clickstream, for every action, for each customer, and for every session can offer interpretable and more insightful alternative to surveys.
翻訳日:2022-11-22 12:55:09 公開日:2020-06-11
# 新しい環境における固有概念から長期計画へ:階層的RLモデル

From proprioception to long-horizon planning in novel environments: A hierarchical RL model ( http://arxiv.org/abs/2006.06620v1 )

ライセンス: Link先を確認
Nishad Gothoskar, Miguel L\'azaro-Gredilla, Dileep George(参考訳) インテリジェントエージェントが複雑な環境で柔軟かつ効率的に動作するためには、時間的、空間的、概念的な抽象化の複数のレベルを推論する必要がある。 下層では、エージェントは、受容性入力を解釈し、筋肉を制御する必要があり、上層では、エージェントは目標を選択し、その目標を達成する方法を計画しなければならない。 これらのタイプの推論は、それぞれ異なる種類の表現、アルゴリズム、入力に対応可能であることは明らかである。 本稿では,これらの区別を反映した,単純で3段階の階層構造を提案する。 低レベルコントローラは、モデルなし学習を用いて有用な行動を取得することで、連続した受容入力で動作する。 これらは、ミッドレベルコントローラによって学習され、モデル予測制御に使用される中レベルダイナミクスのセットを誘導し、各タイムステップでアクティベートする動作を選択する。 高レベルコントローラは、目標選択と経路計画のための離散グラフ表現を利用して、中間レベルコントローラのターゲットを指定する。 我々は,Mujoco Ant環境における一連のナビゲーションタスクに適用し,従来のモデルフリー,モデルベース,階層的RL手法と比較して,サンプル効率の大幅な改善を一貫して示す。 最後に、我々のアーキテクチャの利点を示す例として、効率的な探索と長期計画を必要とする複雑な迷路環境に適用する。

For an intelligent agent to flexibly and efficiently operate in complex environments, they must be able to reason at multiple levels of temporal, spatial, and conceptual abstraction. At the lower levels, the agent must interpret their proprioceptive inputs and control their muscles, and at the higher levels, the agent must select goals and plan how they will achieve those goals. It is clear that each of these types of reasoning is amenable to different types of representations, algorithms, and inputs. In this work, we introduce a simple, three-level hierarchical architecture that reflects these distinctions. The low-level controller operates on the continuous proprioceptive inputs, using model-free learning to acquire useful behaviors. These in turn induce a set of mid-level dynamics, which are learned by the mid-level controller and used for model-predictive control, to select a behavior to activate at each timestep. The high-level controller leverages a discrete, graph representation for goal selection and path planning to specify targets for the mid-level controller. We apply our method to a series of navigation tasks in the Mujoco Ant environment, consistently demonstrating significant improvements in sample-efficiency compared to prior model-free, model-based, and hierarchical RL methods. Finally, as an illustrative example of the advantages of our architecture, we apply our method to a complex maze environment that requires efficient exploration and long-horizon planning.
翻訳日:2022-11-22 12:54:36 公開日:2020-06-11
# ノード埋め込み学習時の集中度向上への注意

Attention improves concentration when learning node embeddings ( http://arxiv.org/abs/2006.06834v1 )

ライセンス: Link先を確認
Matthew Dippel, Adam Kiezun, Tanay Mehta, Ravi Sundaram, Srikanth Thirumalai, Akshar Varma(参考訳) 我々は,電子商取引におけるノード属性からグラフのエッジを予測する問題を考える。 具体的には,検索クエリテキストをラベル付けしたノードに対して,製品を共有する関連クエリへのリンクを予測したい。 深層ニューラルネットワークを用いた実験では、注意機構を持つ単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。 これらのモデルの単純さによって、注意力のパフォーマンスが説明できる。 本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。 AttESTクエリテキスト埋め込みのポイントワイド相互情報(PMI)行列は、単語埋め込みと類似した低ランクな振る舞いを示すことを実証(実証的検証)する。 この低ランク特性により,アテンションネットワークをトレーニングしてクエリ埋め込みを学習する関連クエリ間の相互情報を最大化するロス関数を導出することができる。 AttESTネットワークは、従来のメモリベースのLSTMアーキテクチャをF-1スコアで20%以上上回っている。 注意機構の重みが積ベクトルに対する最良の線形偏差推定器(BLUE)の重みと強く相関していることを示し、注意が分散還元に重要な役割を果たしていると結論付けることにより、この非性能を正当化する。

We consider the problem of predicting edges in a graph from node attributes in an e-commerce setting. Specifically, given nodes labelled with search query text, we want to predict links to related queries that share products. Experiments with a range of deep neural architectures show that simple feedforward networks with an attention mechanism perform best for learning embeddings. The simplicity of these models allows us to explain the performance of attention. We propose an analytically tractable model of query generation, AttEST, that views both products and the query text as vectors embedded in a latent space. We prove (and empirically validate) that the point-wise mutual information (PMI) matrix of the AttEST query text embeddings displays a low-rank behavior analogous to that observed in word embeddings. This low-rank property allows us to derive a loss function that maximizes the mutual information between related queries which is used to train an attention network to learn query embeddings. This AttEST network beats traditional memory-based LSTM architectures by over 20% on F-1 score. We justify this out-performance by showing that the weights from the attention mechanism correlate strongly with the weights of the best linear unbiased estimator (BLUE) for the product vectors, and conclude that attention plays an important role in variance reduction.
翻訳日:2022-11-22 12:48:32 公開日:2020-06-11
# JIT-Masker: バックグラウンドマッチングのための効率的なオンライン蒸留

JIT-Masker: Efficient Online Distillation for Background Matting ( http://arxiv.org/abs/2006.06185v1 )

ライセンス: Link先を確認
Jo Chuang, Qian Dong(参考訳) 我々は,リアルタイムのポートレート・マッティング・パイプラインを日常的に,特にビデオ会議における「仮想背景」のために設計する。 既存のセグメンテーションとマッティング手法では,スループットと効率よりも精度と品質を優先しており,本パイプラインでは,オンライン蒸留を入力映像ストリーム上で活用することにより,制御可能な量の精度とスループットのトレードオフが可能である。 シミュレーションされたビデオコールのデータセットをさまざまなシナリオで構築し、より高品質な結果を提供するとともに、非GPUアクセラレーション設定において、サリエンシ検出に基づくパイプライン上で5倍のスピードアップを実現していることを示す。 オンライン蒸留アプローチが「仮想背景」ツールとして一般消費者レベルの製品の一部として実現可能であることを実証する。 公開実装はhttps://github.com/josephch405/jit-maskerです。

We design a real-time portrait matting pipeline for everyday use, particularly for "virtual backgrounds" in video conferences. Existing segmentation and matting methods prioritize accuracy and quality over throughput and efficiency, and our pipeline enables trading off a controllable amount of accuracy for better throughput by leveraging online distillation on the input video stream. We construct our own dataset of simulated video calls in various scenarios, and show that our approach delivers a 5x speedup over a saliency detection based pipeline in a non-GPU accelerated setting while delivering higher quality results. We demonstrate that an online distillation approach can feasibly work as part of a general, consumer level product as a "virtual background" tool. Our public implementation is at https://github.com/josephch405/jit-masker.
翻訳日:2022-11-22 12:45:34 公開日:2020-06-11
# 多様体上の神経常微分方程式

Neural Ordinary Differential Equations on Manifolds ( http://arxiv.org/abs/2006.06663v1 )

ライセンス: Link先を確認
Luca Falorsi and Patrick Forr\'e(参考訳) 正規化フローは、複雑なマルチモーダル分布から再パラメータ化可能なサンプルを得るための強力な技術である。 残念ながら、現在のアプローチは、基礎空間が非自明な位相を持ち、最も基本的な測地に対してのみ利用可能であるときに不足する。 近年、ニューラルODEに基づくユークリッド空間の正規化フローは大きな可能性を秘めているが、同じ制限を被っている。 微分幾何学と幾何学的制御理論のアイデアを用いて、ニューラルオデムを滑らかな多様体に拡張する方法を説明する。 ベクトル場がこれらの空間上の可逆写像のフレキシブルクラスをパラメータ化するための一般的なフレームワークを提供する方法を示し、勾配に基づく学習をどのように行うかを示す。 その結果、多様体上の正規化フローを構築するための一般的な方法論を定義する。

Normalizing flows are a powerful technique for obtaining reparameterizable samples from complex multimodal distributions. Unfortunately current approaches fall short when the underlying space has a non trivial topology, and are only available for the most basic geometries. Recently normalizing flows in Euclidean space based on Neural ODEs show great promise, yet suffer the same limitations. Using ideas from differential geometry and geometric control theory, we describe how neural ODEs can be extended to smooth manifolds. We show how vector fields provide a general framework for parameterizing a flexible class of invertible mapping on these spaces and we illustrate how gradient based learning can be performed. As a result we define a general methodology for building normalizing flows on manifolds.
翻訳日:2022-11-22 12:40:43 公開日:2020-06-11
# ノイズ発生器付きエンド・ツー・エンドシンクホーンオートエンコーダ

End-to-end Sinkhorn Autoencoder with Noise Generator ( http://arxiv.org/abs/2006.06704v1 )

ライセンス: Link先を確認
Kamil Deja, Jan Dubi\'nski, Piotr Nowak, Sandro Wenzel, Tomasz Trzci\'nski(参考訳) 本研究では,効率的なデータ収集シミュレーションのために,ノイズ発生器を備えた新しいエンドツーエンドシンクホーンオートエンコーダを提案する。 実験データ収集を目的としたプロセスをシミュレートすることは、核医学、天文学、高エネルギー物理学を含む複数の実生活応用に不可欠である。 モンテカルロアルゴリズムのような現代の手法は、計算コストの高い価格で高忠実度結果を提供する。 例えば、ジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Networks)や変分オートエンコーダ(Variational Autoencoder)に基づく生成的アプローチを使用する。 このような方法ははるかに高速だが、トレーニングでは不安定であり、データ分散全体のサンプリングを許可しないことが多い。 このような欠点に対処するために,我々は,エンコードされた実データ例と生成されたノイズの分布を,シンクホーンアルゴリズムを用いて明示的に調整する,エンド・ツー・エンドのシンクホーンオートエンコーダという新しい手法を導入する。 より正確には、既知の分布からのノイズをデータ分布を表すオートエンコーダ潜在空間にマッピングするよう訓練された決定論的ニューラルネットワークを追加することで、オートエンコーダアーキテクチャを拡張する。 モデル全体を共同で最適化する。 提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れている。 MNISTやCelebAといった標準ベンチマークと同様に。

In this work, we propose a novel end-to-end sinkhorn autoencoder with noise generator for efficient data collection simulation. Simulating processes that aim at collecting experimental data is crucial for multiple real-life applications, including nuclear medicine, astronomy and high energy physics. Contemporary methods, such as Monte Carlo algorithms, provide high-fidelity results at a price of high computational cost. Multiple attempts are taken to reduce this burden, e.g. using generative approaches based on Generative Adversarial Networks or Variational Autoencoders. Although such methods are much faster, they are often unstable in training and do not allow sampling from an entire data distribution. To address these shortcomings, we introduce a novel method dubbed end-to-end Sinkhorn Autoencoder, that leverages sinkhorn algorithm to explicitly align distribution of encoded real data examples and generated noise. More precisely, we extend autoencoder architecture by adding a deterministic neural network trained to map noise from a known distribution onto autoencoder latent space representing data distribution. We optimise the entire model jointly. Our method outperforms competing approaches on a challenging dataset of simulation data from Zero Degree Calorimeters of ALICE experiment in LHC. as well as standard benchmarks, such as MNIST and CelebA.
翻訳日:2022-11-22 12:40:31 公開日:2020-06-11
# 列車の一般化の最適化:パラメータとハイパーパラメータを同時に学習する新しい勾配に基づく枠組み

Optimizing generalization on the train set: a novel gradient-based framework to train parameters and hyperparameters simultaneously ( http://arxiv.org/abs/2006.06705v1 )

ライセンス: Link先を確認
Karim Lounici, Katia Meziani, Benjamin Riu(参考訳) 一般化は機械学習の中心的な問題である。 ほとんどの予測方法は、一般化を達成するために保留の \textit{validation} データセット上で実行されるハイパーパラメータの注意深いキャリブレーションを必要とする。 本研究の目的は,新たなリスク尺度に基づく新しい手法を提案することである。 我々は,この新しいフレームワークの回帰問題における関連性について述べる。 この新しいアプローチの主な利点は次のとおりである。 (i) 従来のハイパーパラメータチューニングなしで、すべての利用可能なデータに対して、モデルを同時にトレーニングし、グラデーションベースのオプティマイザの単一実行で正規化することができる。 (ii) このフレームワークは、いくつかの追加目的(相関、疎性、...)を同時に取り組むことができる。 注意すべきは、我々のアプローチはハイパーパラメータチューニングと特徴選択(組合せ離散最適化問題)を古典的勾配法で解ける連続最適化問題に変換することである。 (iii)手法の計算複雑性は$O(npK)$であり,$n,p,K$はそれぞれ勾配降下アルゴリズムの観測数,特徴量,反復数を表す。 実験では,等価な予測スコアのベンチマーク手法と比較して,提案手法のランタイムがはるかに小さいことを観察した。 私たちの手順はPyTorchで実装されています(コードはレプリケーションに使用できます)。

Generalization is a central problem in Machine Learning. Most prediction methods require careful calibration of hyperparameters carried out on a hold-out \textit{validation} dataset to achieve generalization. The main goal of this paper is to present a novel approach based on a new measure of risk that allows us to develop novel fully automatic procedures for generalization. We illustrate the pertinence of this new framework in the regression problem. The main advantages of this new approach are: (i) it can simultaneously train the model and perform regularization in a single run of a gradient-based optimizer on all available data without any previous hyperparameter tuning; (ii) this framework can tackle several additional objectives simultaneously (correlation, sparsity,...) $via$ the introduction of regularization parameters. Noticeably, our approach transforms hyperparameter tuning as well as feature selection (a combinatorial discrete optimization problem) into a continuous optimization problem that is solvable via classical gradient-based methods ; (iii) the computational complexity of our methods is $O(npK)$ where $n,p,K$ denote respectively the number of observations, features and iterations of the gradient descent algorithm. We observe in our experiments a significantly smaller runtime for our methods as compared to benchmark methods for equivalent prediction score. Our procedures are implemented in PyTorch (code is available for replication).
翻訳日:2022-11-22 12:40:10 公開日:2020-06-11
# 逆ラベル雑音による半空間の非凸SGD学習

Non-Convex SGD Learns Halfspaces with Adversarial Label Noise ( http://arxiv.org/abs/2006.06742v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) 分布特異的pacモデルにおける均質な半空間を無知に学習する問題について検討する。 ログ凹分布を含む広い構造分布の族に対して、非凸 SGD は誤分類誤差 $O(\opt)+\eps$ の解に効率よく収束し、$\opt$ は最も適したハーフ空間の誤分類誤差である。 対照的に、任意の凸代理を最適化することは本質的にはガウス境界の下でも$\omega(\opt)$の誤分類誤差をもたらすことを示す。

We study the problem of agnostically learning homogeneous halfspaces in the distribution-specific PAC model. For a broad family of structured distributions, including log-concave distributions, we show that non-convex SGD efficiently converges to a solution with misclassification error $O(\opt)+\eps$, where $\opt$ is the misclassification error of the best-fitting halfspace. In sharp contrast, we show that optimizing any convex surrogate inherently leads to misclassification error of $\omega(\opt)$, even under Gaussian marginals.
翻訳日:2022-11-22 12:39:32 公開日:2020-06-11
# リッジ回帰を用いた深層伝達学習

Deep Transfer Learning with Ridge Regression ( http://arxiv.org/abs/2006.06791v1 )

ライセンス: Link先を確認
Shuai Tang, Virginia R. de Sa(参考訳) 大量のオンラインデータと膨大な計算リソースのおかげで、業界とアカデミアの両方の現在の研究者は、ニューラルネットワークでディープラーニングのパワーを活用できる。 大量のデータでトレーニングされた深層モデルは、関連するドメインから取得できないデータに対する有望な一般化能力を示しているが、微調整の計算コストは、学習を新しいドメインに移す際のボトルネックとなる。 本稿では,deep neural networks (dnns) から生成する学習特徴ベクトルの低ランク特性と,kernel ridge regression (krr) で提供される閉形式解を用いることで,この問題に対処する。 これにより、転送学習を微調整から解放し、より少ないハイパーパラメータを持つ線形システムのアンサンブルに置き換える。 本手法は,教師付きおよび半教師付き転送学習タスクにおいて有効である。

The large amount of online data and vast array of computing resources enable current researchers in both industry and academia to employ the power of deep learning with neural networks. While deep models trained with massive amounts of data demonstrate promising generalisation ability on unseen data from relevant domains, the computational cost of finetuning gradually becomes a bottleneck in transfering the learning to new domains. We address this issue by leveraging the low-rank property of learnt feature vectors produced from deep neural networks (DNNs) with the closed-form solution provided in kernel ridge regression (KRR). This frees transfer learning from finetuning and replaces it with an ensemble of linear systems with many fewer hyperparameters. Our method is successful on supervised and semi-supervised transfer learning tasks.
翻訳日:2022-11-22 12:38:25 公開日:2020-06-11
# 混合整数非線形最適化を用いた記号回帰

Symbolic Regression using Mixed-Integer Nonlinear Optimization ( http://arxiv.org/abs/2006.06813v1 )

ライセンス: Link先を確認
Vernon Austel, Cristina Cornelio, Sanjeeb Dash, Joao Goncalves, Lior Horesh, Tyler Josephson, Nimrod Megiddo(参考訳) シンボリック回帰(SR)問題(英語版)(Symbolic Regression, SR)は、あらかじめ指定された形式を持たず、演算子のリストを構成することができる任意の関数である回帰関数を見つけることを目的としており、理論的にも計算的にも機械学習において難しい問題である。 遺伝的プログラミングに基づく手法は、非常に大きな関数空間をヒューリスティックに探索し、SR問題に対処する最も一般的な方法である。 過去10年間に提案された別の数学的プログラミング手法は、ある目的を最小化する連続および離散変数上の非線形方程式系の解として最適記号表現を表現し、混合整数非線形プログラミング問題の大域的解法を用いてこのシステムを解くことである。 後者のアプローチに基づくアルゴリズムは、しばしば非常に遅い。 本稿では,混合整数非線形最適化と明示的列挙法を組み合わせたハイブリッドアルゴリズムを提案する。 我々のアルゴリズムは、いくつかの合成データセットに対して、最先端のSRソフトウェアと最近の物理学に触発されたAI Feynmanという手法で競合していることを示す。

The Symbolic Regression (SR) problem, where the goal is to find a regression function that does not have a pre-specified form but is any function that can be composed of a list of operators, is a hard problem in machine learning, both theoretically and computationally. Genetic programming based methods, that heuristically search over a very large space of functions, are the most commonly used methods to tackle SR problems. An alternative mathematical programming approach, proposed in the last decade, is to express the optimal symbolic expression as the solution of a system of nonlinear equations over continuous and discrete variables that minimizes a certain objective, and to solve this system via a global solver for mixed-integer nonlinear programming problems. Algorithms based on the latter approach are often very slow. We propose a hybrid algorithm that combines mixed-integer nonlinear optimization with explicit enumeration and incorporates constraints from dimensional analysis. We show that our algorithm is competitive, for some synthetic data sets, with a state-of-the-art SR software and a recent physics-inspired method called AI Feynman.
翻訳日:2022-11-22 12:37:29 公開日:2020-06-11
# ノルムを最適化する各ノルムとその一般化

To Each Optimizer a Norm, To Each Norm its Generalization ( http://arxiv.org/abs/2006.06821v1 )

ライセンス: Link先を確認
Sharan Vaswani, Reza Babanezhad, Jose Gallego-Posada, Aaron Mishkin, Simon Lacoste-Julien, Nicolas Le Roux(参考訳) 過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。 最適化器が既知のノルムを最小化する解に収束するかどうかを決定することは困難であるため、問題を反転させ、補間解によって最小化される対応するノルムが何であるかを調べる。 この推論を用いて、過パラメータ化線形回帰に対して、線形スパンへの射影は異なる補間解の間を移動するために使用できることを示す。 低パラメータ線形分類では、データを分離する任意の線形分類器に対して、二次ノルム || の族が存在することが証明される。 ||_P は、分類器の方向が最大 P-マルジン解の方向と同じである。 線形分類では、標準最大 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより一般化をもたらすことを示す。 さらに、過度パラメータ化線形分類では、データスパンへの投影により、過度パラメータ化設定からのテクニックを利用できる。 経験的側面では、ソリューションを一般化し、テストパフォーマンスを改善するために最適化器をバイアスする手法を提案する。 我々は、合成実験により理論結果を検証し、ニューラルネットワークカーネルを用いて非線形モデルを扱う。

We study the implicit regularization of optimization methods for linear models interpolating the training data in the under-parametrized and over-parametrized regimes. Since it is difficult to determine whether an optimizer converges to solutions that minimize a known norm, we flip the problem and investigate what is the corresponding norm minimized by an interpolating solution. Using this reasoning, we prove that for over-parameterized linear regression, projections onto linear spans can be used to move between different interpolating solutions. For under-parameterized linear classification, we prove that for any linear classifier separating the data, there exists a family of quadratic norms ||.||_P such that the classifier's direction is the same as that of the maximum P-margin solution. For linear classification, we argue that analyzing convergence to the standard maximum l2-margin is arbitrary and show that minimizing the norm induced by the data results in better generalization. Furthermore, for over-parameterized linear classification, projections onto the data-span enable us to use techniques from the under-parameterized setting. On the empirical side, we propose techniques to bias optimizers towards better generalizing solutions, improving their test performance. We validate our theoretical results via synthetic experiments, and use the neural tangent kernel to handle non-linear models.
翻訳日:2022-11-22 12:36:31 公開日:2020-06-11
# Stanza:非定常時系列における確率的推論のための非線形状態空間モデル

Stanza: A Nonlinear State Space Model for Probabilistic Inference in Non-Stationary Time Series ( http://arxiv.org/abs/2006.06553v1 )

ライセンス: Link先を確認
Anna K. Yanchenko and Sayan Mukherjee(参考訳) 長期構造を持つ時系列は様々な文脈で発生し、この時間構造を捉えることは、推論と予測設定の両方において、時系列解析において重要な課題である。 伝統的に、状態空間モデルは潜在空間における軌道の不確実性推定に成功している。 最近では、深層学習、注目に基づくアプローチがシーケンスモデリングの最先端技術を実現しているが、それを行うには大量のデータとパラメータが必要となることが多い。 本研究では,非線形非定常状態空間モデルであるStanzaを提案する。 スタンザは競争予測精度と高度に構造化された時系列に対する確率論的、解釈可能な推論のバランスをとる。 特にStanzaは,実世界のデータセット上での深層LSTMと競合する予測精度を実現している。

Time series with long-term structure arise in a variety of contexts and capturing this temporal structure is a critical challenge in time series analysis for both inference and forecasting settings. Traditionally, state space models have been successful in providing uncertainty estimates of trajectories in the latent space. More recently, deep learning, attention-based approaches have achieved state of the art performance for sequence modeling, though often require large amounts of data and parameters to do so. We propose Stanza, a nonlinear, non-stationary state space model as an intermediate approach to fill the gap between traditional models and modern deep learning approaches for complex time series. Stanza strikes a balance between competitive forecasting accuracy and probabilistic, interpretable inference for highly structured time series. In particular, Stanza achieves forecasting accuracy competitive with deep LSTMs on real-world datasets, especially for multi-step ahead forecasting.
翻訳日:2022-11-22 10:12:49 公開日:2020-06-11
# NADS:不確実性認識のためのニューラルネットワーク分布探索

NADS: Neural Architecture Distribution Search for Uncertainty Awareness ( http://arxiv.org/abs/2006.06646v1 )

ライセンス: Link先を確認
Randy Ardywibowo, Shahin Boluki, Xinyu Gong, Zhangyang Wang, Xiaoning Qian(参考訳) 機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。 MLシステムにとって、予測の不確実性を正確に定量化し、これらの異常な入力を検査することが重要となる。 しかし、既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。 標準的な学習タスクとは異なり、不確実性を正確に定量化できるood検出アーキテクチャを設計するための確立された指針は存在しない。 これらの問題に対処するため,我々はまず,ニューラル・アーキテクチャ分布探索(nads)を提案することにより,不確実性を認識するアーキテクチャを設計するための指針を特定する。 NADSは、与えられたタスクでよく機能するアーキテクチャの分布を探索し、不確実性を認識したすべてのアーキテクチャの中で共通のビルディングブロックを識別する。 この定式化により,確率的ood検出目標を最適化し,ood検出を行うモデルのアンサンブルを構築することができる。 我々は複数のOoD検出実験を行い、15の異なるテスト構成の最先端手法と比較して最大57%の精度でNADSが良好に動作することを観察した。

Machine learning (ML) systems often encounter Out-of-Distribution (OoD) errors when dealing with testing data coming from a distribution different from training data. It becomes important for ML systems in critical applications to accurately quantify its predictive uncertainty and screen out these anomalous inputs. However, existing OoD detection approaches are prone to errors and even sometimes assign higher likelihoods to OoD samples. Unlike standard learning tasks, there is currently no well established guiding principle for designing OoD detection architectures that can accurately quantify uncertainty. To address these problems, we first seek to identify guiding principles for designing uncertainty-aware architectures, by proposing Neural Architecture Distribution Search (NADS). NADS searches for a distribution of architectures that perform well on a given task, allowing us to identify common building blocks among all uncertainty-aware architectures. With this formulation, we are able to optimize a stochastic OoD detection objective and construct an ensemble of models to perform OoD detection. We perform multiple OoD detection experiments and observe that our NADS performs favorably, with up to 57% improvement in accuracy compared to state-of-the-art methods among 15 different testing configurations.
翻訳日:2022-11-22 10:10:27 公開日:2020-06-11
# 先行計算精神医学データ駆動アプローチプロジェクトでの誤りと臨床実践におけるこれらの発見の翻訳の難解化について

On mistakes we made in prior Computational Psychiatry Data driven approach projects and how they jeopardize translation of those findings in clinical practice ( http://arxiv.org/abs/2006.06418v1 )

ライセンス: Link先を確認
Milena \v{C}uki\'c Radenkovi\'c, David Pokrajac, Victoria Lopez(参考訳) 機能選択が不可欠であることを示すために,7種類の機械学習モデルの性能比較を行った後,本手法と結果と,他の研究者の論文との比較を行った。 最後に、この有用な分類ソリューションを高い精度とより良い受容度で臨床実践に翻訳できるように、最適な実践を要約する。

After performing comparison of the performance of seven different machine learning models on detection depression tasks to show that the choice of features is essential, we compare our methods and results with the published work of other researchers. In the end we summarize optimal practices in order that this useful classification solution can be translated to clinical practice with high accuracy and better acceptance.
翻訳日:2022-11-22 10:02:05 公開日:2020-06-11
# dnf-net: 表データのためのニューラルネットワーク

DNF-Net: A Neural Architecture for Tabular Data ( http://arxiv.org/abs/2006.06465v1 )

ライセンス: Link先を確認
Ami Abutbul, Gal Elidan, Liran Katzir, Ran El-Yaniv(参考訳) ディープラーニングにおける挑戦的なオープンな質問は、表データの扱い方だ。 深いアーキテクチャが一般的である画像や自然言語処理のようなドメインとは異なり、表データを支配するニューラルネットワークは広く受け入れられていない。 このギャップを埋める第一歩として、誘導バイアスがアフィン軟閾値決定項上の解法正規形式(DNF)の論理ブール式に対応するモデルを引き出す新しい汎用アーキテクチャDNF-Netを提案する。 さらに、DNF-Netは、機能の小さなサブセットよりも、ローカライズされた決定を促進する。 本研究では, DNF-Nets が表層データよりも大きく, 一貫して FCN を上回っていることを示す実験的検討を行った。 比較的少数のハイパーパラメータにより、DNF-Netはニューラルネットワークを使用して表データの実用的なエンドツーエンド処理の扉を開く。 本稿では,DNF-Netの設計選択,すなわちブール定式化,局所性,特徴選択を含む3つの帰納バイアス要素を正当化するアブレーション研究について述べる。

A challenging open question in deep learning is how to handle tabular data. Unlike domains such as image and natural language processing, where deep architectures prevail, there is still no widely accepted neural architecture that dominates tabular data. As a step toward bridging this gap, we present DNF-Net a novel generic architecture whose inductive bias elicits models whose structure corresponds to logical Boolean formulas in disjunctive normal form (DNF) over affine soft-threshold decision terms. In addition, DNF-Net promotes localized decisions that are taken over small subsets of the features. We present an extensive empirical study showing that DNF-Nets significantly and consistently outperform FCNs over tabular data. With relatively few hyperparameters, DNF-Nets open the door to practical end-to-end handling of tabular data using neural networks. We present ablation studies, which justify the design choices of DNF-Net including the three inductive bias elements, namely, Boolean formulation, locality, and feature selection.
翻訳日:2022-11-22 10:01:57 公開日:2020-06-11
# 内部状態の時間的結合による貯留層計算のモデルサイズ削減

Model-Size Reduction for Reservoir Computing by Concatenating Internal States Through Time ( http://arxiv.org/abs/2006.06218v1 )

ライセンス: Link先を確認
Yusuke Sakemi, Kai Morino, Timoth\'ee Leleu, Kazuyuki Aihara(参考訳) Reservoir Computing (RC) は「Reservoirs」と呼ばれるニューロンのランダムネットワークのような高次元力学系を用いてデータから複雑な時系列を高速に学習できる機械学習アルゴリズムである。 エッジコンピューティングにRCを実装するためには,RCに必要な計算資源の削減が重要である。 本研究では, 貯水池の過去状態や漂流状態を現在の時間ステップで出力層に入力することにより, 貯水池の大きさを小さくする手法を提案する。 提案手法は,Dambreらによって2012年に提案されたRCの性能指標である情報処理能力に基づいて解析される。 さらに,提案手法が時系列予測タスク(一般化Henon-map と NARMA)における有効性を評価する。 これらの課題により,提案手法は回帰誤差を大きく増加させることなく,貯水池のサイズを10分の1まで削減できることがわかった。 提案手法の応用は貯水池の特定のネットワーク構造に限定されないため,提案手法はFPGAやフォトニックシステムなどのRC系システムのエネルギー効率をさらに向上させることができる。

Reservoir computing (RC) is a machine learning algorithm that can learn complex time series from data very rapidly based on the use of high-dimensional dynamical systems, such as random networks of neurons, called "reservoirs." To implement RC in edge computing, it is highly important to reduce the amount of computational resources that RC requires. In this study, we propose methods that reduce the size of the reservoir by inputting the past or drifting states of the reservoir to the output layer at the current time step. These proposed methods are analyzed based on information processing capacity, which is a performance measure of RC proposed by Dambre et al. (2012). In addition, we evaluate the effectiveness of the proposed methods on time-series prediction tasks: the generalized Henon-map and NARMA. On these tasks, we found that the proposed methods were able to reduce the size of the reservoir up to one tenth without a substantial increase in regression error. Because the applications of the proposed methods are not limited to a specific network structure of the reservoir, the proposed methods could further improve the energy efficiency of RC-based systems, such as FPGAs and photonic systems.
翻訳日:2022-11-22 09:55:24 公開日:2020-06-11
# 離散値正規化流れの潜時変換

Latent Transformations for Discrete-Data Normalising Flows ( http://arxiv.org/abs/2006.06346v1 )

ライセンス: Link先を確認
Rob Hesselink and Wilker Aziz(参考訳) 離散データに対する正規化フロー(nfs)は、離散変数の単射変換のパラメータ化は離散/整数パラメータの予測を必要とするため、難しい。 ニューラルネットワークアーキテクチャが離散パラメータを予測するには、勾配に基づく学習を妨げる非微分不可能なアクティベーション関数(ステップ関数など)が必要となる。 この非微分可能性を回避するために、以前の研究ではストレートスルー推定器のようなバイアス付きプロキシ勾配を採用していた。 我々は、ある変換を決定論的にパラメータ化するのではなく、潜在変換よりも分布を予測できる非バイアスの代替案を提案する。 確率変換では、データの限界確率は微分可能であり、スコア関数の推定によって勾配に基づく学習が可能となる。 離散データNFの生存可能性をテストするために,バイナリMNISTの性能について検討する。 決定論的プロキシ勾配と偏りのないスコア関数推定の両方で大きな課題を観測する。 前者は浅い変換を学ばないことが多いが、後者の分散はより深いNFを受け入れるのに十分制御できない。

Normalising flows (NFs) for discrete data are challenging because parameterising bijective transformations of discrete variables requires predicting discrete/integer parameters. Having a neural network architecture predict discrete parameters takes a non-differentiable activation function (eg, the step function) which precludes gradient-based learning. To circumvent this non-differentiability, previous work has employed biased proxy gradients, such as the straight-through estimator. We present an unbiased alternative where rather than deterministically parameterising one transformation, we predict a distribution over latent transformations. With stochastic transformations, the marginal likelihood of the data is differentiable and gradient-based learning is possible via score function estimation. To test the viability of discrete-data NFs we investigate performance on binary MNIST. We observe great challenges with both deterministic proxy gradients and unbiased score function estimation. Whereas the former often fails to learn even a shallow transformation, the variance of the latter could not be sufficiently controlled to admit deeper NFs.
翻訳日:2022-11-22 09:53:58 公開日:2020-06-11
# SLIC-UAV:UAVを用いたシグネチャ種の同定による熱帯復興事業の復旧監視手法

SLIC-UAV: A Method for monitoring recovery in tropical restoration projects through identification of signature species using UAVs ( http://arxiv.org/abs/2006.06624v1 )

ライセンス: Link先を確認
Jonathan Williams, Carola-Bibiane Sch\"onlieb, Tom Swinfield, Bambang Irawan, Eva Achmad, Muhammad Zudhi, Habibi, Elva Gemita, David A. Coomes(参考訳) 森林伐採は熱帯地域の400万平方キロメートルをカバーし、気候変動の最悪の影響を避けるためにはこれらの森林の修復が不可欠だが、回復のモニタリングは難しい。 視覚的に識別可能な早期後継種の存在度を追跡することで、後続的地位を保ち、回復の進捗を評価することができる。 ここでは,非有人航空車両(UAV)の画像を処理し,熱帯林の早生種を地図化するための新しいパイプラインであるSLIC-UAVを紹介する。 パイプラインは以下から成り立っている。 (a)UAV画像から冠をラベル付けするための時間効率のよいアプローチ (b)個々の樹冠のスペクトル的・テクスチャ的特徴に基づく種の機械学習、 (c) 単純線形反復クラスタリング(SLIC)を用いて, 正弦波UAV画像を「スーパーピクセル」に自動分割する。 スーパーピクセルの作成はデータセットの次元を減少させ、予測をピクセルのクラスタに集中させ、精度を大幅に向上させる。 SLIC-UAVを実証するために、インドネシアの修復譲歩において、支持ベクターマシンとランダム森林を用いてハンドラベリングクラウンの種類を予測した。 ランダム林はクラウン全体の識別において最も正確であり、5つの共通種をマッピングすると79.3%、最も視覚的に識別可能な3種をマッピングすると90.5%である。 対照的に、サポートベクターマシンは自動的に分割されたスーパーピクセルのラベル付けに優れており、精度は74.3%から91.7%である。 モデルは100ヘクタールの森林に種をマッピングするために拡張された。 本研究は,熱帯林の復元地域における遷移段階の指標として,Slic-UAVの特有な優占樹種をマッピングする能力を示す。 プロジェクト管理の可利用性を改善するため、実装が容易で低コストな技術を開発するためには、継続的な努力が必要である。

Logged forests cover four million square kilometres of the tropics and restoring these forests is essential if we are to avoid the worst impacts of climate change, yet monitoring recovery is challenging. Tracking the abundance of visually identifiable, early-successional species enables successional status and thereby restoration progress to be evaluated. Here we present a new pipeline, SLIC-UAV, for processing Unmanned Aerial Vehicle (UAV) imagery to map early-successional species in tropical forests. The pipeline is novel because it comprises: (a) a time-efficient approach for labelling crowns from UAV imagery; (b) machine learning of species based on spectral and textural features within individual tree crowns, and (c) automatic segmentation of orthomosaiced UAV imagery into 'superpixels', using Simple Linear Iterative Clustering (SLIC). Creating superpixels reduces the dataset's dimensionality and focuses prediction onto clusters of pixels, greatly improving accuracy. To demonstrate SLIC-UAV, support vector machines and random forests were used to predict the species of hand-labelled crowns in a restoration concession in Indonesia. Random forests were most accurate at discriminating species for whole crowns, with accuracy ranging from 79.3% when mapping five common species, to 90.5% when mapping the three most visually-distinctive species. In contrast, support vector machines proved better for labelling automatically segmented superpixels, with accuracy ranging from 74.3% to 91.7% for the same species. Models were extended to map species across 100 hectares of forest. The study demonstrates the power of SLIC-UAV for mapping characteristic early-successional tree species as an indicator of successional stage within tropical forest restoration areas. Continued effort is needed to develop easy-to-implement and low-cost technology to improve the affordability of project management.
翻訳日:2022-11-22 09:46:40 公開日:2020-06-11
# 低ランク行列推定によるサンプル効率強化学習

Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation ( http://arxiv.org/abs/2006.06135v1 )

ライセンス: Link先を確認
Devavrat Shah, Dogyoon Song, Zhi Xu, Yuzhe Yang(参考訳) 生成モデルの下で連続状態と動作空間を用いた強化学習をサンプルとして,$q$-function を効率的に学習する問題を考える。 もし$q$-関数がリプシッツ連続であるなら、$\epsilon$-optimal $q$-関数を推定する最小サンプル複雑性は、古典的非パラメトリック学習理論に対して${\omega}(\frac{1}{\epsilon^{d_1+d_2+2}})$と計算される。 Q$-函数は核と見なすとヒルベルト・シュミット作用素を誘導し、従って二乗可換スペクトルを持つ。 これは、すべてのリプシッツ$Q$-函数を$r \to \infty$として含む「ランク」$r$でパラメトリックな$Q$-函数のパラメトリッククラスを考える動機である。 我々の重要な貢献として、最適な$q$-関数がランク$r$で、ディスカウント係数$\gamma$が一定のしきい値以下である場合に、$\widetilde{o}(\frac{1}{\epsilon^{\max(d_1, d_2)+2}})のサンプル複雑性を持つ$\epsilon$-optimal $q$-functionを求める単純な反復学習アルゴリズムを開発した。 これにより、サンプルの複雑さが指数関数的に向上する。 この結果を実現するために,任意の有界雑音が存在する場合でも,未知の低ランク行列を$\ell_\infty$ senseで忠実に推定する新しい行列推定アルゴリズムを開発した。 いくつかの確率的制御タスクにおける実験結果から,我々の「低ランク」アルゴリズムの有効性が確認された。

We consider the question of learning $Q$-function in a sample efficient manner for reinforcement learning with continuous state and action spaces under a generative model. If $Q$-function is Lipschitz continuous, then the minimal sample complexity for estimating $\epsilon$-optimal $Q$-function is known to scale as ${\Omega}(\frac{1}{\epsilon^{d_1+d_2 +2}})$ per classical non-parametric learning theory, where $d_1$ and $d_2$ denote the dimensions of the state and action spaces respectively. The $Q$-function, when viewed as a kernel, induces a Hilbert-Schmidt operator and hence possesses square-summable spectrum. This motivates us to consider a parametric class of $Q$-functions parameterized by its "rank" $r$, which contains all Lipschitz $Q$-functions as $r \to \infty$. As our key contribution, we develop a simple, iterative learning algorithm that finds $\epsilon$-optimal $Q$-function with sample complexity of $\widetilde{O}(\frac{1}{\epsilon^{\max(d_1, d_2)+2}})$ when the optimal $Q$-function has low rank $r$ and the discounting factor $\gamma$ is below a certain threshold. Thus, this provides an exponential improvement in sample complexity. To enable our result, we develop a novel Matrix Estimation algorithm that faithfully estimates an unknown low-rank matrix in the $\ell_\infty$ sense even in the presence of arbitrary bounded noise, which might be of interest in its own right. Empirical results on several stochastic control tasks confirm the efficacy of our "low-rank" algorithms.
翻訳日:2022-11-22 09:45:54 公開日:2020-06-11
# スパースロジスティック回帰の重み付きラッソ推定:測定誤差による非漸近特性

Weighted Lasso Estimates for Sparse Logistic Regression: Non-asymptotic Properties with Measurement Error ( http://arxiv.org/abs/2006.06136v1 )

ライセンス: Link先を確認
Huamei Huang, Yujing Gao, Huiming Zhang, and Bo Li(参考訳) 高次元システムに興味を持ち、分類性能にフォーカスすると、$\ell_{1}$-penalized logistic regressionが重要かつ普及しています。 しかし、異なる係数のペナルティがすべて同じであり、データとは無関係である場合、ラッソ推定は問題となる可能性がある。 我々はMcDiarmidの不等式による共変量に依存する2種類の重み付きラッソ推定を提案した。 サンプルサイズ$n$ とコ変数の次元$p$ が与えられたとき、提案手法の有限なサンプル挙動と予測器の発散は、$\ell_{1}$-推定誤差や未知パラメータの2乗予測誤差のような非漸近オラクルの不等式によって示される。 シミュレーションデータの重み付けされた推定値と比較し,実データ解析にこれらの手法を適用した。

When we are interested in high-dimensional system and focus on classification performance, the $\ell_{1}$-penalized logistic regression is becoming important and popular. However, the Lasso estimates could be problematic when penalties of different coefficients are all the same and not related to the data. We proposed two types of weighted Lasso estimates depending on covariates by the McDiarmid inequality. Given sample size $n$ and dimension of covariates $p$, the finite sample behavior of our proposed methods with a diverging number of predictors is illustrated by non-asymptotic oracle inequalities such as $\ell_{1}$-estimation error and squared prediction error of the unknown parameters. We compare the performance of our methods with former weighted estimates on simulated data, then apply these methods to do real data analysis.
翻訳日:2022-11-22 09:45:15 公開日:2020-06-11
# 数値ブラックボックス最適化のための動的アルゴリズム選択に向けて:BBOBを事例として

Towards Dynamic Algorithm Selection for Numerical Black-Box Optimization: Investigating BBOB as a Use Case ( http://arxiv.org/abs/2006.06586v1 )

ライセンス: Link先を確認
Diederick Vermetten, Hao Wang, Carola Doerr, Thomas B\"ack(参考訳) 進化計算における最も難しい問題の1つは、与えられた問題に対してよく機能する様々な解法群から選択することである。 このアルゴリズム選択問題は、最適化プロセスの異なる位相が異なる探索動作を必要とするという事実によって複雑である。 これは部分的にアルゴリズム自体によって制御できるが、アルゴリズムの性能には大きな違いがある。 したがって、実行中に設定やアルゴリズム全体をスワップすることは有益である。 機械学習と探索的ランドスケープ分析の長年の進歩は、この動的アルゴリズム構成~〜(dynAC)が、自動的にトレーニングされた設定スケジュールによって最終的に解決されることを期待している。 この作業では、構成ではなく、異なるアルゴリズムの切り替えのみに焦点を当てた、よりシンプルなバリエーションを導入することで、dynACの研究を促進することを目指している。 Black Box Optimization Benchmark~(BBOB)プラットフォームからのリッチなデータを用いて、シングルスウィッチ動的アルゴリズムの選択(dynAS)でさえ、大きなパフォーマンス向上をもたらす可能性があることを示す。 また、dynASにおける重要な課題についても論じ、BBOBフレームワークがこれらを克服する上で有用なツールになると論じる。

One of the most challenging problems in evolutionary computation is to select from its family of diverse solvers one that performs well on a given problem. This algorithm selection problem is complicated by the fact that different phases of the optimization process require different search behavior. While this can partly be controlled by the algorithm itself, there exist large differences between algorithm performance. It can therefore be beneficial to swap the configuration or even the entire algorithm during the run. Long deemed impractical, recent advances in Machine Learning and in exploratory landscape analysis give hope that this dynamic algorithm configuration~(dynAC) can eventually be solved by automatically trained configuration schedules. With this work we aim at promoting research on dynAC, by introducing a simpler variant that focuses only on switching between different algorithms, not configurations. Using the rich data from the Black Box Optimization Benchmark~(BBOB) platform, we show that even single-switch dynamic Algorithm selection (dynAS) can potentially result in significant performance gains. We also discuss key challenges in dynAS, and argue that the BBOB-framework can become a useful tool in overcoming these.
翻訳日:2022-11-22 09:37:29 公開日:2020-06-11
# 成長する人工ニューラルネットワーク

Growing Artificial Neural Networks ( http://arxiv.org/abs/2006.06629v1 )

ライセンス: Link先を確認
John Mixter and Ali Akoglu(参考訳) プルーニングは、低SWaPハードウェアに適合するニューラルネットワークのサイズを減らすための正当な方法であるが、ネットワークをトレーニングし、オフラインでプルーニングする必要がある。 本稿では,ニューラルネットワークを低SWaP組み込みハードウェアでトレーニングし,実行可能にするアルゴリズムである人工神経新生(ANG)を提案する。 ANGはトレーニングデータを使用して、実際のトレーニングが行われる前にレイヤ間の重要な接続を決定する。 我々の実験では、61,160重量で98.74%の精度を達成できるベースラインニューラルネットワークとして改良されたLeNet-5を使用しました。 ANG成長ネットワークは、21,211重量の試験精度が98.80%に達する。

Pruning is a legitimate method for reducing the size of a neural network to fit in low SWaP hardware, but the networks must be trained and pruned offline. We propose an algorithm, Artificial Neurogenesis (ANG), that grows rather than prunes the network and enables neural networks to be trained and executed in low SWaP embedded hardware. ANG accomplishes this by using the training data to determine critical connections between layers before the actual training takes place. Our experiments use a modified LeNet-5 as a baseline neural network that achieves a test accuracy of 98.74% using a total of 61,160 weights. An ANG grown network achieves a test accuracy of 98.80% with only 21,211 weights.
翻訳日:2022-11-22 09:37:08 公開日:2020-06-11
# 衝突センシングのための補完視覚神経系モデル

Complementary Visual Neuronal Systems Model for Collision Sensing ( http://arxiv.org/abs/2006.06431v1 )

ライセンス: Link先を確認
Qinbing Fu and Shigang Yue(参考訳) 昆虫の視覚脳に着想を得た本論文は,リアルタイムかつロバストな衝突センシングのための相補的な視覚ニューロン系モデルのオリジナルモデルを提案する。 広視野運動感受性ニューロンの2つのカテゴリ、すなわち、ロカストのlobula giant movement detectors(lgmds)とハエのlobula plate tangential cells(lptcs)が集中的に研究されている。 LGMDは衝突を脅かす深さの物体に特定の選択性を持つが、LPTCは水平方向と垂直方向の物体にのみ敏感である。 ロボットのシナリオを含む様々な視覚シーンでモデル化され応用されているが、協調して機能する際の補完機能や選択性についてはほとんど研究されていない。 高速衝突知覚を専門とする2つのLGMD(LGMD-1とLGMD-2)と水平(左右)感度LPTC(LPTC-RとLPTC-L)を組み合わせたハイブリッドモデルを提案する。 異なる活性化ニューロン間の協調と競合により、前頭側接近刺激による近接特性は、翻訳運動や後退運動を抑えることにより大きく改善される。 提案手法は組込みシステムとして地上マイクロ移動ロボットに実装されている。 複数ロボット実験により,前頭衝突センシングモデルの有効性とロバスト性が実証された。

Inspired by insects' visual brains, this paper presents original modelling of a complementary visual neuronal systems model for real-time and robust collision sensing. Two categories of wide-field motion sensitive neurons, i.e., the lobula giant movement detectors (LGMDs) in locusts and the lobula plate tangential cells (LPTCs) in flies, have been studied, intensively. The LGMDs have specific selectivity to approaching objects in depth that threaten collision; whilst the LPTCs are only sensitive to translating objects in horizontal and vertical directions. Though each has been modelled and applied in various visual scenes including robot scenarios, little has been done on investigating their complementary functionality and selectivity when functioning together. To fill this vacancy, we introduce a hybrid model combining two LGMDs (LGMD-1 and LGMD-2) with horizontally (rightward and leftward) sensitive LPTCs (LPTC-R and LPTC-L) specialising in fast collision perception. With coordination and competition between different activated neurons, the proximity feature by frontal approaching stimuli can be largely sharpened up by suppressing translating and receding motions. The proposed method has been implemented in ground micro-mobile robots as embedded systems. The multi-robot experiments have demonstrated the effectiveness and robustness of the proposed model for frontal collision sensing, which outperforms previous single-type neuron computation methods against translating interference.
翻訳日:2022-11-22 09:36:05 公開日:2020-06-11
# Emora STDM: 対話システム開発のための多言語フレームワーク

Emora STDM: A Versatile Framework for Innovative Dialogue System Development ( http://arxiv.org/abs/2006.06143v1 )

ライセンス: Link先を確認
James D. Finch and Jinho D. Choi(参考訳) 本稿では、チャットベースの対話マネージャの迅速なプロトタイピングと複雑な対話の協調開発のための新しいワークフローを提供する対話システム開発フレームワークであるEmora STDM(State Transition Dialogue Manager)を紹介する。 我々のフレームワークは、状態マシンと情報状態という2つの一般的なアプローチと対話管理との相互運用性をサポートすることで、幅広い専門レベルに到達します。 私たちの自然言語表現パッケージは、パターンマッチング、カスタムNLPモジュール、データベースクエリのシームレスな統合を可能にし、ワークフローをより効率的にします。 本研究では,この枠組みを,技術系と非技術系の両方の学生が短期間で創造的な対話マネージャを育成できる学際的な学部間授業に適用する。

This demo paper presents Emora STDM (State Transition Dialogue Manager), a dialogue system development framework that provides novel workflows for rapid prototyping of chat-based dialogue managers as well as collaborative development of complex interactions. Our framework caters to a wide range of expertise levels by supporting interoperability between two popular approaches, state machine and information state, to dialogue management. Our Natural Language Expression package allows seamless integration of pattern matching, custom NLP modules, and database querying, that makes the workflows much more efficient. As a user study, we adopt this framework to an interdisciplinary undergraduate course where students with both technical and non-technical backgrounds are able to develop creative dialogue managers in a short period of time.
翻訳日:2022-11-22 09:35:38 公開日:2020-06-11
# 視覚の可視化と理解

Visualizing and Understanding Vision System ( http://arxiv.org/abs/2006.11413v1 )

ライセンス: Link先を確認
Feng Qi, Guanjun Jiang(参考訳) 人間の視覚システムは、オブジェクトのアイデンティティを保存する認識問題にどのように対処するかはほとんど不明である。 本稿では,視覚認識再構成ネットワーク(rrn)を用いて,サルの電気生理学的測定と類似した特性を探索し,その発達,認識,学習,記憶のメカニズムについて検討する。 まず、ネットワーク開発研究において、RCNは、ニューロンタイプ、シナプスおよびアクティベーションパターンの特異性、粗いサリエンスマップ認識の初期段階から、微細構造認識の成熟段階までの視覚的タスクパフォーマンスを特徴とする重要な発達段階を経験する。 数値認識研究において、RRNは、集団ニューロンの応答の協調調整により、様々な観察条件下でオブジェクト不変性表現を維持できることを示した。 そして、このような集団応答は、高次皮質や単純な重み付き和復号器を通じて正確に抽出できる無形物体の識別と特性情報を含んでいた。 学習・学習研究において、既存の機能を損なうことなく学習プロセスを保証し、元のシナプス接続のパターン特異性を保存しながら、シンナプス全体を低等級に調整することで、新しい構造認識を実現する。 この研究は、人間の視覚処理機構の理解と、人間に似たマシンインテリジェンスの開発に役立つ。

How the human vision system addresses the object identity-preserving recognition problem is largely unknown. Here, we use a vision recognition-reconstruction network (RRN) to investigate the development, recognition, learning and forgetting mechanisms, and achieve similar characteristics to electrophysiological measurements in monkeys. First, in network development study, the RRN also experiences critical developmental stages characterized by specificities in neuron types, synapse and activation patterns, and visual task performance from the early stage of coarse salience map recognition to mature stage of fine structure recognition. In digit recognition study, we witness that the RRN could maintain object invariance representation under various viewing conditions by coordinated adjustment of responses of population neurons. And such concerted population responses contained untangled object identity and properties information that could be accurately extracted via high-level cortices or even a simple weighted summation decoder. In the learning and forgetting study, novel structure recognition is implemented by adjusting entire synapses in low magnitude while pattern specificities of original synaptic connectivity are preserved, which guaranteed a learning process without disrupting the existing functionalities. This work benefits the understanding of the human visual processing mechanism and the development of human-like machine intelligence.
翻訳日:2022-11-22 09:34:50 公開日:2020-06-11
# 学習可能なコントローラにおける敵攻撃に対するロバスト性

Robustness to Adversarial Attacks in Learning-Enabled Controllers ( http://arxiv.org/abs/2006.06861v1 )

ライセンス: Link先を確認
Zikang Xiong, Joe Eappen, He Zhu, Suresh Jagannathan(参考訳) サイバー物理システム(CPS)で使用される学習可能なコントローラは、敵の攻撃を受けやすいことが知られている。 このような攻撃は、その動作に応じてコントローラの環境が生成する状態に対する摂動として現れる。 我々は,様々な敵の攻撃を包含する状態摂動を考察し,敵状態を発見するための攻撃計画を記述する。 有効にするためには、これらの攻撃は自然であり、コントローラーが合理的に有意義な応答を期待できる状態をもたらす必要がある。 シールド型防御は,このような摂動に対して制御器のロバスト性を改善する手段であると考える。 我々の防衛戦略は、コントローラと環境を未知のダイナミクスを持つブラックボックスとして扱うことを可能にする。 本研究では,F16航空機の航法制御ループやヒューマノイドロボットの移動制御システムなど,現実的な連続制御領域において,この防御を構築するための2段階のアプローチを提案する。

Learning-enabled controllers used in cyber-physical systems (CPS) are known to be susceptible to adversarial attacks. Such attacks manifest as perturbations to the states generated by the controller's environment in response to its actions. We consider state perturbations that encompass a wide variety of adversarial attacks and describe an attack scheme for discovering adversarial states. To be useful, these attacks need to be natural, yielding states in which the controller can be reasonably expected to generate a meaningful response. We consider shield-based defenses as a means to improve controller robustness in the face of such perturbations. Our defense strategy allows us to treat the controller and environment as black-boxes with unknown dynamics. We provide a two-stage approach to construct this defense and show its effectiveness through a range of experiments on realistic continuous control domains such as the navigation control-loop of an F16 aircraft and the motion control system of humanoid robots.
翻訳日:2022-11-22 09:29:29 公開日:2020-06-11
# 微分埋め込みネットワークを用いた解釈可能可視化

Interpretable Visualizations with Differentiating Embedding Networks ( http://arxiv.org/abs/2006.06640v1 )

ライセンス: Link先を確認
Isaac Robinson(参考訳) 本稿では,新しい教師なしシアムニューラルネットワーク学習レジームと損失関数に基づく可視化アルゴリズムである differentiating embedded networks (den) を提案する。 siameseニューラルネットワークは、データセット内の特定のサンプルペア間の相違点や類似点を見つけ、これらの特徴を使用してデータセットを視覚化可能な低次元空間に埋め込む。 UMAPや$t$-SNEのような既存の視覚化アルゴリズムとは異なり、DENはパラメトリックであり、SHAPのような技術で解釈できる。 denを解釈するために、可視化の上にエンドツーエンドのパラメトリッククラスタリングアルゴリズムを作成し、shapスコアを利用して、サンプル空間のどの特徴が重要なのかを、クラスタに基づいて視覚化で示される構造を理解するために決定する。 DENビジュアライゼーションと、画像やscRNA-seqデータなど、さまざまなデータセット上の既存のテクニックを比較する。 そして,このクラスタリングアルゴリズムは,クラスタ数を事前に把握していないにもかかわらず,芸術の状況と同等に動作し,ファッションマン主義の新たな技術状態を設定する。 最後に,データセットの特徴の識別について述べる。 コードはhttps://github.com/isaacrob/denで利用可能

We present a visualization algorithm based on a novel unsupervised Siamese neural network training regime and loss function, called Differentiating Embedding Networks (DEN). The Siamese neural network finds differentiating or similar features between specific pairs of samples in a dataset, and uses these features to embed the dataset in a lower dimensional space where it can be visualized. Unlike existing visualization algorithms such as UMAP or $t$-SNE, DEN is parametric, meaning it can be interpreted by techniques such as SHAP. To interpret DEN, we create an end-to-end parametric clustering algorithm on top of the visualization, and then leverage SHAP scores to determine which features in the sample space are important for understanding the structures shown in the visualization based on the clusters found. We compare DEN visualizations with existing techniques on a variety of datasets, including image and scRNA-seq data. We then show that our clustering algorithm performs similarly to the state of the art despite not having prior knowledge of the number of clusters, and sets a new state of the art on FashionMNIST. Finally, we demonstrate finding differentiating features of a dataset. Code available at https://github.com/isaacrob/DEN
翻訳日:2022-11-22 09:28:36 公開日:2020-06-11
# 共有領域特徴表現と画像間変換の自動符号化

Auto-Encoding for Shared Cross Domain Feature Representation and Image-to-Image Translation ( http://arxiv.org/abs/2006.11404v1 )

ライセンス: Link先を確認
Safalya Pal(参考訳) 画像から画像への変換はコンピュータビジョンとパターン認識問題のサブセットであり、ドメイン$\mathbf{X}_1$の入力画像とドメイン$\mathbf{X}_2$の出力画像とのマッピングを学習することを目的としています。 現在の方法では、エンコーダ-デコーダ構造を持つニューラルネットワークを用いて、$G:\mathbf{X}_1 \to\mathbf{X}_2$と$G(\mathbf{X}_1)$の像の分布が同一であり、$G(\mathbf{X}_1) = d_G (f_G (\mathbf{X}_1))$と$f_G(\cdot)$がエンコーダと呼ばれ、$d_G(\cdot)$がデコーダと呼ばれるようにマッピングを学習している。 現在、逆写像 $F:\mathbf{X}_2 \to \mathbf{X}_1$ も計算するそのような方法は、別のエンコーダ-デコーダ対 $d_F (f_F (\mathbf{X}_2))$ または少なくとも別のデコーダ $d_F (\cdot)$ を用いる。 本稿では,単一エンコーダ・デコーダアーキテクチャを用いて,複数のドメイン間のクロスドメイン画像・画像変換を行う手法を提案する。 まず、Z_d = f_d (\mathbf{X}_1)$を符号化する潜在ドメインと、Z_c = f_c (\mathbf{X}_1)$を符号化する潜時コンテンツとを演算し、Z_d$を符号化するドメインとZ_c$を符号化するコンテンツとを独立に演算する。 そしてデコーダネットワーク $g(Z_d,Z_c)$ は元のイメージ $\mathbf{\widehat{X}}_1=g(Z_d,Z_c )\approx \mathbf{X}_1$ の再構成を生成する。 理想的には、$Z_d$を符号化するドメインは画像の内容に関する情報を含まず、$Z_c$を符号化するコンテンツは画像の領域に関する情報を含まない。 デコーダの入力の$z_d$を単純にエンコードするドメインを変更することで、このエンコーディングの特性を利用して、ドメイン間のマッピングを見つけます。 $G(\mathbf{X}_1 )=d(f_d (\mathbf{x}_2^i ),f_c (\mathbf{X}_1))$ ここで $\mathbf{x}_2^i$ は $i^{th}$ $\mathbf{X}_2$ の観測である。

Image-to-image translation is a subset of computer vision and pattern recognition problems where our goal is to learn a mapping between input images of domain $\mathbf{X}_1$ and output images of domain $\mathbf{X}_2$. Current methods use neural networks with an encoder-decoder structure to learn a mapping $G:\mathbf{X}_1 \to\mathbf{X}_2$ such that the distribution of images from $\mathbf{X}_2$ and $G(\mathbf{X}_1)$ are identical, where $G(\mathbf{X}_1) = d_G (f_G (\mathbf{X}_1))$ and $f_G (\cdot)$ is referred as the encoder and $d_G(\cdot)$ is referred to as the decoder. Currently, such methods which also compute an inverse mapping $F:\mathbf{X}_2 \to \mathbf{X}_1$ use a separate encoder-decoder pair $d_F (f_F (\mathbf{X}_2))$ or at least a separate decoder $d_F (\cdot)$ to do so. Here we introduce a method to perform cross domain image-to-image translation across multiple domains using a single encoder-decoder architecture. We use an auto-encoder network which given an input image $\mathbf{X}_1$, first computes a latent domain encoding $Z_d = f_d (\mathbf{X}_1)$ and a latent content encoding $Z_c = f_c (\mathbf{X}_1)$, where the domain encoding $Z_d$ and content encoding $Z_c$ are independent. And then a decoder network $g(Z_d,Z_c)$ creates a reconstruction of the original image $\mathbf{\widehat{X}}_1=g(Z_d,Z_c )\approx \mathbf{X}_1$. Ideally, the domain encoding $Z_d$ contains no information regarding the content of the image and the content encoding $Z_c$ contains no information regarding the domain of the image. We use this property of the encodings to find the mapping across domains $G: X\to Y$ by simply changing the domain encoding $Z_d$ of the decoder's input. $G(\mathbf{X}_1 )=d(f_d (\mathbf{x}_2^i ),f_c (\mathbf{X}_1))$ where $\mathbf{x}_2^i$ is the $i^{th}$ observation of $\mathbf{X}_2$.
翻訳日:2022-11-22 09:27:50 公開日:2020-06-11
# 深層学習法を用いた生検画像上の線虫病と環境腸症の診断と解析

Diagnosis and Analysis of Celiac Disease and Environmental Enteropathy on Biopsy Images using Deep Learning Approaches ( http://arxiv.org/abs/2006.06627v1 )

ライセンス: Link先を確認
Kamran Kowsari(参考訳) celiac disease (cd) とenvironmental enteropathy (ee) は栄養失調の一般的な原因であり、正常な小児の発達に悪影響を及ぼす。 どちらも診断に組織生検を必要としており、これらの消化管疾患を区別するために臨床生検画像の解釈が大きな課題となっている。 本研究は,これらの疾患に対する4つの診断手法を提案し,その限界と利点に対処するものである。 まず,CD,EE,および正常生検の診断について検討するが,本診断における主な課題は染色問題である。 この研究で使用されるデータセットは、異なる染色基準を持つ異なるセンターから収集される。 この問題を解決するために,我々はカラーバランスを用いて様々な色でモデルを訓練する。 Random Multimodel Deep Learning (RMDL) アーキテクチャは、染色問題の影響を軽減する別のアプローチとして使われている。 RMDLは異なるアーキテクチャとディープラーニングの構造を組み合わせており、モデルの最終的な出力は多数決に基づいています。 CDは慢性自己免疫疾患であり、遺伝学的に妊娠した子供と成人に影響を及ぼす。 通常、CDはマーシュIからIIIaへと急速に進歩する。 マーシュiiiはiiia (partial villus atrophy)、マーシュiiib (subtotal villous atrophy)、マーシュiiic (total villus atrophy)に分類され、villus atrophyのスペクトルとcrypt hypertrophyおよび上皮内リンパ球の増加を説明する。 本研究の第2部では,CDの異なる段階を診断するための2つの方法を提案する。 最後に,本研究の第3部では,これら2つのステップを階層的医用画像分類(hmic)として組み合わせ,疾患データを階層的に診断するモデルを構築した。

Celiac Disease (CD) and Environmental Enteropathy (EE) are common causes of malnutrition and adversely impact normal childhood development. Both conditions require a tissue biopsy for diagnosis and a major challenge of interpreting clinical biopsy images to differentiate between these gastrointestinal diseases is striking histopathologic overlap between them. In the current study, we propose four diagnosis techniques for these diseases and address their limitations and advantages. First, the diagnosis between CD, EE, and Normal biopsies is considered, but the main challenge with this diagnosis technique is the staining problem. The dataset used in this research is collected from different centers with different staining standards. To solve this problem, we use color balancing in order to train our model with a varying range of colors. Random Multimodel Deep Learning (RMDL) architecture has been used as another approach to mitigate the effects of the staining problem. RMDL combines different architectures and structures of deep learning and the final output of the model is based on the majority vote. CD is a chronic autoimmune disease that affects the small intestine genetically predisposed children and adults. Typically, CD rapidly progress from Marsh I to IIIa. Marsh III is sub-divided into IIIa (partial villus atrophy), Marsh IIIb (subtotal villous atrophy), and Marsh IIIc (total villus atrophy) to explain the spectrum of villus atrophy along with crypt hypertrophy and increased intraepithelial lymphocytes. In the second part of this study, we proposed two ways for diagnosing different stages of CD. Finally, in the third part of this study, these two steps are combined as Hierarchical Medical Image Classification (HMIC) to have a model to diagnose the disease data hierarchically.
翻訳日:2022-11-22 09:26:15 公開日:2020-06-11
# ウイルスの拡散に触発された新しいメタヒューリスティック最適化アルゴリズム

A Novel Meta-Heuristic Optimization Algorithm Inspired by the Spread of Viruses ( http://arxiv.org/abs/2006.06282v1 )

ライセンス: Link先を確認
Zhixi Li and Vincent Tam(参考訳) no-free-lunch定理によると、全ての最適化問題を最適に解くことのできるメタヒューリスティックアルゴリズムは存在しない。 これは多くの研究者が新しい最適化アルゴリズムを継続的に開発する動機となっている。 本稿では,ウイルス拡散最適化(VSO)と呼ばれる,自然に着想を得たメタヒューリスティック最適化アルゴリズムを提案する。 VSOはホスト間のウイルスの拡散を緩やかに模倣し、多くの困難かつ継続的な最適化問題の解決に効果的に適用することができる。 提案したウイルスベースの最適化アルゴリズムとは大きく異なる新しい表現方式とバイラル操作を考案する。 第一に、VSOの各宿主のウイルスRNAは、様々なウイルス操作が、解の質を大幅に向上させるために探索戦略の多様化に寄与する可能性を示す。 さらに、別のコロニーから探索されたオプティマを継承する輸入感染機構を導入し、複雑な問題を解決する際の潜在的なソリューションの未熟化を回避することができる。 VSOは、より良いソリューションを達成するために、発見された最適点周辺の適応的な近傍探索を行うことができる。 さらに、フレキシブルな感染機構により、VSOはすぐに局所的なオプティマから脱出することができる。 有効性と効率性の両方を明確に示すために、VSOはよく知られたベンチマーク関数で批判的に評価される。 さらに、VSOは、ファイナンシャルポートフォリオの最適化と、サポートベクトルマシンのハイパーパラメータの分類問題への最適化を含む、2つの実例を通して、その適用性を検証する。 以上の結果から,VSOは従来の結果や最先端のメタヒューリスティック最適化アルゴリズムと比較して,ソリューション適合性,収束率,スケーラビリティ,信頼性,柔軟性において優れた性能を示した。

According to the no-free-lunch theorem, there is no single meta-heuristic algorithm that can optimally solve all optimization problems. This motivates many researchers to continuously develop new optimization algorithms. In this paper, a novel nature-inspired meta-heuristic optimization algorithm called virus spread optimization (VSO) is proposed. VSO loosely mimics the spread of viruses among hosts, and can be effectively applied to solving many challenging and continuous optimization problems. We devise a new representation scheme and viral operations that are radically different from previously proposed virus-based optimization algorithms. First, the viral RNA of each host in VSO denotes a potential solution for which different viral operations will help to diversify the searching strategies in order to largely enhance the solution quality. In addition, an imported infection mechanism, inheriting the searched optima from another colony, is introduced to possibly avoid the prematuration of any potential solution in solving complex problems. VSO has an excellent capability to conduct adaptive neighborhood searches around the discovered optima for achieving better solutions. Furthermore, with a flexible infection mechanism, VSO can quickly escape from local optima. To clearly demonstrate both its effectiveness and efficiency, VSO is critically evaluated on a series of well-known benchmark functions. Moreover, VSO is validated on its applicability through two real-world examples including the financial portfolio optimization and optimization of hyper-parameters of support vector machines for classification problems. The results show that VSO has attained superior performance in terms of solution fitness, convergence rate, scalability, reliability, and flexibility when compared to those results of the conventional as well as state-of-the-art meta-heuristic optimization algorithms.
翻訳日:2022-11-22 09:10:09 公開日:2020-06-11
# G5: グラフからグラフへの変換とApocalypse学習のためのユニバーサルな Graph-BERT

G5: A Universal GRAPH-BERT for Graph-to-Graph Transfer and Apocalypse Learning ( http://arxiv.org/abs/2006.06183v1 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) 近年の Graph-BERT モデルでは,注目機構に基づいてのみグラフ表現を学習するアプローチが導入された。 GRAPH-BERTは、トレーニング済みのモデルと学習されたグラフ表現を、同じグラフデータセット内のさまざまなタスク間で転送する機会を提供する。 本稿では、異なるグラフデータセットをまたいだグラフ表現学習のための普遍グラフベルトのグラフからグラフへの転送についてさらに検討し、提案モデルはg5と呼ばれる。 g5の学習には、各グラフデータソースの異なる入力と出力の設定と情報分布の違いを適応させるために多くの課題がある。 G5がプラグイン可能なモデルアーキテクチャを導入 (a)各データソースは、独自の入力表現学習コンポーネントで事前処理される。 b) 各出力アプリケーションタスクには,特定の機能コンポーネントも備える。 (c) 入力サイズ統一層と出力表現融合層を介して、このような多様な入力および出力コンポーネントは、それぞれ普遍的なGRAPH-BERTコアコンポーネントと結合する。 G5モデルは、クロスグラフ表現学習と転送の最後の障害を取り除く。 訓練データが非常に少ないグラフソースの場合、他のグラフで事前訓練されたG5モデルは、必要な微調整で表現学習に利用できる。 さらに、G5のアーキテクチャは、トレーニングデータなしで、データソースの教師付き機能分類器を学習することもできます。 このような問題を黙示録学習課題(apocalypse learning task)と呼ぶ。 本稿では,CCCM(Cross-Source Classification Consistency Maximization)とCDR(Cross-Source Dynamic Routing)の2つの異なるラベル推論手法を紹介する。

The recent GRAPH-BERT model introduces a new approach to learning graph representations merely based on the attention mechanism. GRAPH-BERT provides an opportunity for transferring pre-trained models and learned graph representations across different tasks within the same graph dataset. In this paper, we will further investigate the graph-to-graph transfer of a universal GRAPH-BERT for graph representation learning across different graph datasets, and our proposed model is also referred to as the G5 for simplicity. Many challenges exist in learning G5 to adapt the distinct input and output configurations for each graph data source, as well as the information distributions differences. G5 introduces a pluggable model architecture: (a) each data source will be pre-processed with a unique input representation learning component; (b) each output application task will also have a specific functional component; and (c) all such diverse input and output components will all be conjuncted with a universal GRAPH-BERT core component via an input size unification layer and an output representation fusion layer, respectively. The G5 model removes the last obstacle for cross-graph representation learning and transfer. For the graph sources with very sparse training data, the G5 model pre-trained on other graphs can still be utilized for representation learning with necessary fine-tuning. What's more, the architecture of G5 also allows us to learn a supervised functional classifier for data sources without any training data at all. Such a problem is also named as the Apocalypse Learning task in this paper. Two different label reasoning strategies, i.e., Cross-Source Classification Consistency Maximization (CCCM) and Cross-Source Dynamic Routing (CDR), are introduced in this paper to address the problem.
翻訳日:2022-11-22 09:09:43 公開日:2020-06-11
# 深層学習は単純な分類作業に必要か?

Is deep learning necessary for simple classification tasks? ( http://arxiv.org/abs/2006.06730v1 )

ライセンス: Link先を確認
Joseph D. Romano, Trang T. Le, Weixuan Fu, and Jason H. Moore(参考訳) 自動化機械学習(automl)とディープラーニング(dl)は、無数の帰納的学習タスクを解決するために使用される2つの最先端パラダイムである。 彼らの成功にもかかわらず、特定の現実世界の問題の文脈において、あるアプローチを別のアプローチで選択する際のガイダンスはほとんどない。 さらに、AutoMLとDLを同じ分析で統合することで、両方の長所を組み合わせた結果が得られるツールは比較的少ない。 ここでは,これら2つの課題に対処するため, (1.) 高度に特徴付けられた6つの公開データセットのバイナリ分類の文脈において, AutoML と DL の直接比較を行い, (2.) 深部推定を組み込んだ遺伝的プログラミングベースの AutoML の新しいツールを評価する。 以上の結果から,AutoMLはバイナリ分類のための類似データセットで訓練した場合,単純なDL分類器よりも優れているが,DLをAutoMLに統合することで分類性能がさらに向上することが示唆された。 しかし、AutoML+DLパイプラインのトレーニングに要する時間は、多くのアプリケーションでパフォーマンス上の利点を上回るだろう。

Automated machine learning (AutoML) and deep learning (DL) are two cutting-edge paradigms used to solve a myriad of inductive learning tasks. In spite of their successes, little guidance exists for when to choose one approach over the other in the context of specific real-world problems. Furthermore, relatively few tools exist that allow the integration of both AutoML and DL in the same analysis to yield results combining both of their strengths. Here, we seek to address both of these issues, by (1.) providing a head-to-head comparison of AutoML and DL in the context of binary classification on 6 well-characterized public datasets, and (2.) evaluating a new tool for genetic programming-based AutoML that incorporates deep estimators. Our observations suggest that AutoML outperforms simple DL classifiers when trained on similar datasets for binary classification but integrating DL into AutoML improves classification performance even further. However, the substantial time needed to train AutoML+DL pipelines will likely outweigh performance advantages in many applications.
翻訳日:2022-11-22 09:08:31 公開日:2020-06-11
# ReLUネットワークにおけるTangent Space Sensitivityと線形領域の分布

Tangent Space Sensitivity and Distribution of Linear Regions in ReLU Networks ( http://arxiv.org/abs/2006.06780v1 )

ライセンス: Link先を確認
B\'alint Dar\'oczy(参考訳) 最近の論文は、ディープニューラルネットワークが様々な学習問題の効率的なモデルであることを示している。 しかし、それらはしばしば、独立した観測者によって検出できない様々な変化に非常に敏感である。 従来の一般化境界を持つディープニューラルネットワークの理解はいまだ不完全であるため、特定の状態における小さな変化の場合、モデルの振る舞いを捉えるためのいくつかの尺度がある。 本稿では,接空間における逆安定性を考察し,安定性を特徴付けるために接感度を提案する。 我々は、ラベルのない個々の例によって引き起こされるパラメータの変化に関して、特定の種類の安定性に焦点を当てる。 フィードフォワード完全連結relu(rectified linear unit)ネットワークの計算容易な境界と経験的尺度を導出し、ネットワークによって実現される入力空間内の活性化領域の分布に接する感度を接続する。 我々の実験は、単純な境界や測度でさえ経験的一般化ギャップと関連していることを示唆している。

Recent articles indicate that deep neural networks are efficient models for various learning problems. However they are often highly sensitive to various changes that cannot be detected by an independent observer. As our understanding of deep neural networks with traditional generalization bounds still remains incomplete, there are several measures which capture the behaviour of the model in case of small changes at a specific state. In this paper we consider adversarial stability in the tangent space and suggest tangent sensitivity in order to characterize stability. We focus on a particular kind of stability with respect to changes in parameters that are induced by individual examples without known labels. We derive several easily computable bounds and empirical measures for feed-forward fully connected ReLU (Rectified Linear Unit) networks and connect tangent sensitivity to the distribution of the activation regions in the input space realized by the network. Our experiments suggest that even simple bounds and measures are associated with the empirical generalization gap.
翻訳日:2022-11-22 09:08:10 公開日:2020-06-11
# ブラックボックスニューラルネットワークからのユニバーサル摂動の漏洩による画像翻訳ディープフェイクの防止

Protecting Against Image Translation Deepfakes by Leaking Universal Perturbations from Black-Box Neural Networks ( http://arxiv.org/abs/2006.06493v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Sarah Adel Bargal, Stan Sclaroff(参考訳) 本研究では,ブラックボックス画像翻訳深度生成システムの効率的な破壊手法を開発する。 分類モデルとして最初に提案された攻撃のイメージ翻訳式を提示することにより,ブラックボックスのディープフェイク生成の破壊を初めて実証する。 それでも、分類ブラックボックス攻撃の素直な適応は、現実世界における画像翻訳システムに対する不当な数のクエリをもたらす。 本稿では,画像の攻撃に要するクエリ数を著しく削減する,フラストレーションに富んだ,かつ高効率なアルゴリズムLaking Universal Perturbations (LUP)を提案する。 LUPは,(1)従来のブラックボックス攻撃を用いてネットワークを攻撃し,小さなデータセットに対する攻撃を成功させる短いリークフェーズと,(2)その情報を利用してネットワークを攻撃し,効率を向上するエクスプロイトフェーズの2つのフェーズから構成される。 我々の攻撃は、GANimationとStarGANを攻撃するのに必要なクエリの総数を30%削減します。

In this work, we develop efficient disruptions of black-box image translation deepfake generation systems. We are the first to demonstrate black-box deepfake generation disruption by presenting image translation formulations of attacks initially proposed for classification models. Nevertheless, a naive adaptation of classification black-box attacks results in a prohibitive number of queries for image translation systems in the real-world. We present a frustratingly simple yet highly effective algorithm Leaking Universal Perturbations (LUP), that significantly reduces the number of queries needed to attack an image. LUP consists of two phases: (1) a short leaking phase where we attack the network using traditional black-box attacks and gather information on successful attacks on a small dataset and (2) and an exploitation phase where we leverage said information to subsequently attack the network with improved efficiency. Our attack reduces the total number of queries necessary to attack GANimation and StarGAN by 30%.
翻訳日:2022-11-22 09:07:53 公開日:2020-06-11