このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200703となっている論文です。

PDF登録状況(公開日: 20200703)

TitleAuthorsAbstract論文公表日・翻訳日
# 巨大超伝導人工原子を用いた導波管量子力学

Waveguide Quantum Electrodynamics with Giant Superconducting Artificial Atoms ( http://arxiv.org/abs/1912.12233v3 )

ライセンス: Link先を確認
Bharath Kannan, Max Ruckriegel, Daniel Campbell, Anton Frisk Kockum, Jochen Braum\"uller, David Kim, Morten Kjaergaard, Philip Krantz, Alexander Melville, Bethany M. Niedzielski, Antti Veps\"al\"ainen, Roni Winik, Jonilyn Yoder, Franco Nori, Terry P. Orlando, Simon Gustavsson, William D. Oliver(参考訳) 光-物質相互作用のモデルは通常双極子近似を呼び起こし、そこでは原子は相互作用する電磁モードの波長と比較して点のような対象として扱われる。 しかし、原子の大きさとモード波長の比が大きくなると、双極子近似はもはや存在せず、原子は「ジャイアント原子」と呼ばれる。 これまで、巨大原子系の固体デバイスを用いた実験は、短波長表面の音波に干渉する超伝導量子ビットに限られており、原子の性質を単一の周波数で探すだけであった。 ここでは、小さな原子と導波路とを複数の、しかしよく分離された離散的な位置で結合することで、巨大原子を実現する代替アーキテクチャを用いる。 巨大原子の実現により、デバイス設計によって設計できる大きなオンオフ比と結合スペクトルを持つ波長可変原子導波路カップリングが可能となる。 また、小型原子では達成できない導波路効果におけるモードの準連続スペクトルによって媒介される複数の巨大原子間のデコヒーレンスフリー相互作用を示す。 これらの特徴により、このアーキテクチャの量子ビットは、量子ビットと量子ビットの相互作用を維持しながら、保護された構成と放射的な構成を切り替えることができる。

Models of light-matter interactions typically invoke the dipole approximation, within which atoms are treated as point-like objects when compared to the wavelength of the electromagnetic modes that they interact with. However, when the ratio between the size of the atom and the mode wavelength is increased, the dipole approximation no longer holds and the atom is referred to as a "giant atom". Thus far, experimental studies with solid-state devices in the giant-atom regime have been limited to superconducting qubits that couple to short-wavelength surface acoustic waves, only probing the properties of the atom at a single frequency. Here we employ an alternative architecture that realizes a giant atom by coupling small atoms to a waveguide at multiple, but well separated, discrete locations. Our realization of giant atoms enables tunable atom-waveguide couplings with large on-off ratios and a coupling spectrum that can be engineered by device design. We also demonstrate decoherence-free interactions between multiple giant atoms that are mediated by the quasi-continuous spectrum of modes in the waveguide-- an effect that is not possible to achieve with small atoms. These features allow qubits in this architecture to switch between protected and emissive configurations in situ while retaining qubit-qubit interactions, opening new possibilities for high-fidelity quantum simulations and non-classical itinerant photon generation.
翻訳日:2023-06-09 23:27:31 公開日:2020-07-03
# 空洞QEDシステムにおけるマクスウェルの自律的デーモン

Autonomous Maxwell's demon in a cavity QED system ( http://arxiv.org/abs/2001.07445v2 )

ライセンス: Link先を確認
Baldo-Luis Najera-Santos, Patrice A. Camati, Valentin M\'etillon, Michel Brune, Jean-Michel Raimond, Alexia Auff\`eves, Igor Dotsenko(参考訳) 我々は、マクスウェルの自律的なデーモンスキームを提示する。 理論上は閉系における情報交換の観点で分析され、1つのリドバーグ原子と高品質マイクロ波共振器で実験的に実装される。 原子は空洞と相互作用するクビットと、クビット状態に関する情報を運ぶデーモンの両方をシミュレートする。 冷たいキュービットが熱いキャビティを横切る間、デーモンはキャビティモードからのエネルギー吸収を防ぎ、熱力学の第2法則に違反している。 デーモンとキュービットキャビティシステムの相互情報の変化を考慮に入れると、我々が確立し測定する第二法則の一般化された表現が得られる。 最後に, 閉キュービット・キャビティ・デーモン系を考慮し, 一般化された第2法則をユニタリ進化に期待できるエントロピー保存則に再キャストできることを定め, 測定する。

We present an autonomous Maxwell's demon scheme. It is first analysed theoretically in term of information exchange in a closed system and then implemented experimentally with a single Rydberg atom and a high-quality microwave resonator. The atom simulates both a qubit interacting with the cavity, and a demon carrying information on the qubit state. While the cold qubit crosses the hot cavity, the demon prevents energy absorption from the cavity mode, apparently violating the second law of thermodynamics. Taking into account the change of the mutual information between the demon and the qubit-cavity system gives rise to a generalized expression of the second law that we establish and measure. Finally, considering the closed qubit-cavity-demon system, we establish and measure that the generalized second law can be recast into an entropy conservation law, as expected for a unitary evolution.
翻訳日:2023-06-06 11:30:49 公開日:2020-07-03
# 散逸性断熱測定:量子Cram\'{e}r-Rao境界を打ち負かす

Dissipative Adiabatic Measurements: Beating the Quantum Cram\'{e}r-Rao Bound ( http://arxiv.org/abs/2002.00553v2 )

ライセンス: Link先を確認
Da-Jian Zhang and Jiangbin Gong(参考訳) 物理パラメータの任意の測定で達成可能な精度は、qcrb(quantum cram\'{e}r-rao bound)によって基本的に制限される。 ここでは, 強散逸系におけるパラメータ測定を目標として, {\it dissipative adiabatic measurement} と呼ばれる革新的な測定手法を提案し, 理論的に qcrb を打ち負かすことができることを示した。 投射的測定と異なり, より多くの時間を消費するが, 測定状態は崩壊せず, さらに重要なことは, その測定結果として観測対象の期待値が得られたことであり, 興味のパラメータと直接的に結びついている。 このような直接接続は、パラメータの値を測定結果から直接的に抽出することができ、原理的に精度の基本的な制限はない。 我々の発見は量子力学の顕著な洞察を提供するだけでなく、散逸的な量子情報処理にも非常に有用である。

It is challenged only recently that the precision attainable in any measurement of a physical parameter is fundamentally limited by the quantum Cram\'{e}r-Rao Bound (QCRB). Here, targeting at measuring parameters in strongly dissipative systems, we propose an innovative measurement scheme called {\it dissipative adiabatic measurement} and theoretically show that it can beat the QCRB. Unlike projective measurements, our measurement scheme, though consuming more time, does not collapse the measured state and, more importantly, yields the expectation value of an observable as its measurement outcome, which is directly connected to the parameter of interest. Such a direct connection {allows to extract} the value of the parameter from the measurement outcomes in a straightforward manner, with no fundamental limitation on precision in principle. Our findings not only provide a marked insight into quantum metrology but also are highly useful in dissipative quantum information processing.
翻訳日:2023-06-04 20:49:55 公開日:2020-07-03
# 量子場理論の動的論理

Dynamic Logic of Quantum Field Theory ( http://arxiv.org/abs/2002.12203v2 )

ライセンス: Link先を確認
Tsubasa Takagi, Hiroki Hoshina, Masatomi Iizawa and Satoru Saito(参考訳) 量子力学の論理は長い間研究されてきたが、qftの論理は研究されていない。 QFTにおける2つの基本演算子の性質、すなわち生成と消滅演算子の性質は論理学の意味で動的であるため、動的論理の観点を導入することでQFTの論理を定式化する。 QFTの動的論理を定式化した後、QFTにおけるフェルミオン、いわゆる真空状態、ゼロベクトルおよびプロパゲータの動的論理的解釈を与える。 また、タウトロジーの$\top$と矛盾の$\bot$だけが論理の原子式であることも強調する。 最後に、Aharonov-Bohm効果がQFTの動的論理から自然に説明できることを示す。 この論文は動的観点からQFTの論理を研究するための出発点となるはずである。

Although logic of quantum mechanics has been studied for a long time, logic of QFT has not been studied before. We formulate logic of QFT by introducing the perspective of dynamic logic, because the nature of two fundamental operators in QFT, namely creation and annihilation operators, is dynamic in the sense of logic. After we formulate dynamic logic of QFT, we give a dynamic logical interpretation of fermions, the so-called vacuum state, the zero vector and propagators in QFT. We also emphasize that only a tautology $\top$ and a contradiction $\bot$ are atomic formulas of our logic. Finally, we show how Aharonov-Bohm effect can be explained naturally from our dynamic logic of QFT. This paper should be the beginning of studying logic of QFT from a dynamical point of view.
翻訳日:2023-06-01 12:38:03 公開日:2020-07-03
# ストロボスコープ量子光学

Stroboscopic quantum optomechanics ( http://arxiv.org/abs/2003.04361v2 )

ライセンス: Link先を確認
Matteo Brunelli, Daniel Malz, Albert Schliesser, and Andreas Nunnenkamp(参考訳) 短いパルスの列によってストロボスコープで駆動される光機械的キャビティを考える。 パルス間間隔を適宜選択することにより, 機械的消散の有無や中程度の放射線・圧力相互作用においても, 地中冷却と機械的スクイーズを実現できることを示す。 ストロボスコピック・バックアクション・エバジング測定の完全な量子力学的処理を行い,簡単な解析的洞察を与え,スクイーズドメカニカル状態の作成と検証について考察する。 さらに、共役キャビティフィールドに結合した1対の非相互作用メカニカル共振器のストロボスコピック駆動についても検討し、同時に冷却および絡み合いが可能であることを示す。 ストロボスコープ量子光力学は、良いキャビティ限界を超える力学系の計測に基づく量子制御を拡張する。

We consider an optomechanical cavity that is driven stroboscopically by a train of short pulses. By suitably choosing the inter-pulse spacing we show that ground-state cooling and mechanical squeezing can be achieved, even in the presence of mechanical dissipation and for moderate radiation-pressure interaction. We provide a full quantum-mechanical treatment of stroboscopic backaction-evading measurements, for which we give a simple analytic insight, and discuss preparation and verification of squeezed mechanical states. We further consider stroboscopic driving of a pair of non-interacting mechanical resonators coupled to a common cavity field, and show that they can be simultaneously cooled and entangled. Stroboscopic quantum optomechanics extends measurement-based quantum control of mechanical systems beyond the good-cavity limit.
翻訳日:2023-05-30 03:05:59 公開日:2020-07-03
# アーベルゲージ理論のテンソル定式化における連続対称性の離散的側面

Discrete aspects of continuous symmetries in the tensorial formulation of Abelian gauge theories ( http://arxiv.org/abs/2003.10986v3 )

ライセンス: Link先を確認
Yannick Meurice(参考訳) u(1)$対称性を持つ格子モデルの標準特異性と定理は、これらのモデルのテンソル定式化において離散的に再表現される。 運動の連続格子方程式とテンソルの離散選択規則の間の幾何学的類似について説明する。 任意の次元でゲージ不変変換行列を構成する。 極大時間ゲージにおけるゲージ固定版との等価性を示し、離散ガウスの法則が常に強制される方法を説明する。 任意の次元においてガウスの法則を実装するためのノイズロバスト手法を提案する。 ネーターの定理を大域的、局所的、連続的、離散的アベリア対称性に対して再定式化し、それぞれの対称性に対して対応するテンソル冗長性が存在する。 2つの解決可能な場合における周期的境界条件を持つ古典解の半古典近似について論じる。 弱結合限界とポアソン和の後のテンソル定式化との対応を示す。 我々は、量子コンピューティングにおける他のアプローチや含意との関係を簡潔に論じる。

We show that standard identities and theorems for lattice models with $U(1)$ symmetry get re-expressed discretely in the tensorial formulation of these models. We explain the geometrical analogy between the continuous lattice equations of motion and the discrete selection rules of the tensors. We construct a gauge-invariant transfer matrix in arbitrary dimensions. We show the equivalence with its gauge-fixed version in a maximal temporal gauge and explain how a discrete Gauss's law is always enforced. We propose a noise-robust way to implement Gauss's law in arbitrary dimensions. We reformulate Noether's theorem for global, local, continuous or discrete Abelian symmetries: for each given symmetry, there is one corresponding tensor redundancy. We discuss semi-classical approximations for classical solutions with periodic boundary conditions in two solvable cases. We show the correspondence of their weak coupling limit with the tensor formulation after Poisson summation. We briefly discuss connections with other approaches and implications for quantum computing.
翻訳日:2023-05-28 01:06:01 公開日:2020-07-03
# 量子分子ローター基底状態の再構成

Reconstructing quantum molecular rotor ground states ( http://arxiv.org/abs/2003.14273v2 )

ライセンス: Link先を確認
Isaac J.S. De Vlugt, Dmitri Iouchtchenko, Ejaaz Merali, Pierre-Nicholas Roy and Roger G. Melko(参考訳) c$_{60}$のナノ分子集合体は双極子分子を囲むために合成できる。 このようなエンドフレレンの低温状態は、高次元局所ヒルベルト空間を持つ量子情報装置の候補である量子機械回転子によって記述される。 エンドフレレンアレイの実験的探索は、測定データから量子状態を特徴づけ、検証し、再構成するために機械学習技術が急速に採用されている時期に行われた。 本稿では,高次元ヒルベルト空間のデータに基づいて,制限されたボルツマンマシン(RBM)を用いて,双極子ロータの鎖の基底状態の再構築を行う。 自由ローター固有状態に基づくデータに基づくrbmからのエネルギー期待値の正確な生成を実証し,様々な鎖長と双極子相互作用強度に必要な学習資源について検討した。 最後に, サンプリング手順における対称性の付与が困難であることから, RBMが達成できる精度の基本的な限界を示す。 本稿では、量子状態再構成を目的としたリカレントニューラルネットワークなどの自己回帰モデルの開発など、将来この制限を克服する可能性について論じる。

Nanomolecular assemblies of C$_{60}$ can be synthesized to enclose dipolar molecules. The low-temperature states of such endofullerenes are described by quantum mechanical rotors, which are candidates for quantum information devices with higher-dimensional local Hilbert spaces. The experimental exploration of endofullerene arrays comes at a time when machine learning techniques are rapidly being adopted to characterize, verify, and reconstruct quantum states from measurement data. In this paper, we develop a strategy for reconstructing the ground state of chains of dipolar rotors using restricted Boltzmann machines (RBMs) adapted to train on data from higher-dimensional Hilbert spaces. We demonstrate accurate generation of energy expectation values from an RBM trained on data in the free-rotor eigenstate basis, and explore the learning resources required for various chain lengths and dipolar interaction strengths. Finally, we show evidence for fundamental limitations in the accuracy achievable by RBMs due to the difficulty in imposing symmetries in the sampling procedure. We discuss possible avenues to overcome this limitation in the future, including the further development of autoregressive models such as recurrent neural networks for the purposes of quantum state reconstruction.
翻訳日:2023-05-27 07:41:39 公開日:2020-07-03
# 可変極低温マイクロ波空洞における強いマグノン光子結合

Strong magnon-photon coupling within a tunable cryogenic microwave cavity ( http://arxiv.org/abs/2006.01223v2 )

ライセンス: Link先を確認
C.A. Potts and J.P. Davis(参考訳) 強いカップリングを実現する能力により、キャビティ・マグノン系はハイブリッド量子システムの開発と物理学の基本的な問題の研究のためのエキサイティングなプラットフォームとなった。 残念なことに、現在の実験的実現はマイクロ波共振器の形状によって定義される単一の周波数での動作に制限されている。 本稿では,磁気スピンに強く結合した高温マイクロ波空洞について述べる。 キャビティは1.5GHzまで調整できるが、元々の10GHz共振周波数の約15%である。 さらに、このシステムは、約800の協調性を持ち、すべての周波数で強結合状態にある。

The ability to achieve strong-coupling has made cavity-magnon systems an exciting platform for the development of hybrid quantum systems and the investigation of fundamental problems in physics. Unfortunately, current experimental realizations are constrained to operate at a single frequency, defined by the geometry of the microwave cavity. In this article we realize a highly-tunable, cryogenic, microwave cavity strongly coupled to magnetic spins. The cavity can be tuned in situ by up to 1.5 GHz, approximately 15% of its original 10 GHz resonance frequency. Moreover, this system remains within the strong-coupling regime at all frequencies with a cooperativity of approximately 800.
翻訳日:2023-05-17 11:08:01 公開日:2020-07-03
# 医師・外科医における神経技術のヒト増強への応用に関する倫理的分析

Ethical Analysis on the Application of Neurotechnology for Human Augmentation in Physicians and Surgeons ( http://arxiv.org/abs/2006.16925v2 )

ライセンス: Link先を確認
Soaad Hossain, Syed Ishtiaque Ahmed(参考訳) 医師や外科医の不足や新型コロナウイルス(covid-19)パンデミックなどの状況により、世界中で需要が増加する中、この問題に対処するための解決策を見つけることへの関心が高まっている。 この問題に対する解決策は、神経テクノロジーを使って認知、感覚、行動を強化し、最適な診断と治療を行うことである。 そのため、彼らや他の人々に悪影響を及ぼす可能性がある。 我々は、医師や外科医に神経テクノロジーを応用すれば、不正を生じさせ、彼らや患者に害を与える可能性があると論じている。 本稿では,まず,医師や外科医の適切な増補を実現するために使用できる増補と神経工学について述べる。 次に、文献内で議論される選択された倫理的関心事項をレビューし、神経工学を増補目的に使用する上での神経工学を議論し、医療・外科分野における神経工学による人間の増補実施の成果と倫理的課題について分析する。

With the shortage of physicians and surgeons and increase in demand worldwide due to situations such as the COVID-19 pandemic, there is a growing interest in finding solutions to help address the problem. A solution to this problem would be to use neurotechnology to provide them augmented cognition, senses and action for optimal diagnosis and treatment. Consequently, doing so can negatively impact them and others. We argue that applying neurotechnology for human enhancement in physicians and surgeons can cause injustices, and harm to them and patients. In this paper, we will first describe the augmentations and neurotechnologies that can be used to achieve the relevant augmentations for physicians and surgeons. We will then review selected ethical concerns discussed within literature, discuss the neuroengineering behind using neurotechnology for augmentation purposes, then conclude with an analysis on outcomes and ethical issues of implementing human augmentation via neurotechnology in medical and surgical practice.
翻訳日:2023-05-13 00:34:00 公開日:2020-07-03
# cyres --connected and autonomous vehicle (extended abstract) による壊滅的障害の回避

CyRes -- Avoiding Catastrophic Failure in Connected and Autonomous Vehicles (Extended Abstract) ( http://arxiv.org/abs/2006.14890v3 )

ライセンス: Link先を確認
Carsten Maple and Peter Davies and Kerstin Eder and Chris Hankin and Greg Chance and Gregory Epiphaniou(参考訳) 自動車部門における既存のサイバーセキュリティと規制へのアプローチは、高度な車両技術とスマートモビリティシステムの安全な大量展開を保証するために必要な結果の質を達成できない。 持続可能なレジリエンスがなければ、公共の信頼は蒸発し、将来の輸送の効率性、安全性、環境への影響を改善するための新興のグローバルイニシアチブが脱線する。 本稿では,標準化に適した運用型サイバーレジリエンス手法であるCyResを紹介する。 CyResの方法論自体は、裁判所や公的に指名された規制当局によってテストすることができる。 オペレータは、どの証拠が生成されるべきかを理解し、その証拠の品質を測定することができるように設計されている。 得られた証拠は、法廷または公的に任命された規制当局によって試験することができる。 このように、CyRes方法論が適用された現実世界のシステムは、法的に社会的に許容されるネガティブな結果の値で、常にあらゆる場所で運用することができる。

Existing approaches to cyber security and regulation in the automotive sector cannot achieve the quality of outcome necessary to ensure the safe mass deployment of advanced vehicle technologies and smart mobility systems. Without sustainable resilience hard-fought public trust will evaporate, derailing emerging global initiatives to improve the efficiency, safety and environmental impact of future transport. This paper introduces an operational cyber resilience methodology, CyRes, that is suitable for standardisation. The CyRes methodology itself is capable of being tested in court or by publicly appointed regulators. It is designed so that operators understand what evidence should be produced by it and are able to measure the quality of that evidence. The evidence produced is capable of being tested in court or by publicly appointed regulators. Thus, the real-world system to which the CyRes methodology has been applied is capable of operating at all times and in all places with a legally and socially acceptable value of negative consequence.
翻訳日:2023-05-12 11:41:39 公開日:2020-07-03
# スマイルによる量子価格設定:量子コンピュータにおける局所ボラティリティモデルの実装

Quantum Pricing with a Smile: Implementation of Local Volatility Model on Quantum Computer ( http://arxiv.org/abs/2007.01467v1 )

ライセンス: Link先を確認
Kazuya Kaneko, Koichi Miyamoto, Naoyuki Takeda, Kazuyoshi Yoshino(参考訳) モンテカルロシミュレーションにおける量子アルゴリズムの金融デリバティブの価格決定への応用は, 先行研究で議論されている。 しかし、このような論文で論じられている価格モデルはブラック・スコールズ・モデルであり、これは重要だが単純である。 したがって、金融機関で実際に使用されるより複雑なモデルをどのように実装するかを考える動機となっている。 本稿では,基礎となる資産価格のボラティリティが価格と時間に依存する局所変動性(lv)モデルについて考察する。 実装には2つの種類がある。 1つはRN方式で、以前のほとんどの論文で採用されている。 このようにして、資産価格の経路を生成するために必要な乱数(RN)が分離レジスタで生成されるので、必要なキュービット数はRNの数に比例して増加する。 もう1つは PRN-on-a-Register 方式で、著者の以前の研究で提案されている。 これにより、レジスタ上に生成された擬似ランダム数(PRN)のシーケンスを使用して資産価格のパスを生成することにより、回路深さに対するトレードオフで必要なキュービット数を削減できる。 本稿では、これらの2つの実装の回路図を示し、必要なリソースを推定する: qubit number と T-count。

Applications of the quantum algorithm for Monte Carlo simulation to pricing of financial derivatives have been discussed in previous papers. However, up to now, the pricing model discussed in such papers is Black-Scholes model, which is important but simple. Therefore, it is motivating to consider how to implement more complex models used in practice in financial institutions. In this paper, we then consider the local volatility (LV) model, in which the volatility of the underlying asset price depends on the price and time. We present two types of implementation. One is the register-per-RN way, which is adopted in most of previous papers. In this way, each of random numbers (RNs) required to generate a path of the asset price is generated on a separated register, so the required qubit number increases in proportion to the number of RNs. The other is the PRN-on-a-register way, which is proposed in the author's previous work. In this way, a sequence of pseudo-random numbers (PRNs) generated on a register is used to generate paths of the asset price, so the required qubit number is reduced with a trade-off against circuit depth. We present circuit diagrams for these two implementations in detail and estimate required resources: qubit number and T-count.
翻訳日:2023-05-11 18:39:56 公開日:2020-07-03
# 古典的クライアント分散量子コンピューティングのセキュリティ限界

Security Limitations of Classical-Client Delegated Quantum Computing ( http://arxiv.org/abs/2007.01668v1 )

ライセンス: Link先を確認
Christian Badertscher, Alexandru Cojocaru, L\'eo Colisson, Elham Kashefi, Dominik Leichtle, Atul Mantri, Petros Wallden(参考訳) セキュアなデリゲート量子コンピューティングにより、計算的に弱いクライアントは、任意の量子計算をプライバシー保護の方法で信頼できない量子サーバにアウトソースすることができる。 量子計算の古典的デリゲートを達成するための有望な候補の1つは、クライアントが古典的なチャネルを使用して量子状態を作成する古典的クライアントリモート状態準備(RSP_{CC}$)である。 しかし、サブモジュールとして$RSP_{CC}$を採用することで生じるプライバシーの損失は明らかではない。 本稿では,Maurer と Renner による Constructive Cryptography framework (ICS'11) を用いて,この問題を考察する。 まず、古典的なチャンネルからの理想的なRSPリソースの構築として$RSP_{CC}$の目標を特定し、その後、$RSP_{CC}$を使用する際のセキュリティ上の制限を明らかにする。 まず、理想的なRSP資源(古典的なチャネルから)の構築と量子状態のクローン化の課題の基本的な関係を明らかにする。 古典的に構築された理想的なRSPリソースは、たとえ計算セキュリティのみをターゲットにしても、生成された量子状態の完全な古典的記述(おそらくエンコードされた形式で)をサーバに漏らさなければならない。 その結果、共通RSP資源の実現は、その保証を大幅に弱めることなく、非閉定理のため不可能であることが判明した。 第二に、上記の結果は、特定の$RSP_{CC}$プロトコルが、少なくともBroadbentなど(FOCS '09)のUniversal Blind Quantum Computing (UBQC)プロトコルなど、いくつかの文脈で量子チャネルを置き換えることができると結論付けていない。 しかし, UBQCプロトコルはサブルーチンとして$RSP_{CC}$を使用するとすぐに, 構成可能なセキュリティを維持できないことを示す。 第3に、上記ubqcプロトコルの量子チャネルを、cojocaru et al.(asiacrypt '19)の$rsp_{cc}$プロトコルqfactoryで置き換えることで、ubqcの弱いゲームベースのセキュリティを保っていることを示す。

Secure delegated quantum computing allows a computationally weak client to outsource an arbitrary quantum computation to an untrusted quantum server in a privacy-preserving manner. One of the promising candidates to achieve classical delegation of quantum computation is classical-client remote state preparation ($RSP_{CC}$), where a client remotely prepares a quantum state using a classical channel. However, the privacy loss incurred by employing $RSP_{CC}$ as a sub-module is unclear. In this work, we investigate this question using the Constructive Cryptography framework by Maurer and Renner (ICS'11). We first identify the goal of $RSP_{CC}$ as the construction of ideal RSP resources from classical channels and then reveal the security limitations of using $RSP_{CC}$. First, we uncover a fundamental relationship between constructing ideal RSP resources (from classical channels) and the task of cloning quantum states. Any classically constructed ideal RSP resource must leak to the server the full classical description (possibly in an encoded form) of the generated quantum state, even if we target computational security only. As a consequence, we find that the realization of common RSP resources, without weakening their guarantees drastically, is impossible due to the no-cloning theorem. Second, the above result does not rule out that a specific $RSP_{CC}$ protocol can replace the quantum channel at least in some contexts, such as the Universal Blind Quantum Computing (UBQC) protocol of Broadbent et al. (FOCS '09). However, we show that the resulting UBQC protocol cannot maintain its proven composable security as soon as $RSP_{CC}$ is used as a subroutine. Third, we show that replacing the quantum channel of the above UBQC protocol by the $RSP_{CC}$ protocol QFactory of Cojocaru et al. (Asiacrypt '19), preserves the weaker, game-based, security of UBQC.
翻訳日:2023-05-11 18:36:06 公開日:2020-07-03
# 幾何学的スーパーインダクタによる抵抗量子の超越

Surpassing the resistance quantum with a geometric superinductor ( http://arxiv.org/abs/2007.01644v1 )

ライセンス: Link先を確認
M. Peruzzo, A. Trioni, F. Hassani, M. Zemlicka, J. M. Fink(参考訳) 超伝導回路コミュニティは、最近スーパーインダクタの可能性を発見した。 これらの回路素子は抵抗量子$R_\text{Q} \approx 6.45~\text{k}\Omega$を超える特性インピーダンスを持ち、基底状態電荷の変動を抑制する。 応用としては、フォールトトレラント量子コンピューティングのためのハードウェア保護量子ビットの実現、小さな双極子モーメントオブジェクトへの結合の改善、アンペアの新しい量子メトロジー標準の定義などがある。 この論文では、超インダクタは運動的インダクタンス、すなわち不規則超伝導体またはジョセフソン接合アレイを用いてのみ実装できるという広い考えを反論する。 30.9$\text{k}\Omega$を5.6GHzとし、容量を$\leq1$ fFとし、低損失で10^8$のキャビティ光子を有する104平面アルミニウムコイル共振器のモデル化、製造、特性評価を行う。 幾何学的スーパーインダクタは、制御されていないトンネルイベントがなく、高い再現性、線形性、将来の量子回路の範囲を大きく広げる磁気特性を結合する能力を提供する。

The superconducting circuit community has recently discovered the promising potential of superinductors. These circuit elements have a characteristic impedance exceeding the resistance quantum $R_\text{Q} \approx 6.45~\text{k}\Omega$ which leads to a suppression of ground state charge fluctuations. Applications include the realization of hardware protected qubits for fault tolerant quantum computing, improved coupling to small dipole moment objects and defining a new quantum metrology standard for the ampere. In this work we refute the widespread notion that superinductors can only be implemented based on kinetic inductance, i.e. using disordered superconductors or Josephson junction arrays. We present modeling, fabrication and characterization of 104 planar aluminum coil resonators with a characteristic impedance up to 30.9 $\text{k}\Omega$ at 5.6 GHz and a capacitance down to $\leq1$ fF, with low-loss and a power handling reaching $10^8$ intra-cavity photons. Geometric superinductors are free of uncontrolled tunneling events and offer high reproducibility, linearity and the ability to couple magnetically - properties that significantly broaden the scope of future quantum circuits.
翻訳日:2023-05-11 18:35:29 公開日:2020-07-03
# セミディラック半金属の結合状態

Bound states in semi-Dirac semi-metals ( http://arxiv.org/abs/2007.01643v1 )

ライセンス: Link先を確認
David Krejcirik and Pedro. R. S. Antunes(参考訳) 微小な摂動下でのスペクトル安定性特性を解析することにより, 線形分散と2次分散を有するナノ構造の輸送特性に関する新たな知見を得た。 離散固有値の存在を保証するのに物理的に適切で必要条件は、外部場に対するより一般的な仮定の下で導出される。 解析の最も興味深い特徴の1つは、弱結合状態における系の明らかなスペクトル不安定性である。 厳密な理論結果は数値実験によって示され、物理実験の予測が行われる。

New insights into transport properties of nanostructures with a linear dispersion along one direction and a quadratic dispersion along another are obtained by analysing their spectral stability properties under small perturbations. Physically relevant sufficient and necessary conditions to guarantee the existence of discrete eigenvalues are derived under rather general assumptions on external fields. One of the most interesting features of the analysis is the evident spectral instability of the systems in the weakly coupled regime. The rigorous theoretical results are illustrated by numerical experiments and predictions for physical experiments are made.
翻訳日:2023-05-11 18:35:04 公開日:2020-07-03
# 信頼不統一信頼複合一般化状態チャネルに基づくDLT対応決済アダプタの規制

Regulation conform DLT-operable payment adapter based on trustless - justified trust combined generalized state channels ( http://arxiv.org/abs/2007.01605v1 )

ライセンス: Link先を確認
Ricky Lamberty, Alexander Poddey(参考訳) オープン技術、分散計算、インテリジェントアプリケーションは第3世代のWeb、Web 3.0を可能にし、業界全体をデジタル化する。 モノの経済(EoT)は、ピアツーピアの信頼性のないネットワーク上で動作するソフトウェアエージェントに基づいており、プログラマブルで規制された支払い手段を必要とする。 例えば、プライベート発行のstablecoins、dlt発行の電子マネー、本物の暗号通貨などです。 そこで本研究では,信頼の正当化という概念を提示し,暗号ベースの分散信頼レス要素の強みと,この概念に基づく確立された規制された支払い手段とを,セキュアな外部再バランスインターフェースを通じて組み合わせることを提案する。 Combining the advantages, e.g. lightweight, trustless, efficient high frequency micro state transfers on the one hand, and ease of use, widely spread, accepted alignment to a multitude of regulative requirements, on the other hand, while neither leading into a lock-in in any of the proposed solutions, nor undermining the basic principles of the crypto-movement or unnecessarily reinforcing the banking system provides a synergy and the necessary flexibility for further evolution alongside the regulative framework. これは、企業が規制された環境に分散したビジネスオペレーションを配置できるようにするために、短期的に実施可能な規制適合移行ソリューションを提供する。 まず、異なるDLT操作可能な支払い手段を説明し、議論します。 第2に,信頼と正当化を両立した共通状態チャネルを相互に結合した,新たなハイブリッド支払いソリューションを提案する。

Open technologies, decentralized computation and intelligent applications enable the third-generation web, Web 3.0, thereby digitizing whole industries. The emerging Economy of Things (EoT) will be based on software agents running on peer-to-peer trustless networks that require a programmable, regulation conform means of payment. We give an overview of current solutions that differ in their fundamental values and technological possibilities, like e.g. private-issued stablecoins, DLT-issued electronic money and genuine cryptocurrencies. Based on this analysis, we present the concept of justified trust and propose to combine the strengths of the crypto based, decentralized trustless elements with established and well regulated means of payment, based on this concept, via a secure external re-balancing interface. Combining the advantages, e.g. lightweight, trustless, efficient high frequency micro state transfers on the one hand, and ease of use, widely spread, accepted alignment to a multitude of regulative requirements, on the other hand, while neither leading into a lock-in in any of the proposed solutions, nor undermining the basic principles of the crypto-movement or unnecessarily reinforcing the banking system provides a synergy and the necessary flexibility for further evolution alongside the regulative framework. This offers a regulation conform transitional solution that can be implemented in the short term, which enables companies to place their decentralized business operations in a regulated environment. The contribution of our work is twofold: First, we illustrate and discuss different DLT-operable means of payment. Second, our research proposes a novel hybrid payment solution by interfacing trustless with justified trust combined generalized state channels.
翻訳日:2023-05-11 18:34:42 公開日:2020-07-03
# コンテキスト認識推論システムにおけるユーザのプライバシに関する懸念

Users' Concern for Privacy in Context-Aware Reasoning Systems ( http://arxiv.org/abs/2007.01561v1 )

ライセンス: Link先を確認
Matthias Forstmann, Alberto Giaretta, and Jennifer Renoux(参考訳) コンテキスト認識推論システムは、一見無関係なソースからデータを集約することで、ユーザの行動や生理学的な状態に関する高度な推論を可能にする。 これらのシステムによって収集されたデータのプライバシーに関するユーザの懸念を評価するため、一般のオンライン調査を行った。 その結果, 環境センサが収集したデータに第三者がアクセスすることを, 生理学的センサに比べて懸念していることがわかった。 参加者はまた、親密な第三者(例えば、親族)とは対照的に、親密な第三者(例えば、民間企業)に対する大きな懸念を示した。 さらに、これらの懸念は予測され、(ある程度は)これらの種類のデータからどれだけ推測できるのかという人々の信念と、コンピュータ科学のバックグラウンドによって因果的に影響を受けることが判明した。

Context-aware reasoning systems allow drawing sophisticated inferences about users' behaviour and physiological condition, by aggregating data from seemingly unrelated sources. We conducted a general population online survey to evaluate users' concern about the privacy of data gathered by these systems. We found that people are more concerned about third parties accessing data gathered by environmental sensors as compared to physiological sensors. Participants also indicated greater concern about unfamiliar third parties (e.g., private companies) as opposed to familiar third parties (e.g., relatives). We further found that these concerns are predicted and (to a lesser degree) causally affected by people's beliefs about how much can be inferred from these types of data, as well as by their background in computer science.
翻訳日:2023-05-11 18:33:37 公開日:2020-07-03
# AWS上のWordPress:コミュニケーションフレームワーク

WordPress on AWS: a Communication Framework ( http://arxiv.org/abs/2007.01823v1 )

ライセンス: Link先を確認
Michael Soltys and Katharine Soltys(参考訳) どの組織もオーディエンスとコミュニケーションを取る必要があり、ソーシャルメディアは対話的なコミュニケーションを維持するための魅力的で安価な方法です。 インターネットのWebページの約1/3はWordPressを使っており、約100万の企業が自社のITインフラストラクチャをAWSクラウドに移行している。 AWSとWordPressは共に、大企業でも小企業でも、Web上のプレゼンスを維持するための魅力的な、効果的で安価な方法を提供している。

Every organization needs to communicate with its audience, and social media is an attractive and inexpensive way to maintain dialogic communication. About 1/3 of the Internet web pages are powered by WordPress, and about a million companies have moved their IT infrastructure to the AWS cloud. Together, AWS and WordPress offer an attractive, effective and inexpensive way for companies, both large and small, to maintain their presence on the web.
翻訳日:2023-05-11 18:25:30 公開日:2020-07-03
# 一次元格子における普遍二量化量子滴

Universal dimerized quantum droplets in a one-dimensional lattice ( http://arxiv.org/abs/2007.01786v1 )

ライセンス: Link先を確認
Ivan Morera, Grigori E. Astrakharchik, Artur Polls, and Bruno Juli\'a-D\'iaz(参考訳) 1次元光学格子における2成分ボソニック混合物の基底状態特性を,少数・多体両面から検討した。 我々は、量子液体の形成を示すために、魅力的な成分間相互作用と反発的成分内相互作用を持つ微視的ハミルトニアンに直接依存する。 その結果,その生成と安定性は,ディマー間の有限次元相互作用の観点から解釈できることがわかった。 実数体と多体の両方を正しく捕捉し、dmrg法によって得られた完全なハミルトニアンに対する正確な結果に対して検証する合成ボソン(ダイマー)の有効モデルを得る。 液体形成のしきい値は、二量二量体問題における境界状態の出現と一致し、二量二量体相互作用の2体パラメータ、すなわち散乱長と有効範囲の普遍性を有する。 十分に強い効果を持つ二量体-二量体反発に対しては、効果的なトンクス・ジラード状態を形成する二量体のフェルミオン化を観察する。 最後に, ソリトニック溶液の形成条件を明らかにする。

The ground-state properties of two-component bosonic mixtures in a one-dimensional optical lattice are studied both from few- and many-body perspectives. We rely directly on a microscopic Hamiltonian with attractive inter-component and repulsive intra-component interactions to demonstrate the formation of a quantum liquid. We reveal that its formation and stability can be interpreted in terms of finite-range interactions between dimers. We derive an effective model of composite bosons (dimers) which correctly captures both the few- and many-body properties and validate it against exact results obtained by DMRG method for the full Hamiltonian. The threshold for the formation of the liquid coincides with the appearance of a bound state in the dimer-dimer problem and possesses a universality in terms of the two-body parameters of the dimer-dimer interaction, namely scattering length and effective range. For sufficiently strong effective dimer-dimer repulsion we observe fermionization of the dimers which form an effective Tonks-Girardeau state. Finally, we identify conditions for the formation of a solitonic solution.
翻訳日:2023-05-11 18:25:24 公開日:2020-07-03
# 非エルゴード拡大状態におけるRosenzweig-Porterモデルの超ポアソン的挙動について

On super-Poissonian behavior of the Rosenzweig-Porter model in the non-ergodic extended regime ( http://arxiv.org/abs/2007.01748v1 )

ライセンス: Link先を確認
Richard Berkovits(参考訳) ローゼンツヴァイク・ポーター模型は、エルゴード拡張金属相と局所化相の間の非エルゴード拡大相を示すため、興味の回復が見られる。 このような位相は、高エネルギー物理学や量子重力におけるサハデフ-イェ-キタエフモデルから、凝縮物質物理学や量子コンピューティングにおける相互作用する多体局在まで、多くの物理モデルに関係している。 この位相は波動関数のフラクタル挙動とエネルギースペクトルの相関したミニバンド構造によって特徴づけられる。 ここでは、スペクトルにおける後者の証拠を探す。 この挙動は中間エネルギースケールで予測されるため、スペクトル剛性はそれをからかう自然な方法である。 それでも、展開過程におけるThouless Energyと曖昧さのため、結果は決定的ではない。 一方、特異値分解法を用いて、この系における超ポアソニアン挙動の明確な証拠が出現し、相関したミニバンドの図と一致する。

The Rosenzweig-Porter model has seen a resurgence in interest as it exhibits a non-ergodic extended phase between the ergodic extended metallic phase and the localized phase. Such a phase is relevant to many physical models from the Sachdev-Ye-Kitaev model in high-energy physics and quantum gravity, to the interacting many-body localization in condensed matter physics and quantum computing. This phase is characterized by fractal behavior of the wavefunctions, and a postulated correlated mini-band structure of the energy spectrum. Here we will seek evidence for the latter in the spectrum. Since this behavior is expected on intermediate energy scales spectral rigidity is a natural way to tease it out. Nevertheless, due to the Thouless energy and ambiguities in the unfolding procedure, the results are inconclusive. On the other hand, by using the singular value decomposition method, clear evidence for a super-Poissonian behavior in this regime emerges, consistent with a picture of correlated mini-bands.
翻訳日:2023-05-11 18:24:48 公開日:2020-07-03
# ガウスの絡み合いの数値的検出と結合したガウス状態の同定への応用

Numerical detection of Gaussian entanglement and its application to the identification of bound entangled Gaussian states ( http://arxiv.org/abs/2007.01731v1 )

ライセンス: Link先を確認
Shan Ma and Shibei Xue and Yu Guo and Chuan-Cun Shu(参考訳) 本稿では,連続変数量子系におけるガウス量子状態の分離性問題の解法を提案する。 分離性問題は、線形行列の不等式の集合の実現可能性を決定する等価問題としてキャストできることを示す。 これにより、既存の数値解法を用いて効率よく解ける。 この手法を結合したガウス状態の同定に適用する。 提案手法は量子光学において証明可能なほど単純であるような有界なガウス状態の同定に利用できることを示す。

We present a numerical method for solving the separability problem of Gaussian quantum states in continuous-variable quantum systems. We show that the separability problem can be cast as an equivalent problem of determining the feasibility of a set of linear matrix inequalities. Thus, it can be efficiently solved using existent numerical solvers. We apply this method to the identification of bound entangled Gaussian states. We show that the proposed method can be used to identify bound entangled Gaussian states that could be simple enough to be producible in quantum optics.
翻訳日:2023-05-11 18:24:29 公開日:2020-07-03
# マルチモーダルコンテナプランニング:量子アニール上でのQUBOの定式化と実装

Multimodal Container Planning: a QUBO Formulation and Implementation on a Quantum Annealer ( http://arxiv.org/abs/2007.01730v1 )

ライセンス: Link先を確認
Frank Phillipson and Irina Chiscop(参考訳) 量子コンピューティングは急速に発展している。 現実世界のアプリケーションは、今後数年で手に入ります。 最も有望な分野の1つは組合せ最適化であり、二次非拘束二元最適化(qubo)問題定式化は良い近似解を得るために用いられる。 量子アニールとしての普遍的な量子コンピュータは、このような問題をうまく処理できる。 本稿では,マルチモーダル・コンテナ・プランニングに関するアプリケーションについて述べる。 本稿では,この問題をQUBO問題定式化にマップする方法と,D-Wave Systems が生成する量子アニール上での実用化方法について述べる。

Quantum computing is developing fast. Real world applications are within reach in the coming years. One of the most promising areas is combinatorial optimisation, where the Quadratic Unconstrained Binary Optimisation (QUBO) problem formulation is used to get good approximate solutions. Both the universal quantum computer as the quantum annealer can handle this kind of problems well. In this paper, we present an application on multimodal container planning. We show how to map this problem to a QUBO problem formulation and how the practical implementation can be done on the quantum annealer produced by D-Wave Systems.
翻訳日:2023-05-11 18:24:19 公開日:2020-07-03
# 裁判所記録のオンライン出版:プライバシーと透明性のトレードオフを回避する

Online publication of court records: circumventing the privacy-transparency trade-off ( http://arxiv.org/abs/2007.01688v1 )

ライセンス: Link先を確認
Tristan Allard (DRUID), Louis B\'eziaud (LATECE Laboratory - UQAM Montreal, DRUID), S\'ebastien Gambs (LATECE Laboratory - UQAM Montreal)(参考訳) オープンデータ運動は、オンライン上の裁判所記録の大量公開、正義の透明性とアクセシビリティの向上、および利用可能な豊富な法的データに基づいて構築される法律技術の設計につながっている。 しかし、法的決定の繊細な性質は、重要なプライバシー問題を引き起こす。 現在のプラクティスは、アクセス制御と(手動または半手動)テキストの再アクションを組み合わせることで、結果として生じるプライバシーと透明性のトレードオフを解決する。 本研究では,法的なデータへの大規模なアクセスに対処するには,現在の慣行が不十分であると主張している(制限的アクセス制御ポリシはオープン性とユーティリティに有害であり,テキストのリアクションは健全なプライバシ保護を提供することができない)。 本稿では,この問題と現状のアプローチを徹底的に分析し,プライバシ保護法定データパブリッシングシステムへの道を開いた,ストローマンマルチモーダルアーキテクチャを提案する。

The open data movement is leading to the massive publishing of court records online, increasing transparency and accessibility of justice, and to the design of legal technologies building on the wealth of legal data available. However, the sensitive nature of legal decisions also raises important privacy issues. Current practices solve the resulting privacy versus transparency trade-off by combining access control with (manual or semi-manual) text redaction. In this work, we claim that current practices are insufficient for coping with massive access to legal data (restrictive access control policies is detrimental to openness and to utility while text redaction is unable to provide sound privacy protection) and advocate for a in-tegrative approach that could benefit from the latest developments of the privacy-preserving data publishing domain. We present a thorough analysis of the problem and of the current approaches, and propose a straw man multimodal architecture paving the way to a full-fledged privacy-preserving legal data publishing system.
翻訳日:2023-05-11 18:24:06 公開日:2020-07-03
# 非エルミートハミルトニアンのスージー : コヒーレントな状態の観点から

Susy for non-Hermitian Hamiltonians, with a view to coherent states ( http://arxiv.org/abs/2007.01677v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 我々は、調査中の物理系のハミルトニアンがエルミート的でない場合に有用な超対称量子力学の拡張版を提案する。 この方法は、一般に異なる2つの超ポテンシャルの使用に基づいている。 ガザウ・クラウダー型の2コヒーレント状態が構築され、その特性が解析される。 ファイナンスにおいて最も重要な方程式の1つであるブラック・シェール方程式への応用など、いくつかの例も議論されている。

We propose an extended version of supersymmetric quantum mechanics which can be useful if the Hamiltonian of the physical system under investigation is not Hermitian. The method is based on the use of two, in general different, superpotentials. Bi-coherent states of the Gazeau-Klauder type are constructed and their properties are analyzed. Some examples are also discussed, including an application to the Black-Scholes equation, one of the most important equations in Finance.
翻訳日:2023-05-11 18:23:27 公開日:2020-07-03
# 超伝導体ナノ構造を用いた量子ジャンプ問題に関する実験的研究

Experimental investigations of the problem of the quantum jump with the help of superconductor nanostructures ( http://arxiv.org/abs/2007.12566v1 )

ライセンス: Link先を確認
V. L. Gurtovoi, A. I. Ilin, and A.V. Nikulov(参考訳) 今私たちが知っている量子理論は、その創造者との激しい論争の過程で生まれた。 これらの論争の成果の1つは、近年の基本的な新しい調査と技術量子情報と量子コンピューティング分野の出現である。 量子論の創始者間の論争の主題の1つは、量子ジャンプであった。 量子超伝導体ナノ構造を用いてこの問題を実験的に研究する可能性に注目した。 実験の最初の結果が提示され、問題の関連性を示すパラドックス性が示された。

The quantum theory, that we now know, arose in the process of sharp disputes between its creators. One of the results of these disputes was the emergence in recent years of fundamentally new areas of investigation and technology - quantum information and quantum computing. One of the subjects of controversy between the creators of quantum theory was the quantum jump. We draw the attention to the possibility of experimental investigation of this problem with the help of quantum superconductor nanostructures. The first results of experiments are presented, the paradoxicality of which indicates the relevance of the problem.
翻訳日:2023-05-11 18:15:03 公開日:2020-07-03
# モード同期レーザーに対するナノスケール回路の応答に関する一貫した解析解

Consistent analytical solution for the response of a nanoscale circuit to a mode-locked laser ( http://arxiv.org/abs/2007.02709v1 )

ライセンス: Link先を確認
Mark J. Hagmann and Logan D. Gibb(参考訳) 現在では、特定の電位における2つの電極間のトンネル電流を推定するシュリンガー方程式の解法や、入射、反射、伝達波の存在を仮定して電位障壁を通した伝達法が一般的である。 しかし、この2つのアプローチはナノスケール回路の応用には適していない。 電子マンフリーパスは金属中の68.2nmにも及ぶため、ナノスケール回路を通して波動関数がコヒーレントになる可能性があるため、新しいアプローチが必要となる。 回路パラメータの異なる集合で固有値を決定するアルゴリズムを複数定義し,ナノスケール回路に対する一貫した解が存在することを示す。 また、ナノスケール回路の完全な解を求めるための別のアルゴリズムも提案する。 これら全てはシュリンガー方程式の分析解のみを用いて行われる。

It is now common practice to solve the Schr\"odinger equation to estimate the tunneling current between two electrodes at specified potentials, or the transmission through a potential barrier by assuming that there is an incident, reflected, and transmitted wave. However, these two approaches may not be appropriate for applications with nanoscale circuits. A new approach is required because the electron man-free path may be as long as 68.2 nm in metals so it is possible that the wavefunction may be coherent throughout a nanoscale circuit. We define several algorithms for determining the eigenvalues with different sets of the circuit parameters, thus demonstrating the existence of consistent solutions for nanoscale circuits. We also present another algorithm that is being applied to determine the full solution for nanoscale circuits. All of this is done using only analytical solutions of the Schr\"odinger equation.
翻訳日:2023-05-11 18:14:57 公開日:2020-07-03
# 横型炭化ケイ素発光ダイオードにおける明るい単一光子源

Bright single photon sources in lateral silicon carbide light emitting diodes ( http://arxiv.org/abs/2007.02707v1 )

ライセンス: Link先を確認
Matthias Widmann, Matthias Niethammer, Takahiro Makino, Torsten Rendler, Stefan Lasse, Takeshi Ohshima, Jawad Ul Hassan, Nguyen Tien Son, Sang-Yun Lee, J\"org Wrachtrup(参考訳) 単一光子発光デバイスは、量子情報と量子通信の応用において重要な構成要素として認識されている。 量子ビットと呼ばれる光子を介して長距離に量子情報を変換し収集することができる。 さらに、炭化ケイ素のような基板は、電子機器に優れた材料プラットフォームを提供する。 この2つの特徴を組み合わせることで、炭化ケイ素p-i-n-ダイオード内で単一の光子エミッタを駆動できることを示す。 これを実現するために、我々は特に横向きダイオードを設計した。 我々は、VISおよびNIR領域で非古典的な光を発する様々な新しい色中心を見出した。 あるタイプのエミッタは電気的に励起され、炭化ケイ素は電気的に制御可能な単一光子源の理想的なプラットフォームとして機能する。

Single-photon emitting devices have been identified as an important building block for applications in quantum information and quantum communication. They allow to transduce and collect quantum information over a long distance via photons as so called flying qubits. In addition, substrates like silicon carbide provides an excellent material platform for electronic devices. In this work we combine these two features and show that one can drive single photon emitters within a silicon carbide p-i-n-diode. To achieve this, we specifically designed a lateral oriented diode. We find a variety of new color centers emitting non-classical lights in VIS and NIR range. One type of emitter can be electrically excited, demonstrating that silicon carbide can act as an ideal platform for electrically controllable single photon sources.
翻訳日:2023-05-11 18:14:42 公開日:2020-07-03
# 超伝導量子ビットを用いたスケーラブルでルーティング可能なネットワークアーキテクチャによる完全状態転送のスイッチング手法

A switching approach for perfect state transfer over a scalable and routing enabled network architecture with superconducting qubits ( http://arxiv.org/abs/2007.02682v1 )

ライセンス: Link先を確認
Siddhant Singh(参考訳) 完全状態移動(PST)のためのハイパーキューブスイッチングアーキテクチャを提案し、任意の次元の任意のハイパーキューブにおいて、PSTが元のハイパーキューブの任意の2つの頂点間で実行されるように誘導されたハイパーキューブを見つけることが常に可能であることを証明した。 次に、任意の数の量子ビット上でこのスイッチングスキームを一般化し、任意の2つの頂点間のpstのルーティング機能も可能である。 これはルーティング機能を備えた量子コンピューティングの最適かつスケーラブルなアーキテクチャであることが示されている。 これにより、スケーラブルで成長するキュービットネットワークが可能になる。 このスイッチング方式を超伝導トランスモン量子ビットとチューナブルカップリングを用いて実験的に実現可能であることを示す。 また,従来の高価な量子スワップゲートに対してPSTを用いることによる計算上の利点を示すPST支援量子コンピューティングモデルを提案する。 さらに, グラフのコロナ積の下での符号付きグラフの数値的研究を行い, コロナ積下でのpstの耐障害性に関する文献における既存の結果とは対照的に, pstが確立された例を示す。 また,ユニタリティに違反するボソニックハミルトニアン上でのqudit状態移動に関する既存研究における誤差について報告する。

We propose a hypercube switching architecture for the perfect state transfer (PST) where we prove that it is always possible to find an induced hypercube in any given hypercube of any dimension such that PST can be performed between any two given vertices of the original hypercube. We then generalise this switching scheme over arbitrary number of qubits where also this routing feature of PST between any two vertices is possible. It is shown that this is optimal and scalable architecture for quantum computing with the feature of routing. This allows for a scalable and growing network of qubits. We demonstrate this switching scheme to be experimentally realizable using superconducting transmon qubits with tunable couplings. We also propose a PST assisted quantum computing model where we show the computational advantage of using PST against the conventional resource expensive quantum swap gates. In addition, we present the numerical study of signed graphs under Corona product of graphs and show few examples where PST is established, in contrast to pre-existing results in the literature for disproof of PST under Corona product. We also report an error in pre-existing research for qudit state transfer over Bosonic Hamiltonian where unitarity is violated.
翻訳日:2023-05-11 18:14:30 公開日:2020-07-03
# モーメント付きポリアクステップの複素性保証

Complexity Guarantees for Polyak Steps with Momentum ( http://arxiv.org/abs/2002.00915v2 )

ライセンス: Link先を確認
Mathieu Barr\'e, Adrien Taylor, Alexandre d'Aspremont(参考訳) 滑らかな凸最適化において、強い凸パラメータの知識は加速率の単純な方法を得るのに不可欠である。 本研究では、Polyakのステップに基づいて、この知識を最適な値である$f_*$で置き換える手法のクラスについて検討する。 まず,ポリアックステップを用いた単純な勾配降下の古典的な場合よりもわずかに収束限界が改善され,ポリアックステップと運動量を持つ加速度勾配法と収束保証が得られた。

In smooth strongly convex optimization, knowledge of the strong convexity parameter is critical for obtaining simple methods with accelerated rates. In this work, we study a class of methods, based on Polyak steps, where this knowledge is substituted by that of the optimal value, $f_*$. We first show slightly improved convergence bounds than previously known for the classical case of simple gradient descent with Polyak steps, we then derive an accelerated gradient method with Polyak steps and momentum, along with convergence guarantees.
翻訳日:2023-01-04 09:24:14 公開日:2020-07-03
# パラメータサーバにおける動的パラメータ割り当て

Dynamic Parameter Allocation in Parameter Servers ( http://arxiv.org/abs/2002.00655v3 )

ライセンス: Link先を確認
Alexander Renz-Wieland, Rainer Gemulla, Steffen Zeuch, Volker Markl(参考訳) データセットのサイズとモデルの複雑さの増加に合わせて、大規模な機械学習タスクには分散トレーニングが不可欠になっている。 パラメータサーバは分散パラメータ管理の実装を簡単にする -- 分散トレーニングにおいて重要な関心事だが、深刻な通信オーバーヘッドを引き起こす可能性がある。 通信オーバヘッドを低減するため、分散機械学習アルゴリズムはパラメータアクセス局所性(PAL)を向上させる技術を使用し、線形スピードアップを達成する。 しかし,既存のパラメータサーバはpal技術に対して限られたサポートしか提供せず,効率的なトレーニングを防止できることがわかった。 本稿では,PAL技術がどの程度サポートできるのか,また,そのような支援が有効かどうかを考察する。 本稿では,動的パラメータ割り当てをパラメータサーバに統合し,Lapseと呼ばれるパラメータサーバの効率的な実装を記述し,その性能を多数の機械学習タスク間で実験的に比較する。 lapseはニアリニアなスケーリングを提供し、既存のパラメータサーバよりも桁違いに高速であることが分かりました。

To keep up with increasing dataset sizes and model complexity, distributed training has become a necessity for large machine learning tasks. Parameter servers ease the implementation of distributed parameter management---a key concern in distributed training---, but can induce severe communication overhead. To reduce communication overhead, distributed machine learning algorithms use techniques to increase parameter access locality (PAL), achieving up to linear speed-ups. We found that existing parameter servers provide only limited support for PAL techniques, however, and therefore prevent efficient training. In this paper, we explore whether and to what extent PAL techniques can be supported, and whether such support is beneficial. We propose to integrate dynamic parameter allocation into parameter servers, describe an efficient implementation of such a parameter server called Lapse, and experimentally compare its performance to existing parameter servers across a number of machine learning tasks. We found that Lapse provides near-linear scaling and can be orders of magnitude faster than existing parameter servers.
翻訳日:2023-01-04 08:40:49 公開日:2020-07-03
# b2b販売予測モデリングのための一般化フロー:azure machine learningアプローチ

A Generalized Flow for B2B Sales Predictive Modeling: An Azure Machine Learning Approach ( http://arxiv.org/abs/2002.01441v2 )

ライセンス: Link先を確認
Alireza Rezazadeh(参考訳) 販売機会の成果を予測することは、ビジネスマネジメントの成功の中核である。 従来,この予測は,販売決定過程における主観的人間評価に大きく依存していた。 本稿では、クラウドベースのコンピューティングプラットフォームであるMicrosoft Azure Machine Learning Service (Azure ML)上で、データ駆動型機械学習(ML)ワークフローを徹底的に提案することにより、ビジネスからビジネスへの(B2B)売上の予測の問題に対処する。 このワークフローは、(1)過去の販売機会データに基づいて確率論的予測モデルをトレーニングするためのMLパイプラインである。 このパイプラインでは、データを広範な機能拡張ステップで強化し、ML分類モデルのアンサンブルを並列にトレーニングするために使用される。 2) 学習MLモデルを利用した予測パイプラインにより, 最適な意思決定境界を算出し, 新たな販売機会を獲得する可能性を推定する。 提案するワークフローの有効性を,大手b2bコンサルティング企業の実販売データセットで評価した。 その結果,ml予測に基づく意思決定はより正確であり,より高い金銭価値をもたらすことが示唆された。

Predicting the outcome of sales opportunities is a core part of successful business management. Conventionally, making this prediction has relied mostly on subjective human evaluations in the process of sales decision making. In this paper, we addressed the problem of forecasting the outcome of business to business (B2B) sales by proposing a thorough data-driven Machine Learning (ML) workflow on a cloud-based computing platform: Microsoft Azure Machine Learning Service (Azure ML). This workflow consists of two pipelines: (1) An ML pipeline to train probabilistic predictive models on the historical sales opportunities data. In this pipeline, data is enriched with an extensive feature enhancement step and then used to train an ensemble of ML classification models in parallel. (2) A prediction pipeline to utilize the trained ML model and infer the likelihood of winning new sales opportunities along with calculating optimal decision boundaries. The effectiveness of the proposed workflow was evaluated on a real sales dataset of a major global B2B consulting firm. Our results implied that decision-making based on the ML predictions is more accurate and brings a higher monetary value.
翻訳日:2023-01-04 02:42:51 公開日:2020-07-03
# 低ランク行列近似のための修正量子正規化

Supervised Quantile Normalization for Low-rank Matrix Approximation ( http://arxiv.org/abs/2002.03229v2 )

ライセンス: Link先を確認
Marco Cuturi, Olivier Teboul, Jonathan Niles-Weed, Jean-Philippe Vert(参考訳) 低ランク行列分解は機械学習の基本的な構成要素であり、例えば、遺伝子発現プロファイルデータや単語文書の数を要約するために使われる。 外れ値や機能間のスケールの違いにロバストであるためには、行列分解ステップは、通常、アドホックな特徴正規化ステップ、例えば \texttt{tf-idf} スケーリングやデータホワイトニングによって先行する。 本稿では、これらの正規化演算子を因子化自身と共同で学習することを提案する。 より正確には、$d\times n$ matrix $x$ of $d$ features measured on $n$ individual, we to learn the parameters of quantile normalization operator which can operation row-wise on the values of $x$ and/or of its factorization $uv$ to improve the quality of the low-rank representation of $x$ itself。 この最適化は、最適な輸送を用いて構築された新しい微分可能な量子化正規化演算子の導入により、既存の作業の上に新しい結果を提供する(Cuturi et al. 2019)。 我々は,これらの手法を合成およびゲノムデータセットに適用する可能性を示す。

Low rank matrix factorization is a fundamental building block in machine learning, used for instance to summarize gene expression profile data or word-document counts. To be robust to outliers and differences in scale across features, a matrix factorization step is usually preceded by ad-hoc feature normalization steps, such as \texttt{tf-idf} scaling or data whitening. We propose in this work to learn these normalization operators jointly with the factorization itself. More precisely, given a $d\times n$ matrix $X$ of $d$ features measured on $n$ individuals, we propose to learn the parameters of quantile normalization operators that can operate row-wise on the values of $X$ and/or of its factorization $UV$ to improve the quality of the low-rank representation of $X$ itself. This optimization is facilitated by the introduction of a new differentiable quantile normalization operator built using optimal transport, providing new results on top of existing work by (Cuturi et al. 2019). We demonstrate the applicability of these techniques on synthetic and genomics datasets.
翻訳日:2023-01-02 22:29:28 公開日:2020-07-03
# ニューラルネットワークと同等の学習

Learning Parities with Neural Networks ( http://arxiv.org/abs/2002.07400v2 )

ライセンス: Link先を確認
Amit Daniely, Eran Malach(参考訳) 近年,ニューラルネットワークアルゴリズムを用いて,様々なモデルの学習可能性を示す研究が急速に進んでいる。 しかし,この結果から線形手法を用いて学習可能なモデルの学習可能性を示すことができる。 すなわち、勾配差のあるニューラルネットワークの学習は、サンプルのデータ非依存表現の上の線形分類器の学習と競合することを示す。 ニューラルネットワークは線形手法よりもはるかに成功しているので、これは望ましくはない。 さらに、より概念的なレベルでは、線形モデルはディープネットワークの「深み」を捉えていないようである。 本稿では、本質的に非線形であるモデルのリーン性を示すためのステップを示す。 特定の分布下では、疎パリティは深さ2のネットワーク上で適切な勾配によって学習可能であることを示す。 一方、同じ分布下では、これらのパリティは線形な方法では効率的に学習できない。

In recent years we see a rapidly growing line of research which shows learnability of various models via common neural network algorithms. Yet, besides a very few outliers, these results show learnability of models that can be learned using linear methods. Namely, such results show that learning neural-networks with gradient-descent is competitive with learning a linear classifier on top of a data-independent representation of the examples. This leaves much to be desired, as neural networks are far more successful than linear methods. Furthermore, on the more conceptual level, linear models don't seem to capture the "deepness" of deep networks. In this paper we make a step towards showing leanability of models that are inherently non-linear. We show that under certain distributions, sparse parities are learnable via gradient decent on depth-two network. On the other hand, under the same distributions, these parities cannot be learned efficiently by linear methods.
翻訳日:2022-12-30 19:25:25 公開日:2020-07-03
# FR-Train: 公正かつロバストなトレーニングのための相互情報に基づくアプローチ

FR-Train: A Mutual Information-Based Approach to Fair and Robust Training ( http://arxiv.org/abs/2002.10234v2 )

ライセンス: Link先を確認
Yuji Roh, Kangwook Lee, Steven Euijong Whang, Changho Suh(参考訳) 信頼できるAIは、正確であるモデルのトレーニングに加えて、データのバイアスと中毒の存在下で公正かつ堅牢なトレーニングも考慮する必要がある、機械学習における重要な問題である。 しかし、既存のモデルフェアネス技術は、誤って有毒データを修正すべき追加バイアスと見なしているため、性能が著しく低下する。 そこで本研究では,公平で堅牢なモデルトレーニングを行うFR-Trainを提案する。 既存の敵対的トレーニングに基づくフェアネスのみの方法の相互情報に基づく解釈を提供し、この考え方を、清潔な検証セットを用いて有毒データを識別し、その影響を低減できる追加の判別器の設計に適用する。 実験において,fr-trainは,バイアス軽減と中毒防止の両方によるデータ中毒の有無において,公平性と正確性がほとんど低下しないことを示した。 また,クラウドソーシングを用いたクリーンな検証セットの構築方法を示し,ベンチマークデータセットをリリースする。

Trustworthy AI is a critical issue in machine learning where, in addition to training a model that is accurate, one must consider both fair and robust training in the presence of data bias and poisoning. However, the existing model fairness techniques mistakenly view poisoned data as an additional bias to be fixed, resulting in severe performance degradation. To address this problem, we propose FR-Train, which holistically performs fair and robust model training. We provide a mutual information-based interpretation of an existing adversarial training-based fairness-only method, and apply this idea to architect an additional discriminator that can identify poisoned data using a clean validation set and reduce its influence. In our experiments, FR-Train shows almost no decrease in fairness and accuracy in the presence of data poisoning by both mitigating the bias and defending against poisoning. We also demonstrate how to construct clean validation sets using crowdsourcing, and release new benchmark datasets.
翻訳日:2022-12-29 03:01:38 公開日:2020-07-03
# 虹彩認識システムの提示検出におけるデモグラフィックバイアス

Demographic Bias in Presentation Attack Detection of Iris Recognition Systems ( http://arxiv.org/abs/2003.03151v2 )

ライセンス: Link先を確認
Meiling Fang, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 生体認証システムの利用が広まるにつれ、人口統計学のバイアス問題はより注目を集める。 多くの研究では生体認証におけるバイアス問題に対処しているが、プレゼンテーションアタック検出(PAD)決定におけるバイアスを分析する研究は存在しない。 そこで本論文では,アイリスPADアルゴリズムの人口統計バイアスを調査し,解析する。 明確な議論を可能にするため,PAD問題に差分性能と差分結果の概念を適用した。 ndcld-2013データベースを用いて,3つのベースライン(手作り,転送学習,トレーニング)を用いて虹彩パッドのバイアスについて検討した。 実験の結果、女性ユーザーは男性に比べてPADによって保護されることが著しく少なくなることが示された。

With the widespread use of biometric systems, the demographic bias problem raises more attention. Although many studies addressed bias issues in biometric verification, there are no works that analyze the bias in presentation attack detection (PAD) decisions. Hence, we investigate and analyze the demographic bias in iris PAD algorithms in this paper. To enable a clear discussion, we adapt the notions of differential performance and differential outcome to the PAD problem. We study the bias in iris PAD using three baselines (hand-crafted, transfer-learning, and training from scratch) using the NDCLD-2013 database. The experimental results point out that female users will be significantly less protected by the PAD, in comparison to males.
翻訳日:2022-12-26 01:29:34 公開日:2020-07-03
# 有界ctlにおける十分かつ必要条件について:忘れるアプローチ

On Sufficient and Necessary Conditions in Bounded CTL: A Forgetting Approach ( http://arxiv.org/abs/2003.06492v3 )

ライセンス: Link先を確認
Renyan Feng, Erman Acar, Stefan Schlobach, Yisong Wang, Wanwei Liu(参考訳) 計算木論理(ctl)は形式的検証における中心的な形式の一つである。 仕様言語として、手元にあるシステムが満たすであろう特性を表現するために使用される。 検証とシステム設計の観点からは、様々な理由により、そのような財産の情報内容がシステムに無関係になる場合があり、例えば、時間が経つにつれて時代遅れになる場合や、実際的な困難のために実現不可能になる場合がある。 そして、関連するシステム動作を変更したり、所定のシグネチャに対して既存の仕様に違反したりすることなく、そのような情報を減じる方法について問題が発生する。 さらに、そのようなシナリオでは、最強必要条件(SNC)と最弱十分条件(WSC)という2つの重要な概念が有益である。 このようなシナリオを原則的に解決するために、CTL に忘れ書きに基づくアプローチを導入し、与えられたモデルと与えられたシグネチャ上でのプロパティの SNC と WSC の計算に使用できることを示す。 我々は,その理論的性質を考察し,その概念が既存の知識の前提を満たすことを示す。 さらに,特にフラグメント ctl_af に対する基本的な推論タスクの計算複雑性を分析した。

Computation Tree Logic (CTL) is one of the central formalisms in formal verification. As a specification language, it is used to express a property that the system at hand is expected to satisfy. From both the verification and the system design points of view, some information content of such property might become irrelevant for the system due to various reasons, e.g., it might become obsolete by time, or perhaps infeasible due to practical difficulties. Then, the problem arises on how to subtract such piece of information without altering the relevant system behaviour or violating the existing specifications over a given signature. Moreover, in such a scenario, two crucial notions are informative: the strongest necessary condition (SNC) and the weakest sufficient condition (WSC) of a given property. To address such a scenario in a principled way, we introduce a forgetting-based approach in CTL and show that it can be used to compute SNC and WSC of a property under a given model and over a given signature. We study its theoretical properties and also show that our notion of forgetting satisfies existing essential postulates of knowledge forgetting. Furthermore, we analyse the computational complexity of some basic reasoning tasks for the fragment CTL_AF in particular.
翻訳日:2022-12-24 02:08:06 公開日:2020-07-03
# 深層学習に基づく単眼深度推定:概要

Monocular Depth Estimation Based On Deep Learning: An Overview ( http://arxiv.org/abs/2003.06620v2 )

ライセンス: Link先を確認
Chaoqiang Zhao, Qiyu Sun, Chongzhen Zhang, Yang Tang, Feng Qian(参考訳) 奥行き情報は、自律システムにとって環境を知覚し、自身の状態を推定する上で重要である。 動きからの構造やステレオビジョンマッチングのような従来の深さ推定法は、複数の視点の特徴対応に基づいて構築されている。 一方、予測された深度マップは乏しい。 単一の画像から深度情報(眼深度推定)を推定することは不適切な問題である。 近年,深層ニューラルネットワークの急速な発展に伴い,深層学習に基づく単眼深度推定が広く研究され,精度が向上した。 一方、深度マップは、エンドツーエンドで深度ニューラルネットワークによって単一の画像から推定される。 奥行き推定の精度を向上させるために, 各種ネットワークフレームワーク, 損失関数, 訓練戦略が提案されている。 そこで本研究では,ディープラーニングに基づく現在の単眼深度推定手法について検討する。 当初,深層学習に基づく深度推定に広く用いられているデータセットと評価指標について検討した。 さらに, 教師なし, 教師なし, 半教師なしの, 異なる訓練方法により, 代表的な既存手法を概観する。 最後に,課題を議論し,単眼深度推定における今後の研究にいくつかのアイデアを提供する。

Depth information is important for autonomous systems to perceive environments and estimate their own state. Traditional depth estimation methods, like structure from motion and stereo vision matching, are built on feature correspondences of multiple viewpoints. Meanwhile, the predicted depth maps are sparse. Inferring depth information from a single image (monocular depth estimation) is an ill-posed problem. With the rapid development of deep neural networks, monocular depth estimation based on deep learning has been widely studied recently and achieved promising performance in accuracy. Meanwhile, dense depth maps are estimated from single images by deep neural networks in an end-to-end manner. In order to improve the accuracy of depth estimation, different kinds of network frameworks, loss functions and training strategies are proposed subsequently. Therefore, we survey the current monocular depth estimation methods based on deep learning in this review. Initially, we conclude several widely used datasets and evaluation indicators in deep learning-based depth estimation. Furthermore, we review some representative existing methods according to different training manners: supervised, unsupervised and semi-supervised. Finally, we discuss the challenges and provide some ideas for future researches in monocular depth estimation.
翻訳日:2022-12-23 20:20:09 公開日:2020-07-03
# マルチチャネルオーディオによるリプレイアタックの検出:ニューラルネットワークによる検出

Detecting Replay Attacks Using Multi-Channel Audio: A Neural Network-Based Method ( http://arxiv.org/abs/2003.08225v3 )

ライセンス: Link先を確認
Yuan Gong, Jian Yang, Christian Poellabauer(参考訳) 音声を主入力として使用するセキュリティに敏感なシステムが急速に増えているため、攻撃をリプレイするための潜在的な脆弱性に対処することがますます重要になっている。 この懸念に対処する以前の取り組みは、主にシングルチャネルオーディオに焦点を当てていた。 本稿では,マルチチャンネル音声の空間情報を更に活用し,リプレイ攻撃検出性能を大幅に向上させるニューラルネットワークを用いたリプレイ攻撃検出モデルを提案する。

With the rapidly growing number of security-sensitive systems that use voice as the primary input, it becomes increasingly important to address these systems' potential vulnerability to replay attacks. Previous efforts to address this concern have focused primarily on single-channel audio. In this paper, we introduce a novel neural network-based replay attack detection model that further leverages spatial information of multi-channel audio and is able to significantly improve the replay attack detection performance.
翻訳日:2022-12-22 13:27:53 公開日:2020-07-03
# 内視鏡映像からの洞解剖の再構築 ---無放射線法による定量的縦断評価へのアプローチ-

Reconstructing Sinus Anatomy from Endoscopic Video -- Towards a Radiation-free Approach for Quantitative Longitudinal Assessment ( http://arxiv.org/abs/2003.08502v2 )

ライセンス: Link先を確認
Xingtong Liu, Maia Stiber, Jindan Huang, Masaru Ishii, Gregory D. Hager, Russell H. Taylor, Mathias Unberath(参考訳) 内視鏡的映像から直接正弦波解剖の正確な3次元表面モデルを再構成することは、副鼻腔解剖学と外科的予後の関係をよりよく理解するための横断的・縦断的分析に有望な道筋である。 本研究は, 内視鏡的ビデオのみを用いて, 副鼻腔表面解剖の3次元再構成を行う。 本手法の有効性と精度を,運動構造からのスパース再構成,COLMAPからの高密度再構成,CTからの地層真理解剖と比較した生体内および生体外データで示す。 テクスチャ再構築は水密であり,CTとよく一致した臨床パラメータの測定が可能である。 ソースコードはhttps://github.com/lppllppl920/densereconstruction-pytorchで入手できる。

Reconstructing accurate 3D surface models of sinus anatomy directly from an endoscopic video is a promising avenue for cross-sectional and longitudinal analysis to better understand the relationship between sinus anatomy and surgical outcomes. We present a patient-specific, learning-based method for 3D reconstruction of sinus surface anatomy directly and only from endoscopic videos. We demonstrate the effectiveness and accuracy of our method on in and ex vivo data where we compare to sparse reconstructions from Structure from Motion, dense reconstruction from COLMAP, and ground truth anatomy from CT. Our textured reconstructions are watertight and enable measurement of clinically relevant parameters in good agreement with CT. The source code is available at https://github.com/lppllppl920/DenseReconstruction-Pytorch.
翻訳日:2022-12-22 12:59:07 公開日:2020-07-03
# AutoFIS:クリックスルーレート予測のための因子化モデルの自動特徴相互作用選択

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction ( http://arxiv.org/abs/2003.11235v3 )

ライセンス: Link先を確認
Bin Liu, Chenxu Zhu, Guilin Li, Weinan Zhang, Jincai Lai, Ruiming Tang, Xiuqiang He, Zhenguo Li, Yong Yu(参考訳) 推薦システムのクリックスルーレート(CTR)予測には,特徴的相互作用の学習が不可欠である。 多くの既存のディープラーニングモデルでは、機能相互作用は手動で設計されるか、単に列挙される。 しかし、全ての機能相互作用を列挙すると、メモリと計算コストが大きくなります。 さらに悪いことに、無駄なインタラクションはノイズをもたらし、トレーニングプロセスを複雑にします。 本研究では,自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。 autofisは、ターゲットモデルをコンバージェンスにトレーニングすることと同等の計算コストで、ファクタライゼーションモデルの重要な機能インタラクションを自動的に識別する。 emph{search stage} では、個々の特徴的相互作用を探索する代わりに、アーキテクチャパラメータを導入することで連続的な選択を緩和する。 アーキテクチャパラメータに正規化オプティマイザを実装することで、モデルのトレーニングプロセス中に冗長な機能インタラクションを自動的に識別し、削除することができる。 emph{re-train stage}では、アーキテクチャパラメータを注意ユニットとして保持し、パフォーマンスをさらに向上させます。 3つの大規模データセット(公開ベンチマーク2つ、プライベート1つ)のオフライン実験では、autofisがさまざまなfmベースのモデルを大幅に改善できることが示されている。 AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされており、10日間のオンラインA/Bテストでは、AutoFISがそれぞれCTRとCVRでDeepFMモデルを20.3\%、20.1\%改善することを実証している。

Learning feature interactions is crucial for click-through rate (CTR) prediction in recommender systems. In most existing deep learning models, feature interactions are either manually designed or simply enumerated. However, enumerating all feature interactions brings large memory and computation cost. Even worse, useless interactions may introduce noise and complicate the training process. In this work, we propose a two-stage algorithm called Automatic Feature Interaction Selection (AutoFIS). AutoFIS can automatically identify important feature interactions for factorization models with computational cost just equivalent to training the target model to convergence. In the \emph{search stage}, instead of searching over a discrete set of candidate feature interactions, we relax the choices to be continuous by introducing the architecture parameters. By implementing a regularized optimizer over the architecture parameters, the model can automatically identify and remove the redundant feature interactions during the training process of the model. In the \emph{re-train stage}, we keep the architecture parameters serving as an attention unit to further boost the performance. Offline experiments on three large-scale datasets (two public benchmarks, one private) demonstrate that AutoFIS can significantly improve various FM based models. AutoFIS has been deployed onto the training platform of Huawei App Store recommendation service, where a 10-day online A/B test demonstrated that AutoFIS improved the DeepFM model by 20.3\% and 20.1\% in terms of CTR and CVR respectively.
翻訳日:2022-12-20 03:05:06 公開日:2020-07-03
# 大規模リモートセンシングアーカイブにおける画像検索と検索のための深層学習

Deep Learning for Image Search and Retrieval in Large Remote Sensing Archives ( http://arxiv.org/abs/2004.01613v2 )

ライセンス: Link先を確認
Gencer Sumbul, Jian Kang, Beg\"um Demir(参考訳) 本章では,大規模データアーカイブからの高速かつ正確な情報発見のためのリモートセンシング(RS)におけるコンテンツベース画像検索(CBIR)システムの最近の進歩について述べる。 当初、手作りのRS画像記述子に依存する従来のCBIRシステムの限界を分析した。 そこで我々は,ディープラーニング(DL)モデルが最前線にあるRS CBIRシステムの進歩に注目した。 特に,直近の DL ベースCBIR システムの理論的特性について,RS 画像の複雑な意味的内容のキャラクタリゼーションについて述べる。 その長所と短所を議論した後,大規模データアーカイブ内の時間効率の高い検索能力を有する深層ハッシュベースのCBIRシステムを提案する。 最後に、RS CBIRにおける最も有望な研究方向性について論じる。

This chapter presents recent advances in content based image search and retrieval (CBIR) systems in remote sensing (RS) for fast and accurate information discovery from massive data archives. Initially, we analyze the limitations of the traditional CBIR systems that rely on the hand-crafted RS image descriptors. Then, we focus our attention on the advances in RS CBIR systems for which deep learning (DL) models are at the forefront. In particular, we present the theoretical properties of the most recent DL based CBIR systems for the characterization of the complex semantic content of RS images. After discussing their strengths and limitations, we present the deep hashing based CBIR systems that have high time-efficient search capability within huge data archives. Finally, the most promising research directions in RS CBIR are discussed.
翻訳日:2022-12-17 04:46:07 公開日:2020-07-03
# 2元ニューラルネットワークのトラクタブル表現について

On Tractable Representations of Binary Neural Networks ( http://arxiv.org/abs/2004.02082v2 )

ライセンス: Link先を確認
Weijia Shi and Andy Shih and Adnan Darwiche and Arthur Choi(参考訳) 我々は、二項ニューラルネットワークの決定関数を、順序付き二項決定図(OBDD)や意味決定図(SDD)などの抽出可能な表現にコンパイルする。 この関数をobdd/sddとして取得することで、ニューラルネットワークの動作の説明と形式的検証が容易になる。 まず、ニューラルネットワークのロバスト性を検証するタスクを検討し、そのOBDD/SDD表現を考慮して、ニューラルネットワークの期待ロバスト性を計算する方法を示す。 次に、ニューロンをコンパイルするための疑似多項時間アルゴリズムに基づいて、ニューラルネットワークをコンパイルするためのより効率的なアプローチを検討する。 次に、手書きの桁データセットでケーススタディを提供し、同じデータセットからトレーニングされた2つのニューラルネットワークが、非常に高い精度を持つが、非常に異なるレベルの堅牢性を持つことができることを強調します。 最後に,実験では,ニューラルネットワークのコンパクト表現をsdsとして得ることが可能であることを示す。

We consider the compilation of a binary neural network's decision function into tractable representations such as Ordered Binary Decision Diagrams (OBDDs) and Sentential Decision Diagrams (SDDs). Obtaining this function as an OBDD/SDD facilitates the explanation and formal verification of a neural network's behavior. First, we consider the task of verifying the robustness of a neural network, and show how we can compute the expected robustness of a neural network, given an OBDD/SDD representation of it. Next, we consider a more efficient approach for compiling neural networks, based on a pseudo-polynomial time algorithm for compiling a neuron. We then provide a case study in a handwritten digits dataset, highlighting how two neural networks trained from the same dataset can have very high accuracies, yet have very different levels of robustness. Finally, in experiments, we show that it is feasible to obtain compact representations of neural networks as SDDs.
翻訳日:2022-12-16 12:07:55 公開日:2020-07-03
# 脳-コンピューターインタフェースにおけるトランスファーラーニング:2016年以降の進歩を振り返って

Transfer Learning for EEG-Based Brain-Computer Interfaces: A Review of Progress Made Since 2016 ( http://arxiv.org/abs/2004.06286v4 )

ライセンス: Link先を確認
Dongrui Wu and Yifan Xu and Bao-Liang Lu(参考訳) 脳コンピュータインタフェース(BCI)は、脳信号を用いてコンピュータと直接通信することができる。 最も一般的な非侵襲的bciモダリティであるeeg(electroencephalogram)はノイズ/アーティファクトに敏感であり、サブジェクト/非サブジェクト間の非定常性に苦しむ。 したがって,脳波をベースとしたBCIシステムにおいて,異なるセッションにおいて異なる対象に対して最適なパターン認識モデルを構築することは困難である。 通常、キャリブレーションセッションは、新しい被験者のためのトレーニングデータを集めるために必要です。 トランスファーラーニング(TL)は、類似または関連する主題/セッション/デバイス/タスクからのデータや知識を利用して、新しい主題/セッション/デバイス/タスクの学習を容易にする。 本稿は,過去数年間の脳波を用いたBCIにおけるTLアプローチに関する雑誌のレビューである。 運動画像、事象関連電位、定常視覚誘発電位、情動性bcis、回帰問題、逆境攻撃の6つのパラダイムと応用が検討されている。 各パラダイム/アプリケーションに対して、TLアプローチをクロスオブジェクト/セッション、クロスデバイス、クロスタスク設定にグループ化し、個別にレビューする。 観察と結論は論文の最後に行われ、将来の研究の方向性を示す可能性がある。

A brain-computer interface (BCI) enables a user to communicate with a computer directly using brain signals. The most common non-invasive BCI modality, electroencephalogram (EEG), is sensitive to noise/artifact and suffers between-subject/within-subject non-stationarity. Therefore, it is difficult to build a generic pattern recognition model in an EEG-based BCI system that is optimal for different subjects, during different sessions, for different devices and tasks. Usually, a calibration session is needed to collect some training data for a new subject, which is time-consuming and user unfriendly. Transfer learning (TL), which utilizes data or knowledge from similar or relevant subjects/sessions/devices/tasks to facilitate learning for a new subject/session/device/task, is frequently used to reduce the amount of calibration effort. This paper reviews journal publications on TL approaches in EEG-based BCIs in the last few years, i.e., since 2016. Six paradigms and applications -- motor imagery, event-related potentials, steady-state visual evoked potentials, affective BCIs, regression problems, and adversarial attacks -- are considered. For each paradigm/application, we group the TL approaches into cross-subject/session, cross-device, and cross-task settings and review them separately. Observations and conclusions are made at the end of the paper, which may point to future research directions.
翻訳日:2022-12-14 00:36:36 公開日:2020-07-03
# ロスランドスケープにおけるブリッジモード接続性と敵対的ロバスト性

Bridging Mode Connectivity in Loss Landscapes and Adversarial Robustness ( http://arxiv.org/abs/2005.00060v2 )

ライセンス: Link先を確認
Pu Zhao, Pin-Yu Chen, Payel Das, Karthikeyan Natesan Ramamurthy, Xue Lin(参考訳) モード接続は、損失ランドスケープの分析に関する新しい幾何学的な洞察を提供し、よく訓練されたニューラルネットワーク間の高精度な経路を構築することができる。 本研究では,ロスランドスケープにおけるモード接続を利用して,ディープニューラルネットワークの逆ロバスト性の研究を行い,このロバスト性を改善する新しい手法を提案する。 実験では、異なるネットワークアーキテクチャやデータセットに適用される様々な種類の敵攻撃について取り上げる。 ネットワークモデルにバックドアやミスインジェクション攻撃を施すと,ボナフィドデータの限られた量を用いて学習した経路接続が,クリーンなデータに対する元の精度を維持しつつ,敵の効果を効果的に軽減できることを示す。 したがって、モード接続により、バックドアまたはエラーインジェクションモデルを修正することができる。 また、モード接続を利用して、レギュラーモデルやロバストモデルによる回避攻撃に対する損失状況を調べる。 実験により、正規モデルと逆訓練モデルを結ぶ経路に、逆ロバスト性損失の障壁があることが示されている。 逆ロバスト性損失と入力ヘッシ行列の最大固有値との間に高い相関が観測され、理論的な正当性が与えられる。 以上の結果から,モデム接続は,敵対的ロバスト性の評価と改善のためのツールであり,実用的な手段であることが示唆された。

Mode connectivity provides novel geometric insights on analyzing loss landscapes and enables building high-accuracy pathways between well-trained neural networks. In this work, we propose to employ mode connectivity in loss landscapes to study the adversarial robustness of deep neural networks, and provide novel methods for improving this robustness. Our experiments cover various types of adversarial attacks applied to different network architectures and datasets. When network models are tampered with backdoor or error-injection attacks, our results demonstrate that the path connection learned using limited amount of bonafide data can effectively mitigate adversarial effects while maintaining the original accuracy on clean data. Therefore, mode connectivity provides users with the power to repair backdoored or error-injected models. We also use mode connectivity to investigate the loss landscapes of regular and robust models against evasion attacks. Experiments show that there exists a barrier in adversarial robustness loss on the path connecting regular and adversarially-trained models. A high correlation is observed between the adversarial robustness loss and the largest eigenvalue of the input Hessian matrix, for which theoretical justifications are provided. Our results suggest that mode connectivity offers a holistic tool and practical means for evaluating and improving adversarial robustness.
翻訳日:2022-12-08 02:53:57 公開日:2020-07-03
# 変圧器アーキテクチャへの安定化ロテリチケット仮説の適用に成功

Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture ( http://arxiv.org/abs/2005.03454v2 )

ライセンス: Link先を確認
Christopher Brix, Parnia Bahar, Hermann Ney(参考訳) スパースモデルはストレージのメモリを少なくし、必要なFLOP数を減らして高速な推論を可能にする。 これは、ニューラルネットワークを用いた時間クリティカルな計算とオンデバイス計算の両方に関係している。 安定化抽選券仮説では、ネットワークは、未学習の収束モデルに基づいて計算されたマスクを使用して、無または数回のトレーニングイテレーションで刈り取ることができる。 トランスフォーマーアーキテクチャとWMT 2014英語-ドイツ語-英語-フランス語タスクでは、安定化された宝くじのプルーニングが最大85%のスパーシリティレベルでのスケールプルーニングと同じような性能を示し、さらに高いスパーシティレベルのために他のすべての技術より優れたプルーニング技術の組み合わせを提案する。 さらに、パラメータの初期符号が具体的ではなく、トレーニングを成功させる主要な要因であることを確認し、獲得した宝くじを見つけるために等級プルーニングを使用できることを示す。

Sparse models require less memory for storage and enable a faster inference by reducing the necessary number of FLOPs. This is relevant both for time-critical and on-device computations using neural networks. The stabilized lottery ticket hypothesis states that networks can be pruned after none or few training iterations, using a mask computed based on the unpruned converged model. On the transformer architecture and the WMT 2014 English-to-German and English-to-French tasks, we show that stabilized lottery ticket pruning performs similar to magnitude pruning for sparsity levels of up to 85%, and propose a new combination of pruning techniques that outperforms all other techniques for even higher levels of sparsity. Furthermore, we confirm that the parameter's initial sign and not its specific value is the primary factor for successful training, and show that magnitude pruning could be used to find winning lottery tickets.
翻訳日:2022-12-07 00:11:44 公開日:2020-07-03
# SCAN:ラベルなしでイメージを分類する学習

SCAN: Learning to Classify Images without Labels ( http://arxiv.org/abs/2005.12320v2 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, Luc Van Gool(参考訳) 地味なアノテーションがない場合、イメージを意味のあるクラスタに自動的にグループ化できますか? 教師なし画像分類のタスクは、コンピュータビジョンにおいて重要かつオープンな課題であり続けている。 最近のアプローチでは、この問題をエンドツーエンドで解決しようと試みている。 本稿では,最近の研究から逸脱し,特徴学習とクラスタリングを分離する2段階のアプローチを提唱する。 まず,表現学習による自己教師型タスクを用いて意味的意味的特徴の獲得を行う。 第2に,得られた特徴を学習可能なクラスタリングアプローチの先行として使用する。 これにより、現在のエンドツーエンド学習アプローチに存在する低レベル機能に依存するクラスタ学習の能力が排除される。 実験による評価では,最先端の手法,特にcifar10では+26.6%,cifar100-20では+25.0%,stl10では+21.3%を大きく上回っている。 さらに,本手法は,画像分類のための大規模データセットにおいて,最初にうまく機能する手法である。 特に,imagenetでは有望な結果が得られ,接地アノテーションを使わずに,低データ環境下での半教師付き学習手法よりも優れている。 コードはhttps://github.com/wvangansbeke/Unsupervised-Classificationで公開されている。

Can we automatically group images into semantically meaningful clusters when ground-truth annotations are absent? The task of unsupervised image classification remains an important, and open challenge in computer vision. Several recent approaches have tried to tackle this problem in an end-to-end fashion. In this paper, we deviate from recent works, and advocate a two-step approach where feature learning and clustering are decoupled. First, a self-supervised task from representation learning is employed to obtain semantically meaningful features. Second, we use the obtained features as a prior in a learnable clustering approach. In doing so, we remove the ability for cluster learning to depend on low-level features, which is present in current end-to-end learning approaches. Experimental evaluation shows that we outperform state-of-the-art methods by large margins, in particular +26.6% on CIFAR10, +25.0% on CIFAR100-20 and +21.3% on STL10 in terms of classification accuracy. Furthermore, our method is the first to perform well on a large-scale dataset for image classification. In particular, we obtain promising results on ImageNet, and outperform several semi-supervised learning methods in the low-data regime without the use of any ground-truth annotations. The code is made publicly available at https://github.com/wvangansbeke/Unsupervised-Classification.
翻訳日:2022-11-29 05:28:45 公開日:2020-07-03
# (地方)差動的にプライベートな組合せ半バンド

(Locally) Differentially Private Combinatorial Semi-Bandits ( http://arxiv.org/abs/2006.00706v2 )

ライセンス: Link先を確認
Xiaoyu Chen, Kai Zheng, Zixin Zhou, Yunchang Yang, Wei Chen, Liwei Wang(参考訳) 本稿では,差動プライバシー (dp) と強固な局所差動プライバシー (ldp) 設定下での古典的マルチアーム付きバンディット (mab) の拡張である組合せ半バンド (csb) について検討する。 サーバはcsbのユーザからより多くの情報を受信するので、通常はデータ次元に依存し、プライバシー保護学習の副作用として悪名高い。 しかし、2つの共通の平滑性仮定のcsbに対して、この副作用を取り除くことが可能であることを示す。 詳しくは、$b_{\infty}$-bounded smooth csb に対して、$\varepsilon$-ldp または $\varepsilon$-dp の下で、最適な後悔の限界は$\theta(\frac{mb^2_{\infty}\ln t } {\delta\epsilon^2})$ または $\tilde{\theta}(\frac{mb^2_{\infty}\ln t} { \delta\epsilon})$ である。 b_1$-bounded smooth csb に対して、$\varepsilon$-dp の下では、最適後悔境界は $\tilde{\theta}(\frac{mkb^2_1\ln t} {\delta\epsilon})$ であり、上界と下界の両方において、$k$ は各ラウンドにおけるフィードバックの最大数である。 上記の結果はすべて、対応する非プライベートな最適レートとほぼ一致しており、これは、(局所的に)微分プライベートなCSBを上記の一般的な設定で追加価格にしないことを意味する。

In this paper, we study Combinatorial Semi-Bandits (CSB) that is an extension of classic Multi-Armed Bandits (MAB) under Differential Privacy (DP) and stronger Local Differential Privacy (LDP) setting. Since the server receives more information from users in CSB, it usually causes additional dependence on the dimension of data, which is a notorious side-effect for privacy preserving learning. However for CSB under two common smoothness assumptions \cite{kveton2015tight,chen2016combinatorial}, we show it is possible to remove this side-effect. In detail, for $B_{\infty}$-bounded smooth CSB under either $\varepsilon$-LDP or $\varepsilon$-DP, we prove the optimal regret bound is $\Theta(\frac{mB^2_{\infty}\ln T } {\Delta\epsilon^2})$ or $\tilde{\Theta}(\frac{mB^2_{\infty}\ln T} { \Delta\epsilon})$ respectively, where $T$ is time period, $\Delta$ is the gap of rewards and $m$ is the number of base arms, by proposing novel algorithms and matching lower bounds. For $B_1$-bounded smooth CSB under $\varepsilon$-DP, we also prove the optimal regret bound is $\tilde{\Theta}(\frac{mKB^2_1\ln T} {\Delta\epsilon})$ with both upper bound and lower bound, where $K$ is the maximum number of feedback in each round. All above results nearly match corresponding non-private optimal rates, which imply there is no additional price for (locally) differentially private CSB in above common settings.
翻訳日:2022-11-26 06:04:48 公開日:2020-07-03
# 信頼性のある共分散推定

Reliable Covariance Estimation ( http://arxiv.org/abs/2006.03311v3 )

ライセンス: Link先を確認
Ilya Soloveychik(参考訳) 共分散や散乱行列推定は、現代の統計学や機械学習のアプリケーションで広く使われている。 ほとんどの実世界のデータセットは本質的にガウスではないため、このタスクは特に難しい。 データは異常値によって汚染されることが多いし、サンプルの共分散が非常に振る舞うことがあり、ロバストな推定法が求められている。 頑健な散乱行列推定の自然な枠組みは楕円型集団に基づいている。 ここでは、タイラーの推定器は楕円族内における分布自由であり、容易に計算できることで際立っている。 既存の研究は、楕円性を仮定したタイラーの推定器の性能を徹底的に研究しているが、共分散が事前に不明な場合にこの仮定を検証するツールを提供していない。 サンプルデータとデータ生成プロセスに先行していないことを考慮し、散乱行列推定器の品質を評価するにはどうすればよいか? 本研究では、単位球面上の交換可能ベクトルのある種の列に対する漸近的一様性テストとして、この問題を再構築できることを示す。 散乱行列が不明な場合, 楕円性に対する全ての代替品に対して一貫した, 容易に適用可能な適合性試験を開発する。 これらの結果は,提案手法のパワーを示す数値シミュレーションによって裏付けられる。

Covariance or scatter matrix estimation is ubiquitous in most modern statistical and machine learning applications. The task becomes especially challenging since most real-world datasets are essentially non-Gaussian. The data is often contaminated by outliers and/or has heavy-tailed distribution causing the sample covariance to behave very poorly and calling for robust estimation methodology. The natural framework for the robust scatter matrix estimation is based on elliptical populations. Here, Tyler's estimator stands out by being distribution-free within the elliptical family and easy to compute. The existing works thoroughly study the performance of Tyler's estimator assuming ellipticity but without providing any tools to verify this assumption when the covariance is unknown in advance. We address the following open question: Given the sampled data and having no prior on the data generating process, how to assess the quality of the scatter matrix estimator? In this work we show that this question can be reformulated as an asymptotic uniformity test for certain sequences of exchangeable vectors on the unit sphere. We develop a consistent and easily applicable goodness-of-fit test against all alternatives to ellipticity when the scatter matrix is unknown. The findings are supported by numerical simulations demonstrating the power of the suggest technique.
翻訳日:2022-11-25 04:37:45 公開日:2020-07-03
# 近似勾配TDアルゴリズムの有限サンプル解析

Finite-Sample Analysis of Proximal Gradient TD Algorithms ( http://arxiv.org/abs/2006.14364v2 )

ライセンス: Link先を確認
Bo Liu, Ji Liu, Mohammad Ghavamzadeh, Sridhar Mahadevan, Marek Petrik(参考訳) 本稿では,勾配時間差分学習(GTD)系のアルゴリズムの収束速度を解析する。 このタイプのアルゴリズムの以前の分析は、漸近収束を証明するためにODE技術を使用しており、私たちの知識の限りでは、有限サンプル解析は行われていない。 さらに、収束オフポリシー強化学習アルゴリズムの有限サンプル解析については、あまり研究されていない。 本稿では,GTD法を確率勾配アルゴリズム(w.r.t.~)として定式化し,その性能を有限サンプル境界とするサドル点誤差解析を行う。 GTD2とGTD2-MPという2つの改良されたアルゴリズムも提案されている。 理論解析の結果,GTDファミリーのアルゴリズムは,非政治的な学習シナリオにおける既存のLSTD手法と同等であることがわかった。

In this paper, we analyze the convergence rate of the gradient temporal difference learning (GTD) family of algorithms. Previous analyses of this class of algorithms use ODE techniques to prove asymptotic convergence, and to the best of our knowledge, no finite-sample analysis has been done. Moreover, there has been not much work on finite-sample analysis for convergent off-policy reinforcement learning algorithms. In this paper, we formulate GTD methods as stochastic gradient algorithms w.r.t.~a primal-dual saddle-point objective function, and then conduct a saddle-point error analysis to obtain finite-sample bounds on their performance. Two revised algorithms are also proposed, namely projected GTD2 and GTD2-MP, which offer improved convergence guarantees and acceleration, respectively. The results of our theoretical analysis show that the GTD family of algorithms are indeed comparable to the existing LSTD methods in off-policy learning scenarios.
翻訳日:2022-11-24 21:14:14 公開日:2020-07-03
# ビジュアルメタ強化学習における一般化の一考察

A Brief Look at Generalization in Visual Meta-Reinforcement Learning ( http://arxiv.org/abs/2006.07262v3 )

ライセンス: Link先を確認
Safa Alver, Doina Precup(参考訳) 高次元タスクを訓練した深層強化学習アルゴリズムがトレーニング環境に強く適合できることに気付き、これらのアルゴリズムの一般化性能を調査した研究がいくつか行われている。 しかし、メタ強化学習アルゴリズムなど、特に一般化のために設計されたアルゴリズムの一般化性能を評価する同様の研究は行われていない。 本稿では,高次元の手続き的環境を利用して,これらのアルゴリズムの一般化性能を評価する。 これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。 また,近年のメタ強化学習アルゴリズムでは,高次元タスクに対する疎度な報酬を伴うスケーラビリティが大きな問題となっている。 これらの結果から,一般化と拡張が可能なメタ強化学習アルゴリズムの開発の必要性を強調する。

Due to the realization that deep reinforcement learning algorithms trained on high-dimensional tasks can strongly overfit to their training environments, there have been several studies that investigated the generalization performance of these algorithms. However, there has been no similar study that evaluated the generalization performance of algorithms that were specifically designed for generalization, i.e. meta-reinforcement learning algorithms. In this paper, we assess the generalization performance of these algorithms by leveraging high-dimensional, procedurally generated environments. We find that these algorithms can display strong overfitting when they are evaluated on challenging tasks. We also observe that scalability to high-dimensional tasks with sparse rewards remains a significant problem among many of the current meta-reinforcement learning algorithms. With these results, we highlight the need for developing meta-reinforcement learning algorithms that can both generalize and scale.
翻訳日:2022-11-22 02:04:25 公開日:2020-07-03
# PraNet:polypセグメンテーションのための並列逆アテンションネットワーク

PraNet: Parallel Reverse Attention Network for Polyp Segmentation ( http://arxiv.org/abs/2006.11392v4 )

ライセンス: Link先を確認
Deng-Ping Fan, Ge-Peng Ji, Tao Zhou, Geng Chen, Huazhu Fu, Jianbing Shen, Ling Shao(参考訳) 大腸内視鏡は大腸癌と高い関連性を有する大腸ポリープの検出に有効な技術である。 臨床的には,大腸内視鏡像からのポリープの分画は診断や手術に有用な情報を提供するため重要である。 しかし、正確なポリプセグメンテーションは2つの大きな理由から難しい課題である。 (i)同じ種類のポリープは、大きさ、色、食感の多様性があり、 (ii)ポリープとその周囲の粘膜の境界は鋭くはない。 これらの課題に対処するために,大腸内視鏡像の正確なポリープ分割のための並列逆注意ネットワーク(PraNet)を提案する。 具体的には、並列部分復号器(PPD)を用いて、まず高層層に特徴を集約する。 複合機能に基づいて、以下のコンポーネントの最初のガイダンスエリアとしてグローバルマップを生成します。 さらに,エリアとバウンダリの関連性を確立するために,リバースアテンション(RA)モジュールを用いて境界キューをマイニングする。 エリアとバウンダリ間の繰り返し協調機構により、PraNetは、不整合予測を校正し、セグメンテーション精度を向上させることができる。 6つのメトリクスにわたる5つの挑戦的データセットの定量的および定性的な評価は、私たちのPraNetがセグメンテーションの精度を著しく改善し、一般化可能性、リアルタイムセグメンテーションの効率の点で多くの利点を示します。

Colonoscopy is an effective technique for detecting colorectal polyps, which are highly related to colorectal cancer. In clinical practice, segmenting polyps from colonoscopy images is of great importance since it provides valuable information for diagnosis and surgery. However, accurate polyp segmentation is a challenging task, for two major reasons: (i) the same type of polyps has a diversity of size, color and texture; and (ii) the boundary between a polyp and its surrounding mucosa is not sharp. To address these challenges, we propose a parallel reverse attention network (PraNet) for accurate polyp segmentation in colonoscopy images. Specifically, we first aggregate the features in high-level layers using a parallel partial decoder (PPD). Based on the combined feature, we then generate a global map as the initial guidance area for the following components. In addition, we mine the boundary cues using a reverse attention (RA) module, which is able to establish the relationship between areas and boundary cues. Thanks to the recurrent cooperation mechanism between areas and boundaries, our PraNet is capable of calibrating any misaligned predictions, improving the segmentation accuracy. Quantitative and qualitative evaluations on five challenging datasets across six metrics show that our PraNet improves the segmentation accuracy significantly, and presents a number of advantages in terms of generalizability, and real-time segmentation efficiency.
翻訳日:2022-11-21 21:25:44 公開日:2020-07-03
# PrimA6D: 強化とロバストな6次元姿勢推定のための回転原始的再構成

PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D Pose Estimation ( http://arxiv.org/abs/2006.07789v2 )

ライセンス: Link先を確認
Myung-Hwan Jeon and Ayoung Kim(参考訳) 本稿では,単一画像を用いた6次元物体ポーズ推定を入力として,回転プリミティブ予測を提案する。 カメラに対する既知物体の6次元物体ポーズについて,オクルージョンのある1枚の画像を用いて解く。 最近のSOTA(State-of-the-art)2段階アプローチでは、画像キーポイント抽出とPnP回帰を用いてポーズ推定を行っている。 オブジェクトのバウンディングボックスやキーポイントに頼る代わりに、向き付けによるプリミティブを学習し、オブジェクトサイズに関係なくポーズ推定精度を達成することを提案する。 変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。 次に、再構成されたプリミティブ画像から推測されるキーポイントを用いて、PnPを用いて回転を後退させる。 最後に, 6次元ポーズ推定を完結させるために, 別個のローカライズモジュールで翻訳を計算する。 公開データセットに対して評価すると、提案手法はLINEMOD、Occlusion LINEMOD、YCB-Videoデータセットよりも顕著に改善される。 さらに,学習段階の実際の画像を必要とする既存の手法に匹敵する性能を示す,合成専用訓練ケースを提供する。

In this paper, we introduce a rotational primitive prediction based 6D object pose estimation using a single image as an input. We solve for the 6D object pose of a known object relative to the camera using a single image with occlusion. Many recent state-of-the-art (SOTA) two-step approaches have exploited image keypoints extraction followed by PnP regression for pose estimation. Instead of relying on bounding box or keypoints on the object, we propose to learn orientation-induced primitive so as to achieve the pose estimation accuracy regardless of the object size. We leverage a Variational AutoEncoder (VAE) to learn this underlying primitive and its associated keypoints. The keypoints inferred from the reconstructed primitive image are then used to regress the rotation using PnP. Lastly, we compute the translation in a separate localization module to complete the entire 6D pose estimation. When evaluated over public datasets, the proposed method yields a notable improvement over the LINEMOD, the Occlusion LINEMOD, and the YCB-Video dataset. We further provide a synthetic-only trained case presenting comparable performance to the existing methods which require real images in the training phase.
翻訳日:2022-11-21 13:21:48 公開日:2020-07-03
# 円錐形状の漸進的検出と円筒制約を伴う運動構造に基づく3次元パイプネットワーク再構成

3D Pipe Network Reconstruction Based on Structure from Motion with Incremental Conic Shape Detection and Cylindrical Constraint ( http://arxiv.org/abs/2006.10383v2 )

ライセンス: Link先を確認
Sho kagami, Hajime Taira, Naoyuki Miyashita, Akihiko Torii, Masatoshi Okutomi(参考訳) パイプ検査は都市の多くの産業やインフラにとって重要な課題である。 検査中、管面の変形とカメラの位置を明らかにするために、パイプの3D情報を使用することができる。 本稿では,単眼内視鏡カメラで撮影された逐次画像を用いた3次元パイプ再構成システムを提案する。 本研究は,対象形状が与える事前制約をバンドル調整(ba)に組み込むために,最先端のインクリメンタル構造から移動(sfm)する手法を拡張した。 この制約を用いることで、SfMの一般的な問題であるスケールドリフトを最小化することができる。 さらに, 本手法では, ストレートパイプ, 肘, ティーを含む複数部分からなる管網を再構築することができる。 実験では,提案方式が従来手法と比較して,単眼カメラからより高精度でロバストなパイプマッピングを実現することを示す。

Pipe inspection is a critical task for many industries and infrastructure of a city. The 3D information of a pipe can be used for revealing the deformation of the pipe surface and position of the camera during the inspection. In this paper, we propose a 3D pipe reconstruction system using sequential images captured by a monocular endoscopic camera. Our work extends a state-of-the-art incremental Structure-from-Motion (SfM) method to incorporate prior constraints given by the target shape into bundle adjustment (BA). Using this constraint, we can minimize the scale-drift that is the general problem in SfM. Moreover, our method can reconstruct a pipe network composed of multiple parts including straight pipes, elbows, and tees. In the experiments, we show that the proposed system enables more accurate and robust pipe mapping from a monocular camera in comparison with existing state-of-the-art methods.
翻訳日:2022-11-19 13:49:10 公開日:2020-07-03
# AdvAug: ニューラルネットワーク翻訳のためのロバスト対応強化

AdvAug: Robust Adversarial Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2006.11834v3 )

ライセンス: Link先を確認
Yong Cheng, Lu Jiang, Wolfgang Macherey, Jacob Eisenstein(参考訳) 本稿では,ニューラルマシン翻訳(nmt)のための新しい相反的拡張法を提案する。 主なアイデアは、観察された訓練文ペアを中心とした滑らかな補間埋め込み空間を記述する敵文の新しい周辺分布が重要な2つの周辺分布からサンプリングされた仮想文に対する勝利リスクを最小化することである。 そこで本研究では,逐次学習における仮想文の埋め込みを用いたnmtモデルの学習手法であるadvaugについて述べる。 中国語、英語、フランス語、ドイツ語の翻訳ベンチマークの実験では、AdvAugはトランスフォーマー(最大4.9 BLEUポイント)よりも大幅に改善され、余分なコーパスを使わずに他のデータ拡張技術(例えば、バックトランスレーション)よりも大幅に向上している。

In this paper, we propose a new adversarial augmentation method for Neural Machine Translation (NMT). The main idea is to minimize the vicinal risk over virtual sentences sampled from two vicinity distributions, of which the crucial one is a novel vicinity distribution for adversarial sentences that describes a smooth interpolated embedding space centered around observed training sentence pairs. We then discuss our approach, AdvAug, to train NMT models using the embeddings of virtual sentences in sequence-to-sequence learning. Experiments on Chinese-English, English-French, and English-German translation benchmarks show that AdvAug achieves significant improvements over the Transformer (up to 4.9 BLEU points), and substantially outperforms other data augmentation techniques (e.g. back-translation) without using extra corpora.
翻訳日:2022-11-18 12:16:25 公開日:2020-07-03
# 放射基底関数のSch\"{o}nberg測度を学習するための平均場理論

A Mean-Field Theory for Learning the Sch\"{o}nberg Measure of Radial Basis Functions ( http://arxiv.org/abs/2006.13330v2 )

ライセンス: Link先を確認
Masoud Badiei Khuzani, Yinyu Ye, Sandy Napel, Lei Xing(参考訳) 我々は、トレーニングサンプルから放射基底関数のSch\"{o}nberg積分表現の分布を学習するために、射影粒子ランゲヴィン最適化法を開発し、解析する。 より具体的には、分布的に頑健な最適化法をワッサーシュタイン距離に対して特徴付け、Sch\"{o}nberg積分表現の分布を最適化する。 理論的性能保証を提供するため,平均場環境における投影粒子オンライン(確率的)最適化手法のスケーリング限界を解析する。 特に、スケーリング限界において、ランゲヴィン粒子の経験的測度が、反射した It\^{o} 拡散ドリフト過程の法則に収束することを証明する。 さらに、ドリフトは基礎となるプロセスの法則の関数でもある。 半マルティンガレとグリサノフのウィナー過程における測度変化に対する I\^{o} レムマを用いて、平均場状態における射影ランゲヴィン粒子の経験的測度の進化を記述するロビン境界条件を持つ Mckean-Vlasov 型偏微分方程式 (PDE) を導出する。 さらに、導出されたPDEの定常解の存在と特異性を弱い意味で確立する。 我々は,カーネル局所機密ハッシュ(lsh)関数におけるラジアルカーネルのトレーニングに学習アプローチを適用し,トレーニングデータセットは,データベースのごく一部に$k$-meanクラスタリング手法を用いて生成する。 その後,mnistデータセット上の画像検索タスクにカーネルlshを訓練したカーネルに適用し,カーネル学習手法の有効性を実証した。 また、ベンチマークデータセットの分類にカーネルサポートベクトルマシン(SVM)とともにカーネル学習アプローチを適用した。

We develop and analyze a projected particle Langevin optimization method to learn the distribution in the Sch\"{o}nberg integral representation of the radial basis functions from training samples. More specifically, we characterize a distributionally robust optimization method with respect to the Wasserstein distance to optimize the distribution in the Sch\"{o}nberg integral representation. To provide theoretical performance guarantees, we analyze the scaling limits of a projected particle online (stochastic) optimization method in the mean-field regime. In particular, we prove that in the scaling limits, the empirical measure of the Langevin particles converges to the law of a reflected It\^{o} diffusion-drift process. Moreover, the drift is also a function of the law of the underlying process. Using It\^{o} lemma for semi-martingales and Grisanov's change of measure for the Wiener processes, we then derive a Mckean-Vlasov type partial differential equation (PDE) with Robin boundary conditions that describes the evolution of the empirical measure of the projected Langevin particles in the mean-field regime. In addition, we establish the existence and uniqueness of the steady-state solutions of the derived PDE in the weak sense. We apply our learning approach to train radial kernels in the kernel locally sensitive hash (LSH) functions, where the training data-set is generated via a $k$-mean clustering method on a small subset of data-base. We subsequently apply our kernel LSH with a trained kernel for image retrieval task on MNIST data-set, and demonstrate the efficacy of our kernel learning approach. We also apply our kernel learning approach in conjunction with the kernel support vector machines (SVMs) for classification of benchmark data-sets.
翻訳日:2022-11-17 23:01:28 公開日:2020-07-03
# 分布マッチングに基づくドメイン適応の再考

Rethinking Distributional Matching Based Domain Adaptation ( http://arxiv.org/abs/2006.13352v2 )

ライセンス: Link先を確認
Bo Li, Yezhen Wang, Tong Che, Shanghang Zhang, Sicheng Zhao, Pengfei Xu, Wei Zhou, Yoshua Bengio, Kurt Keutzer(参考訳) ドメイン適応(DA)は、ラベル付きソースドメインでトレーニングされた予測モデルをラベルなしターゲットドメインに転送する手法であり、ドメイン間の分散シフトを解決するのが困難である。 現在、最も一般的なDAアルゴリズムは分散マッチング(DM)に基づいている。 しかし実際には、現実的なドメインシフト(RDS)は基本的な前提に反し、結果としてこれらの手法は失敗する。 本稿では,daアルゴリズムを頑健なものにするために,まずdmベース手法の限界を体系的に解析し,さらによりリアルな領域シフトを用いた新しいベンチマークを構築し,よく認識されたdm法を評価する。 さらに,ロバストDAのための新しいインスタンスベースの予測行動マッチング手法InstaPBMを提案する。 DM手法の限界とInstaPBMの有効性の両面での広範な実験: 最高のベースラインと比較すると、InstaPBMはDigits5, VisDA2017, 2,2 %$, $2.9 %$, $3.6 %$, DomainNet-LDS, DomainNet-ILDS, ID-TwOの各分類精度を4.5 %$, $3.9 %$で改善している。 直感的で効果的な手法が有用な新しい方向性となり、実際のシナリオでdaの堅牢性を高めることを願っています。 コードは匿名リンクで入手できる。 https://github.com/pikachusocute/InstaPBM-RobustDA。

Domain adaptation (DA) is a technique that transfers predictive models trained on a labeled source domain to an unlabeled target domain, with the core difficulty of resolving distributional shift between domains. Currently, most popular DA algorithms are based on distributional matching (DM). However in practice, realistic domain shifts (RDS) may violate their basic assumptions and as a result these methods will fail. In this paper, in order to devise robust DA algorithms, we first systematically analyze the limitations of DM based methods, and then build new benchmarks with more realistic domain shifts to evaluate the well-accepted DM methods. We further propose InstaPBM, a novel Instance-based Predictive Behavior Matching method for robust DA. Extensive experiments on both conventional and RDS benchmarks demonstrate both the limitations of DM methods and the efficacy of InstaPBM: Compared with the best baselines, InstaPBM improves the classification accuracy respectively by $4.5\%$, $3.9\%$ on Digits5, VisDA2017, and $2.2\%$, $2.9\%$, $3.6\%$ on DomainNet-LDS, DomainNet-ILDS, ID-TwO. We hope our intuitive yet effective method will serve as a useful new direction and increase the robustness of DA in real scenarios. Code will be available at anonymous link: https://github.com/pikachusocute/InstaPBM-RobustDA.
翻訳日:2022-11-17 22:26:11 公開日:2020-07-03
# グラディエント誘導サンプリングによる脳腫瘍像の示唆的アノテーション

Suggestive Annotation of Brain Tumour Images with Gradient-guided Sampling ( http://arxiv.org/abs/2006.14984v2 )

ライセンス: Link先を確認
Chengliang Dai, Shuo Wang, Yuanhan Mo, Kaichen Zhou, Elsa Angelini, Yike Guo, and Wenjia Bai(参考訳) 近年,画像のセグメンテーションや分類作業において有望な性能を持つ機械学習が医療画像解析に広く採用されている。 データ駆動科学として、機械学習、特に教師付き学習の成功は、主に手動の注釈付きデータセットの可用性に依存している。 医用イメージングアプリケーションでは、このような注釈付きデータセットは容易に取得できない。 注釈付き医療画像セットをキュレートするにはかなりの時間とリソースが必要です。 本稿では,脳腫瘍画像に対する効率的なアノテーションフレームワークを提案する。 実験の結果,BraTS 2019データセットからの注釈付き患者スキャンをわずか19%としたセグメンテーションモデルのトレーニングは,腫瘍セグメンテーション全体のデータセット上でのモデルトレーニングと同等のパフォーマンスを達成できることがわかった。 これは、手動のアノテーションコストを節約し、医療画像アプリケーションにおけるデータ効率を改善するための有望な方法を示す。

Machine learning has been widely adopted for medical image analysis in recent years given its promising performance in image segmentation and classification tasks. As a data-driven science, the success of machine learning, in particular supervised learning, largely depends on the availability of manually annotated datasets. For medical imaging applications, such annotated datasets are not easy to acquire. It takes a substantial amount of time and resource to curate an annotated medical image set. In this paper, we propose an efficient annotation framework for brain tumour images that is able to suggest informative sample images for human experts to annotate. Our experiments show that training a segmentation model with only 19% suggestively annotated patient scans from BraTS 2019 dataset can achieve a comparable performance to training a model on the full dataset for whole tumour segmentation task. It demonstrates a promising way to save manual annotation cost and improve data efficiency in medical imaging applications.
翻訳日:2022-11-16 21:38:49 公開日:2020-07-03
# LSTMとGPT-2による話者認識のための音声合成学習

LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker Recognition to Overcome Data Scarcity ( http://arxiv.org/abs/2007.00659v2 )

ライセンス: Link先を確認
Jordan J. Bird, Diego R. Faria, Anik\'o Ek\'art, Cristiano Premebida, Pedro P. S. Ayrosa(参考訳) 音声認識問題において、データの不足は、学習と分類のために大量のデータを提供する人間の意志によってしばしば問題となる。 本研究では、7人の被験者から5つのハーバードの文章を抽出し、そのMFCC属性について考察する。 文字レベルLSTM(教師付き学習)とOpenAIの注意に基づくGPT-2モデルを用いて、オブジェクトごとのデータから合成MFCCを生成する。 ニューラルネットワークは、flickr8kスピーカーの大規模なデータセットに対してデータを分類するように訓練され、同じタスクを実行する転送学習ネットワークと比較されるが、この2つのモデルによって生成された合成データから学習により、初期重み分布が決定される。 その結果,合成データに曝露したネットワーク,LSTMデータで事前学習したモデルが3回,GPT-2が5回,GPT-2が1回のドローで最高の結果を得た。 これらの結果から,少数のユーザデータを活用することで話者分類を改善することができるが,合成されたmfccに曝露することで,ネットワークの最大分類スコアを最大にすることができると主張している。

In speech recognition problems, data scarcity often poses an issue due to the willingness of humans to provide large amounts of data for learning and classification. In this work, we take a set of 5 spoken Harvard sentences from 7 subjects and consider their MFCC attributes. Using character level LSTMs (supervised learning) and OpenAI's attention-based GPT-2 models, synthetic MFCCs are generated by learning from the data provided on a per-subject basis. A neural network is trained to classify the data against a large dataset of Flickr8k speakers and is then compared to a transfer learning network performing the same task but with an initial weight distribution dictated by learning from the synthetic data generated by the two models. The best result for all of the 7 subjects were networks that had been exposed to synthetic data, the model pre-trained with LSTM-produced data achieved the best result 3 times and the GPT-2 equivalent 5 times (since one subject had their best result from both models at a draw). Through these results, we argue that speaker classification can be improved by utilising a small amount of user data but with exposure to synthetically-generated MFCCs which then allow the networks to achieve near maximum classification scores.
翻訳日:2022-11-15 00:02:50 公開日:2020-07-03
# 条件付き判別器プールと逆三重項損失を用いた年齢指向顔合成

Age-Oriented Face Synthesis with Conditional Discriminator Pool and Adversarial Triplet Loss ( http://arxiv.org/abs/2007.00792v2 )

ライセンス: Link先を確認
Haoyi Wang, Victor Sanchez, Chang-Tsun Li(参考訳) vanilla Generative Adversarial Networks (GAN) は、一般的に、老朽化と再生した顔を描いた現実的な画像を生成するために使用される。 しかし、年齢指向の顔合成タスクにおけるこのようなバニラGANの性能は、モード崩壊問題によってしばしば損なわれる。 さらに、近年の年齢指向顔合成法では、L1またはL2制約を用いて合成顔の識別情報を保存し、これらの制約が自明な重み付け因子に関連付けられている場合に、暗黙的に恒常性を制限している。 本稿では,年齢指向顔合成タスクにおいて,高い同一性を持つ高い合成精度を実現する手法を提案する。 具体的には,高い合成精度を達成するために,複数の識別器からなる新しい条件付き判別器プール(cdp)を用いて,それぞれが特定の年齢カテゴリを対象とするモード崩壊問題に取り組む。 強い同一性持続能力を達成するために,新しい逆三重項損失を用いる。 この損失はトリプルト損失に基づいており、アンカー埋め込みへの正の埋め込みをさらに引くようにランキング演算を加え、特徴空間におけるクラス内分散を著しく減少させる。 実験により,提案手法は, 定性的かつ定量的に, 合成精度と恒常性を両立させ, 最先端の手法より優れていることを示す。

The vanilla Generative Adversarial Networks (GAN) are commonly used to generate realistic images depicting aged and rejuvenated faces. However, the performance of such vanilla GANs in the age-oriented face synthesis task is often compromised by the mode collapse issue, which may result in the generation of faces with minimal variations and a poor synthesis accuracy. In addition, recent age-oriented face synthesis methods use the L1 or L2 constraint to preserve the identity information on synthesized faces, which implicitly limits the identity permanence capabilities when these constraints are associated with a trivial weighting factor. In this paper, we propose a method for the age-oriented face synthesis task that achieves a high synthesis accuracy with strong identity permanence capabilities. Specifically, to achieve a high synthesis accuracy, our method tackles the mode collapse issue with a novel Conditional Discriminator Pool (CDP), which consists of multiple discriminators, each targeting one particular age category. To achieve strong identity permanence capabilities, our method uses a novel Adversarial Triplet loss. This loss, which is based on the Triplet loss, adds a ranking operation to further pull the positive embedding towards the anchor embedding resulting in significantly reduced intra-class variances in the feature space. Through extensive experiments, we show that our proposed method outperforms state-of-the-art methods in terms of synthesis accuracy and identity permanence capabilities, qualitatively and quantitatively.
翻訳日:2022-11-14 23:19:39 公開日:2020-07-03
# ディープラーニングの対向的ロバストネスの機会と課題--調査から

Opportunities and Challenges in Deep Learning Adversarial Robustness: A Survey ( http://arxiv.org/abs/2007.00753v2 )

ライセンス: Link先を確認
Samuel Henrique Silva and Peyman Najafirad(参考訳) 仮想および制御されたドメインを超えて機械学習モデルを展開しようとするとき、ほとんどの時間で機能する正確性や事実だけでなく、もしそのようなモデルが本当に堅牢で信頼性があるなら、分析することが重要です。 本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装する戦略について検討する。 敵の攻撃と防御を分類し、min-max設定で頑健な最適化問題を定式化し、敵の訓練、正規化アプローチ、認定防衛という3つのサブカテゴリに分類する分類法を提供する。 本研究は,攻撃事例生成の最も最近かつ重要な結果である,攻撃者(再)訓練を伴う防御機構を摂動に対する主要な防御として検討する。 また,勾配の挙動を変える正規化項を加え,攻撃者が目的を達成するのを難しくするモソードについても調査した。 あるいは,最適化問題を正確に解いたり,上境界や下限を用いて近似することで,ロバスト性の証明を公式に導出する手法を調査した。 さらに,今後の研究展望を示す最近のアルゴリズムのほとんどが直面する課題についても論じる。

As we seek to deploy machine learning models beyond virtual and controlled domains, it is critical to analyze not only the accuracy or the fact that it works most of the time, but if such a model is truly robust and reliable. This paper studies strategies to implement adversary robustly trained algorithms towards guaranteeing safety in machine learning algorithms. We provide a taxonomy to classify adversarial attacks and defenses, formulate the Robust Optimization problem in a min-max setting and divide it into 3 subcategories, namely: Adversarial (re)Training, Regularization Approach, and Certified Defenses. We survey the most recent and important results in adversarial example generation, defense mechanisms with adversarial (re)Training as their main defense against perturbations. We also survey mothods that add regularization terms that change the behavior of the gradient, making it harder for attackers to achieve their objective. Alternatively, we've surveyed methods which formally derive certificates of robustness by exactly solving the optimization problem or by approximations using upper or lower bounds. In addition, we discuss the challenges faced by most of the recent algorithms presenting future research perspectives.
翻訳日:2022-11-14 21:42:18 公開日:2020-07-03
# WOLのクライミング:チェアパー推論のトレーニング

Climbing the WOL: Training for Cheaper Inference ( http://arxiv.org/abs/2007.01230v2 )

ライセンス: Link先を確認
Zichang Liu, Zhaozhuo Xu, Alan Ji, Jonathan Li, Beidi Chen, Anshumali Shrivastava(参考訳) 広出力層(WOL)の効率的な推論は、大規模機械学習において不可欠だが難しい課題である。 ほとんどの手法は、与えられたモデルに対して、基底真理ラベルが完全なモデル推論中に最も高い値のロジットに対応するという観察に大きく依存する最大内積探索(MIPS)にこの問題を還元する。 しかし、実際にはそのような仮定は限定的である。 本稿では, 近似mipsサブルーチンは, サブ線形計算時間を持つにもかかわらず, 正しいラベルを検索するのではなく, 高いリコール率で大きな内積を取り出すために調整されているため, サブ最適であると主張する。 WOLでは、ラベルは中程度の内部積を持つことが多く、MIPSの近似はより困難である。 そこで本研究では,ラベルの検索を適切に行うためにシステムを調整することを目的として,LSS (Label Superior Sampling) と呼ばれる別の問題の定式化を提案する。 そこで本研究では,MIPSベースラインよりもはるかに効率が高く,推論精度が高い学習ハッシュ手法を提案する。 以上の結果から,LSSは全推定精度を約5倍に向上し,エネルギー効率を87%向上させることができた。

Efficient inference for wide output layers (WOLs) is an essential yet challenging task in large scale machine learning. Most approaches reduce this problem to approximate maximum inner product search (MIPS), which relies heavily on the observation that for a given model, ground truth labels correspond to logits of highest value during full model inference. However, such an assumption is restrictive in practice. In this paper, we argue that approximate MIPS subroutines, despite having sub-linear computation time, are sub-optimal because they are tailored for retrieving large inner products with high recall instead of retrieving the correct labels. With WOL, the labels often have moderate inner products, which makes approximate MIPS more challenging. We propose an alternative problem formulation, called Label Superior Sampling (LSS), where the objective is to tailor the system to ensure retrieval of the correct label. Accordingly, we propose a novel learned hash approach, which is significantly more efficient and sufficient for high inference accuracy than MIPS baselines. Our extensive evaluation indicates that LSS can match or even outperform full inference accuracy with around 5x speed up and 87% energy reduction.
翻訳日:2022-11-14 14:55:44 公開日:2020-07-03
# Lightme: メンタルヘルスのためのインターネットサポートグループにおける言語分析

Lightme: Analysing Language in Internet Support Groups for Mental Health ( http://arxiv.org/abs/2007.00824v2 )

ライセンス: Link先を確認
Gabriela Ferraro and Brendan Loo Gee and Shenjia Ji and Luis Salvador-Carulla(参考訳) 背景:インターネット支援グループにおける有害なポストをトリアージするためのモデレーターの支援は、安全な使用を保証するために重要である。 オンラインフォーラムの投稿で表現された言語を分析する自動テキスト分類法は有望な解決策である。 方法: 自然言語処理と機械学習技術を用いて、若者向けのリーチアウトメンタルヘルスフォーラムのデータセットを用いたトリアージポスト分類器を構築した。 結果: 現状技術と比較した場合, 主に語彙資源の特徴に基づくソリューションは, 危機ポスト(52%)において, 最良分類性能(52%)を得た。 6つの言語学的特徴が危機時の立場から発見された。 1)無希望を表すポスト 2)ネガティブな反応を簡潔に表現する短い投稿 3)感情のバリエーションを表現した長い投稿 4) 利用可能な医療サービスに対する不満を表す投稿 5)ストーリーテリングを利用したポスト、及び 6)危機時に仲間からアドバイスを求めるユーザーを表現する投稿。 結論: 記事のテクストコンテンツのみから派生した特徴を用いて,競合的トリアージ分類器を構築することが可能である。 全体的なパフォーマンスを改善するために、量的、質的な発見を特徴に翻訳するために、さらなる研究を行う必要があります。

Background: Assisting moderators to triage harmful posts in Internet Support Groups is relevant to ensure its safe use. Automated text classification methods analysing the language expressed in posts of online forums is a promising solution. Methods: Natural Language Processing and Machine Learning technologies were used to build a triage post classifier using a dataset from Reachout mental health forum for young people. Results: When comparing with the state-of-the-art, a solution mainly based on features from lexical resources, received the best classification performance for the crisis posts (52%), which is the most severe class. Six salient linguistic characteristics were found when analysing the crisis post; 1) posts expressing hopelessness, 2) short posts expressing concise negative emotional responses, 3) long posts expressing variations of emotions, 4) posts expressing dissatisfaction with available health services, 5) posts utilising storytelling, and 6) posts expressing users seeking advice from peers during a crisis. Conclusion: It is possible to build a competitive triage classifier using features derived only from the textual content of the post. Further research needs to be done in order to translate our quantitative and qualitative findings into features, as it may improve overall performance.
翻訳日:2022-11-14 13:07:45 公開日:2020-07-03
# MPLP: メッセージパッシング学習プロトコルの学習

MPLP: Learning a Message Passing Learning Protocol ( http://arxiv.org/abs/2007.00970v2 )

ライセンス: Link先を確認
Ettore Randazzo, Eyvind Niklasson, Alexander Mordvintsev(参考訳) 本稿では,ニューラルネットワークの重みを学習する新しい手法として,メッセージパッシング学習プロトコル(MPLP)を提案する。 MPLPでは、ANNで発生する全ての操作を独立したエージェントとして抽象化する。 各エージェントは、他のエージェントからやってくる多次元メッセージを取り込み、内部状態を更新し、近隣エージェントに渡される多次元メッセージを生成する。 我々は,単純なフィードフォワードニューラルネットワークに対する従来の勾配に基づくアプローチとは対照的に,mplpの実現可能性を示し,非伝統的なニューラルネットワークアーキテクチャに一般化可能なフレームワークを提案する。 MPLPは、エンドツーエンドの勾配に基づくメタ最適化を用いてメタ学習される。 さらに,MPLPの観測特性について考察し,様々な深層学習分野への適用性を仮定する。

We present a novel method for learning the weights of an artificial neural network - a Message Passing Learning Protocol (MPLP). In MPLP, we abstract every operations occurring in ANNs as independent agents. Each agent is responsible for ingesting incoming multidimensional messages from other agents, updating its internal state, and generating multidimensional messages to be passed on to neighbouring agents. We demonstrate the viability of MPLP as opposed to traditional gradient-based approaches on simple feed-forward neural networks, and present a framework capable of generalizing to non-traditional neural network architectures. MPLP is meta learned using end-to-end gradient-based meta-optimisation. We further discuss the observed properties of MPLP and hypothesize its applicability on various fields of deep learning.
翻訳日:2022-11-14 12:51:10 公開日:2020-07-03
# Deep-PowerX:低消費電力近似論理合成のためのディープラーニングベースのフレームワーク

Deep-PowerX: A Deep Learning-Based Framework for Low-Power Approximate Logic Synthesis ( http://arxiv.org/abs/2007.01465v1 )

ライセンス: Link先を確認
Ghasem Pasandi and Mackenzie Peterson and Moises Herrera and Shahin Nazarian and Massoud Pedram(参考訳) 本稿では,Deep Learning, Approximate Computing, Low Power Designという3つの強力な技術を統合することを目的としている。 我々はディープラーニングの進歩を利用して近似論理合成エンジンを誘導し、所定のディジタルCMOS回路の動的消費電力を最小限に抑える。 我々のフレームワークであるDeep-PowerXは、テクノロジーマップされたネットワーク上のゲートの交換や削除に重点を置いており、Deep Neural Network (DNN) を用いて、ネットリストの特定の部分が近似されたときに回路の一次出力におけるエラー率を予測する。 deep-powerxの第一の目的はダイナミックパワーを減らすことであり、一方エリアの縮小は二次的な目的である。 このDNNを用いて、Deep-PowerXは標準近似論理合成の指数時間複雑性を線形時間に短縮することができる。 多数のオープンソースベンチマーク回路で実験が行われている。 その結果、正確な解に比べて電力と面積が最大1.47倍、正確な解が1.43倍、最先端の近似論理合成ツールと比較して最大22%と27%減少し、実行時間は桁違いに減少した。

This paper aims at integrating three powerful techniques namely Deep Learning, Approximate Computing, and Low Power Design into a strategy to optimize logic at the synthesis level. We utilize advances in deep learning to guide an approximate logic synthesis engine to minimize the dynamic power consumption of a given digital CMOS circuit, subject to a predetermined error rate at the primary outputs. Our framework, Deep-PowerX, focuses on replacing or removing gates on a technology-mapped network and uses a Deep Neural Network (DNN) to predict error rates at primary outputs of the circuit when a specific part of the netlist is approximated. The primary goal of Deep-PowerX is to reduce the dynamic power whereas area reduction serves as a secondary objective. Using the said DNN, Deep-PowerX is able to reduce the exponential time complexity of standard approximate logic synthesis to linear time. Experiments are done on numerous open source benchmark circuits. Results show significant reduction in power and area by up to 1.47 times and 1.43 times compared to exact solutions and by up to 22% and 27% compared to state-of-the-art approximate logic synthesis tools while having orders of magnitudes lower run-time.
翻訳日:2022-11-14 06:14:38 公開日:2020-07-03
# 絡み合ったグラフ協調フィルタリング

Disentangled Graph Collaborative Filtering ( http://arxiv.org/abs/2007.01764v1 )

ライセンス: Link先を確認
Xiang Wang, Hongye Jin, An Zhang, Xiangnan He, Tong Xu, Tat-Seng Chua(参考訳) インタラクションデータからユーザとアイテムの情報表現を学ぶことは、コラボレーティブフィルタリング(cf)にとって非常に重要である。 現在の埋め込み関数は、ユーザ-itemの関係を利用して表現を豊かにし、単一のユーザ-itemインスタンスから全体的相互作用グラフへと進化する。 それにもかかわらず、彼らは主に、時間、関心のために、または家族のような他の人々のために買い物をする可能性のあるアイテムを採用することに対するユーザの意図の多様性を無視しながら、一様に関係をモデル化した。 このようなユーザの関心をモデル化するための統一的なアプローチは、サブオプティカルな表現に簡単につながり、多様な関係のモデル化や、表現におけるユーザの意図の不一致を損なう。 本稿では,ユーザの意図の細かな粒度において,ユーザとテーマの関係に特に注目する。 そこで我々は,これらの因子を分解し,不等角化表現を生成する新しいモデルである不等角化グラフ協調フィルタリング(dgcf)を考案する。 具体的には,各ユーザ・コンテンツ間インタラクションのインテント上の分布をモデル化することにより,インテント・アウェアなインタラクショングラフと表現を反復的に洗練する。 一方、我々は異なる意図の独立を奨励する。 これにより、絡み合った表現が生じ、各意図に関連する情報を効果的に蒸留する。 我々は3つのベンチマークデータセットについて広範な実験を行い、dgcfはngcf、disengcn、macridvaeといった最先端モデルに対して大幅な改善を達成している。 さらなる分析により、DGCFの利点がユーザ意図の絡み合いと表現の解釈可能性に影響を与えている。 私たちのコードはhttps://github.com/xiangwang1223/disentangled_graph_collaborative_filteringで利用可能です。

Learning informative representations of users and items from the interaction data is of crucial importance to collaborative filtering (CF). Present embedding functions exploit user-item relationships to enrich the representations, evolving from a single user-item instance to the holistic interaction graph. Nevertheless, they largely model the relationships in a uniform manner, while neglecting the diversity of user intents on adopting the items, which could be to pass time, for interest, or shopping for others like families. Such uniform approach to model user interests easily results in suboptimal representations, failing to model diverse relationships and disentangle user intents in representations. In this work, we pay special attention to user-item relationships at the finer granularity of user intents. We hence devise a new model, Disentangled Graph Collaborative Filtering (DGCF), to disentangle these factors and yield disentangled representations. Specifically, by modeling a distribution over intents for each user-item interaction, we iteratively refine the intent-aware interaction graphs and representations. Meanwhile, we encourage independence of different intents. This leads to disentangled representations, effectively distilling information pertinent to each intent. We conduct extensive experiments on three benchmark datasets, and DGCF achieves significant improvements over several state-of-the-art models like NGCF, DisenGCN, and MacridVAE. Further analyses offer insights into the advantages of DGCF on the disentanglement of user intents and interpretability of representations. Our codes are available in https://github.com/xiangwang1223/disentangled_graph_collaborative_filtering.
翻訳日:2022-11-14 06:13:59 公開日:2020-07-03
# CacheNet:エッジ上でのディープラーニング推論のためのモデルキャッシュフレームワーク

CacheNet: A Model Caching Framework for Deep Learning Inference on the Edge ( http://arxiv.org/abs/2007.01793v1 )

ライセンス: Link先を確認
Yihao Fang, Shervin Manzuri Shalmani, and Rong Zheng(参考訳) 画像分類や音声認識といった機械学習応用におけるディープニューラルネットワーク(DNN)の成功は、高い計算とストレージの複雑さを犠牲にしている。 圧縮されていない大規模DNNモデルはクラウド上でのみ、クラウドとエンドデバイス間の通信遅延が増大する一方、圧縮されたDNNモデルは、予測精度の低い価格で、エンドデバイス上でリアルタイムの推論を実現する。 待ち時間と正確性の両方を最大限に活用するために、モデルキャッシングフレームワークであるCacheNetを提案します。 CacheNetは、エンドデバイス上の低複雑さモデルとエッジまたはクラウドサーバ上の高複雑さ(あるいはフル)モデルをキャッシュする。 ストリーミングデータの時間的局所性を利用して、高いキャッシュヒットと結果として短いレイテンシを実現することができ、予測精度を極端に低下させることなく実現できる。 CIFAR-10とFVGの実験によると、CacheNetは、エンドデバイスやエッジサーバだけで推論タスクを実行するベースラインアプローチよりも58-217%高速である。

The success of deep neural networks (DNN) in machine perception applications such as image classification and speech recognition comes at the cost of high computation and storage complexity. Inference of uncompressed large scale DNN models can only run in the cloud with extra communication latency back and forth between cloud and end devices, while compressed DNN models achieve real-time inference on end devices at the price of lower predictive accuracy. In order to have the best of both worlds (latency and accuracy), we propose CacheNet, a model caching framework. CacheNet caches low-complexity models on end devices and high-complexity (or full) models on edge or cloud servers. By exploiting temporal locality in streaming data, high cache hit and consequently shorter latency can be achieved with no or only marginal decrease in prediction accuracy. Experiments on CIFAR-10 and FVG have shown CacheNet is 58-217% faster than baseline approaches that run inference tasks on end devices or edge servers alone.
翻訳日:2022-11-14 06:13:33 公開日:2020-07-03
# Dalek -- TARDISのディープラーニングエミュレータ

Dalek -- a deep-learning emulator for TARDIS ( http://arxiv.org/abs/2007.01868v1 )

ライセンス: Link先を確認
Wolfgang E. Kerzendorf, Christian Vogl, Johannes Buchner, Gabriella Contardo, Marc Williamson, Patrick van der Smagt(参考訳) 超新星のスペクトル時系列は、これらのエネルギーイベントの前駆者および爆発過程に関する豊富な情報を含んでいる。 これらのデータのモデリングには、高価なラジエーション転送符号を持つ非常に高次元の後方確率の探索が必要である。 超新星の穏やかなパラメトリゼーションでさえ10以上のパラメータを含み、詳細な探査には少なくとも数百万の関数評価が必要である。 物理的に現実的なモデルでは、評価毎に少なくとも数十CPU分を要し、爆発の詳細な再構築を従来の手法から外している。 ニューラルネットワークのトレーニングのための広く利用可能なライブラリの出現と、ほぼ任意の関数を高精度で近似する能力を組み合わせることで、この問題に対する新たなアプローチが可能になる。 放射転送モデル自体を評価する代わりに、シミュレーションに基づいてトレーニングされたニューラルネットワークプロキシを構築することができる。 そのようなフレームワークはエミュレータまたはサロゲートモデルと呼ばれる。 本稿では,Ia型超新星スペクトルに適用したTARDIS超新星放射転送符号のエミュレータについて述べる。 数十万のスペクトル(現代のスーパーコンピュータで容易に計算できる)の控えめなトレーニングセットを考えると、この問題に対してエミュレータを訓練できることが示される。 結果は、数桁のスピードアップを持つパーセントの精度(これはTARDISのモンテカルロの性質に支配されているがエミュレータではない)を示している。 この方法は、より広い範囲のアプリケーションがあり、提示される問題に限定されない。

Supernova spectral time series contain a wealth of information about the progenitor and explosion process of these energetic events. The modeling of these data requires the exploration of very high dimensional posterior probabilities with expensive radiative transfer codes. Even modest parametrizations of supernovae contain more than ten parameters and a detailed exploration demands at least several million function evaluations. Physically realistic models require at least tens of CPU minutes per evaluation putting a detailed reconstruction of the explosion out of reach of traditional methodology. The advent of widely available libraries for the training of neural networks combined with their ability to approximate almost arbitrary functions with high precision allows for a new approach to this problem. Instead of evaluating the radiative transfer model itself, one can build a neural network proxy trained on the simulations but evaluating orders of magnitude faster. Such a framework is called an emulator or surrogate model. In this work, we present an emulator for the TARDIS supernova radiative transfer code applied to Type Ia supernova spectra. We show that we can train an emulator for this problem given a modest training set of a hundred thousand spectra (easily calculable on modern supercomputers). The results show an accuracy on the percent level (that are dominated by the Monte Carlo nature of TARDIS and not the emulator) with a speedup of several orders of magnitude. This method has a much broader set of applications and is not limited to the presented problem.
翻訳日:2022-11-14 06:13:16 公開日:2020-07-03
# バンドル調整用マルチグリッド

Multigrid for Bundle Adjustment ( http://arxiv.org/abs/2007.01941v1 )

ライセンス: Link先を確認
Tristan Konolige, Jed Brown(参考訳) バンドル調整は、モーションパイプラインからの多くの構造において重要なグローバル最適化ステップである。 性能は最適化へのステップを計算するのに使用される線形ソルバの速度に依存する。 大きな問題に対して、現在の最先端技術は、問題のカメラの数とともに超直線的にスケールする。 本研究では,異なるレシエーションにおける画像数の増加に伴う大域的バンドル調整問題の条件付けと,工法の現状の超線形スケーリングによる根本的な結果について検討する。 本稿では,既存手法のスケールの悪さを裏付けるグローバルモードを正確に表現し,大規模で課題の多い問題集合の最先端技術よりも最大13倍高速に解法を実証するマルチグリッドプリコンディショナーを提案する。

Bundle adjustment is an important global optimization step in many structure from motion pipelines. Performance is dependent on the speed of the linear solver used to compute steps towards the optimum. For large problems, the current state of the art scales superlinearly with the number of cameras in the problem. We investigate the conditioning of global bundle adjustment problems as the number of images increases in different regimes and fundamental consequences in terms of superlinear scaling of the current state of the art methods. We present an unsmoothed aggregation multigrid preconditioner that accurately represents the global modes that underlie poor scaling of existing methods and demonstrate solves of up to 13 times faster than the state of the art on large, challenging problem sets.
翻訳日:2022-11-14 06:12:29 公開日:2020-07-03
# 株価予測におけるcovid-19の影響--定常ウェーブレット変換と双方向長期記憶の統合

Impact of COVID-19 on Forecasting Stock Prices: An Integration of Stationary Wavelet Transform and Bidirectional Long Short-Term Memory ( http://arxiv.org/abs/2007.02673v1 )

ライセンス: Link先を確認
Daniel \v{S}tifani\'c, Jelena Musulin, Adrijana Mio\v{c}evi\'c, Sandi Baressi \v{S}egota, Roman \v{S}ubi\'c, Zlatan Car(参考訳) 新型コロナウイルス(covid-19)は、呼吸器系に主に影響を及ぼす感染症である。 この研究が行われた時点では、140万人以上のcovid-19患者がおり、最大の不安の1つは、私たちの健康だけでなく、私たちの生活も抱えている。 本研究では、covid-19が世界経済に与える影響、具体的には、covid-19が原油価格の金融移動に与えた影響と、dji、s&p 500、nasdaq compositeの3つの米国株指数を調査した。 提案する商品・株価予測システムは,定常ウェーブレット変換(SWT)と双方向長短期記憶(BDLSTM)ネットワークを統合している。 まず、SWTを用いてデータを近似と詳細係数に分解する。 分解後、将来の価格変動予測の入力変数として、原油価格と株価指数とcovid-19の感染者が確認された。 その結果,BDLSTM+WT-ADAは5日間の原油価格予測で良好な結果を得た。

COVID-19 is an infectious disease that mostly affects the respiratory system. At the time of this research being performed, there were more than 1.4 million cases of COVID-19, and one of the biggest anxieties is not just our health, but our livelihoods, too. In this research, authors investigate the impact of COVID-19 on the global economy, more specifically, the impact of COVID-19 on financial movement of Crude Oil price and three U.S. stock indexes: DJI, S&P 500 and NASDAQ Composite. The proposed system for predicting commodity and stock prices integrates the Stationary Wavelet Transform (SWT) and Bidirectional Long Short-Term Memory (BDLSTM) networks. Firstly, SWT is used to decompose the data into approximation and detail coefficients. After decomposition, data of Crude Oil price and stock market indexes along with COVID-19 confirmed cases were used as input variables for future price movement forecasting. As a result, the proposed system BDLSTM+WT-ADA achieved satisfactory results in terms of five-day Crude Oil price forecast.
翻訳日:2022-11-14 06:05:48 公開日:2020-07-03
# セマンティック可視化によるCOVID-19文献の探索と発見

Exploration and Discovery of the COVID-19 Literature through Semantic Visualization ( http://arxiv.org/abs/2007.01800v1 )

ライセンス: Link先を確認
Jingxuan Tu, Marc Verhagen, Brent Cochran, James Pustejovsky(参考訳) 我々は,複雑な関係ネットワークの大規模データセット上での探索と発見を可能にするために,意味的可視化手法を開発している。 セマンティック・ビジュアライゼーション(Semantic Visualization)は、複雑なネットワークの大規模なデータセットを探索し、発見するための手法である。 これには (i)nlpは、元のデータから名前付き実体、関係及び知識グラフを抽出する。 (II) 出力をインデックス化し、タグクラウド、ヒートマップ、グラフなど、様々な方法で視覚化できるすべての関連エンティティと関係の表現を作成すること。 ; 三 パラメータ還元操作を抽出した関係に適用し、同じ方法で可視化できる「関係コンテナ」または機能エンティティを作成し、複数の関係、部分経路を可視化し、複数の次元にわたって探索することができる。 私たちの希望は、そうでなければ気づかないような複雑なデータの関連性に関する新しい推論を発見できることです。 我々は最近リリースされたCORD-19データセットの分析にこれを適用した。

We are developing semantic visualization techniques in order to enhance exploration and enable discovery over large datasets of complex networks of relations. Semantic visualization is a method of enabling exploration and discovery over large datasets of complex networks by exploiting the semantics of the relations in them. This involves (i) NLP to extract named entities, relations and knowledge graphs from the original data; (ii) indexing the output and creating representations for all relevant entities and relations that can be visualized in many different ways, e.g., as tag clouds, heat maps, graphs, etc.; (iii) applying parameter reduction operations to the extracted relations, creating "relation containers", or functional entities that can also be visualized using the same methods, allowing the visualization of multiple relations, partial pathways, and exploration across multiple dimensions. Our hope is that this will enable the discovery of novel inferences over relations in complex data that otherwise would go unnoticed. We have applied this to analysis of the recently released CORD-19 dataset.
翻訳日:2022-11-14 06:05:13 公開日:2020-07-03
# 2台のカメラの追跡結果の融合による移動ロボットの3次元追跡

Three-dimensional Human Tracking of a Mobile Robot by Fusion of Tracking Results of Two Cameras ( http://arxiv.org/abs/2007.01514v1 )

ライセンス: Link先を確認
Shinya Matsubara, Akihiko Honda, Yonghoon Ji, Kazunori Umeda(参考訳) 本稿では,2台のカメラを用いて対象物体の3次元情報を取得する手法を提案する。 2台のカメラからの人間の検出と追跡の結果を統合して3D情報を得る。 OpenPoseは人間の検出に使われる。 一般的なステレオカメラ処理の場合、シーン全体のレンジ画像ができるだけ正確に取得され、レンジ画像が処理される。 しかし、校正過程における不正確なマッチングや計算コストといった問題もある。 この問題に対処するための新しいステレオビジョンフレームワークが提案されている。 提案手法の有効性を目標追跡実験により検証した。

This paper proposes a process that uses two cameras to obtain three-dimensional (3D) information of a target object for human tracking. Results of human detection and tracking from two cameras are integrated to obtain the 3D information. OpenPose is used for human detection. In the case of a general processing a stereo camera, a range image of the entire scene is acquired as precisely as possible, and then the range image is processed. However, there are problems such as incorrect matching and computational cost for the calibration process. A new stereo vision framework is proposed to cope with the problems. The effectiveness of the proposed framework and the method is verified through target-tracking experiments.
翻訳日:2022-11-14 06:04:56 公開日:2020-07-03
# LOL: 3Dポイントクラウドマップにおけるライダーオンリーオドメトリーとローカライゼーション

LOL: Lidar-Only Odometry and Localization in 3D Point Cloud Maps ( http://arxiv.org/abs/2007.01595v1 )

ライセンス: Link先を確認
David Rozenberszki, Andras Majdik(参考訳) 本稿では,都市環境下で走行するライダー搭載車両の軌道計測と位置決めの問題に対処する。 本研究では,lidarのみのオドメトリの累積ドリフトを補正するために,オンライン3dポイントクラウドと事前オフラインマップの幾何学的に類似した位置を検出する位置認識手法を適用した。 提案システムでは,最新のLidarのみのオドメトリーアルゴリズムと,その利点を補完して最近提案された3Dポイントセグメントマッチング手法を統合する。 また,オンライン・ポイント・クラウドとターゲット・マップとの誤一致を少なくし,適切な一致が検出されるたびに位置推定誤差を精度良くする追加の強化も提案する。 異なる長さと環境の複数のKittiデータセットに対して提案したLOLシステムの有用性を実演し、車体軌跡の再局在精度と精度は、実時間性能を維持しつつ、すべてのケースにおいて大幅に改善された。

In this paper we deal with the problem of odometry and localization for Lidar-equipped vehicles driving in urban environments, where a premade target map exists to localize against. In our problem formulation, to correct the accumulated drift of the Lidar-only odometry we apply a place recognition method to detect geometrically similar locations between the online 3D point cloud and the a priori offline map. In the proposed system, we integrate a state-of-the-art Lidar-only odometry algorithm with a recently proposed 3D point segment matching method by complementing their advantages. Also, we propose additional enhancements in order to reduce the number of false matches between the online point cloud and the target map, and to refine the position estimation error whenever a good match is detected. We demonstrate the utility of the proposed LOL system on several Kitti datasets of different lengths and environments, where the relocalization accuracy and the precision of the vehicle's trajectory were significantly improved in every case, while still being able to maintain real-time performance.
翻訳日:2022-11-14 06:04:48 公開日:2020-07-03
# HDR-GAN:大きな動きを持つ多露光LDR画像からのHDR画像再構成

HDR-GAN: HDR Image Reconstruction from Multi-Exposed LDR Images with Large Motions ( http://arxiv.org/abs/2007.01628v1 )

ライセンス: Link先を確認
Yuzhen Niu, Jianbin Wu, Wenxi Liu, Wenzhong Guo, Rynson W.H. Lau(参考訳) ダイナミックシーンにおける複数低ダイナミックレンジ(LDR)露光からの高ダイナミックレンジ(HDR)画像の合成は困難である。 前景の物体の大きな動きによって生じる2つの大きな問題がある。 一つは、LDR画像の深刻な不一致である。 もう1つは、移動物体によって引き起こされる過飽和領域による欠落内容であり、複数のldr曝露では容易に補うことができない。 したがって、HDR生成モデルは、アーティファクトを導入することなく、LDRイメージを適切に融合し、不足した詳細を復元できる必要がある。 本稿では,この2つの問題に対処するため,マルチ露光LDR画像からHDR画像を合成するための新しいGANモデルであるHDR-GANを提案する。 我々の知る限り、本研究はHDR再構成のための多露光LDR画像を融合する最初のGANベースのアプローチである。 本手法は,敵対学習を取り入れることで,コンテンツ不足の地域において忠実な情報を生成することができる。 また,特徴領域内の大きな物体の動きを整合させる参照ベース残差マージブロックと,再構成したhdr画像のアーティファクトを除去するための深部hdr監視機構を備えた,新しいジェネレータネットワークを提案する。 実験により,本モデルが従来のHDR法よりも高い精度で再現できることが実証された。

Synthesizing high dynamic range (HDR) images from multiple low-dynamic range (LDR) exposures in dynamic scenes is challenging. There are two major problems caused by the large motions of foreground objects. One is the severe misalignment among the LDR images. The other is the missing content due to the over-/under-saturated regions caused by the moving objects, which may not be easily compensated for by the multiple LDR exposures. Thus, it requires the HDR generation model to be able to properly fuse the LDR images and restore the missing details without introducing artifacts. To address these two problems, we propose in this paper a novel GAN-based model, HDR-GAN, for synthesizing HDR images from multi-exposed LDR images. To our best knowledge, this work is the first GAN-based approach for fusing multi-exposed LDR images for HDR reconstruction. By incorporating adversarial learning, our method is able to produce faithful information in the regions with missing content. In addition, we also propose a novel generator network, with a reference-based residual merging block for aligning large object motions in the feature domain, and a deep HDR supervision scheme for eliminating artifacts of the reconstructed HDR images. Experimental results demonstrate that our model achieves state-of-the-art reconstruction performance over the prior HDR methods on diverse scenes.
翻訳日:2022-11-14 06:04:30 公開日:2020-07-03
# フィードバックニューラルネットワークによる高忠実度特徴生成のためのDEMの超解像

Feedback Neural Network based Super-resolution of DEM for generating high fidelity features ( http://arxiv.org/abs/2007.01940v1 )

ライセンス: Link先を確認
Ashish Kubade, Avinash Sharma, K S Rajan(参考訳) 高解像度デジタル標高モデル(DEM)は、水流、地すべり、雪崩などの多くのアプリケーションにとって重要な要件である。 しかし、一般公開されているDEMは世界のほとんどの地域で低解像度である。 ディープラーニングソリューションを用いた画像超解法タスクは極めて成功したが、これらの強力なシステムをDEM上に使用してRDEMを生成する研究はほとんどない。 フィードバックニューラルネットワークに動機づけられ,低分解能demに高周波数詳細を反復的に付加し,その忠実性を損なうことなく高分解能demに変換する,新たなニューラルネットワークアーキテクチャを提案する。 実験の結果,航空画像(RGB)などの付加的なモダリティがなければ,ネットワークDSRFBは4つの異なるデータセットに対して0.59~1.27のRMSEを達成できることがわかった。

High resolution Digital Elevation Models(DEMs) are an important requirement for many applications like modelling water flow, landslides, avalanches etc. Yet publicly available DEMs have low resolution for most parts of the world. Despite tremendous success in image super resolution task using deep learning solutions, there are very few works that have used these powerful systems on DEMs to generate HRDEMs. Motivated from feedback neural networks, we propose a novel neural network architecture that learns to add high frequency details iteratively to low resolution DEM, turning it into a high resolution DEM without compromising its fidelity. Our experiments confirm that without any additional modality such as aerial images(RGB), our network DSRFB achieves RMSEs of 0.59 to 1.27 across 4 different datasets.
翻訳日:2022-11-14 06:03:53 公開日:2020-07-03
# 非線形フォワードモデルに対する確率的変分ベイズ推論

Stochastic Variational Bayesian Inference for a Nonlinear Forward Model ( http://arxiv.org/abs/2007.01675v1 )

ライセンス: Link先を確認
Michael A. Chappell, Martin S. Craig, Mark W. Woolrich(参考訳) 変分ベイズ(vb)は、データから非線形モデルのパラメータのベイズ推定の文脈における後続分布の計算を容易にするために用いられる。 これまでvbの解析的定式化は、非線形最小二乗の代替としてガウス雑音を付加したデータに対する非線形モデル推論のために導出されてきた。 ここで、解析的定式化に必要な近似のいくつかを避ける確率解が導出され、非線形モデル推論問題に対してより柔軟に展開できる解を提供する。 確率的VB溶液は、双経験的玩具ケースとアルゴリズムパラメータ空間の推論に用いられ、その後、磁気共鳴画像による灌流の研究から実データに展開された。 新たな手法は, 解析解と同等のパラメータ回復を達成し, サンプリングに依存するにもかかわらず, 計算速度の面での競合性を示した。

Variational Bayes (VB) has been used to facilitate the calculation of the posterior distribution in the context of Bayesian inference of the parameters of nonlinear models from data. Previously an analytical formulation of VB has been derived for nonlinear model inference on data with additive gaussian noise as an alternative to nonlinear least squares. Here a stochastic solution is derived that avoids some of the approximations required of the analytical formulation, offering a solution that can be more flexibly deployed for nonlinear model inference problems. The stochastic VB solution was used for inference on a biexponential toy case and the algorithmic parameter space explored, before being deployed on real data from a magnetic resonance imaging study of perfusion. The new method was found to achieve comparable parameter recovery to the analytic solution and be competitive in terms of computational speed despite being reliant on sampling.
翻訳日:2022-11-14 06:03:28 公開日:2020-07-03
# 映像意図と時間文脈による自己中心的行動認識

Egocentric Action Recognition by Video Attention and Temporal Context ( http://arxiv.org/abs/2007.01883v1 )

ライセンス: Link先を確認
Juan-Manuel Perez-Rua, Antoine Toisoul, Brais Martinez, Victor Escorcia, Li Zhang, Xiatian Zhu, Tao Xiang(参考訳) 我々は,Samsung AI Centre Cambridge を CVPR2020 EPIC-Kitchens Action Recognition Challenge に提出する。 この課題では、入力トリミングされたビデオクリップを与えられた単一の「動詞」と「名詞」のクラスラベルを同時に予測する問題としてアクション認識が提案される。 すなわち `verb' と `noun' は共に構成の `action' クラスを定義する。 この実生活行動認識タスクの課題は、小さな高速移動物体、複雑なハンド・オブジェクト相互作用、およびオクルージョンである。 我々の提出の核心は、最近提案された「W3」(What-Where-When') attention~\cite{perez2020knowing}」と呼ばれる時空間ビデオアテンションモデルである。 さらに,'verb'と'noun'の予測スコアに基づいて,長期の時間行動から直接'action'クラススコアをモデル化する,シンプルかつ効果的な文脈学習機構を導入する。 我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。 特に、マルチモーダルアンサンブルによる最善の解は、見たキッチンテストセットの `verb' に対して 2$^{nd}$ と `noun' と `action' に対して 3$^{rd}$ が最適である。

We present the submission of Samsung AI Centre Cambridge to the CVPR2020 EPIC-Kitchens Action Recognition Challenge. In this challenge, action recognition is posed as the problem of simultaneously predicting a single `verb' and `noun' class label given an input trimmed video clip. That is, a `verb' and a `noun' together define a compositional `action' class. The challenging aspects of this real-life action recognition task include small fast moving objects, complex hand-object interactions, and occlusions. At the core of our submission is a recently-proposed spatial-temporal video attention model, called `W3' (`What-Where-When') attention~\cite{perez2020knowing}. We further introduce a simple yet effective contextual learning mechanism to model `action' class scores directly from long-term temporal behaviour based on the `verb' and `noun' prediction scores. Our solution achieves strong performance on the challenge metrics without using object-specific reasoning nor extra training data. In particular, our best solution with multimodal ensemble achieves the 2$^{nd}$ best position for `verb', and 3$^{rd}$ best for `noun' and `action' on the Seen Kitchens test set.
翻訳日:2022-11-14 05:57:25 公開日:2020-07-03
# ソフトウェア開発努力推定のためのアンサンブル回帰モデル--比較研究

Ensemble Regression Models for Software Development Effort Estimation: A Comparative Study ( http://arxiv.org/abs/2007.01719v1 )

ライセンス: Link先を確認
Halcyon D. P. Carvalho, Mar\'ilia N. C. A. Lima, Wylliams B. Santos and Roberta A. de A.Fagunde(参考訳) コンピュータソフトウェアに対する需要が継続的に増加するにつれ、ソフトウェアの範囲と複雑さはかつてないほど高まる。 ソフトウェア産業は開発中のプロジェクトの正確な見積もりを必要としています。 ソフトウェア開発の労力見積は、ソフトウェアプロジェクト管理の主要なプロセスのひとつです。 しかし、過大評価と過小評価がソフトウェア産業を損なう可能性がある。 本研究は,どの手法がより優れた作業予測精度を持つかを決定し,より優れた見積もりを提供するための組み合わせ手法を提案する。 平均絶対残差(mar)基準と統計的テストの予測精度に基づいて、8種類のアンサンブルモデルとアンサンブルモデルとを比較検討した。 その結果、提案されたアンサンブルモデルは、それとは対照的に高い効率を提供するだけでなく、ソフトウェアプロジェクトの労力推定に最適な応答を生み出すことが示されている。 そこで,本研究で提案するアンサンブルモデルは,プロジェクトマネージャが開発品質のソフトウェアに取り組むのに役立つ。

As demand for computer software continually increases, software scope and complexity become higher than ever. The software industry is in real need of accurate estimates of the project under development. Software development effort estimation is one of the main processes in software project management. However, overestimation and underestimation may cause the software industry loses. This study determines which technique has better effort prediction accuracy and propose combined techniques that could provide better estimates. Eight different ensemble models to estimate effort with Ensemble Models were compared with each other base on the predictive accuracy on the Mean Absolute Residual (MAR) criterion and statistical tests. The results have indicated that the proposed ensemble models, besides delivering high efficiency in contrast to its counterparts, and produces the best responses for software project effort estimation. Therefore, the proposed ensemble models in this study will help the project managers working with development quality software.
翻訳日:2022-11-14 05:56:25 公開日:2020-07-03
# 燃料効率向上のためのリアルタイムモニタリングとドライバフィードバック

Real-Time Monitoring and Driver Feedback to Promote Fuel Efficient Driving ( http://arxiv.org/abs/2007.02728v1 )

ライセンス: Link先を確認
Sandareka Wickramanayake, H.M.N Dilum Bandara, Nishal A. Samarasekara(参考訳) 自動車の燃料効率の向上は、コスト削減と環境保護に不可欠である。 効率的なエンジンと車両の設計は、インテリジェントなルート計画と同様に、燃料効率を高めるためのよく知られた解決策であるが、燃料効率の高い運転行動の導入がさらなる節約につながることを研究は示している。 本研究では,リアルタイム自動監視とドライバフィードバックにより,燃料効率の高い運転行動を促進する新しい枠組みを提案する。 本フレームワークでは, 燃料非効率運転行動を特定するために, 歴史的データを用いてランダムフォレストに基づく分類モデルを開発した。 この分類器は、速度や加速/減速パターンなどの運転依存パラメータや、交通、道路地形、気象などの環境パラメータを考慮し、1分間の運転イベントの燃料効率を評価する。 非効率駆動動作が検出されると、ファジィ論理推論システムを使用して、燃料効率駆動動作を維持するために運転者がすべきことを判断する。 決定された動作は、非侵入的な方法でスマートフォンを介してドライバーに伝達される。 長距離バスのデータセットを用いて, 提案手法により, 燃料効率を最大16.4%向上させ, 85.2%の精度が得られることを示す。

Improving the fuel efficiency of vehicles is imperative to reduce costs and protect the environment. While the efficient engine and vehicle designs, as well as intelligent route planning, are well-known solutions to enhance the fuel efficiency, research has also demonstrated that the adoption of fuel-efficient driving behaviors could lead to further savings. In this work, we propose a novel framework to promote fuel-efficient driving behaviors through real-time automatic monitoring and driver feedback. In this framework, a random-forest based classification model developed using historical data to identifies fuel-inefficient driving behaviors. The classifier considers driver-dependent parameters such as speed and acceleration/deceleration pattern, as well as environmental parameters such as traffic, road topography, and weather to evaluate the fuel efficiency of one-minute driving events. When an inefficient driving action is detected, a fuzzy logic inference system is used to determine what the driver should do to maintain fuel-efficient driving behavior. The decided action is then conveyed to the driver via a smartphone in a non-intrusive manner. Using a dataset from a long-distance bus, we demonstrate that the proposed classification model yields an accuracy of 85.2% while increasing the fuel efficiency up to 16.4%.
翻訳日:2022-11-14 05:55:50 公開日:2020-07-03
# ネットワーク構築問題における木最適化に基づくヒューリスティックスとメタヒューリスティックス

Tree Optimization Based Heuristics and Metaheuristics in Network Construction Problems ( http://arxiv.org/abs/2007.03425v1 )

ライセンス: Link先を確認
Igor Averbakh and Jordi Pereira(参考訳) 本稿では,サーバ(建設作業員)が輸送ネットワークのエッジを構築する必要のあるネットワーク構築問題について考察する。 サーバは、その走行速度よりもはるかに低い一定の建設速度を有するので、再配置時間は建設時間に関して無視できる。 各種の利害関係が動作した時の非減少機能を最小限に抑える建設スケジュールを見つける必要がある。 このクラスのほとんどの問題は、一般のネットワーク上で強いNPハードであるが、ツリー上で多項式的に解ける木効率であることが多い。 本研究では,汎用的な局所探索ヒューリスティックアプローチと2つのメタヒューリスティック (iterate local search and tabu search) を開発し,汎用ネットワーク上でのツリー効率の高いネットワーク構築問題を解決する。 計算実験の結果, この手法は優れた性能を示す。

We consider a recently introduced class of network construction problems where edges of a transportation network need to be constructed by a server (construction crew). The server has a constant construction speed which is much lower than its travel speed, so relocation times are negligible with respect to construction times. It is required to find a construction schedule that minimizes a non-decreasing function of the times when various connections of interest become operational. Most problems of this class are strongly NP-hard on general networks, but are often tree-efficient, that is, polynomially solvable on trees. We develop a generic local search heuristic approach and two metaheuristics (Iterated Local Search and Tabu Search) for solving tree-efficient network construction problems on general networks, and explore them computationally. Results of computational experiments indicate that the methods have excellent performance.
翻訳日:2022-11-14 05:55:29 公開日:2020-07-03
# Noise2Filter:3次元CTのための高速・自己教師型学習とリアルタイム再構成

Noise2Filter: fast, self-supervised learning and real-time reconstruction for 3D Computed Tomography ( http://arxiv.org/abs/2007.01636v1 )

ライセンス: Link先を確認
Marinus J. Lagerwerf, Allard A. Hendriksen, Jan-Willem Buurlage and K. Joost Batenburg(参考訳) シンクロトロン光源のX線ビームラインでは、物体の内部の3次元トモグラフィー画像の達成可能な時間分解能が1秒に短縮され、急速に変化する構造を調べることができる。 関連するデータ取得レートは、再構成に巨大な計算資源を必要とする。 したがって、スキャンが完了した後、オブジェクトの完全な3D再構成は通常実行される。 準3D再構成 -- 数個のインタラクティブな2Dスライスを3Dボリュームの代わりに計算する -- は、はるかに効率的で、内部のリアルタイムな再構築と可視化を可能にすることが示されている。 しかし、準3D再構成は、一般的に測定ノイズに敏感なフィルタバックプロジェクション型アルゴリズムに依存している。 本稿では,この問題を解決するために,測定データのみを使用してトレーニング可能で,追加のトレーニングデータを必要としない学習フィルタ法である noise2filter を提案する。 本手法は, 準3次元再構成, 学習フィルタ, 自己教師付き学習を組み合わせることで, 1分以内で訓練し, リアルタイムで評価できるトモグラフィ再構成法を導出する。 訓練データの追加による訓練に比べて精度の低下は限定的であり, 標準フィルタ法と比較して精度が向上した。

At X-ray beamlines of synchrotron light sources, the achievable time-resolution for 3D tomographic imaging of the interior of an object has been reduced to a fraction of a second, enabling rapidly changing structures to be examined. The associated data acquisition rates require sizable computational resources for reconstruction. Therefore, full 3D reconstruction of the object is usually performed after the scan has completed. Quasi-3D reconstruction -- where several interactive 2D slices are computed instead of a 3D volume -- has been shown to be significantly more efficient, and can enable the real-time reconstruction and visualization of the interior. However, quasi-3D reconstruction relies on filtered backprojection type algorithms, which are typically sensitive to measurement noise. To overcome this issue, we propose Noise2Filter, a learned filter method that can be trained using only the measured data, and does not require any additional training data. This method combines quasi-3D reconstruction, learned filters, and self-supervised learning to derive a tomographic reconstruction method that can be trained in under a minute and evaluated in real-time. We show limited loss of accuracy compared to training with additional training data, and improved accuracy compared to standard filter-based methods.
翻訳日:2022-11-14 05:55:03 公開日:2020-07-03
# ステレオガイダンスと逆学習を用いた深部フェンス推定

Deep Fence Estimation using Stereo Guidance and Adversarial Learning ( http://arxiv.org/abs/2007.01724v1 )

ライセンス: Link先を確認
Paritosh Mittal, Shankar M Venkatesan, Viswanath Veera, Aloknath De(参考訳) 人々は、ゆるやかにフェンスと呼ばれるワイヤーメッシュによってしばしば隠されるイベントや展示の記憶に残るイメージをキャプチャします。 最近のフェンスの除去作業は、初期フェンスのセグメンテーションが困難であるため、性能が限られている。 本研究は,ステレオ画像対から生成するフェンス誘導マスク(fm)を用いて,フェンスを精度良くセグメント化することを目的としている。 フェンスの構造に関する決定論的手がかりを含み、ディープフェンス推定モデルへの追加入力として与えられるバイナリ誘導マスク。 また、直交接続損失(DCL)を導入し、逆方向接続損失と併用して細線を正確に検出する。 実世界のシナリオで得られた実験結果は,最先端技術よりも提案手法が優れていることを示す。

People capture memorable images of events and exhibits that are often occluded by a wire mesh loosely termed as fence. Recent works in removing fence have limited performance due to the difficulty in initial fence segmentation. This work aims to accurately segment fence using a novel fence guidance mask (FM) generated from stereo image pair. This binary guidance mask contains deterministic cues about the structure of fence and is given as additional input to the deep fence estimation model. We also introduce a directional connectivity loss (DCL), which is used alongside adversarial loss to precisely detect thin wires. Experimental results obtained on real world scenarios demonstrate the superiority of proposed method over state-of-the-art techniques.
翻訳日:2022-11-14 05:48:02 公開日:2020-07-03
# 実例誘導による映像予測

Video Prediction via Example Guidance ( http://arxiv.org/abs/2007.01738v1 )

ライセンス: Link先を確認
Jingwei Xu, Huazhe Xu, Bingbing Ni, Xiaokang Yang, Trevor Darrell(参考訳) ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。 本研究では,有効な将来状態を効率的に予測できるシンプルなフレームワークを提案する。 鍵となる洞察は、シーケンスの潜在的な分布はトレーニングプールのレパートリー、すなわち専門家の例の類似のものと近似することができるということである。 さらに、新たな最適化スキームをトレーニング手順に組み込むことで、得られた例から構築した分布から、妥当な予測を効率的にサンプリングすることができる。 一方,本手法は既存の確率的予測モデルとシームレスに統合され,定量的・定性的両面の総合的な実験により顕著な拡張が観察された。 また,学習期間中に対応するデータにアクセスせずに,未発見クラスの動作を予測できる一般化能力を示す。

In video prediction tasks, one major challenge is to capture the multi-modal nature of future contents and dynamics. In this work, we propose a simple yet effective framework that can efficiently predict plausible future states. The key insight is that the potential distribution of a sequence could be approximated with analogous ones in a repertoire of training pool, namely, expert examples. By further incorporating a novel optimization scheme into the training procedure, plausible predictions can be sampled efficiently from distribution constructed from the retrieved examples. Meanwhile, our method could be seamlessly integrated with existing stochastic predictive models; significant enhancement is observed with comprehensive experiments in both quantitative and qualitative aspects. We also demonstrate the generalization ability to predict the motion of unseen class, i.e., without access to corresponding data during training phase.
翻訳日:2022-11-14 05:47:53 公開日:2020-07-03
# 高速スタイルガン埋め込みのための協調学習

Collaborative Learning for Faster StyleGAN Embedding ( http://arxiv.org/abs/2007.01758v1 )

ライセンス: Link先を確認
Shanyan Guan, Ying Tai, Bingbing Ni, Feida Zhu, Feiyue Huang, Xiaokang Yang(参考訳) 最近の人気モデルであるStyleGANの潜在コードは、多層スタイルベースのジェネレータのおかげで、アンタングル表現を学んだ。 与えられた画像をStyleGANの潜在空間に埋め込むことで、幅広い興味深いセマンティック画像編集アプリケーションが可能になる。 以前の作業は最適化フレームワークに基づいて印象的な反転結果を得ることができるが、効率の問題に苦しむ。 本研究では,効率的な埋め込みネットワークと最適化に基づくイテレータからなる新しい協調学習フレームワークを提案する。 一方、トレーニングの進展に伴い、組み込みネットワークは、イテレータに対して合理的な潜在コード初期化を提供する。 一方、イテレータから更新された潜在コードは、組み込みネットワークを監督する。 最後に、当社の組み込みネットワークを1回のフォワードパスで、高品質な潜在コードを効率的に得ることができます。 広範な実験は、我々の仕事の有効性と効率を示す。

The latent code of the recent popular model StyleGAN has learned disentangled representations thanks to the multi-layer style-based generator. Embedding a given image back to the latent space of StyleGAN enables wide interesting semantic image editing applications. Although previous works are able to yield impressive inversion results based on an optimization framework, which however suffers from the efficiency issue. In this work, we propose a novel collaborative learning framework that consists of an efficient embedding network and an optimization-based iterator. On one hand, with the progress of training, the embedding network gives a reasonable latent code initialization for the iterator. On the other hand, the updated latent code from the iterator in turn supervises the embedding network. In the end, high-quality latent code can be obtained efficiently with a single forward pass through our embedding network. Extensive experiments demonstrate the effectiveness and efficiency of our work.
翻訳日:2022-11-14 05:47:24 公開日:2020-07-03
# 視覚データを用いたシーン認識のためのディープラーニング:調査

Deep learning for scene recognition from visual data: a survey ( http://arxiv.org/abs/2007.01806v1 )

ライセンス: Link先を確認
Alina Matei, Andreea Glavan, and Estefania Talavera(参考訳) ディープラーニング技術の使用はここ数年で爆発的に増加し、人工知能の分野に直接貢献している。 本研究は,視覚データを用いたディープラーニングモデルを用いたシーン認識における最先端技術の検討を目的とする。 シーン認識はコンピュータビジョンの新たな分野であり、単一の画像と動的画像の視点から対処されている。 まず、画像と映像のシーン認識のためのデータセットの概要を示す。 その後,この分野の研究論文で紹介されたアンサンブル技法について述べる。 最後に,本研究の成果について述べるとともに,今後の研究分野における課題について考察する。 本稿では,シーン認識タスクのためのモデル選択のための将来のガイドとなることを目的とする。

The use of deep learning techniques has exploded during the last few years, resulting in a direct contribution to the field of artificial intelligence. This work aims to be a review of the state-of-the-art in scene recognition with deep learning models from visual data. Scene recognition is still an emerging field in computer vision, which has been addressed from a single image and dynamic image perspective. We first give an overview of available datasets for image and video scene recognition. Later, we describe ensemble techniques introduced by research papers in the field. Finally, we give some remarks on our findings and discuss what we consider challenges in the field and future lines of research. This paper aims to be a future guide for model selection for the task of scene recognition.
翻訳日:2022-11-14 05:46:26 公開日:2020-07-03
# アダプティブアテンションモジュールとメタデータリグレードを用いた画像ベース車両再識別モデル

Image-based Vehicle Re-identification Model with Adaptive Attention Modules and Metadata Re-ranking ( http://arxiv.org/abs/2007.01818v1 )

ライセンス: Link先を確認
Quang Truong, Hy Dang, Zhankai Ye, Minh Nguyen, Bo Mei(参考訳) 車両の再識別は、非重複カメラ間のクラス内変動とクラス間類似性のために難しい課題である。 これらの問題に対処するために、最近提案された手法では、偽陽性画像排除のための追加のアノテーションが必要である。 本稿では,ラベルアノテーションは少ないが,従来のモデルより優れる適応型アテンションモジュールを用いたモデルを提案する。 また,メタデータ機能埋め込みの重要性を考慮に入れた再分類手法についても検討した。 提案手法はCVPR AI City Challenge 2020データセットで評価され,トラック2で37.25%のmAPを達成した。

Vehicle Re-identification is a challenging task due to intra-class variability and inter-class similarity across non-overlapping cameras. To tackle these problems, recently proposed methods require additional annotation to extract more features for false positive image exclusion. In this paper, we propose a model powered by adaptive attention modules that requires fewer label annotations but still out-performs the previous models. We also include a re-ranking method that takes account of the importance of metadata feature embeddings in our paper. The proposed method is evaluated on CVPR AI City Challenge 2020 dataset and achieves mAP of 37.25% in Track 2.
翻訳日:2022-11-14 05:46:17 公開日:2020-07-03
# LOOC: 重複するオブジェクトをカウントスーパービジョンでローカライズ

LOOC: Localize Overlapping Objects with Count Supervision ( http://arxiv.org/abs/2007.01837v1 )

ライセンス: Link先を確認
Issam H. Laradji, Rafael Pardinas, Pau Rodriguez, David Vazquez(参考訳) カウントアノテーションの取得は通常、ポイントレベルやバウンディングボックスアノテーションよりも人的労力が少ない。 そこで本研究では,この弱監督下での密集したシーンにおける物体の局所化に関する新たな問題設定を提案する。 オーバーラップオブジェクトをカウント・インスペクタで局所化する手法であるLOOCを提案する。 LOOCを2段階の交互に訓練する。 最初の段階では、LOOCは擬似点レベルのアノテーションを半教師付きで生成することを学ぶ。 第2段階では、LOOCはこれらの擬似ラベルをトレーニングする完全に教師付きローカライゼーション手法を使用している。 ローカライゼーション法は、擬似ラベルの品質を漸進的に改善するために用いられる。 一般的な計数データセットの実験を行った。 ローカライゼーションのため、LOOCは、カウント監視しか利用できない新しい問題設定において、強力なベースラインを達成する。 カウントでは、LOOCはカウントのみを監督として使用する最先端のメソッドよりも優れています。 コードはhttps://github.com/elementai/looc。

Acquiring count annotations generally requires less human effort than point-level and bounding box annotations. Thus, we propose the novel problem setup of localizing objects in dense scenes under this weaker supervision. We propose LOOC, a method to Localize Overlapping Objects with Count supervision. We train LOOC by alternating between two stages. In the first stage, LOOC learns to generate pseudo point-level annotations in a semi-supervised manner. In the second stage, LOOC uses a fully-supervised localization method that trains on these pseudo labels. The localization method is used to progressively improve the quality of the pseudo labels. We conducted experiments on popular counting datasets. For localization, LOOC achieves a strong new baseline in the novel problem setup where only count supervision is available. For counting, LOOC outperforms current state-of-the-art methods that only use count as their supervision. Code is available at: https://github.com/ElementAI/looc.
翻訳日:2022-11-14 05:46:06 公開日:2020-07-03
# RGB-赤外クロスモダリティ人物再識別のための類似度推定基準

A Similarity Inference Metric for RGB-Infrared Cross-Modality Person Re-identification ( http://arxiv.org/abs/2007.01504v1 )

ライセンス: Link先を確認
Mengxi Jia, Yunpeng Zhai, Shijian Lu, Siwei Ma, Jian Zhang(参考訳) RGBギャラリーでIR画像を検索することを目的としたRGB-赤外線(IR)のクロスモダリティ人物再識別(re-ID)は、IRとRGBのモダリティの相違が大きいため、難しい課題である。 既存の手法では、典型的には特徴分布やイメージスタイルをモダリティにわたって整列させることによってこの問題に対処するが、同じモダリティのギャラリーサンプル(すなわちモダリティ内サンプル類似性)の非常に有用な類似性は無視されている。 本稿では,最適なクロスモダリティ画像マッチングを目標としたクロスモダリティ不一致を回避するために,モダリティ内サンプル類似性を利用した新しい類似度推論メトリック(sim)を提案する。 simは連続する類似性グラフの推論と相互最寄りの推論によって動作し、2つの異なる視点からモダリティ内サンプルの類似性を活用し、モダリティ間のサンプルの類似性をマイニングする。 2つのクロスモーダルre-IDデータセット(SYSU-MM01とRegDB)に対する大規模な実験により、SIMは精度が大幅に向上するが、最先端技術と比較すると、追加のトレーニングは少ないことが示されている。

RGB-Infrared (IR) cross-modality person re-identification (re-ID), which aims to search an IR image in RGB gallery or vice versa, is a challenging task due to the large discrepancy between IR and RGB modalities. Existing methods address this challenge typically by aligning feature distributions or image styles across modalities, whereas the very useful similarities among gallery samples of the same modality (i.e. intra-modality sample similarities) is largely neglected. This paper presents a novel similarity inference metric (SIM) that exploits the intra-modality sample similarities to circumvent the cross-modality discrepancy targeting optimal cross-modality image matching. SIM works by successive similarity graph reasoning and mutual nearest-neighbor reasoning that mine cross-modality sample similarities by leveraging intra-modality sample similarities from two different perspectives. Extensive experiments over two cross-modality re-ID datasets (SYSU-MM01 and RegDB) show that SIM achieves significant accuracy improvement but with little extra training as compared with the state-of-the-art.
翻訳日:2022-11-14 05:39:42 公開日:2020-07-03
# オンラインマルチオブジェクトトラッキングとセグメンテーションのためのpointtrack++

PointTrack++ for Effective Online Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2007.01549v1 )

ライセンス: Link先を確認
Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Xiangbo Su, Yuchen Yuan, Hongwu Zhang, Shilei Wen, Errui Ding, Liusheng Huang(参考訳) マルチオブジェクトトラッキングとセグメンテーション(MOTS)は、複数オブジェクト追跡(MOT)とインスタンスセグメンテーションを共同で行うことを目的とした、新しいコンピュータビジョンタスクである。 本稿では、MOTSの効果的なオンラインフレームワークであるPointTrack++を紹介し、最近提案したPointTrackフレームワークを著しく拡張する。 まず、pointtrackはセグメンテーションの効率的なワンステージフレームワークを採用し、コンパクトなイメージ表現を非注文の2dポイントクラウドに変換することで、インスタンス埋め込みを学習する。 PointTrackと比較すると、提案したPointTrack++には3つの大きな改善があります。 まず、インスタンスセグメンテーションの段階では、焦点損失で訓練されたセマンティックセグメンテーションデコーダを採用し、インスタンスの選択品質を向上させる。 次に、セグメンテーション性能をさらに向上させるために、画像のコピー&ペーストによるデータ拡張戦略を提案する。 最後に、学習したインスタンス埋め込みの識別性を改善するために、インスタンスアソシエーション段階でより良いトレーニング戦略を導入する。 このフレームワークは第5BMTT MOTChallengeにおける最先端のパフォーマンスを実現する。

Multiple-object tracking and segmentation (MOTS) is a novel computer vision task that aims to jointly perform multiple object tracking (MOT) and instance segmentation. In this work, we present PointTrack++, an effective on-line framework for MOTS, which remarkably extends our recently proposed PointTrack framework. To begin with, PointTrack adopts an efficient one-stage framework for instance segmentation, and learns instance embeddings by converting compact image representations to un-ordered 2D point cloud. Compared with PointTrack, our proposed PointTrack++ offers three major improvements. Firstly, in the instance segmentation stage, we adopt a semantic segmentation decoder trained with focal loss to improve the instance selection quality. Secondly, to further boost the segmentation performance, we propose a data augmentation strategy by copy-and-paste instances into training images. Finally, we introduce a better training strategy in the instance association stage to improve the distinguishability of learned instance embeddings. The resulting framework achieves the state-of-the-art performance on the 5th BMTT MOTChallenge.
翻訳日:2022-11-14 05:38:45 公開日:2020-07-03
# 効率的なオンライン多目的追跡・セグメンテーションのためのポイントとしてのセグメンテーション

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2007.01550v1 )

ライセンス: Link先を確認
Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang(参考訳) 現在のマルチオブジェクトトラッキング・セグメンテーション(mots)メソッドは、追跡・検出パラダイムに従い、特徴抽出に畳み込みを採用する。 しかし, コンボリューションに基づく特徴抽出は, 固有受容場の影響を受け, 前景の特徴と背景特徴を必然的に混合し, 後続の事例関連における曖昧さを生じさせる。 本稿では,コンパクト画像表現を非順序2次元点クラウド表現に変換することにより,セグメントに基づくインスタンス埋め込みを高度に学習する手法を提案する。 提案手法は,画像ではなくランダムに選択した点から識別的埋め込みを学習する新しい追跡・バイ・ポイント・パラダイムを生成する。 さらに、複数の情報的データモダリティをポイントワイズ表現に変換してポイントワイズ特徴を豊かにする。 オンラインMOTSフレームワークであるPointTrackは、3Dトラッキング手法を含む最先端のすべての手法(MOTSAよりも5.4%高く、MOTSFusionより18倍速い)をほぼリアルタイム(22 FPS)で上回っている。 3つのデータセットに対する評価は,本手法の有効性と有効性を示す。 さらに、現在のMOTSデータセットが混み合ったシーンを欠いているという観測に基づいて、APOLLO MOTSという名前のMOTSデータセットをより高いインスタンス密度で構築する。 APOLLO MOTSと私たちのコードは、https://github.com/detectRecog/PointTrack.comで公開されています。

Current multi-object tracking and segmentation (MOTS) methods follow the tracking-by-detection paradigm and adopt convolutions for feature extraction. However, as affected by the inherent receptive field, convolution based feature extraction inevitably mixes up the foreground features and the background features, resulting in ambiguities in the subsequent instance association. In this paper, we propose a highly effective method for learning instance embeddings based on segments by converting the compact image representation to un-ordered 2D point cloud representation. Our method generates a new tracking-by-points paradigm where discriminative instance embeddings are learned from randomly selected points rather than images. Furthermore, multiple informative data modalities are converted into point-wise representations to enrich point-wise features. The resulting online MOTS framework, named PointTrack, surpasses all the state-of-the-art methods including 3D tracking methods by large margins (5.4% higher MOTSA and 18 times faster over MOTSFusion) with the near real-time speed (22 FPS). Evaluations across three datasets demonstrate both the effectiveness and efficiency of our method. Moreover, based on the observation that current MOTS datasets lack crowded scenes, we build a more challenging MOTS dataset named APOLLO MOTS with higher instance density. Both APOLLO MOTS and our codes are publicly available at https://github.com/detectRecog/PointTrack.
翻訳日:2022-11-14 05:38:14 公開日:2020-07-03
# 非対称三方向高速RCNNによる領域適応物体検出

Domain Adaptive Object Detection via Asymmetric Tri-way Faster-RCNN ( http://arxiv.org/abs/2007.01571v1 )

ライセンス: Link先を確認
Zhenwei He and Lei Zhang(参考訳) 従来のオブジェクト検出モデルは、ドメイン格差が存在するため、パフォーマンス低下に必然的に遭遇する。 対象ドメインがラベルに依存しない状態で、ソースドメインがラベルリッチであるドメイン間の格差を低減するために、最近、教師なしドメイン適応オブジェクト検出法が提案されている。 既存のモデルは、逆向きドメインアライメントのためのパラメータ共有シム構造に従うが、ソースドメインの崩壊や制御不能なリスクに容易につながり、特徴適応に負の影響をもたらす。 主な理由は、ソースとターゲット間のラベル付けの不公平さ(非対称性)がパラメータ共有機構を適応できないからである。 そこで,パラメータ共有によるソース領域の崩壊リスクを回避するため,領域適応型オブジェクト検出のための非対称三方向高速RCNN(ATF)を提案する。 atfモデルには2つの利点があります 1) ソースラベルが監督する補助ネットを配置し、補助対象の特徴を学習し、同時にソースドメインの識別を保存し、ドメインアライメントの構造的識別(オブジェクト分類とバウンディングボックス回帰)を強化する。 2) 主網と独立補助網からなる非対称構造は, 本質的に, 引き起こされたソースリスク崩壊のパラメータ共有を克服する。 提案するatf検出器の適応安全性が保証される。 Cityscapes, Foggy-cityscapes, KITTI, Sim10k, Pascal VOC, Clipart, Watercolor など,多くのデータセットに対する大規模な実験により, 提案手法のSOTA性能が実証された。

Conventional object detection models inevitably encounter a performance drop as the domain disparity exists. Unsupervised domain adaptive object detection is proposed recently to reduce the disparity between domains, where the source domain is label-rich while the target domain is label-agnostic. The existing models follow a parameter shared siamese structure for adversarial domain alignment, which, however, easily leads to the collapse and out-of-control risk of the source domain and brings negative impact to feature adaption. The main reason is that the labeling unfairness (asymmetry) between source and target makes the parameter sharing mechanism unable to adapt. Therefore, in order to avoid the source domain collapse risk caused by parameter sharing, we propose an asymmetric tri-way Faster-RCNN (ATF) for domain adaptive object detection. Our ATF model has two distinct merits: 1) A ancillary net supervised by source label is deployed to learn ancillary target features and simultaneously preserve the discrimination of source domain, which enhances the structural discrimination (object classification vs. bounding box regression) of domain alignment. 2) The asymmetric structure consisting of a chief net and an independent ancillary net essentially overcomes the parameter sharing aroused source risk collapse. The adaption safety of the proposed ATF detector is guaranteed. Extensive experiments on a number of datasets, including Cityscapes, Foggy-cityscapes, KITTI, Sim10k, Pascal VOC, Clipart and Watercolor, demonstrate the SOTA performance of our method.
翻訳日:2022-11-14 05:37:47 公開日:2020-07-03
# セグメンションレベルラベルを用いた時間的行動位置推定の弱化

Weakly Supervised Temporal Action Localization with Segment-Level Labels ( http://arxiv.org/abs/2007.01598v1 )

ライセンス: Link先を確認
Xinpeng Ding, Nannan Wang, Xinbo Gao, Jie Li, Xiaoyu Wang and Tongliang Liu(参考訳) テンポラリアクションのローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。 完全な教師付きメソッドは、時間を要する境界アノテーションで優れたパフォーマンスを達成する。 安価なビデオレベルのカテゴリラベルアノテーションを持つ弱い教師付きメソッドは、パフォーマンスを低下させる。 本稿では,アノテータがここで発生する動作を観察する際,セグメントをラベル付けする,新しいセグメントレベルの監視設定を提案する。 トレーニングには,このセグメントレベルの監視と,新たなローカライゼーションモジュールが組み込まれている。 具体的には,損失サンプリングと見なされる部分セグメント損失を考案し,ラベル付きセグメントから統合的な動作部分を学ぶ。 ラベル付きセグメントはアクションの一部なので、モデルはトレーニングプロセスに合わせて過剰に適合しがちです。 この問題に取り組むため,まず球面損失に導かれた識別的特徴から類似度行列を得る。 そして、行列に基づいて伝播損失を考案し、正規化項として働き、訓練中に暗黙的なラベルなしセグメントの伝播を可能にする。 実験により,提案手法がアノテーション時間とほぼ同じビデオレベルの監督手法を上回ることを検証した。

Temporal action localization presents a trade-off between test performance and annotation-time cost. Fully supervised methods achieve good performance with time-consuming boundary annotations. Weakly supervised methods with cheaper video-level category label annotations result in worse performance. In this paper, we introduce a new segment-level supervision setting: segments are labeled when annotators observe actions happening here. We incorporate this segment-level supervision along with a novel localization module in the training. Specifically, we devise a partial segment loss regarded as a loss sampling to learn integral action parts from labeled segments. Since the labeled segments are only parts of actions, the model tends to overfit along with the training process. To tackle this problem, we first obtain a similarity matrix from discriminative features guided by a sphere loss. Then, a propagation loss is devised based on the matrix to act as a regularization term, allowing implicit unlabeled segments propagation during training. Experiments validate that our method can outperform the video-level supervision methods with almost same the annotation time.
翻訳日:2022-11-14 05:37:19 公開日:2020-07-03
# 大規模不平衡・雑音データに対する平衡対称クロスエントロピー

Balanced Symmetric Cross Entropy for Large Scale Imbalanced and Noisy Data ( http://arxiv.org/abs/2007.01618v1 )

ライセンス: Link先を確認
Feifei Huang, Jie Li and Xuelin Zhu(参考訳) 深層畳み込みニューラルネットワークは、大規模視覚分類タスクにおいて多くの注目を集めており、従来の視覚分析手法と比較して大幅な性能向上を達成している。 本稿では,大規模製品認識タスクのための多種多様な深層畳み込みニューラルネットワークアーキテクチャについて検討する。 広範な実験により、pnasnetは様々な畳み込みアーキテクチャで最高のパフォーマンスを達成していることが示された。 ノイズラベルデータに対するアンサンブル技術と負の学習損失を併用することで,オンラインテストデータのモデル性能をさらに向上させる。 最後に,提案手法はオンラインテストデータ上で0.1515の平均1エラーを実現する。

Deep convolution neural network has attracted many attentions in large-scale visual classification task, and achieves significant performance improvement compared to traditional visual analysis methods. In this paper, we explore many kinds of deep convolution neural network architectures for large-scale product recognition task, which is heavily class-imbalanced and noisy labeled data, making it more challenged. Extensive experiments show that PNASNet achieves best performance among a variety of convolutional architectures. Together with ensemble technology and negative learning loss for noisy labeled data, we further improve the model performance on online test data. Finally, our proposed method achieves 0.1515 mean top-1 error on online test data.
翻訳日:2022-11-14 05:37:05 公開日:2020-07-03
# キーワード誘導ネットワークを用いた情報対話応答の生成

Generating Informative Dialogue Responses with Keywords-Guided Networks ( http://arxiv.org/abs/2007.01652v1 )

ライセンス: Link先を確認
Heng-Da Xu, Xian-Ling Mao, Zewen Chi, Jing-Jing Zhu, Fanshu Sun, Heyan Huang(参考訳) 近年,オープンドメイン対話システムが注目されている。 その多くはシーケンス・ツー・シーケンス(Seq2Seq)アーキテクチャを使って応答を生成する。 しかし、従来のseq2seqベースのオープンドメイン対話モデルは汎用的で安全な応答を生成する傾向がある。 本稿では,オープンドメイン対話応答を生成するためのガイダンスとしてキーワード情報を利用する,シンプルだが効果的なキーワード誘導シーケンスモデル(KW-Seq2Seq)を提案する。 具体的には、KW-Seq2Seqはまずキーワードデコーダを使用して、いくつかのトピックキーワードを予測し、それからそれらのガイダンスに基づいて最終応答を生成する。 広範な実験により、kw-seq2seqモデルはより有益でコヒーレントで流動的な応答を生成し、自動評価と人間評価の指標の両方において実質的な利得をもたらすことが示されている。

Recently, open-domain dialogue systems have attracted growing attention. Most of them use the sequence-to-sequence (Seq2Seq) architecture to generate responses. However, traditional Seq2Seq-based open-domain dialogue models tend to generate generic and safe responses, which are less informative, unlike human responses. In this paper, we propose a simple but effective keywords-guided Sequence-to-Sequence model (KW-Seq2Seq) which uses keywords information as guidance to generate open-domain dialogue responses. Specifically, KW-Seq2Seq first uses a keywords decoder to predict some topic keywords, and then generates the final response under the guidance of them. Extensive experiments demonstrate that the KW-Seq2Seq model produces more informative, coherent and fluent responses, yielding substantive gain in both automatic and human evaluation metrics.
翻訳日:2022-11-14 05:30:46 公開日:2020-07-03
# スウェーデン国立図書館で「言葉で遊んでいる」 スウェーデン・ベルトを作る

Playing with Words at the National Library of Sweden -- Making a Swedish BERT ( http://arxiv.org/abs/2007.01658v1 )

ライセンス: Link先を確認
Martin Malmsten, Love B\"orjeson and Chris Haffenden(参考訳) 本稿では,スウェーデン国立図書館(KB)のデータ駆動研究のためにKBLabが開発したスウェーデンのBERT(KB-BERT)を紹介する。 スウェーデン語以外の言語のためのトランスフォーマーベースのBERTモデルを作成するための最近の取り組みに基づいて、KBのコレクションを使用して、スウェーデン語向けの新しい言語固有のBERTモデルを作成およびトレーニングする方法を説明します。 また,本モデルの結果を,スウェーデン公共雇用サービス arbetsf\"ormedlingen と google の多言語 m-bert による既存のモデルと比較し,名前付きエンティティ認識 (ner) からpart-of-speech tagging (pos) までの nlp タスクにおいて kb-bert がこれらを上回っていることを示す。 スウェーデン語のような小さな言語では、トレーニングデータやテストベッドが不足しているため、この議論は継続する難しさを強調します。 私たちは、さらなる調査と研究のために、以下のモデルをリリースします。

This paper introduces the Swedish BERT ("KB-BERT") developed by the KBLab for data-driven research at the National Library of Sweden (KB). Building on recent efforts to create transformer-based BERT models for languages other than English, we explain how we used KB's collections to create and train a new language-specific BERT model for Swedish. We also present the results of our model in comparison with existing models - chiefly that produced by the Swedish Public Employment Service, Arbetsf\"ormedlingen, and Google's multilingual M-BERT - where we demonstrate that KB-BERT outperforms these in a range of NLP tasks from named entity recognition (NER) to part-of-speech tagging (POS). Our discussion highlights the difficulties that continue to exist given the lack of training data and testbeds for smaller languages like Swedish. We release our model for further exploration and research here: https://github.com/Kungbib/swedish-bert-models .
翻訳日:2022-11-14 05:30:31 公開日:2020-07-03
# 機械翻訳と言語間伝達によるチェコ語読解

Reading Comprehension in Czech via Machine Translation and Cross-lingual Transfer ( http://arxiv.org/abs/2007.01667v1 )

ライセンス: Link先を確認
Kate\v{r}ina Mackov\'a, Milan Straka(参考訳) 理解を読むことはよく研究されたタスクであり、英語で膨大なトレーニングデータセットがある。 本研究は,手作業によるチェコ語学習データを必要とせず,チェコ語読解システムの構築に焦点を当てている。 まず、SQuAD 1.1とSQuAD 2.0データセットをチェコに自動翻訳してトレーニングと開発データを作成し、http://hdl.handle.net/11234/1-3249でリリースしました。 その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。 しかし,我々の主な焦点は言語間伝達モデルである。 我々は、xlm-robertaモデルが英語データに基づいて訓練され、チェコ語で評価された場合、非常に競争力の高い結果が得られると報告した。 このモデルはトレーニング中にチェコのデータを見ていないことから、この結果は極めて良好である。 言語間移動のアプローチは非常に柔軟で、どんな言語でも読みやすいので、十分なモノリンガルの原文が得られます。

Reading comprehension is a well studied task, with huge training datasets in English. This work focuses on building reading comprehension systems for Czech, without requiring any manually annotated Czech training data. First of all, we automatically translated SQuAD 1.1 and SQuAD 2.0 datasets to Czech to create training and development data, which we release at http://hdl.handle.net/11234/1-3249. We then trained and evaluated several BERT and XLM-RoBERTa baseline models. However, our main focus lies in cross-lingual transfer models. We report that a XLM-RoBERTa model trained on English data and evaluated on Czech achieves very competitive performance, only approximately 2 percent points worse than a~model trained on the translated Czech data. This result is extremely good, considering the fact that the model has not seen any Czech data during training. The cross-lingual transfer approach is very flexible and provides a reading comprehension in any language, for which we have enough monolingual raw texts.
翻訳日:2022-11-14 05:30:04 公開日:2020-07-03
# El Departamento de Nosotros: 機械翻訳コーパスがMRCタスクの言語モデルに与える影響

El Departamento de Nosotros: How Machine Translated Corpora Affects Language Models in MRC Tasks ( http://arxiv.org/abs/2007.01955v1 )

ライセンス: Link先を確認
Maria Khvalchik and Mikhail Galkin(参考訳) 大規模言語モデル(LM)の事前学習には大量のテキストコーパスが必要である。 英語のLMは多種多様な言語資源のコーパスを永遠に楽しめる。 しかし、リソースの少ない言語やモノリンガルなLMはより大きなデータセットを得るのに苦労することが多い。 この場合の典型的なアプローチは、英語コーパスを対象言語に機械翻訳することである。 本研究では,下流の自然言語処理タスクに対して,直接翻訳されたコーパスを適用してlmsの微調整を行い,処理後の注意深いキュレーションがパフォーマンスの向上と全体的なlmsの堅牢性につながることを実証する。 経験的評価では、ユーザレベルとシステムレベルのスペイン語SQuADデータセットに対して直接翻訳した比較を行う。 XQuADおよびMLQA転送学習評価質問応答タスクのさらなる実験結果から、多言語LMは正確な一致スコアの点から、機械翻訳アーティファクトに対してより弾力性を示すことが示された。

Pre-training large-scale language models (LMs) requires huge amounts of text corpora. LMs for English enjoy ever growing corpora of diverse language resources. However, less resourced languages and their mono- and multilingual LMs often struggle to obtain bigger datasets. A typical approach in this case implies using machine translation of English corpora to a target language. In this work, we study the caveats of applying directly translated corpora for fine-tuning LMs for downstream natural language processing tasks and demonstrate that careful curation along with post-processing lead to improved performance and overall LMs robustness. In the empirical evaluation, we perform a comparison of directly translated against curated Spanish SQuAD datasets on both user and system levels. Further experimental results on XQuAD and MLQA transfer-learning evaluation question answering tasks show that presumably multilingual LMs exhibit more resilience to machine translation artifacts in terms of the exact match score.
翻訳日:2022-11-14 05:29:15 公開日:2020-07-03
# モバイルパズルゲームにおけるポリシー最適化の活用戦略

Strategies for Using Proximal Policy Optimization in Mobile Puzzle Games ( http://arxiv.org/abs/2007.01542v1 )

ライセンス: Link先を確認
Jeppe Theiss Kristensen, Paolo Burelli(参考訳) 伝統的に労働集約的なタスクだが、ゲームコンテンツのテストは徐々に自動化されている。 この自動化が実現している多くの方向の中で、自動プレイテストは、多くの教師付き強化学習(RL)アルゴリズムの進歩による最も有望な1つである。 しかし、この種のアルゴリズムは、非常に強力だが、トレーニングと使用における信頼性と透明性の問題により、プロダクション環境でしばしば苦しむ。 本研究では,ゲームプレイにおける学習と一般化の信頼性向上に特化しつつ,カジュアル・モバイル・パズルゲームにおける一般的なrl法近方政策最適化(ppo)の適用戦略を調査し,評価する。 我々は,現実のモバイルパズルゲーム(Tactile GamesのLily's Garden)に対して,さまざまな戦略を実装し,テストしてきた。 我々は,テスト中のトレーニングや一般化の失敗につながる条件を分離し,このジャンルにおけるアルゴリズムのより安定した動作を保証するためのいくつかの戦略を特定した。

While traditionally a labour intensive task, the testing of game content is progressively becoming more automated. Among the many directions in which this automation is taking shape, automatic play-testing is one of the most promising thanks also to advancements of many supervised and reinforcement learning (RL) algorithms. However these type of algorithms, while extremely powerful, often suffer in production environments due to issues with reliability and transparency in their training and usage. In this research work we are investigating and evaluating strategies to apply the popular RL method Proximal Policy Optimization (PPO) in a casual mobile puzzle game with a specific focus on improving its reliability in training and generalization during game playing. We have implemented and tested a number of different strategies against a real-world mobile puzzle game (Lily's Garden from Tactile Games). We isolated the conditions that lead to a failure in either training or generalization during testing and we identified a few strategies to ensure a more stable behaviour of the algorithm in this game genre.
翻訳日:2022-11-14 05:28:57 公開日:2020-07-03
# タスク非依存の一時的な顔映像編集

Task-agnostic Temporally Consistent Facial Video Editing ( http://arxiv.org/abs/2007.01466v1 )

ライセンス: Link先を確認
Meng Cao, Haozhi Huang, Hao Wang, Xuan Wang, Li Shen, Sheng Wang, Linchao Bao, Zhifeng Li, Jiebo Luo(参考訳) 最近の研究は、顔画像編集タスクの進歩を目撃している。 しかし、ビデオ編集では、従来の手法では変換フレームをフレームごとに適用するか、複数のフレームを連結または反復的に利用する。 加えて、これらのメソッドは拡張性なしに一度にひとつの特定のタスクを扱うことに限定されます。 本稿では,タスクに依存しない時間的一貫性のある顔映像編集フレームワークを提案する。 3次元復元モデルに基づき,複数の編集タスクをより統一的かつ不連続な方法で処理するように設計した。 コア設計には、動的トレーニングサンプル選択機構と、画像とビデオのデータセットを完全に活用し、時間的一貫性を強制する新しい3D時間的損失制約が含まれている。 現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。

Recent research has witnessed the advances in facial image editing tasks. For video editing, however, previous methods either simply apply transformations frame by frame or utilize multiple frames in a concatenated or iterative fashion, which leads to noticeable visual flickers. In addition, these methods are confined to dealing with one specific task at a time without any extensibility. In this paper, we propose a task-agnostic temporally consistent facial video editing framework. Based on a 3D reconstruction model, our framework is designed to handle several editing tasks in a more unified and disentangled manner. The core design includes a dynamic training sample selection mechanism and a novel 3D temporal loss constraint that fully exploits both image and video datasets and enforces temporal consistency. Compared with the state-of-the-art facial image editing methods, our framework generates video portraits that are more photo-realistic and temporally smooth.
翻訳日:2022-11-14 05:28:00 公開日:2020-07-03
# ODE-CNN:全方向深さ拡張ネットワーク

ODE-CNN: Omnidirectional Depth Extension Networks ( http://arxiv.org/abs/2007.01475v1 )

ライセンス: Link先を確認
Xinjing Cheng, Peng Wang, Yanqi Zhou, Chenye Guan and Ruigang Yang(参考訳) 対向360度カメラは、視野を広げることによって認識能力を大幅に向上させるため、自律ロボットにとって急速に増殖する。 しかし、それに対応する360{\deg}深度センサーは認識システムにとって重要なものであり、それでもなお困難か高価である。 本稿では,全方位カメラとキャリブレーションされた投影深度カメラを組み合わせた低コストな3Dセンシングシステムを提案する。 不足した深さを正確に復元するために、特徴符号化層末に球状特徴変換層(sftl)を埋め込み、特徴復号層末に変形可能な畳み込み空間伝搬ネットワーク(d-cspn)を付加した全方位深さ拡張畳み込みニューラルネットワーク(ode-cnn)を設計する。 前者は、全方向コーディネーションで各画素の近傍を全方向コーディネーションでサンプリングし、特徴学習の難しさを低減し、後者は、基準画像であるcnn w.r.tを介して推定深度の構造を適切に整列する適切なコンテキストを自動的に見つけ、視覚的品質を大幅に向上させる。 最後に,提案したODE-CNNが360Dデータセットに対して有効であることを示すとともに,ODE-CNNが他の最先端(SoTA)手法よりも有意に優れていることを示す。

Omnidirectional 360{\deg} camera proliferates rapidly for autonomous robots since it significantly enhances the perception ability by widening the field of view(FoV). However, corresponding 360{\deg} depth sensors, which are also critical for the perception system, are still difficult or expensive to have. In this paper, we propose a low-cost 3D sensing system that combines an omnidirectional camera with a calibrated projective depth camera, where the depth from the limited FoV can be automatically extended to the rest of the recorded omnidirectional image. To accurately recover the missing depths, we design an omnidirectional depth extension convolutional neural network(ODE-CNN), in which a spherical feature transform layer(SFTL) is embedded at the end of feature encoding layers, and a deformable convolutional spatial propagation network(D-CSPN) is appended at the end of feature decoding layers. The former resamples the neighborhood of each pixel in the omnidirectional coordination to the projective coordination, which reduces the difficulty of feature learning, and the later automatically finds a proper context to well align the structures in the estimated depths via CNN w.r.t. the reference image, which significantly improves the visual quality. Finally, we demonstrate the effectiveness of proposed ODE-CNN over the popular 360D dataset and show that ODE-CNN significantly outperforms (relatively 33% reduction in-depth error) other state-of-the-art (SoTA) methods.
翻訳日:2022-11-14 05:27:45 公開日:2020-07-03
# 点雲の3次元セマンティックセグメンテーションにおける不確かさ推定法の評価

Evaluating Uncertainty Estimation Methods on 3D Semantic Segmentation of Point Clouds ( http://arxiv.org/abs/2007.01787v1 )

ライセンス: Link先を確認
Swaroop Bhandary K and Nico Hochgeschwender and Paul Pl\"oger and Frank Kirchner and Matias Valdenegro-Toro(参考訳) 深層学習モデルは、様々な安全クリティカルな応用に広く利用されている。 したがって、これらのモデルと正確性は高い信頼性を必要とする。 これを達成する一つの方法は不確実性を定量化することである。 UQのベイズ的手法は、画像に適用されたディープラーニングモデルに対して広範囲に研究されてきたが、ロボットや自律システムによく使用される点雲のような3Dモダリティについては研究されていない。 本研究では,DarkNet21Segのセマンティックセマンティックセグメンテーションモデル上でのDeep Ensembles, MC-Dropout, MC-DropConnectの3つの不確実性定量化手法を評価し, アンサンブルやフォワードパスのモデル数, タスク性能および不確実性推定品質に対する確率値の低下など,様々なパラメータの影響を包括的に分析する。 Deep Ensemblesは、パフォーマンスと不確実性の両方で、他の手法よりも優れています。 ディープアンサンブルは、miouでは2.4%、精度では1.3%、意思決定では信頼できる不確実性を提供しながら、他の手法を上回っている。

Deep learning models are extensively used in various safety critical applications. Hence these models along with being accurate need to be highly reliable. One way of achieving this is by quantifying uncertainty. Bayesian methods for UQ have been extensively studied for Deep Learning models applied on images but have been less explored for 3D modalities such as point clouds often used for Robots and Autonomous Systems. In this work, we evaluate three uncertainty quantification methods namely Deep Ensembles, MC-Dropout and MC-DropConnect on the DarkNet21Seg 3D semantic segmentation model and comprehensively analyze the impact of various parameters such as number of models in ensembles or forward passes, and drop probability values, on task performance and uncertainty estimate quality. We find that Deep Ensembles outperforms other methods in both performance and uncertainty metrics. Deep ensembles outperform other methods by a margin of 2.4% in terms of mIOU, 1.3% in terms of accuracy, while providing reliable uncertainty for decision making.
翻訳日:2022-11-14 05:21:34 公開日:2020-07-03
# Swoosh! ラトル! タンプ! --音がする動作

Swoosh! Rattle! Thump! -- Actions that Sound ( http://arxiv.org/abs/2007.01851v1 )

ライセンス: Link先を確認
Dhiraj Gandhi, Abhinav Gupta, Lerrel Pinto(参考訳) 真に知的なエージェントは、彼らの世界に対する豊かな物理的理解を構築するために、すべての感覚の相互作用を捉える必要がある。 ロボット工学において、視覚と触覚の知覚は著しく進歩してきたが、私たちはしばしば重要な感覚である音を無視してきた。 これは主に、アクションとサウンドの相互作用をキャプチャするデータが欠如しているためである。 本研究では,音とロボットの相互作用に関する最初の大規模研究を行う。 これを実現するために、ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションを持つ、利用可能な最大規模のサウンドアクションビジョンデータセットを作成しました。 物体を傾けてロボットトレイの壁に衝突させることで、リッチな4チャンネルオーディオ情報を収集する。 このデータを用いて,音と動作の相乗効果を探索し,3つの重要な知見を提示する。 まず、音は、金属スクリュードライバーと金属レンチとを区別できるような、粒度の細かいオブジェクトクラス情報を示す。 第二に、音はまた、ある動作の因果効果、すなわち生成された音から、どの動作がオブジェクトに適用されたかを予測できる情報も含んでいる。 最後に、オーディオ埋め込みから派生したオブジェクト表現は、暗黙の物理的特性を示す。 従来は認識されていなかったオブジェクトでは、インタラクションによって生成された音声埋め込みが、受動的視覚埋め込みよりも24%優れたモデルを予測することができることを実証する。 プロジェクトビデオとデータはhttps://dhiraj100892.github.io/swoosh/にある。

Truly intelligent agents need to capture the interplay of all their senses to build a rich physical understanding of their world. In robotics, we have seen tremendous progress in using visual and tactile perception; however, we have often ignored a key sense: sound. This is primarily due to the lack of data that captures the interplay of action and sound. In this work, we perform the first large-scale study of the interactions between sound and robotic action. To do this, we create the largest available sound-action-vision dataset with 15,000 interactions on 60 objects using our robotic platform Tilt-Bot. By tilting objects and allowing them to crash into the walls of a robotic tray, we collect rich four-channel audio information. Using this data, we explore the synergies between sound and action and present three key insights. First, sound is indicative of fine-grained object class information, e.g., sound can differentiate a metal screwdriver from a metal wrench. Second, sound also contains information about the causal effects of an action, i.e. given the sound produced, we can predict what action was applied to the object. Finally, object representations derived from audio embeddings are indicative of implicit physical properties. We demonstrate that on previously unseen objects, audio embeddings generated through interactions can predict forward models 24% better than passive visual embeddings. Project videos and data are at https://dhiraj100892.github.io/swoosh/
翻訳日:2022-11-14 05:21:12 公開日:2020-07-03
# 癌病理における大規模マルチスケール画像における関心領域の選択

Selecting Regions of Interest in Large Multi-Scale Images for Cancer Pathology ( http://arxiv.org/abs/2007.01866v1 )

ライセンス: Link先を確認
Rui Aguiar, Jon Braatz(参考訳) 最近の畳み込みニューラルネットワーク(cnns)を用いた物体検出と画像分類のブレークスルーは、医療画像の最先端に革命をもたらしており、特に顕微鏡は、マラリアからがんに至る疾患の診断において、医療従事者を支援するコンピュータビジョンアルゴリズムの豊富な機会を提供している。 Whole Slide Images(WSIs)と呼ばれる顕微鏡スライドの高解像度スキャンは、がん病理学者が複数のスケールと解像度でスライド画像内の特徴の測定に基づいて、がんの存在、サブタイプ、重症度に関する結論を出すのに十分な情報を提供する。 wsisの超高分解能と特徴尺度は、全体解剖学的構造から細胞核まで幅広いため、オブジェクト検出と分類に標準のcnnモデルを使用することを妨げている。 肝癌,肝細胞癌 (HCC) と胆管癌 (CC) の2種類のうちの1つを含む肝病理組織スライドにおいて,WSI を段階的に拡大して興味の領域 (ROI) を検出するための並列アプローチについて検討した。 これらのroisは、測定と診断を助けるために病理医に直接提示したり、腫瘍亜型の自動分類に使用できる。

Recent breakthroughs in object detection and image classification using Convolutional Neural Networks (CNNs) are revolutionizing the state of the art in medical imaging, and microscopy in particular presents abundant opportunities for computer vision algorithms to assist medical professionals in diagnosis of diseases ranging from malaria to cancer. High resolution scans of microscopy slides called Whole Slide Images (WSIs) offer enough information for a cancer pathologist to come to a conclusion regarding cancer presence, subtype, and severity based on measurements of features within the slide image at multiple scales and resolutions. WSIs' extremely high resolutions and feature scales ranging from gross anatomical structures down to cell nuclei preclude the use of standard CNN models for object detection and classification, which have typically been designed for images with dimensions in the hundreds of pixels and with objects on the order of the size of the image itself. We explore parallel approaches based on Reinforcement Learning and Beam Search to learn to progressively zoom into the WSI to detect Regions of Interest (ROIs) in liver pathology slides containing one of two types of liver cancer, namely Hepatocellular Carcinoma (HCC) and Cholangiocarcinoma (CC). These ROIs can then be presented directly to the pathologist to aid in measurement and diagnosis or be used for automated classification of tumor subtype.
翻訳日:2022-11-14 05:20:50 公開日:2020-07-03
# 3次元磁気粒子イメージングに先立つ深部画像:オープンMPIデータセットにおける正規化手法の定量的比較

Deep image prior for 3D magnetic particle imaging: A quantitative comparison of regularization techniques on Open MPI dataset ( http://arxiv.org/abs/2007.01593v1 )

ライセンス: Link先を確認
S\"oren Dittmer, Tobias Kluth, Mads Thorstein Roar Henriksen and Peter Maass(参考訳) 磁性粒子イメージング(MPI)は、(超)超磁性ナノ粒子の非線形磁化挙動を利用して、これらのナノ粒子からなるトレーサの空間的かつ時依存的な濃度を得る。 MPIは医療応用の可能性を継続的に増している。 これらのアプリケーションの性能向上の前提条件は、画像再構成問題に対する適切な解決策である。 逆問題理論からのより古典的な手法や機械学習の分野からの新たなアプローチは、MPIに高品質な再構築をもたらす可能性がある。 本研究では,深層ニューラルネットワークによる解の表現に基づく,先行した深層画像に基づく新しい再構成手法について検討する。 新しい手法、および変分および反復正則化手法は、公開可能なOpen MPIデータセット上のピーク信号-雑音比と構造的類似度指標の観点から定量的に比較される。

Magnetic particle imaging (MPI) is an imaging modality exploiting the nonlinear magnetization behavior of (super-)paramagnetic nanoparticles to obtain a space- and often also time-dependent concentration of a tracer consisting of these nanoparticles. MPI has a continuously increasing number of potential medical applications. One prerequisite for successful performance in these applications is a proper solution to the image reconstruction problem. More classical methods from inverse problems theory, as well as novel approaches from the field of machine learning, have the potential to deliver high-quality reconstructions in MPI. We investigate a novel reconstruction approach based on a deep image prior, which builds on representing the solution by a deep neural network. Novel approaches, as well as variational and iterative regularization techniques, are compared quantitatively in terms of peak signal-to-noise ratios and structural similarity indices on the publicly available Open MPI dataset.
翻訳日:2022-11-14 05:18:59 公開日:2020-07-03
# 言語モデルのためのオンザフライ情報検索拡張

On-The-Fly Information Retrieval Augmentation for Language Models ( http://arxiv.org/abs/2007.01528v1 )

ライセンス: Link先を確認
Hai Wang, David McAllester(参考訳) 本稿では,事前学習型言語モデルの強化として情報検索を利用する実験を行った。 情報検索に使用されるテキストコーパスは、時間とともに増大するエピソディックメモリの形式と見なすことができる。 情報検索によるGPT 2.0の強化により,Gigaword corpus におけるパープレキシティの相対的減少率がゼロショット15%となる。 また、イベントコレファレンスタスクにおけるIR増強の検証も行います。

Here we experiment with the use of information retrieval as an augmentation for pre-trained language models. The text corpus used in information retrieval can be viewed as form of episodic memory which grows over time. By augmenting GPT 2.0 with information retrieval we achieve a zero shot 15% relative reduction in perplexity on Gigaword corpus without any re-training. We also validate our IR augmentation on an event co-reference task.
翻訳日:2022-11-14 05:18:29 公開日:2020-07-03
# 機能コネクティクスと行動データ空間を共同でモデル化する結合多様体最適化フレームワーク

A Coupled Manifold Optimization Framework to Jointly Model the Functional Connectomics and Behavioral Data Spaces ( http://arxiv.org/abs/2007.01929v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza, Mary Beth Nebel, Nicholas Wymbs, Stewart Mostofsky, and Archana Venkataraman(参考訳) 機能コネクトミクスと動作を結びつける問題は、2つの異なるが関連するデータドメイン間の複雑な相互作用のため、非常に困難である。 コホートに共通する低次元行列多様体にfMRIデータを投影する結合多様体最適化フレームワークを提案する。 患者固有の負荷は、同時に第2の非線形多様体を介して、興味の行動尺度にマップされる。 カーネルのトリックを利用することで、埋め込みを明示的に計算することなく、潜在的に無限次元空間を最適化できる。 固定的な入力表現を前提とする従来の多様体学習とは対照的に,我々のフレームワークは,動作を予測するための埋め込み方向を直接最適化する。 最適化アルゴリズムは, 近似勾配降下法と信頼領域法を組み合わせ, 収束保証が良好である。 自閉症スペクトラム障害58例の安静時fMRIの枠組みを3つの臨床重症度尺度を用いて検証した。 提案手法は,従来の表現学習手法を横断的評価条件で上回り,結合した目的の予測力を示す。

The problem of linking functional connectomics to behavior is extremely challenging due to the complex interactions between the two distinct, but related, data domains. We propose a coupled manifold optimization framework which projects fMRI data onto a low dimensional matrix manifold common to the cohort. The patient specific loadings simultaneously map onto a behavioral measure of interest via a second, non-linear, manifold. By leveraging the kernel trick, we can optimize over a potentially infinite dimensional space without explicitly computing the embeddings. As opposed to conventional manifold learning, which assumes a fixed input representation, our framework directly optimizes for embedding directions that predict behavior. Our optimization algorithm combines proximal gradient descent with the trust region method, which has good convergence guarantees. We validate our framework on resting state fMRI from fifty-eight patients with Autism Spectrum Disorder using three distinct measures of clinical severity. Our method outperforms traditional representation learning techniques in a cross validated setting, thus demonstrating the predictive power of our coupled objective.
翻訳日:2022-11-14 05:12:12 公開日:2020-07-03
# 自閉症におけるスペクトルレベルの欠陥予測のためのマルチモーダルと動的接続の統合のためのディープジェネレーティブハイブリッドモデル

A Deep-Generative Hybrid Model to Integrate Multimodal and Dynamic Connectivity for Predicting Spectrum-Level Deficits in Autism ( http://arxiv.org/abs/2007.01931v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza, Mary Beth Nebel, Deana Crocetti, Nicholas Wymbs, Joshua Robinson, Stewart Mostofsky, and Archana Venkataraman(参考訳) 本稿では, 静止機能型MRI(r-fMRI)と拡散テンソル画像(DTI)から補完的な情報を共同でモデル化し, 疾患の予測バイオマーカーを抽出する。 本フレームワークの生成部は構造規則化動的辞書学習(sr-DDL)モデルであり,動的rs-fMRI相関行列を共有ベースネットワークと時間差の患者固有の負荷の集合に分解する。 この行列分解は、DTIトラクトグラフィー行列によって導かれ、解剖学的に情報を得た接続プロファイルを学習する。 本フレームワークの深部はLSTM-ANNブロックであり,Sr-DDL負荷の経時的変化をモデル化し,多次元的臨床的重症度を予測する。 統合最適化手法は,基礎ネットワーク,患者固有の動的負荷,ニューラルネットワーク重みを総合的に推定する。 自閉症スペクトラム障害(ASD)と診断された57例を対象に,多スコア予測課題の枠組みを検証した。 ハイブリッドモデルは5倍のクロス検証設定で最先端のベースラインを上回り,asdにおける脳機能障害の解釈可能なマルチモーダルニューラルシグネチャを抽出する。

We propose an integrated deep-generative framework, that jointly models complementary information from resting-state functional MRI (rs-fMRI) connectivity and diffusion tensor imaging (DTI) tractography to extract predictive biomarkers of a disease. The generative part of our framework is a structurally-regularized Dynamic Dictionary Learning (sr-DDL) model that decomposes the dynamic rs-fMRI correlation matrices into a collection of shared basis networks and time varying patient-specific loadings. This matrix factorization is guided by the DTI tractography matrices to learn anatomically informed connectivity profiles. The deep part of our framework is an LSTM-ANN block, which models the temporal evolution of the patient sr-DDL loadings to predict multidimensional clinical severity. Our coupled optimization procedure collectively estimates the basis networks, the patient-specific dynamic loadings, and the neural network weights. We validate our framework on a multi-score prediction task in 57 patients diagnosed with Autism Spectrum Disorder (ASD). Our hybrid model outperforms state-of-the-art baselines in a five-fold cross validated setting and extracts interpretable multimodal neural signatures of brain dysfunction in ASD.
翻訳日:2022-11-14 05:11:56 公開日:2020-07-03
# ciclad:ストリーム用の高速でメモリ効率のよいクローズドアイテムセットマイナ

CICLAD: A Fast and Memory-efficient Closed Itemset Miner for Streams ( http://arxiv.org/abs/2007.01946v1 )

ライセンス: Link先を確認
Tomas Martin, Guy Francoeur, Petko Valtchev(参考訳) データストリームからアソシエーションルールをマイニングすることは、(典型的には)利用可能なリソースが、結果のサイズよりも大きいため、難しい作業です。 頻繁にクローズドアイテムセット(FCI)は効率的な第1ステップを実現するが、現在のFCIストリームマイナーはリソース消費に最適ではない。 より優れたストレージ効率トレードオフを探すために,我々は,交差点をベースとしたスライディングウインドウFCI採掘機であるCicladを設計した。 FCIの進化に関する詳細な洞察を活用して、最小限のストレージと迅速なアクセスを組み合わせます。 実験の結果、cicladのメモリインプリントは、競合メソッドよりもずっと低く、世界中でパフォーマンスが良いことがわかった。

Mining association rules from data streams is a challenging task due to the (typically) limited resources available vs. the large size of the result. Frequent closed itemsets (FCI) enable an efficient first step, yet current FCI stream miners are not optimal on resource consumption, e.g. they store a large number of extra itemsets at an additional cost. In a search for a better storage-efficiency trade-off, we designed Ciclad,an intersection-based sliding-window FCI miner. Leveraging in-depth insights into FCI evolution, it combines minimal storage with quick access. Experimental results indicate Ciclad's memory imprint is much lower and its performances globally better than competitor methods.
翻訳日:2022-11-14 05:11:31 公開日:2020-07-03
# センサデータに基づく行動モデルを用いた早期認知症候の検出

Detecting Signatures of Early-stage Dementia with Behavioural Models Derived from Sensor Data ( http://arxiv.org/abs/2007.03615v1 )

ライセンス: Link先を確認
Rafael Poyiadzi and Weisong Yang and Yoav Ben-Shlomo and Ian Craddock and Liz Coulthard and Raul Santos-Rodriguez and James Selwood and Niall Twomey(参考訳) 認知症などの慢性神経疾患の状態や進行を自動で理解する必要性が強まっている。 最先端センシングプラットフォームの出現は、行動監視レンズを通して病気状態の間接的および自動評価を行う前例のない機会を提供する。 本研究の目的は,軽度認知障害 (mci) とアルツハイマー病 (ad) の行動的特徴を,この疾患の早期発症段階において特徴づけることである。 本稿では,MCI と AD の患者から得られた縦型センサデータのデータセットに,行動モデルと重要な症状の分析を導入し,それらを展開する。 本研究は,認知症早期の患者と健常者の共住コントロールとの間に,睡眠の質と遊行の関係が微妙に異なることを示す予備的知見を示す。

There is a pressing need to automatically understand the state and progression of chronic neurological diseases such as dementia. The emergence of state-of-the-art sensing platforms offers unprecedented opportunities for indirect and automatic evaluation of disease state through the lens of behavioural monitoring. This paper specifically seeks to characterise behavioural signatures of mild cognitive impairment (MCI) and Alzheimer's disease (AD) in the \textit{early} stages of the disease. We introduce bespoke behavioural models and analyses of key symptoms and deploy these on a novel dataset of longitudinal sensor data from persons with MCI and AD. We present preliminary findings that show the relationship between levels of sleep quality and wandering can be subtly different between patients in the early stages of dementia and healthy cohabiting controls.
翻訳日:2022-11-14 05:11:20 公開日:2020-07-03
# 機能からのモデリング:高パラメータ深層ニューラルネットワークのための平均場フレームワーク

Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks ( http://arxiv.org/abs/2007.01452v1 )

ライセンス: Link先を確認
Cong Fang, Jason D. Lee, Pengkun Yang, Tong Zhang(参考訳) 本稿では,ニューラルネットワークの学習解析に使用可能な,超パラメータ深層ニューラルネットワーク(dnns)のための平均場フレームワークを提案する。 このフレームワークでは、DNNは、既存のほとんどの研究が行ったように、ニューラルネットワークパラメータの代わりに、その特徴(すなわち、トレーニングデータ上の隠れたユニットの関数値)に関する確率測度と関数で表現される。 この新たな表現は、すべての隠蔽ユニットが本質的には各中間層に1つの意味のある隠蔽ユニットしか持たない縮退状況を克服し、さらに、トレーニング目的を適切な再パラメータ化によって凸最適化問題として再構成できるDNNのより単純な表現へと導く。 さらに、グラディエントDescentによって訓練された過パラメータDNNの進化を捉えるニューラル特徴フローと呼ばれる非線形ダイナミクスを構築した。 本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。 さらに、res-netでは、神経機能フロープロセスが収束すると、適切な条件下でグローバル極小解に到達する。 我々の分析は、平均的な領域で3ドル以上のレイヤーを持つ過パラメータニューラルネットワークトレーニングのための、最初のグローバル収束証明につながります。

This paper proposes a new mean-field framework for over-parameterized deep neural networks (DNNs), which can be used to analyze neural network training. In this framework, a DNN is represented by probability measures and functions over its features (that is, the function values of the hidden units over the training data) in the continuous limit, instead of the neural network parameters as most existing studies have done. This new representation overcomes the degenerate situation where all the hidden units essentially have only one meaningful hidden unit in each middle layer, and further leads to a simpler representation of DNNs, for which the training objective can be reformulated as a convex optimization problem via suitable re-parameterization. Moreover, we construct a non-linear dynamics called neural feature flow, which captures the evolution of an over-parameterized DNN trained by Gradient Descent. We illustrate the framework via the standard DNN and the Residual Network (Res-Net) architectures. Furthermore, we show, for Res-Net, when the neural feature flow process converges, it reaches a global minimal solution under suitable conditions. Our analysis leads to the first global convergence proof for over-parameterized neural network training with more than $3$ layers in the mean-field regime.
翻訳日:2022-11-14 05:03:11 公開日:2020-07-03
# バッチサイズ適応によるリーマン非凸最適化の分散低減

Variance reduction for Riemannian non-convex optimization with batch size adaptation ( http://arxiv.org/abs/2007.01494v1 )

ライセンス: Link先を確認
Andi Han, Junbin Gao(参考訳) 変数還元技術はユークリッド空間とリーマン多様体の両方で定義される最適化問題に対して、勾配降下と確率勾配降下の加速に人気がある。 本稿では,R-SVRGやR-SRG/R-SPIDERを含む非凸リーマン最適化のための既存の分散低減手法をさらに改良する。 この戦略は, 一般の非凸関数と勾配支配関数の両方を有限和とオンラインの両方で最適化するために, 全体の複雑さを低くできることを示す。 その結果、R-SVRGに対してより単純な収束解析を提供し、有限サム条件下でのR-SRGの複雑性境界を改善する。 具体的には、R-SRGが小さなステップサイズを必要とせず、R-SPIDERと同じ近似複雑性を実現することを証明する。 各種タスクの実証実験により,適応型バッチサイズスキームの有効性が示された。

Variance reduction techniques are popular in accelerating gradient descent and stochastic gradient descent for optimization problems defined on both Euclidean space and Riemannian manifold. In this paper, we further improve on existing variance reduction methods for non-convex Riemannian optimization, including R-SVRG and R-SRG/R-SPIDER with batch size adaptation. We show that this strategy can achieve lower total complexities for optimizing both general non-convex and gradient dominated functions under both finite-sum and online settings. As a result, we also provide simpler convergence analysis for R-SVRG and improve complexity bounds for R-SRG under finite-sum setting. Specifically, we prove that R-SRG achieves the same near-optimal complexity as R-SPIDER without requiring a small step size. Empirical experiments on a variety of tasks demonstrate effectiveness of proposed adaptive batch size scheme.
翻訳日:2022-11-14 05:02:50 公開日:2020-07-03
# GWASの深い解釈可能性

Deep interpretability for GWAS ( http://arxiv.org/abs/2007.01516v1 )

ライセンス: Link先を確認
Deepak Sharma, Audrey Durand, Marc-Andr\'e Legault, Louis-Philippe Lemieux Perreault, Audrey Lema\c{c}on, Marie-Pierre Dub\'e, Joelle Pineau(参考訳) ゲノムワイド・アソシエーション研究は通常、一般的な疾患に関連する遺伝的変異を見つけるために線形モデルを用いて行われる。 これらの研究では、アソシエーションテストは変種ごとに行われ、おそらく変種間の非線形相互作用効果を欠いている。 ディープネットワークはこれらの相互作用のモデル化に使用できるが、大規模な遺伝的データセットのトレーニングや解釈は困難である。 本稿では,DeepLIFTという勾配に基づく深層解析技術を用いて,糖尿病の遺伝的リスク因子を,新たな関連性とともに深層モデルを用いて同定できることを示す。

Genome-Wide Association Studies are typically conducted using linear models to find genetic variants associated with common diseases. In these studies, association testing is done on a variant-by-variant basis, possibly missing out on non-linear interaction effects between variants. Deep networks can be used to model these interactions, but they are difficult to train and interpret on large genetic datasets. We propose a method that uses the gradient based deep interpretability technique named DeepLIFT to show that known diabetes genetic risk factors can be identified using deep models along with possibly novel associations.
翻訳日:2022-11-14 05:02:30 公開日:2020-07-03
# Federated Matrix Factorizationに対するプライバシーの脅威

Privacy Threats Against Federated Matrix Factorization ( http://arxiv.org/abs/2007.01587v1 )

ライセンス: Link先を確認
Dashan Gao, Ben Tan, Ce Ju, Vincent W. Zheng and Qiang Yang(参考訳) matrix factorizationは実用的な推奨アプリケーションやeコマースで非常に成功しています。 データ不足と厳格な規制のため、単一の企業でパフォーマンスレコメンデーションシステムを構築するのに十分なデータを集めるのは難しい。 フェデレーション学習は、プライバシとセキュリティを損なうことなく、データサイロをブリッジし、マシンラーニングモデルを構築することができる。 共通のユーザやアイテムを共有する参加者は,すべての参加者のデータを通じて,協力的にモデルを構築する。 協調フィルタリングシステムにおけるシステムやプライバシー問題へのフェデレーション学習の適用を探求する研究がいくつかある。 しかし、連合行列因子化におけるプライバシーの脅威は研究されていない。 本稿では,特徴空間の分割に基づくフェデレーション行列分解を3つのタイプに分類し,フェデレーション行列分解モデルに対するプライバシの脅威を分析する。 プライバシー保護のアプローチについても論じる。 私たちが知る限り、これは連合学習フレームワークにおける行列因数分解法のプライバシー上の脅威に関する最初の研究である。

Matrix Factorization has been very successful in practical recommendation applications and e-commerce. Due to data shortage and stringent regulations, it can be hard to collect sufficient data to build performant recommender systems for a single company. Federated learning provides the possibility to bridge the data silos and build machine learning models without compromising privacy and security. Participants sharing common users or items collaboratively build a model over data from all the participants. There have been some works exploring the application of federated learning to recommender systems and the privacy issues in collaborative filtering systems. However, the privacy threats in federated matrix factorization are not studied. In this paper, we categorize federated matrix factorization into three types based on the partition of feature space and analyze privacy threats against each type of federated matrix factorization model. We also discuss privacy-preserving approaches. As far as we are aware, this is the first study of privacy threats of the matrix factorization method in the federated learning framework.
翻訳日:2022-11-14 05:01:59 公開日:2020-07-03
# 粒子競合と協調を用いた対話型画像分割のための複雑なネットワーク構築:新しいアプローチ

Complex Network Construction for Interactive Image Segmentation using Particle Competition and Cooperation: A New Approach ( http://arxiv.org/abs/2007.01625v1 )

ライセンス: Link先を確認
Jefferson Antonio Ribeiro Passerini and Fabricio Aparecido Breve(参考訳) 対話型画像分割タスクでは、入力画像から構築された複雑なネットワークによって、粒子競合協調(PCC)モデルが供給される。 ネットワーク構築フェーズでは、対応するピクセルの色と位置情報からなる特徴集合における各要素の重要性を定義するために重みベクトルが必要であるため、専門家の介入を必要とする。 本稿では,ネットワーク構築段階における修正による重みベクトルの除去を提案する。 提案モデルと参照モデルは重みベクトルを用いずに,Grabcutデータセット,PASCALVOCデータセット,Alphamattingデータセットから抽出した151画像を用いて比較した。 各モデルが各画像に30回適用され、エラー平均値が得られた。 これらのシミュレーションの結果、基準モデルが3.14\%であるのに対して、提案したモデルで画素を分類する場合の誤差率は0.49\%に留まった。 また,提案手法は,参照モデルと比較して,評価画像の多様性における誤差の変化が少ないことを示した。

In the interactive image segmentation task, the Particle Competition and Cooperation (PCC) model is fed with a complex network, which is built from the input image. In the network construction phase, a weight vector is needed to define the importance of each element in the feature set, which consists of color and location information of the corresponding pixels, thus demanding a specialist's intervention. The present paper proposes the elimination of the weight vector through modifications in the network construction phase. The proposed model and the reference model, without the use of a weight vector, were compared using 151 images extracted from the Grabcut dataset, the PASCAL VOC dataset and the Alpha matting dataset. Each model was applied 30 times to each image to obtain an error average. These simulations resulted in an error rate of only 0.49\% when classifying pixels with the proposed model while the reference model had an error rate of 3.14\%. The proposed method also presented less error variation in the diversity of the evaluated images, when compared to the reference model.
翻訳日:2022-11-14 04:54:21 公開日:2020-07-03
# バイアス競合による破滅的干渉の除去

Eliminating Catastrophic Interference with Biased Competition ( http://arxiv.org/abs/2007.02833v1 )

ライセンス: Link先を確認
Amelia Elizabeth Pollard and Jonathan L. Shapiro(参考訳) ここでは、複雑なデータセットのマルチタスク特性を利用して、ネットワーク内の競合的相互作用をバイアスすることで、タスクとサブタスクを上下に分離する学習モデルを提案する。 この方法はデータセット内のデータの追加のラベル付けや再フォーマットを必要としない。 本稿では,マルチタスク問題のモノリシックな1タスク適応学習に対する代替的視点を提案し,desimone が提唱した神経科学からのニューロン注意の理論に基づくモデルについて述べる。 我々は、MNISTデータセットをベースとして、MNIST-QAと呼ばれる新しい玩具データセットを作成し、低次元環境における視覚質問回答アーキテクチャのテストを行い、視覚質問回答タスクのより難しいコンポーネントを保存し、提案したネットワークアーキテクチャを新しいデータセット、COCO-QAおよびDAQUAR-FULL上で実証する。 そして,このモデルにより,新たに作成されたおもちゃのデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合結果を提供することを示した。 マルチタスク問題としてVisual Question Answeringが適用可能であることを示す証拠として,Biased Competitionモデルに基づくこの新しいアーキテクチャは,タスクラベルを必要とせずに,エンドツーエンドでタスクの分離と学習を学習できることを示す。

We present here a model to take advantage of the multi-task nature of complex datasets by learning to separate tasks and subtasks in and end to end manner by biasing competitive interactions in the network. This method does not require additional labelling or reformatting of data in a dataset. We propose an alternate view to the monolithic one-task-fits-all learning of multi-task problems, and describe a model based on a theory of neuronal attention from neuroscience, proposed by Desimone. We create and exhibit a new toy dataset, based on the MNIST dataset, which we call MNIST-QA, for testing Visual Question Answering architectures in a low-dimensional environment while preserving the more difficult components of the Visual Question Answering task, and demonstrate the proposed network architecture on this new dataset, as well as on COCO-QA and DAQUAR-FULL. We then demonstrate that this model eliminates catastrophic interference between tasks on a newly created toy dataset and provides competitive results in the Visual Question Answering space. We provide further evidence that Visual Question Answering can be approached as a multi-task problem, and demonstrate that this new architecture based on the Biased Competition model is capable of learning to separate and learn the tasks in an end-to-end fashion without the need for task labels.
翻訳日:2022-11-14 04:53:25 公開日:2020-07-03
# MIRA:ディープニューラルネットワークを用いたWebスケール文書検索におけるマルチインテンションコクリック情報の活用

MIRA: Leveraging Multi-Intention Co-click Information in Web-scale Document Retrieval using Deep Neural Networks ( http://arxiv.org/abs/2007.01510v1 )

ライセンス: Link先を確認
Yusi Zhang, Chuanjie Liu, Angen Luo, Hui Xue, Xuan Shan, Yuxiang Luo, Yiqian Xia, Yuanchi Yan, Haidong Wang(参考訳) 産業用Web検索におけるディープリコールモデルの問題について検討し、ユーザクエリーが与えられた場合、数十億の候補から最も関連性の高い文書を検索する。 一般的なフレームワークは、クエリとドキュメントの分散表現を別々に学習し、潜伏したセマンティック空間でそれらをマッチングする、ニューラル埋め込みに基づく2つのエンコーディングモデルを訓練することである。 しかし、すべてのエンコーディングモデルは、ドキュメント自体の情報のみを利用するため、特にハードテールクエリでは、クエリ用語にマッチする場合には、実際には不十分であることが多い。 本研究は,各文書の共クリック近傍からの付加情報を活用し,文書検索を支援することを目的とする。 課題には、リアルタイムオンライン推論のための数十億規模のデータサイズのニーズを満たしながら、ディープモデルでコクリック情報を効果的に抽出し、ノイズを取り除く方法が含まれる。 まず,共クリック関係におけるノイズに対処するために,webスケールのマルチインテンション共クリック文書グラフ(micg)を提案する。 次に, bert と graph attention network に基づく符号化フレームワーク mira を提案する。 オンラインのレイテンシ要件を満たすためには、ドキュメント側の隣接情報のみを使用します。 提案手法の有効性と拡張性を示す2つの主要な商用検索エンジンから,公開データセットとプライベートwebスケールデータセットの両方について,オフライン実験を行った。 さらにケーススタディでは、コクリック関係は、主要な概念強化とクエリ項補完という2つの側面から、主にWeb検索品質を改善するのに役立ちます。

We study the problem of deep recall model in industrial web search, which is, given a user query, retrieve hundreds of most relevance documents from billions of candidates. The common framework is to train two encoding models based on neural embedding which learn the distributed representations of queries and documents separately and match them in the latent semantic space. However, all the exiting encoding models only leverage the information of the document itself, which is often not sufficient in practice when matching with query terms, especially for the hard tail queries. In this work we aim to leverage the additional information for each document from its co-click neighbour to help document retrieval. The challenges include how to effectively extract information and eliminate noise when involving co-click information in deep model while meet the demands of billion-scale data size for real time online inference. To handle the noise in co-click relations, we firstly propose a web-scale Multi-Intention Co-click document Graph(MICG) which builds the co-click connections between documents on click intention level but not on document level. Then we present an encoding framework MIRA based on Bert and graph attention networks which leverages a two-factor attention mechanism to aggregate neighbours. To meet the online latency requirements, we only involve neighbour information in document side, which can save the time-consuming query neighbor search in real time serving. We conduct extensive offline experiments on both public dataset and private web-scale dataset from two major commercial search engines demonstrating the effectiveness and scalability of the proposed method compared with several baselines. And a further case study reveals that co-click relations mainly help improve web search quality from two aspects: key concept enhancing and query term complementary.
翻訳日:2022-11-14 04:53:00 公開日:2020-07-03
# EHG信号の最適合成サンプリングに基づく事前予測の改善

Improved Preterm Prediction Based on Optimized Synthetic Sampling of EHG Signal ( http://arxiv.org/abs/2007.01447v1 )

ライセンス: Link先を確認
Jinshan Xu, Zhenqin Chen, Yanpei Lu, Xi Yang, Alain Pumir(参考訳) 長期労働は新生児の死亡率と死亡率の主要な原因であり、多くの科学分野から研究の成果を惹きつけてきた。 子宮収縮と下層の電気活動の相互関係は、子宮電気ヒステグラム(EHG)を早期発見と予測の有望な方向へと導く。 EHG信号の不足,特に早期患者の信号の不足により,機械学習に基づく自動事前検出における特徴効率の低下を犠牲にして,短期的な予測バイアスを取り除くために,合成アルゴリズムを用いて事前型の人工サンプルを作成する。 このような問題に対処するために,合成試料(バランス係数)が特徴量の有効性に及ぼす影響を定量化し,複数の特徴点をクラス分離に寄与する重み付けとすることにより,一般的な性能指標を形成する。 本研究は, 長期間のトレーニングサンプルの多量化と事前予測精度を特徴付ける活性化・不活性化機能と組み合わせて, 合成試料の過半数に対する偏りを除去する効果を損なう最適試料バランス係数と, 特徴量の重要性を左右する副作用を得る。 パブリックなTPEHGデータベース上での数値実験により,予測精度の実質的改善が達成され,提案手法の有効性が検証された。

Preterm labor is the leading cause of neonatal morbidity and mortality and has attracted research efforts from many scientific areas. The inter-relationship between uterine contraction and the underlying electrical activities makes uterine electrohysterogram (EHG) a promising direction for preterm detection and prediction. Due the scarcity of EHG signals, especially those of preterm patients, synthetic algorithms are applied to create artificial samples of preterm type in order to remove prediction bias towards term, at the expense of a reduction of the feature effectiveness in machine-learning based automatic preterm detecting. To address such problem, we quantify the effect of synthetic samples (balance coefficient) on features' effectiveness, and form a general performance metric by utilizing multiple feature scores with relevant weights that describe their contributions to class separation. Combined with the activation/inactivation functions that characterizes the effect of the abundance of training samples in term and preterm prediction precision, we obtain an optimal sample balance coefficient that compromise the effect of synthetic samples in removing bias towards the majority and the side-effect of reducing features' importance. Substantial improvement in prediction precision has been achieved through a set of numerical tests on public available TPEHG database, and it verifies the effectiveness of the proposed method.
翻訳日:2022-11-14 04:52:03 公開日:2020-07-03
# モンテカルロ液滴の定性的解析

Qualitative Analysis of Monte Carlo Dropout ( http://arxiv.org/abs/2007.01720v1 )

ライセンス: Link先を確認
Ronald Seoh(参考訳) 本報告では,ニューラルネットワーク(nn)モデルにおけるモデル不確かさを測定するためにモンテカルロ(mc)ドロップアウト法を定性的に分析する。 まず,nnにおける不確実性の源を考察し,nnにおける不確実性に取り組むベイズ的アプローチ群であるベイズニューラルネットワーク(bnn)について概説する。 MCドロップアウトの数学的定式化を行った結果,典型的なNNモデルにおけるMCドロップアウトの潜在的なメリットと関連するコストが提案され,その結果が得られた。

In this report, we present qualitative analysis of Monte Carlo (MC) dropout method for measuring model uncertainty in neural network (NN) models. We first consider the sources of uncertainty in NNs, and briefly review Bayesian Neural Networks (BNN), the group of Bayesian approaches to tackle uncertainties in NNs. After presenting mathematical formulation of MC dropout, we proceed to suggesting potential benefits and associated costs for using MC dropout in typical NN models, with the results from our experiments.
翻訳日:2022-11-14 04:45:08 公開日:2020-07-03
# DynNet:線形および非線形構造応答モデリングと予測のための物理に基づくニューラルネットワーク設計

DynNet: Physics-based neural architecture design for linear and nonlinear structural response modeling and prediction ( http://arxiv.org/abs/2007.01814v1 )

ライセンス: Link先を確認
Soheil Sadeghi Eshkevari, Martin Tak\'a\v{c}, Shamim N. Pakzad, and Majid Jahani(参考訳) 線形系および非線形系の動的応答を予測するためのデータ駆動モデルは、確率論的解析からシステム識別や損傷診断などの逆問題への広範な適用のために非常に重要である。 本研究では, 物理に基づくリカレントニューラルネットワークモデルを用いて, 基底運動が与えられた線形および非線形な多自由度系の力学を学習できるように設計された。 このモデルは、変位、速度、加速度、内部力を含む完全な応答のセットを推定することができる。 最も先進的なものと比較して、このモデルは訓練可能な変数の数が少ないが、長い軌道では予測の精度が高い。 さらに、再帰ブロックのアーキテクチャは微分方程式ソルバアルゴリズムにインスパイアされ、このアプローチによりより一般化された解が得られることが期待できる。 トレーニング段階では,ハードサンプリングや軌道損失関数の利用,信頼領域アプローチの実装といった,より小さなデータセットを用いた学習プロセスを劇的に加速する複数の新しい手法を提案する。 非線形挙動を学習するためのネットワークの強度を調べるために, 数値実験を行った。 その結果,ネットワークは動的システムの異なる非線形挙動を高い精度で捉えることができ,事前情報や膨大なデータセットは不要であることがわかった。

Data-driven models for predicting dynamic responses of linear and nonlinear systems are of great importance due to their wide application from probabilistic analysis to inverse problems such as system identification and damage diagnosis. In this study, a physics-based recurrent neural network model is designed that is able to learn the dynamics of linear and nonlinear multiple degrees of freedom systems given a ground motion. The model is able to estimate a complete set of responses, including displacement, velocity, acceleration, and internal forces. Compared to the most advanced counterparts, this model requires a smaller number of trainable variables while the accuracy of predictions is higher for long trajectories. In addition, the architecture of the recurrent block is inspired by differential equation solver algorithms and it is expected that this approach yields more generalized solutions. In the training phase, we propose multiple novel techniques to dramatically accelerate the learning process using smaller datasets, such as hardsampling, utilization of trajectory loss function, and implementation of a trust-region approach. Numerical case studies are conducted to examine the strength of the network to learn different nonlinear behaviors. It is shown that the network is able to capture different nonlinear behaviors of dynamic systems with very high accuracy and with no need for prior information or very large datasets.
翻訳日:2022-11-14 04:44:45 公開日:2020-07-03
# エピソード強化学習における最適化の統一的視点

A Unifying View of Optimism in Episodic Reinforcement Learning ( http://arxiv.org/abs/2007.01891v1 )

ライセンス: Link先を確認
Gergely Neu and Ciara Pike-Burke(参考訳) 不確実性に直面した楽観主義の原理は、理論上成功した強化学習アルゴリズムを支えている。 本稿では,そのようなアルゴリズムをエピソディクス強化学習問題において設計,解析,実装するための汎用フレームワークを提案する。 このフレームワークはラグランジュ双対性に基づいて構築されており、楽観的mdpを構成する全てのモデル最適化アルゴリズムは、値最適化動的プログラミングアルゴリズムとして等価表現を持つ。 モデル最適化アルゴリズムはよりクリーンな確率論的解析の恩恵を受け、価値最適化アルゴリズムはより実装しやすく、より実用的なものとなる。 本稿では,計算効率のよい動的プログラミング実装と単純な確率論的解析を備えたアルゴリズムのクラスを提供することで,両世界の長所を得られることを示す。 近年提案されている手法のモデルベース解析を可能にするため,本フレームワークでは,多数の既存アルゴリズムを表形式でキャプチャできるだけでなく,実現可能な関数近似の下での大規模問題にも対処できる。

The principle of optimism in the face of uncertainty underpins many theoretically successful reinforcement learning algorithms. In this paper we provide a general framework for designing, analyzing and implementing such algorithms in the episodic reinforcement learning problem. This framework is built upon Lagrangian duality, and demonstrates that every model-optimistic algorithm that constructs an optimistic MDP has an equivalent representation as a value-optimistic dynamic programming algorithm. Typically, it was thought that these two classes of algorithms were distinct, with model-optimistic algorithms benefiting from a cleaner probabilistic analysis while value-optimistic algorithms are easier to implement and thus more practical. With the framework developed in this paper, we show that it is possible to get the best of both worlds by providing a class of algorithms which have a computationally efficient dynamic-programming implementation and also a simple probabilistic analysis. Besides being able to capture many existing algorithms in the tabular setting, our framework can also address largescale problems under realizable function approximation, where it enables a simple model-based analysis of some recently proposed methods.
翻訳日:2022-11-14 04:44:26 公開日:2020-07-03
# 安全な機械学習における冗長性の検討

Examining Redundancy in the Context of Safe Machine Learning ( http://arxiv.org/abs/2007.01900v1 )

ライセンス: Link先を確認
Hans Dermot Doran and Monika Reif(参考訳) 本稿では,MNISTデータベース上のニューラルネットワーク分類器を用いた実験について述べる。 目的は、安全で信頼性の高い機械学習への第一歩として、冗長アーキテクチャの"na\"実装を調べることである。 本報告では,MNISTデータベースを用いて,安全かつ信頼性の高いシステムにおいて,NN分類器を使用する際の期待される困難さを概説する。

This paper describes a set of experiments with neural network classifiers on the MNIST database of digits. The purpose is to investigate na\"ive implementations of redundant architectures as a first step towards safe and dependable machine learning. We report on a set of measurements using the MNIST database which ultimately serve to underline the expected difficulties in using NN classifiers in safe and dependable systems.
翻訳日:2022-11-14 04:44:10 公開日:2020-07-03
# 機能接続データを用いた多次元臨床評価のためのニューラルネットワークと辞書学習の統合

Integrating Neural Networks and Dictionary Learning for Multidimensional Clinical Characterizations from Functional Connectomics Data ( http://arxiv.org/abs/2007.01930v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza, Mary Beth Nebel, Nicholas Wymbs, Stewart Mostofsky, and Archana Venkataraman(参考訳) 本稿では、ニューラルネットワークと辞書学習を組み合わせた統合最適化フレームワークを提案し、静止状態機能MRIと行動データとの複雑な相互作用をモデル化する。 辞書学習目的は、患者相関行列を共有基底ネットワークの集合と主題固有の負荷に分解する。 これらの主題特有の特徴は、同時に多次元臨床情報を予測するニューラルネットワークに入力される。 ニューラルネットからの勾配情報を従来の行列因子化目的と組み合わせた新しい最適化手法を提案する。 本手法は, 基礎ネットワーク, 被検体負荷, 神経ネットワークの重みを総合的に推定し, 臨床症状の重み付けを行う。 自閉症スペクトラム障害(asd)と診断された52例を対象に,マルチスコア予測タスクにおける複合モデルの評価を行った。 統合フレームワークは10倍のクロス検証設定で最先端の手法を上回り,臨床重症度を3つの異なる尺度で予測する。

We propose a unified optimization framework that combines neural networks with dictionary learning to model complex interactions between resting state functional MRI and behavioral data. The dictionary learning objective decomposes patient correlation matrices into a collection of shared basis networks and subject-specific loadings. These subject-specific features are simultaneously input into a neural network that predicts multidimensional clinical information. Our novel optimization framework combines the gradient information from the neural network with that of a conventional matrix factorization objective. This procedure collectively estimates the basis networks, subject loadings, and neural network weights most informative of clinical severity. We evaluate our combined model on a multi-score prediction task using 52 patients diagnosed with Autism Spectrum Disorder (ASD). Our integrated framework outperforms state-of-the-art methods in a ten-fold cross validated setting to predict three different measures of clinical severity.
翻訳日:2022-11-14 04:43:33 公開日:2020-07-03
# 転校学習の予後と健康管理への応用について

On the application of transfer learning in prognostics and health management ( http://arxiv.org/abs/2007.01965v1 )

ライセンス: Link先を確認
Ramin Moradi, Katrina M. Groth(参考訳) センシングとコンピューティング技術の進歩、人間とコンピュータのインタラクションフレームワークの開発、ビッグデータのストレージ機能、クラウドストレージと可能コンピューティングの出現は、現代の業界で大量のデータを生み出した。 このデータ可用性により、研究者や業界の実践者は、データベースの機械学習、特にディープラーニング、障害診断と診断のためのモデルにこれまで以上に依存するようになる。 これらのモデルにはユニークな利点がありますが、そのパフォーマンスはトレーニングデータと、そのデータがテストデータをどのように表現しているかに大きく依存しています。 この問題は、操作条件や機器がわずかに変化した場合に、微調整を義務付け、モデルをスクラッチからトレーニングする。 移行学習(Transfer Learning)は、前回のトレーニングから学んだことの一部を新しいアプリケーションに転送することで、この問題を改善できるアプローチである。 本稿では、トランスファーラーニングとその異なるタイプの統一定義を提供し、トランスファーラーニングを用いた予測学および健康管理(phm)研究を詳細に検討し、最後に、トランスファーラーニング応用の考察とギャップに関する議論を行い、phmにおけるトランスファーラーニングの適用性を改善する。

Advancements in sensing and computing technologies, the development of human and computer interaction frameworks, big data storage capabilities, and the emergence of cloud storage and could computing have resulted in an abundance of data in the modern industry. This data availability has encouraged researchers and industry practitioners to rely on data-based machine learning, especially deep learning, models for fault diagnostics and prognostics more than ever. These models provide unique advantages, however, their performance is heavily dependent on the training data and how well that data represents the test data. This issue mandates fine-tuning and even training the models from scratch when there is a slight change in operating conditions or equipment. Transfer learning is an approach that can remedy this issue by keeping portions of what is learned from previous training and transferring them to the new application. In this paper, a unified definition for transfer learning and its different types is provided, Prognostics and Health Management (PHM) studies that have used transfer learning are reviewed in detail, and finally, a discussion on transfer learning application considerations and gaps is provided for improving the applicability of transfer learning in PHM.
翻訳日:2022-11-14 04:43:01 公開日:2020-07-03
# 精度モニタリングによるディープニューラルネットワークの信頼性向上

Increasing Trustworthiness of Deep Neural Networks via Accuracy Monitoring ( http://arxiv.org/abs/2007.01472v1 )

ライセンス: Link先を確認
Zhihui Shao, and Jianyi Yang, and Shaolei Ren(参考訳) ディープニューラルネットワーク(dnn)の推論精度は重要なパフォーマンス指標であるが、実際のテストデータセットの対象となる場合、実際には大きく異なる可能性がある。 これにより、特に安全クリティカルなアプリケーションにおいて、DNNの信頼性に関する重要な懸念が持ち上がっている。 本稿では,DNNの信頼性をポストホック処理を用いて,ユーザのデータセット上での真の推測精度をモニタリングする。 具体的には、デプロイされたdnnのsoftmax確率出力のみを入力として、dnnの予測結果が正しいかどうかを直接予測し、真の推論精度を推定するニューラルネットワークベースの精度監視モデルを提案する。 精度モニターモデルは、対象の関心のあるアプリケーションに関連するデータセットで事前トレーニングすることができ、モデル転送のためにユーザーのデータセットのごく一部(実験で1%)をアクティブにラベル付けするだけでよい。 また,ロバスト性を評価するために,モンテカルロドロップアウト法に基づくモニタモデルのアンサンブルを用いる。 我々は,複数のデータセット(対向サンプルを含む)上での画像分類と交通信号検出のための異なるDNNモデルに対するアプローチを評価する。 その結果, 精度モニタモデルにより, 精度をほぼ正確に評価し, 既存のベースライン法よりも優れていることがわかった。

Inference accuracy of deep neural networks (DNNs) is a crucial performance metric, but can vary greatly in practice subject to actual test datasets and is typically unknown due to the lack of ground truth labels. This has raised significant concerns with trustworthiness of DNNs, especially in safety-critical applications. In this paper, we address trustworthiness of DNNs by using post-hoc processing to monitor the true inference accuracy on a user's dataset. Concretely, we propose a neural network-based accuracy monitor model, which only takes the deployed DNN's softmax probability output as its input and directly predicts if the DNN's prediction result is correct or not, thus leading to an estimate of the true inference accuracy. The accuracy monitor model can be pre-trained on a dataset relevant to the target application of interest, and only needs to actively label a small portion (1% in our experiments) of the user's dataset for model transfer. For estimation robustness, we further employ an ensemble of monitor models based on the Monte-Carlo dropout method. We evaluate our approach on different deployed DNN models for image classification and traffic sign detection over multiple datasets (including adversarial samples). The result shows that our accuracy monitor model provides a close-to-true accuracy estimation and outperforms the existing baseline methods.
翻訳日:2022-11-14 04:36:46 公開日:2020-07-03
# 機械学習の数学的展望

Mathematical Perspective of Machine Learning ( http://arxiv.org/abs/2007.01503v1 )

ライセンス: Link先を確認
Yarema Boryshchak(参考訳) 我々は、関数近似としての機械学習の理論的課題、デフォルト最適化アルゴリズムとしての勾配降下、固定長と幅ネットワークの制限、数学的観点からのRNNに対する異なるアプローチについて詳しく検討する。

We take a closer look at some theoretical challenges of Machine Learning as a function approximation, gradient descent as the default optimization algorithm, limitations of fixed length and width networks and a different approach to RNNs from a mathematical perspective.
翻訳日:2022-11-14 04:36:27 公開日:2020-07-03
# 光コヒーレンストモグラフィボリュームにおける非教師なし眼球運動補正のためのディープqネットワーク

Dueling Deep Q-Network for Unsupervised Inter-frame Eye Movement Correction in Optical Coherence Tomography Volumes ( http://arxiv.org/abs/2007.01522v1 )

ライセンス: Link先を確認
Yasmeen M. George, Suman Sedai, Bhavna J. Antony, Hiroshi Ishikawa, Gadi Wollstein, Joel S. Schuman and Rahil Garnavi(参考訳) 光コヒーレンス・トモグラフィー(OCT)では、個々のスライスを連続的に取得することで、隣接するスライス間のミスアライメントが最も顕著な運動アーチファクトにこのモダリティをもたらす。 octボリュームの歪みは構造解析をバイアスし、縦断研究の結果に影響を与える。 一方、この画像モダリティの特徴であるスペックルノイズの存在は、従来の登録技術が採用されている際の不正確さにつながる。 また、十分に定義された基礎的真理の欠如は、この問題に取り組むために不適切な深層学習技術を生み出している。 本稿では,フレーム間移動を教師なしで補正するために,深層強化学習を用いてこの問題に取り組む。 具体的には,入賞信号の総和を最大化することでアライメントを最善に向上する行動列の最適ポリシーを見つけるために,深層Qネットワークを用いて人工知能を訓練する。 報奨システムを導くために、変換パラメータの基底的構造に頼る代わりに、初めて、強度に基づく画像類似度メトリクスの組み合わせを使用します。 さらに、スペックルノイズに対するエージェントバイアスを避けるため、エージェントは相互作用する環境の一部として網膜層を見ることができる。 定量的評価のために, 個別のBスキャンに2次元剛性変換を適用して眼球運動アーティファクトをシミュレートする。 提案モデルは,正規化相互情報と相関係数をそれぞれ0.985および0.914とする。 また,本モデルとelastix強度に基づく医用画像登録手法との比較を行い,ノイズ量と音量の両方に対して大きな改善が得られた。

In optical coherence tomography (OCT) volumes of retina, the sequential acquisition of the individual slices makes this modality prone to motion artifacts, misalignments between adjacent slices being the most noticeable. Any distortion in OCT volumes can bias structural analysis and influence the outcome of longitudinal studies. On the other hand, presence of speckle noise that is characteristic of this imaging modality, leads to inaccuracies when traditional registration techniques are employed. Also, the lack of a well-defined ground truth makes supervised deep-learning techniques ill-posed to tackle the problem. In this paper, we tackle these issues by using deep reinforcement learning to correct inter-frame movements in an unsupervised manner. Specifically, we use dueling deep Q-network to train an artificial agent to find the optimal policy, i.e. a sequence of actions, that best improves the alignment by maximizing the sum of reward signals. Instead of relying on the ground-truth of transformation parameters to guide the rewarding system, for the first time, we use a combination of intensity based image similarity metrics. Further, to avoid the agent bias towards speckle noise, we ensure the agent can see retinal layers as part of the interacting environment. For quantitative evaluation, we simulate the eye movement artifacts by applying 2D rigid transformations on individual B-scans. The proposed model achieves an average of 0.985 and 0.914 for normalized mutual information and correlation coefficient, respectively. We also compare our model with elastix intensity based medical image registration approach, where significant improvement is achieved by our model for both noisy and denoised volumes.
翻訳日:2022-11-14 04:36:22 公開日:2020-07-03
# 空間的点過程の予測:サンプル外保証による正規化法

Prediction of Spatial Point Processes: Regularized Method with Out-of-Sample Guarantees ( http://arxiv.org/abs/2007.01592v1 )

ライセンス: Link先を確認
Muhammad Osama, Dave Zachariah, Petre Stoica(参考訳) 空間点過程は、空間にわたって発生する事象の数を予測する強度関数によって特徴づけられる。 本稿では,正規化基準を用いて空間モデルを学習し,予測強度間隔を推定する手法を開発した。 提案手法は, 標準推定器とは異なり, 空間モデルが誤特定された場合にも有効であることを示す。 本手法は合成および実空間データを用いて実演する。

A spatial point process can be characterized by an intensity function which predicts the number of events that occur across space. In this paper, we develop a method to infer predictive intensity intervals by learning a spatial model using a regularized criterion. We prove that the proposed method exhibits out-of-sample prediction performance guarantees which, unlike standard estimators, are valid even when the spatial model is misspecified. The method is demonstrated using synthetic as well as real spatial data.
翻訳日:2022-11-14 04:35:11 公開日:2020-07-03
# 有意グラフ埋め込みのための適応グラフエンコーダ

Adaptive Graph Encoder for Attributed Graph Embedding ( http://arxiv.org/abs/2007.01594v1 )

ライセンス: Link先を確認
Ganqu Cui, Jie Zhou, Cheng Yang, Zhiyuan Liu(参考訳) グラフトポロジーとノードの特徴からベクトル表現を学ぶ、帰結グラフ埋め込みは、グラフ分析にとって困難なタスクである。 近年, グラフ畳み込みネットワーク (GCN) に基づく手法がこの課題に大きく進展している。 しかし、既存のGCNベースの手法には3つの大きな欠点がある。 まず、実験により、グラフ畳み込みフィルタと重み行列の絡み合いが性能とロバスト性の両方に影響を及ぼすことが示された。 第二に、これらの手法におけるグラフ畳み込みフィルタは一般化されたラプラシアスムージングフィルタの特別な場合であるが、最適低域特性を保たないことを示す。 最後に、既存のアルゴリズムのトレーニング目的は通常、現実のアプリケーションと必ずしも一致しない隣接行列や特徴行列を回復する。 これらの問題に対処するため,新しい属性グラフ埋め込みフレームワークであるAdaptive Graph Encoder (AGE)を提案する。 AGEは2つのモジュールから構成される: 1) ノード機能における高周波ノイズを緩和するために、AGEはまず慎重に設計されたラプラシアスムースティングフィルタを適用する。 2) AGEは適応エンコーダを使用し、より優れたノード埋め込みのためにフィルタ機能を反復的に強化する。 4つの公開ベンチマークデータセットを用いてノードクラスタリングとリンク予測タスクのAGEを検証する実験を行った。 実験結果から、AGEはこれらのタスクにおいて、最先端のグラフ埋め込み手法よりもはるかに優れていることがわかった。

Attributed graph embedding, which learns vector representations from graph topology and node features, is a challenging task for graph analysis. Recently, methods based on graph convolutional networks (GCNs) have made great progress on this task. However,existing GCN-based methods have three major drawbacks. Firstly,our experiments indicate that the entanglement of graph convolutional filters and weight matrices will harm both the performance and robustness. Secondly, we show that graph convolutional filters in these methods reveal to be special cases of generalized Laplacian smoothing filters, but they do not preserve optimal low-pass characteristics. Finally, the training objectives of existing algorithms are usually recovering the adjacency matrix or feature matrix, which are not always consistent with real-world applications. To address these issues, we propose Adaptive Graph Encoder (AGE), a novel attributed graph embedding framework. AGE consists of two modules: (1) To better alleviate the high-frequency noises in the node features, AGE first applies a carefully-designed Laplacian smoothing filter. (2) AGE employs an adaptive encoder that iteratively strengthens the filtered features for better node embeddings. We conduct experiments using four public benchmark datasets to validate AGE on node clustering and link prediction tasks. Experimental results show that AGE consistently outperforms state-of-the-art graph embedding methods considerably on these tasks.
翻訳日:2022-11-14 04:35:03 公開日:2020-07-03
# 動的チャネル伝搬による訓練におけるプーンの学習

Learning to Prune in Training via Dynamic Channel Propagation ( http://arxiv.org/abs/2007.01486v1 )

ライセンス: Link先を確認
Shibo Shen, Rongpeng Li, Zhifeng Zhao, Honggang Zhang, Yugeng Zhou(参考訳) 本稿では,トレーニング期間中にニューラルネットワークをプーンする「ダイナミックチャネル伝搬」と呼ばれる新しいネットワークトレーニング機構を提案する。 特に,各畳み込み層内の特定のチャネル群を選択して,チャネルユーティリティとして定義されるチャネルの重要度に応じて,トレーニング時間における前方伝播に参加する。 選択されたすべてのチャネルに対するユーティリティ値は、エラーバックプロパゲーションプロセスと同時に更新され、適応的に変化する。 さらに、トレーニングが終了すると、高ユーティリティ値のチャネルが保持され、低ユーティリティ値のチャネルが破棄される。 そのため,提案手法はニューラルネットワークを同時に訓練し,提案する。 VGGNetやResNetなど,さまざまな代表的なベンチマークデータセットや高度な畳み込みニューラルネットワーク(CNN)アーキテクチャ上で,新たなトレーニング手法を実証的に評価した。 実験結果は,提案手法の優れた性能と堅牢性を検証する。

In this paper, we propose a novel network training mechanism called "dynamic channel propagation" to prune the neural networks during the training period. In particular, we pick up a specific group of channels in each convolutional layer to participate in the forward propagation in training time according to the significance level of channel, which is defined as channel utility. The utility values with respect to all selected channels are updated simultaneously with the error back-propagation process and will adaptively change. Furthermore, when the training ends, channels with high utility values are retained whereas those with low utility values are discarded. Hence, our proposed scheme trains and prunes neural networks simultaneously. We empirically evaluate our novel training scheme on various representative benchmark datasets and advanced convolutional neural network (CNN) architectures, including VGGNet and ResNet. The experiment results verify the superior performance and robust effectiveness of our approach.
翻訳日:2022-11-14 04:27:27 公開日:2020-07-03
# 自己教師型ニューラルアーキテクチャサーチ

Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2007.01500v1 )

ライセンス: Link先を確認
Sapir Kaplan and Raja Giryes(参考訳) ニューラルアーキテクチャサーチ(NAS)は、最近、様々なタスクにおいて改善されたパフォーマンスを達成するために使われており、特に画像分類において顕著である。 しかし、現在の検索戦略は大きなラベル付きデータセットに依存しており、アノテートされたデータのごく一部だけの場合、使用量を制限している。 自己教師付き学習は、ラベルのないデータを使用してニューラルネットワークをトレーニングする際の大きな可能性を示している。 本研究では,ラベル付きデータを必要としない新しいネットワークモデルを見つけることができる自己教師型ニューラルネットワーク探索(SSNAS)を提案する。 このような検索は,NASを用いた教師あり学習に匹敵する結果となり,自己教師あり学習の性能を向上させることができることを示す。 さらに,検索におけるラベル数が比較的少ない場合に,提案手法の利点を示す。

Neural Architecture Search (NAS) has been used recently to achieve improved performance in various tasks and most prominently in image classification. Yet, current search strategies rely on large labeled datasets, which limit their usage in the case where only a smaller fraction of the data is annotated. Self-supervised learning has shown great promise in training neural networks using unlabeled data. In this work, we propose a self-supervised neural architecture search (SSNAS) that allows finding novel network models without the need for labeled data. We show that such a search leads to comparable results to supervised training with a "fully labeled" NAS and that it can improve the performance of self-supervised learning. Moreover, we demonstrate the advantage of the proposed approach when the number of labels in the search is relatively small.
翻訳日:2022-11-14 04:27:12 公開日:2020-07-03
# モデル圧縮を超えた知識蒸留

Knowledge Distillation Beyond Model Compression ( http://arxiv.org/abs/2007.01922v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani and Bahram Zonooz(参考訳) 知識蒸留(KD)は、より大規模な事前訓練されたモデルやモデルのアンサンブル(教師)の監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。 表象空間や意思決定境界,データ内関係など,教師の異なる側面を模倣する独自の定式化以来,様々な手法が提案されている。 いくつかの方法は、静的教師からの片道知識蒸留を学生のコホート間の協調学習に置き換える。 近年の進歩にもかかわらず、深いニューラルネットワークに知識がどこにあるのかを明確に理解し、教師から知識を抽出し、学生に伝達する最適な方法が未解決の課題である。 本研究では,知識を捕捉・伝達するための幅広いアプローチをカバーする9つの異なるkd手法に関する広範囲な研究を行う。 教師と生徒のキャパシティギャップの異なる状況下で,異なるデータセットとネットワークアーキテクチャ上でのkdフレームワークの汎用性を示す。 この研究は、教師の異なる側面を模倣する効果の直感を提供し、より効果的なKD手法の設計を導くために、異なる蒸留方法のパフォーマンスから洞察を導き出す。 さらに,ラベルノイズやクラス不均衡の程度が多様である場合,kdフレームワークの有効性が示され,標準訓練よりも一般化が期待できることを示した。 我々は、KDの有効性はモデル圧縮技術を超えており、標準的なトレーニング手法と比較して、現実世界のデータセットにおける共通の課題に対してより堅牢性を提供する汎用トレーニングパラダイムとして見なされるべきである、と強調する。

Knowledge distillation (KD) is commonly deemed as an effective model compression technique in which a compact model (student) is trained under the supervision of a larger pretrained model or an ensemble of models (teacher). Various techniques have been proposed since the original formulation, which mimic different aspects of the teacher such as the representation space, decision boundary, or intra-data relationship. Some methods replace the one-way knowledge distillation from a static teacher with collaborative learning between a cohort of students. Despite the recent advances, a clear understanding of where knowledge resides in a deep neural network and an optimal method for capturing knowledge from teacher and transferring it to student remains an open question. In this study, we provide an extensive study on nine different KD methods which covers a broad spectrum of approaches to capture and transfer knowledge. We demonstrate the versatility of the KD framework on different datasets and network architectures under varying capacity gaps between the teacher and student. The study provides intuition for the effects of mimicking different aspects of the teacher and derives insights from the performance of the different distillation approaches to guide the design of more effective KD methods. Furthermore, our study shows the effectiveness of the KD framework in learning efficiently under varying severity levels of label noise and class imbalance, consistently providing generalization gains over standard training. We emphasize that the efficacy of KD goes much beyond a model compression technique and it should be considered as a general-purpose training paradigm which offers more robustness to common challenges in the real-world datasets compared to the standard training procedure.
翻訳日:2022-11-14 04:26:32 公開日:2020-07-03
# 深層学習型ニューラルスキンニューラルネットの学習

Training of Deep Learning Neuro-Skin Neural Network ( http://arxiv.org/abs/2007.04796v1 )

ライセンス: Link先を確認
Mehrdad Shafiei Dizaji(参考訳) 本稿では,Deep Learning Neuro-Skin Neural Networkのための学習アルゴリズムを開発し,学習特性を改善する。 Neuroskinは、著者らが最近発表した新しいタイプのニューラルネットワークである。 細胞膜からなり、各細胞にニューロンが結合している。 ニューロンは細胞核である。 神経骨格は有限要素を用いてモデル化される。 有限要素の各要素はセルを表す。 各細胞ニューロンは樹状線維を持ち、それを細胞のノードに接続する。 一方、軸索は複数の異なるニューロンのノードに接続されている。 神経スキンは入力を受けると収縮するように訓練される。 学習は、感度分析を使用してイテレーションの更新中に行われる。 神経スキンは望ましい反応を示すことができないが、徐々に所望のレベルまで改善することが示されている。

In this brief paper, a learning algorithm is developed for Deep Learning Neuro-Skin Neural Network to improve their learning properties. Neuroskin is a new type of neural network presented recently by the authors. It is comprised of a cellular membrane which has a neuron attached to each cell. The neuron is the cells nucleus. A neuroskin is modelled using finite elements. Each element of the finite element represents a cell. Each cells neuron has dendritic fibers which connects it to the nodes of the cell. On the other hand, its axon is connected to the nodes of a number of different neurons. The neuroskin is trained to contract upon receiving an input. The learning takes place during updating iterations using sensitivity analysis. It is shown that while the neuroskin can not present the desirable response, it improves gradually to the desired level.
翻訳日:2022-11-14 04:26:06 公開日:2020-07-03
# 最適輸送による地中無騒音化

Ground Truth Free Denoising by Optimal Transport ( http://arxiv.org/abs/2007.01575v1 )

ライセンス: Link先を確認
S\"oren Dittmer, Carola-Bibiane Sch\"onlieb, Peter Maass(参考訳) 本研究では,画像と1次元信号を用いて任意の種類のデータに対して教師なし除音法を提案する。 トレーニングはノイズの多いデータのサンプルとノイズの例のみに基づいています。 ノイズが独立かつ加法的であるという仮定だけでよい(ただし、これをどのように拡張するかは記述している)。 この手法は、2つの批評家と1つのジェネレータを利用するWasserstein Generative Adversarial Network設定に基づいている。

We present a learned unsupervised denoising method for arbitrary types of data, which we explore on images and one-dimensional signals. The training is solely based on samples of noisy data and examples of noise, which -- critically -- do not need to come in pairs. We only need the assumption that the noise is independent and additive (although we describe how this can be extended). The method rests on a Wasserstein Generative Adversarial Network setting, which utilizes two critics and one generator.
翻訳日:2022-11-14 04:25:57 公開日:2020-07-03
# 長文文書の要約と混合要約

Abstractive and mixed summarization for long-single documents ( http://arxiv.org/abs/2007.01918v1 )

ライセンス: Link先を確認
Roger Barrull, Jugal Kalita(参考訳) ドキュメントの自動要約に利用可能なデータセットの多様性の欠如は、自動要約のためのニューラルモデルの大部分をニュース記事でトレーニングしていることを意味する。 これらのデータセットは比較的小さく、平均サイズは約600ワードで、そのようなデータセットでトレーニングされたモデルは、パフォーマンスが短いドキュメントに限られている。 この問題を克服するために,本論文では,異なるモデルの学習データセットとして科学論文を用いる。 これらのモデルは、CNN/Daily Mailデータセット上での性能に基づいて選択され、各アーキテクチャの最も上位のモデルが選択される。 この研究では、6つの異なるモデルを比較し、2つはRNNアーキテクチャ、もう1つはCNNアーキテクチャ、もう1つはTransformerアーキテクチャ、もう1つは強化学習を組み合わせたTransformerアーキテクチャである。 この研究の結果、文書の構造をモデル化するために階層エンコーダを使用するモデルが、他のモデルよりも優れたパフォーマンスを示している。

The lack of diversity in the datasets available for automatic summarization of documents has meant that the vast majority of neural models for automatic summarization have been trained with news articles. These datasets are relatively small, with an average size of about 600 words, and the models trained with such data sets see their performance limited to short documents. In order to surmount this problem, this paper uses scientific papers as the dataset on which different models are trained. These models have been chosen based on their performance on the CNN/Daily Mail data set, so that the highest ranked model of each architectural variant is selected. In this work, six different models are compared, two with an RNN architecture, one with a CNN architecture, two with a Transformer architecture and one with a Transformer architecture combined with reinforcement learning. The results from this work show that those models that use a hierarchical encoder to model the structure of the document has a better performance than the rest.
翻訳日:2022-11-14 04:25:49 公開日:2020-07-03
# ランダム林の行動の記号的エンコードについて

On Symbolically Encoding the Behavior of Random Forests ( http://arxiv.org/abs/2007.01493v1 )

ライセンス: Link先を確認
Arthur Choi and Andy Shih and Anchal Goyanka and Adnan Darwiche(参考訳) 最近の研究は、いくつかの機械学習システムの入力出力挙動を、ブール式や抽出可能なブール回路を用いて象徴的に捉え、これらのシステムの振る舞いの推論を容易にすることを示している。 ほとんどがブール入力と出力を持つシステムに焦点を当てているが、我々は決定木に基づくシステムのように離散化された連続変数を持つシステムを含む離散入力と出力を扱う。 また,最近の機械学習システムの意思決定において中心的な役割を担ってきた,素因果計算のためのエンコーディングの適合性にも注目する。 満足度向上のためのエンコーディングと重要な違いをいくつか示し,与えられたタスクに対して完全かつ健全なエンコーディングを提案する。

Recent work has shown that the input-output behavior of some machine learning systems can be captured symbolically using Boolean expressions or tractable Boolean circuits, which facilitates reasoning about the behavior of these systems. While most of the focus has been on systems with Boolean inputs and outputs, we address systems with discrete inputs and outputs, including ones with discretized continuous variables as in systems based on decision trees. We also focus on the suitability of encodings for computing prime implicants, which have recently played a central role in explaining the decisions of machine learning systems. We show some key distinctions with encodings for satisfiability, and propose an encoding that is sound and complete for the given task.
翻訳日:2022-11-14 04:25:35 公開日:2020-07-03
# 深部強化学習技術を用いた自律型空域遠路制御

An Autonomous Free Airspace En-route Controller using Deep Reinforcement Learning Techniques ( http://arxiv.org/abs/2007.01599v1 )

ライセンス: Link先を確認
Joris Mollinga, Herke van Hoof(参考訳) 航空機の数が増えているため、航空管制はますます複雑な作業になっている。 現在の航空交通管制方法は、この増大した交通を管理するには適していない。 自律航空管制は有望な代替手段と考えられている。 本稿では, 衝突や衝突を回避しつつ, 3次元非構造空域に任意の数の航空機を誘導する航空交通制御モデルを提案する。 これはグラフベースのディープラーニングアプローチの力を利用して行われる。 これらのアプローチは、航空機の入力順序のばらつきや、様々な数の航空機に容易に対応できる能力など、このタスクに対する現在のアプローチよりも大きな利点を提供する。 これらの手法を用いて得られた結果は、航空交通制御モデルが現実的な交通密度でうまく機能していることを示し、衝突の100%を回避し、潜在的な衝突の89.8%を防止して空域を管理することができる。

Air traffic control is becoming a more and more complex task due to the increasing number of aircraft. Current air traffic control methods are not suitable for managing this increased traffic. Autonomous air traffic control is deemed a promising alternative. In this paper an air traffic control model is presented that guides an arbitrary number of aircraft across a three-dimensional, unstructured airspace while avoiding conflicts and collisions. This is done utilizing the power of graph based deep learning approaches. These approaches offer significant advantages over current approaches to this task, such as invariance to the input ordering of aircraft and the ability to easily cope with a varying number of aircraft. Results acquired using these approaches show that the air traffic control model performs well on realistic traffic densities; it is capable of managing the airspace by avoiding 100% of potential collisions and preventing 89.8% of potential conflicts.
翻訳日:2022-11-14 04:25:24 公開日:2020-07-03
# 画像分類のための可変長移動ブロックのサロゲート支援粒子群最適化

Surrogate-assisted Particle Swarm Optimisation for Evolving Variable-length Transferable Blocks for Image Classification ( http://arxiv.org/abs/2007.01556v1 )

ライセンス: Link先を確認
Bin Wang, Bing Xue, Mengjie Zhang(参考訳) 深層畳み込みニューラルネットワークは、画像分類タスクにおいて有望な性能を示したが、高速な深さ成長と畳み込みニューラルネットワークの複雑なトポロジにより、手動設計プロセスがますます複雑になる。 その結果、手作りのニューラルネットワークよりも優れた畳み込みニューラルネットワークを自動設計するニューラルネットワーク探索が出現した。 しかし、計算コストは、それぞれNAS(英語版)とNASNet(英語版)と名づけられた2つの優れたニューラルネットワーク探索のための22,400GPU日と2,000GPU日である。 畳み込みニューラルネットワークを自動発展させるために,新しい効率的かつ効率的な粒子群最適化アルゴリズムを提案する。 これは、新しいサロゲートモデル、新しいサロゲートデータセットの作成方法、および畳み込みニューラルネットワークの可変長ブロックをエンコードするための新しい符号化戦略を提案することで実現される。 提案手法は、CIFAR-10データセットで3.49%、CIFAR-100データセットで18.49%、SVHNデータセットで1.82%の競合エラー率を達成することにより、その効果を示す。 この畳み込みニューラルネットワークブロックは、粒子で表される畳み込みニューラルネットワークブロックの80.1%のトレーニングを避けるために、サロゲートモデルとサロゲートデータセットによって達成された加速度のために、3gpu日以内にcifar-10から提案手法により効率的に学習される。 CIFAR-10から派生したブロックを CIFAR-100 と SVHN に転送し,提案手法で学習したブロックの転送性を示す。

Deep convolutional neural networks have demonstrated promising performance on image classification tasks, but the manual design process becomes more and more complex due to the fast depth growth and the increasingly complex topologies of convolutional neural networks. As a result, neural architecture search has emerged to automatically design convolutional neural networks that outperform handcrafted counterparts. However, the computational cost is immense, e.g. 22,400 GPU-days and 2,000 GPU-days for two outstanding neural architecture search works named NAS and NASNet, respectively, which motivates this work. A new effective and efficient surrogate-assisted particle swarm optimisation algorithm is proposed to automatically evolve convolutional neural networks. This is achieved by proposing a novel surrogate model, a new method of creating a surrogate dataset and a new encoding strategy to encode variable-length blocks of convolutional neural networks, all of which are integrated into a particle swarm optimisation algorithm to form the proposed method. The proposed method shows its effectiveness by achieving competitive error rates of 3.49% on the CIFAR-10 dataset, 18.49% on the CIFAR-100 dataset, and 1.82% on the SVHN dataset. The convolutional neural network blocks are efficiently learned by the proposed method from CIFAR-10 within 3 GPU-days due to the acceleration achieved by the surrogate model and the surrogate dataset to avoid the training of 80.1% of convolutional neural network blocks represented by the particles. Without any further search, the evolved blocks from CIFAR-10 can be successfully transferred to CIFAR-100 and SVHN, which exhibits the transferability of the block learned by the proposed method.
翻訳日:2022-11-14 04:18:46 公開日:2020-07-03
# マルチタスク問題としての視覚的質問応答

Visual Question Answering as a Multi-Task Problem ( http://arxiv.org/abs/2007.01780v1 )

ライセンス: Link先を確認
Amelia Elizabeth Pollard and Jonathan L. Shapiro(参考訳) VQA(Visual Question Answering)は、多くのサブプロブレムを頼りに、非常に複雑な問題である。 本稿では,視覚的質問応答をマルチタスク問題と見なすべきという仮説を提示し,この仮説を支持する証拠を提供する。 我々は、一般的な2つのビジュアル質問回答データセットであるCOCO-QAとDAQUARをマルチタスク形式に再構成し、2つのベースラインネットワーク上でこれらの修正データセットをトレーニングすることでこれを実証する。 本論文で示したネットワークは, 高い競合性は得られていないが, 視覚的質問応答に対するマルチタスクアプローチは, シングルタスクフォーマッティングに対する5~9%の性能向上をもたらし, ネットワークがシングルタスクの場合よりもはるかに高速に収束することを示す。 最後に、観測された性能差の原因について議論し、マルチタスク問題としてデータセットの学習に関連しない原因を除外する追加実験を行う。

Visual Question Answering(VQA) is a highly complex problem set, relying on many sub-problems to produce reasonable answers. In this paper, we present the hypothesis that Visual Question Answering should be viewed as a multi-task problem, and provide evidence to support this hypothesis. We demonstrate this by reformatting two commonly used Visual Question Answering datasets, COCO-QA and DAQUAR, into a multi-task format and train these reformatted datasets on two baseline networks, with one designed specifically to eliminate other possible causes for performance changes as a result of the reformatting. Though the networks demonstrated in this paper do not achieve strongly competitive results, we find that the multi-task approach to Visual Question Answering results in increases in performance of 5-9% against the single-task formatting, and that the networks reach convergence much faster than in the single-task case. Finally we discuss possible reasons for the observed difference in performance, and perform additional experiments which rule out causes not associated with the learning of the dataset as a multi-task problem.
翻訳日:2022-11-14 04:18:16 公開日:2020-07-03
# 学習課題継続のための時間論理に基づく逆整形

Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks ( http://arxiv.org/abs/2007.01498v1 )

ライセンス: Link先を確認
Yuqian Jiang, Sudarshanan Bharadwaj, Bo Wu, Rishi Shah, Ufuk Topcu, Peter Stone(参考訳) 継続課題では、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である。 通常のように、この設定で最適なポリシーを学ぶには、多くのトレーニング経験が必要です。 報酬形成は、最適方針への収束を早めるために強化学習にドメイン知識を組み込む一般的なアプローチです。 しかし、我々の知る限りでは、これまでのところ報酬のシェーピングの理論的な性質は割引設定でしか確立されていない。 本稿では,平均回帰学習のための最初の報酬形成枠組みを示し,標準仮定の下では,元の報酬関数に基づく最適方針を回復できることを示す。 整形関数を手動で構築する必要を回避するため,時間論理式として表現されたドメイン知識を活用する手法を提案する。 公式は自動的に整形関数に変換され、学習プロセス全体を通して追加の報酬を与える。 提案手法を3つの継続タスクで評価する。 いずれの場合も、学習方針の性能を関連するベースラインと比較して低下させることなく、平均逆学習率を高速化する。

In continuing tasks, average-reward reinforcement learning may be a more appropriate problem formulation than the more common discounted reward formulation. As usual, learning an optimal policy in this setting typically requires a large amount of training experiences. Reward shaping is a common approach for incorporating domain knowledge into reinforcement learning in order to speed up convergence to an optimal policy. However, to the best of our knowledge, the theoretical properties of reward shaping have thus far only been established in the discounted setting. This paper presents the first reward shaping framework for average-reward learning and proves that, under standard assumptions, the optimal policy under the original reward function can be recovered. In order to avoid the need for manual construction of the shaping function, we introduce a method for utilizing domain knowledge expressed as a temporal logic formula. The formula is automatically translated to a shaping function that provides additional reward throughout the learning process. We evaluate the proposed method on three continuing tasks. In all cases, shaping speeds up the average-reward learning rate without any reduction in the performance of the learned policy compared to relevant baselines.
翻訳日:2022-11-14 04:17:21 公開日:2020-07-03
# psychfm:次のギャンブルを予測する

PsychFM: Predicting your next gamble ( http://arxiv.org/abs/2007.01833v1 )

ライセンス: Link先を確認
Prakash Rajan, Krishna P. Miyapuram(参考訳) 公共政策、経済行動、消費者行動のモデル化を含む広範囲で多様な応用により、人間の行動のモデル化が急上昇している。 人間の行動のほとんどが選択予測問題にモデル化できる。 プロスペクト理論は、選択予測における異常を説明する理論モデルである。 これらの理論は異常を説明するという点でよく機能するが、精度は低い。 行動は個人に依存しているため、個人ごとに選択を予測するモデルを構築する必要がある。 平均的な人の選択を見れば、必ずしも特定の人の選択に光を当てるとは限らない。 1人当たりのギャンブル問題をモデル化することは、レコメンデーションシステムや関連分野に役立つだろう。 機械学習や心理学理論といった概念を取り入れた,新たなハイブリッド型心理因子化マシン(PsychFM)が提案されている。 これは、ベンチマークデータセットCPC-18のランダムフォレストとファクター化マシンという、一般的な既存のモデルよりも優れています。 最後に,提案するハイブリッドモデルの有効性を既存モデルとの比較により検証した。

There is a sudden surge to model human behavior due to its vast and diverse applications which includes modeling public policies, economic behavior and consumer behavior. Most of the human behavior itself can be modeled into a choice prediction problem. Prospect theory is a theoretical model that tries to explain the anomalies in choice prediction. These theories perform well in terms of explaining the anomalies but they lack precision. Since the behavior is person dependent, there is a need to build a model that predicts choices on a per-person basis. Looking on at the average persons choice may not necessarily throw light on a particular person's choice. Modeling the gambling problem on a per person basis will help in recommendation systems and related areas. A novel hybrid model namely psychological factorisation machine ( PsychFM ) has been proposed that involves concepts from machine learning as well as psychological theories. It outperforms the popular existing models namely random forest and factorisation machines for the benchmark dataset CPC-18. Finally,the efficacy of the proposed hybrid model has been verified by comparing with the existing models.
翻訳日:2022-11-14 04:16:42 公開日:2020-07-03
# RSAC:軽量連続学習のための正規化部分空間近似分類器

RSAC: Regularized Subspace Approximation Classifier for Lightweight Continuous Learning ( http://arxiv.org/abs/2007.01480v1 )

ライセンス: Link先を確認
Chih-Hsing Ho, Shang-Ho (Lawrence) Tsai(参考訳) 継続的学習は、時折到着するデータで学習することを目指している。 以前の研究はいくつかの可能なソリューションを示してきたが、これらのアプローチは過剰なトレーニング時間とメモリ使用量を必要とする。 これはエッジコンピューティングのような時間とストレージが制約されるアプリケーションでは実用的ではない。 本研究では,軽量な連続学習を実現するために,新たなトレーニングアルゴリズムである正規化部分空間近似分類器(RSAC)を提案する。 RSACには、機能削減モジュールと正規化を伴う分類モジュールが含まれている。 大規模な実験により、RSACは従来の継続的学習よりも効率的であることが示され、様々な実験環境での作業よりも優れていた。

Continuous learning seeks to perform the learning on the data that arrives from time to time. While prior works have demonstrated several possible solutions, these approaches require excessive training time as well as memory usage. This is impractical for applications where time and storage are constrained, such as edge computing. In this work, a novel training algorithm, regularized subspace approximation classifier (RSAC), is proposed to achieve lightweight continuous learning. RSAC contains a feature reduction module and classifier module with regularization. Extensive experiments show that RSAC is more efficient than prior continuous learning works and outperforms these works on various experimental settings.
翻訳日:2022-11-14 04:16:11 公開日:2020-07-03