このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200508となっている論文です。

PDF登録状況(公開日: 20200508)

TitleAuthorsAbstract論文公表日・翻訳日
# 平均力のハミルトニアンによる非平衡熱力学の測定可能性

Measurability of nonequilibrium thermodynamics in terms of the Hamiltonian of mean force ( http://arxiv.org/abs/2001.08917v2 )

ライセンス: Link先を確認
Philipp Strasberg and Massimiliano Esposito(参考訳) 単一の熱浴と強い接触を持つ開(古典的または量子的)系の非平衡熱力学は、平均力のハミルトニアンによって便利に記述できる。 しかし, 従来の定式化は, システムバス複合材料の平衡特性の差を測定する必要性によって制限されている。 我々は、熱力学量の定義に関わる自由を利用して、平均力のハミルトニアンがシステム上の測定からその無関係な自由まで推論可能であることを示す。 その際、physで表現された重要な批判を反論する。 E94,022143およびarXiv:1911.11660。 また,批判の残る部分についても論じる。

The nonequilibrium thermodynamics of an open (classical or quantum) system in strong contact with a single heat bath can be conveniently described in terms of the Hamiltonian of mean force. However, the conventional formulation is limited by the necessity to measure differences in equilibrium properties of the system-bath composite. We make use of the freedom involved in defining thermodynamic quantities, which leaves the thermodynamics unchanged, to show that the Hamiltonian of mean force can be inferred from measurements on the system alone, up to that irrelevant freedom. In doing so, we refute a key criticism expressed in Phys. Rev. E 94, 022143 and arXiv:1911.11660. We also discuss the remaining part of the criticism.
翻訳日:2023-06-06 03:01:53 公開日:2020-05-08
# 新型コロナウイルスパンデミック時のキャンパス交通とeラーニング

Campus Traffic and e-Learning during COVID-19 Pandemic ( http://arxiv.org/abs/2004.13569v2 )

ライセンス: Link先を確認
Thomas Favale, Francesca Soro, Martino Trevisan, Idilio Drago, Marco Mellia(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、感染拡大に対抗するために厳しい措置を講じた。 ソーシャルディスタンシングとロックダウン対策は人々の習慣を変え、インターネットはリモートワーク、e-Teaching、オンラインコラボレーション、ゲーム、ビデオストリーミングなどをサポートする主要な役割を担っている。 こうした突然の変化は、ネットワークに前例のないストレスを与えた。 本稿では,Torinoキャンパスネットワークにおけるロックダウンの実施がPolitecnico di Torinoキャンパスネットワークに与える影響を解析する。 2月25日に学校が閉鎖された直後、PoliTOは仮想教育のための独自のソリューションを社内に展開した。 以来、この大学は毎日約600の仮想授業を受けており、1日16,000人以上の生徒を擁している。 ここでは,パンデミックが PoliTO のネットワークトラフィックをどのように変化させたかを示す。 まず、リモートワークとコラボレーションのプラットフォームの利用に焦点を合わせます。 polito社内のオンライン教育ソリューションの特異性を考えると、私たちはそれを掘り下げて、オーディエンスとネットワークフットプリントの両方を特徴付ける。 総じて、新型コロナウイルス(covid-19)によるキャンパス交通と学習の急激な変化のスナップショットを示し、インターネットがどのようにして課題に対処し、大学の運営を維持できるかを検証した。

The COVID-19 pandemic led to the adoption of severe measures to counteract the spread of the infection. Social distancing and lockdown measures modifies people's habits, while the Internet gains a major role to support remote working, e-teaching, online collaboration, gaming, video streaming, etc. All these sudden changes put unprecedented stress on the network. In this paper we analyze the impact of the lockdown enforcement on the Politecnico di Torino campus network. Right after the school shutdown on the 25th of February, PoliTO deployed its own in-house solution for virtual teaching. Ever since, the university provides about 600 virtual classes daily, serving more than 16,000 students per day. Here, we report a picture of how the pandemic changed PoliTO's network traffic. We first focus on the usage of remote working and collaborative platforms. Given the peculiarity of PoliTO in-house online teaching solution, we drill down on it, characterizing both the audience and the network footprint. Overall, we present a snapshot of the abrupt changes on campus traffic and learning due to COVID-19, and testify how the Internet has proved robust to successfully cope with challenges and maintain the university operations.
翻訳日:2023-05-21 21:52:20 公開日:2020-05-08
# 二極性超固体の高エネルギーブラッグ散乱測定

High-energy Bragg scattering measurements of a dipolar supersolid ( http://arxiv.org/abs/2005.02213v2 )

ライセンス: Link先を確認
D. Petter, A. Patscheider, G. Natale, M. J. Mark, M. A. Baranov, R. v. Bijnen, S. M. Roccuzzo, A. Recati, B. Blakie, D. Baillie, L. Chomaz, and F. Ferlaino(参考訳) 二極性超固体の高エネルギー励起スペクトルに関する実験的および理論的研究を行った。 ブラッグ分光法を用いて、高エネルギープローブに対する系の散乱応答を研究し、動的構造因子の測定を可能にする。 通常のボース・アインシュタイン凝縮体から超固体状態への接触相互作用をチューニングする際の応答の連続還元を実験的に観察した。 しかし、観測された還元はボゴリューボフ=ド=ジェンヌ理論によって予測されたものよりも速い。 直感的な半解析モデルと実時間シミュレーションに基づいて、システム全体のコヒーレンスに影響を与えないが応答を減少させる非平衡相動力学の相違を主因とする。

We present an experimental and theoretical study of the high-energy excitation spectra of a dipolar supersolid. Using Bragg spectroscopy, we study the scattering response of the system to a high-energy probe, enabling measurements of the dynamic structure factor. We experimentally observe a continuous reduction of the response when tuning the contact interaction from an ordinary Bose-Einstein condensate to a supersolid state. Yet the observed reduction is faster than the one theoretically predicted by the Bogoliubov-de-Gennes theory. Based on an intuitive semi-analytic model and real-time simulations, we primarily attribute such a discrepancy to the out-of-equilibrium phase dynamics, which although not affecting the system global coherence, reduces its response.
翻訳日:2023-05-21 04:55:25 公開日:2020-05-08
# 非可換ベイズの定理

A non-commutative Bayes' theorem ( http://arxiv.org/abs/2005.03886v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat, Benjamin P. Russo(参考訳) ベイズ定理の図式的な再定式化を用いて、有限次元$C^*$-代数の設定においてベイズ推論の存在に必要な十分条件を提供する。 言い換えると、古典的および量子的文脈におけるベイズの定理の類似性を証明する。 我々の類似性は、古典ベイズの定理の抽象的定式化を提供する分類的確率論の最近の進歩によって正当化されている。 この過程で、非可換なほぼ至る所で同値性を発展させ、非可換なベイズ反転において重要な役割を示す。 そのようなベイズ逆数の構成は、それらが存在するとき、choi行列の正の半定義行列完備問題を解くことを含む。 これにより、完備な支持を持たない密度行列に作用する完全正のユニタリ写像に対するベイズ反転を構成するという開問題の解が得られる。 この手順が量子情報理論に関連するいくつかの例に対してどのように作用するかを説明する。

Using a diagrammatic reformulation of Bayes' theorem, we provide a necessary and sufficient condition for the existence of Bayesian inference in the setting of finite-dimensional $C^*$-algebras. In other words, we prove an analogue of Bayes' theorem in the joint classical and quantum context. Our analogue is justified by recent advances in categorical probability theory, which have provided an abstract formulation of the classical Bayes' theorem. In the process, we further develop non-commutative almost everywhere equivalence and illustrate its important role in non-commutative Bayesian inversion. The construction of such Bayesian inverses, when they exist, involves solving a positive semidefinite matrix completion problem for the Choi matrix. This gives a solution to the open problem of constructing Bayesian inversion for completely positive unital maps acting on density matrices that do not have full support. We illustrate how the procedure works for several examples relevant to quantum information theory.
翻訳日:2023-05-20 20:28:17 公開日:2020-05-08
# トラップ中の量子双極子のAb初期経路積分モンテカルロシミュレーション:超流動性、量子統計および構造特性

Ab initio Path Integral Monte Carlo Simulations of Quantum Dipole Systems in Traps: Superfluidity, Quantum Statistics, and Structural Properties ( http://arxiv.org/abs/2005.03881v1 )

ライセンス: Link先を確認
Tobias Dornheim(参考訳) 本稿では,2次元量子双極子系のbose-およびfermi-statisticsを考慮に入れた2次元量子双極子系の広範囲な<textit{ab initio}パス積分モンテカルロ(pimc)シミュレーションを提案する。 これにより、非古典的な回転慣性の研究が可能となり、フェルミオン[Phys]の場合、負の超流動分数につながる。 Rev. Lett. 112}, 235301 (2014)]。 さらに, これらのシステムの構造特性を詳細に検討し, 密度分布と各シェル構造に対する量子統計の影響を明確に解明することができる。 さらに,より先進的な中心2粒子相関関数(phys)について報告する。 rev. e \textbf{91}, 043104 (2015)] では、密度のような他の観測対象に現れないフェルミ系とボース系の違いを検出することができる。 全体として、ボソニック系は双極子-双極子カップリング強度の小さな値にも敏感に反応するのに対し、このような弱い相互作用はパウリの排他原理によってフェルミオンに対して効果的に隠されている。 さらに、フェルミオンに対する異常な超流動分画は、慣性モーメントが互いに分岐してもボソニックケースに等しい系の構造的性質に反映されない。 最後に、量子双極子のフェルミオンPIMCシミュレーションは、悪名高いフェルミオンサイン問題にもかかわらず実現可能であることを実証した。

We present extensive \textit{ab initio} path integral Monte Carlo (PIMC) simulations of two-dimensional quantum dipole systems in a harmonic confinement, taking into account both Bose- and Fermi-statistics. This allows us to study the nonclassical rotational inertia, which can lead to a negative superfluid fraction in the case of fermions [Phys. Rev. Lett. \textbf{112}, 235301 (2014)]. Moreover, we study in detail the structural characteristics of such systems, and are able to clearly resolve the impact of quantum statistics on density profiles and the respective shell structure. Further, we present results for a more advanced center-two particle correlation function [Phys. Rev. E \textbf{91}, 043104 (2015)], which allows to detect differences between Fermi- and Bose-systems that do not manifest in other observables like the density. Overall, we find that bosonic systems sensitively react to even small values of the dipole--dipole coupling strength, whereas such a weak interaction is effectively masked for fermions by the Pauli exclusion principle. In addition, the abnormal superfluid fraction for fermions is not reflected by the structural properties of the system, which are equal to the bosonic case even though the moments of inertia diverge from each other. Lastly, we have demonstrated that fermionic PIMC simulations of quantum dipole systems are feasible despite the notorious fermion sign problem, which opens up new avenues for future investigations in this field.
翻訳日:2023-05-20 20:28:01 公開日:2020-05-08
# Si/SiGe系量子ドットとスイッチトキャパシタ回路のオンチップ統合

On-chip Integration of Si/SiGe-based Quantum Dots and Switched-capacitor Circuits ( http://arxiv.org/abs/2005.03851v1 )

ライセンス: Link先を確認
Y. Xu, F. K. Unseld, A. Corna, A. M. J. Zwerver, A. Sammak, D. Brousse, N. Samkharadze, S. V.Amitonov, M. Veldhorst, G. Scappucci, R. Ishihara, and L. M. K. Vandersypen(参考訳) 半導体基板に集積された固体量子ビットは、現在、各量子ビットから制御エレクトロニクスへの少なくとも1つのワイヤを必要とする。 オンチップ回路によるデマルチプレキシングは、このボトルネックを克服するための効果的な戦略を提供する。 ゲート定義量子ドットアレイの場合、電子閉じ込めを実現するために複数のゲートに特定の静電圧を同時に印加する必要がある。 量子デバイスとデマルチプレクサの間に電荷ロック構造が配置されると、電圧を局所的に維持することができる。 本研究では、電荷ロックのためのスイッチトキャパシタ回路を実装し、1つの量子ドットのプランジャーゲートを浮遊させる。 パラレルプレートコンデンサ、トランジスタ、量子ドットデバイスは、複雑なオフチップルーティングを避けるためにSi/SiGe基板上にモノリシックに製造される。 キャパシタとトランジスタサイズが浮遊ノードの電圧精度に及ぼす影響を実験的に検討した。 さらに,量子ドットの電気化学的ポテンシャルは,量子ドットが部分的に浮遊している間に100hzのパルス信号を追従できることを示した。

Solid-state qubits integrated on semiconductor substrates currently require at least one wire from every qubit to the control electronics, leading to a so-called wiring bottleneck for scaling. Demultiplexing via on-chip circuitry offers an effective strategy to overcome this bottleneck. In the case of gate-defined quantum dot arrays, specific static voltages need to be applied to many gates simultaneously to realize electron confinement. When a charge-locking structure is placed between the quantum device and the demultiplexer, the voltage can be maintained locally. In this study, we implement a switched-capacitor circuit for charge-locking and use it to float the plunger gate of a single quantum dot. Parallel plate capacitors, transistors and quantum dot devices are monolithically fabricated on a Si/SiGe-based substrate to avoid complex off-chip routing. We experimentally study the effects of the capacitor and transistor size on the voltage accuracy of the floating node. Furthermore, we demonstrate that the electrochemical potential of the quantum dot can follow a 100 Hz pulse signal while the dot is partially floating, which is essential for applying this strategy in qubit experiments.
翻訳日:2023-05-20 20:27:30 公開日:2020-05-08
# 宇宙の端の鏡:デ・シッター宇宙論との加速境界対応の反射

The mirror at the edge of the universe: Reflections on an accelerated boundary correspondence with de Sitter cosmology ( http://arxiv.org/abs/2005.03850v1 )

ライセンス: Link先を確認
Michael R.R. Good, Abay Zhakenuly, and Eric V. Linder(参考訳) ド・ジッター移動ミラー宇宙論において、加速境界対応(ABC)を解く。 ベータボゴリューボフ係数は、粒子スペクトルが地平線半径に逆比例した温度を持つプランク分布であることを示している。 量子応力テンソルは永遠の平衡と一致するエネルギーフラックスの一定の放出を示すが、粒子によって運ばれる全エネルギーは有限である。 加速境界を持つ平坦な時空への曲線付き時空変換を図示し、反デジッター時空(AdS)にも示す。

An accelerated boundary correspondence (ABC) is solved for the de Sitter moving mirror cosmology. The beta Bogoliubov coefficients reveal the particle spectrum is a Planck distribution with temperature inversely proportional to horizon radius. The quantum stress-tensor indicates a constant emission of energy flux consistent with eternal equilibrium, while the total energy carried by the particles remains finite. The curved spacetime transformation to flat spacetime with an accelerated boundary is illustrated, and also shown for Anti-de Sitter (AdS) spacetime.
翻訳日:2023-05-20 20:27:11 公開日:2020-05-08
# 9画素画像取得による軌道角運動量基底における光の純状態の測定

Measurement of pure states of light in the orbital-angular-momentum basis using nine multipixel image acquisitions ( http://arxiv.org/abs/2005.03849v1 )

ライセンス: Link先を確認
Girish Kulkarni, Suman Karan, and Anand K. Jha(参考訳) 軌道角運動量(OAM)基底における光の高次元純状態を測定する既存の技術は、多くの単画素データ取得と、次元が増加するか、かなりの損失を被るか、あるいは既知の位相の基準ビームとの干渉を必要とする重要なポストセレクションエラーを含む。 そこで本研究では,ポストセレクションやロス,あるいは別個の参照ビームを伴わずに,9画素画像のみを用いて未知の純状態を測定するための干渉計測手法を提案する。 この手法は基本的に入力フィールドの2つの複雑な相関関数を計測し、状態の推測に再帰的な後処理アルゴリズムを用いる。 実験では,25次元までの純状態に対する平均忠実度を90%以上から11次元まで報告する手法を実験的に実証した。 本手法はOAMベースの情報処理アプリケーションの性能を大幅に向上させることができる。

The existing techniques for measuring high-dimensional pure states of light in the orbital angular momentum (OAM) basis either involve a large number of single-pixel data acquisitions and substantial postselection errors that increase with dimensionality, or involve substantial loss, or require interference with a reference beam of known phase. Here, we propose an interferometric technique that can measure an unknown pure state using only nine multipixel image acquisitions without involving postselection, loss, or a separate reference beam. The technique essentially measures two complex correlation functions of the input field and then employs a recursive postprocessing algorithm to infer the state. We experimentally demonstrate the technique for pure states up to dimensionality of 25, reporting a mean fidelity greater than 90 % up to 11 dimensions. Our technique can significantly improve the performance of OAM-based information processing applications.
翻訳日:2023-05-20 20:26:59 公開日:2020-05-08
# 位相導波路における量子電磁力学

Quantum electrodynamics in a topological waveguide ( http://arxiv.org/abs/2005.03802v1 )

ライセンス: Link先を確認
Eunjong Kim, Xueyue Zhang, Vinicius S. Ferreira, Jash Banker, Joseph K. Iverson, Alp Sipahigil, Miguel Bello, Alejandro Gonzalez-Tudela, Mohammad Mirhosseini and Oskar Painter(参考訳) 光子のエネルギー・運動量関係は、多くの線形、非線形、量子光学現象の鍵となるが、光浴自体のトポロジーを用いて新しい光マター特性を実現することができる。 本研究では,su-schrieffer-heeger模型のフォトニックアナログに基づく準材料導波路に結合した超伝導量子ビットの特性について検討する。 このような導波路に結合した量子ビットのトポロジカル誘導特性について検討し、指向性量子光子結合状態の形成からトポロジに依存した協調放射線効果までについて検討した。 この導波路系への量子ビットの追加は、有限導波路系で形成される位相的エッジ状態に対する直接量子制御を可能にし、例えば位相的に保護された量子通信チャネルを構築するのに有用である。 より広範に、我々の研究は、トポロジカル導波路-QEDシステムがエキゾチックな長距離量子相関を持つ多体状態の合成と研究にもたらす機会を実証している。

While designing the energy-momentum relation of photons is key to many linear, non-linear, and quantum optical phenomena, a new set of light-matter properties may be realized by employing the topology of the photonic bath itself. In this work we investigate the properties of superconducting qubits coupled to a metamaterial waveguide based on a photonic analog of the Su-Schrieffer-Heeger model. We explore topologically-induced properties of qubits coupled to such a waveguide, ranging from the formation of directional qubit-photon bound states to topology-dependent cooperative radiation effects. Addition of qubits to this waveguide system also enables direct quantum control over topological edge states that form in finite waveguide systems, useful for instance in constructing a topologically protected quantum communication channel. More broadly, our work demonstrates the opportunity that topological waveguide-QED systems offer in the synthesis and study of many-body states with exotic long-range quantum correlations.
翻訳日:2023-05-20 20:25:16 公開日:2020-05-08
# exposure: パンデミック時の群衆モデルに適合する空間の占有者曝露モデル

EXPOSED: An occupant exposure model for confined spaces to retrofit crowd models during a pandemic ( http://arxiv.org/abs/2005.04007v1 )

ライセンス: Link先を確認
Enrico Ronchi, Ruggiero Lovreglio(参考訳) 群衆モデルは、構築された環境における人々の動きのシミュレーションに使用できる。 群衆モデルの出力は、歩行者の安全と快適性を評価し、群衆管理に通知し、法医学的な調査を行うために使われてきた。 微視的群衆モデルでは、各人物の表現と、時間とともに位置に関する情報の取得、および物理的空間や他の人々との相互作用が可能である。 新型コロナウイルス(COVID-19)などのパンデミックは、建物利用者の感染リスクを考えると、安全な建物の使用についていくつかの疑問を呈している。 ここでは,群集モデルを用いて居住空間における被曝状況を評価する方法について述べる。 パンデミック時の建物利用や社会的距離に関する政策は、大きく異なる可能性があり、建物レベルでの安全性評価ではなく、病気の拡散に関するマクロな分析に基づいている。 提案モデルでは, 建物内における被曝の実態を, 微視的人物移動の分析から検討できる。 リスクアセスメントは、様々な種類の病気の伝染を考慮できる暴露評価のための普遍的なモデルを用いて、群集モデルをレトロフィッティングすることによって行われる。 この作業により、政策立案者はパンデミック時の建築利用に関する情報的な決定を行うことができる。

Crowd models can be used for the simulation of people movement in the built environment. Crowd model outputs have been used for evaluating safety and comfort of pedestrians, inform crowd management and perform forensic investigations. Microscopic crowd models allow the representation of each person and the obtainment of information concerning their location over time and interactions with the physical space/other people. Pandemics such as COVID-19 have posed several questions on safe building usage, given the risk of disease transmission among building occupants. Here we show how crowd modelling can be used to assess occupant exposure in confined spaces. The policies adopted concerning building usage and social distancing during a pandemic can vary greatly, and they are mostly based on the macroscopic analysis of the spread of disease rather than a safety assessment performed at a building level. The proposed model allows the investigation of occupant exposure in buildings based on the analysis of microscopic people movement. Risk assessment is performed by retrofitting crowd models with a universal model for exposure assessment which can account for different types of disease transmissions. This work allows policy makers to perform informed decisions concerning building usage during a pandemic.
翻訳日:2023-05-20 20:19:20 公開日:2020-05-08
# 環境特性からみた子どもの身体活動の空間分布の推定

Inferring the Spatial Distribution of Physical Activity in Children Population from Characteristics of the Environment ( http://arxiv.org/abs/2005.03957v1 )

ライセンス: Link先を確認
Ioannis Sarafis, Christos Diou, Vasileios Papapanagiotou, Leonidas Alagialoglou, Anastasios Delopoulos(参考訳) 肥満は、子供と青年人口の増加率に影響し、生活の質が低下し、共生のリスクが高まる。 肥満の主な原因は知られているが、肥満行動は個人の生活環境との複雑な相互作用の結果である。 このため、小児肥満への対処は公衆衛生当局にとって課題となっている。 bigoプロジェクト(https://bigoprogram.eu)は、ポリシー作成と介入設計をサポートするツールを作成するために、大規模な行動および環境データ収集に依存している。 本研究では,地域環境の機能として期待される人口動態をモデル化する新しい分析手法を提案する。 都市環境特性を用いた小地域における身体活動量の予測手法を実験的に評価した。 156人の子どもと青年から収集したデータを用いた実験により,提案手法の可能性を検証した。 具体的には、ある地域の身体活動レベルを予測するモデルを訓練し、81%のアウトアウト精度を達成する。 さらに,本モデルを用いて,関心領域における予測された人口行動のヒートマップを自動的に可視化し,有用な洞察を得る。 全体として、予測モデルと自動ヒートマップは、市民の行動の空間的分布を直接認識するツールであり、公衆衛生当局が潜在的に利用している。

Obesity affects a rising percentage of the children and adolescent population, contributing to decreased quality of life and increased risk for comorbidities. Although the major causes of obesity are known, the obesogenic behaviors manifest as a result of complex interactions of the individual with the living environment. For this reason, addressing childhood obesity remains a challenging problem for public health authorities. The BigO project (https://bigoprogram.eu) relies on large-scale behavioral and environmental data collection to create tools that support policy making and intervention design. In this work, we propose a novel analysis approach for modeling the expected population behavior as a function of the local environment. We experimentally evaluate this approach in predicting the expected physical activity level in small geographic regions using urban environment characteristics. Experiments on data collected from 156 children and adolescents verify the potential of the proposed approach. Specifically, we train models that predict the physical activity level in a region, achieving 81% leave-one-out accuracy. In addition, we exploit the model predictions to automatically visualize heatmaps of the expected population behavior in areas of interest, from which we draw useful insights. Overall, the predictive models and the automatic heatmaps are promising tools in gaining direct perception for the spatial distribution of the population's behavior, with potential uses by public health authorities.
翻訳日:2023-05-20 20:19:00 公開日:2020-05-08
# 広帯域フォトニック結晶導波路における近接量子ドット線幅

Near Transform-limited Quantum Dot Linewidths in a Broadband Photonic Crystal Waveguide ( http://arxiv.org/abs/2005.03943v1 )

ライセンス: Link先を確認
Freja T. Pedersen (1), Ying Wang (1), Cecilie T. Olesen (1), Sven Scholz (2), Andreas D. Wieck (2), Arne Ludwig (2), Matthias C. L\"obl (3), Richard J. Warburton (3), Leonardo Midolo (1), Ravitej Uppu (1), Peter Lodahl (1)(参考訳) 平面ナノフォトニクス構造は、内部に埋め込まれた量子ドットからの放出をブロードバンドでほぼ均一に結合し、理想のシンフォトン源を実現する。 単一光子源の効率とコヒーレンスは電荷ノイズによって制限されるため、発光スペクトルが広くなり、p$-$i$-n$ダイオードに埋め込まれた量子ドットを含むヒ素化ガリウム膜にフォトニック結晶導波路を作製することでノイズの抑制が図られる。 導波路近傍の局所的な電気接触は漏れ電流を最小限に抑え、量子ドット共鳴の高速な電気制御(4MHz帯)を可能にする。 フォトニック結晶導波路と結合した79ドルの量子ドットの共鳴線幅測定は、6nmの広い波長の波長で変換制限された放出を示す。 重要なことに、局所的な電気的接触により、同一チップ上で複数の量子ドットを独立にチューニングすることができ、これは変換制限エミッションと共にマルチエミッタベースの量子情報処理を実現する上で鍵となるコンポーネントである。

Planar nanophotonic structures enable broadband, near-unity coupling of emission from quantum dots embedded within, thereby realizing ideal singe-photon sources. The efficiency and coherence of the single-photon source is limited by charge noise, which results in the broadening of the emission spectrum.We report suppression of the noise by fabricating photonic crystal waveguides in a gallium arsenide membrane containing quantum dots embedded in a $p$-$i$-$n$ diode. Local electrical contacts in the vicinity of the waveguides minimize the leakage current and allow fast electrical control ($\approx$4 MHz bandwidth) of the quantum dot resonances. Resonant linewidth measurements of $79$ quantum dots coupled to the photonic crystal waveguides exhibit near transform-limited emission over a 6 nm wide range of emission wavelengths. Importantly, the local electrical contacts allow independent tuning of multiple quantum dots on the same chip, which together with the transform-limited emission are key components in realizing multiemitter-based quantum information processing.
翻訳日:2023-05-20 20:18:21 公開日:2020-05-08
# 遊びによる計算概念の初期熟達の促進

Encouraging early mastery of computational concepts through play ( http://arxiv.org/abs/2005.03930v1 )

ライセンス: Link先を確認
Hannah M. Dee, Jordi Freixenet, Xavier Cufi, Eduard Muntaner Perich, Valentina Poggioni, Marius Marian, Alfredo Milani(参考訳) プログラミングを学ぶこと、そしてより広い範囲において、コンピュータ科学について学ぶことは、活動と研究の分野である。 計算思考のラベルの下では、コンピュータ科学以外の多くの分野において、計算概念が認知ツールとして使われるようになっている。 遊び心のあるアプローチとゲーミフィケーションを用いて教育活動を動機づけ、探索学習を促進することは、遊びが子供の計算概念の学習に最初から関わってきたため、新しいアイデアではない。 しかし、完全にオープンで遊び心のある学習活動と、文脈、国、教室の間で簡単に複製できるほど構造化された学習活動との間には緊張関係がある。 本稿では,遊び心の利点と頑健な複製を実現するための十分な厳密さと構造を両立させる,教室やコードクラブにおける遊び心の計算アクティビティセットの概念,洗練,設計,評価について述べる。

Learning to code, and more broadly, learning about computer science is a growing field of activity and research. Under the label of computational thinking, computational concepts are increasingly used as cognitive tools in many subject areas, beyond computer science. Using playful approaches and gamification to motivate educational activities, and to encourage exploratory learning is not a new idea since play has been involved in the learning of computational concepts by children from the very start. There is a tension however, between learning activities and opportunities that are completely open and playful, and learning activities that are structured enough to be easily replicable among contexts, countries and classrooms. This paper describes the conception, refinement, design and evaluation of a set of playful computational activities for classrooms or code clubs, that balance the benefits of playfulness with sufficient rigor and structure to enable robust replication.
翻訳日:2023-05-20 20:17:33 公開日:2020-05-08
# 閉じ込め下での量子多体系の厳密な基底状態

Exact ground states of quantum many-body systems under confinement ( http://arxiv.org/abs/2005.03904v1 )

ライセンス: Link先を確認
Adolfo del Campo(参考訳) 均質な量子多体系の基底状態の知識は、閉じこもったポテンシャルを持つ双対不斉系の正確な基底状態を見つけるのに使うことができる。 自由空間におけるビイル・ヤストロウ形式の基底状態を持つ親ハミルトニアンの完全族に対して、双対系は1体調和ポテンシャルと2体長距離相互作用を含むことが示されている。 ノサノフ-ジャストロウ波動関数を持つ非調和ポテンシャルと量子固体の拡張も提示される。 この正確な写像を適用し、様々なペア相関関数と粒子間相互作用を持つ自由空間解から捕捉された系の固有状態を構築する。

Knowledge of the ground state of a homogeneous quantum many-body system can be used to find the exact ground state of a dual inhomogeneous system with a confining potential. For the complete family of parent Hamiltonians with a ground state of Bijl-Jastrow form in free space, the dual system is shown to include a one-body harmonic potential and two-body long-range interactions. The extension to anharmonic potentials and quantum solids with Nosanov-Jastrow wavefunctions is also presented. We apply this exact mapping to construct eigenstates of trapped systems from free-space solutions with a variety of pair correlation functions and interparticle interactions.
翻訳日:2023-05-20 20:16:24 公開日:2020-05-08
# クリフォード代数、代数スピノル、量子情報とその応用

Clifford algebras, algebraic spinors, quantum information and applications ( http://arxiv.org/abs/2005.04231v1 )

ライセンス: Link先を確認
Marco A. S. Trindade, Sergio Floquet, J. David M. Vianna(参考訳) 量子情報に対するクリフォード代数と代数スピノルに基づく代数的定式化を与える。 この文脈では、論理ゲートとカイラリティ、電荷共役、パリティ、時間反転といった概念が量子ビットの状態と関連して導入され、探索される。 超対称性とM-超代数も、我々の形式主義と分析される。 具体的には、クリフォード代数のテンソル積と同様に、Cl_{3,0}$ と $Cl_{1,3}$ が広く用いられる。

We give an algebraic formulation based on Clifford algebras and algebraic spinors for quantum information. In this context, logic gates and concepts such as chirality, charge conjugation, parity and time reversal are introduced and explored in connection with states of qubits. Supersymmetry and M-superalgebra are also analysed with our formalism. Specifically we use extensively the algebras $Cl_{3,0}$ and $Cl_{1,3}$ as well as tensor products of Clifford algebras.
翻訳日:2023-05-20 20:08:24 公開日:2020-05-08
# ギャップ状グラフェン中のクーロン不純物の臨界遷移

The critical transition of Coulomb impurities in gapped graphene ( http://arxiv.org/abs/2005.04175v1 )

ライセンス: Link先を確認
Manuel Asorey and Alessandro Santagata(参考訳) グラフェン中の超臨界電荷の不純物の影響は、z > 137のqedの超臨界原子崩壊と非常に似ているが、より低い臨界電荷を持つ。 この意味でグラフェンは、量子場理論の真空不安定性の解析のための自然な試験場と見なすことができる。 ガッピンググラフェン中の準臨界から超臨界電荷への量子遷移を、電荷不純物の任意の値に対してユニタリティを保存する共通枠組みで解析する。 超臨界状態では、不純物における特異な振る舞いを制御する境界条件を導入することができる。 準臨界電荷に対しては、中間状態118<Z<137の核に対してQEDに現れるものと類似した非自明な境界条件が存在することを示す。 異なる境界条件に関連するエネルギー準位の挙動を解析する。 特に, 魅力的なクーロン系における負のエネルギー結合状態を含む部分臨界系における新しい境界状態の存在を指摘する。 注目すべき性質は、臨界電荷遷移を飛び越えても不純物電荷の変動下でのエネルギースペクトルの流れの連続性である。 また, 荷電不純物の臨界値における水素結合状態のエネルギー準位は, スペクトル流の焦点として作用する。

The effect of supercritical charge impurities in graphene is very similar to the supercritical atomic collapses in QED for Z > 137, but with a much lower critical charge. In this sense graphene can be considered as a natural testing ground for the analysis of quantum field theory vacuum instabilities. We analyze the quantum transition from subcritical to supercritical charge regimes in gapped graphene in a common framework that preserves unitarity for any value of charge impurities. In the supercritical regime it is possible to introduce boundary conditions which control the singular behavior at the impurity. We show that for subcritical charges there are also non-trivial boundary conditions which are similar to those that appear in QED for nuclei in the intermediate regime 118<Z<137. We analyze the behavior of the energy levels associated to the different boundary conditions. In particular, we point out the existence of new bound states in the subcritical regime which include a negative energy bound state in the attractive Coulomb regime. A remarkable property is the continuity of the energy spectral flow under variation of the impurity charge even when jumping across the critical charge transition. We also remark that the energy levels of Hydrogenoid bound states at critical values of charge impurities act as focal points of the spectral flow.
翻訳日:2023-05-20 20:08:00 公開日:2020-05-08
# スマート洗浄のためのIoTおよびニューラルネットワークによる水汲み上げ制御システム

IoT and Neural Network-Based Water Pumping Control System For Smart Irrigation ( http://arxiv.org/abs/2005.04158v1 )

ライセンス: Link先を確認
M.E. Karar, M.F. Al-Rasheed, A.F. Al-Rasheed, O. Reyad(参考訳) 本稿では,センサセットとMLP(Multi-Layer Perceptron)ニューラルネットワークをベースとしたモノのインターネット(IoT)を用いた灌水プロセスにおいて,無駄な水を節約することを目的とする。 本システムでは、arduinoボードを用いてセンサデータを処理し、水ポンプを自動的に制御する。 センサーは環境要因、すなわち温度、湿度、土壌水分を測定し、灌水作業に必要な時間を推定する。 水ポンプ制御システムは、Arduino Remote XYインターフェースのようなソフトウェアとハードウェアツールと、IoT技術のフレームワークにおける電子センサーで構成されている。 MLPニューラルネットワークのような機械学習アルゴリズムは、IoTベースの灌水システムの自動制御の決定を効果的に管理する上で、重要な役割を果たす。

This article aims at saving the wasted water in the process of irrigation using the Internet of Things (IoT) based on a set of sensors and Multi-Layer Perceptron (MLP) neural network. The developed system handles the sensor data using the Arduino board to control the water pump automatically. The sensors measure the environmental factors; namely temperature, humidity, and soil moisture to estimate the required time for the operation of water irrigation. The water pump control system consists of software and hardware tools such as Arduino Remote XY interface and electronic sensors in the framework of IoT technology. The machine learning algorithm such as the MLP neural network plays an important role to support the decision of automatic control of IoT-based irrigation system, managing the water consumption effectively.
翻訳日:2023-05-20 20:07:42 公開日:2020-05-08
# モノのインターネットを利用した無線品質監視システム

GASDUINO-Wireless Air Quality Monitoring System Using Internet of Things ( http://arxiv.org/abs/2005.04126v1 )

ライセンス: Link先を確認
M.E. Karar, A.M. Al-Masaad, O. Reyad(参考訳) 健康影響研究所(Health Effects Institute, HEI)は先日、中東地域の大気汚染による負の健康影響による死者は約50万人と報告した。 そこで,本論文では,モノのインターネット(IoT)を用いた空気の質を計測する,GASDUINOと呼ばれるポータブルシステムの設計と開発について述べる。 開発されたGASDUINOシステムの主なコンポーネントはArduinoマイクロコントローラボード、ガスセンサー(MQ-135)、Androidユーザーインターフェース(UI)で、リモートXY Arduinoクラウドを介して接続されている。 開発したシステムは, 大気品質指標(AQI)の危険レベル, 粒子当たり100万(PPM)レベルを0~200PM以上の範囲でユーザに警告することができる。 GASDUINOシステムは,将来のスマートシティの発展と持続可能性に不可欠な環境モジュールであると考えられている。

The Health Effects Institute (HEI) reported recently that the deaths from the negative health effects of the air pollution in the Middle East Region is about 500,000 people. Therefore, this paper presents a new design and development of portable system; called GASDUINO that allows the user to measure the quality of air using the Internet of Things (IoT). The main components of developed GASDUINO system are the Arduino microcontroller board, Gas sensor (MQ-135), Android user interface (UI) connected with all things via Remote XY Arduino cloud. The developed system can alarm the users about the dangerous levels of the air quality index (AQI) or the particle per million (PPM) levels in the range of 0 to above 200 PPM. The developed GASDUINO system is considered as an essential environmental module in the development and sustainability of future smart cities.
翻訳日:2023-05-20 20:07:14 公開日:2020-05-08
# 多体量子系における不完全エコーダイナミクスの予測

Predicting Imperfect Echo Dynamics in Many-Body Quantum Systems ( http://arxiv.org/abs/2005.04119v1 )

ライセンス: Link先を確認
Lennart Dabelow and Peter Reimann(参考訳) エコープロトコルは、マクロ過程における時間の矢印を調べる手段を提供する。 非平衡状態から始めて、研究中の多体量子系は一定期間$\tau$で進化する。 その後、(効果的な)時間反転が行われ、(完全に実装されていれば)システムが次の期間である$\tau$の後に初期状態に戻る。 典型的な例は核磁気共鳴イメージングと偏光エコー実験である。 後方伝播中の小さな制御不能な不正確性の存在は、元の進化から「エコー信号」の偏りを生じさせ、非平衡状態の不安定性とダイナミクスの不可逆性を定量化するために利用できる。 我々は,このエコー信号のマクロ可観測値に対する典型的依存性に関する解析的予測を,不正確性の大きさと過程の持続時間に依存して導出し,数値例で検証する。

Echo protocols provide a means to investigate the arrow of time in macroscopic processes. Starting from a nonequilibrium state, the many-body quantum system under study is evolved for a certain period of time $\tau$. Thereafter, an (effective) time reversal is performed that would -- if implemented perfectly -- take the system back to the initial state after another time period $\tau$. Typical examples are nuclear magnetic resonance imaging and polarization echo experiments. The presence of small, uncontrolled inaccuracies during the backward propagation results in deviations of the "echo signal" from the original evolution, and can be exploited to quantify the instability of nonequilibrium states and the irreversibility of the dynamics. We derive an analytic prediction for the typical dependence of this echo signal for macroscopic observables on the magnitude of the inaccuracies and on the duration $\tau$ of the process, and verify it in numerical examples.
翻訳日:2023-05-20 20:06:59 公開日:2020-05-08
# 光機械的離散変数量子テレポーテーションスキーム

An optomechanical discrete variable quantum teleportation scheme ( http://arxiv.org/abs/2005.04080v1 )

ライセンス: Link先を確認
Samuel Pautrel, Zakari Denis, J\'er\'emy Bon, Adrien Borne and Ivan Favero(参考訳) 光学デバイスを用いた離散可変量子テレポーテーションを実現するための実験プロトコルを提案する。 単一光子の光分極重畳状態は、2つのマイクロメカニカル発振器のフォノン重畳にフォトン/フォノン絡み発生と2光子干渉を用いた光ベル状態測定によってテレポートされる。 プロトコルの検証は、機械装置と光とのコヒーレント状態転送によって行われる。 シミュレーションにより、ミリケルビン温度における提案手法の実現可能性を示す。

We propose an experimental protocol to realize discrete variable quantum teleportation using optomechanical devices. The photonic polarization superposition state of a single photon is teleported to a phononic superposition of two micromechanical oscillators by means of photon/phonon entanglement generation and optical Bell state measurement using two-photon interference. Verification of the protocol is performed by coherent state transfer between the mechanical devices and light. Simulations show the feasibility of the proposed scheme at millikelvin temperatures using state-of-the-art gigahertz optomechanical devices.
翻訳日:2023-05-20 20:06:42 公開日:2020-05-08
# 介護ロボットによる認知症患者の不適切な治療の回避

Avoiding Improper Treatment of Persons with Dementia by Care Robots ( http://arxiv.org/abs/2005.06622v1 )

ライセンス: Link先を確認
Martin Cooney, Sepideh Pashami, Eric J\"arpe, Awais Ashfaq(参考訳) もっとも残酷で反抗的な犯罪」という言葉は、脆弱な人に対する、保護と支援の責任を正確に負うべき人々による、悪い歴史的な扱いを表現するために用いられてきた。 人間のような認識能力を持つロボットが、人間に不道徳であると考えるようになるにつれ、歴史自体が繰り返される可能性がある、と私たちは信じています。 In the current paper we focus in particular on exploring some potential dangers affecting persons with dementia (PWD), which could arise from insufficient software or external factors, and describe a proposed solution involving rich causal models and accountability measures: Specifically, the Consequences of Needs-driven Dementia-compromised Behaviour model (C-NDB) could be adapted to be used with conversation topic detection, causal networks and multi-criteria decision making, alongside reports, audits, and deterrents. 当社の目標は、pwdの健康支援を目的としたケアロボットの設計に、これらの考慮事項が役立ちます。

The phrase "most cruel and revolting crimes" has been used to describe some poor historical treatment of vulnerable impaired persons by precisely those who should have had the responsibility of protecting and helping them. We believe we might be poised to see history repeat itself, as increasingly human-like aware robots become capable of engaging in behavior which we would consider immoral in a human--either unknowingly or deliberately. In the current paper we focus in particular on exploring some potential dangers affecting persons with dementia (PWD), which could arise from insufficient software or external factors, and describe a proposed solution involving rich causal models and accountability measures: Specifically, the Consequences of Needs-driven Dementia-compromised Behaviour model (C-NDB) could be adapted to be used with conversation topic detection, causal networks and multi-criteria decision making, alongside reports, audits, and deterrents. Our aim is that the considerations raised could help inform the design of care robots intended to support well-being in PWD.
翻訳日:2023-05-20 19:59:26 公開日:2020-05-08
# Jahn-Teller三重項不安定性に対するAnsatz

Ansatz for the Jahn-Teller triplet instability ( http://arxiv.org/abs/2005.06280v1 )

ライセンス: Link先を確認
Arnout Ceulemans(参考訳) 3重縮退電子状態は、対称性低下歪みに対して不安定であり、5つの四極モードとして変換される。 対応するビブロニックハミルトニアンの解は、バルグマンによって導入された解析的手法を用いて構成され、分数的育児係数に基づく既存の群論的手法の代替となる。 これは、so(5) を so(3) 対称性の破れに組み込む ansatz の構成を含む。 結果のヤーン・テラー方程式は導出され、ラジアル多項式とゲゲンバウアー函数の観点で解かれる。

A threefold degenerate electronic state is Jahn-Teller unstable with respect to symmetry lowering distortions, which transform as the five quadrupolar modes. The solution of the corresponding vibronic Hamiltonian is constructed using the analytical method introduced by Bargmann, as an alternative to existing group-theoretical methods based on coefficients of fractional parentage. It involves the construction of an Ansatz which incorporates SO(5) to SO(3) symmetry breaking. The resulting Jahn-Teller equations are derived, and solved in terms of radial polynomials and Gegenbauer functions.
翻訳日:2023-05-20 19:58:51 公開日:2020-05-08
# 振幅推定アルゴリズムの実装による比較

Comparison of Amplitude Estimation Algorithms by Implementation ( http://arxiv.org/abs/2005.05300v1 )

ライセンス: Link先を確認
Kwangmin Yu, Hyunkyung Lim, Pooja Rao, Dasol Jin(参考訳) 2002年にBrassardらによって量子振幅推定(QAE)が発明されて以来、最近いくつかの高度なアルゴリズムが公表されている(Grinko et al., 2019, Aaronson et al, and Suzuki et al., 2020)。 変種と元のアルゴリズムの主な違いは、この変種がNISQデバイス上で多くの高価な操作からなる標準QAE (Brassard et al., 2002) の重要な構成要素である量子位相推定 (QPE) を必要としないことである。 本稿では,これら2つの新しいQAEアプローチ(Grinko et al., 2019, Suzuki et al., 2020)を,Qiskitパッケージを用いて実装し,解析する。 比較は、オラクルクエリの数、量子回路深さ、その他の実装の複雑さに基づいて、一定精度で描画される。 計算の観点から各アルゴリズムの強みと限界について考察する。

Since the quantum amplitude estimation (QAE) was invented by Brassard et al., 2002, several advanced algorithms have recently been published (Grinko et al., 2019, Aaronson et al, and Suzuki et al., 2020). The main difference between the variants and the original algorithm is that the variants do not need quantum phase estimation (QPE), a key component of the canonical QAE (Brassard et al., 2002), that is composed of many expensive operations on NISQ devices. In this paper, we compare and analyze two of these new QAE approaches (Grinko et al., 2019, and Suzuki et al., 2020) by implementation using the Qiskit package. The comparisons are drawn based on number of oracle queries, quantum circuit depth, and other complexities of implementation for a fixed accuracy. We discuss the strengths and limitations of each algorithm from a computational perspective.
翻訳日:2023-05-20 19:58:41 公開日:2020-05-08
# モースポテンシャルのコヒーレント状態の構築:Su(2)-様アプローチ

Construction of coherent states for Morse potential: A su(2)-like approach ( http://arxiv.org/abs/2005.04302v1 )

ライセンス: Link先を確認
Abdessamad Belfakir, Yassine Hassouni and Evaldo M F Curado(参考訳) モースポテンシャルの離散エネルギー部分を完全に記述した一般化su(2)代数を提案する。 次に,任意のモース振動子と,スペクトルが有限である任意の物理系に適用可能な特定の例とアプローチについて検討する。 さらに,停止したスティルチェスモーメント問題の解によって得られた正の測度で同一性の解決を満足するモースポテンシャルに対するクラウダーコヒーレント状態を構成する。 構築されたコヒーレント状態の不確かさ関係の時間発展を分析する。 不確実性関係は収束半径の小さい値に対してより局所化される。

We propose a generalized su(2) algebra that perfectly describes the discrete energy part of the Morse potential. Then, we examine particular examples and the approach can be applied to any Morse oscillator and to practically any physical system whose spectrum is finite. Further, we construct the Klauder coherent state for Morse potential satisfying the resolution of identity with a positive measure, obtained through the solution of truncated Stieltjes moment problem. The time evolution of the uncertainty relation of the constructed coherent states is analyzed. The uncertainty relation is more localized for small values of radius of convergence.
翻訳日:2023-05-20 19:57:37 公開日:2020-05-08
# 流体中の大きな零点密度ゆらぎ

Large Zero Point Density Fluctuations in Fluids ( http://arxiv.org/abs/2005.04266v1 )

ライセンス: Link先を確認
Peter Wu and L.H. Ford(参考訳) 液体中のゼロ点密度変動とその光散乱による電位観察について論じる。 利害の相違が2つあることが示唆されている。 1つは散乱光子の平均数を与え、光子の波長の逆パワーに依存する。 第2の効果は、有限サイズの光子波パケットの散乱において生じ、波のパケットの空間サイズの逆パワーに依存する。 この効果は散乱光子数の大きなゆらぎとして見られ、場の量子論におけるエネルギー密度の時空平均の真空揺らぎと類似している。

Zero point density fluctuations in a liquid and their potential observation by light scattering are discussed. It is suggested that there are two distinct effects of interest. One gives an average number of scattered photons, and depends upon an inverse power of the photon wavelength. The second effect arises in the scattering of finite size photon wave packets and depends upon an inverse power of the spatial size of the wave packet. This effect appears as large fluctuations in the number of scattered photons, and is analogous to the vacuum fluctuations of spacetime averages of the energy density in quantum field theory.
翻訳日:2023-05-20 19:57:14 公開日:2020-05-08
# 意思決定におけるリアルタイムエッジインテリジェンス--フェデレーションメタラーニングによる協調学習フレームワーク

Real-Time Edge Intelligence in the Making: A Collaborative Learning Framework via Federated Meta-Learning ( http://arxiv.org/abs/2001.03229v2 )

ライセンス: Link先を確認
Sen Lin, Guang Yang and Junshan Zhang(参考訳) ネットワークエッジにおける多くのIoTアプリケーションは、インテリジェントな判断をリアルタイムで要求する。 しかし、エッジデバイスだけでは、制限されたコンピューティングリソースと制限されたローカルデータのために、リアルタイムのエッジインテリジェンスを達成できないことが多い。 これらの課題に対処するために,フェデレーションメタラーニングアプローチによって,まずモデルが複数のソースエッジノードでトレーニングされ,その後,少数のサンプルのみを使用して,ターゲットエッジノードで新しいタスクを学習するために迅速に適応する,プラットフォーム支援協調学習フレームワークを提案する。 さらに,ノード類似度とターゲットエッジでの適応性能について,軽度条件下でのフェデレーションメタ学習アルゴリズムの収束性を検討した。 メタラーニングアルゴリズムの脆弱性に対抗するために,分散的ロバストな最適化に基づくフェデレーションメタラーニングアルゴリズムの頑健なバージョンを提案し,その収束性を穏やかな条件下で確立する。 異なるデータセットに関する実験は、提案するフェデレーションメタラーニングベースのフレームワークの有効性を示している。

Many IoT applications at the network edge demand intelligent decisions in a real-time manner. The edge device alone, however, often cannot achieve real-time edge intelligence due to its constrained computing resources and limited local data. To tackle these challenges, we propose a platform-aided collaborative learning framework where a model is first trained across a set of source edge nodes by a federated meta-learning approach, and then it is rapidly adapted to learn a new task at the target edge node, using a few samples only. Further, we investigate the convergence of the proposed federated meta-learning algorithm under mild conditions on node similarity and the adaptation performance at the target edge. To combat against the vulnerability of meta-learning algorithms to possible adversarial attacks, we further propose a robust version of the federated meta-learning algorithm based on distributionally robust optimization, and establish its convergence under mild conditions. Experiments on different datasets demonstrate the effectiveness of the proposed Federated Meta-Learning based framework.
翻訳日:2023-01-13 04:31:23 公開日:2020-05-08
# BasConv: グラフ畳み込みニューラルネットワークを用いたバスケット推薦のための異種相互作用の集約

BasConv: Aggregating Heterogeneous Interactions for Basket Recommendation with Graph Convolutional Neural Network ( http://arxiv.org/abs/2001.09900v2 )

ライセンス: Link先を確認
Zhiwei Liu, Mengting Wan, Stephen Guo, Kannan Achan, Philip S. Yu(参考訳) in-basketレコメンデーションはユーザの探索時間を短縮し、ユーザのバスケットに対する意図が問題となる。 ショッピングバスケットの意図は、ユーザ-項目協調フィルタリング信号とマルチ項目相関信号の両方から検索できる。 バスケットインテントを表すバスケットエンティティを定義することで、この問題をuser-basket-item~(ubi)グラフのバスケット-itemリンク予測タスクとしてモデル化することができる。 従来の作業では,ユーザ-イテムインタラクションとアイテム-イテムインタラクションを同時に活用することで,この問題を解決する。 しかし, 収集率や不均質性は従来はほとんど調査されなかった。 集合性は各ノードのセマンティクスを定義し、それは直接および間接的に接続された隣人の両方から集約されるべきである。 異種性は、UBIグラフのマルチタイプ相互作用とマルチタイプノードから生じる。 そこで本研究では,グラフ畳み込みニューラルネットワークに基づく新しいフレームワークである \textbf{basconv}を提案する。 basconvモデルには3種類のノード用に特別に設計された3種類のアグリゲータがあります。 彼らは近傍と高次の両方のコンテキストからノード埋め込みを学習する。 さらに、アグリゲータ内の対話層は異なるタイプの相互作用を区別することができる。 2つの実世界のデータセットに対する大規模な実験は、BasConvの有効性を証明する。 私たちのコードはhttps://github.com/jimliu96/basconv.comで利用可能です。

Within-basket recommendation reduces the exploration time of users, where the user's intention of the basket matters. The intent of a shopping basket can be retrieved from both user-item collaborative filtering signals and multi-item correlations. By defining a basket entity to represent the basket intent, we can model this problem as a basket-item link prediction task in the User-Basket-Item~(UBI) graph. Previous work solves the problem by leveraging user-item interactions and item-item interactions simultaneously. However, collectivity and heterogeneity characteristics are hardly investigated before. Collectivity defines the semantics of each node which should be aggregated from both directly and indirectly connected neighbors. Heterogeneity comes from multi-type interactions as well as multi-type nodes in the UBI graph. To this end, we propose a new framework named \textbf{BasConv}, which is based on the graph convolutional neural network. Our BasConv model has three types of aggregators specifically designed for three types of nodes. They collectively learn node embeddings from both neighborhood and high-order context. Additionally, the interactive layers in the aggregators can distinguish different types of interactions. Extensive experiments on two real-world datasets prove the effectiveness of BasConv. Our code is available online at https://github.com/JimLiu96/basConv.
翻訳日:2023-01-11 13:37:33 公開日:2020-05-08
# 可変Ge小屋ワイヤダブル量子ドットにおけるホールスピン

Hole spin in tunable Ge hut wire double quantum dot ( http://arxiv.org/abs/2001.04834v2 )

ライセンス: Link先を確認
Gang Xu, Fei Gao, Ke Wang, Ting Zhang, He Liu, Gang Cao, Ting Wang, Jian-Jun Zhang, Hong-Wen Jiang, Hai-Ou Li and Guo-Ping Guo(参考訳) ゲルマニウム(ge)の穴は強いスピン軌道相互作用を示し、スピン状態の高速で全電気的な操作に利用できる。 ここでは、可変GeHutワイヤホールダブル量子ドットにおける輸送実験を報告する。 我々は、ポーリスピン遮断(psb)のシグネチャを、1.1 mevの大きい一重項三重項エネルギー分割で観察し、g因子を抽出する。 PSBリーク電流を解析することにより、約40-100nmのスピン軌道長l_soが得られる。 さらに、電気双極子スピン共鳴を実証する。 これらの結果は、高品質なチューナブルホールスピン軌道量子ビットの実装の基礎となる。

Holes in germanium (Ge) exhibit strong spin-orbit interaction, which can be exploited for fast and all-electrical manipulation of spin states. Here, we report transport experiments in a tunable Ge hut wire hole double quantum dot. We observe the signatures of Pauli spin blockade (PSB) with a large singlet-triplet energy splitting of ~1.1 meV and extract the g factor. By analyzing the the PSB leakage current, we obtain a spin-orbit length l_so of ~ 40-100 nm. Furthermore, we demonstrate the electric dipole spin resonance. These results lay a solid foundation for implementing high quality tunable hole spin-orbit qubits.
翻訳日:2023-01-11 13:35:37 公開日:2020-05-08
# 生成ニューラルネットワークを用いたイジングモデル学習

Learning the Ising Model with Generative Neural Networks ( http://arxiv.org/abs/2001.05361v2 )

ライセンス: Link先を確認
Francesco D'Angelo and Lucas B\"ottcher(参考訳) ディープラーニングとニューラルネットワークの最近の進歩は、統計的および凝縮物質物理学における生成モデルの適用への関心を高めた。 特に、ニューラルネットワークの特定のクラスとしての制限されたボルツマンマシン(RBM)と変分オートエンコーダ(VAE)は、物理的特徴抽出と表現学習の文脈でうまく適用されている。 しかし、これらの成功にもかかわらず、それらの表現的性質と制限についての理解は限られている。 RBMとVAEの表現特性をよりよく理解するために,Isingモデルの物理的特徴を異なる温度で捉える能力について検討した。 このアプローチにより、サンプルの特徴と対応する理論予測を比較することにより、学習した表現を定量的に評価できる。 その結果, RBM と畳み込み VAE は磁化, エネルギー, スピンスピン相関の温度依存性を捉えることができることがわかった。 rbmsが生成する試料はvaesが生成する試料よりも温度全体に均等に分布する。 また,vaesの畳み込み層はスピン相関のモデル化に重要であるのに対し,rbmは畳み込みフィルタを使わずに同様の性能を得られる。

Recent advances in deep learning and neural networks have led to an increased interest in the application of generative models in statistical and condensed matter physics. In particular, restricted Boltzmann machines (RBMs) and variational autoencoders (VAEs) as specific classes of neural networks have been successfully applied in the context of physical feature extraction and representation learning. Despite these successes, however, there is only limited understanding of their representational properties and limitations. To better understand the representational characteristics of RBMs and VAEs, we study their ability to capture physical features of the Ising model at different temperatures. This approach allows us to quantitatively assess learned representations by comparing sample features with corresponding theoretical predictions. Our results suggest that the considered RBMs and convolutional VAEs are able to capture the temperature dependence of magnetization, energy, and spin-spin correlations. The samples generated by RBMs are more evenly distributed across temperature than those generated by VAEs. We also find that convolutional layers in VAEs are important to model spin correlations whereas RBMs achieve similar or even better performances without convolutional filters.
翻訳日:2023-01-11 07:26:40 公開日:2020-05-08
# Pelican: ネットワーク侵入検知のためのディープ残留ネットワーク

Pelican: A Deep Residual Network for Network Intrusion Detection ( http://arxiv.org/abs/2001.08523v7 )

ライセンス: Link先を確認
Peilun Wu, Hui Guo and Nour Moustafa(参考訳) セキュアなネットワーク通信環境を構築する上での課題のひとつは、悪意のあるネットワーク動作を効果的に検出し防止する方法だ。 異常なネットワーク活動はユーザのプライバシを脅かし、ネットワーク全体の機能やインフラストラクチャを損なう可能性がある。 この問題に対処するために,ネットワーク侵入検知システム (NIDS) が用いられている。 ネットワークアクティビティを継続的に監視することにより、システムは攻撃をタイムリーに識別し、反撃行動を促すことができる。 NIDSは長年進化してきた。 現在のNIDSは、新たな攻撃の検出性能を改善するため、機械学習(ML)を中核技術として組み込んでいる。 しかし、従来のMLベースの検出手法によって達成される高い検出速度は、しばしば大きな偽アラームを伴い、その全体的な性能に大きな影響を及ぼす。 本稿では,特別に設計された残差ブロック上に構築されたディープニューラルネットワークPelicanを提案する。 NSL-KDDとUNSW-NB15の2つのネットワークトラフィックデータセット上でペリカンを評価した。 実験の結果,ペリカンは最新の機械学習に基づく設計と比べ,誤報率を低く抑えつつ,高い攻撃検出性能を達成できることがわかった。

One challenge for building a secure network communication environment is how to effectively detect and prevent malicious network behaviours. The abnormal network activities threaten users' privacy and potentially damage the function and infrastructure of the whole network. To address this problem, the network intrusion detection system (NIDS) has been used. By continuously monitoring network activities, the system can timely identify attacks and prompt counter-attack actions. NIDS has been evolving over years. The current-generation NIDS incorporates machine learning (ML) as the core technology in order to improve the detection performance on novel attacks. However, the high detection rate achieved by a traditional ML-based detection method is often accompanied by large false-alarms, which greatly affects its overall performance. In this paper, we propose a deep neural network, Pelican, that is built upon specially-designed residual blocks. We evaluated Pelican on two network traffic datasets, NSL-KDD and UNSW-NB15. Our experiments show that Pelican can achieve a high attack detection performance while keeping a much low false alarm rate when compared with a set of up-to-date machine learning based designs.
翻訳日:2023-01-08 12:44:29 公開日:2020-05-08
# 無線エッジにおける連合学習のための更新認識デバイススケジューリングの収束

Convergence of Update Aware Device Scheduling for Federated Learning at the Wireless Edge ( http://arxiv.org/abs/2001.10402v2 )

ライセンス: Link先を確認
Mohammad Mohammadi Amiri, Deniz Gunduz, Sanjeev R. Kulkarni, H. Vincent Poor(参考訳) 我々は,無線エッジにおけるフェデレーション学習(FL)について研究し,遠隔パラメータサーバ(PS)の助けを借りて,ローカルデータセットを用いたパワー制限デバイスが共同でジョイントモデルを訓練する。 デバイスは帯域幅制限の共有無線チャネルを介してPSに接続されていると仮定する。 FLの各イテレーションでは、デバイスのサブセットが直交チャネルリソースを介してPSにローカルモデル更新を送信するようにスケジュールされ、各デバイスはリンク容量に合わせてモデル更新を圧縮する必要がある。 我々は,各ラウンドに送信する機器のサブセットを決定する新しいスケジューリングとリソース割り当てポリシと,そのチャネル条件だけでなく,そのローカルモデル更新の意義にもとづいて,参加デバイスにリソースを割り当てる方法について設計する。 次に、デバイスがメッセージを送信する能力に制限のあるデバイススケジューリングによる無線flアルゴリズムの収束を確立する。 数値実験の結果,提案したスケジューリングポリシーは,チャネル条件と局所モデル更新の重要性の両方に基づいており,両者の指標のみに基づくスケジューリングポリシーよりも長期的性能がよいことがわかった。 また、各ラウンドにおける1つのデバイスの選択が最高のパフォーマンスを提供する一方、データ配信が非i.i.dである場合には、各ラウンドにおける複数のデバイスをスケジューリングすることで、パフォーマンスが向上する。 この観測は収束結果によって検証され、より多様で偏りのあるデータ分布のためにスケジュールされたデバイス数が増加することが示されている。

We study federated learning (FL) at the wireless edge, where power-limited devices with local datasets collaboratively train a joint model with the help of a remote parameter server (PS). We assume that the devices are connected to the PS through a bandwidth-limited shared wireless channel. At each iteration of FL, a subset of the devices are scheduled to transmit their local model updates to the PS over orthogonal channel resources, while each participating device must compress its model update to accommodate to its link capacity. We design novel scheduling and resource allocation policies that decide on the subset of the devices to transmit at each round, and how the resources should be allocated among the participating devices, not only based on their channel conditions, but also on the significance of their local model updates. We then establish convergence of a wireless FL algorithm with device scheduling, where devices have limited capacity to convey their messages. The results of numerical experiments show that the proposed scheduling policy, based on both the channel conditions and the significance of the local model updates, provides a better long-term performance than scheduling policies based only on either of the two metrics individually. Furthermore, we observe that when the data is independent and identically distributed (i.i.d.) across devices, selecting a single device at each round provides the best performance, while when the data distribution is non-i.i.d., scheduling multiple devices at each round improves the performance. This observation is verified by the convergence result, which shows that the number of scheduled devices should increase for a less diverse and more biased data distribution.
翻訳日:2023-01-06 03:07:20 公開日:2020-05-08
# 実験高エネルギー物理利用事例における選択された近代深層学習技術が分類モデルの性能と不整合性に及ぼす影響について

On the impact of selected modern deep-learning techniques to the performance and celerity of classification models in an experimental high-energy physics use case ( http://arxiv.org/abs/2002.01427v4 )

ライセンス: Link先を確認
Giles Chatham Strong(参考訳) 基本的なニューラルネットワークアーキテクチャから始まり、2014 higgs ml kaggleデータセットを使用して、高エネルギー物理学の領域で遭遇する典型的な分類問題の文脈で、機械学習、特にディープラーニングの高度な技術によって提供される潜在的な利点をテストする。 利点は、パフォーマンスメトリクスと、モデルのトレーニングと適用に要する時間の両方の観点から評価されます。 検証された技術には、ドメイン固有のデータ提供、学習速度と運動量スケジューリング、モデル空間と重み空間の両方で(高度な)センシング、代替アーキテクチャと接続方法が含まれる。 調査の後、我々は元のKaggleチャレンジの勝者ソリューションと同等のパフォーマンスを達成するモデルに到達し、トレーニングと適用が極めて高速で、GPUとCPUハードウェアの両方のセットアップでの使用に適している。 これらのタイミングとハードウェア要件の削減は、限られたハードウェアリソースを持つ少数の研究者グループによって、モデルが頻繁に、時には短時間に、頻繁に再訓練されなければならないHEP分析において、より強力なアルゴリズムの使用を可能にする可能性がある。 さらに、LUMINと呼ばれるPyTorch用の新しいラッパーライブラリが紹介され、研究されたすべてのテクニックが組み込まれている。

Beginning from a basic neural-network architecture, we test the potential benefits offered by a range of advanced techniques for machine learning, in particular deep learning, in the context of a typical classification problem encountered in the domain of high-energy physics, using a well-studied dataset: the 2014 Higgs ML Kaggle dataset. The advantages are evaluated in terms of both performance metrics and the time required to train and apply the resulting models. Techniques examined include domain-specific data-augmentation, learning rate and momentum scheduling, (advanced) ensembling in both model-space and weight-space, and alternative architectures and connection methods. Following the investigation, we arrive at a model which achieves equal performance to the winning solution of the original Kaggle challenge, whilst being significantly quicker to train and apply, and being suitable for use with both GPU and CPU hardware setups. These reductions in timing and hardware requirements potentially allow the use of more powerful algorithms in HEP analyses, where models must be retrained frequently, sometimes at short notice, by small groups of researchers with limited hardware resources. Additionally, a new wrapper library for PyTorch called LUMIN is presented, which incorporates all of the techniques studied.
翻訳日:2023-01-04 08:48:45 公開日:2020-05-08
# 画像分類のための効率的な構造化辞書の学習

Learning efficient structured dictionary for image classification ( http://arxiv.org/abs/2002.03271v2 )

ライセンス: Link先を確認
Zi-Qi Li, Jun Sun, Xiao-Jun Wu and He-Feng Yin(参考訳) 近年,パターン分類の分野において,辞書学習(DL)に基づくアプローチが成功している。 本稿では,トレーニングサンプルの多様性とラベル情報の両方を考慮した効率的な構造化辞書学習(esdl)手法を提案する。 具体的には、ESDLは辞書学習のプロセスに代替トレーニングサンプルを導入している。 分類のための表現係数の判別能力を高めるために、理想的な正規化項をesdlの目的関数に組み込む。 さらに、計算コストのかかるL1ノルム制約を係数行列に課す従来のDLアプローチとは対照的に、ESDLはL2ノルム正規化項を用いる。 ベンチマークデータベース(4つの顔データベースと1つのシーンデータセットを含む)の実験結果は、ESDLが以前のDLアプローチより優れていることを示している。 さらに重要なことに、ESDLは幅広いパターン分類タスクに適用できる。

Recent years have witnessed the success of dictionary learning (DL) based approaches in the domain of pattern classification. In this paper, we present an efficient structured dictionary learning (ESDL) method which takes both the diversity and label information of training samples into account. Specifically, ESDL introduces alternative training samples into the process of dictionary learning. To increase the discriminative capability of representation coefficients for classification, an ideal regularization term is incorporated into the objective function of ESDL. Moreover, in contrast with conventional DL approaches which impose computationally expensive L1-norm constraint on the coefficient matrix, ESDL employs L2-norm regularization term. Experimental results on benchmark databases (including four face databases and one scene dataset) demonstrate that ESDL outperforms previous DL approaches. More importantly, ESDL can be applied in a wide range of pattern classification tasks.
翻訳日:2023-01-02 14:53:59 公開日:2020-05-08
# パラメトリックな陸面モデルと機械学習を組み合わせる

Combining Parametric Land Surface Models with Machine Learning ( http://arxiv.org/abs/2002.06141v2 )

ライセンス: Link先を確認
Craig Pelissier, Jonathan Frame, Grey Nearing(参考訳) 混合機械学習とプロセスベースモデリング (PBM) アプローチを提案し, 最上層の土壌水分状態をシミュレートするために, 少数のAmeriFluxサイトで評価を行った。 ここで使用されるHybrid-PBM(HPBM)は、ガウス過程と統合されたノア地表面モデルを使用している。 PBMに回帰する他のトレーニングデータと同様の気候条件でのみモデルを修正するように設計されている。 このようにして、我々のアプローチは、類似のトレーニングデータが利用できないシナリオにおける悪い予測を回避し、システムの物理的理解を取り入れます。 ここでは, 自己回帰モデルを仮定し, 選択した各部位の1年残差1回クロスバリデーションを用いて, rmseの3倍削減によるサンプル外結果を得る。 ハイブリッドモデルを用いて地球規模の陸地モデルを構築し, 現状を著しく上回る可能性を秘めている。

A hybrid machine learning and process-based-modeling (PBM) approach is proposed and evaluated at a handful of AmeriFlux sites to simulate the top-layer soil moisture state. The Hybrid-PBM (HPBM) employed here uses the Noah land-surface model integrated with Gaussian Processes. It is designed to correct the model only in climatological situations similar to the training data else it reverts to the PBM. In this way, our approach avoids bad predictions in scenarios where similar training data is not available and incorporates our physical understanding of the system. Here we assume an autoregressive model and obtain out-of-sample results with upwards of a 3-fold reduction in the RMSE using a one-year leave-one-out cross-validation at each of the selected sites. A path is outlined for using hybrid modeling to build global land-surface models with the potential to significantly outperform the current state-of-the-art.
翻訳日:2023-01-01 04:03:36 公開日:2020-05-08
# webカメラとクラウドソース画像による湖氷モニタリング

Lake Ice Monitoring with Webcams and Crowd-Sourced Images ( http://arxiv.org/abs/2002.07875v2 )

ライセンス: Link先を確認
Rajanie Prabha, Manu Tom, Mathias Rothermel, Emmanuel Baltsavias, Laura Leal-Taixe, Konrad Schindler(参考訳) 湖氷は強い気候指標であり、GCOS (Global Climate Observing System) によって Essential Climate Variables (ECV) の一部として認識されている。 凍結と解凍のダイナミクスと、凍結パターンの時間的変化は、地域や世界の気候システムを理解するのに役立ちます。 雲に依存しない湖氷形成に関する時空間情報を取得する方法の1つは、ウェブカメラ画像を分析することである。 本稿では, 自由に利用可能なウェブカメラデータを用いて, 湖氷をモニタリングするユニバーサルモデルに移行することを目的としている。 我々は,異なる冬と異なる湖をまたいだ一般化機能や,セマンティックイメージセグメンテーションのための最先端の畳み込みニューラルネットワーク(CNN)モデル,Deeplab v3+などの優れた性能を示す。 さらに、よりシャープで正確なセグメンテーション境界を予測するDeep-U-Labと呼ばれるモデルの変種を設計する。 複数のカメラビューと2つの異なる冬からのデータでモデルを一般化する能力をテストする。 平均すると、異なるカメラで平均71%、異なる冬で平均69%の交差統一(IoU)値が達成され、前よりも大幅に向上している。 さらに,写真共有サイトから抽出した任意の画像に対して60%のIoUを達成できることを示す。 研究の一環として、複数のカメラと2つの異なる冬から得られたwebカメラ画像のベンチマークデータセットであるphoti-lakeiceと、ピクセル単位の地上真理アノテーションを紹介する。

Lake ice is a strong climate indicator and has been recognised as part of the Essential Climate Variables (ECV) by the Global Climate Observing System (GCOS). The dynamics of freezing and thawing, and possible shifts of freezing patterns over time, can help in understanding the local and global climate systems. One way to acquire the spatio-temporal information about lake ice formation, independent of clouds, is to analyse webcam images. This paper intends to move towards a universal model for monitoring lake ice with freely available webcam data. We demonstrate good performance, including the ability to generalise across different winters and different lakes, with a state-of-the-art Convolutional Neural Network (CNN) model for semantic image segmentation, Deeplab v3+. Moreover, we design a variant of that model, termed Deep-U-Lab, which predicts sharper, more correct segmentation boundaries. We have tested the model's ability to generalise with data from multiple camera views and two different winters. On average, it achieves intersection-over-union (IoU) values of ~71% across different cameras and ~69% across different winters, greatly outperforming prior work. Going even further, we show that the model even achieves 60% IoU on arbitrary images scraped from photo-sharing web sites. As part of the work, we introduce a new benchmark dataset of webcam images, Photi-LakeIce, from multiple cameras and two different winters, along with pixel-wise ground truth annotations.
翻訳日:2022-12-30 20:37:25 公開日:2020-05-08
# 進化するプラスチックニューロコントローラによるリアルギャップの交差

Towards Crossing the Reality Gap with Evolved Plastic Neurocontrollers ( http://arxiv.org/abs/2002.09854v2 )

ライセンス: Link先を確認
Huanneng Qiu, Matthew Garratt, David Howard and Sreenatha Anavatti(参考訳) 進化ロボティクスにおける重要な問題は、シミュレーションで学んだコントローラーを現実に移すことである。 特に小型無人航空機(UAV)では、プラットフォームが非常にダイナミックで破損しやすいため、これは特にそうである。 以前のアプローチでは、しばしば高い精度でシミュレーションモデルを必要とするが、そうでなければ、よく設計されたコントローラがターゲットプラットフォームにデプロイされているときに重大なエラーが発生することがある。 ここでは,シナプス可塑性を利用したスパイキングニューロコントローラを,オンライン適応による現実のギャップを越えるように設計することで,トランスファー問題を異なる視点から克服する。 一連の実験を通して、進化したプラスチックスパイクコントローラは、進化訓練後のモデル変化に自己適応することで機能を維持することができ、その結果、非塑性よりも優れた性能を示すことを示す。

A critical issue in evolutionary robotics is the transfer of controllers learned in simulation to reality. This is especially the case for small Unmanned Aerial Vehicles (UAVs), as the platforms are highly dynamic and susceptible to breakage. Previous approaches often require simulation models with a high level of accuracy, otherwise significant errors may arise when the well-designed controller is being deployed onto the targeted platform. Here we try to overcome the transfer problem from a different perspective, by designing a spiking neurocontroller which uses synaptic plasticity to cross the reality gap via online adaptation. Through a set of experiments we show that the evolved plastic spiking controller can maintain its functionality by self-adapting to model changes that take place after evolutionary training, and consequently exhibit better performance than its non-plastic counterpart.
翻訳日:2022-12-29 09:47:31 公開日:2020-05-08
# 回転バウンディングボックスによるHR光リモートセンシング画像の高精度船舶検出のための新しいCNN方式

A Novel CNN-based Method for Accurate Ship Detection in HR Optical Remote Sensing Images via Rotated Bounding Box ( http://arxiv.org/abs/2004.07124v2 )

ライセンス: Link先を確認
Linhao Li, Zhiqiang Zhou, Bo Wang, Lingjuan Miao and Hua Zong(参考訳) 現在、光学式リモートセンシング画像の信頼性と精度は依然として難しい。 最先端の畳み込みニューラルネットワーク(CNN)ベースの手法でさえ、非常に良好な結果が得られない。 船を様々な方向でより正確に見つけるために、最近のいくつかの方法は回転した境界ボックスを通して検出を行う。 しかし、船の向きのさらなる変数がアルゴリズムで正確に予測されなければならないため、検出の難しさをさらに高める。 本稿では, 船舶検出における現在のcnn方式の共通欠陥を克服し, 新たなcnn方式船舶検出法を提案する。 具体的には、ローテーション領域の提案を生成するために、現在の手法では、マルチ指向アンカーを事前に定義し、すべての未知変数を1つの回帰プロセスで一緒に予測し、全体的な予測の品質を制限する必要がある。 対照的に, 船舶の目標がリモートセンシング画像においてほぼ回転不変であるという観測に基づいて, 方向と他の変数を独立に予測できるが, より効率的に, 新たな二重分岐回帰ネットワークを構築できる。 次に, 各種アスペクト比の船舶の特徴抽出において, 通常のROIプーリングの限界を克服するために, 形状適応型プーリング法を提案する。 さらに,空間変動型適応プーリングによるマルチレベル機能の導入を提案する。 このアプローチはマルチレベル適応プーリングと呼ばれ、船の分類とローカライゼーションを同時に行うのに適したコンパクトな特徴表現をもたらす。 最後に,提案手法について詳細なアブレーション研究を行い,有用な知見を得た。 実験の結果,提案手法の船舶検出における優れた性能が得られた。

Currently, reliable and accurate ship detection in optical remote sensing images is still challenging. Even the state-of-the-art convolutional neural network (CNN) based methods cannot obtain very satisfactory results. To more accurately locate the ships in diverse orientations, some recent methods conduct the detection via the rotated bounding box. However, it further increases the difficulty of detection, because an additional variable of ship orientation must be accurately predicted in the algorithm. In this paper, a novel CNN-based ship detection method is proposed, by overcoming some common deficiencies of current CNN-based methods in ship detection. Specifically, to generate rotated region proposals, current methods have to predefine multi-oriented anchors, and predict all unknown variables together in one regression process, limiting the quality of overall prediction. By contrast, we are able to predict the orientation and other variables independently, and yet more effectively, with a novel dual-branch regression network, based on the observation that the ship targets are nearly rotation-invariant in remote sensing images. Next, a shape-adaptive pooling method is proposed, to overcome the limitation of typical regular ROI-pooling in extracting the features of the ships with various aspect ratios. Furthermore, we propose to incorporate multilevel features via the spatially-variant adaptive pooling. This novel approach, called multilevel adaptive pooling, leads to a compact feature representation more qualified for the simultaneous ship classification and localization. Finally, detailed ablation study performed on the proposed approaches is provided, along with some useful insights. Experimental results demonstrate the great superiority of the proposed method in ship detection.
翻訳日:2022-12-13 03:50:48 公開日:2020-05-08
# どういう意味ですか。 ベイズ最適化における平均関数の役割

What do you Mean? The Role of the Mean Function in Bayesian Optimisation ( http://arxiv.org/abs/2004.08349v2 )

ライセンス: Link先を確認
George De Ath and Jonathan E. Fieldsend and Richard M. Everson(参考訳) ベイズ最適化は高価なブラックボックス関数を最適化するための一般的なアプローチである。 次に評価すべき場所は、搾取と探査のバランスをとる取得機能を最大化することで選択される。 ベイズ最適化における選択の代理モデルであるガウス過程は、観測された関数値の算術平均に等しい定数平均関数でしばしば使用される。 その結果,収束率は平均関数の選択に敏感に依存できることがわかった。 平均関数(観測された関数評価値の算術平均,最小,中央値,最大値,線形,二次多項式,ランダムフォレスト,rpfネットワーク)を10の合成テスト問題と2つの実世界問題を用いて実験的に検討し,期待値の改善と高信頼境界獲得関数を用いて実験を行った。 設計次元に対して、最低の観察された品質値と同等の定数平均関数を用いた$\ge5$は、考慮された合成問題において一貫して最良の選択である。 我々は、この最悪の観測された品質関数は、より迅速な収束につながる搾取を促進すると論じている。 しかし、現実世界のタスクでは、フィットネスランドスケープをモデル化できるより複雑な平均関数は効果的であるが、明確な最適選択はない。

Bayesian optimisation is a popular approach for optimising expensive black-box functions. The next location to be evaluated is selected via maximising an acquisition function that balances exploitation and exploration. Gaussian processes, the surrogate models of choice in Bayesian optimisation, are often used with a constant prior mean function equal to the arithmetic mean of the observed function values. We show that the rate of convergence can depend sensitively on the choice of mean function. We empirically investigate 8 mean functions (constant functions equal to the arithmetic mean, minimum, median and maximum of the observed function evaluations, linear, quadratic polynomials, random forests and RBF networks), using 10 synthetic test problems and two real-world problems, and using the Expected Improvement and Upper Confidence Bound acquisition functions. We find that for design dimensions $\ge5$ using a constant mean function equal to the worst observed quality value is consistently the best choice on the synthetic problems considered. We argue that this worst-observed-quality function promotes exploitation leading to more rapid convergence. However, for the real-world tasks the more complex mean functions capable of modelling the fitness landscape may be effective, although there is no clearly optimum choice.
翻訳日:2022-12-12 12:39:11 公開日:2020-05-08
# アクセス制御アプリケーションのためのクラウドベース顔と音声認識

Cloud-Based Face and Speech Recognition for Access Control Applications ( http://arxiv.org/abs/2004.11168v2 )

ライセンス: Link先を確認
Nathalie Tkauc, Thao Tran, Kevin Hernandez-Diaz, Fernando Alonso-Fernandez(参考訳) 本稿では,顔画像と音声テキスト認識により,物理的なオフィスへのアクセスを希望する従業員やビジターを識別するシステムの実装について述べる。 このシステムは、社員がタグキーやカードなしで、顔認識を通じてドアのロックを解除できるようにする。 スプーフィング攻撃の防止とセキュリティ向上のために、ランダムに生成されたコードが従業員に送られ、画面に入力しなければならない。 一方、訪問客や配送業者は、出会いたい従業員の名前を発声する音声対テキストサービスを提供し、システムが適切な従業員に通知を自動送信する。 このシステムのハードウェアは、2つのRaspberry Pi、7インチLCDタッチディスプレイ、カメラ、マイクとスピーカーを備えたサウンドカードで構成されている。 顔認識と音声からテキストへの変換を行うために、Amazon Web ServicesとGoogle Speech-to-Text APIサービスがそれぞれ使用されている。 従業員の2段階顔認証機構は、キータグやアクセスカードを運ぶことなく、スプーフィング攻撃に対するセキュリティと保護のレベルを高め、一方、訪問者や配送業者による妨害は、リングベルによって他の同僚を邪魔することなく、正しい従業員に到着を通知することで最小化される。

This paper describes the implementation of a system to recognize employees and visitors wanting to gain access to a physical office through face images and speech-to-text recognition. The system helps employees to unlock the entrance door via face recognition without the need of tag-keys or cards. To prevent spoofing attacks and increase security, a randomly generated code is sent to the employee, who then has to type it into the screen. On the other hand, visitors and delivery persons are provided with a speech-to-text service where they utter the name of the employee that they want to meet, and the system then sends a notification to the right employee automatically. The hardware of the system is constituted by two Raspberry Pi, a 7-inch LCD-touch display, a camera, and a sound card with a microphone and speaker. To carry out face recognition and speech-to-text conversion, the cloud-based platforms Amazon Web Services and the Google Speech-to-Text API service are used respectively. The two-step face authentication mechanism for employees provides an increased level of security and protection against spoofing attacks without the need of carrying key-tags or access cards, while disturbances by visitors or couriers are minimized by notifying their arrival to the right employee, without disturbing other co-workers by means of ring-bells.
翻訳日:2022-12-10 10:14:26 公開日:2020-05-08
# 条件変動画像レーダリング

Conditional Variational Image Deraining ( http://arxiv.org/abs/2004.11373v2 )

ライセンス: Link先を確認
Ying-Jun Du, Jun Xu, Xian-Tong Zhen, Ming-Ming Cheng, Ling Shao(参考訳) イメージデライン化は、重要なが困難な画像処理タスクである。 決定論的イメージデライニング法は性能向上のために開発されているが、確率的推論と多様な予測のための柔軟な表現を学習することは不可能である。 さらに、降雨強度は空間的位置と色チャネルによって異なり、この作業はより困難である。 本稿では,条件付き変分オートエンコーダ(cvae)の排他的生成能力を利用して,雨画像の多様な予測を行う条件付き変分画像デライニング(cvid)ネットワークを提案する。 本研究では,各画像の降雨密度マップを推定する空間密度推定(SDE)モジュールを提案する。 また,降雨密度はカラーチャネルによって異なるため,チャンネルワイズ (cw) 方式を提案する。 合成および実世界のデータセットを用いた実験により,提案したCVIDネットワークは,画像のデライニングにおける従来の決定論的手法よりもはるかに優れた性能が得られることが示された。 広範なアブレーション研究により,提案するsdeモジュールとcwスキームの有効性が検証された。 コードは \url{https://github.com/yingjun-du/vid} で入手できる。

Image deraining is an important yet challenging image processing task. Though deterministic image deraining methods are developed with encouraging performance, they are infeasible to learn flexible representations for probabilistic inference and diverse predictions. Besides, rain intensity varies both in spatial locations and across color channels, making this task more difficult. In this paper, we propose a Conditional Variational Image Deraining (CVID) network for better deraining performance, leveraging the exclusive generative ability of Conditional Variational Auto-Encoder (CVAE) on providing diverse predictions for the rainy image. To perform spatially adaptive deraining, we propose a spatial density estimation (SDE) module to estimate a rain density map for each image. Since rain density varies across different color channels, we also propose a channel-wise (CW) deraining scheme. Experiments on synthesized and real-world datasets show that the proposed CVID network achieves much better performance than previous deterministic methods on image deraining. Extensive ablation studies validate the effectiveness of the proposed SDE module and CW scheme in our CVID network. The code is available at \url{https://github.com/Yingjun-Du/VID}.
翻訳日:2022-12-10 09:56:05 公開日:2020-05-08
# ディープグローバル登録

Deep Global Registration ( http://arxiv.org/abs/2004.11540v2 )

ライセンス: Link先を確認
Christopher Choy, Wei Dong, Vladlen Koltun(参考訳) 実世界の3Dスキャンを相互に登録するフレームワークであるDeep Global Registrationを提案する。 ディープグローバル登録は、対応信頼度予測のための6次元畳み込みネットワーク、クローズドフォームポーズ推定のための微分可能重み付き探索アルゴリズム、ポーズ修正のための頑健な勾配ベースSE(3)オプティマイザの3つのモジュールに基づいている。 実験により,本手法は実世界データを用いた学習法と古典法の両方において最先端手法よりも優れていることが示された。

We present Deep Global Registration, a differentiable framework for pairwise registration of real-world 3D scans. Deep global registration is based on three modules: a 6-dimensional convolutional network for correspondence confidence prediction, a differentiable Weighted Procrustes algorithm for closed-form pose estimation, and a robust gradient-based SE(3) optimizer for pose refinement. Experiments demonstrate that our approach outperforms state-of-the-art methods, both learning-based and classical, on real-world data.
翻訳日:2022-12-10 03:27:13 公開日:2020-05-08
# 多言語機械読解における回答境界検出の強化

Enhancing Answer Boundary Detection for Multilingual Machine Reading Comprehension ( http://arxiv.org/abs/2004.14069v2 )

ライセンス: Link先を確認
Fei Yuan, Linjun Shou, Xuanyu Bai, Ming Gong, Yaobo Liang, Nan Duan, Yan Fu, Daxin Jiang(参考訳) 多言語事前学習モデルでは、豊富なソース言語(英語など)からのトレーニングデータを活用して、低リソース言語のパフォーマンスを向上させることができる。 しかし、多言語機械読解理解(MRC)の伝達品質は、主に単語レベル応答境界を検出するためにMRCを必要とするため、文分類タスクよりも著しく劣っている。 本稿では,(1)質問文を他の言語に翻訳し,言語間問合せペアを構築する混合mrcタスク,(2) web から抽出された知識句を活用した言語非依存の知識マスキングタスクという2つの補助タスクを提案する。 さらに,2つの言語間MCCデータセットに対する広範な実験により,提案手法の有効性が示された。

Multilingual pre-trained models could leverage the training data from a rich source language (such as English) to improve performance on low resource languages. However, the transfer quality for multilingual Machine Reading Comprehension (MRC) is significantly worse than sentence classification tasks mainly due to the requirement of MRC to detect the word level answer boundary. In this paper, we propose two auxiliary tasks in the fine-tuning stage to create additional phrase boundary supervision: (1) A mixed MRC task, which translates the question or passage to other languages and builds cross-lingual question-passage pairs; (2) A language-agnostic knowledge masking task by leveraging knowledge phrases mined from web. Besides, extensive experiments on two cross-lingual MRC datasets show the effectiveness of our proposed approach.
翻訳日:2022-12-08 12:41:45 公開日:2020-05-08
# ファーストパーソンビデオからのアクション予測のためのローリングロールLSTM

Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video ( http://arxiv.org/abs/2005.02190v2 )

ライセンス: Link先を確認
Antonino Furnari and Giovanni Maria Farinella(参考訳) 本稿では,カメラ装着者が近い将来にどのようなアクションを行うか,どのオブジェクトと相互作用するかを予測することを目的とした,自我中心のアクション予測問題に取り組む。 具体的には、エゴセントリックビデオからのアクションを予測する学習アーキテクチャであるローリング・ロールングLSTMに貢献する。 メソッドは3つのコンポーネントに基づいています。 1) 過去を要約し、未来を推測するサブタスクをモデル化する2つのLSTMからなるアーキテクチャ 2) LSTMが異なるサブタスクに集中するように促すシーケンス完了事前訓練手法 3) RGBフレーム, 光フロー場, オブジェクトベース特徴の処理により, マルチモーダル予測を効率よく融合するモードATTention(MATT)機構。 提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。 実験によると、提案されたアーキテクチャはエゴセントリックビデオの領域では最先端であり、2019年のepic-kitchens egocentric action anticipation challengeでトップパフォーマンスを達成した。 このアプローチは、教師なし事前訓練に基づく方法ではなく、早期行動認識と行動認識のタスクに一般化することに関して、activitynetの競合性能も達成している。 この課題に関する研究を奨励するために、私たちはコード、トレーニングされたモデル、事前抽出した機能をwebページで公開しました。

In this paper, we tackle the problem of egocentric action anticipation, i.e., predicting what actions the camera wearer will perform in the near future and which objects they will interact with. Specifically, we contribute Rolling-Unrolling LSTM, a learning architecture to anticipate actions from egocentric videos. The method is based on three components: 1) an architecture comprised of two LSTMs to model the sub-tasks of summarizing the past and inferring the future, 2) a Sequence Completion Pre-Training technique which encourages the LSTMs to focus on the different sub-tasks, and 3) a Modality ATTention (MATT) mechanism to efficiently fuse multi-modal predictions performed by processing RGB frames, optical flow fields and object-based features. The proposed approach is validated on EPIC-Kitchens, EGTEA Gaze+ and ActivityNet. The experiments show that the proposed architecture is state-of-the-art in the domain of egocentric videos, achieving top performances in the 2019 EPIC-Kitchens egocentric action anticipation challenge. The approach also achieves competitive performance on ActivityNet with respect to methods not based on unsupervised pre-training and generalizes to the tasks of early action recognition and action recognition. To encourage research on this challenging topic, we made our code, trained models, and pre-extracted features available at our web page: http://iplab.dmi.unict.it/rulstm.
翻訳日:2022-12-07 01:13:25 公開日:2020-05-08
# 画像に基づくダイヤル自動読解のための深層学習:データセットとベースライン

Deep Learning for Image-based Automatic Dial Meter Reading: Dataset and Baselines ( http://arxiv.org/abs/2005.03106v2 )

ライセンス: Link先を確認
Gabriel Salomon, Rayson Laroca, David Menotti(参考訳) スマートメーターは、遠隔および自動電気、水およびガス消費の読み取りを可能にし、先進国で広く展開されている。 それでも、運用中の非スマートメーターは多数存在する。 Image-based Automatic Meter Reading (AMR)は、この種のメーター読み取りを扱うことに焦点を当てている。 ブラジルのparan\'a(コペル)のエネルギー会社は毎月85万回以上のダイアルメーターの読書を行っていると推定している。 これらのメーターは、この仕事の焦点です。 私たちの主な貢献は (i)UFPR-ADMRという公開実世界のダイヤルメーターデータセット(要求に応じて共有) (二)提案したデータセットに基づく深層学習に基づく認識ベースライン (iii)ダイヤルメータにおけるamrの主な問題点に関する詳細な誤差解析。 我々の知る限りでは、これはマルチダイアル・メーターの読み出しに深層学習アプローチを導入し、制約のない画像の実験を行う最初の試みである。 r-cnnとyoloの両方で100.0%のf1-scoreを達成し,認識率は93.6%,高速r-cnnでは75.25%に達した(resnext-101)。

Smart meters enable remote and automatic electricity, water and gas consumption reading and are being widely deployed in developed countries. Nonetheless, there is still a huge number of non-smart meters in operation. Image-based Automatic Meter Reading (AMR) focuses on dealing with this type of meter readings. We estimate that the Energy Company of Paran\'a (Copel), in Brazil, performs more than 850,000 readings of dial meters per month. Those meters are the focus of this work. Our main contributions are: (i) a public real-world dial meter dataset (shared upon request) called UFPR-ADMR; (ii) a deep learning-based recognition baseline on the proposed dataset; and (iii) a detailed error analysis of the main issues present in AMR for dial meters. To the best of our knowledge, this is the first work to introduce deep learning approaches to multi-dial meter reading, and perform experiments on unconstrained images. We achieved a 100.0% F1-score on the dial detection stage with both Faster R-CNN and YOLO, while the recognition rates reached 93.6% for dials and 75.25% for meters using Faster R-CNN (ResNext-101).
翻訳日:2022-12-06 05:50:03 公開日:2020-05-08
# 収束とダイバージェントデコーディングによるファクトベース対話生成

Fact-based Dialogue Generation with Convergent and Divergent Decoding ( http://arxiv.org/abs/2005.03174v2 )

ライセンス: Link先を確認
Ryota Tanaka, Akinobu Lee(参考訳) 事実に基づく対話生成は、対話コンテキストと事実テキストの両方に基づいて人間のような応答を生成するタスクである。 事実を効果的に含む情報語の生成に焦点をあてる様々な手法が提案された。 しかし,従来の研究では,対話に係わるトピックを暗黙的に仮定し,通常は受動的に会話するので,意味のある情報を提供する多様な応答を生成するのが困難であった。 本稿では,現在話題を会話したり,新たな話題を紹介できる,文脈と事実の両面から収束・分散した思考能力を備えた,エンドツーエンドのファクトベース対話システムを提案する。 具体的には、与えられた入力(コンテキストや事実)だけでなく、入力に関連するトピックも考慮し、情報的かつ多様な応答を生成できる新しい収束および分岐復号を組み込む。 DSTC7データセットの自動評価結果と人的評価結果の両方で、我々のモデルは最先端のベースラインを著しく上回り、我々のモデルはより適切で情報的で多様な応答を生成できることを示している。

Fact-based dialogue generation is a task of generating a human-like response based on both dialogue context and factual texts. Various methods were proposed to focus on generating informative words that contain facts effectively. However, previous works implicitly assume a topic to be kept on a dialogue and usually converse passively, therefore the systems have a difficulty to generate diverse responses that provide meaningful information proactively. This paper proposes an end-to-end fact-based dialogue system augmented with the ability of convergent and divergent thinking over both context and facts, which can converse about the current topic or introduce a new topic. Specifically, our model incorporates a novel convergent and divergent decoding that can generate informative and diverse responses considering not only given inputs (context and facts) but also inputs-related topics. Both automatic and human evaluation results on DSTC7 dataset show that our model significantly outperforms state-of-the-art baselines, indicating that our model can generate more appropriate, informative, and diverse responses.
翻訳日:2022-12-06 05:04:50 公開日:2020-05-08
# DMCP:ニューラルネットワークのための微分可能なマルコフチャネルプルーニング

DMCP: Differentiable Markov Channel Pruning for Neural Networks ( http://arxiv.org/abs/2005.03354v2 )

ライセンス: Link先を確認
Shaopeng Guo and Yujie Wang and Quanquan Li and Junjie Yan(参考訳) 最近の研究は、チャネルプルーニングが未切断ネットワークから最適なサブ構造を探索できることを示している。 しかし、この観察に基づく既存の研究は、その適用を制限する多くの構造を訓練し、評価する必要がある。 本稿では, 最適な部分構造を効率的に探索する, 識別可能なマルコフチャネルプルーニング (DMCP) という, チャネルプルーニングのための新しい微分可能な手法を提案する。 我々の手法は微分可能であり、標準タスク損失や予算正規化(FLOPs制約など)に関して勾配勾配により直接最適化することができる。 DMCPでは,チャネルプルーニングをマルコフプロセスとしてモデル化し,各状態がプルーニング中に対応するチャネルを保持することを表現し,状態間の遷移がプルーニングプロセスを表す。 最後に、最適化された遷移を伴うマルコフプロセスによって、各層内の適切なチャネル数を暗黙的に選択することができる。 提案手法の有効性を検証するため,ResNet と MobilenetV2 を用いたImagenet 実験を行った。 その結果,本手法は様々なFLOP設定における最先端プルーニング手法よりも一貫した改善を達成できることがわかった。 コードはhttps://github.com/zx55/dmcpで入手できる。

Recent works imply that the channel pruning can be regarded as searching optimal sub-structure from unpruned networks. However, existing works based on this observation require training and evaluating a large number of structures, which limits their application. In this paper, we propose a novel differentiable method for channel pruning, named Differentiable Markov Channel Pruning (DMCP), to efficiently search the optimal sub-structure. Our method is differentiable and can be directly optimized by gradient descent with respect to standard task loss and budget regularization (e.g. FLOPs constraint). In DMCP, we model the channel pruning as a Markov process, in which each state represents for retaining the corresponding channel during pruning, and transitions between states denote the pruning process. In the end, our method is able to implicitly select the proper number of channels in each layer by the Markov process with optimized transitions. To validate the effectiveness of our method, we perform extensive experiments on Imagenet with ResNet and MobilenetV2. Results show our method can achieve consistent improvement than state-of-the-art pruning methods in various FLOPs settings. The code is available at https://github.com/zx55/dmcp
翻訳日:2022-12-05 22:48:28 公開日:2020-05-08
# SmartExchange: 低コスト計算のための高コストメモリストレージ/Accessの取引

SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation ( http://arxiv.org/abs/2005.03403v2 )

ライセンス: Link先を確認
Yang Zhao, Xiaohan Chen, Yue Wang, Chaojian Li, Haoran You, Yonggan Fu, Yuan Xie, Zhangyang Wang, Yingyan Lin(参考訳) 提案するSmartExchangeは,DNN(Deep Neural Network)のエネルギー効率の高い推論のために,高コストメモリストレージ/アクセスを低コストで処理するための,アルゴリズム対応の協調設計フレームワークである。 そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。 我々の知る限り、このアルゴリズムはスペーシフィケーションまたはプルーニング、分解、量子化という3つの主流モデル圧縮のアイデアを1つの統一フレームワークに統合する最初の定式化である。 その結果、dnnは、データ移動におけるエネルギー消費を大幅に削減し、重みを蓄えることができる。 さらに、SmartExchange強化重量をフル活用して、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。 大規模な実験は 1)アルゴリズムレベルでは、smartexchangeは、9つのdnnモデルと4つのデータセットに基づく様々なアブレーション研究において、スパース化、プルーニング、分解、量子化といった最先端の圧縮技術を上回る。 ハードウェアレベルでは、SmartExchangeベースのアクセラレーターはエネルギー効率を最大6.7$\times$に向上し、4つのDNNモデル(標準DNN、4つのDNNモデル、2つのコンパクトDNNモデル、1つのセグメンテーションモデルを含む)と3つのデータセットでベンチマークすると、最先端DNNアクセラレーター以上の19.2$\times$に高速化することができる。

We present SmartExchange, an algorithm-hardware co-design framework to trade higher-cost memory storage/access for lower-cost computation, for energy-efficient inference of deep neural networks (DNNs). We develop a novel algorithm to enforce a specially favorable DNN weight structure, where each layerwise weight matrix can be stored as the product of a small basis matrix and a large sparse coefficient matrix whose non-zero elements are all power-of-2. To our best knowledge, this algorithm is the first formulation that integrates three mainstream model compression ideas: sparsification or pruning, decomposition, and quantization, into one unified framework. The resulting sparse and readily-quantized DNN thus enjoys greatly reduced energy consumption in data movement as well as weight storage. On top of that, we further design a dedicated accelerator to fully utilize the SmartExchange-enforced weights to improve both energy efficiency and latency performance. Extensive experiments show that 1) on the algorithm level, SmartExchange outperforms state-of-the-art compression techniques, including merely sparsification or pruning, decomposition, and quantization, in various ablation studies based on nine DNN models and four datasets; and 2) on the hardware level, the proposed SmartExchange based accelerator can improve the energy efficiency by up to 6.7$\times$ and the speedup by up to 19.2$\times$ over four state-of-the-art DNN accelerators, when benchmarked on seven DNN models (including four standard DNNs, two compact DNN models, and one segmentation model) and three datasets.
翻訳日:2022-12-05 22:40:00 公開日:2020-05-08
# 2つの時間スケール(自然)アクタ-クリティックアルゴリズムの非漸近収束解析

Non-asymptotic Convergence Analysis of Two Time-scale (Natural) Actor-Critic Algorithms ( http://arxiv.org/abs/2005.03557v2 )

ライセンス: Link先を確認
Tengyu Xu, Zhe Wang, Yingbin Liang(参考訳) 重要な種類の強化学習アルゴリズムとして、アクター・クリティカル(AC)とナチュラル・アクター・クリティカル(NAC)アルゴリズムが最適なポリシーを見つけるために2つの方法で実行されることが多い。 最初のネストループ設計では、アクターの1つのポリシー更新に続いて、批判者の値関数のアップデートの全ループが続き、ACアルゴリズムとNACアルゴリズムの有限サンプル解析が最近確立されている。 第2のタイムスケール設計ではアクターと批評家が同時に更新するが、学習率が異なるため、ネストループ設計よりもチューニングパラメータがはるかに少なく、実装が非常に容易である。 2つの時間スケールACとNACが文献に収束することが示されているが、有限サンプル収束速度は確立されていない。 本稿では,マルコフサンプリングと一般ポリシークラス近似を持つアクターによる2つの時間スケールACとNACに対して,このような非漸近収束率を示す。 2つの時間スケールACは、$\mathcal{O}(\epsilon^{-2.5}\log^3(\epsilon^{-1}))$が$\epsilon$-accurateな定常点を達成するために、そして2つの時間スケールNACが$\mathcal{O}(\epsilon^{-4}\log^2(\epsilon^{-1})$が$\epsilon$-accurateな大域的最適点を得るために、全体のサンプル複雑性を必要とすることを示す。 本稿では,マルコフサンプリングの動的変化によるアクタのバイアス誤差のバウンドと,ベース関数とトランジションカーネルを動的に変化させた線形批判者の収束率の解析手法を開発した。

As an important type of reinforcement learning algorithms, actor-critic (AC) and natural actor-critic (NAC) algorithms are often executed in two ways for finding optimal policies. In the first nested-loop design, actor's one update of policy is followed by an entire loop of critic's updates of the value function, and the finite-sample analysis of such AC and NAC algorithms have been recently well established. The second two time-scale design, in which actor and critic update simultaneously but with different learning rates, has much fewer tuning parameters than the nested-loop design and is hence substantially easier to implement. Although two time-scale AC and NAC have been shown to converge in the literature, the finite-sample convergence rate has not been established. In this paper, we provide the first such non-asymptotic convergence rate for two time-scale AC and NAC under Markovian sampling and with actor having general policy class approximation. We show that two time-scale AC requires the overall sample complexity at the order of $\mathcal{O}(\epsilon^{-2.5}\log^3(\epsilon^{-1}))$ to attain an $\epsilon$-accurate stationary point, and two time-scale NAC requires the overall sample complexity at the order of $\mathcal{O}(\epsilon^{-4}\log^2(\epsilon^{-1}))$ to attain an $\epsilon$-accurate global optimal point. We develop novel techniques for bounding the bias error of the actor due to dynamically changing Markovian sampling and for analyzing the convergence rate of the linear critic with dynamically changing base functions and transition kernel.
翻訳日:2022-12-05 22:38:53 公開日:2020-05-08
# 解釈可能なモデルからの可視化と知識発見

Visualisation and knowledge discovery from interpretable models ( http://arxiv.org/abs/2005.03632v2 )

ライセンス: Link先を確認
Sreejita Ghosh, Peter Tino, Kerstin Bunte(参考訳) 人間の生活に影響を与えるセクターの増加は、機械学習(ML)ツールを使用している。 そのため、作業メカニズムを理解し、意思決定における公平さを評価する必要性が最重要となり、説明可能なAI(XAI)の時代が到来する。 このコントリビューションでは、データセットと問題に関する知識の抽出に加えて、欠落した値を扱うことができるいくつかの本質的な解釈可能なモデルを導入しました。 これらのモデルは分類器と決定境界の可視化も可能であり、学習ベクトル量子化の角度に基づく変種である。 我々は、合成データセットと実世界のデータセット(uciリポジトリからの心疾患データセット)でアルゴリズムを実証した。 新たに開発された分類器は、多クラス問題としてのUCIデータセットの複雑さの調査に役立った。 開発した分類器の性能は、このデータセットの文献で報告されているものと同等であり、データ集合がバイナリクラス問題として扱われたとき、解釈可能性の付加価値があった。

Increasing number of sectors which affect human lives, are using Machine Learning (ML) tools. Hence the need for understanding their working mechanism and evaluating their fairness in decision-making, are becoming paramount, ushering in the era of Explainable AI (XAI). In this contribution we introduced a few intrinsically interpretable models which are also capable of dealing with missing values, in addition to extracting knowledge from the dataset and about the problem. These models are also capable of visualisation of the classifier and decision boundaries: they are the angle based variants of Learning Vector Quantization. We have demonstrated the algorithms on a synthetic dataset and a real-world one (heart disease dataset from the UCI repository). The newly developed classifiers helped in investigating the complexities of the UCI dataset as a multiclass problem. The performance of the developed classifiers were comparable to those reported in literature for this dataset, with additional value of interpretability, when the dataset was treated as a binary class problem.
翻訳日:2022-12-05 22:23:07 公開日:2020-05-08
# メタラーニングによる医用画像分割法のスコア予測

Predicting Scores of Medical Imaging Segmentation Methods with Meta-Learning ( http://arxiv.org/abs/2005.08869v1 )

ライセンス: Link先を確認
Tom van Sonsbeek and Veronika Cheplygina(参考訳) 深層学習は、様々な解剖学的構造のセグメンテーションなど、多くの医療画像タスクに最先端の結果をもたらした。 ディープラーニングの出版物が増え、オープンに利用可能なコードが増えると、新しいタスクのモデルを選択するアプローチはより複雑になり、時間と(計算的な)リソースは限られる。 モデルを効率的に選択するための可能な解決策は、新しいタスクのパフォーマンスを予測するためにモデルの事前パフォーマンスを使用する学習方法であるメタラーニングである。 異なる臓器と形態の10のデータセットにまたがるセグメンテーションのメタラーニングについて検討した。 本稿では,画像の統計的特徴に基づくメタ機能と,深層学習に基づく3つの特徴に基づくデータセットの表現方法を提案する。 我々は,メタ機能と先行モデルの性能の関係を学習するために,ベクトル回帰とディープニューラルネットワークをサポートする。 3つの外部テストデータセットにおいて、これらの方法は実際のパフォーマンスの0.10以内にdiceスコアを与える。 これらの結果は,医療画像におけるメタラーニングの可能性を示している。

Deep learning has led to state-of-the-art results for many medical imaging tasks, such as segmentation of different anatomical structures. With the increased numbers of deep learning publications and openly available code, the approach to choosing a model for a new task becomes more complicated, while time and (computational) resources are limited. A possible solution to choosing a model efficiently is meta-learning, a learning method in which prior performance of a model is used to predict the performance for new tasks. We investigate meta-learning for segmentation across ten datasets of different organs and modalities. We propose four ways to represent each dataset by meta-features: one based on statistical features of the images and three are based on deep learning features. We use support vector regression and deep neural networks to learn the relationship between the meta-features and prior model performance. On three external test datasets these methods give Dice scores within 0.10 of the true performance. These results demonstrate the potential of meta-learning in medical imaging.
翻訳日:2022-12-05 13:20:19 公開日:2020-05-08
# 肝細胞癌における非侵襲的遺伝子変異予測のための多相クロスモーダル学習

Multi-Phase Cross-modal Learning for Noninvasive Gene Mutation Prediction in Hepatocellular Carcinoma ( http://arxiv.org/abs/2005.04069v1 )

ライセンス: Link先を確認
Jiapan Gu, Ziyuan Zhao, Zeng Zeng, Yuzhe Wang, Zhengyiren Qiu, Bharadwaj Veeravalli, Brian Kim Poh Goh, Glenn Kunnath Bonney, Krishnakumar Madhavan, Chan Wan Ying, Lim Kheng Choon, Thng Choon Hua, Pierce KH Chow(参考訳) 肝細胞癌(Hepatocellular carcinoma, HCC)は原発性肝がんの1型であり, 世界で4番目に多い死因である。 HCCの根底にある遺伝子変異を理解することは、治療計画と標的治療の予後に大きな価値をもたらす。 放射線ゲノミクスは非侵襲的な画像特徴と分子ゲノミクスの関連を明らかにしている。 しかし,画像特徴同定は煩雑で誤りやすい。 本稿では,多相CTスキャンを用いたAPOB,COL11A1,ATRX遺伝子の突然変異予測のためのエンドツーエンドディープラーニングフレームワークを提案する。 HCCにおける腫瘍内不均一性(ITH)を考慮して,実験用データセットを生成するために多領域サンプリング技術を実装した。 実験の結果,提案モデルの有効性が示された。

Hepatocellular carcinoma (HCC) is the most common type of primary liver cancer and the fourth most common cause of cancer-related death worldwide. Understanding the underlying gene mutations in HCC provides great prognostic value for treatment planning and targeted therapy. Radiogenomics has revealed an association between non-invasive imaging features and molecular genomics. However, imaging feature identification is laborious and error-prone. In this paper, we propose an end-to-end deep learning framework for mutation prediction in APOB, COL11A1 and ATRX genes using multiphasic CT scans. Considering intra-tumour heterogeneity (ITH) in HCC, multi-region sampling technology is implemented to generate the dataset for experiments. Experimental results demonstrate the effectiveness of the proposed model.
翻訳日:2022-12-05 13:20:04 公開日:2020-05-08
# 並列化NMPCにおけるデータ駆動コスト関数同定の利用について

On the use of Data-Driven Cost Function Identification in Parametrized NMPC ( http://arxiv.org/abs/2005.04076v1 )

ライセンス: Link先を確認
Mazen Alamir(参考訳) 本稿では, コスト関数のデータ駆動モデルを用いた制約付き非線形予測制御(NMPC)の設計の実現可能性について, 完全な数値解析による枠組みを提案する。 本論文では,pythonモジュールを使用した完全な実装を提案し,GitHubリポジトリで無償公開されている。 また,データ駆動モデリングによる制御の導出方法については,実践者にとって興味深い議論がなされている。

In this paper, a framework with complete numerical investigation is proposed regarding the feasibility of constrained Nonlinear Model Predictive Control (NMPC) design using Data-Driven model of the cost function. Although the idea is very much in the air, this paper proposes a complete implementation using python modules that are made freely available on a GitHub repository. Moreover, a discussion regarding the different ways of deriving control via data-driven modeling is proposed that can be of interest to practitioners.
翻訳日:2022-12-05 13:19:50 公開日:2020-05-08
# インタラクティブなビジュアルデザイン最適化のための逐次ギャラリー

Sequential Gallery for Interactive Visual Design Optimization ( http://arxiv.org/abs/2005.04107v1 )

ライセンス: Link先を確認
Yuki Koyama, Issei Sato, Masataka Goto(参考訳) ビジュアルデザインタスクは、しばしば多くのデザインパラメータをチューニングする。 例えば、写真のカラーグレーディングには多くのパラメーターが含まれており、そのうちのいくつかは専門家でないユーザーが慣れていないかもしれない。 より簡単な2次元探索サブタスクを用いて,そのような高次元設計空間を探索することにより,適切なパラメータを効率的に見つけることができる。 この方法はシーケンシャルプレーンサーチと呼ばれ、ベイズ最適化に基づいてユーザに必要なクエリを可能な限り少なく抑える。 ユーザが平面検索クエリに応答するのを助けるために,アダプティブグリッドビューに配置された2次元サブスペースのオプションを提供するギャラリーベースのインターフェースも提案する。 ユーザがインターフェースが提供するオプションから最適なオプションを順次選択するため、私たちはこのインタラクティブフレームワークシーケンシャルギャラリーと呼んでいます。 合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見つけることができた。 また,写真エンハンスメントシナリオにおいて,初心者がシーケンシャルギャラリーを用いた検索タスクを効果的に完了できることを示す予備的なユーザ調査を行った。

Visual design tasks often involve tuning many design parameters. For example, color grading of a photograph involves many parameters, some of which non-expert users might be unfamiliar with. We propose a novel user-in-the-loop optimization method that allows users to efficiently find an appropriate parameter set by exploring such a high-dimensional design space through much easier two-dimensional search subtasks. This method, called sequential plane search, is based on Bayesian optimization to keep necessary queries to users as few as possible. To help users respond to plane-search queries, we also propose using a gallery-based interface that provides options in the two-dimensional subspace arranged in an adaptive grid view. We call this interactive framework Sequential Gallery since users sequentially select the best option from the options provided by the interface. Our experiment with synthetic functions shows that our sequential plane search can find satisfactory solutions in fewer iterations than baselines. We also conducted a preliminary user study, results of which suggest that novices can effectively complete search tasks with Sequential Gallery in a photo-enhancement scenario.
翻訳日:2022-12-05 13:19:44 公開日:2020-05-08
# 信号時間論理制約によるデータ駆動検証

Data-Driven Verification under Signal Temporal Logic Constraints ( http://arxiv.org/abs/2005.05040v1 )

ライセンス: Link先を確認
Ali Salamati, Sadegh Soudjani, and Majid Zamani(参考訳) 力学が部分的に不明な不確実性のあるシステムを考える。 本研究の目的は,そのようなシステムの軌道による時間論理特性の満足度を検討することである。 これらの特性を信号時相論理式として表現し、その特性を満たす確率が少なくとも与えられた閾値であるかどうかをチェックする。 ダイナミクスはパラメータ化され、部分的に未知であるため、システムからデータを収集し、信頼度値とプロパティの満足度を関連付けるためにベイズ推論技術を用いる。 提案手法の主な特徴は,システム動作に対する2層確率論的推論を行うために,データ駆動手法とモデルベース手法を併用することである。 線形力学系の信頼度を計算する近似アルゴリズムを提案する。

We consider systems under uncertainty whose dynamics are partially unknown. Our aim is to study satisfaction of temporal logic properties by trajectories of such systems. We express these properties as signal temporal logic formulas and check if the probability of satisfying the property is at least a given threshold. Since the dynamics are parameterized and partially unknown, we collect data from the system and employ Bayesian inference techniques to associate a confidence value to the satisfaction of the property. The main novelty of our approach is to combine both data-driven and model-based techniques in order to have a two-layer probabilistic reasoning over the behavior of the system: one layer is related to the stochastic noise inside the system and the next layer is related to the noisy data collected from the system. We provide approximate algorithms for computing the confidence for linear dynamical systems.
翻訳日:2022-12-05 13:19:26 公開日:2020-05-08
# NTIRE 2020によるリアルイメージのデノイングの課題:データセット,メソッド,結果

NTIRE 2020 Challenge on Real Image Denoising: Dataset, Methods and Results ( http://arxiv.org/abs/2005.04117v1 )

ライセンス: Link先を確認
Abdelrahman Abdelhamed, Mahmoud Afifi, Radu Timofte, Michael S. Brown, Yue Cao, Zhilu Zhang, Wangmeng Zuo, Xiaoling Zhang, Jiye Liu, Wendong Chen, Changyuan Wen, Meng Liu, Shuailin Lv, Yunchao Zhang, Zhihong Pan, Baopu Li, Teng Xi, Yanwen Fan, Xiyu Yu, Gang Zhang, Jingtuo Liu, Junyu Han, Errui Ding, Songhyun Yu, Bumjun Park, Jechang Jeong, Shuai Liu, Ziyao Zong, Nan Nan, Chenghua Li, Zengli Yang, Long Bao, Shuangquan Wang, Dongwoon Bai, Jungwon Lee, Youngjung Kim, Kyeongha Rho, Changyeop Shin, Sungho Kim, Pengliang Tang, Yiyun Zhao, Yuqian Zhou, Yuchen Fan, Thomas Huang, Zhihao Li, Nisarg A. Shah, Wei Liu, Qiong Yan, Yuzhi Zhao, Marcin Mo\.zejko, Tomasz Latkowski, Lukasz Treszczotko, Micha{\l} Szafraniuk, Krzysztof Trojanowski, Yanhong Wu, Pablo Navarrete Michelini, Fengshuo Hu, Yunhua Lu, Sujin Kim, Wonjin Kim, Jaayeon Lee, Jang-Hwan Choi, Magauiya Zhussip, Azamat Khassenov, Jong Hyun Kim, Hwechul Cho, Priya Kansal, Sabari Nathan, Zhangyu Ye, Xiwen Lu, Yaqi Wu, Jiangxin Yang, Yanlong Cao, Siliang Tang, Yanpeng Cao, Matteo Maggioni, Ioannis Marras, Thomas Tanay, Gregory Slabaugh, Youliang Yan, Myungjoo Kang, Han-Soo Choi, Kyungmin Song, Shusong Xu, Xiaomu Lu, Tingniao Wang, Chunxia Lei, Bin Liu, Rajat Gupta, Vineet Kumar(参考訳) 本稿では,新たに導入されたデータセット,提案手法,およびそれらの結果に着目したntire 2020チャレンジについて述べる。 課題は、SIDDベンチマークに基づく実際の画像のデノイングに関する以前のNTIRE 2019チャレンジの新バージョンである。 この課題は、新たに収集された検証と画像データセットのテストに基づいており、SIDD+と名付けられた。 この課題は,(1)ベイアパターンの生RGBと(2)標準RGB(sRGB)色空間における画像復調性能を定量的に評価するための2つのトラックを有する。 各トラックは250人の登録参加者を擁する。 合計22チームが24の方法を提案し、最終段階に出場した。 参加チームによる提案手法は,実雑音をターゲットとした画像復調における最先端の性能を示す。 新たに収集されたSIDD+データセットは、https://bit.ly/siddplus_dataで公開されている。

This paper reviews the NTIRE 2020 challenge on real image denoising with focus on the newly introduced dataset, the proposed methods and their results. The challenge is a new version of the previous NTIRE 2019 challenge on real image denoising that was based on the SIDD benchmark. This challenge is based on a newly collected validation and testing image datasets, and hence, named SIDD+. This challenge has two tracks for quantitatively evaluating image denoising performance in (1) the Bayer-pattern rawRGB and (2) the standard RGB (sRGB) color spaces. Each track ~250 registered participants. A total of 22 teams, proposing 24 methods, competed in the final phase of the challenge. The proposed methods by the participating teams represent the current state-of-the-art performance in image denoising targeting real noisy images. The newly collected SIDD+ datasets are publicly available at: https://bit.ly/siddplus_data.
翻訳日:2022-12-05 13:11:00 公開日:2020-05-08
# プログレッシブ・adversarial semantic segmentation

Progressive Adversarial Semantic Segmentation ( http://arxiv.org/abs/2005.04311v1 )

ライセンス: Link先を確認
Abdullah-Al-Zubaer Imran and Demetri Terzopoulos(参考訳) 畳み込みニューラルネットワークのような深層学習技術が出現し、医療画像コンピューティングは急速に進歩した。 深い畳み込みニューラルネットワークは、完全な監視によって非常によく実行される。 しかし、様々な画像解析タスク(例えば、医学画像からの解剖学や病変のセグメンテーション)のための完全な教師付きモデルの成功は、大量のラベル付きデータの入手に限られている。 サンプルサイズが小さいと、そのようなモデルは大きなドメインシフトに偏っている。 そこで本研究では,訓練中にドメイン固有のデータを必要とせずに,セグメント化予測を改良できる新しい医用画像セグメンテーションモデルであるprogressive adversarial semantic segmentation (pass)を提案する。 8つのパブリック糖尿病網膜症と胸部X線データセットを用いた広範囲な実験により,PASSの血管および肺の正確な分画に対する効果が確認された。

Medical image computing has advanced rapidly with the advent of deep learning techniques such as convolutional neural networks. Deep convolutional neural networks can perform exceedingly well given full supervision. However, the success of such fully-supervised models for various image analysis tasks (e.g., anatomy or lesion segmentation from medical images) is limited to the availability of massive amounts of labeled data. Given small sample sizes, such models are prohibitively data biased with large domain shift. To tackle this problem, we propose a novel end-to-end medical image segmentation model, namely Progressive Adversarial Semantic Segmentation (PASS), which can make improved segmentation predictions without requiring any domain-specific data during training time. Our extensive experimentation with 8 public diabetic retinopathy and chest X-ray datasets, confirms the effectiveness of PASS for accurate vascular and pulmonary segmentation, both for in-domain and cross-domain evaluations.
翻訳日:2022-12-05 13:10:29 公開日:2020-05-08
# スパース化パリティチェックマトリックス

Sparsifying Parity-Check Matrices ( http://arxiv.org/abs/2005.05051v1 )

ライセンス: Link先を確認
Lu\'is M. S. Russo, Tobias Dietz, Jos\'e Rui Figueira, Alexandre P. Francisco, Stefan Ruzika(参考訳) パリティチェック行列(PCM)は、線形誤り訂正符号を定義し、ノイズのあるチャネル上で信頼できる情報伝達を保証するために用いられる。 そのようなコードのコードワードの集合は、このバイナリ行列のヌル空間である。 パリティチェック行列における1項目数を最小化する問題を考える。 最大型(ML)復号法では、PCMの復号に要する時間と直接関連している。 我々は,PCMを変更する単純な行列行操作ヒューリスティックを提案するが,コード自体は変更しない。 メインストリームのハードウェアを使用する場合,数分間あるいは数時間で,少ないエントリ数でpcmを取得するために,シミュレートアニーリングと欲望のあるローカルサーチを適用した。 結果の行列は、特に大きなコードに対して、より高速なML復号処理を提供する。

Parity check matrices (PCMs) are used to define linear error correcting codes and ensure reliable information transmission over noisy channels. The set of codewords of such a code is the null space of this binary matrix. We consider the problem of minimizing the number of one-entries in parity-check matrices. In the maximum-likelihood (ML) decoding method, the number of ones in PCMs is directly related to the time required to decode messages. We propose a simple matrix row manipulation heuristic which alters the PCM, but not the code itself. We apply simulated annealing and greedy local searches to obtain PCMs with a small number of one entries quickly, i.e. in a couple of minutes or hours when using mainstream hardware. The resulting matrices provide faster ML decoding procedures, especially for large codes.
翻訳日:2022-12-05 13:10:00 公開日:2020-05-08
# 正規化自己認識によるランク付け学習のための文書間相互作用のモデル化

Modeling Document Interactions for Learning to Rank with Regularized Self-Attention ( http://arxiv.org/abs/2005.03932v1 )

ライセンス: Link先を確認
Shuo Sun, Kevin Duh(参考訳) ランク付け学習は多くの実世界の情報検索システムにうまく展開されている重要な課題である。 既存のほとんどの手法は、競合する文書の集合全体を考えることなく、文書の関連判断を個別に計算する。 本稿では,自己着眼型ニューラルネットワークとの相互作用をモデル化する。 自己意識ネットワークは多くのNLPタスクで最先端の結果を得たが、アーキテクチャをランク付けするベースラインニューラルラーニングよりも、自己意識がほとんど利益がないことを実証的に見出した。 自己注意重みの学習を改善するために,文書間の相互作用をモデル化するためのシンプルかつ効果的な正規化用語を提案する。 公開されているLearning to Rank(LETOR)データセットの評価は、提案した正規化条件による自己認識ネットワークのトレーニングが、既存の学習方法よりも格付けに優れていることを示している。

Learning to rank is an important task that has been successfully deployed in many real-world information retrieval systems. Most existing methods compute relevance judgments of documents independently, without holistically considering the entire set of competing documents. In this paper, we explore modeling documents interactions with self-attention based neural networks. Although self-attention networks have achieved state-of-the-art results in many NLP tasks, we find empirically that self-attention provides little benefit over baseline neural learning to rank architecture. To improve the learning of self-attention weights, We propose simple yet effective regularization terms designed to model interactions between documents. Evaluations on publicly available Learning to Rank (LETOR) datasets show that training self-attention network with our proposed regularization terms can significantly outperform existing learning to rank methods.
翻訳日:2022-12-05 13:09:16 公開日:2020-05-08
# 畳み込みニューラルネットワークを用いたGST/NIRISのストークスプロファイルからのベクトル磁界の推定

Inferring Vector Magnetic Fields from Stokes Profiles of GST/NIRIS Using a Convolutional Neural Network ( http://arxiv.org/abs/2005.03945v1 )

ライセンス: Link先を確認
Hao Liu, Yan Xu, Jiasheng Wang, Ju Jing, Chang Liu, Jason T. L. Wang, Haimin Wang(参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)とミルン・エディントン(ME)法に基づくストークス逆変換の新しい機械学習手法を提案する。 この研究で使用されたストークスの測定は、ビッグベア天文台の1.6mグッド太陽望遠鏡(gst)の近赤外分光偏光計(niris)によって行われた。 物理ベースのmeツールで作成したトレーニングデータの潜在パターンを学習することにより,提案手法はgst/nirisのストークスプロファイルからベクトル磁場を推定することができる。 実験の結果, cnn法は広く用いられているme法よりもスムースでクリーンな磁気マップを生成することがわかった。 さらに、cnn法はme法よりも4~6倍高速であり、宇宙天気予報に不可欠な、ほぼリアルタイムでベクトル磁場を生成することができる。 具体的には、cnn法がgst/nirisのストークスプロファイルからなる720 x 720ピクセルの画像を処理するのに50秒かかる。 最後に、cnnによる推定結果は、me計算結果と高い相関関係にあり、pearson product-moment correlation coefficient (ppmcc) は、マルチサポートベクトル回帰や多層パーセプトロン(mlp)のような他の機械学習アルゴリズムの平均値よりも1に近いため、meの結果に近い。 特に,CNN法はPPMCCにおいて,現在最高の機械学習手法であるMLP(MLP)を平均2.6%上回っている。 したがって、物理支援深層学習に基づくCNNツールは、GST/NIRISによって得られた高分解能偏光観測のためのストークス変換の代替的で効率的な方法であると考えられる。

We propose a new machine learning approach to Stokes inversion based on a convolutional neural network (CNN) and the Milne-Eddington (ME) method. The Stokes measurements used in this study were taken by the Near InfraRed Imaging Spectropolarimeter (NIRIS) on the 1.6 m Goode Solar Telescope (GST) at the Big Bear Solar Observatory. By learning the latent patterns in the training data prepared by the physics-based ME tool, the proposed CNN method is able to infer vector magnetic fields from the Stokes profiles of GST/NIRIS. Experimental results show that our CNN method produces smoother and cleaner magnetic maps than the widely used ME method. Furthermore, the CNN method is 4~6 times faster than the ME method, and is able to produce vector magnetic fields in near real-time, which is essential to space weather forecasting. Specifically, it takes ~50 seconds for the CNN method to process an image of 720 x 720 pixels comprising Stokes profiles of GST/NIRIS. Finally, the CNN-inferred results are highly correlated to the ME-calculated results and are closer to the ME's results with the Pearson product-moment correlation coefficient (PPMCC) being closer to 1 on average than those from other machine learning algorithms such as multiple support vector regression and multilayer perceptrons (MLP). In particular, the CNN method outperforms the current best machine learning method (MLP) by 2.6% on average in PPMCC according to our experimental study. Thus, the proposed physics-assisted deep learning-based CNN tool can be considered as an alternative, efficient method for Stokes inversion for high resolution polarimetric observations obtained by GST/NIRIS.
翻訳日:2022-12-05 13:09:01 公開日:2020-05-08
# 量子深層学習の進歩:概要

Advances in Quantum Deep Learning: An Overview ( http://arxiv.org/abs/2005.04316v1 )

ライセンス: Link先を確認
Siddhant Garg and Goutham Ramakrishnan(参考訳) 過去数十年、ディープラーニングと量子コンピューティングの分野で大きなブレークスルーがみられた。 この2つの分野の接合における研究は、近年の量子深層学習と量子に触発された深層学習技術の発展に繋がる関心の高まりを招いている。 本稿では,この領域における様々な研究の技術的貢献,強み,類似性について議論し,量子コンピューティングとディープラーニングの交わりの進展について概説する。 この目的のために,量子ニューラルネットワーク (qnns) や量子畳み込みネットワーク (qcnns) など,他のバリエーションをモデル化するために提案された異なるスキームをレビュー・要約する。 また、量子インスパイアされた古典的ディープラーニングアルゴリズムの最近の進歩とその自然言語処理への応用について簡単に述べる。

The last few decades have seen significant breakthroughs in the fields of deep learning and quantum computing. Research at the junction of the two fields has garnered an increasing amount of interest, which has led to the development of quantum deep learning and quantum-inspired deep learning techniques in recent times. In this work, we present an overview of advances in the intersection of quantum computing and deep learning by discussing the technical contributions, strengths and similarities of various research works in this domain. To this end, we review and summarise the different schemes proposed to model quantum neural networks (QNNs) and other variants like quantum convolutional networks (QCNNs). We also briefly describe the recent progress in quantum inspired classic deep learning algorithms and their applications to natural language processing.
翻訳日:2022-12-05 13:08:34 公開日:2020-05-08
# 自律走行のための階層的行動と運動計画の学習

Learning hierarchical behavior and motion planning for autonomous driving ( http://arxiv.org/abs/2005.03863v1 )

ライセンス: Link先を確認
Jingke Wang, Yue Wang, Dongkun Zhang, Yezhou Yang, Rong Xiong(参考訳) 自動運転のための新しいブランチである学習ベースの運転ソリューションは、データから基盤となるメカニズムを学習することで、運転のモデリングを簡素化することが期待されている。 学習型運転ソリューションの戦術的意思決定を改善するため,階層的行動計画(HBMP)を導入し,学習型運転ソリューションの動作を明示的にモデル化する。 動作と動作の複合的な行動空間のため、長距離運転タスクにおいて強化学習(RL)を用いてHBMP問題を解くことは困難である。 我々は,古典的なサンプリングベースモーションプランナを統合することで,HBMP問題を変換し,その最適コストをハイレベルな行動学習の報酬とみなす。 その結果、この定式化は作用空間を減少させ、HBMPの最適性を失うことなく報酬を多様化する。 さらに,シミュレーションプラットフォームと実世界の環境にまたがる入力センサデータの共有表現を提案する。これにより,高速イベントベースシミュレータSUMOでトレーニングされたモデルを用いて,ダイナミックスベースシミュレータCARLAにおけるRLトレーニングを初期化および高速化することができる。 実験の結果,本手法の有効性が示された。 さらに、モデルは実世界へうまく転送され、一般化能力を検証する。

Learning-based driving solution, a new branch for autonomous driving, is expected to simplify the modeling of driving by learning the underlying mechanisms from data. To improve the tactical decision-making for learning-based driving solution, we introduce hierarchical behavior and motion planning (HBMP) to explicitly model the behavior in learning-based solution. Due to the coupled action space of behavior and motion, it is challenging to solve HBMP problem using reinforcement learning (RL) for long-horizon driving tasks. We transform HBMP problem by integrating a classical sampling-based motion planner, of which the optimal cost is regarded as the rewards for high-level behavior learning. As a result, this formulation reduces action space and diversifies the rewards without losing the optimality of HBMP. In addition, we propose a sharable representation for input sensory data across simulation platforms and real-world environment, so that models trained in a fast event-based simulator, SUMO, can be used to initialize and accelerate the RL training in a dynamics based simulator, CARLA. Experimental results demonstrate the effectiveness of the method. Besides, the model is successfully transferred to the real-world, validating the generalization capability.
翻訳日:2022-12-05 13:02:32 公開日:2020-05-08
# 障害物回避によるBCI制御ハンズフリー車椅子ナビゲーション

BCI-Controlled Hands-Free Wheelchair Navigation with Obstacle Avoidance ( http://arxiv.org/abs/2005.04209v1 )

ライセンス: Link先を確認
Ramy Mounir, Redwan Alqasemi, Rajiv Dubey(参考訳) 脳-コンピュータインタフェース(BCI)は脳信号を読み、それらを現実世界の動作に変換するのに広く使われている。 しかし、bciから生成された信号はノイズが多く分析が困難である。 本稿では,bciの最新技術と超音波センサを組み合わせることで,混雑した環境を効率的に移動可能なハンズフリー車椅子を実現することを目的としている。 この組み合わせは、BCIナビゲーションシステムがより信頼性を高め、比較的高い速度で車椅子を操作するのに必要な安全性と障害物回避機能を提供する。 6人の被験者がBCI制御器と障害物回避機能を試した。 被験者は、目標をスタート位置から予め定義された位置に移動させ、平均287.12秒、標準偏差は10分後48.63秒で、車椅子の目的地を精神的に制御することができた。 車椅子はテスト中に被験者が配置した障害物をすべて回避した。

Brain-Computer interfaces (BCI) are widely used in reading brain signals and converting them into real-world motion. However, the signals produced from the BCI are noisy and hard to analyze. This paper looks specifically towards combining the BCI's latest technology with ultrasonic sensors to provide a hands-free wheelchair that can efficiently navigate through crowded environments. This combination provides safety and obstacle avoidance features necessary for the BCI Navigation system to gain more confidence and operate the wheelchair at a relatively higher velocity. A population of six human subjects tested the BCI-controller and obstacle avoidance features. Subjects were able to mentally control the destination of the wheelchair, by moving the target from the starting position to a predefined position, in an average of 287.12 seconds and a standard deviation of 48.63 seconds after 10 minutes of training. The wheelchair successfully avoided all obstacles placed by the subjects during the test.
翻訳日:2022-12-05 13:01:51 公開日:2020-05-08
# ポストヒューマンインタラクションデザインは、そう、しかし慎重に

Post-human interaction design, yes, but cautiously ( http://arxiv.org/abs/2005.05019v1 )

ライセンス: Link先を確認
Jelle van Dijk(参考訳) ポストヒューマンデザインは、AI技術が実際にカルト的ヒューマニズム論理をインポートしているという事実を無視するリスクを負う。 これは、人間の特性がスマートオブジェクトに不必要な比喩的帰属をもたらす。 むしろ、具体化されたセンスメイキングの視点から考えると、デザイナーは、収集性、リレーショナル性、コミュニティ構築といった重要なポストヒューマン価値を真に支持するために、AI技術の構造を根本的に変えるようエンジニアに要求する必要がある。

Post-human design runs the risk of obscuring the fact that AI technology actually imports a Cartesian humanist logic, which subsequently influences how we design and conceive of so-called smart or intelligent objects. This leads to unwanted metaphorical attributions of human qualities to smart objects. Instead, starting from an embodied sensemaking perspective, designers should demand of engineers to radically transform the very structure of AI technology, in order to truly support critical posthuman values of collectivity, relationality and community building.
翻訳日:2022-12-05 13:01:37 公開日:2020-05-08
# 高次元予測のためのフレキシブルコデータ学習

Flexible co-data learning for high-dimensional prediction ( http://arxiv.org/abs/2005.04010v1 )

ライセンス: Link先を確認
Mirrelijn M. van Nee, Lodewyk F.A. Wessels and Mark A. van de Wiel(参考訳) 臨床研究は、多くの変数が疾患の進行、または治癒のメカニズムに関与する複雑な特徴にしばしば焦点をあてる。 データが高次元である場合、臨床予測は難しいが、ドメイン知識や以前に公開された研究のような追加情報は、予測を改善するのに役立つかもしれない。 このような補足データ(co-data)は、外部研究からのゲノム位置やp値などの共変量に関する情報を提供する。 提案手法は,複数のデータソースを活用して予測を改善する。 離散的あるいは連続的なコデータを用いて、共変量の重複または階層的構成群を定義する。 これらは、一般化線形およびcoxモデルに対する適応的多群リッジペナルティの推定に使用される。 我々はグループペナルティハイパーパラメータの経験的ベイズ推定と余分な縮小レベルを組み合わせる。 これは、任意の種類の縮小がグループレベルで使用できるため、ユニークなフレキシブルなフレームワークをレンダリングする。 ハイパーパラメータの縮小は、特定のコデータソースがどの程度関連しているかを学習し、多くのグループでハイパーパラメータの過剰フィッティングをカウンターし、構造化コデータを説明する。 各種のコデータについて記述し, 最適な過収縮形式を提案する。 この方法は、複数のコデータ集合の統合と重み付け、無加法共変量の包含、後続変数の選択を可能にするため、非常に多様である。 2つのがんゲノミクスへの応用を実証し,他の高密度・同時進行型予後モデルの性能を実質的に向上させ,スタビリス変数の選択を改善できることを示した。

Clinical research often focuses on complex traits in which many variables play a role in mechanisms driving, or curing, diseases. Clinical prediction is hard when data is high-dimensional, but additional information, like domain knowledge and previously published studies, may be helpful to improve predictions. Such complementary data, or co-data, provide information on the covariates, such as genomic location or p-values from external studies. Our method enables exploiting multiple and various co-data sources to improve predictions. We use discrete or continuous co-data to define possibly overlapping or hierarchically structured groups of covariates. These are then used to estimate adaptive multi-group ridge penalties for generalised linear and Cox models. We combine empirical Bayes estimation of group penalty hyperparameters with an extra level of shrinkage. This renders a uniquely flexible framework as any type of shrinkage can be used on the group level. The hyperparameter shrinkage learns how relevant a specific co-data source is, counters overfitting of hyperparameters for many groups, and accounts for structured co-data. We describe various types of co-data and propose suitable forms of hypershrinkage. The method is very versatile, as it allows for integration and weighting of multiple co-data sets, inclusion of unpenalised covariates and posterior variable selection. We demonstrate it on two cancer genomics applications and show that it may improve the performance of other dense and parsimonious prognostic models substantially, and stabilises variable selection.
翻訳日:2022-12-05 13:01:26 公開日:2020-05-08
# テキスト平滑化による事前学習言語モデルからの知識の抽出

Distilling Knowledge from Pre-trained Language Models via Text Smoothing ( http://arxiv.org/abs/2005.03848v1 )

ライセンス: Link先を確認
Xing Wu, Yibing Liu, Xiangyang Zhou and Dianhai Yu(参考訳) 本稿では,教師による知識蒸留を通じて,BERT(Devlin et al.,2019)のような事前学習言語モデルを圧縮する。 以前の研究は通常、教師のBERTが予測したスムーズなラベルを厳密に模倣するよう学生モデルに強制する。 代替手段として,知識蒸留における学生モデルを教えるために,教師にラベルではなくスムーズな単語IDを生成するように依頼する新たなBERT蒸留法を提案する。 この種のメソッドTextSmoothingを呼び出します。 実際、bertのマスク言語モデル(mlm)のsoftmax予測を使用して、与えられたテキストに対する単語分布を生成し、その予測されたソフトワードidを使用して入力テキストを滑らかにする。 本研究では、スムーズなラベルとスムーズなテキストの両方が暗黙的に入力コーパスを増大させることができると仮定し、スムーズなテキストは1つのニューラルネットワークの前進ステップでより多くのインスタンスを生成することができるため、直感的により効率的である。

This paper studies compressing pre-trained language models, like BERT (Devlin et al.,2019), via teacher-student knowledge distillation. Previous works usually force the student model to strictly mimic the smoothed labels predicted by the teacher BERT. As an alternative, we propose a new method for BERT distillation, i.e., asking the teacher to generate smoothed word ids, rather than labels, for teaching the student model in knowledge distillation. We call this kind of methodTextSmoothing. Practically, we use the softmax prediction of the Masked Language Model(MLM) in BERT to generate word distributions for given texts and smooth those input texts using that predicted soft word ids. We assume that both the smoothed labels and the smoothed texts can implicitly augment the input corpus, while text smoothing is intuitively more efficient since it can generate more instances in one neural network forward step.Experimental results on GLUE and SQuAD demonstrate that our solution can achieve competitive results compared with existing BERT distillation methods.
翻訳日:2022-12-05 13:01:01 公開日:2020-05-08
# ソーシャルメディア上での東アジアの偏見の検出

Detecting East Asian Prejudice on Social Media ( http://arxiv.org/abs/2005.03909v1 )

ライセンス: Link先を確認
Bertie Vidgen, Austin Botelho, David Broniatowski, Ella Guest, Matthew Hall, Helen Margetts, Rebekah Tromble, Zeerak Waseem, Scott Hale(参考訳) 新型コロナウイルス(covid-19)の流行は、政府がパンデミックの健康、経済、社会のコストに取り組み、世界中の社会を変えてきた。 また、ネット上でヘイトフルな言語や偏見の拡散、特に東アジアに対する敵意への懸念も持ち上がっている。 本稿では,Twitterのソーシャルメディア投稿を,東アジアに対する敵意,東アジア批判,東アジア偏見のメタ・ディカッション,中立の4つのクラスに分類し分類する分類器の作成について報告する。 分類器は4つのクラスすべてで0.83のF1スコアを達成する。 最終モデル(Pythonでコード化)に加えて,分類器の作成に使用される2万件のツイートトレーニングデータセット,東アジアの偏見に関連するハッシュタグとアノテーションコードブックに関する2つの分析も提供しています。 この分類は、他の研究者によって実施され、オンラインコンテンツモデレーションプロセスと、この世界的なパンデミックの間、オンラインの東アジア偏見のダイナミクス、流行、および影響に関するさらなる研究の両方を支援することができる。

The outbreak of COVID-19 has transformed societies across the world as governments tackle the health, economic and social costs of the pandemic. It has also raised concerns about the spread of hateful language and prejudice online, especially hostility directed against East Asia. In this paper we report on the creation of a classifier that detects and categorizes social media posts from Twitter into four classes: Hostility against East Asia, Criticism of East Asia, Meta-discussions of East Asian prejudice and a neutral class. The classifier achieves an F1 score of 0.83 across all four classes. We provide our final model (coded in Python), as well as a new 20,000 tweet training dataset used to make the classifier, two analyses of hashtags associated with East Asian prejudice and the annotation codebook. The classifier can be implemented by other researchers, assisting with both online content moderation processes and further research into the dynamics, prevalence and impact of East Asian prejudice online during this global pandemic.
翻訳日:2022-12-05 13:00:37 公開日:2020-05-08
# 微調整のないワンショット物体検出

One-Shot Object Detection without Fine-Tuning ( http://arxiv.org/abs/2005.03819v1 )

ライセンス: Link先を確認
Xiang Li, Lin Zhang, Yau Pun Chen, Yu-Wing Tai, Chi-Keung Tang(参考訳) ディープラーニングは大規模なデータセットのおかげでオブジェクト検出に革命をもたらしたが、オブジェクトのカテゴリは依然として非常に限られている。 本稿では,未確認クラスを学習するための注釈付きトレーニング例の数が1に限られている一発物体検出問題に対処して,そのようなカテゴリを充実させようとする。 本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleを組み合わせた2段階モデルを提案する。 また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。 大規模な定量的および定性的な評価を行い,本手法は複数のデータセット上で一貫した最先端のワンショット性能を上回った。

Deep learning has revolutionized object detection thanks to large-scale datasets, but their object categories are still arguably very limited. In this paper, we attempt to enrich such categories by addressing the one-shot object detection problem, where the number of annotated training examples for learning an unseen class is limited to one. We introduce a two-stage model consisting of a first stage Matching-FCOS network and a second stage Structure-Aware Relation Module, the combination of which integrates metric learning with an anchor-free Faster R-CNN-style detection pipeline, eventually eliminating the need to fine-tune on the support images. We also propose novel training strategies that effectively improve detection performance. Extensive quantitative and qualitative evaluations were performed and our method exceeds the state-of-the-art one-shot performance consistently on multiple datasets.
翻訳日:2022-12-05 12:59:50 公開日:2020-05-08
# 熱合成開口可視化のための高速自動視認性最適化

Fast Automatic Visibility Optimization for Thermal Synthetic Aperture Visualization ( http://arxiv.org/abs/2005.04065v1 )

ライセンス: Link先を確認
Indrajit Kurmi and David C. Schedl and Oliver Bimber(参考訳) 本稿では,熱合成開口可視化のための最初の完全自動パラメータ最適化について述べる。 これは、時間消費とエラーが発生しやすいパラメータ空間の以前の手動による探索を置き換える。 熱積分画像におけるターゲットの視認性は、ターゲットの画像のばらつきに比例することを示す。 これはオクルージョンに不変であるため、最適化に適した目的関数である。 われわれの発見は、カメラドローンによる完全自律検索と再使用操作を可能にする可能性がある。

In this article, we describe and validate the first fully automatic parameter optimization for thermal synthetic aperture visualization. It replaces previous manual exploration of the parameter space, which is time consuming and error prone. We prove that the visibility of targets in thermal integral images is proportional to the variance of the targets' image. Since this is invariant to occlusion it represents a suitable objective function for optimization. Our findings have the potential to enable fully autonomous search and recuse operations with camera drones.
翻訳日:2022-12-05 12:59:35 公開日:2020-05-08
# tsdm: depth-refiner と mask-generator による siamrpn++ によるトラッキング

TSDM: Tracking by SiamRPN++ with a Depth-refiner and a Mask-generator ( http://arxiv.org/abs/2005.04063v1 )

ライセンス: Link先を確認
Pengyao Zhao, Quanli Liu, Wei Wang and Qiang Guo(参考訳) 汎用的なオブジェクト追跡では、深度(d)情報は前景-背景分離と目標バウンディングボックス回帰のための情報的手がかりを提供する。 しかし,これまでに適切なモデルがないため,上記の重要な役割を果たすために奥行き情報を利用したトラッカーは少ない。 本稿では,Mask-generator (M-g), SiamRPN++, Depth-refiner (D-r) からなるRGB-DトラッカーTSDMを提案する。 m-gは背景マスクを生成し、ターゲットの3d位置が変わると更新する。 D-rは、ターゲットと周辺背景の空間深さ分布差に基づいて、SiamRPN++によって推定されるターゲット境界ボックスを最適化する。 princeton tracking benchmarkとvisual object tracking challengeの広範な評価から、我々のトラッカーは23fpsで最先端を上回っていることが分かりました。 加えて、軽量な変種は31FPSで動作可能であり、現実の応用には実用的である。 TSDMのコードとモデルはhttps://github.com/lql-team/TSDMで公開されている。

In a generic object tracking, depth (D) information provides informative cues for foreground-background separation and target bounding box regression. However, so far, few trackers have used depth information to play the important role aforementioned due to the lack of a suitable model. In this paper, a RGB-D tracker named TSDM is proposed, which is composed of a Mask-generator (M-g), SiamRPN++ and a Depth-refiner (D-r). The M-g generates the background masks, and updates them as the target 3D position changes. The D-r optimizes the target bounding box estimated by SiamRPN++, based on the spatial depth distribution difference between the target and the surrounding background. Extensive evaluation on the Princeton Tracking Benchmark and the Visual Object Tracking challenge shows that our tracker outperforms the state-of-the-art by a large margin while achieving 23 FPS. In addition, a light-weight variant can run at 31 FPS and thus it is practical for real world applications. Code and models of TSDM are available at https://github.com/lql-team/TSDM.
翻訳日:2022-12-05 12:53:26 公開日:2020-05-08
# 大域的全変分正規化局所非凸低ランク行列近似によるハイパースペクトル画像復元

Hyperspectral Image Restoration via Global Total Variation Regularized Local nonconvex Low-Rank matrix Approximation ( http://arxiv.org/abs/2005.04143v1 )

ライセンス: Link先を確認
Haijin Zeng, Xiaozhen Xie, Jifeng Ning(参考訳) ハイパスペクトル画像(HSI)における混合ノイズを取り除くために,複数の帯域幅全変動(TV)正規化低ランク(LR)モデルが提案されている。 従来、LR行列のランクは核ノルム(NN)を用いて近似される。 NNはすべての特異値を加えて定義され、これは本質的に特異値の$L_1$-normである。 その結果、非無視的な近似誤差が発生し、その結果の行列推定器は著しくバイアスを受けることができる。 さらに、これらのバンドワイズTVベースの手法は、空間情報を別々に活用する。 これらの問題に対処するために、HSIの混合ノイズを取り除くために、空間スペクトルテレビ(SSTV)正規化非凸局所LR行列近似(NonLLRTV)法を提案する。 一面から、hsis の局所 lr は非凸 $l_{\gamma}$-norm を用いて定式化され、これは従来の nn よりも行列のランクに近い近似を与える。 別の側面から、HSIは大域空間領域において断片的に滑らかであると仮定される。 テレビの正則化は、滑らかさの維持とガウス雑音の除去に有効である。 これらの事実は、nonllrとtv正規化の統合を刺激する。 帯域幅テレビの限界に対処するために,SSTV正則化を用いてグローバル空間構造と近隣帯域のスペクトル相関を同時に検討する。 実験結果から,局所的非凸ペナルティとグローバルSSTVを用いることで,空間的スムーズさと全体構造情報の保存が促進されることが示唆された。

Several bandwise total variation (TV) regularized low-rank (LR)-based models have been proposed to remove mixed noise in hyperspectral images (HSIs). Conventionally, the rank of LR matrix is approximated using nuclear norm (NN). The NN is defined by adding all singular values together, which is essentially a $L_1$-norm of the singular values. It results in non-negligible approximation errors and thus the resulting matrix estimator can be significantly biased. Moreover, these bandwise TV-based methods exploit the spatial information in a separate manner. To cope with these problems, we propose a spatial-spectral TV (SSTV) regularized non-convex local LR matrix approximation (NonLLRTV) method to remove mixed noise in HSIs. From one aspect, local LR of HSIs is formulated using a non-convex $L_{\gamma}$-norm, which provides a closer approximation to the matrix rank than the traditional NN. From another aspect, HSIs are assumed to be piecewisely smooth in the global spatial domain. The TV regularization is effective in preserving the smoothness and removing Gaussian noise. These facts inspire the integration of the NonLLR with TV regularization. To address the limitations of bandwise TV, we use the SSTV regularization to simultaneously consider global spatial structure and spectral correlation of neighboring bands. Experiment results indicate that the use of local non-convex penalty and global SSTV can boost the preserving of spatial piecewise smoothness and overall structural information.
翻訳日:2022-12-05 12:53:06 公開日:2020-05-08
# STINet:歩行者検出と軌道予測のための時空間対話型ネットワーク

STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and Trajectory Prediction ( http://arxiv.org/abs/2005.04255v1 )

ライセンス: Link先を確認
Zhishuai Zhang, Jiyang Gao, Junhua Mao, Yukai Liu, Dragomir Anguelov, Congcong Li(参考訳) 歩行者の検出と将来の軌道予測は、自動運転のような多くのアプリケーションにとって重要なタスクである。 以前の方法は、検出と予測を別のタスクとして扱うか、単に検出器の上に軌道回帰ヘッドを追加するだけであった。 本研究では,新しい2段階ネットワークであるspatio-Temporal-Interactive Network (STINet)を提案する。 歩行者の3次元形状モデリングに加えて,各歩行者の時間情報をモデル化する。 そこで本手法は,第1段階における現在位置と過去の位置の両方を予測し,各歩行者をフレーム間でリンクし,第2段階において時空間情報を包括的に把握する。 また、オブジェクト間の相互作用を相互作用グラフでモデル化し、隣接するオブジェクト間の情報収集を行う。 Lyft Datasetと最近リリースされた大規模Waymo Open Datasetに関する総合的な実験では、オブジェクト検出と将来の軌道予測の両方が提案手法の有効性を検証する。 Waymo Open Datasetでは,80.73の鳥眼視(BEV)検出APと33.67cmの軌道予測平均変位誤差(ADE)を達成し,両タスクの最先端性を確立する。

Detecting pedestrians and predicting future trajectories for them are critical tasks for numerous applications, such as autonomous driving. Previous methods either treat the detection and prediction as separate tasks or simply add a trajectory regression head on top of a detector. In this work, we present a novel end-to-end two-stage network: Spatio-Temporal-Interactive Network (STINet). In addition to 3D geometry modeling of pedestrians, we model the temporal information for each of the pedestrians. To do so, our method predicts both current and past locations in the first stage, so that each pedestrian can be linked across frames and the comprehensive spatio-temporal information can be captured in the second stage. Also, we model the interaction among objects with an interaction graph, to gather the information among the neighboring objects. Comprehensive experiments on the Lyft Dataset and the recently released large-scale Waymo Open Dataset for both object detection and future trajectory prediction validate the effectiveness of the proposed method. For the Waymo Open Dataset, we achieve a bird-eyes-view (BEV) detection AP of 80.73 and trajectory prediction average displacement error (ADE) of 33.67cm for pedestrians, which establish the state-of-the-art for both tasks.
翻訳日:2022-12-05 12:52:21 公開日:2020-05-08
# 時空間的特徴を考慮した幼児のポーズ推定

Preterm infants' pose estimation with spatio-temporal features ( http://arxiv.org/abs/2005.08648v1 )

ライセンス: Link先を確認
Sara Moccia and Lucia Migliorelli and Virgilio Carnielli and Emanuele Frontoni(参考訳) 目的:新生児集中治療単位(NICUs)における乳幼児の肢モニタリングは,乳幼児の健康状態と運動・認知発達を評価する上で重要である。 そこで本研究では,精度の高い奥行き映像から手足関節を検出・追跡するための時空間情報を特徴とする,幼児の肢ポーズ推定のための新しいアプローチを提案する。 方法: 検出と回帰畳み込みニューラルネットワーク(cnn)からなる深層学習フレームワークを用いて辺縁推定を行い, 粗度および高精度な関節位置推定を行う。 CNNは3D畳み込みによって時間方向の接続を符号化するために実装されている。 提案手法の評価は,乳幼児16例(babyposeデータセット)から得られた16例の奥行きビデオを用いた包括的調査により行った。 結果: ポーズ推定に適用した場合, 全手足で中央値の平均2乗距離を算出し, 空間的特徴に基づくアプローチに勝るものは11.27ピクセルのみであった。 結論: 時空間的特徴はポーズ推定性能, 特に難易度(均質画像強度など)に有意な影響を及ぼした。 意義:本論文は,手足検出と追跡のための時空間的特徴の導入と,本臨床で得られた深部映像を用いた最初の四肢位推定法として,乳幼児の健康状態の自動評価において,芸術性が著しく向上する。 babyposeデータセットは、幼児のポーズ推定のための最初の注釈付きデータセットとしてリリースされた。

Objective: Preterm infants' limb monitoring in neonatal intensive care units (NICUs) is of primary importance for assessing infants' health status and motor/cognitive development. Herein, we propose a new approach to preterm infants' limb pose estimation that features spatio-temporal information to detect and track limb joints from depth videos with high reliability. Methods: Limb-pose estimation is performed using a deep-learning framework consisting of a detection and a regression convolutional neural network (CNN) for rough and precise joint localization, respectively. The CNNs are implemented to encode connectivity in the temporal direction through 3D convolution. Assessment of the proposed framework is performed through a comprehensive study with sixteen depth videos acquired in the actual clinical practice from sixteen preterm infants (the babyPose dataset). Results: When applied to pose estimation, the median root mean squared distance, computed among all limbs, between the estimated and the ground-truth pose was 9.06 pixels, overcoming approaches based on spatial features only (11.27pixels). Conclusion: Results showed that the spatio-temporal features had a significant influence on the pose-estimation performance, especially in challenging cases (e.g., homogeneous image intensity). Significance: This paper significantly enhances the state of art in automatic assessment of preterm infants' health status by introducing the use of spatio-temporal features for limb detection and tracking, and by being the first study to use depth videos acquired in the actual clinical practice for limb-pose estimation. The babyPose dataset has been released as the first annotated dataset for infants' pose estimation.
翻訳日:2022-12-05 12:52:01 公開日:2020-05-08
# ConvoKit: 会話の分析のためのツールキット

ConvoKit: A Toolkit for the Analysis of Conversations ( http://arxiv.org/abs/2005.04246v1 )

ライセンス: Link先を確認
Jonathan P. Chang, Caleb Chiam, Liye Fu, Andrew Z. Wang, Justine Zhang, Cristian Danescu-Niculescu-Mizil(参考訳) 本稿では,会話を解析するためのオープンソースのツールキットであるConvoKitの設計と機能について述べる。 ConvoKitは、会話データの表現と操作のための統一されたフレームワークと、対話データセットの大規模かつ多様なコレクションを提供する。 対話型データの探索と対話のための直感的なインターフェースを提供することで、このツールキットは会話型分析のための計算手法を広く採用するための技術的な障壁を下げる。

This paper describes the design and functionality of ConvoKit, an open-source toolkit for analyzing conversations and the social interactions embedded within. ConvoKit provides an unified framework for representing and manipulating conversational data, as well as a large and diverse collection of conversational datasets. By providing an intuitive interface for exploring and interacting with conversational data, this toolkit lowers the technical barriers for the broad adoption of computational methods for conversational analysis.
翻訳日:2022-12-05 12:51:21 公開日:2020-05-08
# パーソナライズされた早期アルツハイマー病検出 : レーガン大統領のスピーチを事例として

Personalized Early Stage Alzheimer's Disease Detection: A Case Study of President Reagan's Speeches ( http://arxiv.org/abs/2005.12385v1 )

ライセンス: Link先を確認
Ning Wang, Fan Luo, Vishal Peddagangireddy, K.P. Subbalakshmi and R. Chandramouli(参考訳) アルツハイマー病(AD)関連の世界的な医療費は2050年までに1兆ドルと見積もられている。 現在、この病気の治療法はないが、早期の診断と介入は生活の質を伸ばし、パーソナライズされた精神医療のための技術を伝えるのに役立つことが臨床研究で示されている。 臨床研究はアルツハイマー病の発症と進行が認知症やその他の精神疾患につながることを示している。 その結果,患者の言語能力は低下し始めた。 本稿では, 言語バイオマーカーを用いた機械学習による非教師付きクラスタリングと異常検出が, 直感的な可視化とアルツハイマー病の早期発見に有望なアプローチであることを示す。 我々は、ロナルド・レーガン大統領のスピーチデータセットの10年間(1980年から1989年)にこのアプローチを実証する。 早期ADを示す主要な言語バイオマーカーが同定される。 実験の結果、レーガンは1983年から1987年にかけて早期にアルツハイマー病を発症していた。 この発見は、彼のインタビューを統計的手法を用いて分析した先行研究によって裏付けられている。 提案手法は,早期の言語バイオマーカーを反映した正確な音声も同定する。

Alzheimer`s disease (AD)-related global healthcare cost is estimated to be $1 trillion by 2050. Currently, there is no cure for this disease; however, clinical studies show that early diagnosis and intervention helps to extend the quality of life and inform technologies for personalized mental healthcare. Clinical research indicates that the onset and progression of Alzheimer`s disease lead to dementia and other mental health issues. As a result, the language capabilities of patient start to decline. In this paper, we show that machine learning-based unsupervised clustering of and anomaly detection with linguistic biomarkers are promising approaches for intuitive visualization and personalized early stage detection of Alzheimer`s disease. We demonstrate this approach on 10 year`s (1980 to 1989) of President Ronald Reagan`s speech data set. Key linguistic biomarkers that indicate early-stage AD are identified. Experimental results show that Reagan had early onset of Alzheimer`s sometime between 1983 and 1987. This finding is corroborated by prior work that analyzed his interviews using a statistical technique. The proposed technique also identifies the exact speeches that reflect linguistic biomarkers for early stage AD.
翻訳日:2022-12-05 12:51:14 公開日:2020-05-08
# 機能学習アプリケーションにおけるオートエンコーダの使用例

A Showcase of the Use of Autoencoders in Feature Learning Applications ( http://arxiv.org/abs/2005.04321v1 )

ライセンス: Link先を確認
David Charte, Francisco Charte, Mar\'ia J. del Jesus, Francisco Herrera(参考訳) オートエンコーダは、ニューラルネットワークに基づくデータ表現学習のための技術である。 特徴空間の特定の変換を見つけることに焦点を当てた他の特徴学習方法とは異なり、データ可視化、デノナイズ、異常検出、セマンティックハッシュといった多くの目的に適応することができる。 この本は、これらのアプリケーションを示し、オートエンコーダの設計とトレーニングに使いやすいインターフェイスを持つrパッケージを使ったコードサンプル、 \texttt{ruta}を含む、オートエンコーダがそれらをどのように実行するかの詳細を提供する。 その過程で、各学習課題の達成方法の説明が提供され、読者がこれらの目的や他の目的のために独自のオートエンコーダを設計するのを助ける。

Autoencoders are techniques for data representation learning based on artificial neural networks. Differently to other feature learning methods which may be focused on finding specific transformations of the feature space, they can be adapted to fulfill many purposes, such as data visualization, denoising, anomaly detection and semantic hashing. This work presents these applications and provides details on how autoencoders can perform them, including code samples making use of an R package with an easy-to-use interface for autoencoder design and training, \texttt{ruta}. Along the way, the explanations on how each learning task has been achieved are provided with the aim to help the reader design their own autoencoders for these or other objectives.
翻訳日:2022-12-05 12:50:55 公開日:2020-05-08
# 自分の質問を選ぶ - 学習経路構築における自己のパーソナライゼーションの促進

Choose Your Own Question: Encouraging Self-Personalization in Learning Path Construction ( http://arxiv.org/abs/2005.03818v1 )

ライセンス: Link先を確認
Youngduck Choi, Yoonho Na, Youngjik Yoon, Jonghun Shin, Chan Bae, Hongseok Suh, Byungsoo Kim, Jaewe Heo(参考訳) 学習経路推薦は適応型学習の心臓であり、学生の学習活動の歴史に基づいたパーソナライズされた学習体験を提供する対話型教育システム(ies)の教育パラダイムである。 典型的なiessでは、生徒は推奨の学習アイテムを完全に消費して、新しい推薦を与える必要がある。 このワークフローにはいくつかの制限がある。 例えば、学生がIESによる学習項目の選択についてフィードバックする機会はない。 さらに、選択するメカニズムは学生にとって不透明であり、生徒が学習を追跡する能力を制限する。 この目的のために,一般的なIESのためのTinderライクなユーザインタフェースであるRocketを紹介した。 Rocketは、AI(Artificial Intelligence)が抽出した学習教材の特徴を視覚的に表現する。 生徒は、材料への取り組みと、スワイプやタップによって新しい推薦を受けるかを選択できる。 第一に、rocketは、意思決定プロセスで使用される有意義なai抽出機能の視覚的な要約を示すことによって、ies推奨の説明可能性を高める。 第二に、rocketは学生の能力やニーズの知識を活用し、学習体験の自己パーソナライズを可能にする。 最後に、rocketは学生に学習経路に関する詳細な情報を提供し、彼ら自身のスキルを評価し、学習の進捗を追跡する手段を提供する。 我々は、各コンポーネントの独立性と拡張性を強調するrocketのソースコードを提示し、あらゆる目的のために公開する。

Learning Path Recommendation is the heart of adaptive learning, the educational paradigm of an Interactive Educational System (IES) providing a personalized learning experience based on the student's history of learning activities. In typical existing IESs, the student must fully consume a recommended learning item to be provided a new recommendation. This workflow comes with several limitations. For example, there is no opportunity for the student to give feedback on the choice of learning items made by the IES. Furthermore, the mechanism by which the choice is made is opaque to the student, limiting the student's ability to track their learning. To this end, we introduce Rocket, a Tinder-like User Interface for a general class of IESs. Rocket provides a visual representation of Artificial Intelligence (AI)-extracted features of learning materials, allowing the student to quickly decide whether the material meets their needs. The student can choose between engaging with the material and receiving a new recommendation by swiping or tapping. Rocket offers the following potential improvements for IES User Interfaces: First, Rocket enhances the explainability of IES recommendations by showing students a visual summary of the meaningful AI-extracted features used in the decision-making process. Second, Rocket enables self-personalization of the learning experience by leveraging the students' knowledge of their own abilities and needs. Finally, Rocket provides students with fine-grained information on their learning path, giving them an avenue to assess their own skills and track their learning progress. We present the source code of Rocket, in which we emphasize the independence and extensibility of each component, and make it publicly available for all purposes.
翻訳日:2022-12-05 12:50:40 公開日:2020-05-08
# 極小スーパービジョンによる時間的常識獲得

Temporal Common Sense Acquisition with Minimal Supervision ( http://arxiv.org/abs/2005.04304v1 )

ライセンス: Link先を確認
Ben Zhou and Qiang Ning and Daniel Khashabi and Dan Roth(参考訳) 時間的常識(例えば、出来事の持続時間と頻度)は自然言語を理解するのに不可欠である。 しかし、そのような情報はテキストで明示的に表現されないことが多く、その概念に対する人間のアノテーションはコストがかかるため、その獲得は困難である。 本研究では,大規模コーパスから抽出された時間的共通感覚の明示的・暗黙的言及を利用して,時間的共通感覚言語モデルであるタコラムを構築する新しいシーケンスモデリング手法を提案する。 提案手法は,時間的共通感覚の様々な次元の質予測(UDSTおよびRealNewsから新たに収集したデータセット)を行う。 また、時間比較、親子関係、イベントコア、時間的QA(TimeBank、HiEVE、MCTACO)といった、標準的なBERTよりも優れたタスクのためのイベントの表現を生成する。 したがって、これは一時的NLPの重要な構成要素となる。

Temporal common sense (e.g., duration and frequency of events) is crucial for understanding natural language. However, its acquisition is challenging, partly because such information is often not expressed explicitly in text, and human annotation on such concepts is costly. This work proposes a novel sequence modeling approach that exploits explicit and implicit mentions of temporal common sense, extracted from a large corpus, to build TACOLM, a temporal common sense language model. Our method is shown to give quality predictions of various dimensions of temporal common sense (on UDST and a newly collected dataset from RealNews). It also produces representations of events for relevant tasks such as duration comparison, parent-child relations, event coreference and temporal QA (on TimeBank, HiEVE and MCTACO) that are better than using the standard BERT. Thus, it will be an important component of temporal NLP.
翻訳日:2022-12-05 12:45:01 公開日:2020-05-08
# 知識パターン

Knowledge Patterns ( http://arxiv.org/abs/2005.04306v1 )

ライセンス: Link先を確認
Peter Clark, John Thompson, Bruce Porter(参考訳) 本稿では、オントロジーにおける反復的知識パターン(理論スキーマ)の識別と明示的に表現し、それらのパターンがオントロジーにおけるドメイン固有の概念にどのようにマップされるかを記述することに基づく、公理豊かな形式オントロジーの構築を支援する「知識パターン」と呼ばれる新しい手法について述べる。 知識パターンは、単に用語や公理の一覧として形式オントロジーを見るのではなく、抽象的でモジュラーな理論(「知識のパターン」)の集合と、それらの理論を用いて世界の異なる側面をどのようにモデル化できるかをモデル化する決定の集合と見なす。 知識パターンはこれらの抽象理論とそれらの関心領域へのマッピングの両方を明示し、モデリングの決定を明確にし、そうでなければ起こりうる存在論的混乱を避ける。 さらに、計算の観点から、知識パターンは知識再利用を促進するためのシンプルで効率的なメカニズムを提供する。 テクニックとそれを用いたアプリケーションについて説明し、その長所と短所を批判する。 この手法により、形式的公理豊富なオントロジーを構築する際に行われる構造的決定とモデリング的決定の両方をよりよく説明できる。

This paper describes a new technique, called "knowledge patterns", for helping construct axiom-rich, formal ontologies, based on identifying and explicitly representing recurring patterns of knowledge (theory schemata) in the ontology, and then stating how those patterns map onto domain-specific concepts in the ontology. From a modeling perspective, knowledge patterns provide an important insight into the structure of a formal ontology: rather than viewing a formal ontology simply as a list of terms and axioms, knowledge patterns views it as a collection of abstract, modular theories (the "knowledge patterns") plus a collection of modeling decisions stating how different aspects of the world can be modeled using those theories. Knowledge patterns make both those abstract theories and their mappings to the domain of interest explicit, thus making modeling decisions clear, and avoiding some of the ontological confusion that can otherwise arise. In addition, from a computational perspective, knowledge patterns provide a simple and computationally efficient mechanism for facilitating knowledge reuse. We describe the technique and an application built using them, and then critique its strengths and weaknesses. We conclude that this technique enables us to better explicate both the structure and modeling decisions made when constructing a formal axiom-rich ontology.
翻訳日:2022-12-05 12:44:32 公開日:2020-05-08
# 投影・確率駆動ブラックボックス攻撃

Projection & Probability-Driven Black-Box Attack ( http://arxiv.org/abs/2005.03837v1 )

ライセンス: Link先を確認
Jie Li, Rongrong Ji, Hong Liu, Jianzhuang Liu, Bineng Zhong, Cheng Deng, Qi Tian(参考訳) ブラックボックス設定で敵の例を生成することは、膨大な実用的な応用可能性において重要な課題である。 特に、既存のブラックボックス攻撃は、高次元空間で最適化する適切な方向を見つけることは簡単ではないため、過剰なクエリを必要とする。 本稿では,この問題に対処するために,解空間を縮小し,より良い最適化を提供する,プロジェクション・アンド・確率駆動ブラックボックス攻撃(ppba)を提案する。 まず,低周波空間におけるランダムノイズが逆方向になりやすいという設定の下で,圧縮センシングによる周波数スパース摂動の回復過程として,逆方向摂動最適化問題をモデル化する。 そこで我々は,低周波制約検出行列を構築するための簡易な手法を提案し,これをプラグアンドプレイプロジェクション行列として機能させて次元を小さくする。 このようなセンシングマトリクスはnesやbandits$_{td}$のような既存の方法に統合できるほど柔軟であることが示されている。 より優れた最適化のために、我々は確率駆動型戦略でランダムウォークを行い、全てのクエリを進捗全体を利用して、より少ないクエリ予算で検出行列をフル活用する。 広範な実験により,本手法は最先端手法に比べて攻撃成功率の高いクエリを最大24%削減できることが分かった。 最後に、攻撃方法は実世界のオンラインサービス、すなわちGoogle Cloud Vision APIで評価される。

Generating adversarial examples in a black-box setting retains a significant challenge with vast practical application prospects. In particular, existing black-box attacks suffer from the need for excessive queries, as it is non-trivial to find an appropriate direction to optimize in the high-dimensional space. In this paper, we propose Projection & Probability-driven Black-box Attack (PPBA) to tackle this problem by reducing the solution space and providing better optimization. For reducing the solution space, we first model the adversarial perturbation optimization problem as a process of recovering frequency-sparse perturbations with compressed sensing, under the setting that random noise in the low-frequency space is more likely to be adversarial. We then propose a simple method to construct a low-frequency constrained sensing matrix, which works as a plug-and-play projection matrix to reduce the dimensionality. Such a sensing matrix is shown to be flexible enough to be integrated into existing methods like NES and Bandits$_{TD}$. For better optimization, we perform a random walk with a probability-driven strategy, which utilizes all queries over the whole progress to make full use of the sensing matrix for a less query budget. Extensive experiments show that our method requires at most 24% fewer queries with a higher attack success rate compared with state-of-the-art approaches. Finally, the attack method is evaluated on the real-world online service, i.e., Google Cloud Vision API, which further demonstrates our practical potentials.
翻訳日:2022-12-05 12:44:10 公開日:2020-05-08
# どこを見てるんだ? クロスビューマッチングによる共同位置と方位推定

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching ( http://arxiv.org/abs/2005.03860v1 )

ライセンス: Link先を確認
Yujiao Shi, Xin Yu, Dylan Campbell, Hongdong Li(参考訳) クロスビュージオローカライズ(cross-view geo-localization)とは、衛星画像(例えば、衛星画像)の大規模データベースから、地上におけるカメラの位置と方位(緯度、経度、方位角)を推定する問題である。 既存のアプローチでは、識別的特徴記述子を学習することでタスクを純粋な位置推定問題として扱うが、指向性は無視する。 特に、地上画像がフル視野パノラマではなく視野(FoV)に制限されている場合、地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく低減できる。 そこで本稿では,局所化時の横方向アライメントを推定する動的類似マッチングネットワークを設計する。 特に、空撮画像に偏極変換を適用して、画像が未知の方位角にほぼ整列することで、クロスビュー領域のギャップに対処する。 次に、二流畳み込みネットワークを用いて、地上および極変換された空中画像から深い特徴を学習する。 最後に,クロスビュー機能間の相関を計算し,特徴の類似度をより正確に測定し,位置リコールを改善した。 標準データセットの実験により,本手法は最先端の性能を著しく向上することが示された。 cvusaデータセットのtop-1位置のリコールレートを、既知の向きのパノラマの1.5倍、未知方向のパノラマの3.3倍、未知方向の180度のfov画像の6倍で改善した。

Cross-view geo-localization is the problem of estimating the position and orientation (latitude, longitude and azimuth angle) of a camera at ground level given a large-scale database of geo-tagged aerial (e.g., satellite) images. Existing approaches treat the task as a pure location estimation problem by learning discriminative feature descriptors, but neglect orientation alignment. It is well-recognized that knowing the orientation between ground and aerial images can significantly reduce matching ambiguity between these two views, especially when the ground-level images have a limited Field of View (FoV) instead of a full field-of-view panorama. Therefore, we design a Dynamic Similarity Matching network to estimate cross-view orientation alignment during localization. In particular, we address the cross-view domain gap by applying a polar transform to the aerial images to approximately align the images up to an unknown azimuth angle. Then, a two-stream convolutional network is used to learn deep features from the ground and polar-transformed aerial images. Finally, we obtain the orientation by computing the correlation between cross-view features, which also provides a more accurate measure of feature similarity, improving location recall. Experiments on standard datasets demonstrate that our method significantly improves state-of-the-art performance. Remarkably, we improve the top-1 location recall rate on the CVUSA dataset by a factor of 1.5x for panoramas with known orientation, by a factor of 3.3x for panoramas with unknown orientation, and by a factor of 6x for 180-degree FoV images with unknown orientation.
翻訳日:2022-12-05 12:43:20 公開日:2020-05-08
# 顔アンチスプーフィングのための一般化スポフキュース学習

Learning Generalized Spoof Cues for Face Anti-spoofing ( http://arxiv.org/abs/2005.03922v1 )

ライセンス: Link先を確認
Haocheng Feng and Zhibin Hong and Haixiao Yue and Yang Chen and Keyao Wang and Junyu Han and Jingtuo Liu and Errui Ding(参考訳) 既存のface anti-spoofing(fas)メソッドの多くは、事前定義されたspoofタイプの決定バウンダリのモデリングに焦点を当てている。 しかし、未知のものを含むspoofサンプルの多様性は、効果的な決定境界モデリングを阻害し、弱い一般化能力をもたらす。 本稿では, 異常検出の観点からFASを再構成し, スプーフキューとして定義される識別的ライブスプーフ差を学習するための残差学習フレームワークを提案する。 提案するフレームワークは,スプーフキュー生成器と補助分類器から構成される。 このジェネレータは、ライブサンプルのスプーフキューを最小化する一方で、spoofサンプルのスプーフキューに明示的な制約を課さずに、目に見えない攻撃にうまく一般化する。 このように、異常検出は暗黙的にspoof cue生成を導くために使われ、識別的特徴学習につながる。 補助分類器は、spoof cueアンプとして機能し、spoof cuesをより識別する。 広範な実験を行い,提案手法が最先端手法を一貫して上回ることを示した。 コードはhttps://github.com/vis-var/lgsc-for-fasで公開されている。

Many existing face anti-spoofing (FAS) methods focus on modeling the decision boundaries for some predefined spoof types. However, the diversity of the spoof samples including the unknown ones hinders the effective decision boundary modeling and leads to weak generalization capability. In this paper, we reformulate FAS in an anomaly detection perspective and propose a residual-learning framework to learn the discriminative live-spoof differences which are defined as the spoof cues. The proposed framework consists of a spoof cue generator and an auxiliary classifier. The generator minimizes the spoof cues of live samples while imposes no explicit constraint on those of spoof samples to generalize well to unseen attacks. In this way, anomaly detection is implicitly used to guide spoof cue generation, leading to discriminative feature learning. The auxiliary classifier serves as a spoof cue amplifier and makes the spoof cues more discriminative. We conduct extensive experiments and the experimental results show the proposed method consistently outperforms the state-of-the-art methods. The code will be publicly available at https://github.com/vis-var/lgsc-for-fas.
翻訳日:2022-12-05 12:42:31 公開日:2020-05-08
# 畳み込みスパース支援推定器を用いたX線画像からのCovid-19認識

Convolutional Sparse Support Estimator Based Covid-19 Recognition from X-ray Images ( http://arxiv.org/abs/2005.04014v1 )

ライセンス: Link先を確認
Mehmet Yamac, Mete Ahishali, Aysen Degerli, Serkan Kiranyaz, Muhammad E. H. Chowdhury, Moncef Gabbouj(参考訳) コロナウイルス(Covid-19)は、2019年12月の発見以来、世界中の主要な課題となっている。 すでに何千もの因果関係を起こし、世界中で数百万人が感染している。 時間、労力、そしておそらく命を救うために医療従事者に提供されるあらゆる技術的ツールが重要である。 Covid-19の診断に使用されている主なツールは、RT-PCR(Reverse Transcription-Polymerase Chain reaction)とCT(Computed Tomography)である。 X線イメージングは、Covid-19の診断に大きな可能性を持つ一般的かつ容易にアクセスできるツールである。 本研究では,胸部X線画像からCovid-19を認識するための新しいアプローチを提案する。 問題の重要性にもかかわらず、この領域における最近の研究は、トレーニングに利用可能な限られたデータセットのため、あまり満足できない結果を生み出した。 ディープラーニングのテクニックは、大規模なデータセット上で適切にトレーニングされた場合、多くの分類タスクにおいて、一般的に最先端のパフォーマンスを提供することができる。 表現ベースの分類 (collaborative あるいは sparse representation) のような別のアプローチは、限られたサイズのデータセットで十分なパフォーマンスを提供するが、一般的には機械学習の方法に比べて性能や速度が不足する。 この不足に対処するために、csen(convolution support estimation network)は、最近、クエリサンプルから理想的にスパース表現係数のサポートへの非イテレーティブなリアルタイムマッピングを提供することによって、モデルベースとディープラーニングのアプローチの橋渡しとして提案されている。

Coronavirus disease (Covid-19) has been the main agenda of the whole world since it came in sight in December 2019. It has already caused thousands of causalities and infected several millions worldwide. Any technological tool that can be provided to healthcare practitioners to save time, effort, and possibly lives has crucial importance. The main tools practitioners currently use to diagnose Covid-19 are Reverse Transcription-Polymerase Chain reaction (RT-PCR) and Computed Tomography (CT), which require significant time, resources and acknowledged experts. X-ray imaging is a common and easily accessible tool that has great potential for Covid-19 diagnosis. In this study, we propose a novel approach for Covid-19 recognition from chest X-ray images. Despite the importance of the problem, recent studies in this domain produced not so satisfactory results due to the limited datasets available for training. Recall that Deep Learning techniques can generally provide state-of-the-art performance in many classification tasks when trained properly over large datasets, such data scarcity can be a crucial obstacle when using them for Covid-19 detection. Alternative approaches such as representation-based classification (collaborative or sparse representation) might provide satisfactory performance with limited size datasets, but they generally fall short in performance or speed compared to Machine Learning methods. To address this deficiency, Convolution Support Estimation Network (CSEN) has recently been proposed as a bridge between model-based and Deep Learning approaches by providing a non-iterative real-time mapping from query sample to ideally sparse representation coefficient' support, which is critical information for class decision in representation based techniques.
翻訳日:2022-12-05 12:35:28 公開日:2020-05-08
# 複数深度センサによる人体の視野不変検出とポーズ推定

View Invariant Human Body Detection and Pose Estimation from Multiple Depth Sensors ( http://arxiv.org/abs/2005.04258v1 )

ライセンス: Link先を確認
Walid Bekhtaoui, Ruhan Sa, Brian Teixeira, Vivek Singh, Klaus Kirchberg, Yao-jen Chang, Ankur Kapoor(参考訳) ポイントクラウドベースの手法は、自動運転における3dオブジェクト検出などの領域で有望な結果を生み出している。 しかし、近年のクラウドワークのほとんどは、単一深度センサーのデータに焦点を当てているが、病院での手術室モニタリングや屋内監視といった屋内監視アプリケーションでは、少ない作業がなされている。 これらのシナリオでは、複数のカメラが閉塞問題に対処するためにしばしば使用される。 本稿では,複数点のクラウドソースを用いた複数対個人3Dポーズ推定ネットワークであるPoint R-CNNを提案する。 我々は、個別のカメラ故障、様々なターゲットの外観、CMUパン光学データセットとMVOR操作室データセットによる複雑な乱雑なシーンなど、現実の課題をシミュレートするための広範な実験を行った。 複雑な融合モデルを構築して複数のセンサ情報を利用しようとする従来の方法とは異なり、我々は点雲を連結して入力レベルで情報を融合する効率を生かしている。 その間、当社のエンドツーエンドネットワークは、カスケードされた最先端モデルを大きく上回っています。

Point cloud based methods have produced promising results in areas such as 3D object detection in autonomous driving. However, most of the recent point cloud work focuses on single depth sensor data, whereas less work has been done on indoor monitoring applications, such as operation room monitoring in hospitals or indoor surveillance. In these scenarios multiple cameras are often used to tackle occlusion problems. We propose an end-to-end multi-person 3D pose estimation network, Point R-CNN, using multiple point cloud sources. We conduct extensive experiments to simulate challenging real world cases, such as individual camera failures, various target appearances, and complex cluttered scenes with the CMU panoptic dataset and the MVOR operation room dataset. Unlike most of the previous methods that attempt to use multiple sensor information by building complex fusion models, which often lead to poor generalization, we take advantage of the efficiency of concatenating point clouds to fuse the information at the input level. In the meantime, we show our end-to-end network greatly outperforms cascaded state-of-the-art models.
翻訳日:2022-12-05 12:34:56 公開日:2020-05-08
# 注意のボトルネック: 解釈可能な深層運転ネットワークに向けて

Attentional Bottleneck: Towards an Interpretable Deep Driving Network ( http://arxiv.org/abs/2005.04298v1 )

ライセンス: Link先を確認
Jinkyu Kim, Mayank Bansal(参考訳) ディープニューラルネットワークは、自動運転車の行動予測と動き生成の重要なコンポーネントである。 彼らの主な欠点の1つは、透明性の欠如である。 透明性向上を目的としたアーキテクチャであるAttentional Bottleneckを提案する。 私たちのキーとなるアイデアは、モデルが使用している入力のどの側面を識別する視覚的注意と、重要な入力のアスペクトのみをモデルが使用できるようにする情報ボトルネックを組み合わせることです。 これは、スパースで解釈可能なアテンションマップ(例えば、シーン内の特定の車両のみに焦点を当てる)を提供するだけでなく、この透明性を精度をモデル化するコストもかからない。 実際、ChauffeurNetモデルに適用した場合の精度は若干改善されているが、従来の視覚的注意モデルでは精度が劣化していることがわかった。

Deep neural networks are a key component of behavior prediction and motion generation for self-driving cars. One of their main drawbacks is a lack of transparency: they should provide easy to interpret rationales for what triggers certain behaviors. We propose an architecture called Attentional Bottleneck with the goal of improving transparency. Our key idea is to combine visual attention, which identifies what aspects of the input the model is using, with an information bottleneck that enables the model to only use aspects of the input which are important. This not only provides sparse and interpretable attention maps (e.g. focusing only on specific vehicles in the scene), but it adds this transparency at no cost to model accuracy. In fact, we find slight improvements in accuracy when applying Attentional Bottleneck to the ChauffeurNet model, whereas we find that the accuracy deteriorates with a traditional visual attention model.
翻訳日:2022-12-05 12:34:27 公開日:2020-05-08
# 確率的系統の効率的な再構築

Efficient Reconstruction of Stochastic Pedigrees ( http://arxiv.org/abs/2005.03810v1 )

ライセンス: Link先を確認
Younhun Kim, Elchanan Mossel, Govind Ramnarayan, Paxton Turner(参考訳) 本稿では,その遺伝的データから既存の集団の系譜を再構築するアルゴリズムである {\sc Rec-Gen} を導入する。 実世界の血統の特徴を再現する理想化された生成モデルから、血統に適用された場合、その効果を数学的に証明することで、我々のアプローチを正当化する。 本アルゴリズムは反復的であり, 集団の遺伝的配列長の観点で測定した, 比較的低値なemph{sample complexity} を保ちながら, 系統のかなりの部分を正確に再構成する。 本研究は,実例への適用に向けた系統再構築問題のさらなる検討のためのプロトタイプとして提案する。 その結果,遺伝子プライバシの重要度が高まる問題に対する概念的考察が得られた。

We introduce a new algorithm called {\sc Rec-Gen} for reconstructing the genealogy or \textit{pedigree} of an extant population purely from its genetic data. We justify our approach by giving a mathematical proof of the effectiveness of {\sc Rec-Gen} when applied to pedigrees from an idealized generative model that replicates some of the features of real-world pedigrees. Our algorithm is iterative and provides an accurate reconstruction of a large fraction of the pedigree while having relatively low \emph{sample complexity}, measured in terms of the length of the genetic sequences of the population. We propose our approach as a prototype for further investigation of the pedigree reconstruction problem toward the goal of applications to real-world examples. As such, our results have some conceptual bearing on the increasingly important issue of genomic privacy.
翻訳日:2022-12-05 12:34:02 公開日:2020-05-08
# 下流タスクに対する受け入れがたい機械翻訳の学習

Learning to Detect Unacceptable Machine Translations for Downstream Tasks ( http://arxiv.org/abs/2005.03925v1 )

ライセンス: Link先を確認
Meng Zhang, Xin Jiang, Yang Liu, Qun Liu(参考訳) 近年,機械翻訳の分野は飛躍的に進歩している。 翻訳品質は大幅に向上しているが、現在のシステムでは、さまざまなユースケースで一様に受け入れられる機械翻訳を作成できない。 本研究では,機械翻訳を言語間パイプラインに配置し,機械翻訳のタスク固有の受容性を定義するために下流タスクを導入する。 これにより、並列データを活用して、大規模なアクセプタビリティアノテーションを自動的に生成することで、下流タスクのアクセプタビリティ検出を学習することができます。 我々は,ダウンストリームタスクと翻訳モデルにおけるフレームワークの有効性を実証する実験を行う。

The field of machine translation has progressed tremendously in recent years. Even though the translation quality has improved significantly, current systems are still unable to produce uniformly acceptable machine translations for the variety of possible use cases. In this work, we put machine translation in a cross-lingual pipeline and introduce downstream tasks to define task-specific acceptability of machine translations. This allows us to leverage parallel data to automatically generate acceptability annotations on a large scale, which in turn help to learn acceptability detectors for the downstream tasks. We conduct experiments to demonstrate the effectiveness of our framework for a range of downstream tasks and translation models.
翻訳日:2022-12-05 12:33:35 公開日:2020-05-08
# 知識強化型マルチチャネルCNNによるゲノム変異出版に関する文献トライアル

Literature Triage on Genomic Variation Publications by Knowledge-enhanced Multi-channel CNN ( http://arxiv.org/abs/2005.04044v1 )

ライセンス: Link先を確認
Chenhui Lv and Qian Lu and Xiang Zhang(参考訳) 背景: ゲノム変異と特定の疾患や表現型との相関性を検討するために, 文献トリアージと呼ばれる膨大な文献の出版物について概説することが基本課題である。 UniProtKB/Swiss-ProtやNHGRI-EBI GWAS Catalogなどの知識基盤は、出版物に関する収集のために作成されている。 これらの出版物は専門家によって手作業でキュレーションされ、時間を要する。 また、出版物の増加に伴い、文献からの情報の手作業によるキュレーションはスケーラブルではない。 文献トリアージのコスト削減のために、バイオメディカル出版物を自動的に識別する機械学習モデルが採用された。 方法: 文献トリアージのための機械学習モデルを用いた過去の研究と比較して, リッチテキスト情報を活用するために多チャンネル畳み込みネットワークを採用し, 異なるコーパスからのセマンティックギャップを橋渡しする。 加えて、UMLSから学んだ知識の埋め込みは、トリアージの過程でテキスト機能を超えた追加の医療知識を提供するためにも使われる。 結果:我々のモデルは,知識埋め込みと複数のチャネルの助けを借りて,5つのデータセット以上の最先端モデルを上回ることを実証した。 本モデルは,バイオメディカル文献トリアージ結果の精度を向上させる。 結論: バイオメディカル文献トリアージ作業において, 複数のチャネルと知識埋め込みがCNNモデルの性能を向上させる。 キーワード:文学トリアージ、知識埋め込み、マルチチャネル畳み込みネットワーク

Background: To investigate the correlation between genomic variation and certain diseases or phenotypes, the fundamental task is to screen out the concerning publications from massive literature, which is called literature triage. Some knowledge bases, including UniProtKB/Swiss-Prot and NHGRI-EBI GWAS Catalog are created for collecting concerning publications. These publications are manually curated by experts, which is time-consuming. Moreover, the manual curation of information from literature is not scalable due to the rapidly increasing amount of publications. In order to cut down the cost of literature triage, machine-learning models were adopted to automatically identify biomedical publications. Methods: Comparing to previous studies utilizing machine-learning models for literature triage, we adopt a multi-channel convolutional network to utilize rich textual information and meanwhile bridge the semantic gaps from different corpora. In addition, knowledge embeddings learned from UMLS is also used to provide extra medical knowledge beyond textual features in the process of triage. Results: We demonstrate that our model outperforms the state-of-the-art models over 5 datasets with the help of knowledge embedding and multiple channels. Our model improves the accuracy of biomedical literature triage results. Conclusions: Multiple channels and knowledge embeddings enhance the performance of the CNN model in the task of biomedical literature triage. Keywords: Literature Triage; Knowledge Embedding; Multi-channel Convolutional Network
翻訳日:2022-12-05 12:33:26 公開日:2020-05-08
# 会話の会話における目的のバランス--前向きや振り返りの促進

Balancing Objectives in Counseling Conversations: Advancing Forwards or Looking Backwards ( http://arxiv.org/abs/2005.04245v1 )

ライセンス: Link先を確認
Justine Zhang, Cristian Danescu-Niculescu-Mizil(参考訳) 会話を通じて、参加者は対話の流れをオリエントできる選択肢を作る。 このような選択は、危機カウンセリングの一連の領域において特に有益であり、カウンセラーにとって難しいのは、解決に向けて会話を進めることと、危機状況に共感的に対処することの2つの重要な目標のバランスである。 本研究では, カウンセラーのバランスを定量化するための教師なし手法を考案する。 私たちの主観は、発話が限られた範囲の適切な返信しか受け取れないならば、その範囲内の目標に向かって会話を前進させることが目標であるということです。 同様に、可能な発話範囲の狭い範囲のみを適切に追従できる発話は、その範囲内の特定の状況に対処するために後方に向けられる可能性が高い。 この直観を適用することで、各発話を連続方向軸にマッピングし、会話の流れを前方または後方に向けることを意図した程度を捉えることができる。 この手法により,危機カウンセリング会話の大規模データセットにおけるカウンセラー行動の特徴付けが可能となり,既知のカウンセラー戦略がこの軸に直感的に一致することを示す。 また、我々の尺度が会話の進行やその効果を示すものであることも示します。

Throughout a conversation, participants make choices that can orient the flow of the interaction. Such choices are particularly salient in the consequential domain of crisis counseling, where a difficulty for counselors is balancing between two key objectives: advancing the conversation towards a resolution, and empathetically addressing the crisis situation. In this work, we develop an unsupervised methodology to quantify how counselors manage this balance. Our main intuition is that if an utterance can only receive a narrow range of appropriate replies, then its likely aim is to advance the conversation forwards, towards a target within that range. Likewise, an utterance that can only appropriately follow a narrow range of possible utterances is likely aimed backwards at addressing a specific situation within that range. By applying this intuition, we can map each utterance to a continuous orientation axis that captures the degree to which it is intended to direct the flow of the conversation forwards or backwards. This unsupervised method allows us to characterize counselor behaviors in a large dataset of crisis counseling conversations, where we show that known counseling strategies intuitively align with this axis. We also illustrate how our measure can be indicative of a conversation's progress, as well as its effectiveness.
翻訳日:2022-12-05 12:32:36 公開日:2020-05-08
# 品質多様性探索のためのベイズ最適化アルゴリズムBOP-Elites

BOP-Elites, a Bayesian Optimisation algorithm for Quality-Diversity search ( http://arxiv.org/abs/2005.04320v1 )

ライセンス: Link先を確認
Paul Kent and Juergen Branke(参考訳) MAP-Elites (Quality Diversity) のようなQDアルゴリズムは、1つ以上の解釈可能な、ユーザ選択された特徴関数上の点の振る舞いの多様性を強制しながら、目的関数からハイパフォーマンスな点のセットを見つけようとする最適化手法のクラスである。 本稿では、ベイズ最適化の手法を用いて、ガウス過程による品質と多様性の両方を明示的にモデル化するベイズ最適化(BOP-Elites)アルゴリズムを提案する。 機能空間のユーザ定義領域を‘ニッチ’として考えることで、我々のタスクは各ニッチで最適なソリューションを見つけることです。 本稿では,すべてのニッチにおいて最良解を同定するアンサンブル問題に対して,最も期待できる改善点をインテリジェントに選択する新しい獲得関数を提案する。 このようにして、各関数評価は我々のモデリングを強化し、自然に探索空間の探索と利用のバランスを取りながら、問題全体の洞察を提供する。 得られたアルゴリズムは、特徴空間におけるニッチに属する探索空間の部分を特定し、ニッチごとに最適な解を見つけるのに非常に効果的である。 また、単純なベンチマークアプローチよりもかなりサンプル効率が良い。 BOP-Elitesは、我々の予測に関する不確実性を定量化し、サロゲートモデルによる探索空間のさらなる照明を提供することにより、既存のQDアルゴリズムよりも優れている。

Quality Diversity (QD) algorithms such as MAP-Elites are a class of optimisation techniques that attempt to find a set of high-performing points from an objective function while enforcing behavioural diversity of the points over one or more interpretable, user chosen, feature functions. In this paper we propose the Bayesian Optimisation of Elites (BOP-Elites) algorithm that uses techniques from Bayesian Optimisation to explicitly model both quality and diversity with Gaussian Processes. By considering user defined regions of the feature space as 'niches' our task is to find the optimal solution in each niche. We propose a novel acquisition function to intelligently choose new points that provide the highest expected improvement to the ensemble problem of identifying the best solution in every niche. In this way each function evaluation enriches our modelling and provides insight to the whole problem, naturally balancing exploration and exploitation of the search space. The resulting algorithm is very effective in identifying the parts of the search space that belong to a niche in feature space, and finding the optimal solution in each niche. It is also significantly more sample efficient than simpler benchmark approaches. BOP-Elites goes further than existing QD algorithms by quantifying the uncertainty around our predictions and offering additional illumination of the search space through surrogate models.
翻訳日:2022-12-05 12:27:10 公開日:2020-05-08
# 交通予測のための多元情報を用いた動的時空間フレームワーク

An Effective Dynamic Spatio-temporal Framework with Multi-Source Information for Traffic Prediction ( http://arxiv.org/abs/2005.05128v1 )

ライセンス: Link先を確認
Jichen Wang, Weiguo Zhu, Yongqi Sun, Chunzi Tian(参考訳) 交通予測は、管理部門が車両を派遣するだけでなく、渋滞した道路を避けるためにも必要である。 近年,深層学習に基づく交通予測手法が数多く提案されており,その主な目的は空間的依存や時間的ダイナミクスの問題を解決することである。 本稿では,完全双方向lstm,より複雑な注意機構,および気象条件やイベントを含む外部特徴を組み合わせることで,都市交通量を予測するための有用な動的モデルを提案する。 第1に,双方向・一方向のハイブリッド方式とは異なる,各層における交通量の時間依存度を動的に得るための双方向lstmを採用し,第2に,短期・長期の時間依存度を学習するためのより精巧な注意機構を用いて,気象条件とイベントを外部の特徴として収集し,予測精度をさらに向上させる。 提案手法は,最近開発された手法と比較して,nyc-taxiおよびnyc-bikeデータセットの予測精度を約3-7%向上させ,都市交通予測に有用であることを示す。

Traffic prediction is necessary not only for management departments to dispatch vehicles but also for drivers to avoid congested roads. Many traffic forecasting methods based on deep learning have been proposed in recent years, and their main aim is to solve the problem of spatial dependencies and temporal dynamics. In this paper, we propose a useful dynamic model to predict the urban traffic volume by combining fully bidirectional LSTM, the more complex attention mechanism, and the external features, including weather conditions and events. First, we adopt the bidirectional LSTM to obtain temporal dependencies of traffic volume dynamically in each layer, which is different from the hybrid methods combining bidirectional and unidirectional ones; second, we use a more elaborate attention mechanism to learn short-term and long-term periodic temporal dependencies; and finally, we collect the weather conditions and events as the external features to further improve the prediction precision. The experimental results show that the proposed model improves the prediction precision by approximately 3-7 percent on the NYC-Taxi and NYC-Bike datasets compared to the most recently developed method, being a useful tool for the urban traffic prediction.
翻訳日:2022-12-05 12:26:46 公開日:2020-05-08
# ファシー履歴マッチングのためのアンサンブルスムーザとディープジェネレーティブネットワークを組み合わせた最近の開発

Recent Developments Combining Ensemble Smoother and Deep Generative Networks for Facies History Matching ( http://arxiv.org/abs/2005.10638v1 )

ライセンス: Link先を確認
Smith W. A. Canchumuni, Jose D. B. Castro, J\'ulia Potratz, Alexandre A. Emerick and Marco Aurelio C. Pacheco(参考訳) アンサンブルスムーサは、現在、歴史マッチングで利用可能な最も成功し、効率的なテクニックの1つです。 しかし、これらの手法はガウスの仮定に依存するため、以前の地質学が複雑な相の分布で記述されるときにその性能は著しく劣化する。 画像や映像生成などの分野におけるディープジェネレーティブネットワークによる印象的な結果に触発されて,faciesモデルの連続パラメータ化を構築するためのオートエンコーダネットワークの利用に関する調査を開始した。 前報では,複数点ジオ統計学で生成したモデルにおける生産データの履歴マッチングのために,畳み込み変分オートエンコーダ(VAE)とアンサンブルスムーダ(ES-MDA)を組み合わせた。 前回の論文で報告された良い結果にもかかわらず、設計されたパラメータ化の大きな制限は、アンサンブルスムーズな更新中に距離ベースのローカライズを適用できないことである。 本研究は,まず,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANによる主成分分析(PCA),転送スタイルネットワークを備えたPCA,VAEの7つの異なる形式をベンチマークする。 これらの定式化は、チャネル化相の合成履歴マッチング問題で検証される。 次に,深層学習パラメータ化を用いた距離に基づく局所化を実現するための2つの手法を提案する。

Ensemble smoothers are among the most successful and efficient techniques currently available for history matching. However, because these methods rely on Gaussian assumptions, their performance is severely degraded when the prior geology is described in terms of complex facies distributions. Inspired by the impressive results obtained by deep generative networks in areas such as image and video generation, we started an investigation focused on the use of autoencoders networks to construct a continuous parameterization for facies models. In our previous publication, we combined a convolutional variational autoencoder (VAE) with the ensemble smoother with multiple data assimilation (ES-MDA) for history matching production data in models generated with multiple-point geostatistics. Despite the good results reported in our previous publication, a major limitation of the designed parameterization is the fact that it does not allow applying distance-based localization during the ensemble smoother update, which limits its application in large-scale problems. The present work is a continuation of this research project focusing in two aspects: firstly, we benchmark seven different formulations, including VAE, generative adversarial network (GAN), Wasserstein GAN, variational auto-encoding GAN, principal component analysis (PCA) with cycle GAN, PCA with transfer style network and VAE with style loss. These formulations are tested in a synthetic history matching problem with channelized facies. Secondly, we propose two strategies to allow the use of distance-based localization with the deep learning parameterizations.
翻訳日:2022-12-05 12:26:07 公開日:2020-05-08
# 胸部X線前処理のためのY-Net:幾何の同時分類とアノテーションのセグメンテーション

Y-Net for Chest X-Ray Preprocessing: Simultaneous Classification of Geometry and Segmentation of Annotations ( http://arxiv.org/abs/2005.03824v1 )

ライセンス: Link先を確認
John McManigle, Raquel Bartz, Lawrence Carin(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)が画像分類とセグメンテーションの主要なアルゴリズムとして登場した。 近年の大規模医用画像データベースは, 医療分野における利用を加速している。 画像分類のためのトレーニングデータは、積極的な幾何学的拡張による恩恵を受ける一方、医学的診断(特に胸部X線写真)は特徴位置に強く依存する。 診断分類の結果は放射線学的注釈に依存することで人工的に向上する可能性がある。 この研究は、機械学習アルゴリズムに胸部X線入力のための一般的な前処理ステップを導入する。 VGG11エンコーダに基づく改良Y-Netアーキテクチャは、胸部の幾何方向(類似度変換パラメータ)とX線アノテーションのセグメンテーションを同時に学習するために使用される。 胸部x線は公開データベースから得られた。 アルゴリズムは1000個の手動ラベル付き画像でトレーニングされた。 その結果, 95.8%, アノテーションマスクは96.2% (n=500), 対照画像では27.0%, 34.9% (n=241) であった。 この前処理ステップが将来の診断アルゴリズムのロバスト性を改善すると仮定する。

Over the last decade, convolutional neural networks (CNNs) have emerged as the leading algorithms in image classification and segmentation. Recent publication of large medical imaging databases have accelerated their use in the biomedical arena. While training data for photograph classification benefits from aggressive geometric augmentation, medical diagnosis -- especially in chest radiographs -- depends more strongly on feature location. Diagnosis classification results may be artificially enhanced by reliance on radiographic annotations. This work introduces a general pre-processing step for chest x-ray input into machine learning algorithms. A modified Y-Net architecture based on the VGG11 encoder is used to simultaneously learn geometric orientation (similarity transform parameters) of the chest and segmentation of radiographic annotations. Chest x-rays were obtained from published databases. The algorithm was trained with 1000 manually labeled images with augmentation. Results were evaluated by expert clinicians, with acceptable geometry in 95.8% and annotation mask in 96.2% (n=500), compared to 27.0% and 34.9% respectively in control images (n=241). We hypothesize that this pre-processing step will improve robustness in future diagnostic algorithms.
翻訳日:2022-12-05 12:25:08 公開日:2020-05-08
# beyond cnns: セグメンテーションのための医学画像におけるさらに固有の対称性の活用

Beyond CNNs: Exploiting Further Inherent Symmetries in Medical Images for Segmentation ( http://arxiv.org/abs/2005.03924v1 )

ライセンス: Link先を確認
Shuchao Pang, Anan Du, Mehmet A. Orgun, Yan Wang, Quanzheng Sheng, Shoujin Wang, Xiaoshui Huang, Zhemei Yu(参考訳) 自動腫瘍分割はコンピュータ診断のための医用画像解析において重要なステップである。 畳み込みニューラルネットワーク(CNN)に基づく既存の手法は最先端のパフォーマンスを達成したが、依然として多くの課題が残っている。 これは、通常のCNNは、回転や反射のような医療画像に存在するさらに固有の対称性を無視して、翻訳不変性を利用できないためである。 この欠点を緩和するために,より正確な表現を学ぶために,それらの固有対称性を符号化することにより,新しい群同変分割フレームワークを提案する。 第一に、カーネルベースの同変演算は、既存のアプローチにおける学習対称性のギャップを効果的に解決できるあらゆる向きに考案される。 そして、セグメント化ネットワークをグローバルに均等に保つために、層対称制約を持つ特異な群層を設計する。 さらなる対称性を活用することで、新しいセグメンテーションCNNは、通常のCNNよりもサンプルの複雑さと(約2/3)の冗長性を劇的に低減することができる。 さらに, 新たな枠組みに基づき, 新たに構築した ger-unet が, 通常の cnn ベースと最先端臨床データセグメンテーション法を上回っていることを示す。 具体的には、セグメンテーションフレームワークの群層は、一般的なCNNベースのセグメンテーションアーキテクチャにシームレスに統合できます。

Automatic tumor segmentation is a crucial step in medical image analysis for computer-aided diagnosis. Although the existing methods based on convolutional neural networks (CNNs) have achieved the state-of-the-art performance, many challenges still remain in medical tumor segmentation. This is because regular CNNs can only exploit translation invariance, ignoring further inherent symmetries existing in medical images such as rotations and reflections. To mitigate this shortcoming, we propose a novel group equivariant segmentation framework by encoding those inherent symmetries for learning more precise representations. First, kernel-based equivariant operations are devised on every orientation, which can effectively address the gaps of learning symmetries in existing approaches. Then, to keep segmentation networks globally equivariant, we design distinctive group layers with layerwise symmetry constraints. By exploiting further symmetries, novel segmentation CNNs can dramatically reduce the sample complexity and the redundancy of filters (by roughly 2/3) over regular CNNs. More importantly, based on our novel framework, we show that a newly built GER-UNet outperforms its regular CNN-based counterpart and the state-of-the-art segmentation methods on real-world clinical data. Specifically, the group layers of our segmentation framework can be seamlessly integrated into any popular CNN-based segmentation architectures.
翻訳日:2022-12-05 12:24:19 公開日:2020-05-08
# 肝細胞癌における遺伝子変異予測のためのマルチインスタンスマルチラベル学習

Multi-Instance Multi-Label Learning for Gene Mutation Prediction in Hepatocellular Carcinoma ( http://arxiv.org/abs/2005.04073v1 )

ライセンス: Link先を確認
Kaixin Xu, Ziyuan Zhao, Jiapan Gu, Zeng Zeng, Chan Wan Ying, Lim Kheng Choon, Thng Choon Hua, Pierce KH Chow(参考訳) 肝細胞癌(HCC)における遺伝子変異の予測は、パーソナライズされた治療と精密な治療に非常に有用である。 本稿では,ラベル相関やラベル表現などの困難に対処するために,マルチインスタンスマルチラベル学習を用いてこの問題に取り組む。 さらに、データ不均衡に対して効果的なオーバーサンプリング戦略を適用する。 実験の結果,提案手法の優位性が示された。

Gene mutation prediction in hepatocellular carcinoma (HCC) is of great diagnostic and prognostic value for personalized treatments and precision medicine. In this paper, we tackle this problem with multi-instance multi-label learning to address the difficulties on label correlations, label representations, etc. Furthermore, an effective oversampling strategy is applied for data imbalance. Experimental results have shown the superiority of the proposed approach.
翻訳日:2022-12-05 12:17:36 公開日:2020-05-08
# モデル予測制御のためのニューラルネットワークアプローチの訓練と評価について

On Training and Evaluation of Neural Network Approaches for Model Predictive Control ( http://arxiv.org/abs/2005.04112v1 )

ライセンス: Link先を確認
Rebecka Winqvist, Arun Venkitaraman, Bo Wahlberg(参考訳) 本稿では,制約付きニューラルネットワークを用いたモデル予測制御(mpc)の学習と評価のための枠組みを提案する。 近年、モデル予測コントローラを実装するために、微分可能な凸最適化層を持つニューラルネットワークの利用が提案されている。 モチベーションは、安全クリティカルフィードバック制御システムにおけるリアルタイム最適化をニューラルネットワークの形式で学習マッピングに置き換えることである。 このような写像は状態ベクトルを入力とし、制御則を出力として予測する。 学習は、オフラインMPCシミュレーションから生成されたトレーニングデータを用いて行われる。 しかし、モデル検証と効率的なトレーニングデータ生成の両方の観点から学習アプローチを特徴づけるための一般的な枠組みは、文献に欠けている。 本稿では,このようなコヒーレントなフレームワークの開発に向けて第一歩を踏み出す。 本稿では,学習問題とシステム識別,特に入力設計,モデル構造選択,モデル検証の類似性について論じる。 PyTorchにおけるニューラルネットワークアーキテクチャの研究を,CVXPYを用いた微分可能な最適化層として実装された明示的なMPC制約を用いて検討する。 そこで本研究では,MPCモデル制約を考慮したMPC入力サンプルを生成する手法を提案する。 osopを用いてmpcをオフラインで解いて対応する真の出力を生成する。 得られたアプローチを検証するために、異なるメトリクスを提案する。 本研究は,ネットワーク構造にドメイン知識を組み込むことの利点を,学習・評価の観点から検討することを目的とする。 制約付きニューラルネットワークに基づくmpcの特性に関するさらなる知見を得るために,提案手法を用いて異なるモデル構造を数値的に検証した。

The contribution of this paper is a framework for training and evaluation of Model Predictive Control (MPC) implemented using constrained neural networks. Recent studies have proposed to use neural networks with differentiable convex optimization layers to implement model predictive controllers. The motivation is to replace real-time optimization in safety critical feedback control systems with learnt mappings in the form of neural networks with optimization layers. Such mappings take as the input the state vector and predict the control law as the output. The learning takes place using training data generated from off-line MPC simulations. However, a general framework for characterization of learning approaches in terms of both model validation and efficient training data generation is lacking in literature. In this paper, we take the first steps towards developing such a coherent framework. We discuss how the learning problem has similarities with system identification, in particular input design, model structure selection and model validation. We consider the study of neural network architectures in PyTorch with the explicit MPC constraints implemented as a differentiable optimization layer using CVXPY. We propose an efficient approach of generating MPC input samples subject to the MPC model constraints using a hit-and-run sampler. The corresponding true outputs are generated by solving the MPC offline using OSOP. We propose different metrics to validate the resulting approaches. Our study further aims to explore the advantages of incorporating domain knowledge into the network structure from a training and evaluation perspective. Different model structures are numerically tested using the proposed framework in order to obtain more insights in the properties of constrained neural networks based MPC.
翻訳日:2022-12-05 12:16:56 公開日:2020-05-08
# 混合グラフィカルモデル学習のためのスケーラブルな生死mcmcアルゴリズムとゲノムデータ統合への応用

The scalable Birth-Death MCMC Algorithm for Mixed Graphical Model Learning with Application to Genomic Data Integration ( http://arxiv.org/abs/2005.04139v1 )

ライセンス: Link先を確認
Nanwei Wang, Laurent Briollais, Helene Massam(参考訳) 生物学的研究の最近の進歩は、前例のない深さとスケールでの生物学的メカニズムの研究を可能にする多くの応用で高スループット技術が出現した。 大量のゲノムデータが現在、癌ゲノムアトラス(tcga)のような配偶者を通して配布されており、特定の種類の組織や細胞に関する特定の種類の生物学的情報が利用可能である。 がん研究において、課題は、特定のがんサブグループ(がんサブタイピング)を識別する解明された遺伝子ネットワークや、異なるがんタイプにまたがる遺伝子ネットワーク(がん研究)など、がんの結果と相関するゲノム過程をよりよく理解することを目的として、高次元のマルチオミクスデータの統合分析を行うことである。 本稿では,異なる型(連続性,離散性,数)のマルチオーミックデータを解析し,最初に \citet{stephens2000bayesian} が提案し,後に \cite{mohammadi2015bayesian} が提案したBDMCMCアルゴリズムを拡張してモデル選択を行う,新しい混合グラフィカルモデルを提案する。 シミュレーションを用いて本手法の性能をlasso法と標準bdmcmc法と比較し,提案手法が計算効率とモデル選択結果の精度の両方において優れていることを確認した。 最後に、tcga乳がんデータへの応用により、異なるレベルのゲノム情報(変異と発現データ)の統合により、乳癌のサブタイプが向上することが示された。

Recent advances in biological research have seen the emergence of high-throughput technologies with numerous applications that allow the study of biological mechanisms at an unprecedented depth and scale. A large amount of genomic data is now distributed through consortia like The Cancer Genome Atlas (TCGA), where specific types of biological information on specific type of tissue or cell are available. In cancer research, the challenge is now to perform integrative analyses of high-dimensional multi-omic data with the goal to better understand genomic processes that correlate with cancer outcomes, e.g. elucidate gene networks that discriminate a specific cancer subgroups (cancer sub-typing) or discovering gene networks that overlap across different cancer types (pan-cancer studies). In this paper, we propose a novel mixed graphical model approach to analyze multi-omic data of different types (continuous, discrete and count) and perform model selection by extending the Birth-Death MCMC (BDMCMC) algorithm initially proposed by \citet{stephens2000bayesian} and later developed by \cite{mohammadi2015bayesian}. We compare the performance of our method to the LASSO method and the standard BDMCMC method using simulations and find that our method is superior in terms of both computational efficiency and the accuracy of the model selection results. Finally, an application to the TCGA breast cancer data shows that integrating genomic information at different levels (mutation and expression data) leads to better subtyping of breast cancers.
翻訳日:2022-12-05 12:16:36 公開日:2020-05-08
# 評判のエージェント:ギグマーケットで公正なレビューを促す

Reputation Agent: Prompting Fair Reviews in Gig Markets ( http://arxiv.org/abs/2005.06022v1 )

ライセンス: Link先を確認
Carlos Toxtli, Angela Richmond-Fuller, Saiph Savage(参考訳) 本研究は,ギグマーケットにおける依頼者(従業員や顧客)の公正なレビューを促進するための新たなツールであるReputation Agentを提案する。 不公平なレビューは、要求者が労働者の支配外の要因を考慮すれば、ギグワーカーを苦しめることで知られ、仕事の機会を失い、市場から立ち去ることさえある。 本ツールは,機械学習を活用して知的インターフェースを実装している。(1) 個人が不公平な要因(市場の方針に応じた労働者の統制外の要素)をいつ含んでいるかを自動的に検出し,(2) 不公平な要因を取り入れた場合,再考を促す。 評価エージェントの有効性を検討するため,異なるギグ市場を対象とした制御実験を行った。 提案実験は,従来のアプローチとは対照的に,市場全体において,ギグワーカーのパフォーマンスをより公平にレビューするモチベーションを担っていることを示す。 我々は、ギグマーケットのポリシーに関する雇用者への透明性を高めるツールが、共感を構築するのにどう役立つかについて議論し、その結果、これらのインターフェースによって生成された労働者に対する潜在的な不正に関する合理的な議論につながった。 私たちのビジョンは、真実と透明性を促進するツールによって、ギグワーカーに公平な治療をもたらすことです。

Our study presents a new tool, Reputation Agent, to promote fairer reviews from requesters (employers or customers) on gig markets. Unfair reviews, created when requesters consider factors outside of a worker's control, are known to plague gig workers and can result in lost job opportunities and even termination from the marketplace. Our tool leverages machine learning to implement an intelligent interface that: (1) uses deep learning to automatically detect when an individual has included unfair factors into her review (factors outside the worker's control per the policies of the market); and (2) prompts the individual to reconsider her review if she has incorporated unfair factors. To study the effectiveness of Reputation Agent, we conducted a controlled experiment over different gig markets. Our experiment illustrates that across markets, Reputation Agent, in contrast with traditional approaches, motivates requesters to review gig workers' performance more fairly. We discuss how tools that bring more transparency to employers about the policies of a gig market can help build empathy thus resulting in reasoned discussions around potential injustices towards workers generated by these interfaces. Our vision is that with tools that promote truth and transparency we can bring fairer treatment to gig workers.
翻訳日:2022-12-05 12:08:18 公開日:2020-05-08
# 低用量CT再構成のための多層残差分変換モデル

Learned Multi-layer Residual Sparsifying Transform Model for Low-dose CT Reconstruction ( http://arxiv.org/abs/2005.03825v1 )

ライセンス: Link先を確認
Xikai Yang, Xuehang Zheng, Yong Long, Saiprasad Ravishankar(参考訳) 近年,スパース表現に基づく信号モデルが注目されている。 合成辞書学習と比較して、スパース変換学習は、高度に効率的なスパース符号化と演算子更新ステップを含む。 本研究では,変換領域残差を層上で共分散したMRST学習モデルを提案する。 特に、より深い層に対する変換は、残留写像のより複雑な性質を利用する。 PWLS(Penalized Weighted Least Squares)最適化を用いた低用量CT再構成におけるMRSTモデルの応用について検討した。 mayoクリニックデータを用いた実験結果から,mrstモデルは,エッジ保存(ep)正則化と単層変換(st)モデルに基づくfbp法やpwls法などの従来の手法よりも優れており,特に微妙な細部を保っている。

Signal models based on sparse representation have received considerable attention in recent years. Compared to synthesis dictionary learning, sparsifying transform learning involves highly efficient sparse coding and operator update steps. In this work, we propose a Multi-layer Residual Sparsifying Transform (MRST) learning model wherein the transform domain residuals are jointly sparsified over layers. In particular, the transforms for the deeper layers exploit the more intricate properties of the residual maps. We investigate the application of the learned MRST model for low-dose CT reconstruction using Penalized Weighted Least Squares (PWLS) optimization. Experimental results on Mayo Clinic data show that the MRST model outperforms conventional methods such as FBP and PWLS methods based on edge-preserving (EP) regularizer and single-layer transform (ST) model, especially for maintaining some subtle details.
翻訳日:2022-12-05 12:07:54 公開日:2020-05-08
# 消化管異常分類を応用した機械学習のためのクロスデータセットバイアスと評価メトリクス解釈に関する広範囲研究

An Extensive Study on Cross-Dataset Bias and Evaluation Metrics Interpretation for Machine Learning applied to Gastrointestinal Tract Abnormality Classification ( http://arxiv.org/abs/2005.03912v1 )

ライセンス: Link先を確認
Vajira Thambawita, Debesh Jha, Hugo Lewi Hammer, H{\aa}vard D. Johansen, Dag Johansen, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 消化管疾患の精密かつ効率的な診断は、より多くの患者を治療し、疾患の検出と同定の速度を改善するのに役立つ。 現在、GI領域における疾患の自動解析は、コンピュータ科学と医療関連ジャーナルの両方でホットな話題となっている。 しかし、そのような自動解析の評価は不完全か単に誤りであることが多い。 アルゴリズムは、しばしば小さく偏ったデータセットでのみテストされ、データセット間の評価はめったに行われない。 クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。 そこで本研究では,グローバル特徴を用いた5つの機械学習モデルと深層ニューラルネットワークを用いて,病理所見,解剖学的ランドマーク,ポリープ除去条件,一般消化管検査器で撮影された画像から16種類のキータイプを分類可能な機械学習モデルの包括的評価を行う。 本評価では, 再現性, 精度, 特異性, 精度, F1スコア, マシューズ相関係数の6つの評価指標を用いて, モデルの性能を浅く評価するよりも, モデルの実機能を決定する方法を示す。 さらに,トレーニングとテストのために,異なるデータセットを用いてデータセット間評価を行う。 これらのクロスデータセット評価により、異なる病院で使用できる一般化可能なモデルを構築することの難しさを実演する。 私たちの実験では、同じデータセットの分割の評価に依存するのではなく、信頼性の高いモデルを得るために、より洗練されたパフォーマンスメトリクスと評価方法を適用する必要があることが明確に示されています。

Precise and efficient automated identification of Gastrointestinal (GI) tract diseases can help doctors treat more patients and improve the rate of disease detection and identification. Currently, automatic analysis of diseases in the GI tract is a hot topic in both computer science and medical-related journals. Nevertheless, the evaluation of such an automatic analysis is often incomplete or simply wrong. Algorithms are often only tested on small and biased datasets, and cross-dataset evaluations are rarely performed. A clear understanding of evaluation metrics and machine learning models with cross datasets is crucial to bring research in the field to a new quality level. Towards this goal, we present comprehensive evaluations of five distinct machine learning models using Global Features and Deep Neural Networks that can classify 16 different key types of GI tract conditions, including pathological findings, anatomical landmarks, polyp removal conditions, and normal findings from images captured by common GI tract examination instruments. In our evaluation, we introduce performance hexagons using six performance metrics such as recall, precision, specificity, accuracy, F1-score, and Matthews Correlation Coefficient to demonstrate how to determine the real capabilities of models rather than evaluating them shallowly. Furthermore, we perform cross-dataset evaluations using different datasets for training and testing. With these cross-dataset evaluations, we demonstrate the challenge of actually building a generalizable model that could be used across different hospitals. Our experiments clearly show that more sophisticated performance metrics and evaluation methods need to be applied to get reliable models rather than depending on evaluations of the splits of the same dataset, i.e., the performance metrics should always be interpreted together rather than relying on a single metric.
翻訳日:2022-12-05 12:06:09 公開日:2020-05-08
# sherpa: 機械学習のためのロバストなハイパーパラメータ最適化

Sherpa: Robust Hyperparameter Optimization for Machine Learning ( http://arxiv.org/abs/2005.04048v1 )

ライセンス: Link先を確認
Lars Hertel, Julian Collado, Peter Sadowski, Jordan Ott, Pierre Baldi(参考訳) Sherpaは、機械学習モデルのためのハイパーパラメータ最適化ライブラリである。 ディープニューラルネットワークのハイパーパラメータチューニングのような計算コストが高く反復的な関数評価の問題に特化して設計されている。 Sherpaを使えば、さまざまな強力で交換可能なアルゴリズムを使って、ハイパーパラメータを迅速に最適化できる。 Sherpaは単一のマシン上で、あるいはクラスタ上で並列に実行することができる。 最後に、インタラクティブなダッシュボードによって、トレーニング中のモデルの進捗を閲覧したり、トライアルをキャンセルしたり、ハイパーパラメータの組み合わせが最もうまく機能するかを探索することができる。 Sherpaは、モデルチューニングのより面倒な側面を自動化することによって、機械学習の実践者を強化する。 ソースコードとドキュメントはhttps://github.com/sherpa-ai/sherpaで入手できる。

Sherpa is a hyperparameter optimization library for machine learning models. It is specifically designed for problems with computationally expensive, iterative function evaluations, such as the hyperparameter tuning of deep neural networks. With Sherpa, scientists can quickly optimize hyperparameters using a variety of powerful and interchangeable algorithms. Sherpa can be run on either a single machine or in parallel on a cluster. Finally, an interactive dashboard enables users to view the progress of models as they are trained, cancel trials, and explore which hyperparameter combinations are working best. Sherpa empowers machine learning practitioners by automating the more tedious aspects of model tuning. Its source code and documentation are available at https://github.com/sherpa-ai/sherpa.
翻訳日:2022-12-05 12:00:07 公開日:2020-05-08
# 歪み制約付き最適化による損失圧縮

Lossy Compression with Distortion Constrained Optimization ( http://arxiv.org/abs/2005.04064v1 )

ライセンス: Link先を確認
Ties van Rozendaal, Guillaume Sauti\`ere, Taco S. Cohen(参考訳) エンドツーエンドの学習モデルによる損失圧縮のトレーニングでは、レートと歪み損失のバランスを取る必要がある。 これは通常、$\beta$-VAEと呼ばれるアプローチである$\beta$を手動で設定する。 このアプローチを使用すると、結果は$\beta$に非常に敏感であり、$\beta$の適切な値はモデルと問題の設定に依存するため、特定のレートまたは歪み値をターゲットにすることは困難である。 その結果、モデルの比較には、モデル毎の大規模な$\beta$-tuningが必要となり、比較対象モデルごとに($\beta$によって)全率歪み曲線を生成する。 rezende と viola, 2018 の制約付き最適化法は、歪みの制約を受ける最良のレートを得ることができるため、損失のある圧縮モデルのトレーニングにずっと適している。 これにより、同じ歪み目標を持つ2つのモデルをトレーニングし、それらの速度を比較することで、ポイントワイズモデルの比較が可能になる。 提案手法は,現実的な画像圧縮タスクの制約を満たすことができ,ヒンジロスに基づく制約付き最適化手法よりも優れており,モデル選択に$\beta$-VAEよりも実用的であることを示す。

When training end-to-end learned models for lossy compression, one has to balance the rate and distortion losses. This is typically done by manually setting a tradeoff parameter $\beta$, an approach called $\beta$-VAE. Using this approach it is difficult to target a specific rate or distortion value, because the result can be very sensitive to $\beta$, and the appropriate value for $\beta$ depends on the model and problem setup. As a result, model comparison requires extensive per-model $\beta$-tuning, and producing a whole rate-distortion curve (by varying $\beta$) for each model to be compared. We argue that the constrained optimization method of Rezende and Viola, 2018 is a lot more appropriate for training lossy compression models because it allows us to obtain the best possible rate subject to a distortion constraint. This enables pointwise model comparisons, by training two models with the same distortion target and comparing their rate. We show that the method does manage to satisfy the constraint on a realistic image compression task, outperforms a constrained optimization method based on a hinge-loss, and is more practical to use for model selection than a $\beta$-VAE.
翻訳日:2022-12-05 11:59:55 公開日:2020-05-08
# 線形回帰のためのクロスドメイン転送自動学習

Automatic Cross-Domain Transfer Learning for Linear Regression ( http://arxiv.org/abs/2005.04088v1 )

ライセンス: Link先を確認
Liu Xinshun, He Xin, Mao Hui, Liu Jing, Lai Weizhong, Ye Qingwen(参考訳) トランスファーラーニング研究は、異なるドメイン間でモデル誘導を転送できるようにする。 この方法は、各インスタンスが属するドメインに関する特定の情報が知られていると仮定する。 本稿では,線形回帰問題に対する転送学習の能力を,ドメイン情報が不確かあるいは不明な状況にまで拡張することを支援する。 通常のデータセットでは、移行学習のために潜在ドメイン情報が利用できると仮定する。 各ドメインのインスタンスは、異なるパラメータによって推測できる。 このドメイン情報は、説明変数 $x$ に対応する回帰係数の分布と、ディリクレプロセスに基づく応答変数 $y$ から得られる。 その結果、通常通り変数$x$を転送するだけでなく、変数$y$を転送します。 先行研究は主に、重大バイアスをもたらす帰納的学習に基づく擬似ラベリングを通じてこの問題を克服している。 問題を分析するための新しいフレームワークを提供し、この一般的な状況を考慮している:変数 $x$ と変数 $y$ のジョイント分布。 さらに,本手法は従来の手法と比較してバイアスをよく制御する。 我々は、異なる潜在ドメインとテストデータである対象ドメインからなる新しい特徴空間に対して線形回帰を行う。 実験結果から,提案モデルが実際のデータセットで良好に動作することを示す。

Transfer learning research attempts to make model induction transferable across different domains. This method assumes that specific information regarding to which domain each instance belongs is known. This paper helps to extend the capability of transfer learning for linear regression problems to situations where the domain information is uncertain or unknown; in fact, the framework can be extended to classification problems. For normal datasets, we assume that some latent domain information is available for transfer learning. The instances in each domain can be inferred by different parameters. We obtain this domain information from the distribution of the regression coefficients corresponding to the explanatory variable $x$ as well as the response variable $y$ based on a Dirichlet process, which is more reasonable. As a result, we transfer not only variable $x$ as usual but also variable $y$, which is challenging since the testing data have no response value. Previous work mainly overcomes the problem via pseudo-labelling based on transductive learning, which introduces serious bias. We provide a novel framework for analysing the problem and considering this general situation: the joint distribution of variable $x$ and variable $y$. Furthermore, our method controls the bias well compared with previous work. We perform linear regression on the new feature space that consists of different latent domains and the target domain, which is from the testing data. The experimental results show that the proposed model performs well on real datasets.
翻訳日:2022-12-05 11:59:33 公開日:2020-05-08
# エッジアプリケーションのための畳み込みニューラルネットワークを高速化するpruningアルゴリズム:調査

Pruning Algorithms to Accelerate Convolutional Neural Networks for Edge Applications: A Survey ( http://arxiv.org/abs/2005.04275v1 )

ライセンス: Link先を確認
Jiayi Liu, Samarth Tripathi, Unmesh Kurup, Mohak Shah(参考訳) 畳み込みニューラルネットワーク(CNN)モデルのサイズが増大する一般的な傾向により、モデル圧縮とアクセラレーション技術は、これらのモデルをエッジデバイスにデプロイするために重要になっている。 本稿では,cnnモデルから非臨界または冗長なニューロンを除去する主要な圧縮戦略であるpruningについて,包括的調査を行う。 調査は、プルーニングの全体的なモチベーション、さまざまな戦略と基準、そのメリットと欠点、主要なプルーニングテクニックのまとめなどをカバーしている。 モデル圧縮コミュニティにおける刈り取りの代替策と現在の課題について,本調査を締めくくった。

With the general trend of increasing Convolutional Neural Network (CNN) model sizes, model compression and acceleration techniques have become critical for the deployment of these models on edge devices. In this paper, we provide a comprehensive survey on Pruning, a major compression strategy that removes non-critical or redundant neurons from a CNN model. The survey covers the overarching motivation for pruning, different strategies and criteria, their advantages and drawbacks, along with a compilation of major pruning techniques. We conclude the survey with a discussion on alternatives to pruning and current challenges for the model compression community.
翻訳日:2022-12-05 11:59:14 公開日:2020-05-08
# OpenEDS2020: Open Eyes Dataset

OpenEDS2020: Open Eyes Dataset ( http://arxiv.org/abs/2005.03876v1 )

ライセンス: Link先を確認
Cristina Palmero, Abhishek Sharma, Karsten Behrendt, Kapil Krishnakumar, Oleg V. Komogortsev, Sachin S. Talathi(参考訳) 我々は,2つの同期眼球カメラを搭載した仮想現実感ヘッドマウントディスプレイを用いて,100Hzのフレームレートで撮影した新しいアイ画像のデータセットであるOpenEDS2020を提示する。 参加者の個人を特定できる情報を取り除くために匿名化されたデータセットは、様々な外見を持つ80人の参加者で構成され、複数の視線誘発タスクを実行し、2つのサブセットに分けられる。 1) 時空間的視線推定及び予測アプローチの研究を促進するために,550,400個の視線画像と各視線ベクトルを含む最大66,560個の視線予測データセットが作成された。 2) 5Hzでサンプリングされた200のシーケンスと最大29,500枚の画像で構成され,5%には意味的セグメンテーションラベルが含まれており,連続したフレームにラベルを伝達するための時間情報の利用を促進するために考案された。 opens2020では、1つのタスクに対して平均角誤差が5.37度であり、将来1から5フレームで視線予測を行う場合の平均角誤差は5.37度であり、セマンティクスセグメンテーションではユニオンスコアの平均交点が84.1%である。 これまでのOpenEDSデータセットとして、この新たなデータセットは、視線追跡、機械学習、コンピュータビジョンのコミュニティの研究者にとって、バーチャルリアリティーアプリケーションのための最先端技術の機会を引き続き生み出すことを期待しています。 データセットはhttp://research.fb.com/programs/openeds-2020-challenge/からダウンロードできる。

We present the second edition of OpenEDS dataset, OpenEDS2020, a novel dataset of eye-image sequences captured at a frame rate of 100 Hz under controlled illumination, using a virtual-reality head-mounted display mounted with two synchronized eye-facing cameras. The dataset, which is anonymized to remove any personally identifiable information on participants, consists of 80 participants of varied appearance performing several gaze-elicited tasks, and is divided in two subsets: 1) Gaze Prediction Dataset, with up to 66,560 sequences containing 550,400 eye-images and respective gaze vectors, created to foster research in spatio-temporal gaze estimation and prediction approaches; and 2) Eye Segmentation Dataset, consisting of 200 sequences sampled at 5 Hz, with up to 29,500 images, of which 5% contain a semantic segmentation label, devised to encourage the use of temporal information to propagate labels to contiguous frames. Baseline experiments have been evaluated on OpenEDS2020, one for each task, with average angular error of 5.37 degrees when performing gaze prediction on 1 to 5 frames into the future, and a mean intersection over union score of 84.1% for semantic segmentation. As its predecessor, OpenEDS dataset, we anticipate that this new dataset will continue creating opportunities to researchers in eye tracking, machine learning and computer vision communities, to advance the state of the art for virtual reality applications. The dataset is available for download upon request at http://research.fb.com/programs/openeds-2020-challenge/.
翻訳日:2022-12-05 11:58:04 公開日:2020-05-08
# 複数の車両搭載カメラから鳥眼視におけるセマンティック・セグメンテーション画像への画像変換のためのSim2Real Deep Learningアプローチ

A Sim2Real Deep Learning Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's Eye View ( http://arxiv.org/abs/2005.04078v1 )

ライセンス: Link先を確認
Lennart Reiher, Bastian Lampe, Lutz Eckstein(参考訳) 自動走行には正確な環境認識が不可欠である。 単眼カメラを使用する場合、環境中の要素の距離推定は大きな課題となる。 カメラ視点が鳥の目視(BEV)に変換されるとき、距離をより容易に推定することができる。 平面に対して、逆パースペクティブマッピング(IPM)は、画像を正確にBEVに変換することができる。 車両や道路利用者などの3次元物体は、この変換によって歪んでおり、センサに対する位置推定が困難である。 本稿では,複数の車載カメラから得られた画像を補正した360{\deg} BEV画像を得る手法について述べる。 補正されたBEV画像はセマンティッククラスに区分され、隠蔽領域の予測を含む。 ニューラルネットワークのアプローチは、手動のラベル付きデータに頼るのではなく、現実世界のデータにうまく一般化するように、合成データセット上でトレーニングされる。 セグメンテーションされたイメージを入力として使用することにより、シミュレーションと実世界のデータ間の現実的ギャップを減らし、実世界に適用できることを示す。 合成データを用いた大規模な実験は,IMMと比較して,我々のアプローチの優位性を示した。 ソースコードとデータセットはhttps://github.com/ika-rwth-aachen/Cam2BEVで入手できる。

Accurate environment perception is essential for automated driving. When using monocular cameras, the distance estimation of elements in the environment poses a major challenge. Distances can be more easily estimated when the camera perspective is transformed to a bird's eye view (BEV). For flat surfaces, Inverse Perspective Mapping (IPM) can accurately transform images to a BEV. Three-dimensional objects such as vehicles and vulnerable road users are distorted by this transformation making it difficult to estimate their position relative to the sensor. This paper describes a methodology to obtain a corrected 360{\deg} BEV image given images from multiple vehicle-mounted cameras. The corrected BEV image is segmented into semantic classes and includes a prediction of occluded areas. The neural network approach does not rely on manually labeled data, but is trained on a synthetic dataset in such a way that it generalizes well to real-world data. By using semantically segmented images as input, we reduce the reality gap between simulated and real-world data and are able to show that our method can be successfully applied in the real world. Extensive experiments conducted on the synthetic data demonstrate the superiority of our approach compared to IPM. Source code and datasets are available at https://github.com/ika-rwth-aachen/Cam2BEV
翻訳日:2022-12-05 11:57:37 公開日:2020-05-08
# スパースラベルソースによるドメイン適応支援

Sparsely-Labeled Source Assisted Domain Adaptation ( http://arxiv.org/abs/2005.04111v1 )

ライセンス: Link先を確認
Wei Wang, Zhihui Wang, Yuankai Xiang, Jing Sun, Haojie Li, Fuming Sun, Zhengming Ding(参考訳) ドメイン適応(DA)は、ソースドメインから学習した分類器をターゲットドメインに一般化することを目的としている。 既存のDAメソッドは通常、リッチなラベルがソースドメインで利用できると仮定する。 しかし、通常、多くのラベルのないデータがありますが、ソースドメイン内のラベル付きデータはほとんどありません。そして、このばらばらにラベル付けされたソースドメインからターゲットドメインに知識を転送する方法は、まだ課題です。 本稿では,slsa-da(sparsely-labeled source assisted domain adaptation)アルゴリズムを提案する。 具体的には、ラベル不足の問題により、ソースドメインとターゲットドメインの両方で投影されたクラスタリングが行われ、データの識別構造をエレガントに活用することができる。 そして、ラベル伝搬を用いて、これらの制限されたラベル付きソースサンプルからラベルなしデータ全体へとラベルを段階的に伝播し、クラスタラベルを正しく開示する。 最後に,境界分布と条件分布を協調的に調整し,クロスドメインミスマッチ問題を緩和し,これら3つの手順を反復的に最適化する。 しかし、これらの3つの手順を統一最適化フレームワークにシームレスに組み込むことは自明ではない。 注目すべきは、予測クラスタリングと条件分布アライメントが異なる表現として再構成可能であることを示し、暗黙変数を異なる最適化ステップで明らかにする。 このようにして、これら3つの量に関連する変数は統一最適化フレームワークで最適化され、相互に容易になり、認識性能が明らかに向上する。

Domain Adaptation (DA) aims to generalize the classifier learned from the source domain to the target domain. Existing DA methods usually assume that rich labels could be available in the source domain. However, there are usually a large number of unlabeled data but only a few labeled data in the source domain, and how to transfer knowledge from this sparsely-labeled source domain to the target domain is still a challenge, which greatly limits their application in the wild. This paper proposes a novel Sparsely-Labeled Source Assisted Domain Adaptation (SLSA-DA) algorithm to address the challenge with limited labeled source domain samples. Specifically, due to the label scarcity problem, the projected clustering is conducted on both the source and target domains, so that the discriminative structures of data could be leveraged elegantly. Then the label propagation is adopted to propagate the labels from those limited labeled source samples to the whole unlabeled data progressively, so that the cluster labels are revealed correctly. Finally, we jointly align the marginal and conditional distributions to mitigate the cross-domain mismatch problem, and optimize those three procedures iteratively. However, it is nontrivial to incorporate those three procedures into a unified optimization framework seamlessly since some variables to be optimized are implicitly involved in their formulas, thus they could not promote to each other. Remarkably, we prove that the projected clustering and conditional distribution alignment could be reformulated as different expressions, thus the implicit variables are revealed in different optimization steps. As such, the variables related to those three quantities could be optimized in a unified optimization framework and facilitate to each other, to improve the recognition performance obviously.
翻訳日:2022-12-05 11:57:17 公開日:2020-05-08
# 正確性を超えて: CheckListによるNLPモデルの振る舞いテスト

Beyond Accuracy: Behavioral Testing of NLP models with CheckList ( http://arxiv.org/abs/2005.04118v1 )

ライセンス: Link先を確認
Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh(参考訳) ホールドアウト精度の測定は一般化を評価するための主要なアプローチであるが、nlpモデルの性能を過大評価することが多い。 ソフトウェア工学における振る舞いテストの原則に触発されて,NLPモデルをテストするためのタスクに依存しない手法であるCheckListを紹介した。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスと、多数の多様なテストケースを迅速に生成するソフトウェアツールが含まれている。 3つのタスクに対するテストでチェックリストの有用性を説明し、商用モデルと最先端モデルの両方において重大な障害を特定する。 ユーザ調査では、商業的感情分析モデルを担当するチームが、広範囲にテストされたモデルで新しくて実行可能なバグを発見した。 別のユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。

Although measuring held-out accuracy has been the primary approach to evaluate generalization, it often overestimates the performance of NLP models, while alternative approaches for evaluating models either focus on individual tasks or on specific behaviors. Inspired by principles of behavioral testing in software engineering, we introduce CheckList, a task-agnostic methodology for testing NLP models. CheckList includes a matrix of general linguistic capabilities and test types that facilitate comprehensive test ideation, as well as a software tool to generate a large and diverse number of test cases quickly. We illustrate the utility of CheckList with tests for three tasks, identifying critical failures in both commercial and state-of-art models. In a user study, a team responsible for a commercial sentiment analysis model found new and actionable bugs in an extensively tested model. In another user study, NLP practitioners with CheckList created twice as many tests, and found almost three times as many bugs as users without it.
翻訳日:2022-12-05 11:50:21 公開日:2020-05-08
# 南アフリカの公用語のためのニューラルマシン翻訳

Neural Machine Translation for South Africa's Official Languages ( http://arxiv.org/abs/2005.06609v1 )

ライセンス: Link先を確認
Laura Martinus, Jason Webster, Joanne Moonsamy, Moses Shaba Jnr, Ridha Moosa, Robert Fairon(参考訳) ニューラルマシン翻訳(NMT)の最近の進歩は、多くのヨーロッパベースの翻訳タスクに最先端の結果をもたらした。 しかし、これらの進歩にもかかわらず、アフリカの言語にこれらの方法を適用することにはほとんど焦点が当てられていない。 本稿では,NMTベンチマークBLEUスコアを英語と南アフリカにおける10の公用語間で作成することにより,このギャップに対処する。

Recent advances in neural machine translation (NMT) have led to state-of-the-art results for many European-based translation tasks. However, despite these advances, there is has been little focus in applying these methods to African languages. In this paper, we seek to address this gap by creating an NMT benchmark BLEU score between English and the ten remaining official languages in South Africa.
翻訳日:2022-12-05 11:49:54 公開日:2020-05-08
# 電子健康記録におけるテキスト分類手法の比較分析

Comparative Analysis of Text Classification Approaches in Electronic Health Records ( http://arxiv.org/abs/2005.06624v1 )

ライセンス: Link先を確認
Aurelie Mascio, Zeljko Kraljevic, Daniel Bean, Richard Dobson, Robert Stewart, Rebecca Bendayan, Angus Roberts(参考訳) 電子健康記録から情報を収集・整理することを目的としたテキスト分類タスクは、臨床・翻訳研究を支援するために重要である。 しかし、これらの具体的な課題は他の分類課題と比較して、特に臨床記録に使用される医療レキシコンと言語の性質が原因である。 近年, 組込み手法の進歩はいくつかの臨床課題において有望な成果を上げているが, 他の一般的な単語表現や分類モデルとの徹底的な比較は行われていない。 本研究では,様々な単語表現,テキスト前処理,分類アルゴリズムが4つの異なるテキスト分類タスクの性能に与える影響を分析した。 その結果、従来のアプローチは、特定の言語や、分類タスクに固有のテキストの構造に合わせると、BERTのようなコンテキスト埋め込みに基づいて、より最近のものの性能を達成または超えることができた。

Text classification tasks which aim at harvesting and/or organizing information from electronic health records are pivotal to support clinical and translational research. However these present specific challenges compared to other classification tasks, notably due to the particular nature of the medical lexicon and language used in clinical records. Recent advances in embedding methods have shown promising results for several clinical tasks, yet there is no exhaustive comparison of such approaches with other commonly used word representations and classification models. In this work, we analyse the impact of various word representations, text pre-processing and classification algorithms on the performance of four different text classification tasks. The results show that traditional approaches, when tailored to the specific language and structure of the text inherent to the classification task, can achieve or exceed the performance of more recent ones based on contextual embeddings such as BERT.
翻訳日:2022-12-05 11:49:49 公開日:2020-05-08
# データ提供条件の異なる交通予測のための転送学習とオンライン学習:選択肢と落とし穴

Transfer Learning and Online Learning for Traffic Forecasting under Different Data Availability Conditions: Alternatives and Pitfalls ( http://arxiv.org/abs/2005.05069v1 )

ライセンス: Link先を確認
Eric L. Manibardo, Ibai La\~na, Javier Del Ser(参考訳) 本研究の目的は,不在データのシナリオにおいて,交通流予測モデルを開発するための伝達学習(TL)の可能性を明らかにすることである。 高品質な予測モデルからの知識伝達はtlパラダイムの下で実現可能となり、少ないデータで新しい適切なモデルを生成することができる。 この能力を探求するために,交通予測のための深層学習(DL)手法にTL手法を適用した,3種類のデータ欠落シナリオを特定した。 次に、マドリード市議会(spain)が管理するデプロイされたループによって収集された実際のトラフィックフローデータを用いて、従来のバッチ学習をtlベースモデルと比較する。 さらに,交通の流れの変化に適応し,新たな交通データから漸進的に学習するために,各予測の後にモデルが更新を受けるオンライン学習(OL)手法を適用した。 実験の結果,交通流予測における移動学習とオンライン学習の利点を浮き彫りにし,興味のある場所で利用可能なトレーニングデータの量との相互作用について実践的な洞察を得た。

This work aims at unveiling the potential of Transfer Learning (TL) for developing a traffic flow forecasting model in scenarios of absent data. Knowledge transfer from high-quality predictive models becomes feasible under the TL paradigm, enabling the generation of new proper models with few data. In order to explore this capability, we identify three different levels of data absent scenarios, where TL techniques are applied among Deep Learning (DL) methods for traffic forecasting. Then, traditional batch learning is compared against TL based models using real traffic flow data, collected by deployed loops managed by the City Council of Madrid (Spain). In addition, we apply Online Learning (OL) techniques, where model receives an update after each prediction, in order to adapt to traffic flow trend changes and incrementally learn from new incoming traffic data. The obtained experimental results shed light on the advantages of transfer and online learning for traffic flow forecasting, and draw practical insights on their interplay with the amount of available training data at the location of interest.
翻訳日:2022-12-05 11:49:35 公開日:2020-05-08
# 可変制約オートエンコーディング

Variance Constrained Autoencoding ( http://arxiv.org/abs/2005.03807v1 )

ライセンス: Link先を確認
D. T. Braithwaite, M. O'Connor, W. B. Kleijn(参考訳) 最近の最先端オートエンコーダベースの生成モデルは、エンコーダ-デコーダ構造を持ち、サンプル可能な事前定義された分布で潜在表現を学習する。 これらのモデルのエンコーダネットワークを確率的に実装することで、スムーズなデコーダ関数のオーバーフィットを回避し強制するための自然な、一般的なアプローチを提供する。 しかし,確率エンコーダの場合,同時に分布制約を強制し,出力歪みを最小化しようとすると,生成的および再構成的品質が低下することを示す。 さらに, 分散制約を強制しようとすることは, 絡み合いを行う際には妥当ではない。 そこで本研究では,分散制約のみを適用した分散制約付きオートエンコーダ(VCAE)を提案する。 実験の結果,vcae は mnist と celeba の再構成と生成の両方において,wasserstein autoencoder と variational autoencoder を改良した。 さらに,VCAE に全相関ペナルティ項を付与し,FacterVAE と等価に 3D-Shape 上の不整合表現を学習し,より原理化されたアプローチであることを示す。

Recent state-of-the-art autoencoder based generative models have an encoder-decoder structure and learn a latent representation with a pre-defined distribution that can be sampled from. Implementing the encoder networks of these models in a stochastic manner provides a natural and common approach to avoid overfitting and enforce a smooth decoder function. However, we show that for stochastic encoders, simultaneously attempting to enforce a distribution constraint and minimising an output distortion leads to a reduction in generative and reconstruction quality. In addition, attempting to enforce a latent distribution constraint is not reasonable when performing disentanglement. Hence, we propose the variance-constrained autoencoder (VCAE), which only enforces a variance constraint on the latent distribution. Our experiments show that VCAE improves upon Wasserstein Autoencoder and the Variational Autoencoder in both reconstruction and generative quality on MNIST and CelebA. Moreover, we show that VCAE equipped with a total correlation penalty term performs equivalently to FactorVAE at learning disentangled representations on 3D-Shapes while being a more principled approach.
翻訳日:2022-12-05 11:49:14 公開日:2020-05-08
# 特徴分解と記憶によるベイズニューラルネットワークの効率的な計算量削減

Efficient Computation Reduction in Bayesian Neural Networks Through Feature Decomposition and Memorization ( http://arxiv.org/abs/2005.03857v1 )

ライセンス: Link先を確認
Xiaotao Jia, Jianlei Yang, Runze Liu, Xueyan Wang, Sorin Dan Cotofana, Weisheng Zhao(参考訳) ベイズ法は、現実世界の不確実性と不完全性を捉え、ディープニューラルネットワークが直面する過剰フィッティング問題に適切に対処することができる。 近年、ベイジアンニューラルネットワーク(BNN)はAI研究者の注目を集め、多くのアプリケーションで成功している。 しかし、高い計算複雑性が要求されるため、BNNは限られた電力予算で計算システムに展開することが困難である。 本稿では,計算コストを削減するため,効率的なBNN推論フローを提案し,ソフトウェア実装とハードウェア実装の両方を用いて評価する。 特徴分解および記憶化(\texttt{dm})戦略を用いて、bnn推論フローを縮小した方法で再構成する。 理論解析とソフトウェア検証によって証明された従来のアプローチと比較して、計算の約半分は排除できる。 その後、ハードウェアリソースの制限を解決するため、メモリフレンドリーなコンピューティングフレームワークがさらにデプロイされ、 \texttt{DM} 戦略によって導入されたメモリオーバーヘッドを低減する。 最後に,本手法をVerilog で実装し,45 nm の FreePDK 技術で合成する。 多層bnnのハードウェアシミュレーションの結果は、従来のbnn推定法と比較すると、エネルギー消費量の73\%と4$\times$のスピードアップを、14\%のオーバーヘッドを犠牲にして提供することを示している。

Bayesian method is capable of capturing real world uncertainties/incompleteness and properly addressing the over-fitting issue faced by deep neural networks. In recent years, Bayesian Neural Networks (BNNs) have drawn tremendous attentions of AI researchers and proved to be successful in many applications. However, the required high computation complexity makes BNNs difficult to be deployed in computing systems with limited power budget. In this paper, an efficient BNN inference flow is proposed to reduce the computation cost then is evaluated by means of both software and hardware implementations. A feature decomposition and memorization (\texttt{DM}) strategy is utilized to reform the BNN inference flow in a reduced manner. About half of the computations could be eliminated compared to the traditional approach that has been proved by theoretical analysis and software validations. Subsequently, in order to resolve the hardware resource limitations, a memory-friendly computing framework is further deployed to reduce the memory overhead introduced by \texttt{DM} strategy. Finally, we implement our approach in Verilog and synthesise it with 45 $nm$ FreePDK technology. Hardware simulation results on multi-layer BNNs demonstrate that, when compared with the traditional BNN inference method, it provides an energy consumption reduction of 73\% and a 4$\times$ speedup at the expense of 14\% area overhead.
翻訳日:2022-12-05 11:48:53 公開日:2020-05-08
# 判別分析のための大規模サンプルデータ圧縮

Compressing Large Sample Data for Discriminant Analysis ( http://arxiv.org/abs/2005.03858v1 )

ライセンス: Link先を確認
Alexander F. Lapanowski, Irina Gaynanova(参考訳) データ取得が安価で容易になったため、大規模なデータが普及した。 大きなサンプルサイズは、多くの統計的手法に理論的に有利であるが、計算上の課題がある。 スケッチ(または圧縮)は、回帰設定でこれらの問題に対処するためのよく研究されたアプローチであるが、分類設定におけるその性能についてはあまり知られていない。 ここでは、判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。 特徴量削減に着目した既存の圧縮手法とは対照的に,線形・二次判別分析のためのトレーニングサンプル数を削減できる新しい圧縮手法を提案する。 我々はベイズ分類器と比較して誤分類誤り率に理論的拘束力を与える。 実験により,提案手法の有意な計算効率と,ランダムサブサンプリングよりも優れた予測能力が確認できた。

Large-sample data became prevalent as data acquisition became cheaper and easier. While a large sample size has theoretical advantages for many statistical methods, it presents computational challenges. Sketching, or compression, is a well-studied approach to address these issues in regression settings, but considerably less is known about its performance in classification settings. Here we consider the computational issues due to large sample size within the discriminant analysis framework. We propose a new compression approach for reducing the number of training samples for linear and quadratic discriminant analysis, in contrast to existing compression methods which focus on reducing the number of features. We support our approach with a theoretical bound on the misclassification error rate compared to the Bayes classifier. Empirical studies confirm the significant computational gains of the proposed method and its superior predictive ability compared to random sub-sampling.
翻訳日:2022-12-05 11:48:31 公開日:2020-05-08
# ニューラルネットワークのアルゴリズム効率の測定

Measuring the Algorithmic Efficiency of Neural Networks ( http://arxiv.org/abs/2005.04305v1 )

ライセンス: Link先を確認
Danny Hernandez, Tom B. Brown(参考訳) aiの進歩には3つの要因がある。アルゴリズムの革新、データ、トレーニングに利用可能な計算量だ。 アルゴリズムの進歩は従来、計算やデータよりも定量化が困難だった。 本研究では,アルゴリズムの進歩は,過去の能力に到達するために必要な計算時間の短縮という,測定が容易かつ興味深い側面を持っている,と論じる。 分類器のAlexNetレベルのパフォーマンスをトレーニングするために必要な浮動小数点演算数は,2012年から2019年にかけて44倍に減少した。 これはアルゴリズムの効率が16ヶ月毎に7年間に倍増することに相当する。 対照的にムーアの法則は11倍のコスト改善しか得られなかった。 我々は、ハードウェアとアルゴリズムの効率が乗じて増加し、意味のある地平線を越えて同様のスケールにすることができることを観察し、AIの進歩のよいモデルが両方の測度を統合するべきであることを示唆している。

Three factors drive the advance of AI: algorithmic innovation, data, and the amount of compute available for training. Algorithmic progress has traditionally been more difficult to quantify than compute and data. In this work, we argue that algorithmic progress has an aspect that is both straightforward to measure and interesting: reductions over time in the compute needed to reach past capabilities. We show that the number of floating-point operations required to train a classifier to AlexNet-level performance on ImageNet has decreased by a factor of 44x between 2012 and 2019. This corresponds to algorithmic efficiency doubling every 16 months over a period of 7 years. By contrast, Moore's Law would only have yielded an 11x cost improvement. We observe that hardware and algorithmic efficiency gains multiply and can be on a similar scale over meaningful horizons, which suggests that a good model of AI progress should integrate measures from both.
翻訳日:2022-12-05 11:41:52 公開日:2020-05-08
# 顔のランドマーク検出におけるCNNによるアプローチの詳細

A Detailed Look At CNN-based Approaches In Facial Landmark Detection ( http://arxiv.org/abs/2005.08649v1 )

ライセンス: Link先を確認
Chih-Fan Hsu, Chia-Ching Lin, Ting-Yang Hung, Chin-Laung Lei and Kuan-Ta Chen(参考訳) 顔のランドマーク検出は数十年にわたって研究されてきた。 多くのニューラルネットワーク(NN)ベースのアプローチがランドマーク、特に畳み込みニューラルネットワーク(CNN)ベースのアプローチを検出するために提案されている。 一般に、CNNベースのアプローチは回帰とヒートマップのアプローチに分けられる。 しかし、異なるアプローチの特徴を体系的に研究する研究はない。 本稿では,cnnに基づくアプローチと,その利点と欠点を一般化し,pwc(pixel-wise classification)モデルであるheatmapアプローチのバリエーションを紹介する。 我々の知る限り、顔のランドマークを検出するためにPWCモデルを使うことは、包括的に研究されていない。 さらに、pwcモデルに含意されるランドマークの相互関係を強化するためのハイブリッド損失関数と識別ネットワークを設計、元のモデルアーキテクチャを変更することなく検出精度を向上させる。 AFW, Helen, LFPW, 300-W, IBUG, COFWの6つの顔ランドマークデータセットを用いて, モデルの評価を行った。 総合的な評価を行い,提案モデルが全試験データセットにおいて他のモデルより優れていることを示す。

Facial landmark detection has been studied over decades. Numerous neural network (NN)-based approaches have been proposed for detecting landmarks, especially the convolutional neural network (CNN)-based approaches. In general, CNN-based approaches can be divided into regression and heatmap approaches. However, no research systematically studies the characteristics of different approaches. In this paper, we investigate both CNN-based approaches, generalize their advantages and disadvantages, and introduce a variation of the heatmap approach, a pixel-wise classification (PWC) model. To the best of our knowledge, using the PWC model to detect facial landmarks have not been comprehensively studied. We further design a hybrid loss function and a discrimination network for strengthening the landmarks' interrelationship implied in the PWC model to improve the detection accuracy without modifying the original model architecture. Six common facial landmark datasets, AFW, Helen, LFPW, 300-W, IBUG, and COFW are adopted to train or evaluate our model. A comprehensive evaluation is conducted and the result shows that the proposed model outperforms other models in all tested datasets.
翻訳日:2022-12-05 11:41:39 公開日:2020-05-08
# 適性トレースを用いた正確なスパイクタイミングの学習

Learning Precise Spike Timings with Eligibility Traces ( http://arxiv.org/abs/2006.09988v1 )

ライセンス: Link先を確認
Manuel Traub, Martin V. Butz, R. Harald Baayen, Sebastian Otte(参考訳) スパイクニューラルネットワーク(SNN)の分野での最近の研究は、SNNの反復的な変種、すなわち長期SNN(LSNN)は、LSTMと同様にエラー勾配によって訓練できることを示した。 基礎となる学習法(e-prop)は、漏れた統合と発火(LIF)ニューロンに適用される可視性トレースの形式化に基づいている。 ここでは,提案手法はスパイクタイミング依存塑性(STDP)を完全に展開できないことを示す。 結果として、この制限は原則として、SNNの本質的な利点、すなわち、正確な相対スパイクタイミングに依存するコードを開発する可能性である。 より複雑なスパイクニューロンモデルから導出した場合,STDP対応のシナプス勾配がe-propの許容方程式内に自然に現れることを示す。 また、同様の勾配を提供するLIFモデルの簡単な拡張も提示する。 簡単な実験では、STDP対応LIFニューロンが電子プロップに基づく勾配信号から正確なスパイクタイミングを学習できることを示した。

Recent research in the field of spiking neural networks (SNNs) has shown that recurrent variants of SNNs, namely long short-term SNNs (LSNNs), can be trained via error gradients just as effective as LSTMs. The underlying learning method (e-prop) is based on a formalization of eligibility traces applied to leaky integrate and fire (LIF) neurons. Here, we show that the proposed approach cannot fully unfold spike timing dependent plasticity (STDP). As a consequence, this limits in principle the inherent advantage of SNNs, that is, the potential to develop codes that rely on precise relative spike timings. We show that STDP-aware synaptic gradients naturally emerge within the eligibility equations of e-prop when derived for a slightly more complex spiking neuron model, here at the example of the Izhikevich model. We also present a simple extension of the LIF model that provides similar gradients. In a simple experiment we demonstrate that the STDP-aware LIF neurons can learn precise spike timings from an e-prop-based gradient signal.
翻訳日:2022-12-05 11:41:02 公開日:2020-05-08
# ST-MNIST -- スパイキング触覚MNISTニューロモルフィックデータセット

ST-MNIST -- The Spiking Tactile MNIST Neuromorphic Dataset ( http://arxiv.org/abs/2005.04319v1 )

ライセンス: Link先を確認
Hian Hian See, Brian Lim, Si Li, Haicheng Yao, Wen Cheng, Harold Soh, and Benjamin C.K. Tee(参考訳) 触覚は、環境中の物理的物体と柔軟に相互作用できるため、スマートロボットにとって不可欠なモダリティである。 近年の電子皮膚の進歩は、この重要な感覚様相を利用するデータ駆動機械学習手法の開発につながった。 しかし、これらのアルゴリズムを訓練するために使用される現在のデータセットは、標準の同期触覚センサーに限定されている。 大規模なイベントベースの触覚センサが不足しているため、ニューロモルフィックなイベントベースの触覚データセットが多数存在する。 このようなデータセットを持つことは、時空間イベントベースのデータを処理する新しいアルゴリズムの開発と評価に不可欠である。 例えば、従来のフレームベースのデータセット上でのスパイクニューラルネットワークの評価は、サブ最適と見なされる。 本稿では,脳型触覚センサアレイに人間が書き込んだ手書きの数字からなる,新しいニューロモルフィックspiking tactile mnist(st-mnist)データセットについて紹介する。 また,既存の人工およびスパイクニューラルネットワークモデルを用いてst-mnistデータセットを評価するための最初の取り組みについても述べる。 ここで提供される分類精度は、将来の作業のパフォーマンスベンチマークとして機能する。 我々はST-MNISTデータセットが神経形・ロボティクス研究コミュニティにとって興味深く有用なものになることを期待する。

Tactile sensing is an essential modality for smart robots as it enables them to interact flexibly with physical objects in their environment. Recent advancements in electronic skins have led to the development of data-driven machine learning methods that exploit this important sensory modality. However, current datasets used to train such algorithms are limited to standard synchronous tactile sensors. There is a dearth of neuromorphic event-based tactile datasets, principally due to the scarcity of large-scale event-based tactile sensors. Having such datasets is crucial for the development and evaluation of new algorithms that process spatio-temporal event-based data. For example, evaluating spiking neural networks on conventional frame-based datasets is considered sub-optimal. Here, we debut a novel neuromorphic Spiking Tactile MNIST (ST-MNIST) dataset, which comprises handwritten digits obtained by human participants writing on a neuromorphic tactile sensor array. We also describe an initial effort to evaluate our ST-MNIST dataset using existing artificial and spiking neural network models. The classification accuracies provided herein can serve as performance benchmarks for future work. We anticipate that our ST-MNIST dataset will be of interest and useful to the neuromorphic and robotics research communities.
翻訳日:2022-12-05 11:40:15 公開日:2020-05-08
# テキスト認識における語彙依存について

On Vocabulary Reliance in Scene Text Recognition ( http://arxiv.org/abs/2005.03959v1 )

ライセンス: Link先を確認
Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao(参考訳) パブリックベンチマークでのハイパフォーマンスの追求は、シーンテキスト認識の研究の原動力となり、注目すべき進歩を遂げている。 しかし,本手法が語彙内の単語を含む画像に対してうまく機能するのに対し,語彙以外の画像に対してはあまり一般化しないという驚くべき事実が明らかにされている。 この現象を「ボキャブラリー・リライアンス」と呼ぶ。 本稿では,シーンテキスト認識における語彙依存の問題に関する詳細な研究を行うための分析的枠組みを確立する。 主な発見は,(1)語彙依存はユビキタス,すなわち,既存のアルゴリズムが多かれ少なかれそのような特徴を示すこと,(2)意図に基づくデコーダは,語彙以外の単語への一般化が弱いこと,およびセグメンテーションに基づくデコーダは視覚的特徴の活用に優れていること,(3)コンテキストモデリングは予測層と高度に結合していること,である。 これらの発見は新しい洞察を与え、シーンテキスト認識における将来の研究に役立つ。 さらに,2家族(アテンションベースとセグメンテーションベース)のモデルが協調的に学習できるように,単純かつ効果的な相互学習戦略を提案する。 これにより語彙依存の問題が緩和され、シーン全体のテキスト認識性能が向上する。

The pursuit of high performance on public benchmarks has been the driving force for research in scene text recognition, and notable progress has been achieved. However, a close investigation reveals a startling fact that the state-of-the-art methods perform well on images with words within vocabulary but generalize poorly to images with words outside vocabulary. We call this phenomenon "vocabulary reliance". In this paper, we establish an analytical framework to conduct an in-depth study on the problem of vocabulary reliance in scene text recognition. Key findings include: (1) Vocabulary reliance is ubiquitous, i.e., all existing algorithms more or less exhibit such characteristic; (2) Attention-based decoders prove weak in generalizing to words outside vocabulary and segmentation-based decoders perform well in utilizing visual features; (3) Context modeling is highly coupled with the prediction layers. These findings provide new insights and can benefit future research in scene text recognition. Furthermore, we propose a simple yet effective mutual learning strategy to allow models of two families (attention-based and segmentation-based) to learn collaboratively. This remedy alleviates the problem of vocabulary reliance and improves the overall scene text recognition performance.
翻訳日:2022-12-05 11:39:31 公開日:2020-05-08
# 単語類似性把握のための単語埋め込みの比較分析

Comparative Analysis of Word Embeddings for Capturing Word Similarities ( http://arxiv.org/abs/2005.03812v1 )

ライセンス: Link先を確認
Martina Toshevska, Frosina Stojanovska and Jovan Kalajdjieski(参考訳) 分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。 ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。 最も質的な単語埋め込みを決定することは、そのようなモデルにとって重要である。 しかし、投影された埋め込み空間は人間にとって直感的ではないため、適切な単語埋め込みを選択することは複雑なタスクである。 本稿では,分散単語表現のための様々なアプローチについて検討する。 我々はいくつかの最先端語埋め込み手法の本質的な評価を行う。 単語の類似度をキャプチャする彼らのパフォーマンスは、既存のベンチマークデータセットで分析される。 本研究は,異なる単語埋め込み法によって得られた基底真理語の類似度と類似度との相関解析を行う。

Distributed language representation has become the most widely used technique for language representation in various natural language processing tasks. Most of the natural language processing models that are based on deep learning techniques use already pre-trained distributed word representations, commonly called word embeddings. Determining the most qualitative word embeddings is of crucial importance for such models. However, selecting the appropriate word embeddings is a perplexing task since the projected embedding space is not intuitive to humans. In this paper, we explore different approaches for creating distributed word representations. We perform an intrinsic evaluation of several state-of-the-art word embedding methods. Their performance on capturing word similarities is analysed with existing benchmark datasets for word pairs similarities. The research in this paper conducts a correlation analysis between ground truth word similarities and similarities obtained by different word embedding methods.
翻訳日:2022-12-05 11:39:02 公開日:2020-05-08
# Visual Dialogの歴史:本当に必要か?

History for Visual Dialog: Do we really need it? ( http://arxiv.org/abs/2005.07493v1 )

ライセンス: Link先を確認
Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser(参考訳) ビジュアルダイアログには、ダイアログ履歴(以前議論されたもの)と現在の質問(質問されたもの)の“理解”に加えて、画像内の情報を接地して正しい応答を生成する。 本稿では, 対話履歴を明示的に符号化したコアテンションモデルにおいて, 最先端の性能(val集合上のNDCGの72 %)を実現する。 しかし, クラウドソーシングによるデータセット収集手法の欠点は, 少数のデータに対して履歴が本当に必要であり, 現在の評価基準が一般的な応答を促進することにある。 そこで我々は、VisDial val の挑戦的部分集合 (VisDialConv) を提案し、63% NDCG のベンチマークを提供する。

Visual Dialog involves "understanding" the dialog history (what has been discussed previously) and the current question (what is asked), in addition to grounding information in the image, to generate the correct response. In this paper, we show that co-attention models which explicitly encode dialog history outperform models that don't, achieving state-of-the-art performance (72 % NDCG on val set). However, we also expose shortcomings of the crowd-sourcing dataset collection procedure by showing that history is indeed only required for a small amount of the data and that the current evaluation metric encourages generic replies. To that end, we propose a challenging subset (VisDialConv) of the VisDial val set and provide a benchmark of 63% NDCG.
翻訳日:2022-12-05 11:32:53 公開日:2020-05-08
# 逆知識蒸留によるデータフリーネットワーク量子化

Data-Free Network Quantization With Adversarial Knowledge Distillation ( http://arxiv.org/abs/2005.04136v1 )

ライセンス: Link先を確認
Yoojin Choi, Jihwan Choi, Mostafa El-Khamy, Jungwon Lee(参考訳) ネットワーク量子化は,モバイルプラットフォームやエッジプラットフォーム上での効率的な固定点推論モデルの開発において,ディープラーニングにおいて不可欠な手法である。 しかし、データセットが大きくなり、プライバシー規制が厳格になるにつれて、モデル圧縮のためのデータ共有は難しくなり、制限される。 本稿では,合成データを用いたデータフリーネットワーク量子化について考察する。 合成データはジェネレータから生成されるが、ジェネレータのトレーニングや量子化にはデータを使用しない。 そこで本研究では,教師の出力と(定量化)学生との最大距離を最小化するデータフリー逆知識蒸留法を提案する。 また,原データと類似した逆サンプルを生成するために,生成データに対するバッチ正規化層と教師の原データとのマッチング統計値を提案する。 さらに,複数のジェネレータと複数の学生を用いて多様な対向サンプルを作成できることを示す。 実験では,SVHN, CIFAR-10, CIFAR-100, Tiny-ImageNetデータセット上の残差ネットワークとMobileNetの最先端データフリーモデル圧縮と量子化結果を示す。 元のデータセットと比較して精度の低下は最小限であることが示されている。

Network quantization is an essential procedure in deep learning for development of efficient fixed-point inference models on mobile or edge platforms. However, as datasets grow larger and privacy regulations become stricter, data sharing for model compression gets more difficult and restricted. In this paper, we consider data-free network quantization with synthetic data. The synthetic data are generated from a generator, while no data are used in training the generator and in quantization. To this end, we propose data-free adversarial knowledge distillation, which minimizes the maximum distance between the outputs of the teacher and the (quantized) student for any adversarial samples from a generator. To generate adversarial samples similar to the original data, we additionally propose matching statistics from the batch normalization layers for generated data and the original data in the teacher. Furthermore, we show the gain of producing diverse adversarial samples by using multiple generators and multiple students. Our experiments show the state-of-the-art data-free model compression and quantization results for (wide) residual networks and MobileNet on SVHN, CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets. The accuracy losses compared to using the original datasets are shown to be very minimal.
翻訳日:2022-12-05 11:32:16 公開日:2020-05-08
# 簡易短期記憶リカレントニューラルネットワークを用いた感情分析

Sentiment Analysis Using Simplified Long Short-term Memory Recurrent Neural Networks ( http://arxiv.org/abs/2005.03993v1 )

ライセンス: Link先を確認
Karthik Gopalakrishnan, Fathi M.Salem(参考訳) LSTM(Long Short Term Memory Networks)は、長いシーケンスデータの処理や長期依存の学習に非常に有効な、特定のタイプのリカレントニューラルネットワーク(RNN)である。 本研究では,GOP Debate Twitterデータセット上で感情分析を行う。 学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョン(スリムLSTM)を6つの異なるパラメータで削減する手法を提案する。 これらのモデルのうち2つをデータセット上で評価する。 これら2つのLSTMモデルと標準LSTMモデルの性能を比較した。 双方向LSTM層の効果についても検討した。 この研究は、異なるLSTMモデルに対して最適なハイパーパラメータセットを確立することとは別に、最高のアーキテクチャを選択するための研究も含んでいる。

LSTM or Long Short Term Memory Networks is a specific type of Recurrent Neural Network (RNN) that is very effective in dealing with long sequence data and learning long term dependencies. In this work, we perform sentiment analysis on a GOP Debate Twitter dataset. To speed up training and reduce the computational cost and time, six different parameter reduced slim versions of the LSTM model (slim LSTM) are proposed. We evaluate two of these models on the dataset. The performance of these two LSTM models along with the standard LSTM model is compared. The effect of Bidirectional LSTM Layers is also studied. The work also consists of a study to choose the best architecture, apart from establishing the best set of hyper parameters for different LSTM Models.
翻訳日:2022-12-05 11:31:56 公開日:2020-05-08
# 連続分布量的批評家の混和混合による過推定バイアスの制御

Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics ( http://arxiv.org/abs/2005.04269v1 )

ライセンス: Link先を確認
Arsenii Kuznetsov, Pavel Shvechikov, Alexander Grishin, Dmitry Vetrov(参考訳) 過大評価バイアスは、正確なオフポリシー学習の障害の1つです。 本稿では,連続制御環境での過大評価バイアスを緩和する新しい手法について検討する。 我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。 分布表現とトランケーションは任意の粒度の過大評価制御を可能にし、アンサンブルはさらなるスコア改善を提供する。 tqcは、連続制御ベンチマークスイートのすべての環境における現在の技術よりも優れており、最も挑戦的なヒューマノイド環境において25%の改善を示している。

The overestimation bias is one of the major impediments to accurate off-policy learning. This paper investigates a novel way to alleviate the overestimation bias in a continuous control setting. Our method---Truncated Quantile Critics, TQC,---blends three ideas: distributional representation of a critic, truncation of critics prediction, and ensembling of multiple critics. Distributional representation and truncation allow for arbitrary granular overestimation control, while ensembling provides additional score improvements. TQC outperforms the current state of the art on all environments from the continuous control benchmark suite, demonstrating 25% improvement on the most challenging Humanoid environment.
翻訳日:2022-12-05 11:31:27 公開日:2020-05-08
# パシュト語、ファルシ語、伝統中国語のための新しい画像からテキストへの変換システムの開発

Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese ( http://arxiv.org/abs/2005.08650v1 )

ライセンス: Link先を確認
Marek Rychlik, and Dwight Nwaigwe and Yan Han and Dylan Murphy(参考訳) 我々は,複数の言語や書記システムのための,より正確な画像からテキストへの変換ソフトウェアを開発することを目的とした,研究・プロトタイプ構築プロジェクト \emph{Worldly~OCR} の成果について報告する。 その中には、FarsiとPashtoのカーシブ・スクリプト、ラテン・カーシブ・スクリプトが含まれる。 また、非帰納的だが、65,000文字からなる非常に大きな文字セットを特徴とする中国語へのアプローチについても述べる。 私たちの方法論は機械学習、特にディープラーニング、データサイエンスに基づいており、数十億ページを超える膨大なオリジナルドキュメントを対象としています。 本論文の目的は,デジタルヒューマニティや,デジタル画像から正確なフルテキストやメタデータを検索することに関心を持つ一般オーディエンスである。

We report upon the results of a research and prototype building project \emph{Worldly~OCR} dedicated to developing new, more accurate image-to-text conversion software for several languages and writing systems. These include the cursive scripts Farsi and Pashto, and Latin cursive scripts. We also describe approaches geared towards Traditional Chinese, which is non-cursive, but features an extremely large character set of 65,000 characters. Our methodology is based on Machine Learning, especially Deep Learning, and Data Science, and is directed towards vast quantities of original documents, exceeding a billion pages. The target audience of this paper is a general audience with interest in Digital Humanities or in retrieval of accurate full-text and metadata from digital images.
翻訳日:2022-12-05 11:30:51 公開日:2020-05-08
# アフィン部分空間クラスタリングにはアフィン制約が必要か?

Is an Affine Constraint Needed for Affine Subspace Clustering? ( http://arxiv.org/abs/2005.03888v1 )

ライセンス: Link先を確認
Chong You and Chun-Guang Li and Daniel P. Robinson and Rene Vidal(参考訳) 各データポイントを他のデータポイントの線形結合として表現したサブスペースクラスタリング法は、モーションセグメンテーション、顔、数字クラスタリングなどのコンピュータビジョンアプリケーションにおいて大きな成功を収めた。 顔クラスタリングでは、サブスペースは線形であり、サブスペースクラスタリング手法を直接適用することができる。 運動分節では、部分空間はアフィンであり、係数に対する追加のアフィン制約はしばしば強制される。 しかし、アフィン部分空間は常にある余剰次元の線型部分空間に埋め込まれるため、アフィン制約が本当に必要かどうかは不明である。 本稿では,アフィン空間の次元がアフィン部分空間の次元の和に対して高い場合,アフィン制約がクラスタリング性能に無視できない効果を持つことを示す。 具体的には,アフィン制約の有無に関わらず,アフィン部分空間クラスタリング手法の正確性を保証する条件を提供し,これらの条件が高次元データに適合することを示す。 このことは、幾何学的に解釈可能な正当性条件を提供するだけでなく、アフィン部分空間クラスタリングの既存の結果の間の関係を明らかにする。

Subspace clustering methods based on expressing each data point as a linear combination of other data points have achieved great success in computer vision applications such as motion segmentation, face and digit clustering. In face clustering, the subspaces are linear and subspace clustering methods can be applied directly. In motion segmentation, the subspaces are affine and an additional affine constraint on the coefficients is often enforced. However, since affine subspaces can always be embedded into linear subspaces of one extra dimension, it is unclear if the affine constraint is really necessary. This paper shows, both theoretically and empirically, that when the dimension of the ambient space is high relative to the sum of the dimensions of the affine subspaces, the affine constraint has a negligible effect on clustering performance. Specifically, our analysis provides conditions that guarantee the correctness of affine subspace clustering methods both with and without the affine constraint, and shows that these conditions are satisfied for high-dimensional data. Underlying our analysis is the notion of affinely independent subspaces, which not only provides geometrically interpretable correctness conditions, but also clarifies the relationships between existing results for affine subspace clustering.
翻訳日:2022-12-05 11:30:38 公開日:2020-05-08
# VectorNet: ベクトル表現からHDマップとエージェントダイナミクスをエンコードする

VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation ( http://arxiv.org/abs/2005.04259v1 )

ライセンス: Link先を確認
Jiyang Gao, Chen Sun, Hang Zhao, Yi Shen, Dragomir Anguelov, Congcong Li, Cordelia Schmid(参考訳) 動的なマルチエージェントシステムにおける行動予測は、移動エージェント(歩行者や車両など)や道路状況情報(車線、信号など)を含む道路要素の複雑な表現と相互作用のため、自動運転車の文脈において重要な問題である。 本稿では,まず,ベクトルによって表される個々の道路成分の空間的局所性を活用した階層型グラフニューラルネットワークであるvectornetについて述べる。 移動エージェントの軌跡や道路状況情報を鳥眼画像として表現し,畳み込みニューラルネットワーク(convnets)でエンコードする手法とは対照的に,提案手法はベクトル表現に基づいて動作する。 ベクトル化ハイディフィケーション(hd)マップとエージェントトラジェクタで操作することで、損失のあるレンダリングと計算集約的なconvnetエンコーディングステップを回避する。 文脈特徴の学習におけるVectorNetの能力をさらに向上するために,ランダムにマスキングされたマップエンティティとエージェントトラジェクトリをそのコンテキストに基づいて復元する新しい補助タスクを提案する。 われわれはvectornetを社内行動予測ベンチマークと最近リリースされたargoverse予測データセットで評価している。 本手法は両ベンチマークの競合レンダリング手法と同等かそれ以上の性能を実現し,モデルパラメータの70%以上を節約し,フロップ数を1桁削減した。 また、Argoverseデータセット上でのアートの状態を上回ります。

Behavior prediction in dynamic, multi-agent systems is an important problem in the context of self-driving cars, due to the complex representations and interactions of road components, including moving agents (e.g. pedestrians and vehicles) and road context information (e.g. lanes, traffic lights). This paper introduces VectorNet, a hierarchical graph neural network that first exploits the spatial locality of individual road components represented by vectors and then models the high-order interactions among all components. In contrast to most recent approaches, which render trajectories of moving agents and road context information as bird-eye images and encode them with convolutional neural networks (ConvNets), our approach operates on a vector representation. By operating on the vectorized high definition (HD) maps and agent trajectories, we avoid lossy rendering and computationally intensive ConvNet encoding steps. To further boost VectorNet's capability in learning context features, we propose a novel auxiliary task to recover the randomly masked out map entities and agent trajectories based on their context. We evaluate VectorNet on our in-house behavior prediction benchmark and the recently released Argoverse forecasting dataset. Our method achieves on par or better performance than the competitive rendering approach on both benchmarks while saving over 70% of the model parameters with an order of magnitude reduction in FLOPs. It also outperforms the state of the art on the Argoverse dataset.
翻訳日:2022-12-05 11:30:15 公開日:2020-05-08