このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200518となっている論文です。

PDF登録状況(公開日: 20200518)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子ドットを用いた表面受動高QGaAsフォトニック結晶ナノキャビティ

Surface-passivated high-Q GaAs photonic crystal nanocavity with quantum dots ( http://arxiv.org/abs/2001.02377v2 )

ライセンス: Link先を確認
Kazuhiro Kuruma, Yasutomo Ota, Masahiro Kakuda, Satoshi Iwamoto, Yasuhiko Arakawa(参考訳) 高品質(Q)因子を有するフォトニック結晶(PhC)ナノキャビティは, 空間的および時間的光閉じ込め能力の強いため, 注目されている。 結果として得られる光-物質相互作用は、オンチップ光通信からセンシングまで、様々なフォトニック応用に有用である。 しかし, 能動型PhCナノキャビティのQ因子は, 光学的損失が大きいため, 光学的損失が大きいため, 能動型PhCナノキャビティよりもはるかに低い。 ここでは,硫黄系表面通過法によるGaAs活性PhCナノキャビティにおいて,最大160,000のQ因子の顕著な改善を示す。 この値は、半導体量子ドットを持つ活動的なPhCナノキャビティで最も高い。 また, 表面受動キャビティはq係数とキャビティ共振波長のばらつきが小さくなった。 我々は,PhCホスト材料の表面における光吸収の抑制によるキャビティ性能の向上が,スペクトル領域と時間領域におけるPL測定の一連の実施によって生じると考えられる。 また,PhCナノキャビティに基づく単一量子ドットキャビティシステムについて,Q因子が約100,000であることを示す。 これらの結果は、高度な量子ドットベースのキャビティ量子力学と、活性エミッタを含むGaAsマイクロ/ナノフォトニクス応用への道を開く。

Photonic crystal (PhC) nanocavities with high quality (Q) factors have attracted much attention because of their strong spatial and temporal light confinement capability. The resulting enhanced light-matter interactions are beneficial for diverse photonic applications, ranging from on-chip optical communications to sensing. However, currently achievable Q factors for active PhC nanocavities, which embed active emitters inside, are much lower than those of the passive structures because of large optical loss, presumably originating from light scattering by structural imperfections and/or optical absorptions. Here, we demonstrate a significant improvement of Q factors up to ~160,000 in GaAs active PhC nanocavities using a sulfur-based surface passivation technique. This value is the highest ever reported for any active PhC nanocavities with semiconductor quantum dots. The surface-passivated cavities also exhibit reduced variation in both Q factors and cavity resonant wavelengths. We find that the improvement in the cavity performance presumably arises from suppressed light absorption at the surface of the PhC's host material by performing a set of PL measurements in spectral and time domains. With the surface passivation technique, we also demonstrate a strongly-coupled single quantum dot-cavity system based on a PhC nanocavity with a high Q factor of ~100,000. These results will pave the way for advanced quantum dot-based cavity quantum electrodynamics and for GaAs micro/nanophotonic applications containing active emitters.
翻訳日:2023-06-09 22:46:23 公開日:2020-05-18
# Bose-Hubbard系におけるフロッケ予熱

Floquet prethermalization in a Bose-Hubbard system ( http://arxiv.org/abs/2001.08226v2 )

ライセンス: Link先を確認
Antonio Rubio-Abadal, Matteo Ippoliti, Simon Hollerith, David Wei, Jun Rui, S. L. Sondhi, Vedika Khemani, Christian Gross, Immanuel Bloch(参考訳) 周期駆動は、新しいエキゾチックな量子フェーズを設計するための強力なツールとして登場した。 駆動多体系は、エネルギーを無限に吸収し、無限の温度状態に達することが一般に期待されているが、駆動周波数がシステムの局所エネルギースケールよりも大きい場合、加熱速度は指数関数的に抑制される。 本研究では, 誘導光格子中の超低温原子のボゾン雲を実験的に研究し, ボース・ハッバードモデルにおける予熱状態を特定する。 運転周波数の増大に伴って雲のエネルギー吸収を測定することにより,2桁以上の加熱速度が持続する指数イン周波数の低下を観測した。 格子ポテンシャルのチューナビリティにより、1次元および2次元の系を様々な相互作用系で探索することができる。 指数関数的な減少とともに、周波数への加熱速度の依存性は、一次元の数値シミュレーションによってさらに支持されるボース・ハバードモデルの位相図の特徴を特徴付ける。 本研究は, フロケ予熱現象の実験的証拠を示し, 駆動ボソニック系の加熱特性について考察した。

Periodic driving has emerged as a powerful tool in the quest to engineer new and exotic quantum phases. While driven many-body systems are generically expected to absorb energy indefinitely and reach an infinite-temperature state, the rate of heating can be exponentially suppressed when the drive frequency is large compared to the local energy scales of the system -- leading to long-lived 'prethermal' regimes. In this work, we experimentally study a bosonic cloud of ultracold atoms in a driven optical lattice and identify such a prethermal regime in the Bose-Hubbard model. By measuring the energy absorption of the cloud as the driving frequency is increased, we observe an exponential-in-frequency reduction of the heating rate persisting over more than 2 orders of magnitude. The tunability of the lattice potentials allows us to explore one- and two-dimensional systems in a range of different interacting regimes. Alongside the exponential decrease, the dependence of the heating rate on the frequency displays features characteristic of the phase diagram of the Bose-Hubbard model, whose understanding is additionally supported by numerical simulations in one dimension. Our results show experimental evidence of the phenomenon of Floquet prethermalization, and provide insight into the characterization of heating for driven bosonic systems.
翻訳日:2023-06-06 06:58:22 公開日:2020-05-18
# 類似重力物理のためのポラリトン流体

Polariton fluids for analogue gravity physics ( http://arxiv.org/abs/2002.00043v3 )

ライセンス: Link先を確認
M. J. Jacquet, T. Boulier, F. Claude, A. Maitre, E. Cancellieri, C. Adrados, A. Amo, S. Pigeon, Q. Glorieux, A. Bramati, E. Giacobino(参考訳) アナログ重力は、実験室における曲線時空の場の研究を可能にする。 事象の地平線やエルゴ地域での増幅が観測されている多くの実験プラットフォームがある。 本研究では, ポラリトンマイクロキャビティ内の欠陥を光学的に生成することで, 1次元および2次元の超音波流体の流れを発生できることを示す。 この高度に調整可能な手法はソニック・ホライズンズの生成を可能にする。 さらに,水波浴槽渦に類似した回転幾何学について述べる。 これらの実験は、光の流体におけるホーキング、ペンローズ、ツェルドオビッチ効果によって刺激された自発増幅の可能性を示唆した。

Analogue gravity enables the study of fields on curved spacetimes in the laboratory. There are numerous experimental platforms in which amplification at the event horizon or the ergoregion has been observed. Here, we demonstrate how optically generating a defect in a polariton microcavity enables the creation of one- and two-dimensional, transsonic fluid flows. We show that this highly tuneable method permits the creation of sonic horizons. Furthermore, we present a rotating geometry akin to the water-wave bathtub vortex. These experiments usher-in the possibility of observing stimulated as well as spontaneous amplification by the Hawking, Penrose and Zeld'ovich effects in fluids of light.
翻訳日:2023-06-05 02:29:13 公開日:2020-05-18
# フェルミオンモードに符号化された量子情報のテレポーティング

Teleporting quantum information encoded in fermionic modes ( http://arxiv.org/abs/2002.08201v2 )

ライセンス: Link先を確認
Tiago Debarba, Fernando Iemini, Geza Giedke, Nicolai Friis(参考訳) 量子テレポーテーションは多くの量子情報処理タスクにおいて基本的なプリミティブであり、様々なフォトニックおよび物質ベースの設定で実験的に確認されている。 ここでは、フェルミオン場のモードで符号化された量子情報のテレポーテーションを検討する。 フェルミオン系では、超選択規則は絡み合いとテレポーテーションのより分化した図形をもたらす。 特に、ここで詳しく述べるように、シングルモードのエンタングルメントスワップと、ベルの不等式違反による認証の有無によるqubitテレポーテーションを区別せざるを得ない。 本稿では, 粒子数が固定されていないパリティ超選択系に着目し, 実現可能な実装に関係のある粒子数超選択系と対比する。 最後に,フェルミオンモード絡み合いの操作解釈の結果を分析し,テレポーテーションにおけるいわゆる混合最大絡み合い状態の有用性を検討する。

Quantum teleportation is considered a basic primitive in many quantum information processing tasks and has been experimentally confirmed in various photonic and matter-based setups. Here, we consider teleportation of quantum information encoded in modes of a fermionic field. In fermionic systems, superselection rules lead to a more differentiated picture of entanglement and teleportation. In particular, one is forced to distinguish between single-mode entanglement swapping, and qubit teleportation with or without authentication via Bell inequality violation, as we discuss here in detail. We focus on systems subject to parity superselection where the particle number is not fixed, and contrast them with systems constrained by particle number superselection which are relevant for possible practical implementations. Finally, we analyze the consequences for the operational interpretation of fermionic mode entanglement and examine the usefulness of so-called mixed maximally entangled states for teleportation.
翻訳日:2023-06-03 04:57:56 公開日:2020-05-18
# 光コンベアベルトにおける原子の速度・保持損失・運動加熱

Speed, retention loss, and motional heating of atoms in an optical conveyor belt ( http://arxiv.org/abs/2004.04848v3 )

ライセンス: Link先を確認
G. T. Hickman and M. Saffman(参考訳) 低温原子の極小加熱による高速輸送の問題は理論と実験でかなりの注目を集めている。 多くの理論的な研究は一般問題の解に注目しており、しばしば調和的トラップポテンシャルや1次元幾何学を仮定している。 しかし、光コンベアベルトの場合、これらの仮定は必ずしも有効とは限らない。 本稿では,光コンベヤ内で輸送される原子の加熱と保持に及ぼす各種運動パラメータの影響を実験的および数値的に検討する。 数値モデルは移動光格子の幾何学に特化しており、横面の運動の影響を考慮した密度行列形式論におけるデファージングを用いている。 実験結果との比較によりモデルを検証し,コンベヤの性能とシステムの諸パラメータとの関係について,さらなる知見を得るために利用した。

The problem of high-speed transport for cold atoms with minimal heating has received considerable attention in theory and experiment. Much theoretical work has focused on solutions of general problems, often assuming a harmonic trapping potential or a 1D geometry. However in the case of optical conveyor belts these assumptions are not always valid. Here we present experimental and numerical studies of the effects of various motional parameters on heating and retention of atoms transported in an optical conveyor. Our numerical model is specialized to the geometry of a moving optical lattice and uses dephasing in the density matrix formalism to account for effects of motion in the transverse plane. We verify the model by a comparison with experimental measurements, and use it to gain further insight into the relationship between the conveyor's performance and the various parameters of the system.
翻訳日:2023-05-25 08:22:35 公開日:2020-05-18
# Covid-19とコンタクト追跡アプリ:欧州の法的枠組みに基づくレビュー

Covid-19 and contact tracing apps: A review under the European legal framework ( http://arxiv.org/abs/2004.14665v2 )

ライセンス: Link先を確認
Teresa Scantamburlo, Atia Cort\'es, Pierre Dewitte, Daphn\'e Van Der Eycken, Valentina Billa, Pieter Duysburgh, Willemien Laenens(参考訳) この記事では、ウイルスの拡散に対抗するためにこれまで提案されてきた主な技術についてレビューしたいと思います。 また、一部の欧州組織がこれらの点に関して進めてきた政策勧告の概要についても述べたいと思います。 最後に, 国民の注目と議論に向け, いくつか考察して締めくくった。

In this article, we would like to review the main technologies that have been proposed so far to fight the spread of the virus. Also, we would like to give an overview of the policy recommendations that some European organisations have put forward in these regards. Finally, we conclude with some considerations we would like to present to public attention and discussion.
翻訳日:2023-05-21 17:23:57 公開日:2020-05-18
# コンテナを使ってよりインタラクティブなオンライン教育教材を作る

Using Containers to Create More Interactive Online Training and Education Materials ( http://arxiv.org/abs/2005.07252v2 )

ライセンス: Link先を確認
Brandon Barker and Susan Mehringer(参考訳) コンテナはカスタマイズ可能で、ポータブルで、再現性があるので、コンピューティングトピックのためのハンズオン学習環境として優れています。 Cornell University Center for Advanced Computing は、高性能コンピューティングに関するコーネル仮想ワークショップを長年にわたって開発してきました。 webベースのオンライントレーニング環境に直接、よりハンズオンで実験的な学習体験を構築することを目標として、オンラインコンテンツ開発者がコンテナベースのインタラクティブな編集と実行コマンドをwebページに直接組み込むことができるcornell container runnerサービスを開発した。 コンテナとCCRSを使用することで、学習者のエンゲージメントと成果が向上する可能性がある。

Containers are excellent hands-on learning environments for computing topics because they are customizable, portable, and reproducible. The Cornell University Center for Advanced Computing has developed the Cornell Virtual Workshop in high performance computing topics for many years, and we have always sought to make the materials as rich and interactive as possible. Toward the goal of building a more hands-on experimental learning experience directly into web-based online training environments, we developed the Cornell Container Runner Service, which allows online content developers to build container-based interactive edit and run commands directly into their web pages. Using containers along with CCRS has the potential to increase learner engagement and outcomes.
翻訳日:2023-05-20 05:10:57 公開日:2020-05-18
# 量子ハイブリッド光機械慣性センシング

Quantum hybrid optomechanical inertial sensing ( http://arxiv.org/abs/2005.08405v1 )

ライセンス: Link先を確認
Logan Richardson, Adam Hines, Andrew Schaffer, Brian P. Anderson, and Felipe Guzman(参考訳) 本稿では,光機械式慣性センサと冷媒干渉計のレトロリフレクタを組み合わせた量子ハイブリッド慣性センサの設計について述べる。 このセンサ融合方式は、原子干渉計の繰り返し速度よりも高い周波数で光力学的慣性センサを使用しながら、冷間干渉計による絶対的かつ高精度な測定を提供する。 これにより、測定帯域幅と、これらのシステムの堅牢性とフィールド展開能力が向上する。 ノイズフロアを直流から1kHzのナノgレベルで予測し,どのパラメータが最適な加速度感度が得られるかを評価する。

We discuss the design of quantum hybrid inertial sensor that combines an optomechanical inertial sensor with the retro-reflector of a cold atom interferometer. This sensor fusion approach provides absolute and high accuracy measurements with cold atom interferometers, while utilizing the optomechanical inertial sensor at frequencies above the repetition rate of the atom interferometer. This improves the overall measurement bandwidth as well as the robustness and field deployment capabilities of these systems. We evaluate which parameters yield an optimal acceleration sensitivity, from which we anticipate a noise floor at nano-g levels from DC to 1 kHz.
翻訳日:2023-05-19 11:37:57 公開日:2020-05-18
# 新型コロナウイルス(covid-19)の音声・信号・音声・言語処理に関する概観

An Overview on Audio, Signal, Speech, & Language Processing for COVID-19 ( http://arxiv.org/abs/2005.08579v1 )

ライセンス: Link先を確認
Gauri Deshpande, Bj\"orn Schuller(参考訳) 近年、コロナウイルス(COVID-19)パンデミックによるヒトへの援助と救済を目的とした音声信号処理の革新、強化、構築、展開への関心が高まっている。 スピーチイニシアチブを備えたAIの多くは、現在の状況と戦うとともに、将来の安全で安全な環境を構築するために取り組まれている。 本稿は,過去3~4ヶ月にわたるcovid-19との戦いにおける個人と社会の協力を,音声信号処理を用いて支援するために,研究コミュニティが行ったこれらの取り組みをまとめたものである。 我々はまた、この方向に使われている深いテクニックを要約して、短時間で有能なソリューションを思いついた。 本稿では,音声・音声分析のインスピレーションとして機能する非音声モダリティからの貢献について概説する。 さらに、ソリューションのユーザビリティ、課題、そして重要な技術成果について、我々の観察について論じる。

Recently, there has been an increased attention towards innovating, enhancing, building, and deploying applications of speech signal processing for providing assistance and relief to human mankind from the Coronavirus (COVID-19) pandemic. Many AI with speech initiatives are taken to combat with the present situation and also to create a safe and secure environment for the future. This paper summarises all these efforts taken by the re-search community towards helping the individuals and the society in the fight against COVID-19 over the past 3-4 months using speech signal processing. We also summarise the deep techniques used in this direction to come up with capable solutions in a short span of time. This paper further gives an overview of the contributions from non-speech modalities that may complement or serve as inspiration for audio and speech analysis. In addition, we discuss our observations with respect to solution usability, challenges, and the significant technology achievements.
翻訳日:2023-05-19 11:34:10 公開日:2020-05-18
# ゴール設定の概念を実践に翻訳する - ゴール設定ツールよりも、どんな'Else'が必要なのか?

Translating the Concept of Goal Setting into Practice -- What 'Else' does it Require than a Goal Setting Tool? ( http://arxiv.org/abs/2005.08669v1 )

ライセンス: Link先を確認
G\'abor Kismih\'ok, Catherine Zhao, Micha\'ela C. Schippers, Stefan T. Mol, Scott Harrison and Shady Shehata(参考訳) 本稿では,技術強化学習・教育分野における目標設定の現状について概説する。 簡単な文献レビューの他に、ゴール設定に関する3つのプロジェクトについて議論する。 本稿は, 教育における目標設定応用における主な障壁が, 技術やデータ, 分析方法ではなく, 人的要因に関係していることを示す。 最も重要なボトルネックは、生徒の目標設定スキルと能力の欠如であり、現在のカリキュラム設計は、特に観察された高等教育機関において、目標設定介入をほとんどサポートしていない。

This conceptual paper reviews the current status of goal setting in the area of technology enhanced learning and education. Besides a brief literature review, three current projects on goal setting are discussed. The paper shows that the main barriers for goal setting applications in education are not related to the technology, the available data or analytical methods, but rather the human factor. The most important bottlenecks are the lack of students goal setting skills and abilities, and the current curriculum design, which, especially in the observed higher education institutions, provides little support for goal setting interventions.
翻訳日:2023-05-19 11:24:09 公開日:2020-05-18
# 人材募集におけるaiプロファイリングサービスの利用に関する倫理的問題--日本のリクナビデータスキャンダル

Ethical Issues Regarding the Use of AI Profiling Services for Recruiting: The Japanese Rikunabi Data Scandal ( http://arxiv.org/abs/2005.08663v1 )

ライセンス: Link先を確認
Kudo Fumiko, Hiromi Arai and Arisa Ema(参考訳) 採用のためのプロファイリングサービスの利用に関わる倫理的、法的、社会的課題は、多くの過去の研究の焦点となっているが、その過程は社会制度や文化の実践によって異なる。 2019年8月、雇用管理会社が顧客へのデータを販売することで、利用者や学生の信頼を侵害しているというスキャンダルが発生した。 本論は,日本の採用状況と関連する法律を共有することによって,人工知能のプロファイリングや機密情報処理に関わる倫理的問題に対する理解に寄与する。

The ethical, legal, and social challenges involved in the use of profiling services for recruitment are the focus of many previous studies; however, the processes vary depending on the social system and cultural practices. In August 2019, a scandal occurred in Japan in which a recruitment management company was found to have breached users' and students' trust by selling their data to clients. By sharing the Japanese recruitment context and associated laws, this article contributes to our understanding of the ethical issues involved in artificial intelligence profiling and in handling sensitive personal information.
翻訳日:2023-05-19 11:23:58 公開日:2020-05-18
# 古典的非平衡統計力学と量子古典的アナロジーの「開システムダイナミクス」

Classical non-equilibrium statistical mechanics and an "open system dynamics" perspective on quantum-classical analogy ( http://arxiv.org/abs/2005.08627v1 )

ライセンス: Link先を確認
Li Yu(参考訳) 閉古典系の統計がリウヴィルの定理に従って進化することが知られている。 本研究では,グリーン関数と級数展開法を用いて時間局所運動方程式を考案し,古典システムの辺縁統計のダイナミクスを外部自由度に結合した。 また、この運動方程式を量子マスター方程式、すなわち量子マスター方程式と比較し、「オープンシステム力学」の観点から量子古典的アナロジー(QCA)に光を当てることを期待する。 この場合のQCAの明らかな例外は、ここで導かれる1階古典運動方程式は、量子アナログを持たないような項を含むためである。 また,この緊張を回避し,qca(第1次摂動順序)の確立に寄与する可能性も示唆する。 オープンシステムダイナミクスの文脈では、QCAに関する決定的な結論は得られませんが、この線に沿った調査の出発点を提供したいと思っています。

It is well known that the statistics of closed classical systems evolves according to the Liouville theorem. Here we study the dynamics of the marginal statistics of classical systems coupled to external degrees of freedom, by developing a time-local equation of motion using Green's functions and a series expansion method. We also compare this equation of motion with its supposed quantum counterpart, namely the quantum master equation, which we hope could shed some light on quantum-classical analogy (QCA) from the perspective of "open system dynamics". We notice an apparent exception to QCA in this case, as the first-order classical equation of motion derived herein contains a term that does not appear to have a quantum analogue. We also propose possible ways of getting around this tension, which may help re-establish QCA (in first perturbative order). We do not draw a definitive conclusion about QCA in the context of open system dynamics but hope to provide a starting point for investigations along this line.
翻訳日:2023-05-19 11:23:14 公開日:2020-05-18
# ソーシャルネットワーキングサービスにおけるセキュリティ脅威の認知的分析--より強固な行動を必要とするスロバキア

Cognitive Analysis of Security Threats on Social Networking Services: Slovakia in need of stronger action ( http://arxiv.org/abs/2005.08618v1 )

ライセンス: Link先を確認
Karol Fabian, Jozef Michal Mintal(参考訳) 本稿では,マテジベル大学政治学・国際関係学部で開催されているUPBデータ・社会研究所で進行中の研究について考察する。 国家が行うsnss(social networking services)におけるセキュリティ脅威識別の必要性について紹介することから始まる。 この論文はこの分野の研究室で選択されたプロジェクトの概要を概観し、その後、英国snap general election 2017の発表に焦点を当てたユースケーススタディを紹介している。 本研究の目的は,国際関係分野におけるソーシャル・ネットワーキング・サービス分析の可能性を示すことであり,スロバキアにおける偽情報と新たなデジタルアクターの特定の必要性に重点を置いている。 また,ソーシャルメディアデータの収集をタスクとする簡単なカスタムシステムを概説し,その後,様々な認知分析手法を用いて処理する。

This short paper examines some of the ongoing research at the UMB Data and Society Lab hosted at the Faculty of Political Science and International Relations at Matej Bel University. It begins with an introduction on the necessity of security threat identification on social networking services (SNSs), done by states. The paper follows with a general overview of selected projects of the Lab in this field, and afterwards it introduces a use case study focused on the announcement of the UK snap general election 2017. The main aim of this paper is to demonstrate some of the possibilities of social networking services analysis in the field of international relations, with an emphasis on disinformation and the necessity of identifying novel digital actors in Slovakia. We also outline an easy custom system tasked to collect social media data, and afterwards process it using various cognitive analytic methods.
翻訳日:2023-05-19 11:22:56 公開日:2020-05-18
# 可変zz相互作用に基づく条件相ゲートの実装

Implementation of Conditional-Phase Gates based on tunable ZZ-Interactions ( http://arxiv.org/abs/2005.08863v1 )

ライセンス: Link先を確認
Michele C. Collodo, Johannes Herrmann, Nathan Lacroix, Christian Kraglund Andersen, Ants Remm, Stefania Lazar, Jean-Claude Besse, Theo Walter, Andreas Wallraff, Christopher Eichler(参考訳) 低クロストークを示す高忠実度2量子ビットゲートは、ゲートベースの量子情報処理に不可欠なビルディングブロックである。 超伝導回路では、2ビットゲートは通常、RF制御相互作用またはキュービット周波数のその場調整性に基づいている。 本稿では,2つの量子ビット間の可変クロスカー型zz相互作用を用いた代替手法を提案する。 3桁以上のzz結合速度を制御することで、非計算状態との共振相互作用に依存することなく、高速(38 ns)、高コントラスト、低リーク(0.14 %)の条件相czゲートを97.9 %の忠実度で実行する。 さらに、zz結合の直接的な性質を生かして、単一の制御パラメータのみを調整して条件相ゲートファミリー全体へ容易にアクセスする。

High fidelity two-qubit gates exhibiting low crosstalk are essential building blocks for gate-based quantum information processing. In superconducting circuits two-qubit gates are typically based either on RF-controlled interactions or on the in-situ tunability of qubit frequencies. Here, we present an alternative approach using a tunable cross-Kerr-type ZZ-interaction between two qubits, which we realize by a flux-tunable coupler element. We control the ZZ-coupling rate over three orders of magnitude to perform a rapid (38 ns), high-contrast, low leakage (0.14 %) conditional-phase CZ gate with a fidelity of 97.9 % without relying on the resonant interaction with a non-computational state. Furthermore, by exploiting the direct nature of the ZZ-coupling, we easily access the entire conditional-phase gate family by adjusting only a single control parameter.
翻訳日:2023-05-19 11:14:03 公開日:2020-05-18
# 量子近似最適化アルゴリズムは全体グラフを見る必要がある:最悪の例

The Quantum Approximate Optimization Algorithm Needs to See the Whole Graph: Worst Case Examples ( http://arxiv.org/abs/2005.08747v1 )

ライセンス: Link先を確認
Edward Farhi, David Gamarnik, Sam Gutmann(参考訳) 量子近似最適化アルゴリズムは、エッジに対応する項の和であるコスト関数を持つグラフ上の探索問題に適用することができる。 エッジ項を共役する場合、深さ p の単位体 QAOA は、問題のあるエッジから少なくとも p 離れたエッジからなる部分グラフのみに依存する作用素を生成する。 ランダムな d-正則グラフでは、d が固定され、p が小さな定数時間対 n で、これらの近傍はほとんどすべての木であり、QAOA のパフォーマンスは木の中央の端にどのように作用するかによって決定される。 2部ランダムd-正則グラフと一般ランダムd-正則グラフの両方が局所木であるため、QAOAのパフォーマンスはこれらの2つのアンサンブルで同じである。 これを用いて、$(d-1)^{2p} < n^A$ の QAOA が任意の$A<1$ に対して、d大の二部ランダムなd-正則グラフ上の Max-Cut に対して 1/2 の近似比しか達成できないことを示す。 最大独立集合に対して、同じ設定において、最良の近似比は d が大きくなると 0 になる d-依存定数である。

The Quantum Approximate Optimization Algorithm can be applied to search problems on graphs with a cost function that is a sum of terms corresponding to the edges. When conjugating an edge term, the QAOA unitary at depth p produces an operator that depends only on the subgraph consisting of edges that are at most p away from the edge in question. On random d-regular graphs, with d fixed and with p a small constant time log n, these neighborhoods are almost all trees and so the performance of the QAOA is determined only by how it acts on an edge in the middle of tree. Both bipartite random d-regular graphs and general random d-regular graphs locally are trees so the QAOA's performance is the same on these two ensembles. Using this we can show that the QAOA with $(d-1)^{2p} < n^A$ for any $A<1$, can only achieve an approximation ratio of 1/2 for Max-Cut on bipartite random d-regular graphs for d large. For Maximum Independent Set, in the same setting, the best approximation ratio is a d-dependent constant that goes to 0 as d gets big.
翻訳日:2023-05-19 11:12:51 公開日:2020-05-18
# 新型コロナウイルス対策における場所ベース活動反応の国別比較

A country comparison of place-based activity response to COVID-19 policies ( http://arxiv.org/abs/2005.08738v1 )

ライセンス: Link先を確認
Grant McKenzie and Benjamin Adams(参考訳) 2019年後半の新型コロナウイルス(covid-19)の出現とその後のパンデミックは、地球上のほぼすべての人々の日常生活に大きな混乱をもたらした。 反動の結果に直面したほとんどの国政府は、住民が行う活動を制限する政策に反応した。 学校や事業が閉鎖されるにつれて、これらの人々の移動性は低下した。 このモビリティの低減と関連する活動は、ユビキタスな位置情報対応のパーソナルモバイルデバイスを通じて記録された。 場所に基づく活動によって異なるパターンが出現した。 本研究は、これらの地域活動パターンの違いを各国で調査し、特に政府が制定した政策と地域活動パターンの変化との関係に着目したものである。 政府の行動に対する人々の活動反応は、国や地域によって大きく異なることを示す。 3つの評価尺度が考案され、その結果は多くのグローバル指標と相関している。 これらの調査結果と政府行動と住民の対応の関係について考察する。

The emergence of the novel Coronavirus Disease in late 2019 (COVID-19) and subsequent pandemic led to an immense disruption in the daily lives of almost everyone on the planet. Faced with the consequences of inaction, most national governments responded with policies that restricted the activities conducted by their inhabitants. As schools and businesses shuttered, the mobility of these people decreased. This reduction in mobility, and related activities, was recorded through ubiquitous location-enabled personal mobile devices. Patterns emerged that varied by place-based activity. In this work the differences in these place-based activity patterns are investigated across nations, specifically focusing on the relationship between government enacted policies and changes in community activity patterns. We show that people's activity response to government action varies widely both across nations as well as regionally within them. Three assessment measures are devised and the results correlate with a number of global indices. We discuss these findings and the relationship between government action and residents' response.
翻訳日:2023-05-19 11:12:26 公開日:2020-05-18
# グローバルプロフェッショナルカンファレンスをオンラインで開催する上でのフレキシビリティの鍵 - 新型コロナウイルス時代のICPE 2020体験

Flexibility Is Key in Organizing a Global Professional Conference Online: The ICPE 2020 Experience in the COVID-19 Era ( http://arxiv.org/abs/2005.09085v1 )

ライセンス: Link先を確認
Alexandru Iosup, Catia Trubiani, Anne Koziolek, Jos\'e Nelson Amaral, Andre B. Bondi, Andreas Brunnert(参考訳) オンラインのプロフェッショナルカンファレンスの編成は、もはやタイムリーではない。 ACM/SPEC International Conference on Performance Engineering 2020の主催者たちは、COVID-19が提起した新たな課題に対して、この問題に対処しなければならなかった。 この記事では彼らの回答を要約する。

Organizing professional conferences online has never been more timely. Responding to the new challenges raised by COVID-19, the organizers of the ACM/SPEC International Conference on Performance Engineering 2020 had to address the question: How should we organize these conferences online? This article summarizes their successful answer.
翻訳日:2023-05-19 11:06:11 公開日:2020-05-18
# DALock: パスワードのスロットリングを意識して配布

DALock: Distribution Aware Password Throttling ( http://arxiv.org/abs/2005.09039v1 )

ライセンス: Link先を確認
Jeremiah Blocki and Wuwei Zhang(参考訳) 大規模なオンラインパスワード推測攻撃は、サイバーセキュリティのリスクのトップの1つとして広く普及し、継続的に適している。 オンラインクラッキングのリスクを軽減する一般的な方法は、連続した不正ログインの試みの固定番号(K$)の後にユーザをロックアウトすることである。 k$ の値を選択すると、古典的なセキュリティ利用のトレードオフが引き起こされる。 k$が大きすぎると、ハッカーは(あっという間に)かなりの数のユーザーアカウントに侵入するが、k$が小さすぎると、数回のミスでユーザーをロックアウトし、正直なユーザーを悩ますようになる。 正直なユーザーミスは、オンライン攻撃者のパスワード推測とはかなり異なるように見えるという観察に動機づけられ、dalock a {\em distribution aware” パスワードロックアウト機構を導入して、ユーザーのリスクを最小限に抑える。 名前が示すように、DALockはログイン攻撃に使われるパスワードの頻度と人気を意識して設計されており、標準的なスロットリング機構(例えば$K$-strikes)はパスワードの配布に不慣れである。 特に、DALockは、特定のアカウントに対するログインの累積確率(推定値)に基づくユーザ毎の"ストイクカウント(strike count)"に加えて、追加の"ヒットカウント(hit count)"を維持している。 実世界のパスワードデータセットを用いて,シミュレーションの広範なバッテリでDALockを実証的に評価した。 従来の$K$-strikesメカニズムと比較して、DALockは優れたセキュリティ/ユーザビリティトレードオフを提供します。 例えば、シミュレーションの1つでは、攻撃者の成功率を$0.05\%$($$$-strikes メカニズムで$$$$$)に削減できると同時に、攻撃を受けていないアカウントに対する不必要なロックアウト率を$0.08\%$($$$$-strikes メカニズムで$$$$$)に削減できます。

Large-scale online password guessing attacks are wide-spread and continuously qualified as one of the top cyber-security risks. The common method for mitigating the risk of online cracking is to lock out the user after a fixed number ($K$) of consecutive incorrect login attempts. Selecting the value of $K$ induces a classic security-usability trade-off. When $K$ is too large a hacker can (quickly) break into a significant fraction of user accounts, but when $K$ is too low we will start to annoy honest users by locking them out after a few mistakes. Motivated by the observation that honest user mistakes typically look quite different than the password guesses of an online attacker, we introduce DALock a {\em distribution aware} password lockout mechanism to reduce user annoyance while minimizing user risk. As the name suggests, DALock is designed to be aware of the frequency and popularity of the password used for login attacks while standard throttling mechanisms (e.g., $K$-strikes) are oblivious to the password distribution. In particular, DALock maintains an extra "hit count" in addition to "strike count" for each user which is based on (estimates of) the cumulative probability of {\em all} login attempts for that particular account. We empirically evaluate DALock with an extensive battery of simulations using real world password datasets. In comparison with the traditional $K$-strikes mechanism we find that DALock offers a superior security/usability trade-off. For example, in one of our simulations we are able to reduce the success rate of an attacker to $0.05\%$ (compared to $1\%$ for the $10$-strikes mechanism) whilst simultaneously reducing the unwanted lockout rate for accounts that are not under attack to just $0.08\%$ (compared to $4\%$ for the $3$-strikes mechanism).
翻訳日:2023-05-19 11:05:15 公開日:2020-05-18
# 時間分解光電子放出によるコヒーレンス観測

Observing coherences with time-resolved photoemission ( http://arxiv.org/abs/2005.08978v1 )

ライセンス: Link先を確認
Alexander F. Kemper, Avinash Rustagi(参考訳) 本研究では, 電流発生時間と角分解光電子放出技術を用いて, 分散固体および量子ビット様単一準位におけるコヒーレンスの生成と測定について検討する。 いずれの場合においても、ポンプとプローブがコヒーレントレベルとエネルギー的に重なり合い、プローブが一方のレベルを他方と比較して優先的に測定した場合、時間分解光電子放出信号は、レベル間のエネルギー差でビーティングパターンを示す。 分散バンドの場合、これは運動量依存的な振動を引き起こし、バンド構造の小さなエネルギースケールをマッピングするために用いられる。 時間分解光電子放出のための2面ファインマン図をさらに発展させ,デコヒーレンスの測定を議論し,量子ビットおよび分散バンドの特性について考察する。

We discuss the potential creation and measurement of coherences in both dispersive solids and qubit-like single levels using current generation time- and angle-resolved photoemission technology. We show that in both cases, when both the pump and the probe overlap energetically with the coherent levels, and when the probe preferentially measures one level as compared to the other, that the time-resolved photoemission signal shows a beating pattern at the energy difference between the levels. In the case of dispersive bands, this leads to momentum-dependent oscillations, which may be used to map out small energy scales in the band structure. We further develop the two-sided Feynman diagrams for time-resolved photoemission, and discuss the measurement of decoherence to gain insight into the characteristics of qubit and dispersive bands.
翻訳日:2023-05-19 11:03:49 公開日:2020-05-18
# フロッケ系における不安定なフラジオールトポロジー

Tunable Fragile Topology in Floquet Systems ( http://arxiv.org/abs/2005.08970v1 )

ライセンス: Link先を確認
Rui-Xing Zhang, Zhi-Cheng Yang(参考訳) 脆弱なトポロジーの概念を定期的に駆動するシステムに拡張する。 2つの異なるモデル、すなわちフロッケハニカムモデルとフロッケ$\pi$-flux square-latticeモデルにおいて、駆動誘起脆弱性トポロジーを示す。 どちらの場合も、結晶回転やミラー対称性によって保護されるフロケ脆性トポロジー相、フロケチャーン絶縁体、および異なる境界特徴を持つ自明な原子相を含むリッチ位相図が見つかる。 注目すべきは、異なる位相間の遷移は、単に駆動可能なトポロジカル現象のユニークな特徴である駆動振幅を調整することで実現可能であることである。 さらに,コーナー局在分数電荷は,システム内の脆弱なトポロジーの ‘smoking-gun'' 信号として同定される。 Floquetシステムにおける脆弱なトポロジーの研究と実現の道を開いた。

We extend the notion of fragile topology to periodically-driven systems. We demonstrate driving-induced fragile topology in two different models, namely, the Floquet honeycomb model and the Floquet $\pi$-flux square-lattice model. In both cases, we discover a rich phase diagram that includes Floquet fragile topological phases protected by crystalline rotation or mirror symmetries, Floquet Chern insulators, and trivial atomic phases, with distinct boundary features. Remarkably, the transitions between different phases can be feasibly achieved by simply tuning the driving amplitudes, which is a unique feature of driving-enabled topological phenomena. Moreover, corner-localized fractional charges are identified as a ``smoking-gun'' signal of fragile topology in our systems. Our work paves the way for studying and realizing fragile topology in Floquet systems.
翻訳日:2023-05-19 11:03:32 公開日:2020-05-18
# プライバシー政策の包括的理解の課題と影響

The Challenges and Impact of Privacy Policy Comprehension ( http://arxiv.org/abs/2005.08967v1 )

ライセンス: Link先を確認
Jana Korunovska, Bernadette Kamleitner, Sarah Spiekermann(参考訳) 新しい情報通信技術プロバイダーは、増加傾向にある個人情報を収集し、その多くがユーザー生成である。 利用ポリシーがプライバシフレンドリでない限り、パブリックデータの可視性による露出や、セカンダリデータの使用によるデータの商業化など、プライバシリスクに弱いユーザはいる。 複雑なプライバシーポリシーのため、オンラインサービスの多くのユーザーは、プライバシー侵害の慣行に不意に同意する。 ユーザーのプライバシーをもっとコントロールするために、学者や規制当局は、短くてシンプルで顕著なプライバシーポリシーを要求している。 その前提は、ユーザーがそのようなポリシーを見て理解し、開示行動の合理的な調整を行うことである。 本稿では,ソーシャルネットワークサービスサイトのユースケースとして,この前提が成り立たないことを示す。 われわれは214人のfacebookユーザーを新しい架空のソーシャルネットワークに招待した。 我々は、避けられないシンプルなプライバシーポリシーのプライバシーフレンドリさを実験的に操作した。 参加者の半数は、この透明なプライバシーポリシーさえ誤解している。 二次データ利用のプライバシーの脅威があったとき、ユーザーはポリシーを実際よりもプライバシーにやさしいと思い出し、不意により多くのデータをアップロードした。 このような行動的落とし穴を軽減するために,情報的同意の質を高める設計勧告を提案する。

The new information and communication technology providers collect increasing amounts of personal data, a lot of which is user generated. Unless use policies are privacy-friendly, this leaves users vulnerable to privacy risks such as exposure through public data visibility or intrusive commercialisation of their data through secondary data use. Due to complex privacy policies, many users of online services unwillingly agree to privacy-intruding practices. To give users more control over their privacy, scholars and regulators have pushed for short, simple, and prominent privacy policies. The premise has been that users will see and comprehend such policies, and then rationally adjust their disclosure behaviour. In this paper, on a use case of social network service site, we show that this premise does not hold. We invited 214 regular Facebook users to join a new fictitious social network. We experimentally manipulated the privacy-friendliness of an unavoidable and simple privacy policy. Half of our participants miscomprehended even this transparent privacy policy. When privacy threats of secondary data use were present, users remembered the policies as more privacy-friendly than they actually were and unwittingly uploaded more data. To mitigate such behavioural pitfalls we present design recommendations to improve the quality of informed consent.
翻訳日:2023-05-19 11:03:17 公開日:2020-05-18
# 複合的不正: 頸椎決定過程の歴史と予測

Compounding Injustice: History and Prediction in Carceral Decision-Making ( http://arxiv.org/abs/2005.13404v1 )

ライセンス: Link先を確認
Benjamin Laufer(参考訳) 刑事司法におけるリスクアセスメントアルゴリズムは、人々の生活を単純な統計ツールの裁量にする。 この論文は、犯罪政策におけるアルゴリズム的意思決定が、州が「高いリスク」と見なすものの中で不利が蓄積するフィードバック効果を如何に発揮するかを探求するものである。 フィラデルフィアの証拠は、リスク(および刑罰)は、政治的意思決定に基礎的、あるいはいかなる形でも外因的ではないことを示唆している。 リスクコールの地理的および人口統計学的特性をよく見てみると、犯罪政策における現在の予測の実践に疑問が呈される。 フィラデルフィアの裁判所ドケット・サマリーを用いて、「犯罪リスク」の既存の決定要因の制御さえも、投獄の犯罪的効果の証拠を見つける。 刑事治療が将来の刑事有罪判決に影響を及ぼすという証拠から, 繰り返しカルセナル決定における複合効果の理論的意義を考察する。

Risk assessment algorithms in criminal justice put people's lives at the discretion of a simple statistical tool. This thesis explores how algorithmic decision-making in criminal policy can exhibit feedback effects, where disadvantage accumulates among those deemed 'high risk' by the state. Evidence from Philadelphia suggests that risk - and, by extension, criminality - is not fundamental or in any way exogenous to political decision-making. A close look at the geographical and demographic properties of risk calls into question the current practice of prediction in criminal policy. Using court docket summaries from Philadelphia, we find evidence of a criminogenic effect of incarceration, even controlling for existing determinants of 'criminal risk'. With evidence that criminal treatment can influence future criminal convictions, we explore the theoretical implications of compounding effects in repeated carceral decisions.
翻訳日:2023-05-19 10:54:52 公開日:2020-05-18
# トロッターゲートを用いた最小絡み合った典型的な熱状態アルゴリズム

Minimally entangled typical thermal states algorithm with Trotter gates ( http://arxiv.org/abs/2005.09455v1 )

ライセンス: Link先を確認
Shimpei Goto and Ippei Danshita(参考訳) 我々は、アベリア対称性を破ることなく、最小絡み合った典型的な熱状態(METTS)アルゴリズムの効率を改善する。 METTSアルゴリズムにアベリア対称性を尊重するトロッターゲートの操作を追加することにより、マルコフ連鎖モンテカルロサンプリングにおける連続状態間の相関が桁違いに減少することがわかった。 本稿では,Bose-Hubbardモデルの正準アンサンブルのシミュレーションにより,改良されたMETTSアルゴリズムの性能を測定し,自己相関の低減が計算時間の短縮につながることを確認した。 本稿では, トロッターゲートの動作を用いたプロトコルが, グランド・カノニカル・アンサンブルのシミュレーションにも有効であることを示す。

We improve the efficiency of the minimally entangled typical thermal states (METTS) algorithm without breaking the Abelian symmetries. By adding the operation of Trotter gates that respects the Abelian symmetries to the METTS algorithm, we find that a correlation between successive states in Markov-chain Monte Carlo sampling decreases by orders of magnitude. We measure the performance of the improved METTS algorithm through the simulations of the canonical ensemble of the Bose-Hubbard model and confirm that the reduction of the autocorrelation leads to the reduction of computation time. We show that our protocol using the operation of Trotter gates is effective also for the simulations of the grand canonical ensemble.
翻訳日:2023-05-19 10:54:38 公開日:2020-05-18
# 繊維ファブリペロキャビティにおけるトラップイオンからの決定論的スピン光子絡み

Deterministic spin-photon entanglement from a trapped ion in a fiber Fabry-Perot cavity ( http://arxiv.org/abs/2005.09124v1 )

ライセンス: Link先を確認
Pascal Kobel, Moritz Breyer and Michael K\"ohl(参考訳) 効率的なネットワークノードの開発は、分散量子コンピューティングや証明可能なセキュアな通信として優れた能力を約束する量子ネットワークの実現の鍵となる要素である。 ファイバベースのファブリペロキャビティ内に閉じ込められたイオンを用いた量子ネットワークノードの実現について報告する。 閉じ込められたybイオンと共振器モードに放出される光子との間に91.2(2)$\,\%の高忠実度で決定論的絡み合いの発生を示す。 2.5 \cdot 10^{-3}$の単一ショットに対して、62\,Hzの絡み合い率で、絡み合いの発生と検出を成功確率で達成する。

The development of efficient network nodes is a key element for the realisation of quantum networks which promise great capabilities as distributed quantum computing or provable secure communication. We report the realisation of a quantum network node using a trapped ion inside a fiber-based Fabry-Perot cavity. We show the generation of deterministic entanglement at a high fidelity of $ 91.2(2) $\,\% between a trapped Yb--ion and a photon emitted into the resonator mode. We achieve a success probability for generation and detection of entanglement for a single shot of $ 2.5 \cdot 10^{-3}$ resulting in 62\,Hz entanglement rate.
翻訳日:2023-05-19 10:54:02 公開日:2020-05-18
# ニューラルネットワークを用いた実験システムにおけるエラー検出と修正の指数論的改善

Exponentially improved detection and correction of errors in experimental systems using neural networks ( http://arxiv.org/abs/2005.09119v1 )

ライセンス: Link先を確認
Pascal Kobel, Martin Link and Michael K\"ohl(参考訳) 本研究では、2つの機械学習アルゴリズムを用いて実験装置の実証モデルを作成し、非バイアスの体系的最適化と比較して指数関数的に汎用最適化タスクに必要な測定回数を減らすことができる。 主成分分析(PCA)は、データを記述する初歩的なモデルが存在する場合の自由度を低減するために用いられる。 さらに,モデルが不明なタスクに対して,ニューラルネットワーク(ANN)を用いることを実証する。 これにより、実験物理学の様々な分野をカバーする様々な最適化タスクに適用できる。 イオントラップにおける成層電場の検出と補償を行い,指数関数的に少ないデータ量で補償を成功させる例として,両アルゴリズムを実演する。

We introduce the use of two machine learning algorithms to create an empirical model of an experimental apparatus, which is able to reduce the number of measurements necessary for generic optimisation tasks exponentially as compared to unbiased systematic optimisation. Principal Component Analysis (PCA) can be used to reduce the degrees of freedom in cases for which a rudimentary model describing the data exists. We further demonstrate the use of an Artificial Neural Network (ANN) for tasks where a model is not known. This makes the presented method applicable to a broad range of different optimisation tasks covering multiple fields of experimental physics. We demonstrate both algorithms at the example of detecting and compensating stray electric fields in an ion trap and achieve a successful compensation with an exponentially reduced amount of data.
翻訳日:2023-05-19 10:53:49 公開日:2020-05-18
# スマートフォンがウェルビーイングに及ぼす影響:理論統合と研究アジェンダ

The Effects of Smartphones on Well-Being: Theoretical Integration and Research Agenda ( http://arxiv.org/abs/2005.09100v1 )

ライセンス: Link先を確認
Kostadin Kushlev and Matthew R Leitao(参考訳) スマートフォンが人々の生活にますます統合されるにつれて、その幸福感に新たな研究領域が生まれてきた。 スマートフォンは,(1)他の活動の置き換え(配置仮説),(2)同時活動の干渉(干渉仮説),(3)利用できない情報や活動へのアクセスを可能にする(補完仮説)という3つの基本的な仮説に基づいて,異なる研究の連鎖と明らかな矛盾点を統合することができる。 このフレームワークを用いることで、方法論上の問題を強調し、ネットエフェクトを超えて、携帯電話が幸福を損なうかどうかを調査する。 心理と文脈の仲介者と効果のモデレーターの両方について検討し、今後の研究の課題を概説する。

As smartphones become ever more integrated in peoples lives, a burgeoning new area of research has emerged on their well-being effects. We propose that disparate strands of research and apparently contradictory findings can be integrated under three basic hypotheses, positing that smartphones influence well-being by (1) replacing other activities (displacement hypothesis), (2) interfering with concurrent activities (interference hypothesis), and (3) affording access to information and activities that would otherwise be unavailable (complementarity hypothesis). Using this framework, we highlight methodological issues and go beyond net effects to examine how and when phones boost versus hurt well-being. We examine both psychological and contextual mediators and moderators of the effects, thus outlining an agenda for future research.
翻訳日:2023-05-19 10:53:36 公開日:2020-05-18
# 世界規模のネットワークカメラを用いたCOVID-19パンデミック対応の観察

Observing Responses to the COVID-19 Pandemic using Worldwide Network Cameras ( http://arxiv.org/abs/2005.09091v1 )

ライセンス: Link先を確認
Isha Ghodgaonkar, Abhinav Goel, Fischer Bordwell, Caleb Tung, Sara Aghajanzadeh, Noah Curran, Ryan Chen, Kaiwen Yu, Sneha Mahapatra, Vishnu Banna, Gore Kao, Kate Lee, Xiao Hu, Nick Eliopolous, Akhil Chinnakotla, Damini Rijhwani, Ashley Kim, Aditya Chakraborty, Mark Daniel Ward, Yung-Hsiang Lu, George K. Thiruvathukal(参考訳) 新型コロナウイルス(COVID-19)は世界的なパンデミックを引き起こし、政策の「ロックダウン」とソーシャルディスタンシングにつながった。 パンデミックは世界を大きく変えた。 これらの歴史的出来事を観察する伝統的な方法は、多くの感染者のいる地域に記者を送ると、記者の命を危険にさらす可能性があるため、難しい。 これらの政策に対する反応を安全に観察するためには、新しい技術が必要である。 本報告では,数千台のネットワークカメラを全世界に展開し,その方針に照らし合わせて活動の確認を行う。 ネットワークカメラは、人間の努力なしにリアルタイムのビジュアルデータ(画像とビデオ)を継続的に提供できる。 これにより、ネットワークカメラは、記者の命を危険にさらすことなく、活動を監視することができる。 本稿では、新型コロナウイルスのパンデミック(2020年3月から4月)における政府の政策に対する対応をネットワークカメラで監視するプロジェクトについて述べる。 このプロジェクトは110か国に3万台以上のネットワークカメラを配備している。 パンデミックの間、ネットワークカメラから視覚データを収集するための一連のコンピュータツールが作成されている。 本稿では,インターネット上でのネットワークカメラの発見方法,データの収集・管理方法,データ解析の予備的な結果について述べる。 このプロジェクトは2020年秋に「第2波」を観測するための基礎となる。 このデータは、社会学者、公衆衛生専門家、気象学者によるパンデミック後の分析に使用できる。

COVID-19 has resulted in a worldwide pandemic, leading to "lockdown" policies and social distancing. The pandemic has profoundly changed the world. Traditional methods for observing these historical events are difficult because sending reporters to areas with many infected people can put the reporters' lives in danger. New technologies are needed for safely observing responses to these policies. This paper reports using thousands of network cameras deployed worldwide for the purpose of witnessing activities in response to the policies. The network cameras can continuously provide real-time visual data (image and video) without human efforts. Thus, network cameras can be utilized to observe activities without risking the lives of reporters. This paper describes a project that uses network cameras to observe responses to governments' policies during the COVID-19 pandemic (March to April in 2020). The project discovers over 30,000 network cameras deployed in 110 countries. A set of computer tools are created to collect visual data from network cameras continuously during the pandemic. This paper describes the methods to discover network cameras on the Internet, the methods to collect and manage data, and preliminary results of data analysis. This project can be the foundation for observing the possible "second wave" in fall 2020. The data may be used for post-pandemic analysis by sociologists, public health experts, and meteorologists.
翻訳日:2023-05-19 10:53:19 公開日:2020-05-18
# 機械学習によるキメラの同定

Identification of Chimera using Machine Learning ( http://arxiv.org/abs/2001.08985v2 )

ライセンス: Link先を確認
M.A. Ganaie, Saptarshi Ghosh, Naveen Mendola, M Tanveer and Sarika Jalan(参考訳) キメラ状態(chimera state)は、様々な複素力学系に見られる同一結合力学単位におけるコヒーレント相と非コヒーレント相の共存を指す。 キメラの同定は神経科学を含む様々な分野に適用可能であるため必要不可欠であり、また、異なるシステムで多様な外観と特徴的特徴から困難である。 したがって、その識別のための単純かつ普遍的な手法は未解決の問題である。 本稿では,異なる動的位相を特徴付ける機械学習手法を用いて,様々なモデルを用いて生成された空間プロファイルからキメラ状態を特定する。 実験結果から, 分類アルゴリズムの性能は動的モデルによって異なることがわかった。 機械学習アルゴリズム(ランダムフォレスト, 斜めランダムフォレスト, チクホノフ, 平行軸分割, ヌル空間正規化)は, 倉本モデルに対して96%以上精度を達成した。 ロジスティックマップでは,ランダム林とチクホノフ正規化に基づく斜めランダム林の精度は90\%以上であり,H'enon-Mapモデルではランダム林,ヌル空間,軸平行分割正規化に基づく斜めランダム林の精度は80\%以上であった。 ヌル空間正規化を伴う斜めランダムフォレストは、異なる力学モデルで一貫した性能(8,3\%$精度以上)を達成し、オートエンコーダベースのランダムベクトル関数型ニューラルネットワークは比較的低い性能を示した。 本研究は,複合非線形単位で発生する動的パターンを大規模に識別するために機械学習手法を採用するための方向性と,実世界の複雑な時空間的パターンを様々な応用のために特徴付けるためのものである。

Chimera state refers to coexistence of coherent and non-coherent phases in identically coupled dynamical units found in various complex dynamical systems. Identification of Chimera, on one hand is essential due to its applicability in various areas including neuroscience, and on other hand is challenging due to its widely varied appearance in different systems and the peculiar nature of its profile. Therefore, a simple yet universal method for its identification remains an open problem. Here, we present a very distinctive approach using machine learning techniques to characterize different dynamical phases and identify the chimera state from given spatial profiles generated using various different models. The experimental results show that the performance of the classification algorithms varies for different dynamical models. The machine learning algorithms, namely random forest, oblique random forest based on tikhonov, parallel-axis split and null space regularization achieved more than $96\% $ accuracy for the Kuramoto model. For the logistic-maps, random forest and tikhonov regularization based oblique random forest showed more than $90\%$ accuracy, and for the H\'enon-Map model, random forest, null-space and axis-parallel split regularization based oblique random forest achieved more than $80\%$ accuracy. The oblique random forest with null space regularization achieved consistent performance (more than $83\%$ accuracy) across different dynamical models while the auto-encoder based random vector functional link neural network showed relatively lower performance. This work provides a direction for employing machine learning techniques to identify dynamical patterns arising in coupled non-linear units on large-scale, and for characterizing complex spatio-temporal patterns in real-world systems for various applications.
翻訳日:2023-01-11 00:03:40 公開日:2020-05-18
# 共有するまたは共有しない:重量共有の包括的な評価

To Share or Not To Share: A Comprehensive Appraisal of Weight-Sharing ( http://arxiv.org/abs/2002.04289v2 )

ライセンス: Link先を確認
Alo\"is Pourchot, Alexis Ducarouge, Olivier Sigaud(参考訳) ウエイトシェアリング(ws)は、ニューラルアーキテクチャサーチ(neural architecture search、nas)と呼ばれる効率的なニューラルアーキテクチャの自動検索を加速するパラダイムとして最近登場した。 非常に魅力的だが、このフレームワークには欠点はなく、いくつかの作品が小さな手作りのベンチマークでその能力に疑問を呈し始めた。 本稿では,代表的な検索空間における WS の効率性に挑戦するために, \nasbench データセットを利用する。 SOTA WS のアプローチを普通のランダム検索と比較することにより、ウェイトシェアリングとスタンドアローンによる評価の間に十分な相関があるにもかかわらず、WS がNAS にとって非常に役立つことはめったにないことを示している。 特に、検索スペース自体がメリットに与える影響を強調します。

Weight-sharing (WS) has recently emerged as a paradigm to accelerate the automated search for efficient neural architectures, a process dubbed Neural Architecture Search (NAS). Although very appealing, this framework is not without drawbacks and several works have started to question its capabilities on small hand-crafted benchmarks. In this paper, we take advantage of the \nasbench dataset to challenge the efficiency of WS on a representative search space. By comparing a SOTA WS approach to a plain random search we show that, despite decent correlations between evaluations using weight-sharing and standalone ones, WS is only rarely significantly helpful to NAS. In particular we highlight the impact of the search space itself on the benefits.
翻訳日:2023-01-02 01:02:35 公開日:2020-05-18
# ウェーブレットを用いた画像分類データセットの類似性解析

Using Wavelets to Analyze Similarities in Image-Classification Datasets ( http://arxiv.org/abs/2002.10257v2 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) ディープラーニングイメージ分類器は通常、巨大なトレーニングセットに依存しており、トレーニングプロセスはトレーニングイメージ間の類似点と相違点を学ぶものとして記述することができる。 しかし、大きなトレーニングセットにある画像は、通常この観点からは研究されておらず、画像間の微妙な類似性や差異は見過ごされがちである。 これはこれらのデータセットの内容を分析するための高速で効率的な計算方法がないためである。 いくつかの研究は、影響的かつ冗長なトレーニングイメージを特定することを目的としているが、そのような方法はトレーニングセット全体において既に訓練されているモデルを必要とする。 本稿では,画像処理と数値解析ツールを用いて,画像分類データセットの類似性を分析するための実用的で高速な手法を提案する。 このような分析は,モデルのトレーニングに先立って,データセットと分類タスクに関する貴重な洞察を提供することができることを示す。 本手法では,事前学習したモデルを必要としない画像や他の数値解析ツールのウェーブレット分解を用いる。 興味深いことに、事前学習したCNNを用いて類似性を解析した文献において、前回の結果を裏付ける結果が得られる。 標準データセット(cifarなど)の類似画像は数秒で識別できるため、文献の代替手法に比べて大幅な高速化が期待できる。 計算速度の障害を取り除くことで、データセットの内容とトレーニングされたモデルに関する新たな洞察を得ることが可能となる。 トレーニング画像とテスト画像の類似性は,モデルの一般化に関する洞察を与える可能性がある。 最後に,訓練モデルの決定境界に関する画像間の類似性について検討する。

Deep learning image classifiers usually rely on huge training sets and their training process can be described as learning the similarities and differences among training images. But, images in large training sets are not usually studied from this perspective and fine-level similarities and differences among images is usually overlooked. This is due to lack of fast and efficient computational methods to analyze the contents of these datasets. Some studies aim to identify the influential and redundant training images, but such methods require a model that is already trained on the entire training set. Here, using image processing and numerical analysis tools we develop a practical and fast method to analyze the similarities in image classification datasets. We show that such analysis can provide valuable insights about the datasets and the classification task at hand, prior to training a model. Our method uses wavelet decomposition of images and other numerical analysis tools, with no need for a pre-trained model. Interestingly, the results we obtain corroborate the previous results in the literature that analyzed the similarities using pre-trained CNNs. We show that similar images in standard datasets (such as CIFAR) can be identified in a few seconds, a significant speed-up compared to alternative methods in the literature. By removing the computational speed obstacle, it becomes practical to gain new insights about the contents of datasets and the models trained on them. We show that similarities between training and testing images may provide insights about the generalization of models. Finally, we investigate the similarities between images in relation to decision boundaries of a trained model.
翻訳日:2022-12-29 03:29:13 公開日:2020-05-18
# フィールドの明るい面に常に目を向ける: サッカー選手のオリエンテーション推定のためのポーズとコンテキストデータの統合

Always Look on the Bright Side of the Field: Merging Pose and Contextual Data to Estimate Orientation of Soccer Players ( http://arxiv.org/abs/2003.00943v2 )

ライセンス: Link先を確認
Adri\`a Arbu\'es-Sang\"uesa, Adri\'an Mart\'in, Javier Fern\'andez, Carlos Rodr\'iguez, Gloria Haro, Coloma Ballester(参考訳) オリエンテーションは広い範囲のプレーに成功するためにサッカー選手にとって重要なスキルであることが証明されているが、ボディオリエンテーションはスポーツアナリティクスの研究においてまだほとんど研究されていない分野である。 本質的に曖昧な概念であるにもかかわらず、プレイヤーのアッパートルソ(3D)の中心に位置する通常のベクトルの射影(2D)として定義することができる。 本研究は,OpenPoseと超高解像度ネットワークを組み合わせた2次元フィールドでポーズ部品(ショルダーとヒップ)をマッピングし,得られた推定値を文脈情報(ボール位置)と組み合わせることで,モノクロビデオ記録からプレイヤーの向きを求める手法を提案する。 プレイヤーが保持するEPTSデバイスで結果が検証され、中央値は27°/playerである。 さらに,3種類のオリエンテーションマップが提案され,データの可視化と理解が容易になり,チームレベルでのさらなる分析が可能となった。

Although orientation has proven to be a key skill of soccer players in order to succeed in a broad spectrum of plays, body orientation is a yet-little-explored area in sports analytics' research. Despite being an inherently ambiguous concept, player orientation can be defined as the projection (2D) of the normal vector placed in the center of the upper-torso of players (3D). This research presents a novel technique to obtain player orientation from monocular video recordings by mapping pose parts (shoulders and hips) in a 2D field by combining OpenPose with a super-resolution network, and merging the obtained estimation with contextual information (ball position). Results have been validated with players-held EPTS devices, obtaining a median error of 27 degrees/player. Moreover, three novel types of orientation maps are proposed in order to make raw orientation data easy to visualize and understand, thus allowing further analysis at team- or player-level.
翻訳日:2022-12-27 05:34:17 公開日:2020-05-18
# 説明可能な機械学習による格子場理論の新展開に向けて

Towards Novel Insights in Lattice Field Theory with Explainable Machine Learning ( http://arxiv.org/abs/2003.01504v2 )

ライセンス: Link先を確認
Stefan Bluecher, Lukas Kades, Jan M. Pawlowski, Nils Strodthoff, Julian M. Urban(参考訳) 機械学習は、モンテカルロサンプルの統計解析を通じて格子量子場理論の位相構造を理解するのに役立つ可能性がある。 利用可能なアルゴリズム、特にディープラーニングに基づくアルゴリズムは、以前は特定されていなかった特徴を探索する際、顕著な性能を示すことが多い。 これらの欠点に対処するために,可観測物の識別のためのフレームワークとして,解釈可能性法と組み合わせて表現学習を提案する。 より具体的には、位相図上の位置に応じて最も重要な可観測物を特定するために、レイヤワイズ関連伝搬(LRP)を用いて、プレテキストタスクとしてのアクションパラメータ回帰を調査する。 このアプローチは (2+1)d におけるスカラー・ユカワモデルの文脈で機能する。 まず,複数の既定標準観測値の重要階層を決定するための多層パーセプトロンについて検討する。 この手法は畳み込みネットワークを用いて直接原フィールド構成に適用され、学習したフィルタ重みから全ての順序パラメータを再構成する能力を示す。 本研究の結果から, LRPなどの帰属法は適用可能性の広さから, 新たな身体的洞察を探索する上で有用かつ多用途なツールであることが示唆された。 湯川モデルの場合、対称位相を特徴付ける可観測性の構築を容易にする。

Machine learning has the potential to aid our understanding of phase structures in lattice quantum field theories through the statistical analysis of Monte Carlo samples. Available algorithms, in particular those based on deep learning, often demonstrate remarkable performance in the search for previously unidentified features, but tend to lack transparency if applied naively. To address these shortcomings, we propose representation learning in combination with interpretability methods as a framework for the identification of observables. More specifically, we investigate action parameter regression as a pretext task while using layer-wise relevance propagation (LRP) to identify the most important observables depending on the location in the phase diagram. The approach is put to work in the context of a scalar Yukawa model in (2+1)d. First, we investigate a multilayer perceptron to determine an importance hierarchy of several predefined, standard observables. The method is then applied directly to the raw field configurations using a convolutional network, demonstrating the ability to reconstruct all order parameters from the learned filter weights. Based on our results, we argue that due to its broad applicability, attribution methods such as LRP could prove a useful and versatile tool in our search for new physical insights. In the case of the Yukawa model, it facilitates the construction of an observable that characterises the symmetric phase.
翻訳日:2022-12-26 23:36:37 公開日:2020-05-18
# 効率的な推論のための解像適応ネットワーク

Resolution Adaptive Networks for Efficient Inference ( http://arxiv.org/abs/2003.07326v5 )

ライセンス: Link先を確認
Le Yang, Yizeng Han, Xi Chen, Shiji Song, Jifeng Dai, Gao Huang(参考訳) 適応推論は、ディープネットワークにおける精度と計算コストの動的トレードオフを達成する効果的なメカニズムである。 既存の作業は主にネットワークの深さや幅におけるアーキテクチャの冗長性を利用する。 本稿では,入力サンプルの空間的冗長性に着目し,低分解能表現が原型的特徴を持つ大物体を含む「簡単」入力を分類するのに十分であるという直感から着想を得た,新しい解像度適応ネットワーク(RANet)を提案する。 ranetでは、入力画像はまず、低解像度表現を効率的に抽出する軽量サブネットワークにルーティングされ、高い予測信頼度を持つサンプルは、さらに処理されることなく、ネットワークから早期に離脱する。 一方、ネットワーク内の高解像度パスは「ハード」サンプルを認識する能力を維持している。 したがって、RANetは高分解能入力の推測に関わる空間冗長性を効果的に低減することができる。 CIFAR-10, CIFAR-100, ImageNetデータセットに対して提案したRANetの有効性を, リアルタイム予測設定とバッチ分類設定の両方で実証した。

Adaptive inference is an effective mechanism to achieve a dynamic tradeoff between accuracy and computational cost in deep networks. Existing works mainly exploit architecture redundancy in network depth or width. In this paper, we focus on spatial redundancy of input samples and propose a novel Resolution Adaptive Network (RANet), which is inspired by the intuition that low-resolution representations are sufficient for classifying "easy" inputs containing large objects with prototypical features, while only some "hard" samples need spatially detailed information. In RANet, the input images are first routed to a lightweight sub-network that efficiently extracts low-resolution representations, and those samples with high prediction confidence will exit early from the network without being further processed. Meanwhile, high-resolution paths in the network maintain the capability to recognize the "hard" samples. Therefore, RANet can effectively reduce the spatial redundancy involved in inferring high-resolution inputs. Empirically, we demonstrate the effectiveness of the proposed RANet on the CIFAR-10, CIFAR-100 and ImageNet datasets in both the anytime prediction setting and the budgeted batch classification setting.
翻訳日:2022-12-23 03:42:44 公開日:2020-05-18
# スケーラブルな変分ガウス過程回帰ネットワーク

Scalable Variational Gaussian Process Regression Networks ( http://arxiv.org/abs/2003.11489v2 )

ライセンス: Link先を確認
Shibo Li, Wei Xing, Mike Kirby and Shandian Zhe(参考訳) ガウス過程回帰ネットワーク(GPRN)は多出力回帰のための強力なベイズモデルであるが、推論は難解である。 この問題に対処するために、既存の手法では、後方近似のために全ての出力と潜在関数に対して完全に因子化された構造(またはそのような構造の混合)を用いるが、潜在変数間の強い後方依存性を見逃し、推論品質を損なう可能性がある。 さらに、変動パラメータの更新は非効率であり、多くの出力に対して違法にコストがかかる可能性がある。 これらの制約を克服するため,我々はgprnに対するスケーラブルな変分推論アルゴリズムを提案する。 出力空間をテンソル化し、テンソル/行列正規変分後部を導入し、後部相関を捕捉し、パラメータを低減する。 我々は、全てのパラメータを最適化し、計算を加速するために下限の変分モデル証拠において固有のクロネッカー積構造を利用する。 本手法の利点を実世界のいくつかのアプリケーションで実証する。

Gaussian process regression networks (GPRN) are powerful Bayesian models for multi-output regression, but their inference is intractable. To address this issue, existing methods use a fully factorized structure (or a mixture of such structures) over all the outputs and latent functions for posterior approximation, which, however, can miss the strong posterior dependencies among the latent variables and hurt the inference quality. In addition, the updates of the variational parameters are inefficient and can be prohibitively expensive for a large number of outputs. To overcome these limitations, we propose a scalable variational inference algorithm for GPRN, which not only captures the abundant posterior dependencies but also is much more efficient for massive outputs. We tensorize the output space and introduce tensor/matrix-normal variational posteriors to capture the posterior correlations and to reduce the parameters. We jointly optimize all the parameters and exploit the inherent Kronecker product structure in the variational model evidence lower bound to accelerate the computation. We demonstrate the advantages of our method in several real-world applications.
翻訳日:2022-12-20 02:58:15 公開日:2020-05-18
# 3D-2D CE-Netを用いた冠動脈分割術

Coronary Artery Segmentation in Angiographic Videos Using A 3D-2D CE-Net ( http://arxiv.org/abs/2003.11851v3 )

ライセンス: Link先を確認
Lu Wang, Dong-xue Liang, Xiao-lei Yin, Jing Qiu, Zhi-yun Yang, Jun-hui Xing, Jian-zeng Dong, Zhao-yuan Ma(参考訳) 冠動脈造影は心臓の介入手術に欠かせない補助技術である。 冠動脈造影ビデオからの血管の分画と抽出は、医師が血管のプラークと狭窄を発見、評価、診断するために必要な必須条件である。 本稿では,ビデオシーケンスから最も鮮明かつ最も包括的な冠動脈造影像を抽出し,医師が血管の状態をよりよく観察するための新しいビデオセグメンテーションフレームワークを提案する。 この枠組みは、3次元畳み込み層を組み合わせることで、映像シーケンスから空間-時間情報を抽出することと、画像シーケンスのセグメンテーションタスクを達成する2次元ce-netとを組み合わせる。 入力は、血管造影ビデオの連続したフレームであり、出力はセグメンテーション結果のマスクである。 セグメンテーションと抽出の結果から,冠動脈造影ビデオの画質が低いにもかかわらず,良好なセグメンテーションが得られた。

Coronary angiography is an indispensable assistive technique for cardiac interventional surgery. Segmentation and extraction of blood vessels from coronary angiography videos are very essential prerequisites for physicians to locate, assess and diagnose the plaques and stenosis in blood vessels. This article proposes a new video segmentation framework that can extract the clearest and most comprehensive coronary angiography images from a video sequence, thereby helping physicians to better observe the condition of blood vessels. This framework combines a 3D convolutional layer to extract spatial--temporal information from a video sequence and a 2D CE--Net to accomplish the segmentation task of an image sequence. The input is a few continuous frames of angiographic video, and the output is a mask of segmentation result. From the results of segmentation and extraction, we can get good segmentation results despite the poor quality of coronary angiography video sequences.
翻訳日:2022-12-19 22:08:56 公開日:2020-05-18
# ビデオゲームにおけるエンド・ツー・エンド行動クローニングのベンチマーク

Benchmarking End-to-End Behavioural Cloning on Video Games ( http://arxiv.org/abs/2004.00981v2 )

ライセンス: Link先を確認
Anssi Kanervisto, Joonas Pussinen, Ville Hautam\"aki(参考訳) コンピュータがデモに基づいてタスクを実行するように指示される行動的クローンは、強化学習なしで、様々なビデオゲームやロボット工学のタスクにうまく適用されている。 また、コンピュータが人間のようにビデオゲームをプレイするエンド・ツー・エンドのアプローチも含まれている:画面に表示された画像を見て、ゲームにキーストロークを送る。 ビデオゲームの一般的なアプローチとしては、ゲームに特別な修正を加える必要がなく、トレーニングセッションが長くないこと、異なるゲーム間で同じツールを再利用できることなど、多くの誘惑的な特性がある。 しかし、関連する研究には結果を得るためにゲーム固有のエンジニアリングが含まれる。 そこで本研究では,2010年以降の6ゲームを含む12のゲームにおいて,人間の実演をトレーニングデータとして利用することにより,行動クローンの一般適用性について検討する。 以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。 また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。

Behavioural cloning, where a computer is taught to perform a task based on demonstrations, has been successfully applied to various video games and robotics tasks, with and without reinforcement learning. This also includes end-to-end approaches, where a computer plays a video game like humans do: by looking at the image displayed on the screen, and sending keystrokes to the game. As a general approach to playing video games, this has many inviting properties: no need for specialized modifications to the game, no lengthy training sessions and the ability to re-use the same tools across different games. However, related work includes game-specific engineering to achieve the results. We take a step towards a general approach and study the general applicability of behavioural cloning on twelve video games, including six modern video games (published after 2010), by using human demonstrations as training data. Our results show that these agents cannot match humans in raw performance but do learn basic dynamics and rules. We also demonstrate how the quality of the data matters, and how recording data from humans is subject to a state-action mismatch, due to human reflexes.
翻訳日:2022-12-17 12:38:09 公開日:2020-05-18
# 特徴対話検出によるテキスト分類における階層的説明の生成

Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection ( http://arxiv.org/abs/2004.02015v3 )

ライセンス: Link先を確認
Hanjie Chen, Guangtao Zheng, Yangfeng Ji(参考訳) ニューラルネットワークの説明を生成することは、信頼性と信頼性に関して、実世界のアプリケーションにとって重要になっている。 自然言語処理では、既存の手法は通常、入力テキストから選択された単語やフレーズを説明として持つ重要な特徴を提供するが、それらの相互作用は無視する。 人間が説明を解釈し、それをモデル予測に結びつけることが課題となる。 本研究では,特徴の相互作用を検出することで階層的な説明を行う。 このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されているかを視覚化し、ブラックボックスモデルの意思決定を理解するのに役立つ。 提案手法は,2つのベンチマークデータセット上で,3つのニューラルネットワーク分類器 (LSTM, CNN, BERT) を用いて評価を行う。 実験は、モデルに忠実で人間に解釈可能な説明を提供するための提案手法の有効性を示す。

Generating explanations for neural networks has become crucial for their applications in real-world with respect to reliability and trustworthiness. In natural language processing, existing methods usually provide important features which are words or phrases selected from an input text as an explanation, but ignore the interactions between them. It poses challenges for humans to interpret an explanation and connect it to model prediction. In this work, we build hierarchical explanations by detecting feature interactions. Such explanations visualize how words and phrases are combined at different levels of the hierarchy, which can help users understand the decision-making of black-box models. The proposed method is evaluated with three neural text classifiers (LSTM, CNN, and BERT) on two benchmark datasets, via both automatic and human evaluations. Experiments show the effectiveness of the proposed method in providing explanations that are both faithful to models and interpretable to humans.
翻訳日:2022-12-16 23:10:58 公開日:2020-05-18
# 部分指数データを用いた一般化ラッソのジェネリック誤差境界

Generic Error Bounds for the Generalized Lasso with Sub-Exponential Data ( http://arxiv.org/abs/2004.05361v2 )

ライセンス: Link先を確認
Martin Genzel and Christian Kipp(参考訳) 本研究は,準指数データを仮定した一般化lassoの非漸近解析を行う。 我々の主な成果は (sub-)Gaussian sample distributions のベンチマークケースに関する最近の研究を継続し, 今後どのような結論が得られるかを探るものである。 一般化されたラッソの多くの統計的特徴(例えば一貫性など)は影響を受けないが、仮説集合の複雑性を測定する方法において鍵となる違いが現れる。 推定誤差は、ジェネリック連鎖に基づく証明戦略から自然に生じる2つの複雑性パラメータによって制御できることがわかった。 出力モデルは実現不可能であるが、入力ベクトルの唯一の要件はベルンシュタイン型の一般濃度不等式であり、これは様々な部分指数分布に対して実装できる。 この抽象的なアプローチにより、一般化されたラッソの既知保証を再現し、統一し、拡張することができる。 特に,半パラメトリック出力モデルと昇降ラッソを用いた位相探索への応用について述べる。 さらに,スパースリカバリ問題と高次元推定問題に関して考察を行った。

This work performs a non-asymptotic analysis of the generalized Lasso under the assumption of sub-exponential data. Our main results continue recent research on the benchmark case of (sub-)Gaussian sample distributions and thereby explore what conclusions are still valid when going beyond. While many statistical features of the generalized Lasso remain unaffected (e.g., consistency), the key difference becomes manifested in the way how the complexity of the hypothesis set is measured. It turns out that the estimation error can be controlled by means of two complexity parameters that arise naturally from a generic-chaining-based proof strategy. The output model can be non-realizable, while the only requirement for the input vector is a generic concentration inequality of Bernstein-type, which can be implemented for a variety of sub-exponential distributions. This abstract approach allows us to reproduce, unify, and extend previously known guarantees for the generalized Lasso. In particular, we present applications to semi-parametric output models and phase retrieval via the lifted Lasso. Moreover, our findings are discussed in the context of sparse recovery and high-dimensional estimation problems.
翻訳日:2022-12-14 13:09:15 公開日:2020-05-18
# 視覚球面パースペクティブによる整流:p4pポーズ推定のための代数的代替

Rectification with Visual Sphere perspective: an algebraic alternative for P4P pose estimation ( http://arxiv.org/abs/2004.08933v3 )

ライセンス: Link先を確認
Jakub Maksymilian Fober(参考訳) 提案アルゴリズムは、代数方程式を用いて視点から見た平面平行線の接対のp4p問題を解く。 Visual Sphere Perspective モデルの導入により、このアルゴリズムはエキゾチックな非線型射影に拡張され、ビュー角は180{\deg} 以上の範囲にまたがることができる。 このソリューションは、ループ反復なしでポーズ推定、カメラの向き、位置を含む可視長方形の完全な3次元再構成を行う。 フルポーズ推定には焦点距離(直線投影)や視点マップなどのカメラレンズ情報が必要となる。 一般的な2Dの視点補正では、この方法にはカメラのレンズ情報を必要としない。 また,カメラの焦点距離に対する視覚的球面に基づくイテレーションフリー推定手法を提案する。

Presented algorithm solves P4P problem for tangent pair of coplanar parallel lines viewed in perspective with an algebraic equation. Introduction of Visual Sphere Perspective model extends this algorithm to exotic non-linear projections, where view angle can span to 180{\deg} and beyond; a hard-limit for rectilinear perspective, common in planar homography and POSIt algorithms. This solution performs full 3D reconstruction of a visible rectangle, including pose estimation, camera orientation and position, without loop iterations. Full pose estimation requires some camera-lens information like focal length (for rectilinear projection) or a perspective map. For a generic 2D, perspective-correct rectification, camera lens information is not required for this method. This paper also presents visual sphere based, iteration-free estimation method for camera's focal length.
翻訳日:2022-12-12 00:31:38 公開日:2020-05-18
# サイドチャネル解析のための画像としてのパワートレースの符号化

Encoding Power Traces as Images for Efficient Side-Channel Analysis ( http://arxiv.org/abs/2004.11015v2 )

ライセンス: Link先を確認
Benjamin Hettwer (1 and 2), Tobias Horn (3), Stefan Gehrer (4) and Tim G\"uneysu (2) ((1) Robert Bosch GmbH, Corporate Sector Research, Renningen, Germany, (2) Horst G\"ortz Institute for IT-Security, Ruhr University Bochum, Germany,(3) Esslingen University of Applied Sciences, Esslingen, Germany, (4) Robert Bosch LLC, Corporate Sector Research, Pittsburgh, USA)(参考訳) サイドチャネル攻撃(SCA)は、暗号アルゴリズムの実装を攻撃するための強力な方法である。 テンプレート攻撃や確率モデルのような最先端技術は、通常、多くの手動前処理と攻撃者による特徴抽出を必要とする。 ディープラーニング(DL)メソッドは、SCAを単純化し、同時に攻撃を成功させるために必要なサイドチャネルトレースの量を削減します。 しかしながら、dlの一般的な成功は、イメージを分類する能力、すなわち、人間よりも容易に優れる分野によって引き起こされる。 本稿では,1次元トレースを2次元画像として解釈する新しい手法を提案する。 本稿では,画像にパワートレースを変換する技術をいくつか紹介し,これらをAES(Advanced Encryption Standard)の異なる実装に適用する。 ニューラルネットワークが画像としてトレースを解釈することで、正確な鍵推定に必要な攻撃トレース数を著しく削減できると同時に、深度チャネル内の複数の2Dイメージを入力として使用することにより、攻撃効率を向上できることを示す。 さらに,画像に基づくデータ拡張を適用することにより,攻撃性能を同時に向上しつつ,プロファイリングトレースの数が50倍に減少することを示す。 実際のアプリケーションでは、攻撃者が記録できるトレースの量は極めて限られているため、これは重要な改善である。

Side-Channel Attacks (SCAs) are a powerful method to attack implementations of cryptographic algorithms. State-of-the-art techniques such as template attacks and stochastic models usually require a lot of manual preprocessing and feature extraction by the attacker. Deep Learning (DL) methods have been introduced to simplify SCAs and simultaneously lowering the amount of required side-channel traces for a successful attack. However, the general success of DL is largely driven by their capability to classify images, a field in which they easily outperform humans. In this paper, we present a novel technique to interpret 1D traces as 2D images. We show and compare several techniques to transform power traces into images, and apply these on different implementations of the Advanced Encryption Standard (AES). By allowing the neural network to interpret the trace as an image, we are able to significantly reduce the number of required attack traces for a correct key guess.We also demonstrate that the attack efficiency can be improved by using multiple 2D images in the depth channel as an input. Furthermore, by applying image-based data augmentation, we show how the number of profiling traces is reduced by a factor of 50 while simultaneously enhancing the attack performance. This is a crucial improvement, as the amount of traces that can be recorded by an attacker is often very limited in real-life applications.
翻訳日:2022-12-10 12:45:46 公開日:2020-05-18
# 視覚知覚分析に関する調査

Survey on Visual Sentiment Analysis ( http://arxiv.org/abs/2004.11639v2 )

ライセンス: Link先を確認
Alessandro Ortis and Giovanni Maria Farinella and Sebastiano Battiato(参考訳) Visual Sentiment Analysisは、イメージが人間に与える影響を理解することを目的としている。 この分野は比較的新しいが、様々なデータソースや問題に対して幅広い技術が開発され、多くの研究が行われている。 本稿では,関連出版物をレビューし,その分野の概要を概観する。 タスクとその関連アプリケーションの説明の後、主題は異なる主目的の下で取り組まれる。 また,感情モデル,データセット定義,特徴設計という3つの視点から,一般視覚感情分析システムの設計原理について述べる。 様々なレベルの粒度と、異なる方法でイメージに対する感情に影響を与えるコンポーネントを考慮して、問題の形式化について議論する。 そこで本研究では,通常テキスト解析に使用される問題の構造化形式化について検討し,視覚知覚分析の文脈における適合性について論じる。 また,本研究から得られた知見の要約とともに,新たな課題,より高度なシステムに向けた進展の観点からの評価,関連する実践的応用についても述べる。

Visual Sentiment Analysis aims to understand how images affect people, in terms of evoked emotions. Although this field is rather new, a broad range of techniques have been developed for various data sources and problems, resulting in a large body of research. This paper reviews pertinent publications and tries to present an exhaustive overview of the field. After a description of the task and the related applications, the subject is tackled under different main headings. The paper also describes principles of design of general Visual Sentiment Analysis systems from three main points of view: emotional models, dataset definition, feature design. A formalization of the problem is discussed, considering different levels of granularity, as well as the components that can affect the sentiment toward an image in different ways. To this aim, this paper considers a structured formalization of the problem which is usually used for the analysis of text, and discusses it's suitability in the context of Visual Sentiment Analysis. The paper also includes a description of new challenges, the evaluation from the viewpoint of progress toward more sophisticated systems and related practical applications, as well as a summary of the insights resulting from this study.
翻訳日:2022-12-10 04:10:59 公開日:2020-05-18
# nlpは法制度にどのように役立つか - 法的な人工知能の概要

How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence ( http://arxiv.org/abs/2004.12158v5 )

ライセンス: Link先を確認
Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun(参考訳) 法的人工知能(legalai: legal artificial intelligence)は、人工知能、特に自然言語処理の技術を法領域のタスクに応用することに焦点を当てている。 近年、LegalAIは、法律専門家を書類の迷路から解放する法体系に有益であるため、AI研究者と法律専門家の両方から急速に注目を集めている。 法律専門家はルールベースの手法やシンボルベースの手法からタスクを解く方法を考えることが多いが、NLPの研究者はデータ駆動および埋め込み手法にもっと集中している。 本稿では,レガライにおける研究の歴史,現状,今後の方向性について紹介する。 本稿では,法律専門家やnlp研究者の視点からタスクを説明し,法務分野における代表的な応用例を示す。 我々は実験を行い、今後の方向性を探るために既存の作品の利点と欠点を詳細に分析する。 私たちの作業の実装はhttps://github.com/thunlp/CLAIM.comで確認できます。

Legal Artificial Intelligence (LegalAI) focuses on applying the technology of artificial intelligence, especially natural language processing, to benefit tasks in the legal domain. In recent years, LegalAI has drawn increasing attention rapidly from both AI researchers and legal professionals, as LegalAI is beneficial to the legal system for liberating legal professionals from a maze of paperwork. Legal professionals often think about how to solve tasks from rule-based and symbol-based methods, while NLP researchers concentrate more on data-driven and embedding methods. In this paper, we introduce the history, the current state, and the future directions of research in LegalAI. We illustrate the tasks from the perspectives of legal professionals and NLP researchers and show several representative applications in LegalAI. We conduct experiments and provide an in-depth analysis of the advantages and disadvantages of existing works to explore possible future directions. You can find the implementation of our work from https://github.com/thunlp/CLAIM.
翻訳日:2022-12-09 21:53:39 公開日:2020-05-18
# 視覚的接地型ニューラル構文獲得で学んだこと

What is Learned in Visually Grounded Neural Syntax Acquisition ( http://arxiv.org/abs/2005.01678v2 )

ライセンス: Link先を確認
Noriyuki Kojima, Hadar Averbuch-Elor, Alexander M. Rush, Yoav Artzi(参考訳) ビジュアル機能はブートストラップテキストモデルを学習するための有望な信号である。 しかし、ブラックボックス学習モデルは、視覚的コンポーネントの特定の貢献を分離するのが困難である。 本稿では,視覚訓練信号から構文を学習するための最近のアプローチである,視覚接地型ニューラルシンタクス学習者(shi et al., 2019)のケーススタディについて考察する。 モデルの単純化されたバージョンを構築することで、モデルの強力なパフォーマンスをもたらすコア要素を分離します。 モデルが学習できることとは対照的に、表現力に乏しいバージョンは同じような予測を生成し、同じように、あるいはさらに良い結果を得る。 また、より複雑な構文的推論とは対照的に、名詞具体性の単純な語彙信号がモデルの予測において主要な役割を果たすことも見いだした。

Visual features are a promising signal for learning bootstrap textual models. However, blackbox learning models make it difficult to isolate the specific contribution of visual components. In this analysis, we consider the case study of the Visually Grounded Neural Syntax Learner (Shi et al., 2019), a recent approach for learning syntax from a visual training signal. By constructing simplified versions of the model, we isolate the core factors that yield the model's strong performance. Contrary to what the model might be capable of learning, we find significantly less expressive versions produce similar predictions and perform just as well, or even better. We also find that a simple lexical signal of noun concreteness plays the main role in the model's predictions as opposed to more complex syntactic reasoning.
翻訳日:2022-12-07 00:55:27 公開日:2020-05-18
# DoQA - 会話型QAによるドメイン特化FAQへのアクセス

DoQA -- Accessing Domain-Specific FAQs via Conversational QA ( http://arxiv.org/abs/2005.01328v2 )

ライセンス: Link先を確認
Jon Ander Campos, Arantxa Otegi, Aitor Soroa, Jan Deriu, Mark Cieliebak, Eneko Agirre(参考訳) 本研究の目的は,FAQ サイトで利用可能なドメイン固有情報の大部分を対象とした対話型質問応答 (QA) インターフェースを構築することである。 2,437の対話と10,917のQAペアを持つデータセットであるDoQAを提示する。 対話はクラウドソーシングによるozメソッドのウィザードを使用して、3つのスタック交換サイトから収集される。 以前の研究と比較すると、DoQAは明確に定義された情報要求を含んでおり、より一貫性があり、よりファクトイドな質問と自然な会話をもたらし、マルチドメインである。 さらに,より現実的な情報検索(ir)シナリオを導入して,faq文書のどれかに回答を求める。 既存の強力なシステムは、ウィキペディアのQAデータセットからの変換学習と単一のFAQドメインでの微調整により、ドメイン内のトレーニングデータなしでFAQのための高品質な会話型QAシステムを構築することができることを示している。 良い結果は、より困難なIRシナリオに続きます。 どちらの場合でも、より高いヒトの上界で示されるように、改善の余地は十分にある。

The goal of this work is to build conversational Question Answering (QA) interfaces for the large body of domain-specific information available in FAQ sites. We present DoQA, a dataset with 2,437 dialogues and 10,917 QA pairs. The dialogues are collected from three Stack Exchange sites using the Wizard of Oz method with crowdsourcing. Compared to previous work, DoQA comprises well-defined information needs, leading to more coherent and natural conversations with less factoid questions and is multi-domain. In addition, we introduce a more realistic information retrieval(IR) scenario where the system needs to find the answer in any of the FAQ documents. The results of an existing, strong, system show that, thanks to transfer learning from a Wikipedia QA dataset and fine tuning on a single FAQ domain, it is possible to build high quality conversational QA systems for FAQs without in-domain training data. The good results carry over into the more challenging IR scenario. In both cases, there is still ample room for improvement, as indicated by the higher human upperbound.
翻訳日:2022-12-07 00:47:09 公開日:2020-05-18
# SARS-CoV-2プロテアーゼ阻害剤の進化的多目的設計

Evolutionary Multi-Objective Design of SARS-CoV-2 Protease Inhibitor Candidates ( http://arxiv.org/abs/2005.02666v2 )

ライセンス: Link先を確認
Tim Cofala, Lars Elend, Philip Mirbach, Jonas Prellberg, Thomas Teusch, Oliver Kramer(参考訳) 人工知能に基づく計算薬物設計は、新たな研究分野である。 この論文の執筆時点では、世界はSARS-CoV-2の流行に悩まされている。 ウイルスの複製を止めるための有望な方法はプロテアーゼ阻害である。 sars-cov-2の主プロテアーゼの潜在的なプロテアーゼインヒビターを設計するための進化的多目的アルゴリズム(emoa)を提案する。 SELFIES表現に基づいて、EMOAはドッキングツールQuickVina 2を用いたタンパク質への候補リガンドの結合を最大化するとともに、ドラッグライクラインやフィルター制約の実現といったさらなる目的を考慮に入れている。 実験部は進化過程を分析し、インヒビター候補について論じる。

Computational drug design based on artificial intelligence is an emerging research area. At the time of writing this paper, the world suffers from an outbreak of the coronavirus SARS-CoV-2. A promising way to stop the virus replication is via protease inhibition. We propose an evolutionary multi-objective algorithm (EMOA) to design potential protease inhibitors for SARS-CoV-2's main protease. Based on the SELFIES representation the EMOA maximizes the binding of candidate ligands to the protein using the docking tool QuickVina 2, while at the same time taking into account further objectives like drug-likeliness or the fulfillment of filter constraints. The experimental part analyzes the evolutionary process and discusses the inhibitor candidates.
翻訳日:2022-12-06 04:47:21 公開日:2020-05-18
# 階層型折り畳み型スキップアテンションネットワークによるポイントクラウドの完成

Point Cloud Completion by Skip-attention Network with Hierarchical Folding ( http://arxiv.org/abs/2005.03871v2 )

ライセンス: Link先を確認
Xin Wen, Tianyang Li, Zhizhong Han, Yu-Shen Liu(参考訳) ポイントクラウド補完は、不完全な3Dオブジェクトの欠落領域に対する完全なジオメトリを推論することを目的としている。 従来の手法は通常、不完全入力から抽出された大域的な形状表現に基づいて完全点雲を予測する。 しかし、グローバルな表現はしばしば不完全点雲の局所領域における構造詳細の情報損失に悩まされる。 この問題に対処するために,3Dポイントクラウド補完のためのSkip-Attention Network (SA-Net)を提案する。 私たちの主な貢献は次の2つです。 まず、欠落部分の推測中に不完全点雲の局所構造の詳細を効果的に活用するためのスキップ注意機構を提案する。 スキップアテンション機構は、異なる解像度で完全なものを生成するために不完全点雲の局所領域から幾何学情報を選択的に伝達し、スキップアテンションが完了プロセスを解釈可能な方法で明らかにする。 第2に,スキップアテンション機構で符号化された幾何情報を異なる解像度で完全に活用するために,階層的な折り畳みを施した新しい構造保存デコーダを提案する。 階層的な折り畳みは、同じ解像度でスキップアテンションされた幾何学を用いて、局所領域を段階的に詳述することにより、上層層層で生成された完全点雲の構造を保存する。 本研究では,ShapeNetとKITTIデータセットの総合的な実験を行い,提案したSA-Netが最先端のクラウド補完手法より優れていることを示す。

Point cloud completion aims to infer the complete geometries for missing regions of 3D objects from incomplete ones. Previous methods usually predict the complete point cloud based on the global shape representation extracted from the incomplete input. However, the global representation often suffers from the information loss of structure details on local regions of incomplete point cloud. To address this problem, we propose Skip-Attention Network (SA-Net) for 3D point cloud completion. Our main contributions lie in the following two-folds. First, we propose a skip-attention mechanism to effectively exploit the local structure details of incomplete point clouds during the inference of missing parts. The skip-attention mechanism selectively conveys geometric information from the local regions of incomplete point clouds for the generation of complete ones at different resolutions, where the skip-attention reveals the completion process in an interpretable way. Second, in order to fully utilize the selected geometric information encoded by skip-attention mechanism at different resolutions, we propose a novel structure-preserving decoder with hierarchical folding for complete shape generation. The hierarchical folding preserves the structure of complete point cloud generated in upper layer by progressively detailing the local regions, using the skip-attentioned geometry at the same resolution. We conduct comprehensive experiments on ShapeNet and KITTI datasets, which demonstrate that the proposed SA-Net outperforms the state-of-the-art point cloud completion methods.
翻訳日:2022-12-05 12:42:54 公開日:2020-05-18
# 過パラメータニューラルネットワークの臨界点

The critical locus of overparameterized neural networks ( http://arxiv.org/abs/2005.04210v2 )

ライセンス: Link先を確認
Y. Cooper(参考訳) 深層学習における損失関数の幾何学の多くの側面は謎のままである。 本稿では、過パラメータ化されたフィードフォワードニューラルネットワークの損失関数$L$について、よりよく理解するために研究する。 この設定では、$L$の臨界軌跡のいくつかの成分を特定し、それらの幾何学的性質を研究する。 深度$\ell \geq 4$ のネットワークでは、スター軌跡 $S$ と呼ぶ臨界点の軌跡を特定する。 S$ 内では、$p \in C$ に対して$p$ は退化臨界点であり、既存の理論的な結果は、勾配降下が$p$ に収束しないことを保証しないという性質を持つ正次元部分軌跡 $C$ を同定する。 非常に広いネットワークでは、初期の研究に基づいて、$l$の全ての臨界点が縮退していることを示し、各臨界点におけるヘッシアンのゼロ固有値の数に下限を与える。 深いネットワークと非常に広いネットワークでは、ヘシアンのゼロ固有空間の成長速度を、我々が識別する臨界点のすべての異なるファミリーで比較する。 本研究の結果は, 臨界軌跡の様々な成分の性質についてより定量的に理解するための出発点となる。

Many aspects of the geometry of loss functions in deep learning remain mysterious. In this paper, we work toward a better understanding of the geometry of the loss function $L$ of overparameterized feedforward neural networks. In this setting, we identify several components of the critical locus of $L$ and study their geometric properties. For networks of depth $\ell \geq 4$, we identify a locus of critical points we call the star locus $S$. Within $S$ we identify a positive-dimensional sublocus $C$ with the property that for $p \in C$, $p$ is a degenerate critical point, and no existing theoretical result guarantees that gradient descent will not converge to $p$. For very wide networks, we build on earlier work and show that all critical points of $L$ are degenerate, and give lower bounds on the number of zero eigenvalues of the Hessian at each critical point. For networks that are both deep and very wide, we compare the growth rates of the zero eigenspaces of the Hessian at all the different families of critical points that we identify. The results in this paper provide a starting point to a more quantitative understanding of the properties of various components of the critical locus of $L$.
翻訳日:2022-12-05 11:32:35 公開日:2020-05-18
# COVID19アプリにとって、どのくらい良いのか? 利益、正確性、プライバシーが採用意欲に及ぼす影響

How good is good enough for COVID19 apps? The influence of benefits, accuracy, and privacy on willingness to adopt ( http://arxiv.org/abs/2005.04343v4 )

ライセンス: Link先を確認
Gabriel Kaptchuk, Daniel G. Goldstein, Eszter Hargittai, Jake Hofman, Elissa M. Redmiles(参考訳) 手動での接触追跡を補完するために、多くのコンタクトトレースアプリが開発されている。 重要な疑問は、ユーザーがこれらの連絡先追跡アプリを採用するかどうかだ。 本研究では,米国人4500名を対象に,(1)新型コロナウイルス(covid-19)接触追跡アプリのインストール意欲に対する正確性とプライバシーの懸念,(2)異なるグループによる正確性とプライバシの重み付けについて調査した。 最初の2つの研究課題から得られた知見をもとに,(3)公衆衛生給付の量(感染率の低下),個人給付の量(真に新型コロナウイルスへの曝露の検出),および仮説的接触追跡アプリにおけるプライバシリスクの程度が,アメリカ人のインストール意欲にどのように影響するかを定量的にモデル化した。 我々の研究は、COVID19に関連するポリシーやアプリデザインの発展に影響を及ぼすための記述的倫理的アプローチを採っている。

A growing number of contact tracing apps are being developed to complement manual contact tracing. A key question is whether users will be willing to adopt these contact tracing apps. In this work, we survey over 4,500 Americans to evaluate (1) the effect of both accuracy and privacy concerns on reported willingness to install COVID19 contact tracing apps and (2) how different groups of users weight accuracy vs. privacy. Drawing on our findings from these first two research questions, we (3) quantitatively model how the amount of public health benefit (reduction in infection rate), amount of individual benefit (true-positive detection of exposures to COVID), and degree of privacy risk in a hypothetical contact tracing app may influence American's willingness to install. Our work takes a descriptive ethics approach toward offering implications for the development of policy and app designs related to COVID19.
翻訳日:2022-12-05 07:16:49 公開日:2020-05-18
# 正規化畳み込みニューラルネットワーク

Normalized Convolutional Neural Network ( http://arxiv.org/abs/2005.05274v3 )

ライセンス: Link先を確認
Dongsuk Kim and Geonhee Lee and Myungjae Lee and Shin Uk Kang and Dongmin Kim(参考訳) 本稿では,正規化畳み込みニューラルネットワーク(NCNN)を提案する。 NCNNは他のノマリザイトン法よりも畳み込み作用素に適合している。 正規化プロセスは正規化手法に似ているが、NCNNはスライスインプットに適応し、畳み込みカーネルに対応する。 NCNNはマイクロバッチトレーニングをターゲットにすることができる。 ncの正常化は畳み込みの過程で行われる。 要するに、NCプロセスは通常の正規化ではなく、標準畳み込みプロセスを最適化するディープラーニングフレームワークでは実現できない。 そこで我々はこの手法を「Normalized Convolution」と名付けた。 その結果、ncプロセスは、畳み込みニューラルネットワーク層を含む任意のaiタスクにncを適用できる普遍的特性を有する。 NCNNは他の正規化レイヤを必要としないため、NCNNは自己正規化ネットワークの畳み込み版に見えます。 (SNN)。 マイクロバッチトレーニングでは、ncnnは他のバッチ独立正規化法よりも優れている。 ncnnは入力のim2col行列の行を標準化することでこれらの優位性をアーカイブし、理論的に損失の勾配を滑らかにする。 コードは、標準畳み込みニューラルネットワークを段階的に操作する必要がある。 コードはhttps://github.com/kimdongsuk1/ normalizedcnn。

In this paper, we propose Normalized Convolutional Neural Network(NCNN). NCNN is more fitted to a convolutional operator than other nomralizaiton methods. The normalized process is similar to a normalization methods, but NCNN is more adapative to sliced-inputs and corresponding the convolutional kernel. Therefor NCNN can be targeted to micro-batch training. Normalizaing of NC is conducted during convolutional process. In short, NC process is not usual normalization and can not be realized in deep learning framework optimizing standard convolution process. Hence we named this method 'Normalized Convolution'. As a result, NC process has universal property which means NC can be applied to any AI tasks involving convolution neural layer . Since NC don't need other normalization layer, NCNN looks like convolutional version of Self Normalizing Network.(SNN). Among micro-batch trainings, NCNN outperforms other batch-independent normalization methods. NCNN archives these superiority by standardizing rows of im2col matrix of inputs, which theoretically smooths the gradient of loss. The code need to manipulate standard convolution neural networks step by step. The code is available : https://github.com/kimdongsuk1/ NormalizedCNN.
翻訳日:2022-12-04 20:27:55 公開日:2020-05-18
# CrisisBERT: 危機分類とコンテキスト危機埋め込みのためのロバスト変換器

CrisisBERT: a Robust Transformer for Crisis Classification and Contextual Crisis Embedding ( http://arxiv.org/abs/2005.06627v2 )

ライセンス: Link先を確認
Junhua Liu, Trisha Singhal, Lucienne T.M. Blessing, Kristin L. Wood and Kwan Hui Lim(参考訳) 自然災害、テロ攻撃、パンデミックなどの危機イベントの分類は、早期の信号を作成し、関連する当事者に全体的被害を減らすために自発的な行動を知らせる重要なタスクである。 自然災害などの危機は専門機関によって予測できるが、特定の出来事は、新型コロナウイルス(covid-19)のパンデミックのような民間人によって最初に示唆される。 twitterのようなソーシャルメディアプラットフォームは、毎日50億以上のツイートが投稿された大量の情報交換を通じて、そのような危機に対して直接のシグナルを発信することが多い。 以前の研究は、従来の機械学習とニューラルネットワークモデルを使用して、さまざまな危機の埋め込みと分類を提案した。 しかしながら、これらの作品は、トランスフォーマーや文書レベルのコンテキスト埋め込みといった、最先端の注意に基づくディープニューラルネットワークモデルを使用して、危機的埋め込みと分類を行うものではない。 本研究は、危機検出と危機認識という2つの危機分類タスクのためのエンドツーエンドのトランスフォーマーベースモデルであるCrisisBERTを提案する。 提案モデルはベンチマークよりも優れたロバスト性を示し、51.4%のデータポイントしか持たない6から36のイベントに限界的なパフォーマンス上の妥協を示す。 我々はまた、危機埋め込みのための注意ベースの文書レベルのコンテキスト埋め込みアーキテクチャであるCrisis2Vecを提案し、Word2VecやGloVeのような従来の危機埋め込み手法よりも優れた性能を実現した。 私たちの知る限りでは,本研究はまず,トランスフォーマティブに基づく危機分類と文書レベルの文脈的危機を文献に埋め込む手法を提案する。

Classification of crisis events, such as natural disasters, terrorist attacks and pandemics, is a crucial task to create early signals and inform relevant parties for spontaneous actions to reduce overall damage. Despite crisis such as natural disasters can be predicted by professional institutions, certain events are first signaled by civilians, such as the recent COVID-19 pandemics. Social media platforms such as Twitter often exposes firsthand signals on such crises through high volume information exchange over half a billion tweets posted daily. Prior works proposed various crisis embeddings and classification using conventional Machine Learning and Neural Network models. However, none of the works perform crisis embedding and classification using state of the art attention-based deep neural networks models, such as Transformers and document-level contextual embeddings. This work proposes CrisisBERT, an end-to-end transformer-based model for two crisis classification tasks, namely crisis detection and crisis recognition, which shows promising results across accuracy and f1 scores. The proposed model also demonstrates superior robustness over benchmark, as it shows marginal performance compromise while extending from 6 to 36 events with only 51.4% additional data points. We also proposed Crisis2Vec, an attention-based, document-level contextual embedding architecture for crisis embedding, which achieve better performance than conventional crisis embedding methods such as Word2Vec and GloVe. To the best of our knowledge, our works are first to propose using transformer-based crisis classification and document-level contextual crisis embedding in the literature.
翻訳日:2022-12-04 19:44:56 公開日:2020-05-18
# MathZero, the classification problem, and set-theoretic type theory

MathZero, The Classification Problem, and Set-Theoretic Type Theory ( http://arxiv.org/abs/2005.05512v2 )

ライセンス: Link先を確認
David McAllester(参考訳) AlphaZeroは、ゲームのルールのみを与えられた自己プレイを通じて、ゴー、チェス、ショギをスーパーヒューマンレベルでプレイすることを学ぶ。 これは、同様のことが数学(MathZero)でもできるかどうかという疑問を提起する。 MathZeroには正式な基礎と目的が必要だ。 本稿では,集合論的依存型理論の基礎と分類問題-概念インスタンスを同型まで分類する問題-によって定義される目的を提案する。 自然数は有限集合の分類問題の解として生じる。 ここでは、古典的ブルバキ集合論的同型を集合論的依存型理論に一般化する。 我々の知識に対して、命題的集合論的等式を持つ集合理論依存型理論に対する最初の同型推論規則を与える。 このプレゼンテーションは、型理論への事前の露出なしに数学者がアクセスできることを意図している。

AlphaZero learns to play go, chess and shogi at a superhuman level through self play given only the rules of the game. This raises the question of whether a similar thing could be done for mathematics -- a MathZero. MathZero would require a formal foundation and an objective. We propose the foundation of set-theoretic dependent type theory and an objective defined in terms of the classification problem -- the problem of classifying concept instances up to isomorphism. The natural numbers arise as the solution to the classification problem for finite sets. Here we generalize classical Bourbaki set-theoretic isomorphism to set-theoretic dependent type theory. To our knowledge we give the first isomorphism inference rules for set-theoretic dependent type theory with propositional set-theoretic equality. The presentation is intended to be accessible to mathematicians with no prior exposure to type theory.
翻訳日:2022-12-03 19:37:39 公開日:2020-05-18
# ビジネスプロセスマイニングにおける予測のためのコンセプトドリフト処理

Handling Concept Drift for Predictions in Business Process Mining ( http://arxiv.org/abs/2005.05810v2 )

ライセンス: Link先を確認
Lucas Baier, Josua Reimold, Niklas K\"uhl(参考訳) 現在、予測サービスはすべてのビジネスセクターで重要な役割を果たす。 しかし、デプロイされた機械学習モデルは、概念ドリフトと呼ばれる時間とともにデータストリームを変更することで挑戦される。 モデルの予測品質は、この現象に大きく影響される。 したがって、コンセプトドリフトは通常モデルの再トレーニングによって処理される。 しかし、現在の研究では、機械学習モデルの再トレーニングのために選択すべきデータが推奨されていない。 そこで本研究では,異なるデータ選択戦略を体系的に分析する。 次に,概念ドリフトの影響を強く受けているプロセスマイニングのユースケースについて考察を行う。 コンセプトドリフトハンドリングにより,0.5400から0.7010までの精度向上が期待できる。 さらに,様々なデータ選択戦略の効果について述べる。

Predictive services nowadays play an important role across all business sectors. However, deployed machine learning models are challenged by changing data streams over time which is described as concept drift. Prediction quality of models can be largely influenced by this phenomenon. Therefore, concept drift is usually handled by retraining of the model. However, current research lacks a recommendation which data should be selected for the retraining of the machine learning model. Therefore, we systematically analyze different data selection strategies in this work. Subsequently, we instantiate our findings on a use case in process mining which is strongly affected by concept drift. We can show that we can improve accuracy from 0.5400 to 0.7010 with concept drift handling. Furthermore, we depict the effects of the different data selection strategies.
翻訳日:2022-12-03 18:23:39 公開日:2020-05-18
# T$2$-weighted image of a customd MR pelvic phantom set for robust radiomic model in clinic の放射線学的特徴に関する多施設共同研究

A multicenter study on radiomic features from T$_2$-weighted images of a customized MR pelvic phantom setting the basis for robust radiomic models in clinics ( http://arxiv.org/abs/2005.06833v2 )

ライセンス: Link先を確認
Linda Bianchini, Joao Santinha, Nuno Lou\c{c}\~ao, Mario Figueiredo, Francesca Botta, Daniela Origgi, Marta Cremonesi, Enrico Cassano, Nikolaos Papanikolaou and Alessandro Lascialfari(参考訳) 本研究では,MRI画像から抽出した放射能特徴の再現性と再現性を検討した。 骨盤ファントムの2Dおよび3D T$_2$-weighted画像は2つのメーカーの3つのスキャナーと2つの磁場強度で得られた。 放射線学的特徴の再現性および再現性は, 分類内相関係数 (ICC) とコンコータンス相関係数 (CCC) で評価され, ファントム再配置の有無, スキャナー/取得タイプ, 取得パラメータが異なっていた。 ICC/CCC > 0.9 の特徴を抽出し,形状情報(Spearman's $\rho$> 0.8)に依存した。 ボクセル強度をシャッフルした後、テクスチャを識別する能力で分類された。 944の2D特徴から79.9%から96.4%は全てのスキャナーの固定位置において優れた再現性を示した。 さらに低い範囲(11.2%から85.4%)がファントム再配置後に得られた。 3次元抽出では再現性は向上しなかった。 スキャナー間の再現性が4.6%から15.6%、固定された画像パラメータで観察された。 特徴の82.4%から94.9%は、TEs 5ms間隔で取得した画像から抽出した画像(TE間隔を増すと値が下がった)から優れた一致を示し、特徴の90.7%はTRの変化に対して優れた再現性を示した。 形状情報のみを提供する非形状特徴の2.0%が同定された。 本研究は, 放射線学的特徴が特定のMRIプロトコルによって影響を受けることを示す。 T$2$-weighted画像上の放射能解析において, 信頼性の低い特徴を同定することができた。 本稿では, 臨床研究の堅牢性を確保するために, 再現性, 再現性, 情報的特徴を同定するための一般的なワークフローを提案する。

In this study we investigated the repeatability and reproducibility of radiomic features extracted from MRI images and provide a workflow to identify robust features. 2D and 3D T$_2$-weighted images of a pelvic phantom were acquired on three scanners of two manufacturers and two magnetic field strengths. The repeatability and reproducibility of the radiomic features were assessed respectively by intraclass correlation coefficient (ICC) and concordance correlation coefficient (CCC), considering repeated acquisitions with or without phantom repositioning, and with different scanner/acquisition type, and acquisition parameters. The features showing ICC/CCC > 0.9 were selected, and their dependence on shape information (Spearman's $\rho$> 0.8) was analyzed. They were classified for their ability to distinguish textures, after shuffling voxel intensities. From 944 2D features, 79.9% to 96.4% showed excellent repeatability in fixed position across all scanners. Much lower range (11.2% to 85.4%) was obtained after phantom repositioning. 3D extraction did not improve repeatability performance. Excellent reproducibility between scanners was observed in 4.6% to 15.6% of the features, at fixed imaging parameters. 82.4% to 94.9% of features showed excellent agreement when extracted from images acquired with TEs 5 ms apart (values decreased when increasing TE intervals) and 90.7% of the features exhibited excellent reproducibility for changes in TR. 2.0% of non-shape features were identified as providing only shape information. This study demonstrates that radiomic features are affected by specific MRI protocols. The use of our radiomic pelvic phantom allowed to identify unreliable features for radiomic analysis on T$_2$-weighted images. This paper proposes a general workflow to identify repeatable, reproducible, and informative radiomic features, fundamental to ensure robustness of clinical studies.
翻訳日:2022-12-03 05:22:38 公開日:2020-05-18
# 機械学習データセットにおけるジェンダーバイアスの緩和

Mitigating Gender Bias in Machine Learning Data Sets ( http://arxiv.org/abs/2005.06898v2 )

ライセンス: Link先を確認
Susan Leavy, Gerardine Meaney, Karen Wade, Derek Greene(参考訳) 人工知能は社会バイアスを増幅し持続する能力を持ち、社会に重大な倫理的影響をもたらす。 ジェンダーバイアスは、基礎となる言語処理とレコメンデーションアルゴリズムに依存しているため、雇用広告や採用ツールの文脈で特定されている。 このような問題に対処しようとする試みは、学習した協会をテストすること、公正の概念を機械学習に統合すること、トレーニングデータのより厳密な分析を実行することなどである。 言語にジェンダーイデオロギーを組み込む複雑な方法を考えると、アルゴリズムがテキストデータでトレーニングされる際のバイアスの軽減は特に難しい。 本稿では,機械学習のためのトレーニングデータにおけるジェンダーバイアスの同定のための枠組みを提案する。この研究は,テキスト学習データと関連するニューラルワード埋め込みモデルにおけるバイアスのレベルを体系的に示すためのジェンダー理論と社会言語学に基づいており,トレーニングデータからバイアスを取り除き,その影響を批判的に評価するための経路を強調する。

Artificial Intelligence has the capacity to amplify and perpetuate societal biases and presents profound ethical implications for society. Gender bias has been identified in the context of employment advertising and recruitment tools, due to their reliance on underlying language processing and recommendation algorithms. Attempts to address such issues have involved testing learned associations, integrating concepts of fairness to machine learning and performing more rigorous analysis of training data. Mitigating bias when algorithms are trained on textual data is particularly challenging given the complex way gender ideology is embedded in language. This paper proposes a framework for the identification of gender bias in training data for machine learning.The work draws upon gender theory and sociolinguistics to systematically indicate levels of bias in textual training data and associated neural word embedding models, thus highlighting pathways for both removing bias from training data and critically assessing its impact.
翻訳日:2022-12-03 04:21:28 公開日:2020-05-18
# トルコ語名称エンティティ認識における最近のニューラルシーケンスタグモデルの評価

An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named Entity Recognition ( http://arxiv.org/abs/2005.07692v2 )

ライセンス: Link先を確認
Gizem Aras, Didem Makaroglu, Seniz Demir, Altan Cakir(参考訳) 名前付きエンティティ認識(NER)は、テキスト中の名前付きエンティティを抽出し分類する広範囲に研究されたタスクである。 nerは、関係抽出や質問応答といった下流言語処理アプリケーションだけでなく、オンラインデジタルメディアコンテンツのリアルタイム解析のような大規模ビッグデータ操作においても重要である。 形態学的に豊かな言語であるトルコ語に関する最近の研究は、十分に整形されたテキストに対するニューラルネットワークの有効性を実証し、そのタスクをシーケンスタギング問題として定式化することによって、最先端のアート結果を得た。 本研究では,トルコのNERタグ付けのために提案されているニューラルアーキテクチャ(双方向長短期メモリとトランスフォーマーベースネットワーク)の使用を,同じ環境で実証的に検討する。 長範囲文脈をモデル化可能なトランスフォーマーベースネットワークは,文字,サブワード,単語レベルの異なる入力機能を利用するBiLSTMネットワークの限界を克服することを示した。 また、コンディショナルランダムフィールド(CRF)層を有するトランスフォーマーベースネットワークを提案し、共通データセット上での最先端結果(95.95\% f-measure)を導出する。 本研究は,移動学習が形態的に豊かな言語処理に与える影響を定量化する文献に寄与する。

Named entity recognition (NER) is an extensively studied task that extracts and classifies named entities in a text. NER is crucial not only in downstream language processing applications such as relation extraction and question answering but also in large scale big data operations such as real-time analysis of online digital media content. Recent research efforts on Turkish, a less studied language with morphologically rich nature, have demonstrated the effectiveness of neural architectures on well-formed texts and yielded state-of-the art results by formulating the task as a sequence tagging problem. In this work, we empirically investigate the use of recent neural architectures (Bidirectional long short-term memory and Transformer-based networks) proposed for Turkish NER tagging in the same setting. Our results demonstrate that transformer-based networks which can model long-range context overcome the limitations of BiLSTM networks where different input features at the character, subword, and word levels are utilized. We also propose a transformer-based network with a conditional random field (CRF) layer that leads to the state-of-the-art result (95.95\% f-measure) on a common dataset. Our study contributes to the literature that quantifies the impact of transfer learning on processing morphologically rich languages.
翻訳日:2022-12-03 04:21:01 公開日:2020-05-18
# ニューラルネットワークをスキップグラムレベル決定リストに蒸留する

Distilling neural networks into skipgram-level decision lists ( http://arxiv.org/abs/2005.07111v2 )

ライセンス: Link先を確認
Madhumita Sushil and Simon \v{S}uster and Walter Daelemans(参考訳) リカレントニューラルネットワークの説明に関するいくつかの以前の研究は、ネットワークの最も重要な入力セグメントをその説明として見つけるアプローチに焦点を当てている。 この場合、これらの入力セグメントが互いに結合して説明パターンを形成する方法はまだ不明である。 これを解決するために、いくつかの以前の研究は、ニューラルアウトプットを説明するデータの中にパターン(ルールと呼ばれる)を見つけようとする。 しかし、それらの説明は、しばしばモデルパラメータに敏感であり、テキスト説明のスケーラビリティを制限する。 これらの制限を克服するために、スキップグラム上の決定リスト(ルールとも呼ばれる)を用いてRNNを説明するパイプラインを提案する。 説明を評価するために, 合成敗血症同定データセットを作成し, 追加臨床および感情分析データセットに適用する。 提案手法は,高い説明精度と定性的に解釈可能な規則を持続的に達成する。

Several previous studies on explanation for recurrent neural networks focus on approaches that find the most important input segments for a network as its explanations. In that case, the manner in which these input segments combine with each other to form an explanatory pattern remains unknown. To overcome this, some previous work tries to find patterns (called rules) in the data that explain neural outputs. However, their explanations are often insensitive to model parameters, which limits the scalability of text explanations. To overcome these limitations, we propose a pipeline to explain RNNs by means of decision lists (also called rules) over skipgrams. For evaluation of explanations, we create a synthetic sepsis-identification dataset, as well as apply our technique on additional clinical and sentiment analysis datasets. We find that our technique persistently achieves high explanation fidelity and qualitatively interpretable rules.
翻訳日:2022-12-03 04:13:19 公開日:2020-05-18
# グローバルパンデミックにおける偽ニュース伝播に対するキーストロークバイオメトリックス

Keystroke Biometrics in Response to Fake News Propagation in a Global Pandemic ( http://arxiv.org/abs/2005.07688v2 )

ライセンス: Link先を確認
Aythami Morales and Alejandro Acien and Julian Fierrez and John V. Monaco and Ruben Tolosana and Ruben Vera-Rodriguez and Javier Ortega-Garcia(参考訳) 本研究では,キーストロークバイオメトリックスを用いたコンテンツ匿名化手法の提案と解析を行う。 フェイクニュースは、特に大きなイベントの間、世論を操作する強力なツールになっている。 特に、新型コロナウイルス(covid-19)パンデミックによる偽ニュースの大規模な拡散は、政府や企業が誤情報と戦わざるを得なくなった。 この文脈では、このような悪意のあるコンテンツをインターネットに拡散する複数のアカウントやプロフィールを匿名で隠してリンクできる能力は、積極的な識別とブラックリスト化を可能にする。 行動バイオメトリックスは、この戦いにおいて強力なツールとなり得る。 本研究では,キーストローク生体認証の最近の進歩が,10万人のユーザと100万以上の型付きシーケンスを含む実験における行動型付けパターンのリンクにどのように役立つかを分析した。 提案システムは,コンテンツ匿名化の文脈に適応したリカレントニューラルネットワークに基づいている。 対象ユーザの型付きコンテンツを候補プロファイルのプールにリンクさせることが困難であるとして,キーストローク認識を用いて候補プロファイルのリストを90%以上削減できることを示す。 さらに,キーストロークと補助データ(位置など)を組み合わせると,1Kプロファイルと100Kプロファイルからなる背景候補リストに対して,52.6%,10.9%のランク1識別性能が得られる。

This work proposes and analyzes the use of keystroke biometrics for content de-anonymization. Fake news have become a powerful tool to manipulate public opinion, especially during major events. In particular, the massive spread of fake news during the COVID-19 pandemic has forced governments and companies to fight against missinformation. In this context, the ability to link multiple accounts or profiles that spread such malicious content on the Internet while hiding in anonymity would enable proactive identification and blacklisting. Behavioral biometrics can be powerful tools in this fight. In this work, we have analyzed how the latest advances in keystroke biometric recognition can help to link behavioral typing patterns in experiments involving 100,000 users and more than 1 million typed sequences. Our proposed system is based on Recurrent Neural Networks adapted to the context of content de-anonymization. Assuming the challenge to link the typed content of a target user in a pool of candidate profiles, our results show that keystroke recognition can be used to reduce the list of candidate profiles by more than 90%. In addition, when keystroke is combined with auxiliary data (such as location), our system achieves a Rank-1 identification performance equal to 52.6% and 10.9% for a background candidate list composed of 1K and 100K profiles, respectively.
翻訳日:2022-12-02 23:35:42 公開日:2020-05-18
# twitterにおけるトレンド語と都市辞書活動の時間的関係の分析

Analyzing Temporal Relationships between Trending Terms on Twitter and Urban Dictionary Activity ( http://arxiv.org/abs/2005.07655v2 )

ライセンス: Link先を確認
Steven R. Wilson, Walid Magdy, Barbara McGillivray, Gareth Tyson(参考訳) オンライン、クラウドソース、オープン英語スラング辞書として、アーバン辞書プラットフォームには、多くの意見、ジョーク、用語、フレーズ、頭字語の定義が含まれている。 しかし、このプラットフォームでの活動が、ウェブ上の他の場所で起きている大きな会話とどのように関連しているかは、正確には分かっていない。 本研究では,都市辞書における時間的活動傾向を調査し,この活動が主要ソーシャルネットワーク上で議論されているコンテンツとどのように関連しているかを初めて分析する。 都市辞書全体および7年間のツイートの大規模なサンプルを収集することにより,都市辞書で定義・検索される単語とフレーズと,twitterで話題となっているコンテンツとの関係を探索する。 相互相関計算を通じて,都市辞書活動がtwitter上で発生している大きな会話を密接に反映する事例を同定する。 そして、Twitter上での議論に強く結びついている用語の種類を分析し、Twitterと肯定的に相関している都市辞典の活動は、ミーム、人気のある公開人物、オフラインイベントに関連する用語を中心にしている。 最後に,twitter上で語句がトレンドになっている時期と都市辞書上の対応行動との関係について検討し,現在twitterでトレンドとなっている語句について,都市辞書に新たな定義が付加される可能性が高まることを明らかにした。

As an online, crowd-sourced, open English-language slang dictionary, the Urban Dictionary platform contains a wealth of opinions, jokes, and definitions of terms, phrases, acronyms, and more. However, it is unclear exactly how activity on this platform relates to larger conversations happening elsewhere on the web, such as discussions on larger, more popular social media platforms. In this research, we study the temporal activity trends on Urban Dictionary and provide the first analysis of how this activity relates to content being discussed on a major social network: Twitter. By collecting the whole of Urban Dictionary, as well as a large sample of tweets over seven years, we explore the connections between the words and phrases that are defined and searched for on Urban Dictionary and the content that is talked about on Twitter. Through a series of cross-correlation calculations, we identify cases in which Urban Dictionary activity closely reflects the larger conversation happening on Twitter. Then, we analyze the types of terms that have a stronger connection to discussions on Twitter, finding that Urban Dictionary activity that is positively correlated with Twitter is centered around terms related to memes, popular public figures, and offline events. Finally, We explore the relationship between periods of time when terms are trending on Twitter and the corresponding activity on Urban Dictionary, revealing that new definitions are more likely to be added to Urban Dictionary for terms that are currently trending on Twitter.
翻訳日:2022-12-02 23:17:43 公開日:2020-05-18
# Surfboard: モダン機械学習のための音声特徴抽出

Surfboard: Audio Feature Extraction for Modern Machine Learning ( http://arxiv.org/abs/2005.08848v1 )

ライセンス: Link先を確認
Raphael Lenain, Jack Weston, Abhishek Shivkumar, Emil Fristed(参考訳) 医療ドメインへのアプリケーションでオーディオ機能を抽出するための,オープンソースのpythonライブラリであるsubmarienceを紹介する。 Surfboardは、既存のライブラリの問題点に対処し、モダンな機械学習フレームワークとの併用を容易にする目的で書かれている。 このパッケージはpythonでプログラム的にもコマンドラインインターフェースでもアクセスでき、機械学習ワークフローに簡単に統合できる。 最先端のオーディオ分析パッケージ上に構築され、大規模なワークロードを処理するためのマルチプロセッシングサポートを提供する。 類似したフレームワークをレビューし,その特徴の臨床的動機を含め,サーブのアーキテクチャについて述べる。 mpowerデータセットを用いてパーキンソン病分類タスクへのサーフボードの適用例を示し、既存の研究に共通する落とし穴を浮き彫りにする。 ソースコードは研究コミュニティに公開され、臨床領域における将来の音声研究を促進する。

We introduce Surfboard, an open-source Python library for extracting audio features with application to the medical domain. Surfboard is written with the aim of addressing pain points of existing libraries and facilitating joint use with modern machine learning frameworks. The package can be accessed both programmatically in Python and via its command line interface, allowing it to be easily integrated within machine learning workflows. It builds on state-of-the-art audio analysis packages and offers multiprocessing support for processing large workloads. We review similar frameworks and describe Surfboard's architecture, including the clinical motivation for its features. Using the mPower dataset, we illustrate Surfboard's application to a Parkinson's disease classification task, highlighting common pitfalls in existing research. The source code is opened up to the research community to facilitate future audio research in the clinical domain.
翻訳日:2022-12-02 00:51:11 公開日:2020-05-18
# 深部強化学習を用いた1型糖尿病の基底グルコースコントロール: insilico Validation

Basal Glucose Control in Type 1 Diabetes using Deep Reinforcement Learning: An In Silico Validation ( http://arxiv.org/abs/2005.09059v1 )

ライセンス: Link先を確認
Taiyu Zhu, Kezhi Li, Pau Herrero, Pantelis Georgiou(参考訳) 1型糖尿病(t1d)の患者は、治療的に適切な目標範囲で血糖値を維持するために、インスリンの定期的な外因性注入を必要とする。 人工膵臓と連続グルコースモニタリングはクローズドループ制御の達成に有効であることが証明されているが、グルコースダイナミクスの複雑さと技術上の限界により、依然として大きな課題が残っている。 本研究では,シングルホルモン(インシュリン)とデュアルホルモン(インシュリンとグルカゴン)デリバリーのための新しい深層強化学習モデルを提案する。 特に、拡張されたリカレントニューラルネットワークを用いたダブルq学習によって、デリバリ戦略が開発されている。 設計と試験のために、FDAが承認したUVA/Padova Type 1シミュレータが採用された。 まず,集団モデルを得るための長期総合訓練を行った。 そして、このモデルは、主題固有の小さなデータセットでパーソナライズされた。 シリコでは、低血糖のインスリンサスペンションを用いた標準的な基底代謝療法と比較して、シングルホルモンとデュアルホルモンのデリバリー戦略が良好なグルコース制御を達成していることが示された。 具体的には、成体コホート(n=10)では、ターゲット範囲[70, 180] mg/dLが77.6%から80.9%に改善され、二重ホルモンコントロールでは85.6\%%となった。 思春期コホート (n=10) では, ターゲット範囲のパーセンテージタイムは55.5%から65.9%に改善し, 二重ホルモンコントロールでは78.8%に改善した。 いずれの場合も低血糖の有意な低下が観察された。 これらの結果から, 深部強化学習はT1Dの閉ループグルコース制御に有効であることが示された。

People with Type 1 diabetes (T1D) require regular exogenous infusion of insulin to maintain their blood glucose concentration in a therapeutically adequate target range. Although the artificial pancreas and continuous glucose monitoring have been proven to be effective in achieving closed-loop control, significant challenges still remain due to the high complexity of glucose dynamics and limitations in the technology. In this work, we propose a novel deep reinforcement learning model for single-hormone (insulin) and dual-hormone (insulin and glucagon) delivery. In particular, the delivery strategies are developed by double Q-learning with dilated recurrent neural networks. For designing and testing purposes, the FDA-accepted UVA/Padova Type 1 simulator was employed. First, we performed long-term generalized training to obtain a population model. Then, this model was personalized with a small data-set of subject-specific data. In silico results show that the single and dual-hormone delivery strategies achieve good glucose control when compared to a standard basal-bolus therapy with low-glucose insulin suspension. Specifically, in the adult cohort (n=10), percentage time in target range [70, 180] mg/dL improved from 77.6% to 80.9% with single-hormone control, and to $85.6\%$ with dual-hormone control. In the adolescent cohort (n=10), percentage time in target range improved from 55.5% to 65.9% with single-hormone control, and to 78.8% with dual-hormone control. In all scenarios, a significant decrease in hypoglycemia was observed. These results show that the use of deep reinforcement learning is a viable approach for closed-loop glucose control in T1D.
翻訳日:2022-12-02 00:50:37 公開日:2020-05-18
# 非線形ビオット方程式の逆問題解決のための物理情報ニューラルネットワーク:バッチトレーニング

Physics-informed Neural Networks for Solving Inverse Problems of Nonlinear Biot's Equations: Batch Training ( http://arxiv.org/abs/2005.09638v1 )

ライセンス: Link先を確認
Teeratorn Kadeethum, Thomas M J{\o}rgensen, Hamidreza M Nick(参考訳) 生物工学, 地震予知, 地中エネルギー収穫では, 直接測定は非現実的・抑制的であるため, 多孔質媒体の物理的特性を間接的に推定することが重要である。 本稿では,非線形ビオット方程式の逆問題に対する物理情報ニューラルネットワークの適用について述べる。 具体的には、バッチトレーニングを検討し、異なるバッチサイズの影響について検討する。 その結果、バッチサイズが小さいトレーニング、例えばバッチあたりのサンプルは、大きなバッチや全バッチを使用するよりも、物理パラメータの近似(低いパーセンテージエラー)がより良くなることが示された。 物理パラメータの精度が向上すると、トレーニング時間が長くなる。 特に、非常に小さなバッチサイズでは、推定精度が向上することなく、非常に長いトレーニング時間を必要とするため、サイズが小さすぎるべきではない。 8または32のバッチサイズは、データ内の追加ノイズに対して堅牢な、優れた妥協点であることが分かりました。 学習率も重要な役割を担っており、ハイパーパラメータとして使う必要がある。

In biomedical engineering, earthquake prediction, and underground energy harvesting, it is crucial to indirectly estimate the physical properties of porous media since the direct measurement of those are usually impractical/prohibitive. Here we apply the physics-informed neural networks to solve the inverse problem with regard to the nonlinear Biot's equations. Specifically, we consider batch training and explore the effect of different batch sizes. The results show that training with small batch sizes, i.e., a few examples per batch, provides better approximations (lower percentage error) of the physical parameters than using large batches or the full batch. The increased accuracy of the physical parameters, comes at the cost of longer training time. Specifically, we find the size should not be too small since a very small batch size requires a very long training time without a corresponding improvement in estimation accuracy. We find that a batch size of 8 or 32 is a good compromise, which is also robust to additive noise in the data. The learning rate also plays an important role and should be used as a hyperparameter.
翻訳日:2022-12-02 00:49:45 公開日:2020-05-18
# 乱流燃焼閉鎖におけるPDFタブの効率的な機械学習手法

An Efficient Machine-Learning Approach for PDF Tabulation in Turbulent Combustion Closure ( http://arxiv.org/abs/2005.09747v1 )

ライセンス: Link先を確認
Rishikesh Ranade, Genong Li, Shaoping Li, Tarek Echekki(参考訳) 確率密度関数(PDF)に基づく乱流燃焼モデリングは、大量のメモリを消費できる多次元PDFテーブルを格納する必要があるため制限される。 数式関数を用いたPDFテーブルの熱化学的量を表す様々な機械学習技術を用いることで、記憶の大幅な節約が達成できる。 これらの関数は、熱化学量に用いられる既存の補間法よりも計算コストが高い。 さらに重要なのは、トレーニング時間がシミュレーション時間のかなりの部分を占めることだ。 本研究では、回帰と自己組織化マップ(SOM)のための多層認識(MLP)ニューラルネットワークを利用した適応学習アルゴリズムを導入し、データをクラスタリングして異なるネットワークを用いて集計する。 このアルゴリズムは、PDFテーブルの多次元性と提案アルゴリズムの計算効率の両方に対処するように設計されている。 SOMクラスタリングは、PDFテーブルをデータの類似性に基づいていくつかの部分に分割する。 各データのクラスタは、単純なネットワークアーキテクチャ上でMPPアルゴリズムを用いてトレーニングされ、熱化学量のための局所関数を生成する。 RANS法とLES法の両方を用いて, いわゆるDLR-A乱流噴流拡散火炎に対するアルゴリズムの有効性を検証し, 標準線形補間法と比較した。 この比較は2つの集計手法間で非常によく一致し、PDF集計の実行可能な方法としてMLP-SOMアプローチを確立する。

Probability density function (PDF) based turbulent combustion modelling is limited by the need to store multi-dimensional PDF tables that can take up large amounts of memory. A significant saving in storage can be achieved by using various machine-learning techniques that represent the thermo-chemical quantities of a PDF table using mathematical functions. These functions can be computationally more expensive than the existing interpolation methods used for thermo-chemical quantities. More importantly, the training time can amount to a considerable portion of the simulation time. In this work, we address these issues by introducing an adaptive training algorithm that relies on multi-layer perception (MLP) neural networks for regression and self-organizing maps (SOMs) for clustering data to tabulate using different networks. The algorithm is designed to address both the multi-dimensionality of the PDF table as well as the computational efficiency of the proposed algorithm. SOM clustering divides the PDF table into several parts based on similarities in data. Each cluster of data is trained using an MLP algorithm on simple network architectures to generate local functions for thermo-chemical quantities. The algorithm is validated for the so-called DLR-A turbulent jet diffusion flame using both RANS and LES simulations and the results of the PDF tabulation are compared to the standard linear interpolation method. The comparison yields a very good agreement between the two tabulation techniques and establishes the MLP-SOM approach as a viable method for PDF tabulation.
翻訳日:2022-12-02 00:49:27 公開日:2020-05-18
# 画像抽出のためのwebページセグメンテーションとその周辺情報

Webpage Segmentation for Extracting Images and Their Surrounding Contextual Information ( http://arxiv.org/abs/2005.09639v1 )

ライセンス: Link先を確認
F. Fauzi, H. J. Long, M. Belkhatir(参考訳) Webイメージには、貴重なコンテキスト情報がある。 この情報は、画像アノテーション、画像のクラスタリング、画像意味コンテンツの推論など様々な用途で長年採掘されてきたが、この文脈情報マイニングの問題に対処するために、あまり注意が払われていない。 本稿では,Webページ上に表示される特徴に基づいて,Web画像とそのコンテキスト情報抽出を目的としたWebページセグメンテーションアルゴリズムを提案する。 提案手法の有効性を検証するために,人間ラベルデータセットを得るためのユーザスタディを実施し,既存のセグメンテーションアルゴリズムよりも優れた結果が得られることを示す実験を行った。

Web images come in hand with valuable contextual information. Although this information has long been mined for various uses such as image annotation, clustering of images, inference of image semantic content, etc., insufficient attention has been given to address issues in mining this contextual information. In this paper, we propose a webpage segmentation algorithm targeting the extraction of web images and their contextual information based on their characteristics as they appear on webpages. We conducted a user study to obtain a human-labeled dataset to validate the effectiveness of our method and experiments demonstrated that our method can achieve better results compared to an existing segmentation algorithm.
翻訳日:2022-12-02 00:42:40 公開日:2020-05-18
# 三重項損失を用いた楽曲のランク付け学習

Learning to rank music tracks using triplet loss ( http://arxiv.org/abs/2005.12977v1 )

ライセンス: Link先を確認
Laure Pr\'etet, Ga\"el Richard, Geoffroy Peeters(参考訳) ほとんどの音楽ストリーミングサービスは、大規模な音楽カタログを利用するために自動レコメンデーションアルゴリズムに依存している。 これらのアルゴリズムは、ターゲット曲との類似性に基づいて、音楽トラックのランク付けリストを取得することを目的としている。 本研究では,楽曲に明示的にタグを付けることなく,音声コンテンツに基づいて直接推薦する手法を提案する。 そこで本研究では,ランクリストからトリプルトマイニングを行ういくつかの戦略を提案する。 畳み込みニューラルネットワークを訓練し、三重項損失による類似性を学習する。 これらの異なる戦略を比較し、自動タグベースのアプローチに対する大規模な実験で検証する。 その結果,特にオートプール層に関連した場合,システムの効率性が注目された。

Most music streaming services rely on automatic recommendation algorithms to exploit their large music catalogs. These algorithms aim at retrieving a ranked list of music tracks based on their similarity with a target music track. In this work, we propose a method for direct recommendation based on the audio content without explicitly tagging the music tracks. To that aim, we propose several strategies to perform triplet mining from ranked lists. We train a Convolutional Neural Network to learn the similarity via triplet loss. These different strategies are compared and validated on a large-scale experiment against an auto-tagging based approach. The results obtained highlight the efficiency of our system, especially when associated with an Auto-pooling layer.
翻訳日:2022-12-02 00:42:30 公開日:2020-05-18
# グラスマン多様体の学習:大規模MIMOシステムのCSI量子化

Learning on a Grassmann Manifold: CSI Quantization for Massive MIMO Systems ( http://arxiv.org/abs/2005.08413v1 )

ライセンス: Link先を確認
Keerthana Bhogi, Chiranjib Saha, and Harpreet S. Dhillon(参考訳) 本稿では,基本チャネル分布の平均正規化ビームフォーミングゲインを最大化するビームフォーミング符号ブックの設計に着目する。 既存の手法は統計チャネルモデルを用いるが,機械学習の基礎となるモデルフリーなデータ駆動方式を用いて,周辺伝播条件に適応したビームフォーミングコードブックを生成する。 鍵となる技術的貢献は、k平均クラスタリングを用いて効率的に解くことができるチャネル状態情報(csi)のための有限サイズのビームフォーミング符号ブックを形成するグラスマン多様体上の符号ブック設計問題を教師なしクラスタリング問題に還元することである。 このアプローチは、一様平面アレイ(UPA)アンテナを備えたフルディメンジョン(FD)マルチインプットマルチアウトプット(MIMO)システムのための製品コードブックを設計するための極めて効率的な手順を開発するために拡張される。 シミュレーションの結果, コードブックの学習における設計基準の有効性が示され, コードブックのサイズが小さくなり, 既存のcsi量子化手法に比べてビームフォーミング効果が顕著に高かった。

This paper focuses on the design of beamforming codebooks that maximize the average normalized beamforming gain for any underlying channel distribution. While the existing techniques use statistical channel models, we utilize a model-free data-driven approach with foundations in machine learning to generate beamforming codebooks that adapt to the surrounding propagation conditions. The key technical contribution lies in reducing the codebook design problem to an unsupervised clustering problem on a Grassmann manifold where the cluster centroids form the finite-sized beamforming codebook for the channel state information (CSI), which can be efficiently solved using K-means clustering. This approach is extended to develop a remarkably efficient procedure for designing product codebooks for full-dimension (FD) multiple-input multiple-output (MIMO) systems with uniform planar array (UPA) antennas. Simulation results demonstrate the capability of the proposed design criterion in learning the codebooks, reducing the codebook size and producing noticeably higher beamforming gains compared to the existing state-of-the-art CSI quantization techniques.
翻訳日:2022-12-02 00:42:22 公開日:2020-05-18
# 移動脳-機械インタフェースのための生成逆ネットワークを用いたERP信号の再構成

Reconstructing ERP Signals Using Generative Adversarial Networks for Mobile Brain-Machine Interface ( http://arxiv.org/abs/2005.08430v1 )

ライセンス: Link先を確認
Young-Eun Lee and Minji Lee and Seong-Whan Lee(参考訳) 脳と機械のインターフェイスは、現実世界の脳信号を用いて人間の意図を正確に検出するために広く研究されている。 しかし、脳波(EEG)信号は歩行や頭部運動などの人工物によって歪められているため、脳信号は所望の脳波信号よりも振幅が大きい可能性がある。 これらの人工物により、移動環境における人間の意図を正確に検出することは困難である。 本稿では,歩行中の事象関連電位(ERP)を用いた生成的敵ネットワークに基づく再構築フレームワークを提案する。 我々は,事前学習した畳み込みエンコーダを用いて潜伏変数を表現し,エンコーダの反対の形状の生成モデルを用いてERPを再構成した。 最後に,ERPを識別モデルを用いて分類し,提案手法の有効性を実証した。 その結果、再構成された信号は立位時のerpに類似したn200やp300といった重要な成分を持っていた。 再建脳波の精度は歩行時の生雑音脳波信号と類似していた。 再建脳波の信号-雑音比は1.3。 生成モデルの損失は0.6301であり、これは比較的低いため、生成モデルの訓練は高性能であった。 再建ERPは,騒音低減効果により歩行時の分類性能が向上した。 提案手法は, 移動環境においてもブレイン・マシン・インタフェースに基づく人間の意図認識を支援する。

Practical brain-machine interfaces have been widely studied to accurately detect human intentions using brain signals in the real world. However, the electroencephalography (EEG) signals are distorted owing to the artifacts such as walking and head movement, so brain signals may be large in amplitude rather than desired EEG signals. Due to these artifacts, detecting accurately human intention in the mobile environment is challenging. In this paper, we proposed the reconstruction framework based on generative adversarial networks using the event-related potentials (ERP) during walking. We used a pre-trained convolutional encoder to represent latent variables and reconstructed ERP through the generative model which shape similar to the opposite of encoder. Finally, the ERP was classified using the discriminative model to demonstrate the validity of our proposed framework. As a result, the reconstructed signals had important components such as N200 and P300 similar to ERP during standing. The accuracy of reconstructed EEG was similar to raw noisy EEG signals during walking. The signal-to-noise ratio of reconstructed EEG was significantly increased as 1.3. The loss of the generative model was 0.6301, which is comparatively low, which means training generative model had high performance. The reconstructed ERP consequentially showed an improvement in classification performance during walking through the effects of noise reduction. The proposed framework could help recognize human intention based on the brain-machine interface even in the mobile environment.
翻訳日:2022-12-02 00:42:01 公開日:2020-05-18
# 生成逆ネットワークと周期正規化による無条件音声生成

Unconditional Audio Generation with Generative Adversarial Networks and Cycle Regularization ( http://arxiv.org/abs/2005.08526v1 )

ライセンス: Link先を確認
Jen-Yu Liu, Yu-Hua Chen, Yin-Cheng Yeh, Yi-Hsuan Yang(参考訳) 本稿では,歌唱音声のメルスペクトログラムの無条件生成のための生成的逆ネットワーク(gan)モデルを提案する。 モデルの生成元は、ノイズベクトルの可変長列を入力として設計されているため、可変長のメルスペクトログラムを生成することができる。 しかし, 過去の聴力試験では, 音質が改善の余地があることが示されている。 本論文は, 先行研究を以下に拡張し, 拡張する。 まず,階層構造を生成器に導入し,時間次元の幾らかの構造を誘導する。 第2に,モード崩壊を回避するためのサイクル正規化機構をジェネレータに導入する。 第3に,歌声生成だけでなく,音声生成にも新たなモデルの有効性を評価する。 評価の結果,新しいモデルは客観的にも主観的にも先行モデルよりも優れていた。 また、このモデルを用いて無条件にピアノとヴァイオリンの音楽のシーケンスを生成し、有望な結果を見出す。 我々のモデルを実装するためのコードとオーディオサンプルは、論文発表時にオンラインで公開されます。

In a recent paper, we have presented a generative adversarial network (GAN)-based model for unconditional generation of the mel-spectrograms of singing voices. As the generator of the model is designed to take a variable-length sequence of noise vectors as input, it can generate mel-spectrograms of variable length. However, our previous listening test shows that the quality of the generated audio leaves room for improvement. The present paper extends and expands that previous work in the following aspects. First, we employ a hierarchical architecture in the generator to induce some structure in the temporal dimension. Second, we introduce a cycle regularization mechanism to the generator to avoid mode collapse. Third, we evaluate the performance of the new model not only for generating singing voices, but also for generating speech voices. Evaluation result shows that new model outperforms the prior one both objectively and subjectively. We also employ the model to unconditionally generate sequences of piano and violin music and find the result promising. Audio examples, as well as the code for implementing our model, will be publicly available online upon paper publication.
翻訳日:2022-12-02 00:41:40 公開日:2020-05-18
# エンド・ツー・エンド深層学習に基づく光ファイバー通信システム

Optical Fiber Communication Systems Based on End-to-End Deep Learning ( http://arxiv.org/abs/2005.08785v1 )

ライセンス: Link先を確認
Boris Karanov, Mathieu Chagnon, Vahid Aref, Domanic Lavery, Polina Bayvel, Laurent Schmalen(参考訳) フィードフォワードまたは双方向リカレントニューラルネットワーク(BRNN)とディープラーニングに基づくエンドツーエンド最適化光伝送システムについて検討する。 特に,BRNNオートエンコーダの試作実験を行い,分散非線形チャネル上での通信における繰り返し処理による性能向上について報告する。

We investigate end-to-end optimized optical transmission systems based on feedforward or bidirectional recurrent neural networks (BRNN) and deep learning. In particular, we report the first experimental demonstration of a BRNN auto-encoder, highlighting the performance improvement achieved with recurrent processing for communication over dispersive nonlinear channels.
翻訳日:2022-12-02 00:41:04 公開日:2020-05-18
# 短距離光ファイバ通信におけるディジタル信号処理のためのディープラーニングの実験的検討

Experimental Investigation of Deep Learning for Digital Signal Processing in Short Reach Optical Fiber Communications ( http://arxiv.org/abs/2005.08790v1 )

ライセンス: Link先を確認
Boris Karanov, Mathieu Chagnon, Vahid Aref, Filipe Ferreira, Domanic Lavery, Polina Bayvel, Laurent Schmalen(参考訳) 分散非線形チャネル上での通信のためのリカレントニューラルネットワーク(RNN)に基づく自動エンコーダの性能向上手法について検討する。 特に,最近提案されたスライディングウインドウ双方向RNN(SBRNN)光ファイバーオートエンコーダに着目した。 受信機におけるシーケンス推定アルゴリズムにおける処理ウィンドウの調整により、チャネルモデルで訓練された単純なシステムのリーチが向上し、伝送リンクに"as is"を適用した。 さらに、収集した実験データを用いて、受信ニューラルネットワークパラメータを最適化し、ビットエラー率(BER)で42Gb/sを最大70km、20kmで84Gb/sまでの距離で6.7%の精度で転送する。 実験データに最適化されたデジタル信号処理(DSP)の研究は、フィードフォワードまたはリカレントニューラルネットワークを用いたスライディングウィンドウシーケンス推定と古典非線形ボルテラ等化を行う受信機によるパルス振幅変調に拡張される。 その結果,アルゴリズムメモリの固定化により,深層学習に基づく DSP は BER 性能の向上を実現し,システムの範囲を拡大できることがわかった。

We investigate methods for experimental performance enhancement of auto-encoders based on a recurrent neural network (RNN) for communication over dispersive nonlinear channels. In particular, our focus is on the recently proposed sliding window bidirectional RNN (SBRNN) optical fiber autoencoder. We show that adjusting the processing window in the sequence estimation algorithm at the receiver improves the reach of simple systems trained on a channel model and applied "as is" to the transmission link. Moreover, the collected experimental data was used to optimize the receiver neural network parameters, allowing to transmit 42 Gb/s with bit-error rate (BER) below the 6.7% hard-decision forward error correction threshold at distances up to 70km as well as 84 Gb/s at 20 km. The investigation of digital signal processing (DSP) optimized on experimental data is extended to pulse amplitude modulation with receivers performing sliding window sequence estimation using a feed-forward or a recurrent neural network as well as classical nonlinear Volterra equalization. Our results show that, for fixed algorithm memory, the DSP based on deep learning achieves an improved BER performance, allowing to increase the reach of the system.
翻訳日:2022-12-02 00:40:58 公開日:2020-05-18
# BLAZE: 高速なプライバシー保護機械学習

BLAZE: Blazing Fast Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2005.09042v1 )

ライセンス: Link先を確認
Arpita Patra and Ajith Suresh(参考訳) 機械学習ツールは、医療や金融など多くの重要な分野において、有用な推論の導出を補助する可能性を示している。 このような分野におけるデータの機密性と機密性は、データのプライバシに対する自然な懸念を引き起こす。 これは、データのプライバシが保証されるプライバシー保護機械学習(PPML)の領域を動機付けている。 通常、ML技術は大規模な計算能力を必要とするため、限られたインフラを持つクライアントはセキュアなアウトソース計算(SOC)の手法に頼ることになる。 SOC設定では、計算は専門的で強力なクラウドサーバのセットにアウトソースされ、サービスは有償で利用することができる。 本研究では、線形回帰、ロジスティック回帰、ニューラルネットワークなど、広く使われているMLアルゴリズムのSOC設定におけるPPMLテクニックについて検討する。 リング上の悪質な汚職を許容する3つのサーバ設定(\Z{\ell})において,高速なPPMLフレームワークであるBLAZEを提案する。 BLAZEは、公正性のより強いセキュリティ保証を達成する(すべての正直なサーバは、腐敗したサーバが同じものを取得するたびに出力を得る)。 BLAZEは入力非依存の事前処理フェーズを利用して、効率的なPPMLプリミティブに依存する高速な入力依存オンラインフェーズを持つ。 (i)オンラインフェーズにおける通信がベクターサイズとは独立なドット製品プロトコルで、3つのサーバ設定においてその種類のうち第1のものをいう。 (ii)ripple carry adders(rca)の高価な回路の評価を回避し、一定のラウンド複雑さを達成するための切断方法。 これにより、rcaを使用するaby3(mohassel et al., ccs 2018)の切断方法が改善され、rcaの深さのオーダーである丸い複雑さが消費される。 前述のMLアルゴリズムに対するBLAZEの大規模なベンチマークでは、WANとLAN設定の両方の64ビットリングがABY3よりも大幅に改善されている。

Machine learning tools have illustrated their potential in many significant sectors such as healthcare and finance, to aide in deriving useful inferences. The sensitive and confidential nature of the data, in such sectors, raise natural concerns for the privacy of data. This motivated the area of Privacy-preserving Machine Learning (PPML) where privacy of the data is guaranteed. Typically, ML techniques require large computing power, which leads clients with limited infrastructure to rely on the method of Secure Outsourced Computation (SOC). In SOC setting, the computation is outsourced to a set of specialized and powerful cloud servers and the service is availed on a pay-per-use basis. In this work, we explore PPML techniques in the SOC setting for widely used ML algorithms-- Linear Regression, Logistic Regression, and Neural Networks. We propose BLAZE, a blazing fast PPML framework in the three server setting tolerating one malicious corruption over a ring (\Z{\ell}). BLAZE achieves the stronger security guarantee of fairness (all honest servers get the output whenever the corrupt server obtains the same). Leveraging an input-independent preprocessing phase, BLAZE has a fast input-dependent online phase relying on efficient PPML primitives such as: (i) A dot product protocol for which the communication in the online phase is independent of the vector size, the first of its kind in the three server setting; (ii) A method for truncation that shuns evaluating expensive circuit for Ripple Carry Adders (RCA) and achieves a constant round complexity. This improves over the truncation method of ABY3 (Mohassel et al., CCS 2018) that uses RCA and consumes a round complexity that is of the order of the depth of RCA. An extensive benchmarking of BLAZE for the aforementioned ML algorithms over a 64-bit ring in both WAN and LAN settings shows massive improvements over ABY3.
翻訳日:2022-12-02 00:33:08 公開日:2020-05-18
# 深層学習を用いた熱帯・熱帯のサイクロン検出

Tropical and Extratropical Cyclone Detection Using Deep Learning ( http://arxiv.org/abs/2005.09056v1 )

ライセンス: Link先を確認
Christina Kumler-Bonfanti, Jebb Stewart, David Hall, Mark Govett(参考訳) さまざまな気象データから貴重な情報を抽出することは、時間集約的なプロセスである。 機械学習は、このプロセスのスピードと正確性を改善するのに役立つ。 特に、u-net構造を用いたディープラーニングイメージセグメンテーションモデルは、より高速に動作し、エキスパートハンドラベルや事前ヒューリスティックな方法といった、より制限のあるアプローチで見落とされた領域を識別することができる。 本稿では,グローバル・フォアキャスティング・システム(GFS)モデルからの総降水量と,静止運用環境衛星(GOES)からの水蒸気放射画像の2つの異なる入力源から,熱帯および熱帯のサイクロン地域(ROI)を検出するために設計された4つの最先端U-Netモデルについて述べる。 これらのモデルは、IBTrACS-GFS、Huristic-GFS、IBTrACS-GOES、Huristic-GOESと呼ばれている。 4つのU-Netはいずれも高速情報抽出ツールであり、ROI検出精度は80%から99%である。 これらは、Dice と Tversky Intersection over Union (IoU) のメトリクスで評価され、Dice 係数は 0.51 から 0.76 まで、Tversky 係数は 0.56 から 0.74 までである。 熱帯性サイクロンU-Netモデルは、同じROIを検出するために使用される同種のヒューリスティックモデルよりも3倍高速に動作した。 U-Netはトレーニングラベルの範囲を超えてサイクロンROIを検出する能力のために特別に選択された。 これらの機械学習モデルは、ヒューリスティックなモデルや、リアルタイムの天気予報の生成に一般的に使用される手ラベル法によって見落としられた曖昧でアクティブなroiを識別し、公衆の安全に直接影響を与える可能性がある。

Extracting valuable information from large sets of diverse meteorological data is a time-intensive process. Machine learning methods can help improve both speed and accuracy of this process. Specifically, deep learning image segmentation models using the U-Net structure perform faster and can identify areas missed by more restrictive approaches, such as expert hand-labeling and a priori heuristic methods. This paper discusses four different state-of-the-art U-Net models designed for detection of tropical and extratropical cyclone Regions Of Interest (ROI) from two separate input sources: total precipitable water output from the Global Forecasting System (GFS) model and water vapor radiance images from the Geostationary Operational Environmental Satellite (GOES). These models are referred to as IBTrACS-GFS, Heuristic-GFS, IBTrACS-GOES, and Heuristic-GOES. All four U-Nets are fast information extraction tools and perform with a ROI detection accuracy ranging from 80% to 99%. These are additionally evaluated with the Dice and Tversky Intersection over Union (IoU) metrics, having Dice coefficient scores ranging from 0.51 to 0.76 and Tversky coefficients ranging from 0.56 to 0.74. The extratropical cyclone U-Net model performed 3 times faster than the comparable heuristic model used to detect the same ROI. The U-Nets were specifically selected for their capabilities in detecting cyclone ROI beyond the scope of the training labels. These machine learning models identified more ambiguous and active ROI missed by the heuristic model and hand-labeling methods commonly used in generating real-time weather alerts, having a potentially direct impact on public safety.
翻訳日:2022-12-02 00:32:35 公開日:2020-05-18
# 画像融合のための深い畳み込みスパース符号化ネットワーク

Deep Convolutional Sparse Coding Networks for Image Fusion ( http://arxiv.org/abs/2005.08448v1 )

ライセンス: Link先を確認
Shuang Xu, Zixiang Zhao, Yicheng Wang, Chunxia Zhang, Junmin Liu, Jiangshe Zhang(参考訳) 画像融合は、デジタル写真、コンピュータ画像、リモートセンシングなど、多くの分野において重要な問題である。 近年,画像融合の重要なツールとしてディープラーニングが登場している。 本稿では,3種類の画像融合タスク(赤外線および可視画像融合,マルチ露光画像融合,マルチモーダル画像融合)のための,csc(deep convolutional sparse coding)ネットワークについて述べる。 CSCモデルと反復縮小およびしきい値アルゴリズムを辞書畳み込み単位に一般化する。 その結果、すべてのハイパーパラメータはデータから学習される。 本研究では,定量的評価と視覚検査に関して,提案するネットワークの優位性を明らかにする。

Image fusion is a significant problem in many fields including digital photography, computational imaging and remote sensing, to name but a few. Recently, deep learning has emerged as an important tool for image fusion. This paper presents three deep convolutional sparse coding (CSC) networks for three kinds of image fusion tasks (i.e., infrared and visible image fusion, multi-exposure image fusion, and multi-modal image fusion). The CSC model and the iterative shrinkage and thresholding algorithm are generalized into dictionary convolution units. As a result, all hyper-parameters are learned from data. Our extensive experiments and comprehensive comparisons reveal the superiority of the proposed networks with regard to quantitative evaluation and visual inspection.
翻訳日:2022-12-02 00:32:03 公開日:2020-05-18
# モバイルアプリ利用状況の動画記録を再生可能なシナリオに翻訳する

Translating Video Recordings of Mobile App Usages into Replayable Scenarios ( http://arxiv.org/abs/2005.09057v1 )

ライセンス: Link先を確認
Carlos Bernal-C\'ardenas, Nathan Cooper, Kevin Moran, Oscar Chaparro, Andrian Marcus and Denys Poshyvanyk(参考訳) モバイルアプリの画面記録は、ソフトウェア開発者(バグや機能要求など)が持つ豊富な情報を入手し、取得し得るため、クラウドソースのアプリフィードバックのための一般的なメカニズムである。 したがって、これらのビデオは開発者が管理しなければならない共通のアーティファクトになりつつある。 迅速なリリースサイクルや急速に進化するプラットフォームを含む、ユニークなモバイル開発制約を考慮して、あらゆる種類のリッチソフトウェアアーティファクトを分析する自動化技術は、モバイル開発者に利益をもたらす。 残念なことに、画面記録の自動解析は、他のタイプの(テキスト)アーティファクトと比較して、グラフィカルな性質のため深刻な課題を呈している。 これらの課題に対処するために,Androidアプリのビデオ録画を再生可能なシナリオに変換するための,軽量で自動化されたアプローチであるV2Sを紹介する。 V2Sは主にコンピュータビジョン技術に基づいており、オブジェクト検出と画像分類の最近のソリューションを適用して、ビデオでキャプチャされたユーザーアクションを検出し、分類し、これらを再生可能なテストシナリオに変換する。 ユーザから収集したguiベースのアクション3,534本を含む175本のビデオを含むv2の広範な評価を行い,80以上の人気androidアプリからバグを再現した。 その結果、v2sはスクリーン録画からシナリオを正確に再生でき、収集したビデオの約89%を最小限のオーバーヘッドで再生できることがわかった。 3つの産業パートナーによるケーススタディは、開発者の視点からv2sの潜在的有用性を示している。

Screen recordings of mobile applications are easy to obtain and capture a wealth of information pertinent to software developers (e.g., bugs or feature requests), making them a popular mechanism for crowdsourced app feedback. Thus, these videos are becoming a common artifact that developers must manage. In light of unique mobile development constraints, including swift release cycles and rapidly evolving platforms, automated techniques for analyzing all types of rich software artifacts provide benefit to mobile developers. Unfortunately, automatically analyzing screen recordings presents serious challenges, due to their graphical nature, compared to other types of (textual) artifacts. To address these challenges, this paper introduces V2S, a lightweight, automated approach for translating video recordings of Android app usages into replayable scenarios. V2S is based primarily on computer vision techniques and adapts recent solutions for object detection and image classification to detect and classify user actions captured in a video, and convert these into a replayable test scenario. We performed an extensive evaluation of V2S involving 175 videos depicting 3,534 GUI-based actions collected from users exercising features and reproducing bugs from over 80 popular Android apps. Our results illustrate that V2S can accurately replay scenarios from screen recordings, and is capable of reproducing $\approx$ 89% of our collected videos with minimal overhead. A case study with three industrial partners illustrates the potential usefulness of V2S from the viewpoint of developers.
翻訳日:2022-12-02 00:24:50 公開日:2020-05-18
# multi-fidelity gaussian プロセスによる性能保証付き高速マルチターゲット探索

Expedited Multi-Target Search with Guaranteed Performance via Multi-fidelity Gaussian Processes ( http://arxiv.org/abs/2005.08434v1 )

ライセンス: Link先を確認
Lai Wei, Xiaobo Tan, and Vaibhav Srivastava(参考訳) 本研究では,下向きカメラを搭載した自律車両が3d環境で動作し,環境の2d階における未知数の静止目標の探索を行うシナリオについて考察する。 重要な課題は、高い検出精度を確保しながら検索時間を最小化することだ。 我々は,床から異なる高度で得られるセンシング情報を体系的に記述する多元性ガウス過程を用いて,センシング場をモデル化する。 センサモデルに基づいて,EMTS(Expeded Multi-Target Search)と呼ばれる新しいアルゴリズムを設計する。 (i)フロアから遠く離れた場所でのサンプリングは広い視野を提供するが、精度は低い。 (ii)床の占有マップを所定の精度で計算し、検索空間から空いている領域を迅速に排除し、 (iii) ターゲット検出に必要なサンプルを効率的に収集する。 アルゴリズムを厳密に解析し,目標検出精度と期待検出時間に関する形式的保証を確立する。 シミュレーションされたマルチターゲット探索シナリオを用いてアルゴリズムを説明する。

We consider a scenario in which an autonomous vehicle equipped with a downward facing camera operates in a 3D environment and is tasked with searching for an unknown number of stationary targets on the 2D floor of the environment. The key challenge is to minimize the search time while ensuring a high detection accuracy. We model the sensing field using a multi-fidelity Gaussian process that systematically describes the sensing information available at different altitudes from the floor. Based on the sensing model, we design a novel algorithm called Expedited Multi-Target Search (EMTS) that (i) addresses the coverage-accuracy trade-off: sampling at locations farther from the floor provides wider field of view but less accurate measurements, (ii) computes an occupancy map of the floor within a prescribed accuracy and quickly eliminates unoccupied regions from the search space, and (iii) travels efficiently to collect the required samples for target detection. We rigorously analyze the algorithm and establish formal guarantees on the target detection accuracy and the expected detection time. We illustrate the algorithm using a simulated multi-target search scenario.
翻訳日:2022-12-02 00:23:04 公開日:2020-05-18
# 意図に基づくオンライン音声認識用トランスデューサ

Attention-based Transducer for Online Speech Recognition ( http://arxiv.org/abs/2005.08497v1 )

ライセンス: Link先を確認
Bin Wang, Yan Yin, Hui Lin(参考訳) 近年の研究では、エンドツーエンド(E2E)音声認識におけるリカレントニューラルネットワークトランスデューサ(RNN-T)の可能性を明らかにしている。 RNN-T, Attention Encoder-Decoder (AED), Connectionist Temporal Classification (CTC)などの一般的なE2Eシステムの中で、RNN-Tはストリーミング認識をサポートし、フレーム依存性の仮定を持たないという明確な利点がある。 RNN-Tの研究には大きな進歩があったが、トレーニングのスピードと精度に関してはまだパフォーマンス上の課題に直面している。 そこで,rnn-tを改良した注意型トランスデューサを提案する。 まず,ジョイント・ネットワークにおいてチャンク・アテンションを導入する。 次に、エンコーダに自己注意を導入する。 提案モデルでは,トレーニング速度と精度の両方において,RNN-Tよりも優れていた。 トレーニングでは、1.7倍のスピードアップを達成します。 500時間 LAIX の非ネイティブな英語トレーニングデータにより、アテンションベースのトランスデューサはベースライン RNN-T よりも約10.6% WER 削減される。 10K時間以上のデータの完全なセットでトレーニングされた最終システムは、最高のKaldi TDNN-fレシピでトレーニングされたものよりも約5.5%のWER削減を達成した。 WER劣化のない8ビットの量子化の後、RTFとレイテンシはそれぞれプロダクションサーバの1つのCPUコア上で0.34~0.36と268~409ミリ秒に低下した。

Recent studies reveal the potential of recurrent neural network transducer (RNN-T) for end-to-end (E2E) speech recognition. Among some most popular E2E systems including RNN-T, Attention Encoder-Decoder (AED), and Connectionist Temporal Classification (CTC), RNN-T has some clear advantages given that it supports streaming recognition and does not have frame-independency assumption. Although significant progresses have been made for RNN-T research, it is still facing performance challenges in terms of training speed and accuracy. We propose attention-based transducer with modification over RNN-T in two aspects. First, we introduce chunk-wise attention in the joint network. Second, self-attention is introduced in the encoder. Our proposed model outperforms RNN-T for both training speed and accuracy. For training, we achieves over 1.7x speedup. With 500 hours LAIX non-native English training data, attention-based transducer yields ~10.6% WER reduction over baseline RNN-T. Trained with full set of over 10K hours data, our final system achieves ~5.5% WER reduction over that trained with the best Kaldi TDNN-f recipe. After 8-bit weight quantization without WER degradation, RTF and latency drop to 0.34~0.36 and 268~409 milliseconds respectively on a single CPU core of a production server.
翻訳日:2022-12-02 00:17:11 公開日:2020-05-18
# 会話探索 --dagstuhl seminar 19461からの報告-

Conversational Search -- A Report from Dagstuhl Seminar 19461 ( http://arxiv.org/abs/2005.08658v1 )

ライセンス: Link先を確認
Avishek Anand, Lawrence Cavedon, Matthias Hagen, Hideo Joho, Mark Sanderson, and Benno Stein(参考訳) dagstuhl seminar 19461 "conversational search" は2019年11月10日から15日にかけて開催された。 44~情報検索,web検索,自然言語処理,ヒューマンコンピュータインタラクション,対話システムにおける研究員を招き,会話検索分野の最新動向を共有し,その研究課題と今後の方向性について論じた。 セミナーの5日間のプログラムは、6つの入門セッションとバックグラウンドセッション、3つの幻想的な講演セッション、1つの業界トークセッション、7つのワーキンググループとレポートセッションで構成された。 セミナーはプログラム中に3つの社交イベントも開催した。 本報告では,会話検索の定義,評価,モデリング,説明,シナリオ,アプリケーション,プロトタイプを網羅する7つのワーキンググループから,エグゼクティブ概要,招待講演の概要,および調査結果について述べる。 本報告で提示されるアイデアと知見は,会話検索に関する多様な研究プログラムの主要な情報源の1つである。

Dagstuhl Seminar 19461 "Conversational Search" was held on 10-15 November 2019. 44~researchers in Information Retrieval and Web Search, Natural Language Processing, Human Computer Interaction, and Dialogue Systems were invited to share the latest development in the area of Conversational Search and discuss its research agenda and future directions. A 5-day program of the seminar consisted of six introductory and background sessions, three visionary talk sessions, one industry talk session, and seven working groups and reporting sessions. The seminar also had three social events during the program. This report provides the executive summary, overview of invited talks, and findings from the seven working groups which cover the definition, evaluation, modelling, explanation, scenarios, applications, and prototype of Conversational Search. The ideas and findings presented in this report should serve as one of the main sources for diverse research programs on Conversational Search.
翻訳日:2022-12-02 00:15:53 公開日:2020-05-18
# ハイブリッドASRシステムにおける未表現名前付きエンティティの認識改善へのアプローチ

Approaches to Improving Recognition of Underrepresented Named Entities in Hybrid ASR Systems ( http://arxiv.org/abs/2005.08742v1 )

ライセンス: Link先を確認
Tingzhi Mao, Yerbolat Khassanov, Van Tung Pham, Haihua Xu, Hao Huang, Eng Siong Chng(参考訳) 本稿では,単語誤り率の全体的な性能を損なうことなく,ハイブリッドASRシステムにおける未表現な名前付きエンティティ(NE)の認識を改善するための一連の補完的アプローチを提案する。 過小表現された単語は、訓練データ中の希少語または語彙外語(oov)に対応するため、確実にモデル化できない。 まず,ハイブリッドASRにおける音声モデルの必要性を低減できるグラテミック辞書から始める。 異なる設定で検討し、低表示のnesを扱う際にその効果を実証する。 次に、頻度の低い単語を処理するための文字ベースの特徴を持つニューラル言語モデル(LM)の影響について検討する。 その後,未熟な単語の埋め込み表現を借用して,事前学習したニューラルネットワークlmにおいて,表現不足のnes表現を豊かにしようとする。 これにより、未表現NE認識の性能が大幅に向上する。 最後に,ニューラルLMによる単語格子中のNEを含む発話の確率を向上し,さらなる性能向上を図る。 上記のアプローチを組み合わせることで、NE認識は42%まで向上する。

In this paper, we present a series of complementary approaches to improve the recognition of underrepresented named entities (NE) in hybrid ASR systems without compromising overall word error rate performance. The underrepresented words correspond to rare or out-of-vocabulary (OOV) words in the training data, and thereby can't be modeled reliably. We begin with graphemic lexicon which allows to drop the necessity of phonetic models in hybrid ASR. We study it under different settings and demonstrate its effectiveness in dealing with underrepresented NEs. Next, we study the impact of neural language model (LM) with letter-based features derived to handle infrequent words. After that, we attempt to enrich representations of underrepresented NEs in pretrained neural LM by borrowing the embedding representations of rich-represented words. This let us gain significant performance improvement on underrepresented NE recognition. Finally, we boost the likelihood scores of utterances containing NEs in the word lattices rescored by neural LMs and gain further performance improvement. The combination of the aforementioned approaches improves NE recognition by up to 42% relatively.
翻訳日:2022-12-02 00:15:35 公開日:2020-05-18
# 何千もの単語が1つの録音より価値がある:NLPベースの話者変化点検出

A Thousand Words are Worth More Than One Recording: NLP Based Speaker Change Point Detection ( http://arxiv.org/abs/2006.01206v1 )

ライセンス: Link先を確認
O. H. Anidjar, C. Hajaj, A. Dvir, I. Gilad(参考訳) 話者ダイアリゼーション(sd)は、入力音声バーストを話者のアイデンティティに応じて分割または分割する。 本稿では,音声分割プロセスであるSD問題の重要課題に着目し,変化点検出(CPD)問題に対する解決策を提案する。 話者数の増加とリコールとF1スコアの測定値との負の相関を実証的に示す。 この負の相関は、最近開発された音声ベースのソリューションよりも優れていることを考慮し、大規模な実験的な評価プロセスの結果であることが示されている。 話者数の問題を克服するために,新しい自然言語処理(NLP)技術に基づく堅牢なソリューションを提案する。 我々は,ヘブライ語におけるデータセットを用いてCDD問題に取り組み,(II)SD問題のCDD変種を解決する知的NLPベースのソリューションを初めて提案する。 2つの異なるデータセットに基づいて,本手法が82.12%,89.02%のリコールおよびf1-score測定において,音声バースト中のcppsを正確に識別できることを実証的に示した。

Speaker Diarization (SD) consists of splitting or segmenting an input audio burst according to speaker identities. In this paper, we focus on the crucial task of the SD problem which is the audio segmenting process and suggest a solution for the Change Point Detection (CPD) problem. We empirically demonstrate the negative correlation between an increase in the number of speakers and the Recall and F1-Score measurements. This negative correlation is shown to be the outcome of a massive experimental evaluation process, which accounts its superiority to recently developed voice based solutions. In order to overcome the number of speakers issue, we suggest a robust solution based on a novel Natural Language Processing (NLP) technique, as well as a metadata features extraction process, rather than a vocal based alone. To the best of our knowledge, we are the first to propose an intelligent NLP based solution that (I) tackles the CPD problem with a dataset in Hebrew, and (II) solves the CPD variant of the SD problem. We empirically show, based on two distinct datasets, that our method is abled to accurately identify the CPDs in an audio burst with 82.12% and 89.02% of success in the Recall and F1-score measurements.
翻訳日:2022-12-02 00:15:02 公開日:2020-05-18
# ベイジアン畳み込みニューラルネットワークを用いた非ヒト霊長類のmri脳抽出

Bayesian convolutional neural network based MRI brain extraction on nonhuman primates ( http://arxiv.org/abs/2005.08460v1 )

ライセンス: Link先を確認
Gengyan Zhao, Fang Liu, Jonathan A. Oler, Mary E. Meyerand, Ned H. Kalin and Rasmus M. Birn(参考訳) 磁気共鳴画像(MRI)の頭蓋骨抽出は神経画像研究において重要なステップであり、その精度はその後の画像処理手順に大きく影響を与える。 現在の自動脳抽出法は人間の脳に良い結果をもたらすが、神経科学研究の必須部分である非ヒト霊長類には満足できないことが多い。 非ヒト霊長類における脳抽出の課題を克服するために,深部ベイズ畳み込みニューラルネットワーク(CNN)と完全連結3次元条件付きランダムフィールド(CRF)を組み合わせた完全自動脳抽出パイプラインを提案する。 ディープベイズCNN、ベイズセグネットはコアセグメンテーションエンジンとして使用されている。 確率ネットワークとして,精度の高い高解像度画素単位の脳セグメンテーションを行うだけでなく,モンテカルロサンプリングによるモデルの不確かさをテスト段階で測定することができる。 次に、完全連結3d crfを用いて、脳体積の3dコンテキスト全体において、ベイズセグネットの確率結果を精錬する。 提案手法は,100個のヒト霊長類のT1w画像からなる手動脳抽出データセットを用いて評価した。 平均ダイス係数0.985,平均対称表面距離0.220mmの3つの高定値深層学習法と6つの一般的な脳抽出パッケージを上回った。 比較したすべての手法に対して優れた性能を統計的に検証した(p値<10-4, 両側, ボンフェロニ補正)。 非ヒト霊長類の脳抽出におけるモデルの最大不確かさは、100人中平均値0.116である。

Brain extraction or skull stripping of magnetic resonance images (MRI) is an essential step in neuroimaging studies, the accuracy of which can severely affect subsequent image processing procedures. Current automatic brain extraction methods demonstrate good results on human brains, but are often far from satisfactory on nonhuman primates, which are a necessary part of neuroscience research. To overcome the challenges of brain extraction in nonhuman primates, we propose a fully-automated brain extraction pipeline combining deep Bayesian convolutional neural network (CNN) and fully connected three-dimensional (3D) conditional random field (CRF). The deep Bayesian CNN, Bayesian SegNet, is used as the core segmentation engine. As a probabilistic network, it is not only able to perform accurate high-resolution pixel-wise brain segmentation, but also capable of measuring the model uncertainty by Monte Carlo sampling with dropout in the testing stage. Then, fully connected 3D CRF is used to refine the probability result from Bayesian SegNet in the whole 3D context of the brain volume. The proposed method was evaluated with a manually brain-extracted dataset comprising T1w images of 100 nonhuman primates. Our method outperforms six popular publicly available brain extraction packages and three well-established deep learning based methods with a mean Dice coefficient of 0.985 and a mean average symmetric surface distance of 0.220 mm. A better performance against all the compared methods was verified by statistical tests (all p-values<10-4, two-sided, Bonferroni corrected). The maximum uncertainty of the model on nonhuman primate brain extraction has a mean value of 0.116 across all the 100 subjects...
翻訳日:2022-12-02 00:14:40 公開日:2020-05-18
# 微分波光学シミュレータによる光学のモデル化と校正の学習

Learning to Model and Calibrate Optics via a Differentiable Wave Optics Simulator ( http://arxiv.org/abs/2005.08562v1 )

ライセンス: Link先を確認
Josue Page, Paolo Favaro(参考訳) 実蛍光顕微鏡の微分可能計算モデルを構築するための学習に基づく新しい手法を提案する。 我々のモデルは、データサンプルから直接実際の光学装置を校正し、所望の入出力データを指定することで、ポイントスプレッド機能を構築するために使用できる。 このアプローチは、光学装置の現在のモデルのパラメータが実際のデータに容易に適合できないため、顕微鏡の設計を大幅に改善する。 ディープラーニングの最近の進歩に触発された我々のソリューションは、特定の光学素子による各光波面伝播を演算可能なモジュールの合成として、微分可能な光光学シミュレータを構築することである。 我々は、差別化可能なモジュールをWaveBlocksと呼び、レンズ、空気中の波動伝搬、カメラセンサー、微分素子(フェーズマスクなど)の場合の再構成結果を示す。

We present a novel learning-based method to build a differentiable computational model of a real fluorescence microscope. Our model can be used to calibrate a real optical setup directly from data samples and to engineer point spread functions by specifying the desired input-output data. This approach is poised to drastically improve the design of microscopes, because the parameters of current models of optical setups cannot be easily fit to real data. Inspired by the recent progress in deep learning, our solution is to build a differentiable wave optics simulator as a composition of trainable modules, each computing light wave-front (WF) propagation due to a specific optical element. We call our differentiable modules WaveBlocks and show reconstruction results in the case of lenses, wave propagation in air, camera sensors and diffractive elements (e.g., phase-masks).
翻訳日:2022-12-02 00:14:11 公開日:2020-05-18
# コロナウイルスのパンデミックに対するソーシャルネットワーク情報の影響:Twitterによる研究と研究の方向性

Critical Impact of Social Networks Infodemic on Defeating Coronavirus COVID-19 Pandemic: Twitter-Based Study and Research Directions ( http://arxiv.org/abs/2005.08820v1 )

ライセンス: Link先を確認
Azzam Mourad, Ali Srour, Haidar Harmanani, Cathia Jenainatiy, Mohamad Arafeh(参考訳) ソーシャルメディアの出現以来、ニュースの創造と消費は変化している。 2019年の推計295億人が世界中でソーシャルメディアを利用している。 新型コロナウイルスの感染拡大は、ソーシャルメディアの津波につながった。 ほとんどのプラットフォームは、関連するニュース、ガイドライン、予防措置を人々に伝えるために使われた。 WHOによると、未制御の陰謀論やプロパガンダは新型コロナウイルス(COVID-19)のパンデミックそのものよりも急速に広がり、インフォデミックを引き起こし、心理的パニック、誤った医療アドバイス、経済破壊を引き起こしている。 そのため、whoや公認政府機関などの信頼できる情報源から始まったものを除き、すべての新型コロナウイルスコミュニケーションをモデレートする目的で議論が始まっている。 本稿では,Twitterから収集したデータに基づく大規模研究について述べる。 新型コロナウイルス関連のツイート約100万件について、2ヶ月にわたって大規模な分析が行われた。 さらに、ユニークなユーザープロフィール、メタデータ、ツイートコンテキストを含む288,000人のユーザーのプロフィールを分析した。 本研究は,(1)読者を無関係な話題にリダイレクトするための新型コロナウイルス危機の活用,(2)真偽の医療的予防や情報の普及など,さまざまな興味深い結論を導いた。 さらにデータ分析により、さまざまな職業を持つ信頼できるユーザ、コンテンツ開発者、特定の分野のインフルエンサーを頼りにすることで、世界的なパンデミック危機におけるソーシャルネットワークの利用の重要性が明らかになった。 この文脈では、危機期間中にコンピューティングと非計算的意味と潜在的なソリューションとソーシャルネットワーク管理戦略の研究の方向性を詳述しながら、いくつかの洞察と知見が提供されてきた。

News creation and consumption has been changing since the advent of social media. An estimated 2.95 billion people in 2019 used social media worldwide. The widespread of the Coronavirus COVID-19 resulted with a tsunami of social media. Most platforms were used to transmit relevant news, guidelines and precautions to people. According to WHO, uncontrolled conspiracy theories and propaganda are spreading faster than the COVID-19 pandemic itself, creating an infodemic and thus causing psychological panic, misleading medical advises, and economic disruption. Accordingly, discussions have been initiated with the objective of moderating all COVID-19 communications, except those initiated from trusted sources such as the WHO and authorized governmental entities. This paper presents a large-scale study based on data mined from Twitter. Extensive analysis has been performed on approximately one million COVID-19 related tweets collected over a period of two months. Furthermore, the profiles of 288,000 users were analyzed including unique users profiles, meta-data and tweets context. The study noted various interesting conclusions including the critical impact of the (1) exploitation of the COVID-19 crisis to redirect readers to irrelevant topics and (2) widespread of unauthentic medical precautions and information. Further data analysis revealed the importance of using social networks in a global pandemic crisis by relying on credible users with variety of occupations, content developers and influencers in specific fields. In this context, several insights and findings have been provided while elaborating computing and non-computing implications and research directions for potential solutions and social networks management strategies during crisis periods.
翻訳日:2022-12-02 00:08:31 公開日:2020-05-18
# NEJM-enzh:生物医学領域における英語・中国語翻訳のための並列コーパス

NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the Biomedical Domain ( http://arxiv.org/abs/2005.09133v1 )

ライセンス: Link先を確認
Boxiang Liu and Liang Huang(参考訳) 機械翻訳には大量のパラレルテキストが必要である。 このようなデータセットはnewswireのようなドメインで豊富であるが、バイオメディカルドメインではアクセスできない。 中国語と英語が最も広く話されている言語は2つあるが、我々の知る限り、この言語対には生物医学領域の平行コーパスは存在しない。 本研究では、new england journal of medicine (nejm) から約10万文対と3,000,000トークンからなる、英語と中国語の並列コーパスを取得し、処理する効果的なパイプラインを開発した。 ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により,en$\to$zh (zh$\to$en)方向のBLEUの翻訳品質が25.3 (13.4)向上することを示す。 翻訳品質は、より大きなドメイン内データセットでは遅くなり続け、全データセットで33.0 (24.3) bleu for en$\to$zh (zh$\to$en)の方向が増加する。

Machine translation requires large amounts of parallel text. While such datasets are abundant in domains such as newswire, they are less accessible in the biomedical domain. Chinese and English are two of the most widely spoken languages, yet to our knowledge a parallel corpus in the biomedical domain does not exist for this language pair. In this study, we develop an effective pipeline to acquire and process an English-Chinese parallel corpus, consisting of about 100,000 sentence pairs and 3,000,000 tokens on each side, from the New England Journal of Medicine (NEJM). We show that training on out-of-domain data and fine-tuning with as few as 4,000 NEJM sentence pairs improve translation quality by 25.3 (13.4) BLEU for en$\to$zh (zh$\to$en) directions. Translation quality continues to improve at a slower pace on larger in-domain datasets, with an increase of 33.0 (24.3) BLEU for en$\to$zh (zh$\to$en) directions on the full dataset.
翻訳日:2022-12-02 00:07:43 公開日:2020-05-18
# 変圧器に基づく音声認識における弱アテンション抑圧

Weak-Attention Suppression For Transformer Based Speech Recognition ( http://arxiv.org/abs/2005.09137v1 )

ライセンス: Link先を確認
Yangyang Shi, Yongqiang Wang, Chunyang Wu, Christian Fuegen, Frank Zhang, Duc Le, Ching-Feng Yeh, Michael L. Seltzer(参考訳) 自然言語処理(nlp)タスクのために当初提案されたトランスフォーマーは、最近自動音声認識(asr)で大きな成功を収めている。 しかし、隣接する音響単位(つまりフレーム)は高い相関関係にあり、それら間の長距離依存はテキスト単位と異なり弱い。 asrは、スパースとローカライズされた注意の恩恵を受ける可能性が高い。 本稿では,注意確率の分散を動的に誘導するWeak-Attention Suppression (WAS)を提案する。 我々は,強いトランスフォーマーベースラインに対して,単語誤り率(wer)が一貫した改善をもたらすことを実証する。 広範に使用されているLibriSpeechベンチマークでは,WERをテストクリーンで10%,ストリーム可能なトランスフォーマーで5%削減し,ストリーミングモデルに新たな最先端性をもたらした。 さらなる分析により、WASは非臨界かつ冗長な連続音響フレームの注意を抑えることを学び、将来のフレームよりも過去のフレームを抑える可能性が示唆された。 これは注意に基づくasrモデルにおけるルックアヘッドの重要性を示している。

Transformers, originally proposed for natural language processing (NLP) tasks, have recently achieved great success in automatic speech recognition (ASR). However, adjacent acoustic units (i.e., frames) are highly correlated, and long-distance dependencies between them are weak, unlike text units. It suggests that ASR will likely benefit from sparse and localized attention. In this paper, we propose Weak-Attention Suppression (WAS), a method that dynamically induces sparsity in attention probabilities. We demonstrate that WAS leads to consistent Word Error Rate (WER) improvement over strong transformer baselines. On the widely used LibriSpeech benchmark, our proposed method reduced WER by 10%$ on test-clean and 5% on test-other for streamable transformers, resulting in a new state-of-the-art among streaming models. Further analysis shows that WAS learns to suppress attention of non-critical and redundant continuous acoustic frames, and is more likely to suppress past frames rather than future ones. It indicates the importance of lookahead in attention-based ASR models.
翻訳日:2022-12-02 00:07:20 公開日:2020-05-18
# 動的知識の埋め込みとトレース

Dynamic Knowledge embedding and tracing ( http://arxiv.org/abs/2005.09109v1 )

ライセンス: Link先を確認
Liangbei Xu, Mark A. Davenport(参考訳) 知識追跡の目標は、時間とともに進化していく学生の知識の状態を追跡することである。 これは学習過程の理解において基本的な役割を担い、知的学習システムの開発において重要な役割を担う。 本稿では,行列因子化から最近のrecurrent neural networks (rnns) の進歩を組み合わせることで,学習者の知識状態を効果的に追跡する知識追跡手法を提案する。 提案した「emph{DynEmb}」フレームワークは、他の知識追跡モデルが必要とする概念/スキルタグ情報なしでも、優れた性能を同時に達成できる。 我々は,DynEmbがベースラインよりも性能の向上を実現し,提案フレームワークの堅牢性と有効性を示す実験評価を行った。 また,提案モデルが過去の最先端モデルよりも優れていることを示す実世界のデータセットを用いて,我々のアプローチを評価する。 これらの結果は、埋め込みモデルとrnnsのような逐次モデルの組み合わせが知識の追跡にとって有望な新しい方向性であることを示唆している。

The goal of knowledge tracing is to track the state of a student's knowledge as it evolves over time. This plays a fundamental role in understanding the learning process and is a key task in the development of an intelligent tutoring system. In this paper we propose a novel approach to knowledge tracing that combines techniques from matrix factorization with recent progress in recurrent neural networks (RNNs) to effectively track the state of a student's knowledge. The proposed \emph{DynEmb} framework enables the tracking of student knowledge even without the concept/skill tag information that other knowledge tracing models require while simultaneously achieving superior performance. We provide experimental evaluations demonstrating that DynEmb achieves improved performance compared to baselines and illustrating the robustness and effectiveness of the proposed framework. We also evaluate our approach using several real-world datasets showing that the proposed model outperforms the previous state-of-the-art. These results suggest that combining embedding models with sequential models such as RNNs is a promising new direction for knowledge tracing.
翻訳日:2022-12-02 00:06:34 公開日:2020-05-18
# 最適なサバイバルツリーアンサンブル

Optimal survival trees ensemble ( http://arxiv.org/abs/2005.09043v1 )

ライセンス: Link先を確認
Naz Gul, Nosheen Faiz, Dan Brawn, Rafal Kulakowski, Zardad Khan and Berthold Lausen(参考訳) 近年の研究では、分類と回帰問題のためのアンサンブル内での個人的または集団的パフォーマンスに基づいて、正確で多様な木を選択するアプローチが採用されている。 この研究は、これらの調査の結果として続き、最適な生存樹の森を成長させる可能性を考える。 当初、無作為生存林の手法を用いて、多数の生存木が栽培されていた。 成長した木は、それぞれの生存木を観測し、予測誤差の最小値から最高値にランク付けされる。 ランキング上位のサバイバルツリーは、アンサンブルとしての集合的なパフォーマンスで評価される。 このアンサンブルは、最初にランクで立つサバイバルツリーから始まり、次にランク順にアンサンブルにそれらを付加してさらに木を1つずつテストする。 独立トレーニングデータを用いた評価後、パフォーマンスが向上すると、サバイバルツリーが結果アンサンブルに選択される。 このアンサンブルを最適なツリーアンサンブル(OSTE)と呼ぶ。 提案手法は,17のベンチマークデータを用いて評価し,無作為生存林,条件推定林,バッジ,非木型リスクモデル,コックス比例ハザードモデルと比較した。 提案手法は,予測性能の向上に加えて,他の木ベースの手法と比較して,アンサンブル内のサバイバルツリー数を減少させる。 この方法は"OSTE"と呼ばれるRパッケージで実装される。

Recent studies have adopted an approach of selecting accurate and diverse trees based on individual or collective performance within an ensemble for classification and regression problems. This work follows in the wake of these investigations and considers the possibility of growing a forest of optimal survival trees. Initially, a large set of survival trees are grown using the method of random survival forest. The grown trees are then ranked from smallest to highest value of their prediction error using out-of-bag observations for each respective survival tree. The top ranked survival trees are then assessed for their collective performance as an ensemble. This ensemble is initiated with the survival tree which stands first in rank, then further trees are tested one by one by adding them to the ensemble in order of rank. A survival tree is selected for the resultant ensemble if the performance improves after an assessment using independent training data. This ensemble is called an optimal trees ensemble (OSTE). The proposed method is assessed using 17 benchmark datasets and the results are compared with those of random survival forest, conditional inference forest, bagging and a non tree based method, the Cox proportional hazard model. In addition to improve predictive performance, the proposed method reduces the number of survival trees in the ensemble as compared to the other tree based methods. The method is implemented in an R package called "OSTE".
翻訳日:2022-12-02 00:06:04 公開日:2020-05-18
# 誤り検出のための効率的なエンドツーエンドモデリング手法

An Effective End-to-End Modeling Approach for Mispronunciation Detection ( http://arxiv.org/abs/2005.08440v1 )

ライセンス: Link先を確認
Tien-Hong Lo, Shi-Yan Weng, Hsiu-Jui Chang, and Berlin Chen(参考訳) 近年,従来のハイブリッドDNN-HMM ASRシステムと比較して,その大成功と統一モデリングパラダイムにより,エンド・ツー・エンド(E2E)自動音声認識(ASR)システムが注目されている。 ASR上ではE2Eモデリングフレームワークが広く採用されているが、コンピュータ支援発音学習(CAPT)、特にMispronunciation Detection(MD)で使用されるE2Eフレームワークの研究は、現在でも続いている。 そこで我々はまず,mdタスクに対するハイブリッド型ctcattentionアプローチの新たな利用法を提案し,電話レベルの強制アライメントの必要性を回避しつつ,ctcと注意に基づくモデルの両方の強みを生かした。 次に,テキストプロンプト情報を用いて入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。 一方、提案した枠組みによりよく協力するため、2つのMD決定手法を採用する。 1)認識信頼度尺度に基づく意思決定又は 2) 単に音声認識結果に基づく。 一連のマンダリンMD実験により、我々のアプローチは既存のハイブリッドDNN-HMMシステムの処理パイプラインを単純化するだけでなく、体系的および実質的な性能改善をもたらすことを示した。 さらに、テキストプロンプトによる入力増強は、E2EベースのMDアプローチに優れた可能性を秘めているようである。

Recently, end-to-end (E2E) automatic speech recognition (ASR) systems have garnered tremendous attention because of their great success and unified modeling paradigms in comparison to conventional hybrid DNN-HMM ASR systems. Despite the widespread adoption of E2E modeling frameworks on ASR, there still is a dearth of work on investigating the E2E frameworks for use in computer-assisted pronunciation learning (CAPT), particularly for Mispronunciation detection (MD). In response, we first present a novel use of hybrid CTCAttention approach to the MD task, taking advantage of the strengths of both CTC and the attention-based model meanwhile getting around the need for phone-level forced alignment. Second, we perform input augmentation with text prompt information to make the resulting E2E model more tailored for the MD task. On the other hand, we adopt two MD decision methods so as to better cooperate with the proposed framework: 1) decision-making based on a recognition confidence measure or 2) simply based on speech recognition results. A series of Mandarin MD experiments demonstrate that our approach not only simplifies the processing pipeline of existing hybrid DNN-HMM systems but also brings about systematic and substantial performance improvements. Furthermore, input augmentation with text prompts seems to hold excellent promise for the E2E-based MD approach.
翻訳日:2022-12-02 00:05:19 公開日:2020-05-18
# 児童性的虐待検出のための成人ポルノ分類器の性能評価

Evaluating Performance of an Adult Pornography Classifier for Child Sexual Abuse Detection ( http://arxiv.org/abs/2005.08766v1 )

ライセンス: Link先を確認
Mhd Wesam Al-Nabki, Eduardo Fidalgo, Roberto A. Vasco-Carofilis, Francisco Ja\~nez-Martino, Javier Velasco-Mata(参考訳) 情報技術革命は、悪用された場合に最も脆弱な未成年者を含め、すべての人にポルノ素材への到達を促進した。 精度と時間パフォーマンスは、主に画像やビデオの分類に依存する可能性がある児童性的虐待の検出を指向した鑑識ツールが求める特徴である。 本稿では,法医学ツールの性能に影響を及ぼす可能性のあるハードウェア要件とソフトウェア要件について述べる。 我々は,Yahooが提案した成人ポルノ分類器を,Deep Learningに基づく2つのOSと4つのハードウェア構成,それぞれ2つのCPUと4つのGPUに分けて評価した。 Ubuntu Operating Systemの分類速度は、CPUとGPUがそれぞれ使用される場合、Windows 10よりも$~5$と$~2$の速さである。 私たちは、cpuベースのマシンよりもgpuベースのマシンの方が優れていることを実証します。 最後に,入力画像の再サイズによる上下補間処理は,選択された予測モデルの性能に影響を与えないことを示す。

The information technology revolution has facilitated reaching pornographic material for everyone, including minors who are the most vulnerable in case they were abused. Accuracy and time performance are features desired by forensic tools oriented to child sexual abuse detection, whose main components may rely on image or video classifiers. In this paper, we identify which are the hardware and software requirements that may affect the performance of a forensic tool. We evaluated the adult porn classifier proposed by Yahoo, based on Deep Learning, into two different OS and four Hardware configurations, with two and four different CPU and GPU, respectively. The classification speed on Ubuntu Operating System is $~5$ and $~2$ times faster than on Windows 10, when a CPU and GPU are used, respectively. We demonstrate the superiority of a GPU-based machine rather than a CPU-based one, being $7$ to $8$ times faster. Finally, we prove that the upward and downward interpolation process conducted while resizing the input images do not influence the performance of the selected prediction model.
翻訳日:2022-12-01 23:59:06 公開日:2020-05-18
# トウモロコシの葉の検出を改善するための画像処理, 植物発達特性, ハンガリーアルゴリズムを組み合わせた新しい技術

A Novel Technique Combining Image Processing, Plant Development Properties, and the Hungarian Algorithm, to Improve Leaf Detection in Maize ( http://arxiv.org/abs/2005.09022v1 )

ライセンス: Link先を確認
Nazifa Khan, Oliver A.S. Lyon, Mark Eramian and Ian McQuillan(参考訳) 植物構造、成長、健康などの植物形質のマニュアル決定は非常に時間がかかり、時には破壊的になる。 画像の自動解析が普及している。 本研究の目的は、複数のビューからなる高品質屋内画像の時間的シーケンスから葉の位置(および数)を特定し、特にトウモロコシの画像に焦点を当てることである。 プロシージャは画像にセグメンテーションを使用し、凸体を使用して各ステップで最高のビューを選択し、続いて対応する画像のスケルトン化を行った。 スケルトンを除去するために、個別のスケルトン進化プルーニングプロセスを適用した。 トウモロコシ開発に関する既存の統計は、本物の葉と偽葉を区別するために組み込まれた。 さらに、各時間ステップごとに、葉はグラフ理論ハンガリーアルゴリズムを用いて前日と次の3日間の葉と一致した。 このマッチングアルゴリズムは、たとえ画像自体から完全に隠されていたとしても、偽陽性の除去と真の葉の予測の両方に使用できる。 このアルゴリズムは、2つの異なる視点から27日間にわたる13のトウモロコシ植物からなるオープンデータセットを用いて評価した。 このデータセットから得られた真葉の総数は1843であり、提案手法は1674個の真葉を含む1690個の葉と16個の偽葉のみを検出し、90.8%のリコールと99.0%の精度を示した。

Manual determination of plant phenotypic properties such as plant architecture, growth, and health is very time consuming and sometimes destructive. Automatic image analysis has become a popular approach. This research aims to identify the position (and number) of leaves from a temporal sequence of high-quality indoor images consisting of multiple views, focussing in particular of images of maize. The procedure used a segmentation on the images, using the convex hull to pick the best view at each time step, followed by a skeletonization of the corresponding image. To remove skeleton spurs, a discrete skeleton evolution pruning process was applied. Pre-existing statistics regarding maize development was incorporated to help differentiate between true leaves and false leaves. Furthermore, for each time step, leaves were matched to those of the previous and next three days using the graph-theoretic Hungarian algorithm. This matching algorithm can be used to both remove false positives, and also to predict true leaves, even if they were completely occluded from the image itself. The algorithm was evaluated using an open dataset consisting of 13 maize plants across 27 days from two different views. The total number of true leaves from the dataset was 1843, and our proposed techniques detect a total of 1690 leaves including 1674 true leaves, and only 16 false leaves, giving a recall of 90.8%, and a precision of 99.0%.
翻訳日:2022-12-01 23:57:25 公開日:2020-05-18
# CNN推論高速化のためのクロスフィルタ圧縮

Cross-filter compression for CNN inference acceleration ( http://arxiv.org/abs/2005.09034v1 )

ライセンス: Link先を確認
Fuyuan Lyu, Shien Zhu, Weichen Liu(参考訳) 畳み込みニューラルネットワークは、画像分類など、複数のタスクに優れた能力を示す。 しかし、ネットワークのトレーニングには多くのリソースが必要です。 したがって、重み、活性化、勾配の精度を低減し、ニューラルネットワークを加速するために多くの努力がなされている。 しかし、これらのフィルターワイド量子化法は、カーネルのサイズによって引き起こされる自然な上限が存在する。 一方、小さなカーネルの人気により、自然界の限界はさらに減少する。 この問題に対処するため、畳み込み演算において$\sim32\times$メモリセーブと$22\times$メモリを高速化できる新しいクロスフィルタ圧縮手法を提案する。 提案手法では,全ての畳み込みフィルタが与えられたビットに量子化され,空間的に隣接するフィルタは同じスケーリング係数を共有する。 この圧縮法は,バイナリウェイトとxnor-netを別々にベースとし,resnetやvggなどのネットワーク構造が広く使用されているcifar-10およびimagenetデータセット上で評価され,最先端の定量化法と比較して許容可能な精度損失を確認できる。

Convolution neural network demonstrates great capability for multiple tasks, such as image classification and many others. However, much resource is required to train a network. Hence much effort has been made to accelerate neural network by reducing precision of weights, activation, and gradient. However, these filter-wise quantification methods exist a natural upper limit, caused by the size of the kernel. Meanwhile, with the popularity of small kernel, the natural limit further decrease. To address this issue, we propose a new cross-filter compression method that can provide $\sim32\times$ memory savings and $122\times$ speed up in convolution operations. In our method, all convolution filters are quantized to given bits and spatially adjacent filters share the same scaling factor. Our compression method, based on Binary-Weight and XNOR-Net separately, is evaluated on CIFAR-10 and ImageNet dataset with widely used network structures, such as ResNet and VGG, and witness tolerable accuracy loss compared to state-of-the-art quantification methods.
翻訳日:2022-12-01 23:57:00 公開日:2020-05-18
# Xベクトルに基づく話者匿名化のための設計選択

Design Choices for X-vector Based Speaker Anonymization ( http://arxiv.org/abs/2005.08601v1 )

ライセンス: Link先を確認
Brij Mohan Lal Srivastava, Natalia Tomashenko, Xin Wang, Emmanuel Vincent, Junichi Yamagishi, Mohamed Maouche, Aur\'elien Bellet, Marc Tommasi(参考訳) 最近提案されたxベクトルに基づく匿名化方式は、任意の入力音声をランダムな擬似話者に変換する。 本稿では,第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。 本研究では, 話者間の距離測定値, 擬似話者が選択されるxベクトル空間領域, 性別選択のための設計選択について検討する。 匿名化の強度を評価するために, 匿名化方式の知識に応じて, オリジナルまたは匿名化音声を用いたx-vectorベースの話者検証システムを用いた攻撃者の検討を行った。 攻撃者が達成した平等エラー率(EER)と匿名化データに対する単語誤り率(WER)をプライバシとユーティリティの尺度として報告する。 実験はlibrispeechから派生したデータセットを用いて行われ、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。

The recently proposed x-vector based anonymization scheme converts any input voice into that of a random pseudo-speaker. In this paper, we present a flexible pseudo-speaker selection technique as a baseline for the first VoicePrivacy Challenge. We explore several design choices for the distance metric between speakers, the region of x-vector space where the pseudo-speaker is picked, and gender selection. To assess the strength of anonymization achieved, we consider attackers using an x-vector based speaker verification system who may use original or anonymized speech for enrollment, depending on their knowledge of the anonymization scheme. The Equal Error Rate (EER) achieved by the attackers and the decoding Word Error Rate (WER) over anonymized data are reported as the measures of privacy and utility. Experiments are performed using datasets derived from LibriSpeech to find the optimal combination of design choices in terms of privacy and utility.
翻訳日:2022-12-01 23:56:18 公開日:2020-05-18
# 脳にインスパイアされた分散認知アーキテクチャ

Brain-inspired Distributed Cognitive Architecture ( http://arxiv.org/abs/2005.08603v1 )

ライセンス: Link先を確認
Leendert A Remmelzwaal, Amit K Mishra, George F R Ellis(参考訳) 本稿では,知覚処理,分類,文脈予測,感情タグ付けを組み込んだ,脳にインスパイアされた認知アーキテクチャを提案する。 cognitive architectureは3つのモジュール化されたwebサーバとして実装されている。 実験では、脳内の注意を密にモデル化する2つの異なる動作、すなわち、高濃度モードと低濃度モードの動作を明らかにした。 大脳皮質のモデリングに加えて、バイオインスパイアされたアーキテクチャが処理効率をもたらすことを実証した。 このソフトウェアはオープンソースプラットフォームとして公開されており、将来の研究チームによって容易に拡張できる。 本研究は,バイオリアリスティックな注目方向と感覚選択の基礎を築き,バイオリアリスティックな人工知能システムを実現するための重要なステップであると考えている。

In this paper we present a brain-inspired cognitive architecture that incorporates sensory processing, classification, contextual prediction, and emotional tagging. The cognitive architecture is implemented as three modular web-servers, meaning that it can be deployed centrally or across a network for servers. The experiments reveal two distinct operations of behaviour, namely high- and low-salience modes of operations, which closely model attention in the brain. In addition to modelling the cortex, we have demonstrated that a bio-inspired architecture introduced processing efficiencies. The software has been published as an open source platform, and can be easily extended by future research teams. This research lays the foundations for bio-realistic attention direction and sensory selection, and we believe that it is a key step towards achieving a bio-realistic artificial intelligent system.
翻訳日:2022-12-01 23:50:06 公開日:2020-05-18
# オブジェクト指向エキスパートシステムのための知識自動獲得

Automatic Knowledge Acquisition for Object-Oriented Expert Systems ( http://arxiv.org/abs/2005.08517v1 )

ライセンス: Link先を確認
Jo\"el Colloc (IDEES), Danielle Boulanger(参考訳) エキスパートシステムを構築するためのオブジェクト指向モデルについて述べる。 このモデルと類似性の検出は、誘導、推論、シミュレーションのような推論モードを実装することができる。 我々は特に、類似性とその誘導における利用に焦点を当てる。 知識獲得を容易にするために,オブジェクトの全体的および部分的構造的同時性を扱うアルゴリズムを提案する。

We describe an Object Oriented Model for building Expert Systems. This model and the detection of similarities allow to implement reasoning modes as induction, deduction and simulation. We specially focus on similarity and its use in induction. We propose original algorithms which deal with total and partial structural similitude of objects to facilitate knowledge acquisition.
翻訳日:2022-12-01 23:49:40 公開日:2020-05-18
# シングルサンプルライター -- "文書フィルタ" とその作者識別への影響

Single-sample writers -- "Document Filter" and their impacts on writer identification ( http://arxiv.org/abs/2005.08424v1 )

ライセンス: Link先を確認
Fabio Pinhelli, Alceu S. Britto Jr, Luiz S. Oliveira, Yandre M. G. Costa, Diego Bertolini(参考訳) この文章は、特定の個人を特定できる重要な生体認証のモダリティとして使用できる。 これは、2人の異なる人物の筆跡が、画像の異なる視覚的属性(例えばテクスチャ)を適切にキャプチャできる画像処理技術の使用を考慮して、図形的特性の面でも、原稿をデジタル画像として扱うことによっても、探究できる違いがあるためである。 本研究では,一部の著者から採取した1つのサンプルのみを用いたデータベースの使用が,実験プロトコルで得られた結果を歪めることができるかどうかを詳細に検討する。 この意味では、我々は「文書フィルタ」と呼ぶものを提案する。 ドキュメントフィルタ"プロトコルは、前処理のテクニックとして使用されるはずであり、同じドキュメントのフラグメントから取得したすべてのデータを、トレーニングまたはテストセットに配置する必要がある。 その背景にある理論的根拠は、分類器は、特定の文書(例えば、著者の感情状態、使用するペン、用紙の種類など)に影響を及ぼす可能性のある他の特殊性に関する特徴ではなく、作者自身から特徴を捉えなければならないということである。 文献の分析により、著者識別問題を扱ういくつかの作品を見つけることができる。 しかし, 原稿データベース作成の際, 一つのサンプルを寄贈した作家ボランティアの出現も考慮し, 著者識別システムの性能評価を行なわなければならない。 そこで本研究では,IAM,BFL,CVLデータベースを対象とした総合的な実験を行った。 彼らは最も極端な場合、"ドキュメントフィルタ"プロトコルを用いて得られた認識率は81.80%から50.37%に低下することを示した。

The writing can be used as an important biometric modality which allows to unequivocally identify an individual. It happens because the writing of two different persons present differences that can be explored both in terms of graphometric properties or even by addressing the manuscript as a digital image, taking into account the use of image processing techniques that can properly capture different visual attributes of the image (e.g. texture). In this work, perform a detailed study in which we dissect whether or not the use of a database with only a single sample taken from some writers may skew the results obtained in the experimental protocol. In this sense, we propose here what we call "document filter". The "document filter" protocol is supposed to be used as a preprocessing technique, such a way that all the data taken from fragments of the same document must be placed either into the training or into the test set. The rationale behind it, is that the classifier must capture the features from the writer itself, and not features regarding other particularities which could affect the writing in a specific document (i.e. emotional state of the writer, pen used, paper type, and etc.). By analyzing the literature, one can find several works dealing the writer identification problem. However, the performance of the writer identification systems must be evaluated also taking into account the occurrence of writer volunteers who contributed with a single sample during the creation of the manuscript databases. To address the open issue investigated here, a comprehensive set of experiments was performed on the IAM, BFL and CVL databases. They have shown that, in the most extreme case, the recognition rate obtained using the "document filter" protocol drops from 81.80% to 50.37%.
翻訳日:2022-12-01 23:49:34 公開日:2020-05-18
# 不平衡マルチラベルから野生の大規模物体検出

Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels ( http://arxiv.org/abs/2005.08455v1 )

ライセンス: Link先を確認
Junran Peng, Xingyuan Bu, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan(参考訳) より多くのデータによるトレーニングは、ディープラーニング時代のパフォーマンスを改善する最も安定的で効果的な方法です。 これまでのところ最大のオブジェクト検出データセットであるオープンイメージは、汎用的で洗練されたシナリオにおいて、オブジェクト検出に大きな機会と課題をもたらします。 しかし、巨大なデータスケールを扱うための半自動的な収集とラベリングパイプラインのため、open imagesデータセットは、オブジェクトが明示的または暗黙的に複数のラベルを持ち、ラベル分布が非常に不均衡なラベル関連の問題に苦しむ。 本研究では,これらのラベル問題を定量的に解析し,単純かつ効果的な解法を提供する。 オブジェクト検出におけるマルチラベル問題を扱うために,並列ソフトマックスを設計し,ラベルの不均衡に対処するハイブリッドトレーニングスケジューラを用いたソフトサンプリング手法を提案する。 全体として,提案手法は3.34点の劇的な改善を実現し,オープンイメージの公開オブジェクト検出テストセット上で60.90mAPの最高の単一モデルとなった。 私たちのアンサンブルの結果は67.17 mAPに達し、これはOpen Imagesのパブリックテスト 2018の最高の結果よりも4.29ポイント高い。

Training with more data has always been the most stable and effective way of improving performance in deep learning era. As the largest object detection dataset so far, Open Images brings great opportunities and challenges for object detection in general and sophisticated scenarios. However, owing to its semi-automatic collecting and labeling pipeline to deal with the huge data scale, Open Images dataset suffers from label-related problems that objects may explicitly or implicitly have multiple labels and the label distribution is extremely imbalanced. In this work, we quantitatively analyze these label problems and provide a simple but effective solution. We design a concurrent softmax to handle the multi-label problems in object detection and propose a soft-sampling methods with hybrid training scheduler to deal with the label imbalance. Overall, our method yields a dramatic improvement of 3.34 points, leading to the best single model with 60.90 mAP on the public object detection test set of Open Images. And our ensembling result achieves 67.17 mAP, which is 4.29 points higher than the best result of Open Images public test 2018.
翻訳日:2022-12-01 23:49:07 公開日:2020-05-18
# 文脈認識とスケール非感応時間反復計数

Context-aware and Scale-insensitive Temporal Repetition Counting ( http://arxiv.org/abs/2005.08465v1 )

ライセンス: Link先を確認
Huaidong Zhang, Xuemiao Xu, Guoqiang Han, and Shengfeng He(参考訳) 時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。 既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。 本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するため,文脈認識・スケール非感受性の枠組みを整理する。 1) 異なる行動からのサイクル長は予測不可能であり, 大規模な探索を必要とするが, 粗いサイクル長が決定されると, 繰り返しの多様性は回帰によって克服できる。 2) サイクル長の決定は,短いビデオの断片にのみ依存せず,文脈的理解に依存しない。 第1の点は粗いサイクル改善法によって実装される。 ビデオ中のすべてのサイクルの長さを徹底的に探索する重い計算を回避し、代わりに階層的な方法でさらなる改善のための粗い予測を伝搬する。 次に,文脈認識予測のための双方向サイクル長推定手法を提案する。 2つの連続した粗周期を入力とし、前回と次の反復サイクルの位置を予測する回帰ネットワークである。 時間的反復カウント領域の訓練と評価の恩恵を受けるために,526本のビデオを含む,反復動作の異なるベンチマークを構築した。 広範な実験により、単一のデータセットでトレーニングされたネットワークは、いくつかのベンチマークで最先端のメソッドよりも優れており、提案されたフレームワークはドメイン間の反復パターンをキャプチャできるほど一般的であることを示している。

Temporal repetition counting aims to estimate the number of cycles of a given repetitive action. Existing deep learning methods assume repetitive actions are performed in a fixed time-scale, which is invalid for the complex repetitive actions in real life. In this paper, we tailor a context-aware and scale-insensitive framework, to tackle the challenges in repetition counting caused by the unknown and diverse cycle-lengths. Our approach combines two key insights: (1) Cycle lengths from different actions are unpredictable that require large-scale searching, but, once a coarse cycle length is determined, the variety between repetitions can be overcome by regression. (2) Determining the cycle length cannot only rely on a short fragment of video but a contextual understanding. The first point is implemented by a coarse-to-fine cycle refinement method. It avoids the heavy computation of exhaustively searching all the cycle lengths in the video, and, instead, it propagates the coarse prediction for further refinement in a hierarchical manner. We secondly propose a bidirectional cycle length estimation method for a context-aware prediction. It is a regression network that takes two consecutive coarse cycles as input, and predicts the locations of the previous and next repetitive cycles. To benefit the training and evaluation of temporal repetition counting area, we construct a new and largest benchmark, which contains 526 videos with diverse repetitive actions. Extensive experiments show that the proposed network trained on a single dataset outperforms state-of-the-art methods on several benchmarks, indicating that the proposed framework is general enough to capture repetition patterns across domains.
翻訳日:2022-12-01 23:48:36 公開日:2020-05-18
# DDD20 エンドツーエンドのイベントカメラ駆動データセット: ステアリング予測を改善するためのディープラーニングを備えたフレームとイベントの融合

DDD20 End-to-End Event Camera Driving Dataset: Fusing Frames and Events with Deep Learning for Improved Steering Prediction ( http://arxiv.org/abs/2005.08605v1 )

ライセンス: Link先を確認
Yuhuang Hu, Jonathan Binas, Daniel Neil, Shih-Chii Liu and Tobi Delbruck(参考訳) ニューロモルフィック・イベントカメラは、難しい照明条件下での動的視覚問題に有用である。 本稿では,自動車運転におけるイベントカメラの活用について検討するため,DDD20と呼ばれる新しいエンドツーエンド駆動データセットを報告する。 データセットは、ダイナミックビジョンセンサー(DVS)の輝度変化イベントとアクティブピクセルセンサー(APS)の強度フレームの両方を同時にストリームするDAVISカメラでキャプチャされた。 DDD20は、DAVISイベント+フレームカメラの51時間と、様々な照明条件下で4000kmの高速道路と都市部での運転から収集された車両の人間制御データで、これまでで最長のイベントカメラエンドツーエンドの駆動データセットである。 DDD20を用いて、人間の瞬時ハンドル角度を予測するための深層学習手法を用いて、明るさ変化イベントと強度フレームデータを融合する最初の研究を報告した。 昼夜を問わず、Resnet-32からの人間の操舵予測のばらつきは、DVS (0.67) または APS (0.77) のデータのみを使用するよりも、融合したDVS+APSフレーム (0.88) よりもはるかに優れている。

Neuromorphic event cameras are useful for dynamic vision problems under difficult lighting conditions. To enable studies of using event cameras in automobile driving applications, this paper reports a new end-to-end driving dataset called DDD20. The dataset was captured with a DAVIS camera that concurrently streams both dynamic vision sensor (DVS) brightness change events and active pixel sensor (APS) intensity frames. DDD20 is the longest event camera end-to-end driving dataset to date with 51h of DAVIS event+frame camera and vehicle human control data collected from 4000km of highway and urban driving under a variety of lighting conditions. Using DDD20, we report the first study of fusing brightness change events and intensity frame data using a deep learning approach to predict the instantaneous human steering wheel angle. Over all day and night conditions, the explained variance for human steering prediction from a Resnet-32 is significantly better from the fused DVS+APS frames (0.88) than using either DVS (0.67) or APS (0.77) data alone.
翻訳日:2022-12-01 23:47:23 公開日:2020-05-18
# 中国王朝史のコーパス:2千年にわたるジェンダー分析

Corpus of Chinese Dynastic Histories: Gender Analysis over Two Millennia ( http://arxiv.org/abs/2005.08793v1 )

ライセンス: Link先を確認
Sergey Zinin, Yang Xu(参考訳) 中国の王朝史は紀元前3世紀から18世紀にかけて約2000年にわたる大規模な連続した言語空間を形成している。 歴史学は、歴史的語彙と意味変化の計算分析に適した2000万文字以上のコーパスで古典中国語(文学)に記録されている。 しかし、これらの歴史の無償のオープンソースコーパスは存在せず、古典中国語のローソースとなっている。 このプロジェクトでは,Creative Commonsライセンスでカバーされた24の王朝の新たなオープンソースコーパスを導入する。 古典中国語のジェンダー特化用語の原型は、男女の歴史的言語的使用の分析のケーススタディとして開発された。 この研究は、男性用語の優位性とともに、これらの用語の使用のかなりの安定性を示している。 単語の意味の探索は、性別特化語のために作成されたフォーカスコーパスのキーワード分析を使用する。 この手法は、ダイアクロニックセマンティクスの将来の研究に使用できる意味的な意味表現をもたらす。

Chinese dynastic histories form a large continuous linguistic space of approximately 2000 years, from the 3rd century BCE to the 18th century CE. The histories are documented in Classical (Literary) Chinese in a corpus of over 20 million characters, suitable for the computational analysis of historical lexicon and semantic change. However, there is no freely available open-source corpus of these histories, making Classical Chinese low-resource. This project introduces a new open-source corpus of twenty-four dynastic histories covered by Creative Commons license. An original list of Classical Chinese gender-specific terms was developed as a case study for analyzing the historical linguistic use of male and female terms. The study demonstrates considerable stability in the usage of these terms, with dominance of male terms. Exploration of word meanings uses keyword analysis of focus corpora created for genderspecific terms. This method yields meaningful semantic representations that can be used for future studies of diachronic semantics.
翻訳日:2022-12-01 23:40:49 公開日:2020-05-18
# ロングテールマルチラベル分類のためのインタラクションマッチング

Interaction Matching for Long-Tail Multi-Label Classification ( http://arxiv.org/abs/2005.08805v1 )

ライセンス: Link先を確認
Sean MacAvaney, Franck Dernoncourt, Walter Chang, Nazli Goharian, Ophir Frieder(参考訳) 本稿では,従来のマルチラベル分類モデルにおいて,相互作用マッチングを組み込むことにより,制約に対処するエレガントで効果的な手法を提案する。 ソフトなn-gramインタラクションマッチングを実行することで、ラベルと自然言語記述(ほとんどのマルチラベルタスクでよく見られる)をマッチングする。 提案手法は,頻繁に発生するラベルに偏りがある既存のマルチラベル分類手法の強化に有効である。 臨床ノートの自動医療コーディングとソフトウェアチュートリアルテキストからのエンティティの自動ラベル付けという2つの課題に対するアプローチを評価した。 以上の結果から,本手法はマクロ性能を11%向上させることができ,そのほとんどはトレーニングセット(すなわちラベルのロングテール)にはほとんど現れない。

We present an elegant and effective approach for addressing limitations in existing multi-label classification models by incorporating interaction matching, a concept shown to be useful for ad-hoc search result ranking. By performing soft n-gram interaction matching, we match labels with natural language descriptions (which are common to have in most multi-labeling tasks). Our approach can be used to enhance existing multi-label classification approaches, which are biased toward frequently-occurring labels. We evaluate our approach on two challenging tasks: automatic medical coding of clinical notes and automatic labeling of entities from software tutorial text. Our results show that our method can yield up to an 11% relative improvement in macro performance, with most of the gains stemming labels that appear infrequently in the training set (i.e., the long tail of labels).
翻訳日:2022-12-01 23:40:33 公開日:2020-05-18
# 多数派がいない場合の帰納法:ドイツの複数形の認知モデルとしてのエンコーダ-デコーダニューラルネットワークの限界

Inflecting when there's no majority: Limitations of encoder-decoder neural networks as cognitive models for German plurals ( http://arxiv.org/abs/2005.08826v1 )

ライセンス: Link先を確認
Kate McCurdy, Sharon Goldwater, Adam Lopez(参考訳) 人工ニューラルネットワークは、屈折形態を表すことを学び、人間の話者のように新しい言葉に一般化できるか? Kirov and Cotterell (2018) は、答えはイエスであると主張している: 現代のエンコーダ・デコーダ (ED) アーキテクチャは、通常の過去時制を新しい単語に拡張するなど、英語の動詞を屈折させるときに、人間のような振る舞いを学ぶ。 しかしながら、彼らの研究はMarcusら(1995年)による批判に対処していない: ニューラルモデルは通常のクラスではなく、最も頻繁なクラスを拡張することを学習し、したがって、非頻繁な接尾辞が生産的に一般化できるドイツの数字の屈折のようなタスクで失敗する。 この問題を調査するために,我々はまず,EDモデルでは利用できない情報ソースを避けるために,ドイツ語話者(新規名詞の複数形式の生成と評価)から新しいデータセットを収集する。 話者データは高いばらつきを示し、2つの接尾辞は「正規」な振る舞いを表わし、より頻繁に音韻的に非典型的な入力で現れる。 エンコーダ・デコーダモデルは、最も頻繁に生成される複数のクラスを一般化するが、他の複数のマーカーの人間の様相や「正規」拡張は示さない。 現代のニューラルモデルはまだマイノリティクラスの一般化に苦しむ可能性があると結論づける。

Can artificial neural networks learn to represent inflectional morphology and generalize to new words as human speakers do? Kirov and Cotterell (2018) argue that the answer is yes: modern Encoder-Decoder (ED) architectures learn human-like behavior when inflecting English verbs, such as extending the regular past tense form -(e)d to novel words. However, their work does not address the criticism raised by Marcus et al. (1995): that neural models may learn to extend not the regular, but the most frequent class -- and thus fail on tasks like German number inflection, where infrequent suffixes like -s can still be productively generalized. To investigate this question, we first collect a new dataset from German speakers (production and ratings of plural forms for novel nouns) that is designed to avoid sources of information unavailable to the ED model. The speaker data show high variability, and two suffixes evince 'regular' behavior, appearing more often with phonologically atypical inputs. Encoder-decoder models do generalize the most frequently produced plural class, but do not show human-like variability or 'regular' extension of these other plural markers. We conclude that modern neural models may still struggle with minority-class generalization.
翻訳日:2022-12-01 23:40:18 公開日:2020-05-18
# 言語横断的単語埋め込みにおける局所性バイアスを上回る文法的ジェンダー関連

Grammatical gender associations outweigh topical gender bias in crosslinguistic word embeddings ( http://arxiv.org/abs/2005.08864v1 )

ライセンス: Link先を確認
Katherine McCurdy and Oguz Serbetci(参考訳) 近年の研究では、意味論のベクトル空間モデルが人間の文化における望ましくないバイアスを反映できることが示されている。 言語横断的単語埋め込みの研究により, 局所性バイアスは, 文法的性関係の影響によって相互作用し, 大きく超え, 両者がコーパス補間によって弱められる可能性があることが明らかとなった。 この発見は、機械翻訳のような下流アプリケーションに影響を及ぼす。

Recent research has demonstrated that vector space models of semantics can reflect undesirable biases in human culture. Our investigation of crosslinguistic word embeddings reveals that topical gender bias interacts with, and is surpassed in magnitude by, the effect of grammatical gender associations, and both may be attenuated by corpus lemmatization. This finding has implications for downstream applications such as machine translation.
翻訳日:2022-12-01 23:39:52 公開日:2020-05-18
# テキストから地図を再構築する

Reconstructing Maps from Text ( http://arxiv.org/abs/2005.08932v1 )

ライセンス: Link先を確認
Johnathan E. Avery, Robert L. Goldstone, Michael N. Jones(参考訳) 以前の研究では、分布的意味モデル(dsms)がニュースコーポラ(louwerse & zwaan, 2009)や小説(louwerse & benesh, 2012)から地図を再構築できることが示されている。 地図の再生能力は、DSMが知覚的接地を欠いていることで知られている(De Vega et al., 2012)。 本稿では,言語が地図を推論するために必要な統計資料について検討し,意味表現のメカニズムに制約を加える。 研究1は、従来のDSMが地図をうまく再現するには、言語における直接的共起が必要であることを示すために、実験的な制御の下で単語共起をもたらす。 研究2では, 都市名の共起頻度に依存しない地図を再構築可能な事例ベースDSMを提案する。

Previous research has demonstrated that Distributional Semantic Models (DSMs) are capable of reconstructing maps from news corpora (Louwerse & Zwaan, 2009) and novels (Louwerse & Benesh, 2012). The capacity for reproducing maps is surprising since DSMs notoriously lack perceptual grounding (De Vega et al., 2012). In this paper we investigate the statistical sources required in language to infer maps, and resulting constraints placed on mechanisms of semantic representation. Study 1 brings word co-occurrence under experimental control to demonstrate that direct co-occurrence in language is necessary for traditional DSMs to successfully reproduce maps. Study 2 presents an instance-based DSM that is capable of reconstructing maps independent of the frequency of co-occurrence of city names.
翻訳日:2022-12-01 23:39:28 公開日:2020-05-18
# (レ)NLPにおける意味論

(Re)construing Meaning in NLP ( http://arxiv.org/abs/2005.09099v1 )

ライセンス: Link先を確認
Sean Trott, Tiago Timponi Torrent, Nancy Chang, Nathan Schneider(参考訳) 人間の話者は、自分自身を表現するための幅広いツールキットを持っています。 本稿では,自然言語理解における意味の議論に欠ける概念について述べる。すなわち,表現の仕方が,伝達される情報の概念化や構成の方法の相違を反映していることを述べる。 最初にこの現象をより正確に定義し、理論認知意味論と精神言語学のかなり前の研究について考察した。 次に、いくつかの解釈された意味の次元を調査し、コンストラクトからの洞察がNLPにおける理論的および実践的な研究にどのように役立つかを示す。

Human speakers have an extensive toolkit of ways to express themselves. In this paper, we engage with an idea largely absent from discussions of meaning in natural language understanding--namely, that the way something is expressed reflects different ways of conceptualizing or construing the information being conveyed. We first define this phenomenon more precisely, drawing on considerable prior work in theoretical cognitive semantics and psycholinguistics. We then survey some dimensions of construed meaning and show how insights from construal could inform theoretical and practical work in NLP.
翻訳日:2022-12-01 23:38:31 公開日:2020-05-18
# 対話応答タイミングのニューラル生成

Neural Generation of Dialogue Response Timings ( http://arxiv.org/abs/2005.09128v1 )

ライセンス: Link先を確認
Matthew Roddy and Naomi Harte(参考訳) ヒトの対話における音声応答オフセットのタイミングは、対話の文脈的要素によって異なることが示されている。 本稿では,これらの応答オフセットの分布をシミュレートするニューラルモデルを提案する。 モデルは、インクリメンタル音声対話システム(SDS)のパイプラインに統合されるように設計されている。 我々は、オフライン実験と人間の聴力テストを用いて、モデルを評価する。 人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。 これらのモデルをSDSパイプラインに導入することで、相互作用の自然性を高めることができる。

The timings of spoken response offsets in human dialogue have been shown to vary based on contextual elements of the dialogue. We propose neural models that simulate the distributions of these response offsets, taking into account the response turn as well as the preceding turn. The models are designed to be integrated into the pipeline of an incremental spoken dialogue system (SDS). We evaluate our models using offline experiments as well as human listening tests. We show that human listeners consider certain response timings to be more natural based on the dialogue context. The introduction of these models into SDS pipelines could increase the perceived naturalness of interactions.
翻訳日:2022-12-01 23:38:20 公開日:2020-05-18
# 画像のキーポイントの検出と記述のためのニューラルネットワークモデルの蒸留

Distillation of neural network models for detection and description of key points of images ( http://arxiv.org/abs/2006.10502v1 )

ライセンス: Link先を確認
A.V. Yashchenko, A.V. Belikov, M.V. Peterson, A.S. Potapov(参考訳) 画像マッチングと分類手法、および同期位置とマッピングは、組み込みデバイスやモバイルデバイスで広く使われている。 彼らの最もリソース集約的な部分は、画像のキーポイントの検出と記述である。 そして、モバイルデバイス上でキーポイントをリアルタイムで検出し記述する古典的な手法が実行できれば、最高の品質の最新のニューラルネットワーク手法では、そのような使用は困難である。 したがって、キーポイントの検出と記述のために、ニューラルネットワークモデルの速度を上げることが重要である。 研究の主題は、ニューラルネットワークモデルを減らす方法の1つとして蒸留である。 研究の目的は、キーポイントの検出と記述のよりコンパクトなモデルと、このモデルを得るための手順の記述を得ることである。 キーポイントの検出と記述を行うためのニューラルネットワークの蒸留法について検討した。 本研究の枠組みにおいて,最適結果を提供する目的関数と学習パラメータを提案する。 キーポイント検出方法をテストするための新しいデータセットと、割り当てられたキーポイントとその対応するローカル特徴の新たな品質指標が導入された。 上記の方法でのトレーニングの結果、同じパラメータを持つ新しいモデルは、元のモデルよりもキーポイントの比較において高い精度を示した。 パラメータ数が大幅に少ない新しいモデルでは、元のモデルの精度に近い点マッチングの精度を示す。

Image matching and classification methods, as well as synchronous location and mapping, are widely used on embedded and mobile devices. Their most resource-intensive part is the detection and description of the key points of the images. And if the classical methods of detecting and describing key points can be executed in real time on mobile devices, then for modern neural network methods with the best quality, such use is difficult. Thus, it is important to increase the speed of neural network models for the detection and description of key points. The subject of research is distillation as one of the methods for reducing neural network models. The aim of thestudy is to obtain a more compact model of detection and description of key points, as well as a description of the procedure for obtaining this model. A method for the distillation of neural networks for the task of detecting and describing key points was tested. The objective function and training parameters that provide the best results in the framework of the study are proposed. A new data set has been introduced for testing key point detection methods and a new quality indicator of the allocated key points and their corresponding local features. As a result of training in the described way, the new model, with the same number of parameters, showed greater accuracy in comparing key points than the original model. A new model with a significantly smaller number of parameters shows the accuracy of point matching close to the accuracy of the original model.
翻訳日:2022-12-01 23:31:18 公開日:2020-05-18
# 構文誘導によるパラフレーズ生成

Syntax-guided Controlled Generation of Paraphrases ( http://arxiv.org/abs/2005.08417v1 )

ライセンス: Link先を確認
Ashutosh Kumar, Kabir Ahuja, Raghuram Vadapalli, Partha Talukdar(参考訳) 文(例:i like mangoes)と制約(例:e.g. sentiment flip)が与えられた場合、制御されたテキスト生成の目的は、入力文を制約の要件に適合させる文(例:「私はマンゴーを嫌う」)を作成することである。 このような単純な制約を超えて、最近の研究は、制御されたパラファーゼ生成のタスクにおける制約として複雑な構文-指示の組み入れを探求し始めた。 これらの方法では、構文ガイダンスは別の例文から導かれる。 しかし、これらの先行研究は、例文のパースツリーで利用可能な限られた構文情報しか利用していない。 本稿では,この制限に対処し,構文付きパラフレーゼ生成のためのエンドツーエンドフレームワークであるsgcpを提案する。 SGCPは、関連性に妥協することなく、構文適合文を生成することができる。 我々は、複数の実世界の英語データセットに対して大規模な自動評価を行い、最先端のベースラインに対するSGCPの有効性を実証する。 今後の研究を進めるため、sgcpのソースコードを利用可能にしました。

Given a sentence (e.g., "I like mangoes") and a constraint (e.g., sentiment flip), the goal of controlled text generation is to produce a sentence that adapts the input sentence to meet the requirements of the constraint (e.g., "I hate mangoes"). Going beyond such simple constraints, recent works have started exploring the incorporation of complex syntactic-guidance as constraints in the task of controlled paraphrase generation. In these methods, syntactic-guidance is sourced from a separate exemplar sentence. However, these prior works have only utilized limited syntactic information available in the parse tree of the exemplar sentence. We address this limitation in the paper and propose Syntax Guided Controlled Paraphraser (SGCP), an end-to-end framework for syntactic paraphrase generation. We find that SGCP can generate syntax conforming sentences while not compromising on relevance. We perform extensive automated and human evaluations over multiple real-world English language datasets to demonstrate the efficacy of SGCP over state-of-the-art baselines. To drive future research, we have made SGCP's source code available
翻訳日:2022-12-01 23:29:58 公開日:2020-05-18
# 制御一般化を用いた少数の例によるテキスト分類

Text Classification with Few Examples using Controlled Generalization ( http://arxiv.org/abs/2005.08469v1 )

ライセンス: Link先を確認
Abhijit Mahabal, Jason Baldridge, Burcu Karagol Ayan, Vincent Perot, Dan Roth(参考訳) テキスト分類のためのトレーニングデータは、多くの場合、特に多くの出力クラスや関連する分類問題を含むアプリケーションで制限される。 つまり、分類器は限られた証拠から一般化しなければならないが、一般化の方法と範囲はタスク依存である。 現在の慣行は、主に事前訓練済みの単語埋め込みを使用して、見慣れない単語を類似した単語にマッピングする。 残念なことに、これは多くの意味のコンポーネントを非常に制限された能力に分解する。 我々の代替案は、ラベルのない構文解析コーパスから派生したスパース事前学習表現から始まり、利用可能なトレーニングデータに基づいて、関連する一般化を提供する特徴を選択する。 ここでは、これらのベクトル上のフィードフォワードネットワークは、既存の最先端手法と比較して、特に低データシナリオにおいて有効であることを示す。 このネットワークと畳み込みニューラルネットワークをさらに組み合わせることで、このエッジを低いデータシナリオに保ち、完全なトレーニングセットを使用する場合の競争力を維持します。

Training data for text classification is often limited in practice, especially for applications with many output classes or involving many related classification problems. This means classifiers must generalize from limited evidence, but the manner and extent of generalization is task dependent. Current practice primarily relies on pre-trained word embeddings to map words unseen in training to similar seen ones. Unfortunately, this squishes many components of meaning into highly restricted capacity. Our alternative begins with sparse pre-trained representations derived from unlabeled parsed corpora; based on the available training data, we select features that offers the relevant generalizations. This produces task-specific semantic vectors; here, we show that a feed-forward network over these vectors is especially effective in low-data scenarios, compared to existing state-of-the-art methods. By further pairing this network with a convolutional neural network, we keep this edge in low data scenarios and remain competitive when using full training sets.
翻訳日:2022-12-01 23:29:38 公開日:2020-05-18
# 最適な代表サンプル重み付け

Optimal Representative Sample Weighting ( http://arxiv.org/abs/2005.09065v1 )

ライセンス: Link先を確認
Shane Barratt, Guillermo Angeris, Stephen Boyd(参考訳) 本研究では,データのサンプル平均値が所定の値に近い場合に発生する代表重み付けを達成することを目的として,サンプルやデータ記録に重みを割り当てる問題を考察する。 代表的なサンプル重みを求める問題は,多くの場合凸であり,効率的に解くことができる最適化問題である。 この定式化は, サンプルの固定数を等重数で選択する特別な場合, すなわち, サンプルのより小さな代表部分集合を選択する問題を含む。 この問題は組合せ的であり凸ではないものの、凸最適化に基づくヒューリスティックな手法は非常にうまく機能しているように見える。 本稿では,提案するアイデアのオープンソース実装であるrswについて述べるとともに,CDC BRFSSデータセットのスキューサンプルに適用する。

We consider the problem of assigning weights to a set of samples or data records, with the goal of achieving a representative weighting, which happens when certain sample averages of the data are close to prescribed values. We frame the problem of finding representative sample weights as an optimization problem, which in many cases is convex and can be efficiently solved. Our formulation includes as a special case the selection of a fixed number of the samples, with equal weights, i.e., the problem of selecting a smaller representative subset of the samples. While this problem is combinatorial and not convex, heuristic methods based on convex optimization seem to perform very well. We describe rsw, an open-source implementation of the ideas described in this paper, and apply it to a skewed sample of the CDC BRFSS dataset.
翻訳日:2022-12-01 23:22:18 公開日:2020-05-18
# 人物再同定のための階層的・効率的学習

Hierarchical and Efficient Learning for Person Re-Identification ( http://arxiv.org/abs/2005.08812v1 )

ライセンス: Link先を確認
Jiangning Zhang, Liang Liu, Chao Xu, Yong Liu(参考訳) 個人再識別タスクにおける最近の作業は、主にモデルの精度に焦点を合わせながら、例えば、実用上重要なモデルサイズや遅延といった効率性に関連する要因を無視している。 本稿では,階層的大域的,部分的,リカバリ的特徴を学習する新しい階層的かつ効率的なネットワーク (henet) を提案する。 そこで本研究では,不規則咬合に対するロバスト性をさらに高めるために,入力画像の不規則領域をランダムに消去して身体部分を模倣する,ランダムポリゴン消去(rpe)と呼ばれる新しいデータセット拡張手法を提案する。 また,モデル効率を評価するための効率スコア(es)指標を提案する。 Market1501、DukeMTMC-ReID、CUHK03データセットの大規模な実験は、画期的な手法と比較して、我々のアプローチの効率性と優位性を示している。

Recent works in the person re-identification task mainly focus on the model accuracy while ignore factors related to the efficiency, e.g. model size and latency, which are critical for practical application. In this paper, we propose a novel Hierarchical and Efficient Network (HENet) that learns hierarchical global, partial, and recovery features ensemble under the supervision of multiple loss combinations. To further improve the robustness against the irregular occlusion, we propose a new dataset augmentation approach, dubbed Random Polygon Erasing (RPE), to random erase irregular area of the input image for imitating the body part missing. We also propose an Efficiency Score (ES) metric to evaluate the model efficiency. Extensive experiments on Market1501, DukeMTMC-ReID, and CUHK03 datasets shows the efficiency and superiority of our approach compared with epoch-making methods.
翻訳日:2022-12-01 23:21:06 公開日:2020-05-18
# 奥深い暗黙のボリューム圧縮

Deep Implicit Volume Compression ( http://arxiv.org/abs/2005.08877v1 )

ライセンス: Link先を確認
Danhang Tang and Saurabh Singh and Philip A. Chou and Christian Haene and Mingsong Dou and Sean Fanello and Jonathan Taylor and Philip Davidson and Onur G. Guleryuz and Yinda Zhang and Shahram Izadi and Andrea Tagliasacchi and Sofien Bouaziz and Cem Keskin(参考訳) 本稿では,3次元ボクセル格子に格納されたTSDF(truncated signed distance field)の圧縮手法とそのテクスチャについて述べる。 TSDFを圧縮するには、ブロックベースのニューラルネットワークアーキテクチャをエンドツーエンドで訓練し、最先端の速度歪みトレードオフを実現する。 トポロジカルエラーを防止するため, TSDFの符号を無作為に圧縮した。 対応するテクスチャを圧縮するために,既存のビデオ圧縮アルゴリズムを用いて効果的に圧縮可能なコヒーレントテクスチャマップを生成する高速ブロックベースのUVパラメータ化を設計した。 2つの4dパフォーマンスキャプチャデータセットにおけるアルゴリズムの性能を実証し、同じ歪みに対してビットレートを66%削減するか、あるいは同じビットレートで50%削減するかを、最先端と比較した。

We describe a novel approach for compressing truncated signed distance fields (TSDF) stored in 3D voxel grids, and their corresponding textures. To compress the TSDF, our method relies on a block-based neural network architecture trained end-to-end, achieving state-of-the-art rate-distortion trade-off. To prevent topological errors, we losslessly compress the signs of the TSDF, which also upper bounds the reconstruction error by the voxel size. To compress the corresponding texture, we designed a fast block-based UV parameterization, generating coherent texture maps that can be effectively compressed using existing video compression algorithms. We demonstrate the performance of our algorithms on two 4D performance capture datasets, reducing bitrate by 66% for the same distortion, or alternatively reducing the distortion by 50% for the same bitrate, compared to the state-of-the-art.
翻訳日:2022-12-01 23:20:52 公開日:2020-05-18
# Deep Snow: 生成する逆数ネットによるリモートセンシング画像の合成

Deep Snow: Synthesizing Remote Sensing Imagery with Generative Adversarial Nets ( http://arxiv.org/abs/2005.08892v1 )

ライセンス: Link先を確認
Christopher X. Ren, Amanda Ziemann, James Theiler, Alice M. S. Durieux(参考訳) 本研究では,非ペアトレーニング環境においても,リモートセンシング画像の現実的な広汎性変化を生成するために,gans(generative adversarial network)が利用可能であることを実証する。 本稿では、生成画像と実画像の深い埋め込みに基づく変換品質指標について検討し、GANのトレーニングダイナミクスの可視化と理解を可能にし、生成画像が実画像とどの程度区別可能であるかの定量化に有用な指標を提供する。 また,生成した画像にganが導入したアーティファクトを識別することで,実際のサンプルと生成したサンプルが知覚的に類似している場合であっても,深層埋め込み特徴空間における実サンプルと生成サンプルの差異に寄与する可能性が示唆された。

In this work we demonstrate that generative adversarial networks (GANs) can be used to generate realistic pervasive changes in remote sensing imagery, even in an unpaired training setting. We investigate some transformation quality metrics based on deep embedding of the generated and real images which enable visualization and understanding of the training dynamics of the GAN, and may provide a useful measure in terms of quantifying how distinguishable the generated images are from real images. We also identify some artifacts introduced by the GAN in the generated images, which are likely to contribute to the differences seen between the real and generated samples in the deep embedding feature space even in cases where the real and generated samples appear perceptually similar.
翻訳日:2022-12-01 23:20:35 公開日:2020-05-18
# ハイブリッドDNN:混合入力のためのハイブリッドディープニューラルネットワーク

Hybrid-DNNs: Hybrid Deep Neural Networks for Mixed Inputs ( http://arxiv.org/abs/2005.08419v1 )

ライセンス: Link先を確認
Zhenyu Yuan, Yuxin Jiang, Jingjing Li, Handong Huang(参考訳) ビッグデータと高性能コンピューティングの急速な発展は、地球科学における深層学習の爆発的な研究を促している。 しかし、ほとんどの研究はシングルタイプデータのみを入力としており、貴重なマルチソース・マルチスケール情報を取り除いている。 混合入力をサポートするために,ハイブリッドディープニューラルネットワーク(HDNN)の汎用アーキテクチャを開発した。 特徴学習と目標学習の組み合わせとして,提案したネットワークは,高階層の特徴抽出と深層データマイニングに優れた能力を提供する。 さらに、ハイブリッドアーキテクチャは複数のネットワークの集約であり、優れた柔軟性と幅広い適用性を示している。 複数のネットワークの構成はアプリケーションタスクに依存し、入力やターゲットによって異なる。 貯留層生産予測に集中して、特定のhdnnモデルを構成し、石油開発ブロックに適用する。 炭化水素生産への貢献、コア写真、ロギング画像と曲線を考えると、地質学的および工学的パラメータはすべて入力として扱うことができる。 プリプロセッシング後、混合入力を正規サンプリング構造および数値データとして作成する。 特徴学習のために、畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)ネットワークは、構造的および数値的な入力を別々に処理するように構成されている。 学習された機能は結合され、ターゲットとなる学習のために後続のネットワークに供給される。 典型的なmlpモデルとcnnモデルとの比較は、hdnnモデルの精度と一般化が優れていることを強調する。

Rapid development of big data and high-performance computing have encouraged explosive studies of deep learning in geoscience. However, most studies only take single-type data as input, frittering away invaluable multisource, multi-scale information. We develop a general architecture of hybrid deep neural networks (HDNNs) to support mixed inputs. Regarding as a combination of feature learning and target learning, the new proposed networks provide great capacity in high-hierarchy feature extraction and in-depth data mining. Furthermore, the hybrid architecture is an aggregation of multiple networks, demonstrating good flexibility and wide applicability. The configuration of multiple networks depends on application tasks and varies with inputs and targets. Concentrating on reservoir production prediction, a specific HDNN model is configured and applied to an oil development block. Considering their contributions to hydrocarbon production, core photos, logging images and curves, geologic and engineering parameters can all be taken as inputs. After preprocessing, the mixed inputs are prepared as regular-sampled structural and numerical data. For feature learning, convolutional neural networks (CNN) and multilayer perceptron (MLP) network are configured to separately process structural and numerical inputs. Learned features are then concatenated and fed to subsequent networks for target learning. Comparison with typical MLP model and CNN model highlights the superiority of proposed HDNN model with high accuracy and good generalization.
翻訳日:2022-12-01 23:14:21 公開日:2020-05-18
# Parsimonious Computing: 大規模マイクロアレイ表現データセットにおける効果的な予測のためのマイノリティトレーニングレジーム

Parsimonious Computing: A Minority Training Regime for Effective Prediction in Large Microarray Expression Data Sets ( http://arxiv.org/abs/2005.08442v1 )

ライセンス: Link先を確認
Shailesh Sridhar, Snehanshu Saha, Azhar Shaikh, Rahul Yedida, Sriparna Saha(参考訳) 浅層ニューラルネットワークのバックプロパゲーションに使用される学習率の厳密な数学的調査が不可欠である。 これは、理論的背景から実験的証拠が支持される必要があるためである。 このような理論は、望ましい結果を達成するための実験の量を減らすのに役立つかもしれない。 浅層ニューラルネットワークにおける学習率の計算には,Lipschitz 連続である Mean Square Error の機能的特性を利用した。 当社のアプローチは、特に大量のデータを扱う必要がある場合、チューニングの労力を削減します。 文献で報告されている予測精度を上回りながら,計算コストの節減を著しく改善する。 ここで提案された学習率は、リプシッツ定数の逆数である。 その結果、限られた計算資源に制約された浅いアーキテクチャを持つ大規模マイクロアレイデータセット上で遺伝子発現推定を行う新しい方法が得られた。 データセットのランダムなサブサンプリング,適応型リプシッツ定数インスパイア学習率,新たなアクティベーション関数,A-ReLUを組み合わせることで,論文で報告された結果の達成に寄与した。

Rigorous mathematical investigation of learning rates used in back-propagation in shallow neural networks has become a necessity. This is because experimental evidence needs to be endorsed by a theoretical background. Such theory may be helpful in reducing the volume of experimental effort to accomplish desired results. We leveraged the functional property of Mean Square Error, which is Lipschitz continuous to compute learning rate in shallow neural networks. We claim that our approach reduces tuning efforts, especially when a significant corpus of data has to be handled. We achieve remarkable improvement in saving computational cost while surpassing prediction accuracy reported in literature. The learning rate, proposed here, is the inverse of the Lipschitz constant. The work results in a novel method for carrying out gene expression inference on large microarray data sets with a shallow architecture constrained by limited computing resources. A combination of random sub-sampling of the dataset, an adaptive Lipschitz constant inspired learning rate and a new activation function, A-ReLU helped accomplish the results reported in the paper.
翻訳日:2022-12-01 23:14:01 公開日:2020-05-18
# DENS-ECG:ECG信号記述のための深層学習手法

DENS-ECG: A Deep Learning Approach for ECG Signal Delineation ( http://arxiv.org/abs/2005.08689v1 )

ライセンス: Link先を確認
Abdolrahman Peimankar and Sadasivan Puthusserypady(参考訳) 目的:遠隔医療モニタリングの分野での技術進歩により、心電図(ECG)のような膨大な電気生理学的信号を集めることが可能になった。 したがって、これらの膨大なデータをリアルタイムに分析できるモデル/アルゴリズムを開発する必要がある。 本稿では,心拍のリアルタイムセグメンテーションのためのディープラーニングモデルを提案する。 提案手法はdens-ecgアルゴリズムと呼ばれ、畳み込みニューラルネットワーク(cnn)とlong short-term memory(lstm)モデルを組み合わせてp波、qrs複合体、t波、no波(nw)などの異なる心拍波形の開始、ピーク、オフセットを検出する。 ecgを入力として使用すると、トレーニングプロセスを通じて高レベルの特徴を抽出することが学習される。 結果:提案したDENS-ECGモデルは,長さ15分105ECGのデータセットを用いて,それぞれ97.95%と95.68%の平均感度と精度を5倍のクロス検証を用いて評価した。 さらに、qrs検出のロバスト性を調べるために、未発見のデータセットでモデルを評価し、99.61%の感度と99.52%の精度を得た。 結論: 実験結果からECG信号デライン化のためのCNN-LSTMモデルの柔軟性と精度が示された。 意義:本稿では,リアルタイム遠隔医療モニタリングシステムで使用可能な心拍動分節化のための,ディープラーニングを用いた効率的で使いやすいアプローチを提案する。

Objectives: With the technological advancements in the field of tele-health monitoring, it is now possible to gather huge amounts of electro-physiological signals such as electrocardiogram (ECG). It is therefore necessary to develop models/algorithms that are capable of analysing these massive amounts of data in real-time. This paper proposes a deep learning model for real-time segmentation of heartbeats. Methods: The proposed algorithm, named as the DENS-ECG algorithm, combines convolutional neural network (CNN) and long short-term memory (LSTM) model to detect onset, peak, and offset of different heartbeat waveforms such as the P-wave, QRS complex, T-wave, and No wave (NW). Using ECG as the inputs, the model learns to extract high level features through the training process, which, unlike other classical machine learning based methods, eliminates the feature engineering step. Results: The proposed DENS-ECG model was trained and validated on a dataset with 105 ECGs of length 15 minutes each and achieved an average sensitivity and precision of 97.95% and 95.68%, respectively, using a 5-fold cross validation. Additionally, the model was evaluated on an unseen dataset to examine its robustness in QRS detection, which resulted in a sensitivity of 99.61% and precision of 99.52%. Conclusion: The empirical results show the flexibility and accuracy of the combined CNN-LSTM model for ECG signal delineation. Significance: This paper proposes an efficient and easy to use approach using deep learning for heartbeat segmentation, which could potentially be used in real-time tele-health monitoring systems.
翻訳日:2022-12-01 23:12:50 公開日:2020-05-18
# 時相血糖プロファイルを用いた早期糖尿病診断のための機械学習

Machine learning for the diagnosis of early stage diabetes using temporal glucose profiles ( http://arxiv.org/abs/2005.08701v1 )

ライセンス: Link先を確認
Woo Seok Lee, Junghyo Jo, and Taegeun Song(参考訳) 機械学習は、データのパターンを認識することに顕著な成功を示している。 本稿では,早期糖尿病の診断に機械学習(ML)を適用する。 血糖値はインスリンとグルカゴンの2つの抗調節ホルモンによって強く制御され、グルコースのホメオスタシスの不全は共通の代謝疾患である糖尿病につながる。 長い潜伏期間を持つ慢性疾患で、早期に疾患の検出が複雑になる。 糖尿病の大多数はインスリン作用の効果を低下させる結果である。 インスリン抵抗性は、血糖値の時間的プロファイルを変更する必要がある。 そこで我々は,グルコース濃度の時間的変化をmlを用いて検出する手法を提案する。 十分な解像度のグルコースの時系列データは現在入手できないので,糖調節とホルモン作用を考慮した生体物理モデルにより生成したグルコースプロファイルの合成データを用いて,本提案を裏付ける。 マルチ層パーセプトロン,畳み込みニューラルネットワーク,リカレントニューラルネットワークはいずれも高い精度でインスリン抵抗の程度を同定した。

Machine learning shows remarkable success for recognizing patterns in data. Here we apply the machine learning (ML) for the diagnosis of early stage diabetes, which is known as a challenging task in medicine. Blood glucose levels are tightly regulated by two counter-regulatory hormones, insulin and glucagon, and the failure of the glucose homeostasis leads to the common metabolic disease, diabetes mellitus. It is a chronic disease that has a long latent period the complicates detection of the disease at an early stage. The vast majority of diabetics result from that diminished effectiveness of insulin action. The insulin resistance must modify the temporal profile of blood glucose. Thus we propose to use ML to detect the subtle change in the temporal pattern of glucose concentration. Time series data of blood glucose with sufficient resolution is currently unavailable, so we confirm the proposal using synthetic data of glucose profiles produced by a biophysical model that considers the glucose regulation and hormone action. Multi-layered perceptrons, convolutional neural networks, and recurrent neural networks all identified the degree of insulin resistance with high accuracy above $85\%$.
翻訳日:2022-12-01 23:12:22 公開日:2020-05-18
# 自動関連判定のためのスパース法

Sparse Methods for Automatic Relevance Determination ( http://arxiv.org/abs/2005.08741v1 )

ライセンス: Link先を確認
Samuel H. Rudy and Themistoklis P. Sapsis(参考訳) 本研究は, ベイズ回帰におけるスパーシティを非線形システム同定に応用するための手法について検討する。 まず,自動関連判定(ard)をレビューし,スパースモデルを達成するために追加の正規化やしきい値化の必要性を解析的に示す。 次に、正規化ベースとしきい値ベースという2つの手法のクラスについて論じる。 直交共変量の場合, スパース解を持つ線形系において, 少数の活性項の学習に関して, 解析的に良好な性能を示す。 提案手法の集合を、数百の要素を持つベースにおけるARDの利点と制限の観点から比較するために、いくつかの例を提示する。 本論文の目的は,複数のアルゴリズムに結びつく仮定を分析し,理解し,理論的および経験的結果を提供することであり,読者はスパースベイズ回帰に関する洞察を得て,よりインフォームドな選択を行うことである。

This work considers methods for imposing sparsity in Bayesian regression with applications in nonlinear system identification. We first review automatic relevance determination (ARD) and analytically demonstrate the need to additional regularization or thresholding to achieve sparse models. We then discuss two classes of methods, regularization based and thresholding based, which build on ARD to learn parsimonious solutions to linear problems. In the case of orthogonal covariates, we analytically demonstrate favorable performance with regards to learning a small set of active terms in a linear system with a sparse solution. Several example problems are presented to compare the set of proposed methods in terms of advantages and limitations to ARD in bases with hundreds of elements. The aim of this paper is to analyze and understand the assumptions that lead to several algorithms and to provide theoretical and empirical results so that the reader may gain insight and make more informed choices regarding sparse Bayesian regression.
翻訳日:2022-12-01 23:12:05 公開日:2020-05-18
# 畳み込みニューラルネットワークを用いた階層学習

Learn Class Hierarchy using Convolutional Neural Networks ( http://arxiv.org/abs/2005.08622v1 )

ライセンス: Link先を確認
Riccardo La Grassa, Ignazio Gallo, Nicola Landro(参考訳) 畳み込みニューラルネットワークに関する多くの研究は、マルチクラスドメインのフラット分類に焦点を当てている。 実世界では、多くの問題は階層的な分類の問題として自然に表され、予測されるクラスはクラス階層で整理される。 本稿では,クロスエントロピー損失関数と中心損失を組み合わせた深層線形層を導入し,階層的な画像分類のための新しいアーキテクチャを提案する。 提案アーキテクチャは、任意のニューラルネットワークモデルを拡張し、損失関数を同時に最適化し、局所階層的なクラス関係と損失関数を発見し、クラス階層の違反をペナルライズしながらクラス階層全体からグローバル情報を検出する。 コンピュータビジョンタスクに応用する従来の分類手法に対して,階層的分類器の利点を実験的に示す。

A large amount of research on Convolutional Neural Networks has focused on flat Classification in the multi-class domain. In the real world, many problems are naturally expressed as problems of hierarchical classification, in which the classes to be predicted are organized in a hierarchy of classes. In this paper, we propose a new architecture for hierarchical classification of images, introducing a stack of deep linear layers with cross-entropy loss functions and center loss combined. The proposed architecture can extend any neural network model and simultaneously optimizes loss functions to discover local hierarchical class relationships and a loss function to discover global information from the whole class hierarchy while penalizing class hierarchy violations. We experimentally show that our hierarchical classifier presents advantages to the traditional classification approaches finding application in computer vision tasks.
翻訳日:2022-12-01 23:02:57 公開日:2020-05-18
# SIFTフローを用いたパッチベースカラー転送

Patch based Colour Transfer using SIFT Flow ( http://arxiv.org/abs/2005.09015v1 )

ライセンス: Link先を確認
Hana Alghamdi, Rozenn Dahyot(参考訳) 画像間の大きな動き変化を呈する同一シーンのターゲット画像の色に合わせて、ソース画像の色を転送するための最適なトランスポート(ot)を備えた新しい色転送法を提案する。 定義上、OTは最適な解を計算するときの対応について利用可能な情報を考慮していない。 そこで本研究では,その色と空間の対応関係を運動推定で推定し,重なり合う画素の画素を符号化する手法を提案する。 反復射影法による1次元空間における高次元問題を解く。 さらに, 最適輸送問題を解決するための反復的アルゴリズム, 反復分布輸送 (idt) とその変種であるスライスワッサースタイン距離 (swd) についても紹介する。 実験では, 従来の色転写法に比べて定量的, 定量的な改善が見られた。

We propose a new colour transfer method with Optimal Transport (OT) to transfer the colour of a sourceimage to match the colour of a target image of the same scene that may exhibit large motion changes betweenimages. By definition OT does not take into account any available information about correspondences whencomputing the optimal solution. To tackle this problem we propose to encode overlapping neighborhoodsof pixels using both their colour and spatial correspondences estimated using motion estimation. We solvethe high dimensional problem in 1D space using an iterative projection approach. We further introducesmoothing as part of the iterative algorithms for solving optimal transport namely Iterative DistributionTransport (IDT) and its variant the Sliced Wasserstein Distance (SWD). Experiments show quantitative andqualitative improvements over previous state of the art colour transfer methods.
翻訳日:2022-12-01 23:02:43 公開日:2020-05-18
# p-sif: partition averagingを用いたドキュメント埋め込み

P-SIF: Document Embeddings Using Partition Averaging ( http://arxiv.org/abs/2005.09069v1 )

ライセンス: Link先を確認
Vivek Gupta, Ankit Saw, Pegah Nokhiz, Praneeth Netrapalli, Piyush Rai, Partha Talukdar(参考訳) 単語ベクトルの単純な重み付け平均化は、多くのタスクで洗練されたseq2seqニューラルモデルよりも優れた文の効果的な表現をもたらす。 同じ手法で文書も表現することが望ましいが、残念ながら複数の文を含む長い文書を表現する場合の有効性は失われる。 主要な理由の1つは、長いドキュメントが多くの異なるトピックの単語を含む可能性が高いため、全てのトピック構造を無視しながら単一のベクトルを作成することは、効果的なドキュメント表現をもたらすことはありそうにない。 この問題は、単一の話題が存在する可能性が最も高い、単文や他の短い文章断片において、それほど深刻ではない。 この問題を軽減するために、長い文書を表す分割語平均化モデルであるP-SIFを提案する。 P-SIFは、文書のトピック構造を考慮して、単純な重み付き単語平均化の単純さを維持している。 特に、P-SIFは文書からトピック固有のベクトルを学習し、最終的にそれらを全て結合してドキュメント全体を表現する。 P-SIFの正当性を理論的に正当化する。 総合的な実験を通して,P-SIFの有効性を,単純な重み付け平均化や他の多くのベースラインと比較した。

Simple weighted averaging of word vectors often yields effective representations for sentences which outperform sophisticated seq2seq neural models in many tasks. While it is desirable to use the same method to represent documents as well, unfortunately, the effectiveness is lost when representing long documents involving multiple sentences. One of the key reasons is that a longer document is likely to contain words from many different topics; hence, creating a single vector while ignoring all the topical structure is unlikely to yield an effective document representation. This problem is less acute in single sentences and other short text fragments where the presence of a single topic is most likely. To alleviate this problem, we present P-SIF, a partitioned word averaging model to represent long documents. P-SIF retains the simplicity of simple weighted word averaging while taking a document's topical structure into account. In particular, P-SIF learns topic-specific vectors from a document and finally concatenates them all to represent the overall document. We provide theoretical justifications on the correctness of P-SIF. Through a comprehensive set of experiments, we demonstrate P-SIF's effectiveness compared to simple weighted averaging and many other baselines.
翻訳日:2022-12-01 22:55:48 公開日:2020-05-18
# コンテキスト埋め込み: いつ価値があるのか?

Contextual Embeddings: When Are They Worth It? ( http://arxiv.org/abs/2005.09117v1 )

ライセンス: Link先を確認
Simran Arora, Avner May, Jian Zhang, Christopher R\'e(参考訳) 本稿では,従来の事前学習型埋め込み(GloVeなど)と比較して,深層文脈埋め込み(BERTなど)が性能を大幅に向上させる条件と,トレーニングセットサイズとタスクの言語特性に焦点をあてた,より単純なベースライン(ランダム単語埋め込み)について検討する。 驚くべきことに、これらの単純なベースラインは、業界規模のデータへのコンテキスト埋め込みと一致し、しばしばベンチマークタスクで5~10%の精度(絶対)で実行可能である。 さらに,複雑な構造を持つ言語,あいまいな単語使用,学習において見当たらない単語など,文脈埋め込みが特に大きな利益をもたらすデータの特性を同定する。

We study the settings for which deep contextual embeddings (e.g., BERT) give large improvements in performance relative to classic pretrained embeddings (e.g., GloVe), and an even simpler baseline---random word embeddings---focusing on the impact of the training set size and the linguistic properties of the task. Surprisingly, we find that both of these simpler baselines can match contextual embeddings on industry-scale data, and often perform within 5 to 10% accuracy (absolute) on benchmark tasks. Furthermore, we identify properties of data for which contextual embeddings give particularly large gains: language containing complex structure, ambiguous word usage, and words unseen in training.
翻訳日:2022-12-01 22:55:30 公開日:2020-05-18
# サイバー物理システムモデルのための鉱業環境仮定

Mining Environment Assumptions for Cyber-Physical System Models ( http://arxiv.org/abs/2005.08435v1 )

ライセンス: Link先を確認
Sara Mohammadinejad, Jyotirmoy V. Deshmukh, Aniruddh G. Puranic(参考訳) 多くの複雑なサイバー物理システムは、リアルタイムで相互に相互作用する異種成分としてモデル化することができる。 本稿では,各コンポーネントの正しさを,各コンポーネントが生成する出力信号に満足する要件として指定し,信号テンポラル論理(STL)などのリアルタイム時相論理でその出力保証を表現できることを仮定する。 本稿では,対応する出力信号が出力要求を満たす入力信号の大規模なサブセットを,環境仮定と呼ぶSTL式を用いてコンパクトに記述することができることを仮定する。 教師付き学習手法を用いて,そのような環境仮定をマイニングするアルゴリズムを提案する。 基本的に,本アルゴリズムは環境仮定を,対応する出力信号が出力要求を満たす場合の入力信号を良好にラベル付けする分類器として扱う。 我々の学習方法は,STL式の構造と,式に現れる数値定数の値を同時に学習する。 そこで本研究では,PSTL(Parametric STL)の公式を体系的に列挙する手法と,パラメータ値の学習のための決定木に基づくアプローチを組み合わせる。 本研究では、交通や医療など複数の分野の現実データに関する実験結果を示す。

Many complex cyber-physical systems can be modeled as heterogeneous components interacting with each other in real-time. We assume that the correctness of each component can be specified as a requirement satisfied by the output signals produced by the component, and that such an output guarantee is expressed in a real-time temporal logic such as Signal Temporal Logic (STL). In this paper, we hypothesize that a large subset of input signals for which the corresponding output signals satisfy the output requirement can also be compactly described using an STL formula that we call the environment assumption. We propose an algorithm to mine such an environment assumption using a supervised learning technique. Essentially, our algorithm treats the environment assumption as a classifier that labels input signals as good if the corresponding output signal satisfies the output requirement, and as bad otherwise. Our learning method simultaneously learns the structure of the STL formula as well as the values of the numeric constants appearing in the formula. To achieve this, we combine a procedure to systematically enumerate candidate Parametric STL (PSTL) formulas, with a decision-tree based approach to learn parameter values. We demonstrate experimental results on real world data from several domains including transportation and health care.
翻訳日:2022-12-01 22:54:50 公開日:2020-05-18
# 確率線形帯域を用いたメタラーニング

Meta-learning with Stochastic Linear Bandits ( http://arxiv.org/abs/2005.08531v1 )

ライセンス: Link先を確認
Leonardo Cella, Alessandro Lazaric, Massimiliano Pontil(参考訳) 確率線形バンディット課題の設定におけるメタラーニング手法について検討する。 目的は,タスク分布からサンプリングした帯域幅タスクのクラスに対して,平均的に動作する学習アルゴリズムを選択することである。 学習から学習への線形回帰に関する最近の研究に触発されて、よく知られたオフルアルゴリズムの正規化バージョンを実装したバンディットアルゴリズムのクラスを検討し、正規化はバイアスベクトルへの正方形ユークリッド距離である。 まず,後悔の最小化の観点からバイアス付きオウルアルゴリズムの利点について検討した。 次に,学習から学習までのバイアスを推定する2つの手法を提案する。 我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。

We investigate meta-learning procedures in the setting of stochastic linear bandits tasks. The goal is to select a learning algorithm which works well on average over a class of bandits tasks, that are sampled from a task-distribution. Inspired by recent work on learning-to-learn linear regression, we consider a class of bandit algorithms that implement a regularized version of the well-known OFUL algorithm, where the regularization is a square euclidean distance to a bias vector. We first study the benefit of the biased OFUL algorithm in terms of regret minimization. We then propose two strategies to estimate the bias within the learning-to-learn setting. We show both theoretically and experimentally, that when the number of tasks grows and the variance of the task-distribution is small, our strategies have a significant advantage over learning the tasks in isolation.
翻訳日:2022-12-01 22:53:32 公開日:2020-05-18
# 遺伝的プログラミングを適用した機械学習モデルの解釈性向上

Applying Genetic Programming to Improve Interpretability in Machine Learning Models ( http://arxiv.org/abs/2005.09512v1 )

ライセンス: Link先を確認
Leonardo Augusto Ferreira and Frederico Gadelha Guimar\~aes and Rodrigo Silva(参考訳) 説明可能な人工知能(xAI)は、機械学習とディープラーニングの分野で重要な研究トピックとなっている。 本稿では,AIシステムによって計算される決定を説明する問題に対して,GPX(Genematic Programming Explainer)という遺伝的プログラミングに基づくアプローチを提案する。 本手法は,関心点近傍に位置する雑音セットを生成し,その予測を説明するとともに,解析試料の局所的説明モデルに適合させる。 GPXによって生成された木構造は、複素モデルの局所的な振る舞いを反映した理解可能な解析的、おそらく非線形で象徴的な表現を提供する。 我々は,ランダムフォレスト,ディープニューラルネットワーク,サポートベクターマシンという,複雑なブラックボックスモデルとして認識可能な3つの機械学習手法を検討した。 以上の結果から,GPXは技術状況よりも複雑なモデルのより正確な理解を実現できることが示唆された。 提案手法は,解釈可能性向上のためのGPの展開方法として検証された。

Explainable Artificial Intelligence (or xAI) has become an important research topic in the fields of Machine Learning and Deep Learning. In this paper, we propose a Genetic Programming (GP) based approach, named Genetic Programming Explainer (GPX), to the problem of explaining decisions computed by AI systems. The method generates a noise set located in the neighborhood of the point of interest, whose prediction should be explained, and fits a local explanation model for the analyzed sample. The tree structure generated by GPX provides a comprehensible analytical, possibly non-linear, symbolic expression which reflects the local behavior of the complex model. We considered three machine learning techniques that can be recognized as complex black-box models: Random Forest, Deep Neural Network and Support Vector Machine in twenty data sets for regression and classifications problems. Our results indicate that the GPX is able to produce more accurate understanding of complex models than the state of the art. The results validate the proposed approach as a novel way to deploy GP to improve interpretability.
翻訳日:2022-12-01 22:46:31 公開日:2020-05-18
# 問題形式独立な数値推論に向けて:一組の前提課題

Towards Question Format Independent Numerical Reasoning: A Set of Prerequisite Tasks ( http://arxiv.org/abs/2005.08516v1 )

ライセンス: Link先を確認
Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva and Chitta Baral(参考訳) 数値推論は世界を正確に理解するためにしばしば重要である。 近年、自然言語推論(NLI)、読解理解(RC)、質問回答(QA)の設定における数値推論など、形式固有のデータセットが提案されている。 これらのデータセットに対応するいくつかのフォーマット固有のモデルとアーキテクチャも提案されている。 しかし、疑問形式に依存しない数値推論を行う際に、モデルの能力を評価することのできるベンチマークが強く必要である。 (i)我々が教えたい数値推論能力は質問形式によって制御されない。 (ii) 数値推論技術が最高のアプリケーションを持つためには、単一のフォーマット、タスク、データセット、ドメインに限らない方法で言語と推論を処理できなければならない。 この目的を追求するために,多面的ベンチマークである numbergame を導入し,8つの多様な形式の数値推論タスクにおけるモデル性能を評価する。 コンパイルに既存の4つの質問タイプを追加します。 新たに追加された2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。 より実用的な数値推論システムを構築するために、numbergameは数値推論以外の4つの能力を要求する。 (i)データから直接質問形式を検出すること (ii)すべてのフォーマットを変換できる中間共通フォーマットを見つけること (iii)常識知識を組み込んだもの (4) フォーマット間のデータの不均衡を扱う。 ドキュシートを用いた知識探索に基づく新しいモデルを含む,いくつかのベースラインを構築した。 しかしながら、すべてのベースラインは人間のベースラインとは対照的に性能が悪く、ベンチマークの難しさを示している。 我々の研究は、これらの未探索タスクの範囲を実証し、ジェネリックシステム開発における最近の進歩を推し進めている。

Numerical reasoning is often important to accurately understand the world. Recently, several format-specific datasets have been proposed, such as numerical reasoning in the settings of Natural Language Inference (NLI), Reading Comprehension (RC), and Question Answering (QA). Several format-specific models and architectures in response to those datasets have also been proposed. However, there exists a strong need for a benchmark which can evaluate the abilities of models, in performing question format independent numerical reasoning, as (i) the numerical reasoning capabilities we want to teach are not controlled by question formats, (ii) for numerical reasoning technology to have the best possible application, it must be able to process language and reason in a way that is not exclusive to a single format, task, dataset or domain. In pursuit of this goal, we introduce NUMBERGAME, a multifaceted benchmark to evaluate model performance across numerical reasoning tasks of eight diverse formats. We add four existing question types in our compilation. Two of the new types we add are about questions that require external numerical knowledge, commonsense knowledge and domain knowledge. For building a more practical numerical reasoning system, NUMBERGAME demands four capabilities beyond numerical reasoning: (i) detecting question format directly from data (ii) finding intermediate common format to which every format can be converted (iii) incorporating commonsense knowledge (iv) handling data imbalance across formats. We build several baselines, including a new model based on knowledge hunting using a cheatsheet. However, all baselines perform poorly in contrast to the human baselines, indicating the hardness of our benchmark. Our work takes forward the recent progress in generic system development, demonstrating the scope of these under-explored tasks.
翻訳日:2022-12-01 22:46:01 公開日:2020-05-18
# ベクトル量子化ボトルネックモデルのロバストトレーニング

Robust Training of Vector Quantized Bottleneck Models ( http://arxiv.org/abs/2005.08520v1 )

ライセンス: Link先を確認
Adrian {\L}a\'ncucki, Jan Chorowski, Guillaume Sanchez, Ricard Marxer, Nanxin Chen, Hans J.G.A. Dolfing, Sameer Khurana, Tanel Alum\"ae, Antoine Laurent(参考訳) 本稿では,Vector-Quantized Variational Auto-Encoder Model (VQ-VAEs) を用いた離散表現の信頼性と効率的な訓練方法を示す。 離散潜在変数モデルは、教師なし音声変換に適応し、単位発見タスクにおける最先端の性能に達する非自明な音声表現を学習することが示されている。 教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。 しかし、離散化演算の非微分性のため、深層離散変数モデルの訓練は困難である。 本稿では,最先端の離散ボトルネックモデルであるVQ-VAEに着目した。 オンライン$k$-meansクラスタリングでエンコーダ出力を定量化する。 コードブック学習は,クラスタ化エンコーダ出力の初期化や非定常性に悩まされる可能性がある。 コードブックの学習率と周期的な日付依存コードワードの再初期化を増加させることにより,これらを効果的に克服できることを実証する。 その結果,様々なタスクにまたがってより堅牢なトレーニングを実現し,大規模コードブックにおいても潜在コードワードの利用を大幅に増加させることができた。 これは例えば、大きなコードブックが潜在表現の絡み合いを生じさせる可能性がある教師なし表現学習において、実用的な利点がある。

In this paper we demonstrate methods for reliable and efficient training of discrete representation using Vector-Quantized Variational Auto-Encoder models (VQ-VAEs). Discrete latent variable models have been shown to learn nontrivial representations of speech, applicable to unsupervised voice conversion and reaching state-of-the-art performance on unit discovery tasks. For unsupervised representation learning, they became viable alternatives to continuous latent variable models such as the Variational Auto-Encoder (VAE). However, training deep discrete variable models is challenging, due to the inherent non-differentiability of the discretization operation. In this paper we focus on VQ-VAE, a state-of-the-art discrete bottleneck model shown to perform on par with its continuous counterparts. It quantizes encoder outputs with on-line $k$-means clustering. We show that the codebook learning can suffer from poor initialization and non-stationarity of clustered encoder outputs. We demonstrate that these can be successfully overcome by increasing the learning rate for the codebook and periodic date-dependent codeword re-initialization. As a result, we achieve more robust training across different tasks, and significantly increase the usage of latent codewords even for large codebooks. This has practical benefit, for instance, in unsupervised representation learning, where large codebooks may lead to disentanglement of latent representations.
翻訳日:2022-12-01 22:45:36 公開日:2020-05-18
# マルチスケール脳機能接続における深層学習とベイズ型深層学習に基づく性予測

Deep Learning and Bayesian Deep Learning Based Gender Prediction in Multi-Scale Brain Functional Connectivity ( http://arxiv.org/abs/2005.08431v1 )

ライセンス: Link先を確認
Gengyan Zhao, Gyujoon Hwang, Cole J. Cook, Fang Liu, Mary E. Meyerand and Rasmus M. Birn(参考訳) 脳の性別差は長い間知られており、男性と女性の間に多くの心理的、精神学的、行動的な違いがある可能性がある。 脳機能接続(FC)から性別を予測することは、脳の活動と性別の関係を構築し、予測モデルから重要な性別関連FC特徴を抽出することで、脳の性別差を調査する方法を提供する。 性予測に適用された現在の予測モデルでは、良好な精度を示すが、接続マトリックス全体の接続パターンではなく、個々の機能的な接続を特徴として抽出する。 さらに、現在のモデルは入力脳のfcスケールが予測に与える影響を省略し、モデルの不確実性情報を与えることができないことが多い。 そこで本研究では,深層学習を用いた複数スケールの脳内FCから,完全なFCパターンを特徴として抽出できるジェンダーを予測することを提案する。 深層ニューラルネットワーク(DNN)における特徴抽出機構の理解を深め,その予測への貢献に基づいて重要な特徴を抽出するDNN特徴ランキング法を提案する。 さらに,確率モデルとして正確な予測を行うことができるだけでなく,予測毎にモデルの不確実性を生成する脳fc性予測にもベイズ深層学習を適用する。 高品質なHuman Connectome Project S1200リリースデータセット上で、1003人の健常成人の静止状態機能MRIデータを含む実験を行った。 まず、DNNは、それぞれ25,50,100,200,300の独立成分分析(ICA)成分から得られるFC入力と合わせて83.0%,87.6%,92.0%,93.5%,94.1%の精度に達する。 DNNは25-ICA-component scale FCで従来の機械学習手法より優れているが、ICAコンポーネントの数が増えるにつれて、線形機械学習手法が追いつく。

Brain gender differences have been known for a long time and are the possible reason for many psychological, psychiatric and behavioral differences between males and females. Predicting genders from brain functional connectivity (FC) can build the relationship between brain activities and gender, and extracting important gender related FC features from the prediction model offers a way to investigate the brain gender difference. Current predictive models applied to gender prediction demonstrate good accuracies, but usually extract individual functional connections instead of connectivity patterns in the whole connectivity matrix as features. In addition, current models often omit the effect of the input brain FC scale on prediction and cannot give any model uncertainty information. Hence, in this study we propose to predict gender from multiple scales of brain FC with deep learning, which can extract full FC patterns as features. We further develop the understanding of the feature extraction mechanism in deep neural network (DNN) and propose a DNN feature ranking method to extract the highly important features based on their contributions to the prediction. Moreover, we apply Bayesian deep learning to the brain FC gender prediction, which as a probabilistic model can not only make accurate predictions but also generate model uncertainty for each prediction. Experiments were done on the high-quality Human Connectome Project S1200 release dataset comprising the resting state functional MRI data of 1003 healthy adults. First, DNN reaches 83.0%, 87.6%, 92.0%, 93.5% and 94.1% accuracies respectively with the FC input derived from 25, 50, 100, 200, 300 independent component analysis (ICA) components. DNN outperforms the conventional machine learning methods on the 25-ICA-component scale FC, but the linear machine learning method catches up as the number of ICA components increases...
翻訳日:2022-12-01 22:44:49 公開日:2020-05-18
# 機械学習におけるプライバシの概要

An Overview of Privacy in Machine Learning ( http://arxiv.org/abs/2005.08679v1 )

ライセンス: Link先を確認
Emiliano De Cristofaro(参考訳) 過去数年間、Google、Microsoft、Amazonといったプロバイダは、顧客が簡単に機械学習タスクをアプリケーションに組み込めるように、ソフトウェアインターフェースへのアクセスを提供し始めている。 組織全体で、マシンラーニング・アズ・ア・サービス(MLaaS)エンジンを使用して、分類器のトレーニング、予測の実行、クラスタリングなどの複雑なタスクをアウトソースできるようになった。 また、データに基づいてトレーニングされたモデルを他の人にクエリさせることもできる。 当然、このアプローチは政府のコラボレーション、市民科学プロジェクト、ビジネスとビジネスのパートナーシップなど、他のコンテキストでも使われる(そしてしばしば推奨される)。 しかし、もし悪意のあるユーザーがこれらのモデルのトレーニングに使われたデータを復元できたら、その結果の情報漏洩は深刻な問題を引き起こすだろう。 同様に、モデルの内部パラメータがプロプライエタリな情報と見なされる場合、モデルへのアクセスは、敵がそのようなパラメータを学習することを許さない。 本論文では,この領域におけるプライバシー問題について,関連する研究文献の体系的レビューを行い,対策の可能性を探る。 具体的には、マシンラーニングとプライバシに関する関連する概念に関する十分なバックグラウンド情報を提供します。 そして、敵のモデルや設定について論じ、個人情報や機密情報漏洩に関連する幅広い攻撃をカバーし、そのような攻撃を防ごうとする最近の結果をレビューする。 最後に、より良い評価の必要性、よりターゲティングな防御の必要性、ポリシーとデータ保護の取り組みとの関係の研究など、より多くの作業を必要とするオープンな問題のリストで締めくくります。

Over the past few years, providers such as Google, Microsoft, and Amazon have started to provide customers with access to software interfaces allowing them to easily embed machine learning tasks into their applications. Overall, organizations can now use Machine Learning as a Service (MLaaS) engines to outsource complex tasks, e.g., training classifiers, performing predictions, clustering, etc. They can also let others query models trained on their data. Naturally, this approach can also be used (and is often advocated) in other contexts, including government collaborations, citizen science projects, and business-to-business partnerships. However, if malicious users were able to recover data used to train these models, the resulting information leakage would create serious issues. Likewise, if the inner parameters of the model are considered proprietary information, then access to the model should not allow an adversary to learn such parameters. In this document, we set to review privacy challenges in this space, providing a systematic review of the relevant research literature, also exploring possible countermeasures. More specifically, we provide ample background information on relevant concepts around machine learning and privacy. Then, we discuss possible adversarial models and settings, cover a wide range of attacks that relate to private and/or sensitive information leakage, and review recent results attempting to defend against such attacks. Finally, we conclude with a list of open problems that require more work, including the need for better evaluations, more targeted defenses, and the study of the relation to policy and data protection efforts.
翻訳日:2022-12-01 22:43:50 公開日:2020-05-18
# 局所距離近傍特徴を持つTorダークネットにおける名前付きエンティティ認識の改善

Improving Named Entity Recognition in Tor Darknet with Local Distance Neighbor Feature ( http://arxiv.org/abs/2005.08746v1 )

ライセンス: Link先を確認
Mhd Wesam Al-Nabki, Francisco Ja\~nez-Martino, Roberto A. Vasco-Carofilis, Eduardo Fidalgo, Javier Velasco-Mata(参考訳) 騒がしいユーザ生成テキストにおける名前のエンティティ認識は、通常、ガゼッタのような外部の情報資源を組み込むことによって強化される難しい作業である。 しかし、ガゼッタはタスク特有であり、構築やメンテナンスには費用がかかる。 本稿では,ガゼットを代替する「ローカル距離近傍」という新しい特徴を提示することで,アギラーらのアプローチを取り入れ,改善する。 我々は、w-nut-2017データセットで新しいアプローチをテストし、名前付きエンティティのグループ、人、製品カテゴリの最先端の結果を得た。 次に、W-NUT-2017データセットに手動でラベル付けされたサンプル851を加え、武器やドラッグ販売に関連するTor Darknetの名前を冠したエンティティを考慮に入れました。 最後に、この拡張データセットでエンティティとsurface f1スコアの52.96%と50.57%を達成し、法執行機関がtor隠れたサービスの中で名前付きエンティティを検出するのに役立つことを示した。

Name entity recognition in noisy user-generated texts is a difficult task usually enhanced by incorporating an external resource of information, such as gazetteers. However, gazetteers are task-specific, and they are expensive to build and maintain. This paper adopts and improves the approach of Aguilar et al. by presenting a novel feature, called Local Distance Neighbor, which substitutes gazetteers. We tested the new approach on the W-NUT-2017 dataset, obtaining state-of-the-art results for the Group, Person and Product categories of Named Entities. Next, we added 851 manually labeled samples to the W-NUT-2017 dataset to account for named entities in the Tor Darknet related to weapons and drug selling. Finally, our proposal achieved an entity and surface F1 scores of 52.96% and 50.57% on this extended dataset, demonstrating its usefulness for Law Enforcement Agencies to detect named entities in the Tor hidden services.
翻訳日:2022-12-01 22:43:07 公開日:2020-05-18