このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201114となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 導波路量子電磁力学における多次元超高次および準位 Multidimensional super- and subradiance in waveguide quantum electrodynamics ( http://arxiv.org/abs/2003.04906v2 ) ライセンス: Link先を確認 | Fatih Dinc, Lauren E. Hayward, Agata M. Bra\'nczyk | (参考訳) 本研究では,1次元導波路が交差する超矩形格子を形成する多次元量子ネットワークの集合的減衰率について検討する。
1次元の位相を持つ導波路(例えば、キュービットの線形鎖)との接続を通して、そのようなネットワークのすべての集合的減衰率を識別する \emph{dimensional reduction of poles} (drop) 予想を導入し、動機付けする。
dropを用いて、多次元量子ネットワークにおける超ラジアンス、サブラジアンス、境界状態などの多体効果を考察する。
1次元の線形鎖とは異なり、多次元量子ネットワークは異なるレベルで超レイダを持ち、これを多次元超レイダランスと呼ぶ。
さらに、線形チェーンにおけるサブラディアンスの$n^{-3}$スケーリングを$d$次元ネットワークに一般化する。 We study the collective decay rates of multi-dimensional quantum networks in which one-dimensional waveguides form an intersecting hyper-rectangular lattice, with qubits located at the lattice points. We introduce and motivate the \emph{dimensional reduction of poles} (DRoP) conjecture, which identifies all collective decay rates of such networks via a connection to waveguides with a one-dimensional topology (e.g. a linear chain of qubits). Using DRoP, we consider many-body effects such as superradiance, subradiance, and bound-states in continuum in multi-dimensional quantum networks. We find that, unlike one-dimensional linear chains, multi-dimensional quantum networks have superradiance in distinct levels, which we call multi-dimensional superradiance. Furthermore, we generalize the $N^{-3}$ scaling of subradiance in a linear chain to $d$-dimensional networks. | 翻訳日:2023-05-30 00:55:40 公開日:2020-11-14 |
# ゼロ温度及び非ゼロ温度でのかき混ぜによる「トラック」原子回路内の流れの生成 Producing flow in "racetrack" atom circuits by stirring at zero and non-zero temperature ( http://arxiv.org/abs/2004.04829v2 ) ライセンス: Link先を確認 | Benjamin Eller and Olatunde Oladehin and Daniel Fogarty and Clayton Heller and Charles W. Clark and Mark Edwards | (参考訳) 本研究では, ボース・アインシュタイン凝縮体において, 広い矩形障壁をかき混ぜることで, 軌跡電位に閉じ込められたマクロフローを生成できることを示す。
このポテンシャルは長さ$L$の直線チャネルで分離された2つの半円チャネルで構成され、$L=0$のリングポテンシャルである。
本研究では, バリア高さ, スター速度, レーストラック形状, 温度の異なる条件下で, バリアで凝縮したレーストラック凝縮物について, シミュレーションを行った。
その結果,リング状および非リング状ジオメトリーの循環は容易に生成できることがわかったが,正確な流量は複雑であった。
また, 旋回過程における流れのメカニズムについても検討した。
その結果, 収縮密度領域の凝縮物の逆流によって生成した渦対と反渦対の交換により循環が誘導されることが判明した。
バリア強度が臨界値に達すると、これらの渦-スワップ現象が高速に連続して発生し、循環の流速がバリアの旋回速度を超えるのに十分であった。
渦スワップに係わる渦に最初に局在した流れは,渦スワップ中に発生する乱のペアによって競馬場周辺のマクロな流れに変換された。
各対は、反スター方向に移動する渦/反渦対と、揺動方向に動く圧縮波からなる。
フローを作るメカニズムのこの図は、所望の量のフローを生み出すスケジュールをかき混ぜることを可能にします。 We present a study of how macroscopic flow can be produced in Bose-Einstein condensate confined in a "racetrack" potential by stirring with a wide rectangular barrier. This potential consists of two half-circle channels separated by straight channels of length $L$ and is a ring potential if $L=0$. We present the results of a large set of simulations where racetrack condensates stirred with a barrier under varying conditions of barrier height, stir speed, racetrack geometry, and temperature. We found that stirring was readily able to produce circulation in ring and non-ring geometries but that the exact amount of flow produced was complicated. We therefore also studied the mechanism by which flow was produced in the stirring process. We found that circulation was induced by the swap of a vortex/anti-vortex pair that was initially created by backflow of the condensate in the region of depressed density by the barrier. When the barrier strength reached a critical value a number of these vortex-swap events occurred in rapid succession so that flow speed of the circulation produced was enough to exceed the stir speed of the barrier. Flow that was initially localized in the vortices involved in the vortex swap was converted into macroscopic flow around the racetrack by pairs of disturbances each generated during the vortex swap. Each pair consisted of a vortex/anti-vortex pair moving in the anti-stir direction and a compression wave moving in the stir direction. This picture of the mechanism for making flow will enable the design of stirring schedules that create a desired amount of flow. | 翻訳日:2023-05-25 08:21:24 公開日:2020-11-14 |
# openMMF:マルチモード駆動量子システムのためのライブラリ openMMF: a library for multimode driven quantum systems ( http://arxiv.org/abs/2005.03426v2 ) ライセンス: Link先を確認 | German A. Sinuco-Le\'on | (参考訳) OPENMMFは、量子系の時間進化演算子を離散スペクトルで評価し、調和結合の任意の組み合わせによって駆動する数値ライブラリである。
時間進化作用素は多周波フーリエ展開として計算され、周波数領域 (Ho, Chu, Tietz, Ch) において時間依存のSchr\"{o}dinger方程式を表現する。
Phys
lett 96, 464 (1983) を参照。
このライブラリは、利用可能な計算資源のみに制限された任意のスペクトル構成でシステムを研究するための汎用的なツールを提供する。
OPENMMFは、ハミルトニアン系の密度とスパース行列表現を構築する機能と、マイクロモーション演算子や州人口の時間/位相平均などの物理量を計算する様々な機能を含んでいる。
このライブラリは多色駆動システムのための服装状態の一般化概念を使用している。
本稿では,OPENMMFの設計と機能について述べるとともに,その利用例を示し,適用範囲について論じる。
ライブラリはオブジェクト指向スタイルのFortran90で書かれており、C++とPython用のラッパーセットが含まれている。 OPENMMF is a numerical library designed to evaluate the Time-Evolution Operator of quantum systems with a discrete spectrum, and driven by an arbitrary combination of harmonic couplings. The time-evolution operator is calculated as a multifrequency Fourier expansion, which results from expressing the time-dependent Schr\"{o}dinger equation in the frequency domain (Ho, Chu and Tietz, Ch. Phys. Lett 96, 464 (1983)). The library provides a generic tool to study systems with arbitrary spectral composition, limited only by the available computational resources. OPENMMF includes functionalities to build dense and sparse matrix representations of the system Hamiltonian and various functions to calculate physical quantities such as the micromotion operator and time/phase average of state populations. The library uses a generalised notion of dressed state for systems with polychromatic driving. In this paper, we describe the design and functionality of OPENMMF, provide examples of its use and discuss its range of applicability. The library is written in object-oriented style Fortran90 and includes a set of wrappers for C++ and Python. | 翻訳日:2023-05-20 22:36:25 公開日:2020-11-14 |
# ハイブリッド電気機械プローブを用いた量子非退化光子計数 Quantum Nondemolition Photon Counting With a Hybrid Electromechanical Probe ( http://arxiv.org/abs/2008.11130v2 ) ライセンス: Link先を確認 | Junjie Liu and Hsing-Ta Chen and Dvira Segal | (参考訳) 量子非劣化(QND)測定は、量子光学と量子情報処理の分野において、非常に追求された試みである。
本稿では、共振器システムとQND光子計数用ハイブリッド電気機械プローブを統合するハイブリッド電気機械プラットフォームを提案する。
メカニカルモードを介する非摂動型電気光学分散結合を基盤として,プローブの電流電圧特性を用いてQND光子計数測定を行う。
特に、微分コンダクタンスのピーク電圧シフトは光子占有数に線形に依存していることを示し、特に強い光力学的結合状態において、光子数の感度測定を行う。
提案するハイブリッドシステムは最先端の実験技術と互換性があるので,量子光学や偏光子物理学への応用を期待する。 Quantum nondemolition (QND) measurements of photons is a much pursued endeavor in the field of quantum optics and quantum information processing. Here we propose a novel hybrid optoelectromechanical platform that integrates a cavity system with a hybrid electromechanical probe for QND photon counting. Building upon a mechanical-mode-mediated nonperturbative electro-optical dispersive coupling, our protocol performs the QND photon counting measurement by means of the current-voltage characteristics of the probe. In particular, we show that the peak voltage shift of the differential conductance is linearly dependent on the photon occupation number, thus providing a sensitive measure of the photon number, especially in the strong optomechanical coupling regime. Given that our proposed hybrid system is compatible with state-of-the-art experimental techniques, we discuss its implementations and anticipate applications in quantum optics and polariton physics. | 翻訳日:2023-05-04 23:51:29 公開日:2020-11-14 |
# 量子化散乱ハロの観測と制御 Observation and control of quantized scattering halos ( http://arxiv.org/abs/2009.09923v2 ) ライセンス: Link先を確認 | G. Chatelain, N. Dupont, M. Arnal, V. Brunaud, J. Billy, B. Peaudecerf, P. Schlagheck and D. Gu\'ery-Odelin | (参考訳) 光格子から放出されるボース・アインシュタイン凝縮体の運動量成分間の衝突によるs波散乱ハロの生成について検討する。
格子周期性は、ハロス半径の量子化に責任を持つ運動量コムに翻訳される。
我々は、格子内の原子動力学の精密な制御を通じて、これらのハロゲンの工学について報告する:我々は、与えられた質量中心と相対モーメントによって、衝突過程を具体的に強化することができる。
特に, 格子の運動量スケールの最大6倍の増大するモーメント成分間の量子化衝突ハロースを観測した。 We investigate the production of s-wave scattering halos from collisions between the momentum components of a Bose-Einstein condensate released from an optical lattice. The lattice periodicity translates in a momentum comb responsible for the quantization of the halos' radii. We report on the engineering of those halos through the precise control of the atom dynamics in the lattice: we are able to specifically enhance collision processes with given center-of-mass and relative momenta. In particular, we observe quantized collision halos between opposite momenta components of increasing magnitude, up to 6 times the characteristic momentum scale of the lattice. | 翻訳日:2023-05-01 11:21:28 公開日:2020-11-14 |
# 平面における任意配向双極子散乱の側面:短距離相互作用の影響 Aspects of arbitrarily oriented dipoles scattering in plane: short-range interaction influence ( http://arxiv.org/abs/2010.02336v2 ) ライセンス: Link先を確認 | Eugene A. Koval, Oksana A. Koval | (参考訳) 平面中の異方性双極子散乱の共鳴発生に及ぼす短距離相互作用の影響を任意配向双極子および広範囲の衝突エネルギーに対して数値的に検討した。
我々は2次元双極子散乱の断面の強い依存性を、硬壁電位とより現実的なレナード・ジョーンズポテンシャルによってモデル化された短距離相互作用の半径、および双極子の相互配向に明らかにした。
任意に配向された双極子の2番目の双極子の方向に応じて、1つの双極子の臨界(マジック)傾き角を定義した。
共鳴は、この角度を超える場合にのみ起こることが判明した。
3次元の場合とは対照的に、ボーソン(フェルミオン)2次元散乱断面積のエネルギー依存性は、共鳴の欠如によりエネルギーが減少すると共に増大(減少)する。
双極子の相互配向は3次元双極子散乱とは異なり、傾き角の増加とともに振動し始めるエネルギー依存性の形式に強く影響を及ぼすことを示した。
ボソンとフェルミオンの2次元双極子散乱における微分断面の角分布は、非共鳴点において非常に異方性である。
断面の正確な数値計算の結果は、ボルンおよびエイコナール近似で得られた結果とよく一致している。 The impact of the short-range interaction on the resonances occurrence in the anisotropic dipolar scattering in a plane was numerically investigated for the arbitrarily oriented dipoles and for a wide range of collision energies. We revealed the strong dependence of the cross section of the 2D dipolar scattering on the radius of short-range interaction, which is modeled by a hard wall potential and by the more realistic Lennard-Jones potential, and on the mutual orientations of the dipoles. We defined the critical (magic) tilt angle of one of the dipoles, depending on the direction of the second dipole for arbitrarily oriented dipoles. It was found that resonances arise only when this angle is exceeded. In contrast to the 3D case, the energy dependencies of the boson (fermion) 2D scattering cross section grows (is reduced) with an energy decrease in the absence of the resonances. We showed that the mutual orientation of dipoles strongly impacts the form of the energy dependencies, which begin to oscillate with the tilt angle increase, unlike the 3D dipolar scattering. The angular distributions of the differential cross section in the 2D dipolar scattering of both bosons and fermions are highly anisotropic at non-resonant points. The results of the accurate numerical calculations of the cross section agree well with the results obtained within the Born and eikonal approximations. | 翻訳日:2023-04-30 14:02:13 公開日:2020-11-14 |
# 分子ハミルトニアンのどの形式が円錐交叉における非断熱量子力学をシミュレートするのに最も適しているか? Which form of the molecular Hamiltonian is the most suitable for simulating the nonadiabatic quantum dynamics at a conical intersection? ( http://arxiv.org/abs/2010.08214v2 ) ライセンス: Link先を確認 | Seonghoon Choi and Ji\v{r}\'i Van\'i\v{c}ek | (参考訳) 分子ハミルトニアンの適切な表現を選択することは、円錐交叉周辺の非断熱量子力学のシミュレーションで直面する課題の1つである。
断熱的、完全準断熱的、厳密な断熱的表現は互いに完全かつユニタリな変換であり、近似準断熱的ハミルトニアンは完全な準断熱的ハミルトニアンにおける残留断熱的カップリングを無視している。
4つの異なる表現の厳密な数値比較は、4つの表現を正確に定義できるシステムの例外的な性質と、ハミルトニアンの異なる形式による数値誤差と誤りを混同することを避ける極めて正確な数値アルゴリズムの必要性のために困難である。
二次ヤーン・テラーモデルと高階幾何積分器を用いることで、この比較を行い、一般には利用できない厳密な2進ハミルトニアン(英語版)のベンチマーク結果とほぼ同じ結果が得られるのは、稀に使用される準二進ハミルトニアン収率のみである。
このジャーン-テラーモデルと同じフーリエ格子において、一般的に使われる近似準断熱ハミルトニアンは不正確な波動パケットダイナミクスを導いたのに対し、断熱基底のハミルトニアンは円錐交点における特異な非断熱カップリングのため、最も正確ではなかった。 Choosing an appropriate representation of the molecular Hamiltonian is one of the challenges faced by simulations of the nonadiabatic quantum dynamics around a conical intersection. The adiabatic, exact quasidiabatic, and strictly diabatic representations are exact and unitary transforms of each other, whereas the approximate quasidiabatic Hamiltonian ignores the residual nonadiabatic couplings in the exact quasidiabatic Hamiltonian. A rigorous numerical comparison of the four different representations is difficult because of the exceptional nature of systems where the four representations can be defined exactly and the necessity of an exceedingly accurate numerical algorithm that avoids mixing numerical errors with errors due to the different forms of the Hamiltonian. Using the quadratic Jahn-Teller model and high-order geometric integrators, we are able to perform this comparison and find that only the rarely employed exact quasidiabatic Hamiltonian yields nearly identical results to the benchmark results of the strictly diabatic Hamiltonian, which is not available in general. In this Jahn-Teller model and with the same Fourier grid, the commonly employed approximate quasidiabatic Hamiltonian led to inaccurate wavepacket dynamics, while the Hamiltonian in the adiabatic basis was the least accurate, due to the singular nonadiabatic couplings at the conical intersection. | 翻訳日:2023-04-28 22:11:50 公開日:2020-11-14 |
# ワームホールを通過する低エネルギースカラー波の伝送 Transmission of low-energy scalar waves through a traversable wormhole ( http://arxiv.org/abs/2010.15023v3 ) ライセンス: Link先を確認 | Bahareh Azad, Farhang Loran, and Ali Mostafazadeh | (参考訳) 本研究では, 漸近的に平坦なワームホールによる低エネルギー質量および大小結合スカラー場の散乱について検討した。
対応する有効電位とワームホールの吸収断面積の透過・反射振幅の解析式を提供する。
この結果は,最近開発された時間非依存散乱理論の力学定式化に基づくもので,鋭い遷移を持つワームホール,エリス・ワームホール,その一般化の族を含む,ワームホールの広い時空に適用できる。 We study the scattering of low-energy massless and massive minimally coupled scalar fields by an asymptotically flat traversable wormhole. We provide a comprehensive treatment of this problem offering analytic expressions for the transmission and reflection amplitudes of the corresponding effective potential and the absorption cross section of the wormhole. Our results, which are based on a recently developed dynamical formulation of time-independent scattering theory, apply to a large class of wormhole spacetimes including a wormhole with a sharp transition, the Ellis wormhole, and a family of its generalizations. | 翻訳日:2023-04-27 06:24:07 公開日:2020-11-14 |
# 新型コロナウイルスのパンデミック、個人用マスクの使用に関する世論が二極化 Face Off: Polarized Public Opinions on Personal Face Mask Usage during the COVID-19 Pandemic ( http://arxiv.org/abs/2011.00336v2 ) ライセンス: Link先を確認 | Neil Yeung, Jonathan Lai, Jiebo Luo | (参考訳) 個々のマスクの使用率の低減に効果があるという科学的証拠が増えているにもかかわらず、個々のマスクの使用は米国内で非常に偏光度の高いトピックとなっている。
様々な政府機関による一連の政策変更は、マスクの偏光に寄与したと推測されている。
これらの政策シフトの効果を調べる典型的な方法は、調査を使用することである。
しかし、調査ベースのアプローチには複数の制限がある: 偏りのある回答、限られたサンプルサイズ、悪い作りの質問は反応を歪め、洞察を阻害する可能性がある。
我々は新しいアプローチを提案する
1) トピックモデリングを用いたマルチモーダル人口動態推定フレームワークを用いて、米国における新型コロナウイルス感染時のマスクに対する国民の感情を正確に測定する。
2) Twitterデータ上でのオフライン変化点分析により, マスクポリシーの偏光に寄与するか否かを判断した。
まず、年齢、性別、大学生がマルチモーダル人口統計予測フレームワークを使っているかどうかなど、個々のtwitterユーザーのいくつかの重要な人口統計を推測し、それぞれの人口統計の平均感情を分析した。
次に、潜在ディリクレアロケーション(LDA)を用いてトピック分析を行う。
最後に,Pruned Exact Linear Time (PELT) 探索アルゴリズムを用いて,感情時系列データに対してオフラインで変化点検出を行う。
大量のtwitterデータによる実験の結果、既存の調査と一致するフェイスマスクに対する人口動態に関する複数の洞察が明らかになった。
さらに、二つの重要な政策転換イベントが、共和党と民主党の両方にとって統計的に有意な感情変化をもたらした。 In spite of a growing body of scientific evidence on the effectiveness of individual face mask usage for reducing transmission rates, individual face mask usage has become a highly polarized topic within the United States. A series of policy shifts by various governmental bodies have been speculated to have contributed to the polarization of face masks. A typical method to investigate the effects of these policy shifts is to use surveys. However, survey-based approaches have multiple limitations: biased responses, limited sample size, badly crafted questions may skew responses and inhibit insight, and responses may prove quickly irrelevant as opinions change in response to a dynamic topic. We propose a novel approach to 1) accurately gauge public sentiment towards face masks in the United States during COVID-19 using a multi-modal demographic inference framework with topic modeling and 2) determine whether face mask policy shifts contributed to polarization towards face masks using offline change point analysis on Twitter data. First, we infer several key demographics of individual Twitter users such as their age, gender, and whether they are a college student using a multi-modal demographic prediction framework and analyze the average sentiment for each respective demographic. Next, we conduct topic analysis using latent Dirichlet allocation (LDA). Finally, we conduct offline change point discovery on our sentiment time series data using the Pruned Exact Linear Time (PELT) search algorithm. Experimental results on a large corpus of Twitter data reveal multiple insights regarding demographic sentiment towards face masks that agree with existing surveys. Furthermore, we find two key policy-shift events contributed to statistically significant changes in sentiment for both Republicans and Democrats. | 翻訳日:2023-04-26 05:39:56 公開日:2020-11-14 |
# 反実的普遍量子計算 Counterfactual universal quantum computation ( http://arxiv.org/abs/2011.07195v1 ) ライセンス: Link先を確認 | Zhu Cao | (参考訳) 普遍量子計算は通常、2段階の量子サブシステム間の相互作用と関連している。
本研究では、この直観に反して、初期独立な2段階量子サブシステム間の相互作用なしに普遍量子計算が実現できることを示す。
これを反ファクト的普遍量子計算と呼ぶ。
特別の場合として、量子状態の反実的通信、反実的量子スワッピング、反実的量子消去符号の達成方法を示す。
実用的実装を容易にするために,有限実行時間,光子損失,原子欠落の影響など,現実的デバイスを用いて,反事実的普遍量子計算を解析する。
量子物理学の神秘的・反直観的な性質を描写する理論的な関心に加えて、我々の研究は、光が輝くことを禁ずる古代美術のカラーイメージングに実践的な応用を持っている。 Universal quantum computation is usually associated with interaction among two-level quantum subsystems, as this interaction is commonly viewed as a necessity to achieve universal quantum computation. In this work, we show that, contrary to this intuition, universal quantum computation can be achieved without interaction among initially independent two-level quantum subsystems. We call it counterfactual universal quantum computation. As special cases, we show how to achieve counterfactual communication of quantum states, counterfactual quantum swapping, and counterfactual quantum erasure codes. To ease practical implementation, we analyze counterfactual universal quantum computation with realistic devices, including the effects of finite execution time, photon loss, and atom missing. Besides the theoretical interest of illustrating the mysterious and counterintuitive nature of quantum physics, our work has practical applications to color imaging of ancient arts, upon which light is forbidden to shine. | 翻訳日:2023-04-24 03:33:24 公開日:2020-11-14 |
# 南アフリカのローカル言語ナレーションにおけるsqlクエリの合成 Synthesis of SQL Queries from South African Local Language Narrations ( http://arxiv.org/abs/2011.07376v1 ) ライセンス: Link先を確認 | George Obaido, Abejide Ade-Ibijola, Hima Vadapalli | (参考訳) 英語は依然としてデータベースコースの選択言語であり、南アフリカのほぼすべての大学や多くの国でも広く使われている。
ネイティブ起源の初心者プログラマは、主に英語を教材として構造化クエリ言語(SQL)を教えられている。
その結果、ほとんどのネイティブ学習者は英語にあまり精通していないため、SQLの構文を理解するのに多くの問題がある。
これはsql構文を理解する学習者の能力に影響する可能性がある。
この問題を解決するため,本研究では,局所言語ナレーション(local-nar-sql)と呼ばれる,ジャンプ有限オートマトンなどの有限機械を用いて,局所言語ナレーションをsqlクエリに変換するツールを提案する。
さらに、生成されたクエリはサンプルデータベースから情報を抽出し、学習者に出力する。
本論文は,本分野における前回の研究成果を拡張したものである。
145人の参加者による調査は、大多数がローカルnar-sqlがローカル言語からのsqlクエリを理解するのに役立つと結論づけた。
学習支援として提案されたツールを使用すると、ネイティブ学習者はsqlの操作が容易になる。 English remains the language of choice for database courses and widely used for instruction in nearly all South African universities, and also in many countries. Novice programmers of native origins are mostly taught Structured Query Language (SQL) through English as the medium of instruction. Consequently, this creates a myriad of problems in understanding the syntax of SQL as most native learners are not too proficient in English. This could affect a learner's ability in comprehending SQL syntaxes. To resolve this problem, this work proposes a tool called local language narrations (Local-Nar-SQL) to SQL that uses a type of Finite Machine, such as a Jumping Finite Automaton to translate local language narratives into SQL queries. Further, the generated query extracts information from a sample database and presents output to the learner. This paper is an extension of work originally presented in a previous study in this field. A survey involving 145 participants concluded that the majority found Local-Nar-SQL to be helpful in understanding SQL queries from local languages. If the proposed tool is used as a learning aid, native learners will find it easier to work with SQL, which will eliminate many of the barriers faced with English proficiencies in programming pedagogies. | 翻訳日:2023-04-24 03:30:49 公開日:2020-11-14 |
# 2つのウィッシュアート行列の差に関するスペクトル統計 Spectral statistics for the difference of two Wishart matrices ( http://arxiv.org/abs/2011.07362v1 ) ライセンス: Link先を確認 | Santosh Kumar and S. Sai Charan | (参考訳) 本研究では, 2つの独立複素ウィッシュアート行列の重み付き差分を考察し, 2つの異なるアプローチを用いて有限次元シナリオにおいて対応する固有値の合同確率密度関数を導出する。
第1の導出はユニタリ群積分の使用を伴い、第2の導出は導出原理の適用に依存する。
後者は、ユニタリ不変なアンサンブルから引き出された行列の固有値のジョイント確率密度とその対角要素のジョイント確率密度に関するものである。
任意の順序相関関数に対する厳密な閉形式式も得られ、スペクトル密度はモンテカルロシミュレーションの結果と対比される。
スペクトルの肯定的側面を定量化する確率と同様にモーメントの分析結果も導出される。
さらに、代数的ランダム行列に対するスティルチェス変換アプローチを用いてスペクトル密度に対する大次元漸近結果を提供する。
最後に、これらの結果と、2つのランダム密度行列の差に対する対応する結果との関係を指摘し、スペクトル密度と絶対平均に対する明示的で閉じた式式を得る。 In this work, we consider the weighted difference of two independent complex Wishart matrices and derive the joint probability density function of the corresponding eigenvalues in a finite-dimension scenario using two distinct approaches. The first derivation involves the use of unitary group integral, while the second one relies on applying the derivative principle. The latter relates the joint probability density of eigenvalues of a matrix drawn from a unitarily invariant ensemble to the joint probability density of its diagonal elements. Exact closed form expressions for an arbitrary order correlation function are also obtained and spectral densities are contrasted with Monte Carlo simulation results. Analytical results for moments as well as probabilities quantifying positivity aspects of the spectrum are also derived. Additionally, we provide a large-dimension asymptotic result for the spectral density using the Stieltjes transform approach for algebraic random matrices. Finally, we point out the relationship of these results with the corresponding results for difference of two random density matrices and obtain some explicit and closed form expressions for the spectral density and absolute mean. | 翻訳日:2023-04-24 03:30:30 公開日:2020-11-14 |
# 一般化ディッケモデルにおける多重臨界性と量子揺らぎ Multicriticality and quantum fluctuation in generalized Dicke model ( http://arxiv.org/abs/2011.07342v1 ) ライセンス: Link先を確認 | Youjiang Xu, Diego Fallas Padilla, Han Pu | (参考訳) 従来のディックモデルのように2レベル原子ではなく、多レベル原子が単一のフォトニックモードと相互作用するディックモデルの重要な一般化を考える。
我々は、幅広い種類の原子-光子カップリングスキームの位相図を調べ、この一般化の下で、ディッケモデルが多臨界になることを示す。
実験的に実現可能なスキームのサブクラスでは、任意の順序の多重臨界条件をコンパクトな形式で解析的に表現することができる。
また、臨界ケースと非臨界ケースの両方に対して原子-光子エンタングルメントエントロピーを計算する。
臨界度の順序は臨界絡み合いエントロピーに強く影響し、高次のエントロピーはより強固な絡み合いをもたらす。
我々の研究は、量子相転移と多臨界性に関する深い洞察を提供する。 We consider an important generalization of the Dicke model in which multi-level atoms, instead of two-level atoms as in conventional Dicke model, interact with a single photonic mode. We explore the phase diagram of a broad class of atom-photon coupling schemes and show that, under this generalization, the Dicke model can become multicritical. For a subclass of experimentally realizable schemes, multicritical conditions of arbitrary order can be expressed analytically in compact forms. We also calculate the atom-photon entanglement entropy for both critical and non-critical cases. We find that the order of the criticality strongly affects the critical entanglement entropy: higher order yields stronger entanglement. Our work provides deep insight into quantum phase transitions and multicriticality. | 翻訳日:2023-04-24 03:30:14 公開日:2020-11-14 |
# 量子回路マッピングにおける量子テレポーテーションの活用 Exploiting Quantum Teleportation in Quantum Circuit Mapping ( http://arxiv.org/abs/2011.07314v1 ) ライセンス: Link先を確認 | Stefan Hillmich, Alwin Zulehner, and Robert Wille | (参考訳) 量子コンピュータは量子ビット数で常に成長を続けているが、相互に相互作用する量子ビットの限られたペアのような制限に苦しめられている。
これまでのところ、この問題は量子ビットを相互作用(量子回路マッピングとして知られる)に適した位置にマッピングし移動させることによって解決されている。
しかし、この動きは回路に追加のゲートを組み込む必要があり、各ゲートがエラーやデコヒーレンスの可能性を高めるため、その数はできるだけ小さくしておく必要がある。
State-of-the-art mapping methods utilize swapping and bridging to move the qubits along the static paths of the coupling map---solving this problem without exploiting all means the quantum domain has to offer. In this paper, we propose to additionally exploit quantum teleportation as a possible complementary method. Quantum teleportation conceptually allows to move the state of a qubit over arbitrary long distances with constant overhead---providing the potential of determining cheaper mappings.
この可能性はすでに有望な改善を示すIBM Q Tokyoアーキテクチャのケーススタディで実証されている。
より大きな量子コンピューティングアーキテクチャが出現すると、量子テレポーテーションはより安価なマッピングを生成するのに効果的になる。 Quantum computers are constantly growing in their number of qubits, but continue to suffer from restrictions such as the limited pairs of qubits that may interact with each other. Thus far, this problem is addressed by mapping and moving qubits to suitable positions for the interaction (known as quantum circuit mapping). However, this movement requires additional gates to be incorporated into the circuit, whose number should be kept as small as possible since each gate increases the likelihood of errors and decoherence. State-of-the-art mapping methods utilize swapping and bridging to move the qubits along the static paths of the coupling map---solving this problem without exploiting all means the quantum domain has to offer. In this paper, we propose to additionally exploit quantum teleportation as a possible complementary method. Quantum teleportation conceptually allows to move the state of a qubit over arbitrary long distances with constant overhead---providing the potential of determining cheaper mappings. The potential is demonstrated by a case study on the IBM Q Tokyo architecture which already shows promising improvements. With the emergence of larger quantum computing architectures, quantum teleportation will become more effective in generating cheaper mappings. | 翻訳日:2023-04-24 03:30:03 公開日:2020-11-14 |
# 新型コロナウイルスによる仮想チームにおける技術の役割の再考 Rethinking the Role of Technology in Virtual Teams in Light of COVID-19 ( http://arxiv.org/abs/2011.07303v1 ) ライセンス: Link先を確認 | Mark Frost, Sophia Xiaoxia Duan | (参考訳) 組織による仮想チームの利用は、COVID-19に対する戦略的対応として大きく成長しています。
しかし、仮想チームの概念は新しいものではなく、過去30年間に多くの企業が徐々に仮想チームや分散チームをプロセスに取り入れてきた。
仮想チームの研究は、信頼、コミュニケーション、チームワーク、リーダーシップ、コラボレーションといったレンズを通じて、対面チームの共同配置に続くものだ。
本稿では、単に対面チームに代わるものとしてではなく、仮想チームの一部としての技術の検討を促進するであろう、仮想チームの開発を検討するための新しいパラダイムを紹介する。
つまり、イノベーションフレームワークを通じて、組織内に組み込み技術を備えた仮想チームの開発を見ることです。 The use of virtual teams by organisations has grown tremendously as a strategic response to COVID-19. However, the concept of virtual teams is not something new, with many businesses over the past three decades gradually incorporating virtual and/or dispersed teams into their processes. Research on virtual teams has followed that of co-located face-to-face teams through lenses such as trust, communication, teamwork, leadership and collaboration. This paper introduces a new paradigm for examining the development of virtual teams, arguably one that would facilitate the consideration of technology as part of a virtual team rather than simply as an alternate to face-to-face teams. That is, viewing the development of virtual teams with embedded technology within an organisation through an innovation framework. | 翻訳日:2023-04-24 03:29:44 公開日:2020-11-14 |
# 量子回路の検証のためのランダム刺激生成 Random Stimuli Generation for the Verification of Quantum Circuits ( http://arxiv.org/abs/2011.07288v1 ) ライセンス: Link先を確認 | Lukas Burgholzer, Richard Kueng, and Robert Wille | (参考訳) 量子回路の検証は、様々な抽象レベルにわたって量子アルゴリズムや量子記述の正確性を保証するのに不可欠である。
本研究では,同調的検証とランダム刺激を用いて,量子回路の正しさを確認する有望な方法を示す。
そこで本研究では,量子回路の正しさを効率的に確認するための刺激を適切に生成する方法を検討する。
より正確には、量子刺激生成のための3つのスキームを紹介し、説明し、分析する。
古典的領域における検証とは対照的に、(理論的にも経験的にも)少数のランダムなチョセン刺激(提案されたスキームから生成される)が考慮されたとしても、量子回路において高い誤差検出率を達成できることを示す。
これらの概念的および理論的考察の結果も実証的に確認され、50万のベンチマークインスタンスで約10^6$のシミュレーションが行われた。 Verification of quantum circuits is essential for guaranteeing correctness of quantum algorithms and/or quantum descriptions across various levels of abstraction. In this work, we show that there are promising ways to check the correctness of quantum circuits using simulative verification and random stimuli. To this end, we investigate how to properly generate stimuli for efficiently checking the correctness of a quantum circuit. More precisely, we introduce, illustrate, and analyze three schemes for quantum stimuli generation---offering a trade-off between the error detection rate (as well as the required number of stimuli) and efficiency. In contrast to the verification in the classical realm, we show (both, theoretically and empirically) that even if only a few randomly-chosen stimuli (generated from the proposed schemes) are considered, high error detection rates can be achieved for quantum circuits. The results of these conceptual and theoretical considerations have also been empirically confirmed---with a grand total of approximately $10^6$ simulations conducted across 50 000 benchmark instances. | 翻訳日:2023-04-24 03:29:34 公開日:2020-11-14 |
# サイバー能力とサイバーパワーは国際協力を促進するか Do Cyber Capabilities and Cyber Power Incentivize International Cooperation? ( http://arxiv.org/abs/2011.07212v1 ) ライセンス: Link先を確認 | Jukka Ruohonen | (参考訳) 本稿では,防衛的かつ攻撃的なサイバーセキュリティ力と,その力を発揮する能力が,形式的かつ非公式な合意,同盟,規範を通じて,国家が二国間・多国間協力(BMC)に参加するインセンティブに影響を及ぼすかどうかについて検討する。
一般の国際関係、特に構造的リアリズムから引き出された3つの仮説は、研究課題を実証的に評価するために提示される。
一 サイバー能力の増大は、BMCのインセンティブを低下させる。
二 積極的にサイバーパワーを実演し、行使することにより、BMCの意欲を低下させ、
(三)小国はサイバーセキュリティと政治にBMCを好んでいる。
29カ国のクロスカントリーデータセットによると、3つの仮説はすべて拒否されている。
研究に関する「否定的な結果」を示す一方で、関連する議論は国際関係と政治科学における国家中心のサイバーセキュリティ研究に寄与している。 This paper explores a research question about whether defensive and offensive cyber security power and the capabilities to exercise the power influence the incentives of nation-states to participate in bilateral and multilateral cooperation (BMC) through formal and informal agreements, alliances, and norms. Drawing from international relations in general and structural realism in particular, three hypotheses are presented for assessing the research question empirically: (i) increasing cyber capability lessens the incentives for BMC; (ii) actively demonstrating and exerting cyber power decreases the willingness for BMC; and (iii) small states prefer BMC for cyber security and politics thereto. According to a cross-country dataset of 29 countries, all three hypotheses are rejected. Although presenting a "negative result" with respect to the research question, the accompanying discussion contributes to the state-centric cyber security research in international relations and political science. | 翻訳日:2023-04-24 03:28:52 公開日:2020-11-14 |
# 楕円R-CNN:クラスタリングと閉塞から楕円オブジェクトを推測する学習 Ellipse R-CNN: Learning to Infer Elliptical Object from Clustering and Occlusion ( http://arxiv.org/abs/2001.11584v2 ) ライセンス: Link先を確認 | Wenbo Dong, Pravakar Roy, Cheng Peng, Volkan Isler | (参考訳) 樹木の果房などの散らばったシーンで密集した物体の画像は、セグメント化が難しい。
このような場合、各オブジェクトの3dサイズと6dポーズをさらに検索するため、バウンディングボックスは、オブジェクトの幾何のほんの一部しかキャプチャされていないため、複数のビューから信頼できない。
楕円形物体を楕円形に表現し,推定するために,最初のCNNベースの楕円形検出器であるEllipse R-CNNを導入する。
まず、楕円形物体検出のためのMask R-CNNアーキテクチャに基づく頑健でコンパクトな楕円回帰を提案する。
本手法は,複数の楕円物体のパラメータを他の隣接物体にオクルードされても推定できる。
そこで我々は, 改良された特徴領域を回帰段階に利用し, U-Net構造を統合し, 異なる閉塞パターンを学習し, 最終的な検出スコアを算出する。
楕円回帰の正確性は、クラスター楕円の合成データ上で行った実験によって検証される。
さらに定量的・定性的に,本手法が最先端モデル(仮面r-cnn,楕円フィッティング)およびその3つの変種をoccluded およびclustered elliptical objectsの合成データセットおよび実データ集合上で上回ることを示した。 Images of heavily occluded objects in cluttered scenes, such as fruit clusters in trees, are hard to segment. To further retrieve the 3D size and 6D pose of each individual object in such cases, bounding boxes are not reliable from multiple views since only a little portion of the object's geometry is captured. We introduce the first CNN-based ellipse detector, called Ellipse R-CNN, to represent and infer occluded objects as ellipses. We first propose a robust and compact ellipse regression based on the Mask R-CNN architecture for elliptical object detection. Our method can infer the parameters of multiple elliptical objects even they are occluded by other neighboring objects. For better occlusion handling, we exploit refined feature regions for the regression stage, and integrate the U-Net structure for learning different occlusion patterns to compute the final detection score. The correctness of ellipse regression is validated through experiments performed on synthetic data of clustered ellipses. We further quantitatively and qualitatively demonstrate that our approach outperforms the state-of-the-art model (i.e., Mask R-CNN followed by ellipse fitting) and its three variants on both synthetic and real datasets of occluded and clustered elliptical objects. | 翻訳日:2023-01-05 12:40:34 公開日:2020-11-14 |
# トレース勾配降下によるトレーニングデータの影響推定 Estimating Training Data Influence by Tracing Gradient Descent ( http://arxiv.org/abs/2002.08484v3 ) ライセンス: Link先を確認 | Garima Pruthi, Frederick Liu, Mukund Sundararajan, Satyen Kale | (参考訳) 本稿では,モデルによる予測に対するトレーニング例の影響を計算するTracInという手法を提案する。
そのアイデアは、トレーニングの例が利用されるたびに、トレーニングプロセス中にテストポイントの損失がどのように変化するのかを追跡することだ。
TracInのスケーラブルな実装は以下の通りです。
(a)厳密な計算に対する一階勾配近似
(b)標準訓練手順のチェックポイントを保存し、
(c)深層ニューラルネットワークのチェリーピッキング層。
以前提案されたメソッドとは対照的に、TracInの実装は簡単である。
方法は一般的です。
確率的勾配降下またはその変種を用いてトレーニングされた任意の機械学習モデルに適用され、アーキテクチャ、ドメイン、タスクに依存しない。
トレーニングデータの研究・改善プロセスにおいて,本手法が広く有用であることが期待されている。 We introduce a method called TracIn that computes the influence of a training example on a prediction made by the model. The idea is to trace how the loss on the test point changes during the training process whenever the training example of interest was utilized. We provide a scalable implementation of TracIn via: (a) a first-order gradient approximation to the exact computation, (b) saved checkpoints of standard training procedures, and (c) cherry-picking layers of a deep neural network. In contrast with previously proposed methods, TracIn is simple to implement; all it needs is the ability to work with gradients, checkpoints, and loss functions. The method is general. It applies to any machine learning model trained using stochastic gradient descent or a variant of it, agnostic of architecture, domain and task. We expect the method to be widely useful within processes that study and improve training data. | 翻訳日:2022-12-30 13:27:04 公開日:2020-11-14 |
# UnMask:ロバストな特徴アライメントによる敵検出と防御 UnMask: Adversarial Detection and Defense Through Robust Feature Alignment ( http://arxiv.org/abs/2002.09576v2 ) ライセンス: Link先を確認 | Scott Freitas, Shang-Tse Chen, Zijie J. Wang, Duen Horng Chau | (参考訳) ディープラーニングモデルは、自動運転車から医療診断まで、幅広い影響の大きいセキュリティクリティカルなシステムに統合されている。
しかし、近年の研究では、これらのディープラーニングアーキテクチャの多くは、敵の攻撃に対して脆弱であることを実証している。
これらの敵攻撃に対抗するために,ロバストな特徴アライメントに基づく敵検出・防御フレームワークUnMaskを開発した。
UnMaskの基本的な考え方は、画像の予測されたクラス(バード)が期待される堅牢な特徴(例えば、くちばし、翼、目)を含んでいることを検証することでこれらのモデルを保護することである。
例えば、画像が「鳥」に分類されるが、抽出された特徴が車輪、サドル、フレームである場合、モデルは攻撃を受ける可能性がある。
UnMaskはそのような攻撃を検出し、誤分類を修正し、堅牢な機能に基づいてイメージを再分類することでモデルを防御する。
我々は,UnMask (1)が96.75%の攻撃を検知し,(2)現在最強の攻撃であるプロジェクテッドグラディエント・ディフレッシュによって生成された93%の敵画像をグレーボックス設定で正しく分類することでモデルを擁護することを示した。
UnMaskは8つの攻撃ベクトルにわたる敵の訓練よりもはるかに優れた保護を提供し、平均的な精度は31.18%である。
この論文では、コードリポジトリとデータをオープンソースにしています。 Deep learning models are being integrated into a wide range of high-impact, security-critical systems, from self-driving cars to medical diagnosis. However, recent research has demonstrated that many of these deep learning architectures are vulnerable to adversarial attacks--highlighting the vital need for defensive techniques to detect and mitigate these attacks before they occur. To combat these adversarial attacks, we developed UnMask, an adversarial detection and defense framework based on robust feature alignment. The core idea behind UnMask is to protect these models by verifying that an image's predicted class ("bird") contains the expected robust features (e.g., beak, wings, eyes). For example, if an image is classified as "bird", but the extracted features are wheel, saddle and frame, the model may be under attack. UnMask detects such attacks and defends the model by rectifying the misclassification, re-classifying the image based on its robust features. Our extensive evaluation shows that UnMask (1) detects up to 96.75% of attacks, and (2) defends the model by correctly classifying up to 93% of adversarial images produced by the current strongest attack, Projected Gradient Descent, in the gray-box setting. UnMask provides significantly better protection than adversarial training across 8 attack vectors, averaging 31.18% higher accuracy. We open source the code repository and data with this paper: https://github.com/safreita1/unmask. | 翻訳日:2022-12-30 01:21:24 公開日:2020-11-14 |
# 臨床時系列のための不確実性認識型変分再帰的インプテーションネットワーク Uncertainty-Aware Variational-Recurrent Imputation Network for Clinical Time Series ( http://arxiv.org/abs/2003.00662v2 ) ライセンス: Link先を確認 | Ahmad Wisnu Mulyadi, Eunji Jun, Heung-Il Suk | (参考訳) 電子的健康記録 (EHR) は, 空間性, 不規則性, 高次元性で表される縦断的な臨床観察からなり, 信頼性の高い下流臨床結果の描画において大きな障害となる。
これらの問題に対処するための多くの計算方法が存在するが、その多くは相関した特徴や時間的ダイナミクスを無視し、不確実性を除いて完全に設定されている。
欠落した値の推定には不正確なリスクが伴うため、信頼性のあるデータとは別の情報を扱うのが適切である。
その際、不足値の推定に不確かさを忠実度スコアとして利用し、バイアス付き欠落値推定のリスクを緩和することができる。
本研究では,不確実性だけでなく,関係する特徴や時間的ダイナミクスを考慮し,インプットと予測ネットワークを統一する新しい変動再帰型インプットネットワークを提案する。
具体的には,変数間の分布に基づく計算モデルにおける深部生成モデルと,不確実性の利用とともに時間的関係を利用する再帰的計算ネットワークを利用する。
本研究では,本モデルの有効性を検証するために,ehlデータセットであるphysionet challenge 2012 と mimic-iii を用いて本モデルの有効性を検証した。 Electronic health records (EHR) consist of longitudinal clinical observations portrayed with sparsity, irregularity, and high-dimensionality, which become major obstacles in drawing reliable downstream clinical outcomes. Although there exist great numbers of imputation methods to tackle these issues, most of them ignore correlated features, temporal dynamics and entirely set aside the uncertainty. Since the missing value estimates involve the risk of being inaccurate, it is appropriate for the method to handle the less certain information differently than the reliable data. In that regard, we can use the uncertainties in estimating the missing values as the fidelity score to be further utilized to alleviate the risk of biased missing value estimates. In this work, we propose a novel variational-recurrent imputation network, which unifies an imputation and a prediction network by taking into account the correlated features, temporal dynamics, as well as the uncertainty. Specifically, we leverage the deep generative model in the imputation, which is based on the distribution among variables, and a recurrent imputation network to exploit the temporal relations, in conjunction with utilization of the uncertainty. We validated the effectiveness of our proposed model on two publicly available real-world EHR datasets: PhysioNet Challenge 2012 and MIMIC-III, and compared the results with other competing state-of-the-art methods in the literature. | 翻訳日:2022-12-27 04:21:52 公開日:2020-11-14 |
# 深部畳み込みテンソルネットワーク Deep convolutional tensor network ( http://arxiv.org/abs/2005.14506v2 ) ライセンス: Link先を確認 | Philip Blagoveschensky, Anh Huy Phan | (参考訳) ニューラルネットワークは、パラメータ共有、局所性、深さなど、多くの分野で技術結果の状態を達成している。
テンソルネットワーク(tns)は、その絡み合い構造に基づく量子多体状態の線形代数表現である。
TNは機械学習に使われている。
我々は、パラメータ共有、局所性、深さを有する画像分類のための新しいTNベースのDeep Convolutional tensor Network(DCTN)を考案した。
これはEntangled plaquette state (EPS) TNに基づいている。
我々はepsをバックプロパゲータ層として実装する方法を示す。
我々は、MNIST、FashionMNIST、CIFAR10データセット上でDCTNをテストする。
浅いDCTNはMNISTとFashionMNISTでよく機能し、パラメータ数も小さい。
残念ながら、深さは過度に適合し、テスト精度が低下する。
また、深さのDCTNは過度な適合によりCIFAR10に悪影響を及ぼす。
なぜかは決まっている。
DCTNのハイパーパラメータがトレーニングやオーバーフィッティングにどのように影響するかを論じる。 Neural networks have achieved state of the art results in many areas, supposedly due to parameter sharing, locality, and depth. Tensor networks (TNs) are linear algebraic representations of quantum many-body states based on their entanglement structure. TNs have found use in machine learning. We devise a novel TN based model called Deep convolutional tensor network (DCTN) for image classification, which has parameter sharing, locality, and depth. It is based on the Entangled plaquette states (EPS) TN. We show how EPS can be implemented as a backpropagatable layer. We test DCTN on MNIST, FashionMNIST, and CIFAR10 datasets. A shallow DCTN performs well on MNIST and FashionMNIST and has a small parameter count. Unfortunately, depth increases overfitting and thus decreases test accuracy. Also, DCTN of any depth performs badly on CIFAR10 due to overfitting. It is to be determined why. We discuss how the hyperparameters of DCTN affect its training and overfitting. | 翻訳日:2022-11-26 22:56:36 公開日:2020-11-14 |
# leap-of-thought: 事前学習されたモデルに暗黙の知識を体系的に推論する教育 Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge ( http://arxiv.org/abs/2006.06609v3 ) ライセンス: Link先を確認 | Alon Talmor, Oyvind Tafjord, Peter Clark, Yoav Goldberg, Jonathan Berant | (参考訳) ニューラルネットワークは、シンボリックな事実をどの程度体系的に推論できるか?
大きな事前学習言語モデル(lms)はいくつかの推論能力を持っているが、この能力を制御するのは困難である。
近年、トランスフォーマーに基づくモデルは「クローズドワールド」仮定の下で、明示的な象徴的事実に対して一貫した推論に成功したことが示されている。
しかし、オープンドメインのセットアップでは、既に訓練済みのLMのパラメータにエンコードされている暗黙の知識の広大な貯水池を利用するのが望ましい。
本研究では, 暗黙的, 事前学習された知識と明示的な自然言語文を組み合わせることで, lmsが系統的推論を確実に行うように訓練できることを示す。
そこで本研究では,モデルに新しい推論スキルを教えるデータセットを自動生成する手法について述べるとともに,モデルが暗黙の分類学や世界知識,連鎖と数え込みを含む推論を効果的に行うことを実証する。
最後に,「理性教育」モデルが学習分布を超えて一般化することを示し,複数の理性学習スキルをひとつの例にまとめることに成功した。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。 To what extent can a neural network systematically reason over symbolic facts? Evidence suggests that large pre-trained language models (LMs) acquire some reasoning capacity, but this ability is difficult to control. Recently, it has been shown that Transformer-based models succeed in consistent reasoning over explicit symbolic facts, under a "closed-world" assumption. However, in an open-domain setup, it is desirable to tap into the vast reservoir of implicit knowledge already encoded in the parameters of pre-trained LMs. In this work, we provide a first demonstration that LMs can be trained to reliably perform systematic reasoning combining both implicit, pre-trained knowledge and explicit natural language statements. To do this, we describe a procedure for automatically generating datasets that teach a model new reasoning skills, and demonstrate that models learn to effectively perform inference which involves implicit taxonomic and world knowledge, chaining and counting. Finally, we show that "teaching" models to reason generalizes beyond the training distribution: they successfully compose the usage of multiple reasoning skills in single examples. Our work paves a path towards open-domain systems that constantly improve by interacting with users who can instantly correct a model by adding simple natural language statements. | 翻訳日:2022-11-22 09:19:00 公開日:2020-11-14 |
# ラプラスとニューラルタンジェントカーネルの類似性について On the Similarity between the Laplace and Neural Tangent Kernels ( http://arxiv.org/abs/2007.01580v2 ) ライセンス: Link先を確認 | Amnon Geifman, Abhay Yadav, Yoni Kasten, Meirav Galun, David Jacobs, Ronen Basri | (参考訳) 近年の理論的研究により、超過パラメータのニューラルネットワークは、ニューラルネットワーク(ntk)を使用するカーネルレグレッセプタと同値であることが示されている。
実験により、これらのカーネルメソッドが実際のニューラルネットワークと同様に動作することが示された。
ここでは,完全接続ネットワークのntkが標準ラプラスカーネルと密接な関係にあることを示す。
超球面上の正規化データに対して、両方の核は同じ固有関数を持ち、それらの固有値は同じ速度で多項式的に減衰し、それらの再現カーネルヒルベルト空間(RKHS)が同じ関数の集合を含むことを示す。
これは、両方のカーネルが同じ滑らか性を持つ関数のクラスを生じさせることを意味する。
2つのカーネルは超球外データに対して異なるが、実験ではデータが適切に正規化されている場合、これらの違いは重要ではないことを示している。
最後に、ntkとlaplaceカーネルを比較した実データ実験を行い、さらに大きなクラスである{\gamma}-exponential kernelを提供する。
これらはほぼ同じ性能を示す。
その結果、ニューラルネットワークに関する多くの洞察は、単純なクローズドフォームを持つ有名なlaplaceカーネルの解析から得られることが示唆された。 Recent theoretical work has shown that massively overparameterized neural networks are equivalent to kernel regressors that use Neural Tangent Kernels(NTK). Experiments show that these kernel methods perform similarly to real neural networks. Here we show that NTK for fully connected networks is closely related to the standard Laplace kernel. We show theoretically that for normalized data on the hypersphere both kernels have the same eigenfunctions and their eigenvalues decay polynomially at the same rate, implying that their Reproducing Kernel Hilbert Spaces (RKHS) include the same sets of functions. This means that both kernels give rise to classes of functions with the same smoothness properties. The two kernels differ for data off the hypersphere, but experiments indicate that when data is properly normalized these differences are not significant. Finally, we provide experiments on real data comparing NTK and the Laplace kernel, along with a larger class of{\gamma}-exponential kernels. We show that these perform almost identically. Our results suggest that much insight about neural networks can be obtained from analysis of the well-known Laplace kernel, which has a simple closed-form. | 翻訳日:2022-11-14 04:35:31 公開日:2020-11-14 |
# Cycle-StarNet: 大きなデータセットを活用することで理論とデータのギャップを埋める Cycle-StarNet: Bridging the gap between theory and data by leveraging large datasets ( http://arxiv.org/abs/2007.03109v3 ) ライセンス: Link先を確認 | Teaghan O'Briain, Yuan-Sen Ting, S\'ebastien Fabbro, Kwang M. Yi, Kim Venn, Spencer Bialek | (参考訳) 恒星分光データ取得の進歩により、効率的なデータ解析技術の類似した改善を実現する必要がある。
現在のスペクトル分析の自動化方法は
(a) 恒星パラメータや元素の存在量の事前知識を必要とするデータ駆動、又は
(b)理論と実践のギャップの影響を受けやすい理論的合成モデルに基づく。
本研究では,非教師付き学習を大規模分光調査に適用することにより,シミュレーションされた恒星スペクトルを現実的なスペクトルに変換するハイブリッド生成領域適応法を提案する。
R=22,500のAPOGEE Hバンドスペクトルとクルツ合成モデルに適用した。
概念実証として、2つのケーススタディが提示される。
まず、合成データの校正が観測と一致している。
これを達成するために、合成モデルは観測に類似したスペクトルに変化し、理論と観測の間のギャップを減少させる。
観測されたスペクトルを合わせると、平均$\chi_R^2$が1.97から1.22に改善され、平均残基が0.16から0.01に減った。
第2のケーススタディは、合成モデリングにおけるスペクトル線の欠如の要素源の同定である。
モックデータセットは、ドメインの1つに存在しないときに吸収線を復元できることを示すために使用される。
この方法は、大きなデータセットを使用し、現在、モデリング精度によって制限されている他のフィールドに適用することができる。
本研究で使用されたコードはgithubで公開されている。 The advancements in stellar spectroscopy data acquisition have made it necessary to accomplish similar improvements in efficient data analysis techniques. Current automated methods for analyzing spectra are either (a) data-driven, which requires prior knowledge of stellar parameters and elemental abundances, or (b) based on theoretical synthetic models that are susceptible to the gap between theory and practice. In this study, we present a hybrid generative domain adaptation method that turns simulated stellar spectra into realistic spectra by applying unsupervised learning to large spectroscopic surveys. We apply our technique to the APOGEE H-band spectra at R=22,500 and the Kurucz synthetic models. As a proof of concept, two case studies are presented. The first of which is the calibration of synthetic data to become consistent with observations. To accomplish this, synthetic models are morphed into spectra that resemble observations, thereby reducing the gap between theory and observations. Fitting the observed spectra shows an improved average reduced $\chi_R^2$ from 1.97 to 1.22, along with a reduced mean residual from 0.16 to -0.01 in normalized flux. The second case study is the identification of the elemental source of missing spectral lines in the synthetic modelling. A mock dataset is used to show that absorption lines can be recovered when they are absent in one of the domains. This method can be applied to other fields, which use large data sets and are currently limited by modelling accuracy. The code used in this study is made publicly available on github. | 翻訳日:2022-11-13 03:11:35 公開日:2020-11-14 |
# metrabs: 絶対3次元ポーズ推定のためのメートル法トラクテーションロバストヒートマップ MeTRAbs: Metric-Scale Truncation-Robust Heatmaps for Absolute 3D Human Pose Estimation ( http://arxiv.org/abs/2007.07227v2 ) ライセンス: Link先を確認 | Istv\'an S\'ar\'andi and Timm Linder and Kai O. Arras and Bastian Leibe | (参考訳) 熱マップの表現は、長年にわたって人間のポーズ推定システムの基礎を形成しており、3Dへの拡張は最近の研究の成果である。
これには2.5次元の体積熱マップが含まれ、X と Y の軸は画像空間に対応し、Z は被写体周辺のメートル法深度に対応する。
計量スケール予測を得るためには、2.5D法はスケールのあいまいさを解決するために別の後処理ステップを必要とする。
さらに、画像境界の外側では体節の局所化ができず、切り離された画像の不完全推定に繋がる。
これらの制限に対処するために,画像空間にアライメントするのではなく,すべてメートル3次元空間で定義される計量スケールトランザクション・ロバスト(metro)体積熱マップを提案する。
このヒートマップ次元の再解釈により、距離に関するテストタイムの知識や骨の長さのようなヒューリスティックスに依存することなく、完全なメトリックスケールのポーズを直接見積もることができる。
さらに,我々の表現の有用性を実証するために,我々の3次元計量スケールのヒートマップと2次元画像空間の異なる組み合わせを示し,絶対的な3次元ポーズを推定する(我々のMeTRAbsアーキテクチャ)。
絶対的なポーズ損失による監督は、正確な非ルート相対的な位置決めには不可欠である。
さらに、ResNet-50のバックボーンを用いて、Human3.6M、MPI-INF-3DHP、MuPoTS-3Dの最先端結果を得る。
私たちのコードは、さらなる研究を促進するために公開されます。 Heatmap representations have formed the basis of human pose estimation systems for many years, and their extension to 3D has been a fruitful line of recent research. This includes 2.5D volumetric heatmaps, whose X and Y axes correspond to image space and Z to metric depth around the subject. To obtain metric-scale predictions, 2.5D methods need a separate post-processing step to resolve scale ambiguity. Further, they cannot localize body joints outside the image boundaries, leading to incomplete estimates for truncated images. To address these limitations, we propose metric-scale truncation-robust (MeTRo) volumetric heatmaps, whose dimensions are all defined in metric 3D space, instead of being aligned with image space. This reinterpretation of heatmap dimensions allows us to directly estimate complete, metric-scale poses without test-time knowledge of distance or relying on anthropometric heuristics, such as bone lengths. To further demonstrate the utility our representation, we present a differentiable combination of our 3D metric-scale heatmaps with 2D image-space ones to estimate absolute 3D pose (our MeTRAbs architecture). We find that supervision via absolute pose loss is crucial for accurate non-root-relative localization. Using a ResNet-50 backbone without further learned layers, we obtain state-of-the-art results on Human3.6M, MPI-INF-3DHP and MuPoTS-3D. Our code will be made publicly available to facilitate further research. | 翻訳日:2022-11-11 06:06:43 公開日:2020-11-14 |
# syndistnet: 自律運転のための意味セグメンテーションを用いた自己教師付き単眼カメラ距離推定 SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation Synergized with Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2008.04017v3 ) ライセンス: Link先を確認 | Varun Ravi Kumar, Marvin Klingner, Senthil Yogamani, Stefan Milz, Tim Fingscheidt and Patrick Maeder | (参考訳) 単眼深度推定のための最先端の自己教師付き学習手法は、通常スケールの曖昧さに苦しむ。
魚眼や全方位カメラのような複雑な投影モデルの距離推定に適用するとうまく一般化しない。
本稿では,魚眼画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するためのマルチタスク学習手法を提案する。
まず、一段階の方法で訓練可能なデコーダに対して、ロバストな意味的特徴指導と結合した自己アテンションに基づくエンコーダを用いた、新しい距離推定ネットワークアーキテクチャを導入する。
第2に,一般化されたロバスト損失関数を統合することで,再プロジェクション損失を伴うハイパーパラメータチューニングの必要性をなくしながら,性能を大幅に向上させる。
最後に,静的世界仮定に違反する動的オブジェクトによるアーティファクトを,セマンティックマスキング戦略を用いて削減する。
我々は,これまでのfisheyeにおけるrmseの25%削減により,rmseを著しく改善した。
魚眼カメラの研究はほとんどないため,ピンホールモデルを用いたKITTIにおける提案手法の評価を行った。
外部スケール推定を必要とせず,自己教師あり手法の最先端性能を実現する。 State-of-the-art self-supervised learning approaches for monocular depth estimation usually suffer from scale ambiguity. They do not generalize well when applied on distance estimation for complex projection models such as in fisheye and omnidirectional cameras. This paper introduces a novel multi-task learning strategy to improve self-supervised monocular distance estimation on fisheye and pinhole camera images. Our contribution to this work is threefold: Firstly, we introduce a novel distance estimation network architecture using a self-attention based encoder coupled with robust semantic feature guidance to the decoder that can be trained in a one-stage fashion. Secondly, we integrate a generalized robust loss function, which improves performance significantly while removing the need for hyperparameter tuning with the reprojection loss. Finally, we reduce the artifacts caused by dynamic objects violating static world assumptions using a semantic masking strategy. We significantly improve upon the RMSE of previous work on fisheye by 25% reduction in RMSE. As there is little work on fisheye cameras, we evaluated the proposed method on KITTI using a pinhole model. We achieved state-of-the-art performance among self-supervised methods without requiring an external scale estimation. | 翻訳日:2022-10-31 23:22:02 公開日:2020-11-14 |
# ロボット制御タスクにおけるメモリ要求をアクティブに削減する学習 Learning to Actively Reduce Memory Requirements for Robot Control Tasks ( http://arxiv.org/abs/2008.07451v2 ) ライセンス: Link先を確認 | Meghan Booker and Anirudha Majumdar | (参考訳) 長距離作業を行うリッチセンシングモード(例えばRGB-Dカメラ)を備えたロボットは、メモリ効率の高いポリシーの必要性を動機付けている。
ロボットを制御するための最先端のアプローチは、しばしばタスクに過剰にリッチなメモリ表現を使用するか、手作りのトリックをメモリ効率に頼っている。
代わりに、この作業は、メモリ表現とポリシーを共同で合成するための一般的なアプローチを提供する。
具体的には、低次元およびタスク中心のメモリ表現を用いたポリシーを合成するために、グループLASSO正規化の実装を活用する強化学習フレームワークを提案する。
本手法は, 離散空間および連続空間におけるナビゲーションや, フォトリアリスティックシミュレータにおける視覚に基づく屋内ナビゲーションセットなど, シミュレーション例を用いて, 実効性を示す。
これらの例から,本手法は低次元メモリ表現のみに依存するポリシーを見つけ,一般化を改善し,メモリ要求を積極的に低減できることを示す。 Robots equipped with rich sensing modalities (e.g., RGB-D cameras) performing long-horizon tasks motivate the need for policies that are highly memory-efficient. State-of-the-art approaches for controlling robots often use memory representations that are excessively rich for the task or rely on hand-crafted tricks for memory efficiency. Instead, this work provides a general approach for jointly synthesizing memory representations and policies; the resulting policies actively seek to reduce memory requirements. Specifically, we present a reinforcement learning framework that leverages an implementation of the group LASSO regularization to synthesize policies that employ low-dimensional and task-centric memory representations. We demonstrate the efficacy of our approach with simulated examples including navigation in discrete and continuous spaces as well as vision-based indoor navigation set in a photo-realistic simulator. The results on these examples indicate that our method is capable of finding policies that rely only on low-dimensional memory representations, improving generalization, and actively reducing memory requirements. | 翻訳日:2022-10-28 04:37:19 公開日:2020-11-14 |
# 2型糖尿病患者におけるxgboostによる心血管疾患のリスク評価の試み An explainable XGBoost-based approach towards assessing the risk of cardiovascular disease in patients with Type 2 Diabetes Mellitus ( http://arxiv.org/abs/2009.06629v2 ) ライセンス: Link先を確認 | Maria Athanasiou, Konstantina Sfrintzeri, Konstantia Zarkogianni, Anastasia C. Thanopoulou, and Konstantina S. Nikita | (参考訳) 糖尿病(DM)患者における心血管疾患(CVD)は障害と死亡の重要な原因である。
2型DM (T2DM) の国際的臨床ガイドラインは, 一次予防と二次予防に基礎を置いており, 適切な治療開始に向けたCVD関連危険因子の評価が望ましい。
CVDリスク予測モデルは、医療訪問頻度を最適化し、CVDイベントに対するタイムリーな予防および治療介入を行うための貴重なツールを提供することができる。
これらのモデルにおける説明可能性のモダリティの統合は、推論プロセスに対する人間の理解を高め、透明性を最大化し、臨床実践におけるモデルの採用に対する信頼を具現化する。
本研究の目的は、T2DM患者における致命的または非致死的CVDの発症に関するパーソナライズされたリスク予測モデルの開発と評価である。
eXtreme Gradient Boosting (XGBoost) と Tree SHAP (SHapley Additive exPlanations) 法に基づく説明可能なアプローチが,5年間のCVDリスクの計算と,モデルの決定に関する個々の説明を生成するために導入された。
t2dm患者560例の5年間の追跡データを用いて開発・評価を行った。
得られた結果(AUC = 71.13%)は、アンサンブルモデルの決定過程に関する臨床的に有意な洞察を提供しながら、使用データセットの非バランスな性質を扱うための提案手法の可能性を示している。 Cardiovascular Disease (CVD) is an important cause of disability and death among individuals with Diabetes Mellitus (DM). International clinical guidelines for the management of Type 2 DM (T2DM) are founded on primary and secondary prevention and favor the evaluation of CVD related risk factors towards appropriate treatment initiation. CVD risk prediction models can provide valuable tools for optimizing the frequency of medical visits and performing timely preventive and therapeutic interventions against CVD events. The integration of explainability modalities in these models can enhance human understanding on the reasoning process, maximize transparency and embellish trust towards the models' adoption in clinical practice. The aim of the present study is to develop and evaluate an explainable personalized risk prediction model for the fatal or non-fatal CVD incidence in T2DM individuals. An explainable approach based on the eXtreme Gradient Boosting (XGBoost) and the Tree SHAP (SHapley Additive exPlanations) method is deployed for the calculation of the 5-year CVD risk and the generation of individual explanations on the model's decisions. Data from the 5-year follow up of 560 patients with T2DM are used for development and evaluation purposes. The obtained results (AUC = 71.13%) indicate the potential of the proposed approach to handle the unbalanced nature of the used dataset, while providing clinically meaningful insights about the ensemble model's decision process. | 翻訳日:2022-10-18 11:59:17 公開日:2020-11-14 |
# TadGAN:生成逆ネットワークを用いた時系列異常検出 TadGAN: Time Series Anomaly Detection Using Generative Adversarial Networks ( http://arxiv.org/abs/2009.07769v3 ) ライセンス: Link先を確認 | Alexander Geiger, Dongyu Liu, Sarah Alnegheimish, Alfredo Cuesta-Infante, Kalyan Veeramachaneni | (参考訳) 時系列異常は、金融や航空宇宙、it、セキュリティ、医療分野など、さまざまな分野に直面する重要な状況に関連する情報を提供することができる。
しかしながら、時系列データの異常検出は、異常の曖昧な定義や、ラベルの頻繁な欠如、高度に複雑な時間相関のため、特に困難である。
異常検出のための最先端の教師なし機械学習手法は、スケーラビリティとポータビリティの問題に苦しんでおり、偽陽性率が高い可能性がある。
本稿では,GAN(Generative Adversarial Networks)に基づく教師なし異常検出手法であるTadGANを提案する。
時系列分布の時間的相関を捉えるため、LSTMリカレントニューラルネットワークをジェネレータと批評家のベースモデルとして用いる。
TadGANは、効率的な時系列データ再構成を可能にするために、サイクル一貫性の損失を訓練する。
さらに,再構成誤差を計算するための新しい手法と,再構成誤差と批判結果を組み合わせてアノマリースコアを計算するための異なる手法を提案する。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
我々は,nasa,yahoo,numenta,amazon,twitterなど複数のレポータブルソースからの11のデータセットにおける8つのベースライン異常検出手法と比較した。
その結果,11例中6例において,異常やベースライン法を効果的に検出できることがわかった。
特に,本手法は全データセットの平均F1スコアが最も高い。
私たちのコードはオープンソースで、ベンチマークツールとして利用できます。 Time series anomalies can offer information relevant to critical situations facing various fields, from finance and aerospace to the IT, security, and medical domains. However, detecting anomalies in time series data is particularly challenging due to the vague definition of anomalies and said data's frequent lack of labels and highly complex temporal correlations. Current state-of-the-art unsupervised machine learning methods for anomaly detection suffer from scalability and portability issues, and may have high false positive rates. In this paper, we propose TadGAN, an unsupervised anomaly detection approach built on Generative Adversarial Networks (GANs). To capture the temporal correlations of time series distributions, we use LSTM Recurrent Neural Networks as base models for Generators and Critics. TadGAN is trained with cycle consistency loss to allow for effective time-series data reconstruction. We further propose several novel methods to compute reconstruction errors, as well as different approaches to combine reconstruction errors and Critic outputs to compute anomaly scores. To demonstrate the performance and generalizability of our approach, we test several anomaly scoring techniques and report the best-suited one. We compare our approach to 8 baseline anomaly detection methods on 11 datasets from multiple reputable sources such as NASA, Yahoo, Numenta, Amazon, and Twitter. The results show that our approach can effectively detect anomalies and outperform baseline methods in most cases (6 out of 11). Notably, our method has the highest averaged F1 score across all the datasets. Our code is open source and is available as a benchmarking tool. | 翻訳日:2022-10-17 23:20:25 公開日:2020-11-14 |
# 空間注意生成型逆ネットワークによるリモートセンシング画像のクラウド除去 Cloud Removal for Remote Sensing Imagery via Spatial Attention Generative Adversarial Network ( http://arxiv.org/abs/2009.13015v2 ) ライセンス: Link先を確認 | Heng Pan | (参考訳) 光リモートセンシング画像は、高解像度で安定した幾何学的性質のため、多くの分野で広く利用されている。
しかし、リモートセンシングのイメージは必然的に気候、特に雲に影響される。
高解像度リモートセンシング衛星画像内の雲を取り除くことは、分析する前に必要不可欠な前処理である。
大規模なトレーニングデータのために、ニューラルネットワークは多くの画像処理タスクで成功したが、リモートセンシング画像の雲を取り除くためにニューラルネットワークを使うことは、まだ比較的小さい。
本稿では,この課題を解決し,リモートセンシング画像クラウド除去タスクに空間注意機構を導入し,人間の視覚機構を模倣した空間注意制御ネットワーク(spa gan)というモデルを提案し,クラウド領域を局所的空間的注意で認識・集中することにより,これらの領域の情報回復を促進し,雲のない画像を生成する。 Optical remote sensing imagery has been widely used in many fields due to its high resolution and stable geometric properties. However, remote sensing imagery is inevitably affected by climate, especially clouds. Removing the cloud in the high-resolution remote sensing satellite image is an indispensable pre-processing step before analyzing it. For the sake of large-scale training data, neural networks have been successful in many image processing tasks, but the use of neural networks to remove cloud in remote sensing imagery is still relatively small. We adopt generative adversarial network to solve this task and introduce the spatial attention mechanism into the remote sensing imagery cloud removal task, proposes a model named spatial attention generative adversarial network (SpA GAN), which imitates the human visual mechanism, and recognizes and focuses the cloud area with local-to-global spatial attention, thereby enhancing the information recovery of these areas and generating cloudless images with better quality... | 翻訳日:2022-10-13 22:25:59 公開日:2020-11-14 |
# 皮膚科における実世界のクラス不均衡問題への取り組み Addressing the Real-world Class Imbalance Problem in Dermatology ( http://arxiv.org/abs/2010.04308v2 ) ライセンス: Link先を確認 | Wei-Hung Weng, Jonathan Deaton, Vivek Natarajan, Gamaleldin F. Elsayed, Yuan Liu | (参考訳) クラス不均衡は医学的診断において一般的な問題であり、標準的な分類器は一般的なクラスに偏り、まれなクラスでは成績が悪い。
これは皮膚科において特に当てはまるもので、皮膚疾患は数千種類あるが、その多くは現実世界での有病率が低い。
近年の進歩に動機づけられ,スキン状態認識問題に対する従来型クラス不均衡法と同様に,少ないショット学習法を探求し,その実世界の有用性を評価するための評価設定を提案する。
従来のクラス不均衡手法では, 数点学習手法の性能は得られないが, 新たなアンサンブルを用いた2つのアプローチを組み合わせることで, 特にレアクラスでは, モデル性能が向上する。
提案手法はクラス不均衡問題に対処するのに有用であるが,新しい手法をベンチマークするための実世界評価設定によってさらに進歩を加速することができる。 Class imbalance is a common problem in medical diagnosis, causing a standard classifier to be biased towards the common classes and perform poorly on the rare classes. This is especially true for dermatology, a specialty with thousands of skin conditions but many of which have low prevalence in the real world. Motivated by recent advances, we explore few-shot learning methods as well as conventional class imbalance techniques for the skin condition recognition problem and propose an evaluation setup to fairly assess the real-world utility of such approaches. We find the performance of few-show learning methods does not reach that of conventional class imbalance techniques, but combining the two approaches using a novel ensemble improves model performance, especially for rare classes. We conclude that ensembling can be useful to address the class imbalance problem, yet progress can further be accelerated by real-world evaluation setups for benchmarking new methods. | 翻訳日:2022-10-09 04:48:01 公開日:2020-11-14 |
# 弱アノテーションを用いた統合分類・分節のための深部能動学習 Deep Active Learning for Joint Classification & Segmentation with Weak Annotator ( http://arxiv.org/abs/2010.04889v2 ) ライセンス: Link先を確認 | Soufiane Belharbi, Ismail Ben Ayed, Luke McCaffrey, Eric Granger | (参考訳) クラスアクティベーションマップ(cams)のようなcnnの可視化と解釈手法は、一般的にクラス予測に関連付けられた画像領域を強調するために使用される。
これらのモデルは、画像の同時分類とクラス依存の唾液マップの抽出を可能にする。
しかし、通常は偽陽性率の高いセグメンテーションを生じさせ、それゆえ、組織学で見られるような困難な画像を処理する場合よりも粗い視認性をもたらす。
この問題を軽減するため,我々は,学習中にピクセルレベルのアノテーションを段階的に統合するアクティブラーニング(al)フレームワークを提案する。
グローバルな画像レベルのラベルを用いたトレーニングデータから,教師付き画像レベルの分類とセグメンテーションのための能動的学習を共同で行い,オラクルによる画素アノテーションを統合する。
サンプル選択にフォーカスする標準的なALメソッドとは異なり、擬似セグメンテーション(ピクセルレベルでの自己学習)を通じて多数の未ラベル画像を活用し、訓練中にオラクルに注釈付けされたサンプルと統合する。
高分解能な医用画像(大腸癌の病理組織学的Glasデータ)と自然画像(鳥のCUB-200-2011)の2つのベンチマークについて広範な実験を行った。
提案手法は, ランダムサンプル選択を単純に使用すれば, 同一のオラクル・スーパービジョン予算で, 最先端のCAMとALの手法を著しく上回り得ることを示す。
私たちのコードは公開されています。 CNN visualization and interpretation methods, like class-activation maps (CAMs), are typically used to highlight the image regions linked to class predictions. These models allow to simultaneously classify images and extract class-dependent saliency maps, without the need for costly pixel-level annotations. However, they typically yield segmentations with high false-positive rates and, therefore, coarse visualisations, more so when processing challenging images, as encountered in histology. To mitigate this issue, we propose an active learning (AL) framework, which progressively integrates pixel-level annotations during training. Given training data with global image-level labels, our deep weakly-supervised learning model jointly performs supervised image-level classification and active learning for segmentation, integrating pixel annotations by an oracle. Unlike standard AL methods that focus on sample selection, we also leverage large numbers of unlabeled images via pseudo-segmentations (i.e., self-learning at the pixel level), and integrate them with the oracle-annotated samples during training. We report extensive experiments over two challenging benchmarks -- high-resolution medical images (histology GlaS data for colon cancer) and natural images (CUB-200-2011 for bird species). Our results indicate that, by simply using random sample selection, the proposed approach can significantly outperform state-of the-art CAMs and AL methods, with an identical oracle-supervision budget. Our code is publicly available. | 翻訳日:2022-10-08 22:45:11 公開日:2020-11-14 |
# 深層学習を用いたペルシャ手書きディジット・文字・単語認識 Persian Handwritten Digit, Character and Word Recognition Using Deep Learning ( http://arxiv.org/abs/2010.12880v2 ) ライセンス: Link先を確認 | Mehdi Bonyani, Simindokht Jahangard, Morteza Daneshmand | (参考訳) 特定のスクリプトに対するディジット、レター、ワード認識は、今日の商業的文脈において様々な応用がある。
それにもかかわらず、ペルシャ文字を扱う研究はごく少数のみである。
本稿では,様々なDensNetアーキテクチャとXceptionを用いて深層ニューラルネットワークを応用し,データ拡張とテスト時間拡張により,ペルシア語と対応する手書き文字の特異性を考慮した光学的文字認識を実現する。
データベースをトレーニング、検証、テストセットに分割し、k-foldクロス検証を活用し、提案手法と最先端の代替案の比較をhodaデータベースとsadriデータベースに基づいて行う。
HODAデータベースでは、文字と文字の認識率は99.72%と89.99%で、それぞれ99.72%、98.32%、98.82%である。 Digit, letter and word recognition for a particular script has various applications in todays commercial contexts. Nevertheless, only a limited number of relevant studies have dealt with Persian scripts. In this paper, deep neural networks are utilized through various DensNet architectures, as well as the Xception, are adopted, modified and further boosted through data augmentation and test time augmentation, in order to come up with an optical character recognition accounting for the particularities of the Persian language and the corresponding handwritings. Taking advantage of dividing the databases to training, validation and test sets, as well as k-fold cross validation, the comparison of the proposed method with various state-of-the-art alternatives is performed on the basis of the HODA and Sadri databases, which offer the most comprehensive collection of samples in terms of the various handwriting styles possessed by different human beings, as well as different forms each letter may take, which depend on its position within a word. On the HODA database, we achieve recognition rates of 99.72% and 89.99% for digits and characters, being 99.72%, 98.32% and 98.82% for digits, characters and words from the Sadri database, respectively. | 翻訳日:2022-10-03 13:19:54 公開日:2020-11-14 |
# 一般ランダム林を用いた郡レベルCOVID-19指数成長率の推定 Estimating County-Level COVID-19 Exponential Growth Rates Using Generalized Random Forests ( http://arxiv.org/abs/2011.01219v4 ) ライセンス: Link先を確認 | Zhaowei She, Zilong Wang, Turgay Ayer, Asmae Toumi, Jagpreet Chhatwal | (参考訳) コミュニティアウトブレイクの迅速かつ正確な検出は、covid-19の復活波の脅威に対処するために不可欠である。
アウトブレイク検出の実際的な課題は、精度と速度のバランスである。
特に、より長い嵌合窓で推定精度が向上する一方、速度は低下する。
本稿では,一般化ランダム林(grf)を用いて,このトレードオフのバランスをとるための機械学習フレームワークを提案する。
本アルゴリズムは, 地域ごとの適応窓の大きさを, 社会的分散政策の変化など, 感染拡大に影響を及ぼす特徴に基づいて選択する。
実験の結果,本手法は7日間のcovid-19感染者数予測において,非適応ウィンドウサイズ選択よりも優れていた。 Rapid and accurate detection of community outbreaks is critical to address the threat of resurgent waves of COVID-19. A practical challenge in outbreak detection is balancing accuracy vs. speed. In particular, while estimation accuracy improves with longer fitting windows, speed degrades. This paper presents a machine learning framework to balance this tradeoff using generalized random forests (GRF), and applies it to detect county level COVID-19 outbreaks. This algorithm chooses an adaptive fitting window size for each county based on relevant features affecting the disease spread, such as changes in social distancing policies. Experiment results show that our method outperforms any non-adaptive window size choices in 7-day ahead COVID-19 outbreak case number predictions. | 翻訳日:2022-10-01 05:12:42 公開日:2020-11-14 |
# 定常ホモロジー勾配計算の正規化 Regularization of Persistent Homology Gradient Computation ( http://arxiv.org/abs/2011.05804v2 ) ライセンス: Link先を確認 | Padraig Corcoran, Bailin Deng | (参考訳) 永続ホモロジー(Persistent homology)は、与えられたデータに存在する位相的特徴を計算する方法である。
近年、ニューラルネットワークやディープラーニングにおける計算ステップとしての持続的ホモロジーの統合に多くの関心が寄せられている。
与えられた計算をそのような方法で統合するためには、問題の計算は微分可能である必要がある。
永続ホモロジーの勾配を計算することは無限に多くの解を持つ逆問題である。
したがって、得られた解が既知の先行と一致するように正則化を行うことが重要である。
本研究では,グループ化項の追加による永続的ホモロジー勾配計算の正規化手法を提案する。
これは、勾配が個々の点ではなくより大きな実体に対して定義されることを保証するのに役立つ。 Persistent homology is a method for computing the topological features present in a given data. Recently, there has been much interest in the integration of persistent homology as a computational step in neural networks or deep learning. In order for a given computation to be integrated in such a way, the computation in question must be differentiable. Computing the gradients of persistent homology is an ill-posed inverse problem with infinitely many solutions. Consequently, it is important to perform regularization so that the solution obtained agrees with known priors. In this work we propose a novel method for regularizing persistent homology gradient computation through the addition of a grouping term. This has the effect of helping to ensure gradients are defined with respect to larger entities and not individual points. | 翻訳日:2022-09-26 23:24:50 公開日:2020-11-14 |
# CatFedAvg:フェデレーション学習におけるコミュニケーション効率と分類精度の最適化 CatFedAvg: Optimising Communication-efficiency and Classification Accuracy in Federated Learning ( http://arxiv.org/abs/2011.07229v1 ) ライセンス: Link先を確認 | Dipankar Sarkar, Sumit Rai, Ankur Narang | (参考訳) フェデレーション学習は、生のクライアントデータを転送することなく、リモートデバイス上で統計モデルのトレーニングを可能にする。
実際には、ヘテロジニアスネットワークや大規模ネットワークでのトレーニングは、ネットワーク負荷、クライアントデータの品質、セキュリティ、プライバシなど、さまざまな面で新たな課題をもたらす。
FLにおける最近の研究は、コミュニケーション効率の改善と、不均一なクライアントデータ分散への対処に独立して取り組んでいるが、どちらも統一されたソリューションを提供していない。
そこで我々はCatFedAvgというフェデレート学習アルゴリズムを新たに導入し,コミュニケーション効率を向上するだけでなく,カテゴリカバレッジの最大化戦略を用いて学習の質を向上させる。
fedavgフレームワークを使用して、中央サーバが重み付け更新のサブセットを要求するために使用するクライアントのトレーニングデータ構造に関するメタデータを収集するために、エポック毎にシンプルで効率的なステップを導入します。
コミュニケーション効率とモデルの精度のトレードオフをさらに探究する上で,2つの異なるバリエーションを検討した。
視覚分類タスクに基づく実験により,FedAvgよりもネットワーク転送率が70%低いMNISTデータセットを用いて,10%の絶対点の精度向上が示された。
また,Fashion MNIST, KMNIST-10, KMNIST-49, EMNIST-47でも同様の実験を行った。
さらに、グローバルクライアントと個別クライアントの両方に対する極端なデータ不均衡実験では、モデルの性能はFedAvgより優れている。
アブレーション研究は,提案手法のロバスト性を示す様々なデータおよびクライアントパラメータ条件下での挙動をさらに探究する。 Federated learning has allowed the training of statistical models over remote devices without the transfer of raw client data. In practice, training in heterogeneous and large networks introduce novel challenges in various aspects like network load, quality of client data, security and privacy. Recent works in FL have worked on improving communication efficiency and addressing uneven client data distribution independently, but none have provided a unified solution for both challenges. We introduce a new family of Federated Learning algorithms called CatFedAvg which not only improves the communication efficiency but improves the quality of learning using a category coverage maximization strategy. We use the FedAvg framework and introduce a simple and efficient step every epoch to collect meta-data about the client's training data structure which the central server uses to request a subset of weight updates. We explore two distinct variations which allow us to further explore the tradeoffs between communication efficiency and model accuracy. Our experiments based on a vision classification task have shown that an increase of 10% absolute points in accuracy using the MNIST dataset with 70% absolute points lower network transfer over FedAvg. We also run similar experiments with Fashion MNIST, KMNIST-10, KMNIST-49 and EMNIST-47. Further, under extreme data imbalance experiments for both globally and individual clients, we see the model performing better than FedAvg. The ablation study further explores its behaviour under varying data and client parameter conditions showcasing the robustness of the proposed approach. | 翻訳日:2022-09-25 14:08:30 公開日:2020-11-14 |
# ドメイン特化リカレントニューラルネットワークを用いたイオンモデルにおける隠れ状態の発見 Discovery of the Hidden State in Ionic Models Using a Domain-Specific Recurrent Neural Network ( http://arxiv.org/abs/2011.07388v1 ) ライセンス: Link先を確認 | Shahriar Iravanian | (参考訳) イオンモデルは、興奮性細胞の状態の時間発展を記述する常微分方程式(odes)の集合であり、神経および心臓の電気生理学におけるモデリングの基礎である。
最新のionicモデルは、数十の状態変数と数百の可変パラメータを持つことができる。
通常、状態変数の限られたサブセットのみをカバーする実験データにイオンモデルを適用することは、依然として難しい問題である。
本稿では,ionicモデルを符号化するために設計されたリカレントニューラルネットワークアーキテクチャについて述べる。
モデルの中核はゲーティングニューラルネットワーク(gnn)層であり、古典的な(ホジキン・ハクスリー)ゲーティング変数のダイナミクスをキャプチャする。
ネットワークは2つのステップでトレーニングされる: まず、odeでコード化された理論モデルを学び、次に実験データで再トレーニングする。
再トレーニングされたネットワークは解釈可能であり、その結果をモデルODEに組み込むことができる。
我々は、模擬心室活動電位信号を用いてGNNネットワークを試験し、生理的に可能なイオン電流の変化を誘発できることを示した。
このようなドメイン固有ニューラルネットワークは、標準的な最適化技術を使ってさらに微調整する前に、データ同化の探索的フェーズで使用できる。 Ionic models, the set of ordinary differential equations (ODEs) describing the time evolution of the state of excitable cells, are the cornerstone of modeling in neuro- and cardiac electrophysiology. Modern ionic models can have tens of state variables and hundreds of tunable parameters. Fitting ionic models to experimental data, which usually covers only a limited subset of state variables, remains a challenging problem. In this paper, we describe a recurrent neural network architecture designed specifically to encode ionic models. The core of the model is a Gating Neural Network (GNN) layer, capturing the dynamics of classic (Hodgkin-Huxley) gating variables. The network is trained in two steps: first, it learns the theoretical model coded in a set of ODEs, and second, it is retrained on experimental data. The retrained network is interpretable, such that its results can be incorporated back into the model ODEs. We tested the GNN networks using simulated ventricular action potential signals and showed that it could deduce physiologically-feasible alterations of ionic currents. Such domain-specific neural networks can be employed in the exploratory phase of data assimilation before further fine-tuning using standard optimization techniques. | 翻訳日:2022-09-25 14:08:06 公開日:2020-11-14 |
# 質量結核バーバルスクリーニングのためのコスト感性機械学習分類 Cost-Sensitive Machine Learning Classification for Mass Tuberculosis Verbal Screening ( http://arxiv.org/abs/2011.07396v1 ) ライセンス: Link先を確認 | Ali Akbar Septiandri, Aditiawarman, Roy Tjiong, Erlina Burhan, Anuraj Shankar | (参考訳) 結核 (TB) 言語スクリーニングのためのスコアベースアルゴリズムは, 誤分類の原因となり, 偽陽性の検査に要する費用がかかる。
臨床医が定義したスコアベース分類を,SVM-RBF,ロジスティック回帰,XGBoostなどの機械学習分類と比較した。
tbに最も影響を受ける個体群である成人のデータに分析を限定し,未調整分類群と非重み付け分類群とコストに敏感な個体群の違いを調査した。
予測は対応するGeneXpert MTB/Rifの結果と比較した。
xgboostの陽性クラスの重量を40に調整した結果、96.64%の感度と35.06%の特異性を得た。
その結果, 識別感度は1.26%上昇し, 特異度は13.19%上昇した。
我々のアプローチはさらに、モデルを収束させるのに十分なデータポイントは2000点しかないことを実証した。
その結果, 限られたデータであっても, tb被疑者を言語スクリーニングから識別するより良い方法が提案できることがわかった。 Score-based algorithms for tuberculosis (TB) verbal screening perform poorly, causing misclassification that leads to missed cases and unnecessary costly laboratory tests for false positives. We compared score-based classification defined by clinicians to machine learning classification such as SVM-RBF, logistic regression, and XGBoost. We restricted our analyses to data from adults, the population most affected by TB, and investigated the difference between untuned and unweighted classifiers to the cost-sensitive ones. Predictions were compared with the corresponding GeneXpert MTB/Rif results. After adjusting the weight of the positive class to 40 for XGBoost, we achieved 96.64% sensitivity and 35.06% specificity. As such, the sensitivity of our identifier increased by 1.26% while specificity increased by 13.19% in absolute value compared to the traditional score-based method defined by our clinicians. Our approach further demonstrated that only 2000 data points were sufficient to enable the model to converge. The results indicate that even with limited data we can actually devise a better method to identify TB suspects from verbal screening. | 翻訳日:2022-09-25 14:04:51 公開日:2020-11-14 |
# 単一発作脳波記録を用いた患者特異的発作予測 Patient-Specific Seizure Prediction Using Single Seizure Electroencephalography Recording ( http://arxiv.org/abs/2011.08982v1 ) ライセンス: Link先を確認 | Zaid Bin Tariq, Arun Iyengar, Lara Marcuse, Hui Su, B\"ulent Yener | (参考訳) 脳波(Electroencephalogram、EEG)はてんかんの研究において脳活動を測定する重要な方法である。
セイズーレ予測は,近年の文献を圧倒する深層学習に基づくアプローチが多数ある活発な研究領域である。
しかし、これらのモデルでは、分類器を訓練するために、前頭および間頭脳波データを抽出するために記録される患者固有の発作をかなり多く要求する。
機械学習モデルを用いた発作予測の感度と特異性の増加は注目に値する。
しかし、非定常脳波による患者固有の発作や定期的なモデル再訓練の必要性は、患者のための実用的な装置の設計に困難をもたらす。
この過程を緩和するために、ウェーブレット変換されたEEGテンソルを畳み込みニューラルネットワーク(CNN)を入力として、脳波の変化点を検出する基盤ネットワークとするシームズニューラルネットワークに基づく発作予測手法を提案する。
脳波記録の日数を用いる文献の解法と比較すると,本手法は10分以内の前期および間期データに変換する訓練のための1回の発作のみを必要とするが,複数の発作を発作予測に利用するモデルと比較すると同等の結果が得られる。 Electroencephalogram (EEG) is a prominent way to measure the brain activity for studying epilepsy, thereby helping in predicting seizures. Seizure prediction is an active research area with many deep learning based approaches dominating the recent literature for solving this problem. But these models require a considerable number of patient-specific seizures to be recorded for extracting the preictal and interictal EEG data for training a classifier. The increase in sensitivity and specificity for seizure prediction using the machine learning models is noteworthy. However, the need for a significant number of patient-specific seizures and periodic retraining of the model because of non-stationary EEG creates difficulties for designing practical device for a patient. To mitigate this process, we propose a Siamese neural network based seizure prediction method that takes a wavelet transformed EEG tensor as an input with convolutional neural network (CNN) as the base network for detecting change-points in EEG. Compared to the solutions in the literature, which utilize days of EEG recordings, our method only needs one seizure for training which translates to less than ten minutes of preictal and interictal data while still getting comparable results to models which utilize multiple seizures for seizure prediction. | 翻訳日:2022-09-25 14:03:59 公開日:2020-11-14 |
# 自殺予防のための行動変化のパッシブ検出 Passive detection of behavioral shifts for suicide attempt prevention ( http://arxiv.org/abs/2011.09848v1 ) ライセンス: Link先を確認 | Pablo Moreno-Mu\~noz, Lorena Romero-Medrano, \'Angela Moreno, Jes\'us Herrera-L\'opez, Enrique Baca-Garc\'ia and Antonio Art\'es-Rodr\'iguez | (参考訳) 毎年100万人以上が自殺している。
日々のケア、社会的汚名、治療のコストは、精神の健康を克服するのは難しい障壁である。
精神障害のほとんどの症状は、移動性や社会的活動などの患者の行動状態と関連している。
モバイルベースの技術は、患者データの受動的収集を可能にし、偏りのあるアンケートや時々の医療予約に依存する従来の評価を補完する。
本研究では,スマートフォンアプリから収集した非侵襲的データから精神科患者の行動変化を検出する非侵襲的機械学習(ML)モデルを提案する。
臨床検査の結果から,自殺未遂対策のための早期発見モバイルツールのアイデアが明らかになった。 More than one million people commit suicide every year worldwide. The costs of daily cares, social stigma and treatment issues are still hard barriers to overcome in mental health. Most symptoms of mental disorders are related to the behavioral state of a patient, such as the mobility or social activity. Mobile-based technologies allow the passive collection of patients data, which supplements conventional assessments that rely on biased questionnaires and occasional medical appointments. In this work, we present a non-invasive machine learning (ML) model to detect behavioral shifts in psychiatric patients from unobtrusive data collected by a smartphone app. Our clinically validated results shed light on the idea of an early detection mobile tool for the task of suicide attempt prevention. | 翻訳日:2022-09-25 14:03:36 公開日:2020-11-14 |
# 複合プロテイン親和性と接触予測のためのクロスモーダルタンパク質埋め込み Cross-Modality Protein Embedding for Compound-Protein Affinity and Contact Prediction ( http://arxiv.org/abs/2012.00651v1 ) ライセンス: Link先を確認 | Yuning You, Yang Shen | (参考訳) 化合物タンパク質対はFDAが承認した薬物標的対を支配し、化合物タンパク質親和性と接触(CPAC)の予測は薬物発見の促進に役立つ。
本研究では,タンパク質を1Dアミノ酸配列と2D残基ペア接触マップを含むマルチモーダルデータとみなす。
CPAC予測の精度と一般化性(構造のない解釈可能な複合タンパク質親和性予測)における2つの単一モダリティの埋め込みを実験的に評価した。
個々のモダリティの埋め込みと一般化可能な埋め込み-ラベル関係の学習という課題において,それらのパフォーマンスを合理化する。
さらに, クロスモダリティタンパク質の埋め込みを含む2つのモデルを提案し, 相互相互作用(モダリティ間の相関を捉える)を持つモデルが, トレーニングセットにないタンパク質の親和性, 接触性, 結合部位予測において, SOTAおよび我々の単一モダリティモデルより優れていることを示す。 Compound-protein pairs dominate FDA-approved drug-target pairs and the prediction of compound-protein affinity and contact (CPAC) could help accelerate drug discovery. In this study we consider proteins as multi-modal data including 1D amino-acid sequences and (sequence-predicted) 2D residue-pair contact maps. We empirically evaluate the embeddings of the two single modalities in their accuracy and generalizability of CPAC prediction (i.e. structure-free interpretable compound-protein affinity prediction). And we rationalize their performances in both challenges of embedding individual modalities and learning generalizable embedding-label relationship. We further propose two models involving cross-modality protein embedding and establish that the one with cross interaction (thus capturing correlations among modalities) outperforms SOTAs and our single modality models in affinity, contact, and binding-site predictions for proteins never seen in the training set. | 翻訳日:2022-09-25 14:03:26 公開日:2020-11-14 |
# データ駆動予測のためのメタモデリング戦略 Meta-modeling strategy for data-driven forecasting ( http://arxiv.org/abs/2012.00678v1 ) ライセンス: Link先を確認 | Dominic J. Skinner and Romit Maulik | (参考訳) 正確な天気予報は気候変動の緩和の鍵となる要件である。
データ駆動型手法は、より正確な予測を行う能力を提供するが、解釈可能性に欠け、モデルが慎重に開発されていない場合は、トレーニングとデプロイに費用がかかる。
ここでは,2つの歴史的気候データセットと機械学習のツールを用いて,温度場を正確に予測する。
さらに, 訓練や評価に安価な低忠実度モデルを用いて, 高価な高忠実度関数評価を選択的に回避するとともに, 予測力の季節変動を明らかにすることができる。
これにより、計算効率の良い物理エミュレーションのための適応的なトレーニング戦略が可能になる。 Accurately forecasting the weather is a key requirement for climate change mitigation. Data-driven methods offer the ability to make more accurate forecasts, but lack interpretability and can be expensive to train and deploy if models are not carefully developed. Here, we make use of two historical climate data sets and tools from machine learning, to accurately predict temperature fields. Furthermore, we are able to use low fidelity models that are cheap to train and evaluate, to selectively avoid expensive high fidelity function evaluations, as well as uncover seasonal variations in predictive power. This allows for an adaptive training strategy for computationally efficient geophysical emulation. | 翻訳日:2022-09-25 14:03:07 公開日:2020-11-14 |
# 針型深層神経ネットワークカメラ A needle-based deep-neural-network camera ( http://arxiv.org/abs/2011.07184v1 ) ライセンス: Link先を確認 | Ruipeng Guo, Soren Nelson, and Rajesh Menon | (参考訳) 物体面(35cm離れた)から対端まで光強度を輸送する光管として作用するカンヌラ(直径=0.22mm、長さ=1.2.5mm)を主視するカメラを実験的に実証する。
ディープニューラルネットワーク(DNN)は180の視野と約0.40の角分解能で色とグレースケールの画像の再構成に用いられる。
深度情報のある画像でトレーニングを行うと、DNNは深度マップを作成することができる。
最後に,画像再構成を伴わないEMNISTデータセットのDNNに基づく分類を示す。
前者はプライバシーを強化した画像撮影に有用かもしれない。 We experimentally demonstrate a camera whose primary optic is a cannula (diameter=0.22mm and length=12.5mm) that acts a lightpipe transporting light intensity from an object plane (35cm away) to its opposite end. Deep neural networks (DNNs) are used to reconstruct color and grayscale images with field of view of 180 and angular resolution of ~0.40. When trained on images with depth information, the DNN can create depth maps. Finally, we show DNN-based classification of the EMNIST dataset without and with image reconstructions. The former could be useful for imaging with enhanced privacy. | 翻訳日:2022-09-25 14:02:37 公開日:2020-11-14 |
# 微分プライベートフェデレーション型マルチタスク学習の理論的展望 A Theoretical Perspective on Differentially Private Federated Multi-task Learning ( http://arxiv.org/abs/2011.07179v1 ) ライセンス: Link先を確認 | Huiwen Wu and Cen Chen and Li Wang | (参考訳) ビッグデータの時代には、データ共有を通じてデータ量を拡大してモデルのパフォーマンスを向上させる必要性がますます高まっている。
その結果,プライバシとユーティリティの両方に関して,効果的な協調学習モデルの開発が求められる。
本研究では,クライアントレベルでの勾配を保護するために,差分プライバシを用いた効果的なパラメータ転送のための多タスク学習手法を提案する。
具体的には、ネットワークの下位層は転送可能な特徴表現をキャプチャするために全クライアント間で共有され、上位層はクライアント上でのパーソナライズのためのタスク固有である。
提案アルゴリズムは,フェデレートネットワークにおける統計的不均一性問題を自然に解決する。
私たちは、知識を最大限に活用するために、このようなフェデレーションアルゴリズムに対して、プライバシとユーティリティの両保証を最初に提供しています。
この収束は、非凸、凸、強い凸設定の下でのリプシッツ滑らかな客観的関数の場合で証明される。
提案アルゴリズムの有効性を実証し, 理論的結果の影響を検証するために, 異なるデータセットの実証実験を行った。 In the era of big data, the need to expand the amount of data through data sharing to improve model performance has become increasingly compelling. As a result, effective collaborative learning models need to be developed with respect to both privacy and utility concerns. In this work, we propose a new federated multi-task learning method for effective parameter transfer with differential privacy to protect gradients at the client level. Specifically, the lower layers of the networks are shared across all clients to capture transferable feature representation, while top layers of the network are task-specific for on-client personalization. Our proposed algorithm naturally resolves the statistical heterogeneity problem in federated networks. We are, to the best of knowledge, the first to provide both privacy and utility guarantees for such a proposed federated algorithm. The convergences are proved for the cases with Lipschitz smooth objective functions under the non-convex, convex, and strongly convex settings. Empirical experiment results on different datasets have been conducted to demonstrate the effectiveness of the proposed algorithm and verify the implications of the theoretical findings. | 翻訳日:2022-09-25 14:02:27 公開日:2020-11-14 |
# 胸部X線による気胸と胸部管の分類による気胸の発見 Pneumothorax and chest tube classification on chest x-rays for detection of missed pneumothorax ( http://arxiv.org/abs/2011.07353v1 ) ライセンス: Link先を確認 | Benedikt Graf, Arkadiusz Sitek, Amin Katouzian, Yen-Fu Lu, Arun Krishnan, Justin Rafael, Kirstin Small, Yiting Xie | (参考訳) 胸部x線撮影は気胸の診断に広く用いられており、画像解釈を支援する自動化方法の開発にも大きな関心が寄せられている。
気胸の治療に用いられる各種胸管と同様に気胸を検知する画像分類パイプラインを提案する。
多段階のアルゴリズムは肺の分節と肺気胸の分類に基づいており、気胸を含む可能性が最も高いパッチの分類を含む。
このアルゴリズムは,オープンソースベンチマークデータセットを用いた気胸分類における技量評価を実現する。
従来の研究とは異なり、このアルゴリズムは胸管の有無と同等の性能を示し、臨床効果も向上している。
これらのアルゴリズムを現実的な臨床シナリオで評価するために,胸部x線研究の大規模データセットにおいて気胸の欠如例を同定する能力を示す。 Chest x-ray imaging is widely used for the diagnosis of pneumothorax and there has been significant interest in developing automated methods to assist in image interpretation. We present an image classification pipeline which detects pneumothorax as well as the various types of chest tubes that are commonly used to treat pneumothorax. Our multi-stage algorithm is based on lung segmentation followed by pneumothorax classification, including classification of patches that are most likely to contain pneumothorax. This algorithm achieves state of the art performance for pneumothorax classification on an open-source benchmark dataset. Unlike previous work, this algorithm shows comparable performance on data with and without chest tubes and thus has an improved clinical utility. To evaluate these algorithms in a realistic clinical scenario, we demonstrate the ability to identify real cases of missed pneumothorax in a large dataset of chest x-ray studies. | 翻訳日:2022-09-25 13:56:21 公開日:2020-11-14 |
# プライバシ保存姿勢推定による人とロボットのインタラクション Privacy-Preserving Pose Estimation for Human-Robot Interaction ( http://arxiv.org/abs/2011.07387v1 ) ライセンス: Link先を確認 | Youya Xia, Yifan Tang, Yuhan Hu and Guy Hoffman | (参考訳) ポース推定は非言語的人間とロボットの相互作用において重要な手法である。
とはいえ、人の空間にカメラがあることはプライバシーの懸念を高め、ロボットに不信をもたらす可能性がある。
本稿では,プライバシ保護カメラを用いたポーズ推定手法を提案する。
提案システムでは,カメラを覆うユーザの制御する半透明フィルタと,フィルタされた(シャドウ)画像からのポーズ推定を容易にするように設計された画像強調モジュールから構成される。
我々は,カメラからの距離,背景散乱,膜厚の影響を考慮して,新しいフィルタ画像データセット上での性能を評価する。
以上の結果から,本システムは人間のポーズ情報を効果的に検出しながら,人間のプライバシーを保護できると結論づけた。 Pose estimation is an important technique for nonverbal human-robot interaction. That said, the presence of a camera in a person's space raises privacy concerns and could lead to distrust of the robot. In this paper, we propose a privacy-preserving camera-based pose estimation method. The proposed system consists of a user-controlled translucent filter that covers the camera and an image enhancement module designed to facilitate pose estimation from the filtered (shadow) images, while never capturing clear images of the user. We evaluate the system's performance on a new filtered image dataset, considering the effects of distance from the camera, background clutter, and film thickness. Based on our findings, we conclude that our system can protect humans' privacy while detecting humans' pose information effectively. | 翻訳日:2022-09-25 13:55:57 公開日:2020-11-14 |
# Res-CR-Netを用いた胸部X線における肺分画 Lung Segmentation in Chest X-rays with Res-CR-Net ( http://arxiv.org/abs/2011.08655v1 ) ライセンス: Link先を確認 | Haikal Abdulah, Benjamin Huber, Sinan Lal, Hassan Abdallah, Hamid Soltanian-Zadeh, Domenico L. Gatti | (参考訳) ディープニューラルネットワーク(DNN)は、バイオメディカルイメージのセグメンテーションタスクの実行に広く利用されている。
この目的のために開発されたほとんどのDNNはエンコーダデコーダU-Netアーキテクチャのバリエーションに基づいている。
本稿では,顕微鏡画像のセマンティックセグメンテーションのために開発された新しいタイプの完全畳み込みニューラルネットワークであるRes-CR-Netが,健常者,各種肺疾患患者の胸部X線における肺野のセグメンテーションに極めて有効であることを示す。 Deep Neural Networks (DNN) are widely used to carry out segmentation tasks in biomedical images. Most DNNs developed for this purpose are based on some variation of the encoder-decoder U-Net architecture. Here we show that Res-CR-Net, a new type of fully convolutional neural network, which was originally developed for the semantic segmentation of microscopy images, and which does not adopt a U-Net architecture, is very effective at segmenting the lung fields in chest X-rays from either healthy patients or patients with a variety of lung pathologies. | 翻訳日:2022-09-25 13:55:44 公開日:2020-11-14 |
# ロボット共存空間の設計 Designing Human-Robot Coexistence Space ( http://arxiv.org/abs/2011.07374v1 ) ライセンス: Link先を確認 | Jixuan Zhi, Lap-Fai Yu and Jyh-Ming Lien | (参考訳) 人間とロボットの相互作用がユビキタスになると、これらの相互作用を取り巻く環境は人間の安全と快適さ、ロボットの有効性と効率に大きな影響を与える。
ほとんどのロボットは人間のために作られた空間で作業するように設計されているが、リビングルームやオフィスなど多くの環境は人間とロボットのコラボレーションと相互作用を強化し改善するために再設計されるべきである。
本研究は、自律車椅子を例として、人間とロボットの共存空間における計算設計を考察する。
部屋の大きさと部屋内のオブジェクト$O$を考えると、提案するフレームワークは車椅子の人間の好みとナビゲーションの制約を満足する$O$の最適レイアウトを計算する。
重要な実現技術は、何百もの同様の動き計画問題を効率的に評価できるモーションプランナーである。
提案手法は,提案手法を適用せずに,平均3分から5分程度の設計を10分から20分程度で行うことができることを示す。
また,提案手法は,タイトな空間や好みの異なるユーザに対しても,合理的な設計となることを示す。 When the human-robot interactions become ubiquitous, the environment surrounding these interactions will have significant impact on the safety and comfort of the human and the effectiveness and efficiency of the robot. Although most robots are designed to work in the spaces created for humans, many environments, such as living rooms and offices, can be and should be redesigned to enhance and improve human-robot collaboration and interactions. This work uses autonomous wheelchair as an example and investigates the computational design in the human-robot coexistence spaces. Given the room size and the objects $O$ in the room, the proposed framework computes the optimal layouts of $O$ that satisfy both human preferences and navigation constraints of the wheelchair. The key enabling technique is a motion planner that can efficiently evaluate hundreds of similar motion planning problems. Our implementation shows that the proposed framework can produce a design around three to five minutes on average comparing to 10 to 20 minutes without the proposed motion planner. Our results also show that the proposed method produces reasonable designs even for tight spaces and for users with different preferences. | 翻訳日:2022-09-25 13:55:33 公開日:2020-11-14 |
# 分子振動を用いた深部空間学習 Deep Spatial Learning with Molecular Vibration ( http://arxiv.org/abs/2011.07200v1 ) ライセンス: Link先を確認 | Ziyang Zhang and Yingtao Luo | (参考訳) データ不足による機械学習の過度な適合は、機械学習の分子への応用を著しく制限する。
製造プロセスの違いにより、ビッグデータは計算化学の手法によって何らかのタスクで利用できるとは限らないため、機械学習アルゴリズムにデータ不足の問題が発生する。
本稿では、分子構造の自然な特徴を抽出し、データ可用性を高めるために合理的に歪めることを提案する。
この方法では、機械学習プロジェクトで物理情報の拡張の強力な適合を利用して予測精度を大幅に向上させることができる。
薄膜ポリアミドナノ濾過膜の拒絶率とフラックスの予測によって検証され、相対誤差が16.34%から6.71%に低下し、判定係数が0.16から0.75に上昇した。
実験的な比較は、一般的な学習アルゴリズムよりも優れていることを示す。 Machine learning over-fitting caused by data scarcity greatly limits the application of machine learning for molecules. Due to manufacturing processes difference, big data is not always rendered available through computational chemistry methods for some tasks, causing data scarcity problem for machine learning algorithms. Here we propose to extract the natural features of molecular structures and rationally distort them to augment the data availability. This method allows a machine learning project to leverage the powerful fit of physics-informed augmentation for providing significant boost to predictive accuracy. Successfully verified by the prediction of rejection rate and flux of thin film polyamide nanofiltration membranes, with the relative error dropping from 16.34% to 6.71% and the coefficient of determination rising from 0.16 to 0.75, the proposed deep spatial learning with molecular vibration is widely instructive for molecular science. Experimental comparison unequivocally demonstrates its superiority over common learning algorithms. | 翻訳日:2022-09-25 13:54:58 公開日:2020-11-14 |
# 近傍制御文法を用いた強化分子最適化 Reinforced Molecular Optimization with Neighborhood-Controlled Grammars ( http://arxiv.org/abs/2011.07225v1 ) ライセンス: Link先を確認 | Chencheng Xu, Qiao Liu, Minlie Huang, Tao Jiang | (参考訳) 製薬業界における大きな課題は、特に特性評価が費用がかかる場合に、特定の望ましい性質を持つ新規分子を設計することである。
本稿では,分子近傍制御型埋め込み文法を用いた分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
近傍制御埋め込み文法を拡張し,分子グラフ生成に適用できるようにし,与えられた分子から文法生成規則を推定する効率的なアルゴリズムを設計した。
文法の使用は、生成された分子構造の妥当性を保証する。
推論された文法で木を解析するために分子グラフを変換することにより、分子構造生成タスクはポリシー勾配戦略を利用するマルコフ決定プロセスとしてモデル化される。
一連の実験において,本手法は様々な分子最適化タスクにおいて最先端性能を実現し,限られた特性評価で分子特性を最適化する上で大きな優位性を示す。 A major challenge in the pharmaceutical industry is to design novel molecules with specific desired properties, especially when the property evaluation is costly. Here, we propose MNCE-RL, a graph convolutional policy network for molecular optimization with molecular neighborhood-controlled embedding grammars through reinforcement learning. We extend the original neighborhood-controlled embedding grammars to make them applicable to molecular graph generation and design an efficient algorithm to infer grammatical production rules from given molecules. The use of grammars guarantees the validity of the generated molecular structures. By transforming molecular graphs to parse trees with the inferred grammars, the molecular structure generation task is modeled as a Markov decision process where a policy gradient strategy is utilized. In a series of experiments, we demonstrate that our approach achieves state-of-the-art performance in a diverse range of molecular optimization tasks and exhibits significant superiority in optimizing molecular properties with a limited number of property evaluations. | 翻訳日:2022-09-25 13:54:23 公開日:2020-11-14 |
# 機械学習を用いたリバースエンジニアリングクラス図とフォワードエンジニアリングクラス図の分類 Classification of Reverse-Engineered Class Diagram and Forward-Engineered Class Diagram using Machine Learning ( http://arxiv.org/abs/2011.07313v1 ) ライセンス: Link先を確認 | Kaushil Mangaroliya, Het Patel | (参考訳) umlクラス図は、私たちが開発中のソフトウェア全体を視覚化し、システムクラス、その属性、メソッド、および他のオブジェクトとの関係を示すことによって、可能な限り簡単な方法でシステム全体を理解するのに役立ちます。
実世界では,(1)フォワードエンジニアリングクラスダイアグラム(FwCD)を前向き開発プロセスの一部として手作業で作成するクラスダイアグラムと,(2)という2種類のクラスダイアグラムエンジニアが作業している。
Reverse Engineered Class Diagram (RECD) はソースコードからリバースエンジニアリングされたダイアグラムである。
ソフトウェア業界では、新しいオープンソフトウェアプロジェクトと作業しながら、それがどの種類のクラス図であるかを知ることが重要です。
特定のプロジェクトで使われたUML図は、知っておくべき重要な要素なのでしょうか?
この問題を解決するために,UML図をFwCDやRECDに分類できる分類器を構築することを提案する。
本稿では,教師付き機械学習技術を用いてこの問題を解決することを提案する。
このアプローチでは、クラス図の分類に有用な機能を分析する。
このプロセスでは、異なる機械学習モデルが使用され、ランダムフォレストアルゴリズムが最高であることが証明されている。
999のクラスダイアグラムでパフォーマンステストが行われた。 UML Class diagram is very important to visualize the whole software we are working on and helps understand the whole system in the easiest way possible by showing the system classes, its attributes, methods, and relations with other objects. In the real world, there are two types of Class diagram engineers work with namely 1) Forward Engineered Class Diagram (FwCD) which are hand-made as part of the forward-looking development process, and 2). Reverse Engineered Class Diagram (RECD) which are those diagrams that are reverse engineered from the source code. In the software industry while working with new open software projects it is important to know which type of class diagram it is. Which UML diagram was used in a particular project is an important factor to be known? To solve this problem, we propose to build a classifier that can classify a UML diagram into FwCD or RECD. We propose to solve this problem by using a supervised Machine Learning technique. The approach in this involves analyzing the features that are useful in classifying class diagrams. Different Machine Learning models are used in this process and the Random Forest algorithm has proved to be the best out of all. Performance testing was done on 999 Class diagrams. | 翻訳日:2022-09-25 13:54:09 公開日:2020-11-14 |
# デジタルメディアの変換-弾性前駆体検出に向けて Towards transformation-resilient provenance detection of digital media ( http://arxiv.org/abs/2011.07355v1 ) ライセンス: Link先を確認 | Jamie Hayes, Krishnamurthy (Dj) Dvijotham, Yutian Chen, Sander Dieleman, Pushmeet Kohli, Norman Casagrande | (参考訳) 深層生成モデルの進歩により、自然な信号と区別が難しい画像、ビデオ、音声信号の合成が可能になり、これらの能力を悪用する可能性がある。
これは信号の出所を追跡すること、すなわち信号の原点を決定できるという問題を動機付けている。
信号生成時の信号の透かしは潜在的な解決策であるが、現在の技術は脆く、後処理変換(画像のクロップ、音声のピッチのシフトなど)を適用することで、透かし検出機構を簡単にバイパスすることができる。
本稿では,信号が処理後変換された後でも透かしを検出可能な変換回復型透かし検出器を学習するためのフレームワークであるReSWAT(Resilient Signal Watermarking via Adversarial Training)を紹介する。
検出方法は,画像,ビデオ,音声信号などの連続したデータ表現を持つ領域に適用できる。
画像および音声信号の透かし実験により,複数の処理後変換を行っても,信号の出所を確実に検出し,この設定における関連作業を改善することができた。
さらに、特定の種類の変換(l2ノルムに有界な摂動)に対して、ウォーターマークを検出するモデルの能力に関する形式的保証を得ることも可能であることを示す。
ウォーターマーク画像とオーディオサンプルの質的な例をhttps://drive.google.com/open?
id=1-yZ0WIGNu2Iez7UpXBjtjVgZu3jJFga Advancements in deep generative models have made it possible to synthesize images, videos and audio signals that are difficult to distinguish from natural signals, creating opportunities for potential abuse of these capabilities. This motivates the problem of tracking the provenance of signals, i.e., being able to determine the original source of a signal. Watermarking the signal at the time of signal creation is a potential solution, but current techniques are brittle and watermark detection mechanisms can easily be bypassed by applying post-processing transformations (cropping images, shifting pitch in the audio etc.). In this paper, we introduce ReSWAT (Resilient Signal Watermarking via Adversarial Training), a framework for learning transformation-resilient watermark detectors that are able to detect a watermark even after a signal has been through several post-processing transformations. Our detection method can be applied to domains with continuous data representations such as images, videos or sound signals. Experiments on watermarking image and audio signals show that our method can reliably detect the provenance of a signal, even if it has been through several post-processing transformations, and improve upon related work in this setting. Furthermore, we show that for specific kinds of transformations (perturbations bounded in the L2 norm), we can even get formal guarantees on the ability of our model to detect the watermark. We provide qualitative examples of watermarked image and audio samples in https://drive.google.com/open?id=1-yZ0WIGNu2Iez7UpXBjtjVgZu3jJjFga. | 翻訳日:2022-09-25 13:53:48 公開日:2020-11-14 |
# 変分オートエンコーダを用いたサイレントビデオの音声予測 Speech Prediction in Silent Videos using Variational Autoencoders ( http://arxiv.org/abs/2011.07340v1 ) ライセンス: Link先を確認 | Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde | (参考訳) 聴覚信号と視覚信号の関係を理解することは、コンピュータ生成画像(CGI)やビデオ編集自動化から、聴覚障害や視覚障害のある人を支援する様々な用途において重要である。
しかし、オーディオと視覚の両モードの分布は本質的にマルチモーダルであるため、これは難しい。
したがって、既存の方法の多くはマルチモーダルな側面を無視し、2つのモダリティの間に決定論的な1対1のマッピングしか存在しないと仮定している。
モデルは崩壊し、完全なデータ分布を学習するのではなく、平均的な振る舞いを最適化する。
本稿では,サイレントビデオにおける音声生成のための確率モデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、視覚信号から聴覚信号の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。 Understanding the relationship between the auditory and visual signals is crucial for many different applications ranging from computer-generated imagery (CGI) and video editing automation to assisting people with hearing or visual impairments. However, this is challenging since the distribution of both audio and visual modality is inherently multimodal. Therefore, most of the existing methods ignore the multimodal aspect and assume that there only exists a deterministic one-to-one mapping between the two modalities. It can lead to low-quality predictions as the model collapses to optimizing the average behavior rather than learning the full data distributions. In this paper, we present a stochastic model for generating speech in a silent video. The proposed model combines recurrent neural networks and variational deep generative models to learn the auditory signal's conditional distribution given the visual signal. We demonstrate the performance of our model on the GRID dataset based on standard benchmarks. | 翻訳日:2022-09-25 13:47:58 公開日:2020-11-14 |
# 牛の数を数える:高精細衛星画像から違法な牛の放牧を追跡する Counting Cows: Tracking Illegal Cattle Ranching From High-Resolution Satellite Imagery ( http://arxiv.org/abs/2011.07369v1 ) ライセンス: Link先を確認 | Issam Laradji, Pau Rodriguez, Freddie Kalaitzis, David Vazquez, Ross Young, Ed Davey, and Alexandre Lacoste | (参考訳) 世界の温室効果ガス排出量は8.8 %である。
消化プロセスによって放出されるメタンに加えて、放牧地の必要性の増大は森林破壊の重要な要因となっている。
アマゾンを森林破壊から守るための規制がいくつかあるが、これらは様々な方法で拡散しているため、牛の放牧活動のスケールとモニタリングを自動化する必要がある。
我々は, \textit{global witness} とのパートナーシップにより,サテライト画像から牛を大陸規模で追跡・計数する可能性について検討した。
Maxar Technologiesのライセンスで、40cmの解像度でAmazonの衛星画像を取得し、合計28498頭の牛を含む903枚の画像を集めた。
実験では有望な結果を示し,これらの課題を解決するためのアルゴリズムとデータ収集プロセスの両方において,次のステップの重要な方向性を示す。
コードは \url{https://github.com/issamlaradji/cownter_strike} で入手できる。 Cattle farming is responsible for 8.8\% of greenhouse gas emissions worldwide. In addition to the methane emitted due to their digestive process, the growing need for grazing areas is an important driver of deforestation. While some regulations are in place for preserving the Amazon against deforestation, these are being flouted in various ways, hence the need to scale and automate the monitoring of cattle ranching activities. Through a partnership with \textit{Global Witness}, we explore the feasibility of tracking and counting cattle at the continental scale from satellite imagery. With a license from Maxar Technologies, we obtained satellite imagery of the Amazon at 40cm resolution, and compiled a dataset of 903 images containing a total of 28498 cattle. Our experiments show promising results and highlight important directions for the next steps on both counting algorithms and the data collection process for solving such challenges. The code is available at \url{https://github.com/IssamLaradji/cownter_strike}. | 翻訳日:2022-09-25 13:47:43 公開日:2020-11-14 |
# 公開空間におけるCOVID-19パンデミック時の社会的距離と衛生的実践の自律的評価 An Autonomous Approach to Measure Social Distances and Hygienic Practices during COVID-19 Pandemic in Public Open Spaces ( http://arxiv.org/abs/2011.07375v1 ) ライセンス: Link先を確認 | Peng Sun, Gabriel Draughon, Jerome Lynch | (参考訳) 新型コロナウイルスは2019年末から世界中に広がっている。
ウイルスは急性呼吸器症候群を引き起こし、致死的になり、宿主間で容易に感染する。
ほとんどの州は州政府からの命令を出しているが、公園やその他の公共のオープンスペースはほとんどオープンのままであり、公共利用が急増している。
したがって、公共の安全を確保するためには、公共のオープンスペースのパトロンが安全な衛生や予防措置をとることが不可欠である。
本研究は,米国疾病予防管理センター(cdc)が提案するソーシャルディスタンシングガイドライン(social distancing guidelines)に準拠して,公共オープンスペース内の身体活動を検出するためのスケーラブルなセンシングアプローチを提供する。
深層学習に基づくコンピュータビジョンセンシングフレームワークは、予め設置された監視カメラネットワークからの映像フィードを使用して、硬い表面(ベンチ、フェンスポール、ゴミ箱など)を備えた公園や公園施設の慎重かつ適切な利用を調べるために設計されている。
センシングフレームワークは、cnnベースのオブジェクト検出器、マルチターゲットトラッカ、マッピングモジュール、グループ推論モジュールで構成されている。
実験は、2020年3月から2020年5月にかけて、ミシガン州デトロイトのデトロイト・リバーフロント・パークで実施されている。
自動センシング結果を手動でラベル付けした接地構造結果と比較することにより、センシングフレームワークを検証する。
提案手法は、連邦政府や州機関の簡単なデータ視覚化を作成することにより、公共空間におけるユーザの空間的および時間的統計情報の提供効率を大幅に向上する。
結果は、このパンデミックの間、不適切な行動に介入するために後に追加できる警報やアクチュエータシステムのオンタイムトリガー情報を提供することもできる。 Coronavirus has been spreading around the world since the end of 2019. The virus can cause acute respiratory syndrome, which can be lethal, and is easily transmitted between hosts. Most states have issued state-at-home executive orders, however, parks and other public open spaces have largely remained open and are seeing sharp increases in public use. Therefore, in order to ensure public safety, it is imperative for patrons of public open spaces to practice safe hygiene and take preventative measures. This work provides a scalable sensing approach to detect physical activities within public open spaces and monitor adherence to social distancing guidelines suggested by the US Centers for Disease Control and Prevention (CDC). A deep learning-based computer vision sensing framework is designed to investigate the careful and proper utilization of parks and park facilities with hard surfaces (e.g. benches, fence poles, and trash cans) using video feeds from a pre-installed surveillance camera network. The sensing framework consists of a CNN-based object detector, a multi-target tracker, a mapping module, and a group reasoning module. The experiments are carried out during the COVID-19 pandemic between March 2020 and May 2020 across several key locations at the Detroit Riverfront Parks in Detroit, Michigan. The sensing framework is validated by comparing automatic sensing results with manually labeled ground-truth results. The proposed approach significantly improves the efficiency of providing spatial and temporal statistics of users in public open spaces by creating straightforward data visualizations for federal and state agencies. The results can also provide on-time triggering information for an alarming or actuator system which can later be added to intervene inappropriate behavior during this pandemic. | 翻訳日:2022-09-25 13:47:27 公開日:2020-11-14 |
# G-RCN:オブジェクト検出のための分類と局所化タスク間のギャップの最適化 G-RCN: Optimizing the Gap between Classification and Localization Tasks for Object Detection ( http://arxiv.org/abs/2012.03677v1 ) ライセンス: Link先を確認 | Yufan Luo, Li Xiao | (参考訳) マルチタスク学習はコンピュータビジョンで広く使われている。
現在、オブジェクト検出モデルは共有特徴写像を用いて分類と局所化を同時に行う。
元のFaster R-CNNと部分的に分離された特徴マップの性能を比較することで,(1)分類と局所化タスクの高レベル特徴の共有は準最適,(2)大規模ストライドは分類には有益であるが,局所化には有益,(3)グローバルコンテキスト情報は分類のパフォーマンスを向上させることができることを示した。
そこで本研究では,この2つのタスクを分離し,それらの間隙を最適化することを目的とした,ギャップ最適化領域型畳み込みネットワーク(g-rcn)というパラダイムを提案する。
このパラダイムは、まず現在のResNetプロトコルの修正に使われ、ストライドを削減し、Conv5ブロックをヘッドから特徴抽出ネットワークに移動することで、PASCAL VOCデータセットでAP70が3.6改善、ResNet50のCOCOデータセットでAPが1.5改善された。
次に、新しい手法がVGG16、ResNet50、ResNet101のバックボーンを持つFaster R-CNNに適用され、PASCAL VOCデータセットでAP70が2.0改善され、COCOデータセットでAPが1.9改善された。
明らかなことに、g-rcnの実装は、追加のモジュールを追加することなく、いくつかの構造的な変更しか含まない。 Multi-task learning is widely used in computer vision. Currently, object detection models utilize shared feature map to complete classification and localization tasks simultaneously. By comparing the performance between the original Faster R-CNN and that with partially separated feature maps, we show that: (1) Sharing high-level features for the classification and localization tasks is sub-optimal; (2) Large stride is beneficial for classification but harmful for localization; (3) Global context information could improve the performance of classification. Based on these findings, we proposed a paradigm called Gap-optimized region based convolutional network (G-RCN), which aims to separating these two tasks and optimizing the gap between them. The paradigm was firstly applied to correct the current ResNet protocol by simply reducing the stride and moving the Conv5 block from the head to the feature extraction network, which brings 3.6 improvement of AP70 on the PASCAL VOC dataset and 1.5 improvement of AP on the COCO dataset for ResNet50. Next, the new method is applied on the Faster R-CNN with backbone of VGG16,ResNet50 and ResNet101, which brings above 2.0 improvement of AP70 on the PASCAL VOC dataset and above 1.9 improvement of AP on the COCO dataset. Noticeably, the implementation of G-RCN only involves a few structural modifications, with no extra module added. | 翻訳日:2022-09-25 13:46:57 公開日:2020-11-14 |
# 解答選択におけるトランスフォーマからの双方向エンコーダ表現の活用 Utilizing Bidirectional Encoder Representations from Transformers for Answer Selection ( http://arxiv.org/abs/2011.07208v1 ) ライセンス: Link先を確認 | Md Tahmid Rahman Laskar, Enamul Hoque, Jimmy Xiangji Huang | (参考訳) 大規模なデータセットで言語モデリングタスク用にトランスフォーマティブベースのモデルを事前トレーニングした後、下流タスク用に微調整することが近年非常に有用であることが判明した。
このような事前訓練された言語モデルの大きな利点の1つは、文中の各単語の文脈を効果的に吸収できることである。
しかし、解答選択タスクのようなタスクでは、事前訓練された言語モデルはまだ広く使われていない。
このようなタスクにおけるそれらの効果を検討するため,本論文では,変換器(BERT)言語モデルから事前学習した双方向エンコーダ表現を採用し,質問応答(QA)データセットと3つのコミュニティ質問応答(CQA)データセットに微調整する。
回答選択タスクに対するBERTモデルの微調整は非常に効果的であり、QAデータセットでは13.1%、CQAデータセットでは18.7%の改善が見られた。 Pre-training a transformer-based model for the language modeling task in a large dataset and then fine-tuning it for downstream tasks has been found very useful in recent years. One major advantage of such pre-trained language models is that they can effectively absorb the context of each word in a sentence. However, for tasks such as the answer selection task, the pre-trained language models have not been extensively used yet. To investigate their effectiveness in such tasks, in this paper, we adopt the pre-trained Bidirectional Encoder Representations from Transformer (BERT) language model and fine-tune it on two Question Answering (QA) datasets and three Community Question Answering (CQA) datasets for the answer selection task. We find that fine-tuning the BERT model for the answer selection task is very effective and observe a maximum improvement of 13.1% in the QA datasets and 18.7% in the CQA datasets compared to the previous state-of-the-art. | 翻訳日:2022-09-25 13:46:24 公開日:2020-11-14 |
# グラフによるディープニューラルネットワークの潜在空間ジオメトリ表現 Representing Deep Neural Networks Latent Space Geometries with Graphs ( http://arxiv.org/abs/2011.07343v1 ) ライセンス: Link先を確認 | Carlos Lassance, Vincent Gripon, Antonio Ortega | (参考訳) ディープラーニング(DL)は多くの機械学習タスクで最先端のパフォーマンスに到達する能力に多くの注目を集めている。
dlメソッドの中核となる原則は、複合アーキテクチャをエンドツーエンドでトレーニングすることであり、入力は目的関数を最適化するために訓練された出力に関連付けられる。
その構成的性質から、dlアーキテクチャは自然に入力のいくつかの中間表現を示し、それらはいわゆる潜在空間に属する。
個別に扱う場合、これらの中間表現は、どの特性が好まれるべきかははっきりしないため、学習過程においてほとんど訓練されない。
しかし、複数の入力を同時に処理する場合、対応する中間表現の集合は、所望の特性を求めることができる関係(幾何と呼ぶもの)を示す。
本研究では,これらの潜在測地線に制約を導入することで,様々な問題に対処できることを示す。
より詳しくは、入力のバッチを処理する際に得られた中間表現から類似性グラフを構築することで、ジオメトリを表現することを提案する。
これらの潜在幾何グラフ(LGG)を制約することにより、以下の3つの問題に対処する。
一 教師建築の振舞いの再現は、その幾何学を模倣して行うこと。
二 特定測地を対象とし、分類のための効率的な埋め込みを設計すること。
三 連続潜時空間間の幾何学の滑らかな変動を強制することにより、入力に対する偏差に対するロバスト性を達成する。
標準ビジョンベンチマークを用いて,提案手法が考慮された問題の解決に有効であることを示す。 Deep Learning (DL) has attracted a lot of attention for its ability to reach state-of-the-art performance in many machine learning tasks. The core principle of DL methods consists in training composite architectures in an end-to-end fashion, where inputs are associated with outputs trained to optimize an objective function. Because of their compositional nature, DL architectures naturally exhibit several intermediate representations of the inputs, which belong to so-called latent spaces. When treated individually, these intermediate representations are most of the time unconstrained during the learning process, as it is unclear which properties should be favored. However, when processing a batch of inputs concurrently, the corresponding set of intermediate representations exhibit relations (what we call a geometry) on which desired properties can be sought. In this work, we show that it is possible to introduce constraints on these latent geometries to address various problems. In more details, we propose to represent geometries by constructing similarity graphs from the intermediate representations obtained when processing a batch of inputs. By constraining these Latent Geometry Graphs (LGGs), we address the three following problems: i) Reproducing the behavior of a teacher architecture is achieved by mimicking its geometry, ii) Designing efficient embeddings for classification is achieved by targeting specific geometries, and iii) Robustness to deviations on inputs is achieved via enforcing smooth variation of geometry between consecutive latent spaces. Using standard vision benchmarks, we demonstrate the ability of the proposed geometry-based methods in solving the considered problems. | 翻訳日:2022-09-25 13:45:54 公開日:2020-11-14 |
# 建物の熱モデルによるモビリティマップ推定 Mobility Map Inference from Thermal Modeling of a Building ( http://arxiv.org/abs/2011.07372v1 ) ライセンス: Link先を確認 | Risul Islam, Andrey Lokhov, Nathan Lemons, Michalis Faloutsos | (参考訳) 部屋の温度から各タイムスタンプにおける建物利用者の分布である移動度マップを推定する問題を考察する。
また、建物内の人々の移動の再構築における、温度測定や部屋配置等における騒音の影響についても検討したい。
提案アルゴリズムは,パラメータ学習者(Last Square Estimator)の修正による課題に対処する。
公共領域における移動マップ,室温,環境温度,HVACデータを備えた完全なデータセットが存在しない場合,建物内の部屋の物理モデルを用いてシミュレーションを行い,本シミュレーションデータを用いた推論アルゴリズムの性能評価を行う。
モデル入力温度データから,ノイズ標準偏差(<=1f)の上限を求める。
この境界内で、アルゴリズムは合理的な再構成誤差でモビリティマップを再構築することができる。
私たちの仕事は、オフィスビルの物理的安全性の確保、高齢者と幼児の監視、建物のリソース管理、緊急ビルの避難、空調データの脆弱性評価など、幅広いアプリケーションで使用できます。
我々の研究は、大規模オフィスビル内の人々の分布を推定する共通の目標を達成するために、熱モデリングとパラメータ推定という複数の研究領域をまとめます。 We consider the problem of inferring the mobility map, which is the distribution of the building occupants at each timestamp, from the temperatures of the rooms. We also want to explore the effects of noise in the temperature measurement, room layout, etc. in the reconstruction of the movement of people within the building. Our proposed algorithm tackles down the aforementioned challenges leveraging a parameter learner, the modified Least Square Estimator. In the absence of a complete data set with mobility map, room and ambient temperatures, and HVAC data in the public domain, we simulate a physics-based thermal model of the rooms in a building and evaluate the performance of our inference algorithm on this simulated data. We find an upper bound of the noise standard deviation (<= 1F) in the input temperature data of our model. Within this bound, our algorithm can reconstruct the mobility map with a reasonable reconstruction error. Our work can be used in a wide range of applications, for example, ensuring the physical security of office buildings, elderly and infant monitoring, building resources management, emergency building evacuation, and vulnerability assessment of HVAC data. Our work brings together multiple research areas, Thermal Modeling and Parameter Estimation, towards achieving a common goal of inferring the distribution of people within a large office building. | 翻訳日:2022-09-25 13:45:31 公開日:2020-11-14 |
# 11 TeraFLOPs per second photonic convolutional accelerator for Deep Learning Optical Neural Network 11 TeraFLOPs per second photonic convolutional accelerator for deep learning optical neural networks ( http://arxiv.org/abs/2011.07393v1 ) ライセンス: Link先を確認 | Xingyuan Xu, Mengxi Tan, Bill Corcoran, Jiayang Wu, Andreas Boes, Thach G. Nguyen, Sai T. Chu, Brent E. Little, Damien G. Hicks, Roberto Morandotti, Arnan Mitchell, and David J. Moss | (参考訳) 生物学的視覚野システムにインスパイアされた畳み込みニューラルネットワーク(CNN)は、生データの階層的特徴を抽出し、ネットワークパラメトリックの複雑さを大幅に低減し、予測精度を高めることができる、人工知能ニューラルネットワークの強力なカテゴリである。
コンピュータビジョン、音声認識、ボードゲーム、医療診断などの機械学習タスクに非常に興味を持っている。
光ニューラルネットワークは、エレクトロニクスの固有の帯域のボトルネックを克服するために、計算速度を劇的に加速する。
ここでは、10テラフロップ(毎秒浮動小数点演算)以上で動作する汎用光学ベクトル畳み込み加速器の実証を行い,25万画素の画像の畳み込みと10カーネルの8ビット解像度を同時に生成し,顔画像認識に十分有効であることを示す。
次に、同じハードウェアを用いて、10個の出力ニューロンを持つ深部光学CNNを逐次形成し、900ピクセルの手書き数字画像と88%の精度で完全な10桁の認識を成功させる。
本研究は, 集積マイクロコムによる時間, 波長, 空間次元の同時計算に基づく。
このアプローチは、無人車両やリアルタイムビデオ認識のようなアプリケーションを要求するため、より複雑なネットワークにスケーラブルで訓練可能である。 Convolutional neural networks (CNNs), inspired by biological visual cortex systems, are a powerful category of artificial neural networks that can extract the hierarchical features of raw data to greatly reduce the network parametric complexity and enhance the predicting accuracy. They are of significant interest for machine learning tasks such as computer vision, speech recognition, playing board games and medical diagnosis. Optical neural networks offer the promise of dramatically accelerating computing speed to overcome the inherent bandwidth bottleneck of electronics. Here, we demonstrate a universal optical vector convolutional accelerator operating beyond 10 TeraFLOPS (floating point operations per second), generating convolutions of images of 250,000 pixels with 8 bit resolution for 10 kernels simultaneously, enough for facial image recognition. We then use the same hardware to sequentially form a deep optical CNN with ten output neurons, achieving successful recognition of full 10 digits with 900 pixel handwritten digit images with 88% accuracy. Our results are based on simultaneously interleaving temporal, wavelength and spatial dimensions enabled by an integrated microcomb source. This approach is scalable and trainable to much more complex networks for demanding applications such as unmanned vehicle and real-time video recognition. | 翻訳日:2022-09-25 13:39:03 公開日:2020-11-14 |
# クロスドメインオブジェクト検出のための2次元特徴アライメント Bi-Dimensional Feature Alignment for Cross-Domain Object Detection ( http://arxiv.org/abs/2011.07205v1 ) ライセンス: Link先を確認 | Zhen Zhao, Yuhong Guo, and Jieping Ye | (参考訳) 近年,コンピュータビジョンコミュニティにおいて,クロスドメインオブジェクト検出の問題が注目されている。
本稿では、ソースドメイン内のアノテーション付きデータを利用して、異なるターゲットドメインに対するオブジェクト検出をトレーニングする、新しい教師なしクロスドメイン検出モデルを提案する。
提案モデルでは,2次元,深さ次元,空間次元の領域間特徴アライメントを行うことにより,物体検出のためのクロスドメイン表現のばらつきを緩和する。
チャネル層の深さ次元では、チャネル間情報を使用して、画像スタイルのアライメントに関してドメインの分岐を橋渡しする。
空間層の次元において、空間的注意モジュールを配置し、関連領域の検出を強化し、ドメイン間の特徴アライメントに関して無関係な領域を抑圧する。
多数のベンチマーククロスドメイン検出データセットで実験が行われる。
実験の結果,提案手法は最先端比較法よりも優れていた。 Recently the problem of cross-domain object detection has started drawing attention in the computer vision community. In this paper, we propose a novel unsupervised cross-domain detection model that exploits the annotated data in a source domain to train an object detector for a different target domain. The proposed model mitigates the cross-domain representation divergence for object detection by performing cross-domain feature alignment in two dimensions, the depth dimension and the spatial dimension. In the depth dimension of channel layers, it uses inter-channel information to bridge the domain divergence with respect to image style alignment. In the dimension of spatial layers, it deploys spatial attention modules to enhance detection relevant regions and suppress irrelevant regions with respect to cross-domain feature alignment. Experiments are conducted on a number of benchmark cross-domain detection datasets. The empirical results show the proposed method outperforms the state-of-the-art comparison methods. | 翻訳日:2022-09-25 13:37:49 公開日:2020-11-14 |
# tdasweep : 画像分類タスクのための新しい次元性低減法 TDAsweep: A Novel Dimensionality Reduction Method for Image Classification Tasks ( http://arxiv.org/abs/2011.07230v1 ) ライセンス: Link先を確認 | Yu-Shih Chen, Melissa Goh, Norm Matloff | (参考訳) 現代の機械学習技術の最も有名な成果の1つは、画像の自動分類である。
しかし、成功は通常、大きな計算コストでのみ達成される。
本稿では,画像の自動分類の効率化を目的とした機械学習ツールTDAsweepを紹介する。 One of the most celebrated achievements of modern machine learning technology is automatic classification of images. However, success is typically achieved only with major computational costs. Here we introduce TDAsweep, a machine learning tool aimed at improving the efficiency of automatic classification of images. | 翻訳日:2022-09-25 13:37:34 公開日:2020-11-14 |
# ActBERT: グローバルローカルビデオテキスト表現の学習 ActBERT: Learning Global-Local Video-Text Representations ( http://arxiv.org/abs/2011.07231v1 ) ライセンス: Link先を確認 | Linchao Zhu, Yi Yang | (参考訳) 本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
まず,グローバルな行動情報を活用し,言語文と地域オブジェクト間の相互相互作用を解明する。
詳細な視覚およびテキスト関係モデリングのために、ペアビデオシーケンスとテキスト記述からグローバルおよびローカルな視覚手がかりを明らかにする。
第2に、グローバルアクション、地域オブジェクト、言語記述の3つの情報源を符号化するENtangled Transformer Block(ENT)を導入する。
グローバルローカル通信は、文脈情報から法的な手がかりを抽出することで発見される。
ジョイントビデオテキスト表現は、粒度の細かいオブジェクトだけでなく、グローバルな人間の意図も認識するように強制する。
本稿では,字幕検索,ビデオキャプション,ビデオ質問応答,アクションセグメンテーション,アクションステップのローカライゼーションなど,下流ビデオおよび言語タスクにおける ActBERT の一般化能力を検証する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。 In this paper, we introduce ActBERT for self-supervised learning of joint video-text representations from unlabeled data. First, we leverage global action information to catalyze the mutual interactions between linguistic texts and local regional objects. It uncovers global and local visual clues from paired video sequences and text descriptions for detailed visual and text relation modeling. Second, we introduce an ENtangled Transformer block (ENT) to encode three sources of information, i.e., global actions, local regional objects, and linguistic descriptions. Global-local correspondences are discovered via judicious clues extraction from contextual information. It enforces the joint videotext representation to be aware of fine-grained objects as well as global human intention. We validate the generalization capability of ActBERT on downstream video-and language tasks, i.e., text-video clip retrieval, video captioning, video question answering, action segmentation, and action step localization. ActBERT significantly outperforms the state-of-the-arts, demonstrating its superiority in video-text representation learning. | 翻訳日:2022-09-25 13:37:31 公開日:2020-11-14 |
# プロトタイプコントラストと逆予測:教師なし骨格に基づく行動認識 Prototypical Contrast and Reverse Prediction: Unsupervised Skeleton Based Action Recognition ( http://arxiv.org/abs/2011.07236v1 ) ライセンス: Link先を確認 | Shihao Xu, Haocong Rao, Xiping Hu, Bin Hu | (参考訳) 本稿では,スケルトンに基づく行動認識のための教師なし表現学習に着目した。
既存のアプローチは通常、逐次予測によって行動表現を学習するが、意味情報を完全に学習することができない。
そこで本研究では,低レベル情報(各フレームの身体姿勢など)と高レベルパターン(動き順など)を学習するために逆逐次予測を生成するだけでなく,動作プロトタイプを考案し,シーケンス間で共有される意味的類似性を暗黙的にエンコードする手法を提案する。
一般に,動作プロトタイプを潜在変数とみなし,PCRPを期待最大化タスクとする。
具体的には、(1)エンコーダから符号化されたアクションをクラスタリングすることでプロトタイプの分布を決定するためのEステップ、(2)提案したProtoMAE損失を最小化してエンコーダを最適化するMステップを反復的に実行し、同時に割り当てられたプロトタイプにエンコードされたアクションをプルし、逆予測タスクを実行する。
N-UCLA、NTU 60、NTU 120データセットの大規模な実験では、PCRPは最先端の教師なし手法よりも優れており、教師なし手法よりも優れたパフォーマンスを達成している。
コードはhttps://github.com/Mikexu007/PCRPで入手できる。 In this paper, we focus on unsupervised representation learning for skeleton-based action recognition. Existing approaches usually learn action representations by sequential prediction but they suffer from the inability to fully learn semantic information. To address this limitation, we propose a novel framework named Prototypical Contrast and Reverse Prediction (PCRP), which not only creates reverse sequential prediction to learn low-level information (e.g., body posture at every frame) and high-level pattern (e.g., motion order), but also devises action prototypes to implicitly encode semantic similarity shared among sequences. In general, we regard action prototypes as latent variables and formulate PCRP as an expectation-maximization task. Specifically, PCRP iteratively runs (1) E-step as determining the distribution of prototypes by clustering action encoding from the encoder, and (2) M-step as optimizing the encoder by minimizing the proposed ProtoMAE loss, which helps simultaneously pull the action encoding closer to its assigned prototype and perform reverse prediction task. Extensive experiments on N-UCLA, NTU 60, and NTU 120 dataset present that PCRP outperforms state-of-the-art unsupervised methods and even achieves superior performance over some of supervised methods. Codes are available at https://github.com/Mikexu007/PCRP. | 翻訳日:2022-09-25 13:36:51 公開日:2020-11-14 |
# クラス例の少ないゼロショット学習に向けて Towards Zero-Shot Learning with Fewer Seen Class Examples ( http://arxiv.org/abs/2011.07279v1 ) ライセンス: Link先を確認 | Vinay Kumar Verma, Ashish Mishra, Anubha Pandey, Hema A. Murthy and Piyush Rai | (参考訳) 本稿では,ゼロショット学習(ZSL)のためのメタラーニングに基づく生成モデルを提案する。
この設定は従来のZSLアプローチとは対照的であり、トレーニングは通常、各クラスから十分な数のトレーニングサンプルが利用可能であると仮定する。
提案手法はメタラーニングを利用して,可変オートエンコーダと生成対向ネットワークを統合した深層生成モデルを訓練する。
本稿では,学習におけるZSL動作をシミュレートするために,メタトレインとメタバリデーションクラスが分離されたタスク分布を提案する。
一度トレーニングすると、モデルは、見知らぬクラスと見当たらないクラスから合成例を生成することができる。
合成サンプルを使用して、ZSLフレームワークを教師付きでトレーニングすることができる。
メタラーナーにより,本モデルでは,少数の学習例のみを用いて高忠実度サンプルを生成することができる。
筆者らは,ZSLの4つのベンチマークデータセットに対する広範な実験およびアブレーション研究を行い,提案モデルが実例数が非常に小さい場合に,最先端のアプローチよりも優れた性能を示すことを示した。 We present a meta-learning based generative model for zero-shot learning (ZSL) towards a challenging setting when the number of training examples from each \emph{seen} class is very few. This setup contrasts with the conventional ZSL approaches, where training typically assumes the availability of a sufficiently large number of training examples from each of the seen classes. The proposed approach leverages meta-learning to train a deep generative model that integrates variational autoencoder and generative adversarial networks. We propose a novel task distribution where meta-train and meta-validation classes are disjoint to simulate the ZSL behaviour in training. Once trained, the model can generate synthetic examples from seen and unseen classes. Synthesize samples can then be used to train the ZSL framework in a supervised manner. The meta-learner enables our model to generates high-fidelity samples using only a small number of training examples from seen classes. We conduct extensive experiments and ablation studies on four benchmark datasets of ZSL and observe that the proposed model outperforms state-of-the-art approaches by a significant margin when the number of examples per seen class is very small. | 翻訳日:2022-09-25 13:36:04 公開日:2020-11-14 |
# 経路の推論による物理パズルの解法 Solving Physics Puzzles by Reasoning about Paths ( http://arxiv.org/abs/2011.07357v1 ) ライセンス: Link先を確認 | Augustin Harter, Andrew Melnik, Gaurav Kumar, Dhruv Agarwal, Animesh Garg, Helge Ritter | (参考訳) 目標達成のために直感的な理屈とシーンへの介入を必要とする目標駆動タスクのための新しいディープラーニングモデルを提案する。
そのモジュラー構造は、人間がそのようなタスクを解く際に適用される直感的なステップの列を仮定することで動機づけられる。
モデルはまず、対象オブジェクトが介入なしで従うであろうパスと、そのタスクを解決するために対象オブジェクトが従うべきパスを予測します。
次に、アクションオブジェクトの所望のパスを予測し、アクションオブジェクトの配置を生成する。
各コンポーネントは独自の学習信号を受け取るが、学習信号もアーキテクチャ全体を通してバックプロパゲーションされる。
モデルを評価するには,2次元メカニカルパズルにおける目標駆動物理推論のためのベンチマークテストであるphyreを使用する。 We propose a new deep learning model for goal-driven tasks that require intuitive physical reasoning and intervention in the scene to achieve a desired end goal. Its modular structure is motivated by hypothesizing a sequence of intuitive steps that humans apply when trying to solve such a task. The model first predicts the path the target object would follow without intervention and the path the target object should follow in order to solve the task. Next, it predicts the desired path of the action object and generates the placement of the action object. All components of the model are trained jointly in a supervised way; each component receives its own learning signal but learning signals are also backpropagated through the entire architecture. To evaluate the model we use PHYRE - a benchmark test for goal-driven physical reasoning in 2D mechanics puzzles. | 翻訳日:2022-09-25 13:29:04 公開日:2020-11-14 |
# 目に見えない特徴に基づく分類と結核ワクチンのCOVID-19への影響 Classification based on invisible features and thereby finding the effect of tuberculosis vaccine on COVID-19 ( http://arxiv.org/abs/2011.07332v1 ) ライセンス: Link先を確認 | Nihal Acharya Adde, Thilo Moshagen | (参考訳) クラスタ化されたデータの場合、ログコッシュ損失関数を持つ人工ニューラルネットワークは、その2つの平均よりも大きなクラスタを学習する。
さらに、集合値関数の回帰に使用されるANNは、選択の1つに近い値を学び、言い換えれば、集合値関数の1つの分岐を高い精度で学習する。
本研究は, 対数損失を有するニューラルネットワークを用いて, パラメータアウトカムサンプルセットのセット値マッピングの分岐を見つけ, それらの分岐に従ってサンプルを分類する手法を提案する。
この方法はこれらの分岐に基づいてデータを分類するだけでなく、多数クラスタの正確な予測も提供する。
この方法は、見えない特徴に基づいてデータをうまく分類する。
多数の入力変数から、ドイツ各地区の感染者数、死亡者数、活動事例数、その他の関連データを予測するために、ニューラルネットワークが正常に確立された。
結核ワクチンはウイルスに対する保護を提供すると考えられており、再統一前に東ドイツがワクチン接種されたため、ワクチンに関する情報を目に見えない特徴として捉えて東ドイツと西ドイツを分類する試みが行われた。 In the case of clustered data, an artificial neural network with logcosh loss function learns the bigger cluster rather than the mean of the two. Even more so, the ANN when used for regression of a set-valued function, will learn a value close to one of the choices, in other words, it learns one branch of the set-valued function with high accuracy. This work suggests a method that uses artificial neural networks with logcosh loss to find the branches of set-valued mappings in parameter-outcome sample sets and classifies the samples according to those branches. The method not only classifies the data based on these branches but also provides an accurate prediction for the majority cluster. The method successfully classifies the data based on an invisible feature. A neural network was successfully established to predict the total number of cases, the logarithmic total number of cases, deaths, active cases and other relevant data of the coronavirus for each German district from a number of input variables. As it has been speculated that the Tuberculosis vaccine provides protection against the virus and since East Germany was vaccinated before reunification, an attempt was made to classify the Eastern and Western German districts by considering the vaccine information as an invisible feature. | 翻訳日:2022-09-25 13:28:42 公開日:2020-11-14 |
# rs-fMRIのためのベイズ状態空間モデル Bayesian recurrent state space model for rs-fMRI ( http://arxiv.org/abs/2011.07365v1 ) ライセンス: Link先を確認 | Arunesh Mittal, Scott Linderman, John Paisley, Paul Sajda | (参考訳) 静止状態fMRIデータにおけるネットワーク接続をモデル化するための階層型ベイズ連続状態空間モデルを提案する。
我々のモデルでは、病気の状況にまたがる共有ネットワークパターンを明らかにすることができる。
軽度認知障害者(mci)の神経回路の変化に対応する潜在状態パターンを推定し,adni2データセットに対する評価を行った。
健常者および健常者間で共有される状態に加えて,MCI患者で主に観察される潜伏状態も発見された。
本モデルは,adni2データセットにおけるartディープラーニング手法の現況を上回っている。 We propose a hierarchical Bayesian recurrent state space model for modeling switching network connectivity in resting state fMRI data. Our model allows us to uncover shared network patterns across disease conditions. We evaluate our method on the ADNI2 dataset by inferring latent state patterns corresponding to altered neural circuits in individuals with Mild Cognitive Impairment (MCI). In addition to states shared across healthy and individuals with MCI, we discover latent states that are predominantly observed in individuals with MCI. Our model outperforms current state of the art deep learning method on ADNI2 dataset. | 翻訳日:2022-09-25 13:28:22 公開日:2020-11-14 |
# DNNチャネル推定を組み込んだURLLC対応UAVシステムの電力制御 Power Control for a URLLC-enabled UAV system incorporated with DNN-Based Channel Estimation ( http://arxiv.org/abs/2012.00546v1 ) ライセンス: Link先を確認 | Peng Yang, Xing Xi, Tony Q. S. Quek, Xianbin Cao, Jingxuan Chen | (参考訳) この手紙は、ディープニューラルネットワーク(DNN)に基づくチャネル推定を組み込んだ、超信頼性・低遅延通信(URLLC)対応無人航空機(UAV)システムの電力制御に関するものである。
特に,UAVシステムの電力制御問題を最適化問題として定式化し,ダウンリンク高速ペイロード伝送を確保しつつ,アップリンク制御と非負荷信号配信の URLLC 要求を満たす。
この問題は、解析的に抽出可能なチャネルモデルと非凸特性の要求により解決が困難である。
そこで本研究では,DNN推定結果に基づいて解析的に抽出可能なチャネルモデルを構築し,非凸性に対処するための半定緩和(SDR)方式を提案する。
シミュレーションの結果、DNN推定の精度を示し、提案アルゴリズムの有効性を検証する。 This letter is concerned with power control for a ultra-reliable and low-latency communications (URLLC) enabled unmanned aerial vehicle (UAV) system incorporated with deep neural network (DNN) based channel estimation. Particularly, we formulate the power control problem for the UAV system as an optimization problem to accommodate the URLLC requirement of uplink control and non-payload signal delivery while ensuring the downlink high-speed payload transmission. This problem is challenging to be solved due to the requirement of analytically tractable channel models and the non-convex characteristic as well. To address the challenges, we propose a novel power control algorithm, which constructs analytically tractable channel models based on DNN estimation results and explores a semidefinite relaxation (SDR) scheme to tackle the non-convexity. Simulation results demonstrate the accuracy of the DNN estimation and verify the effectiveness of the proposed algorithm. | 翻訳日:2022-09-25 13:28:12 公開日:2020-11-14 |
# DebateSum: 大規模引数マイニングと要約データセット DebateSum: A large-scale argument mining and summarization dataset ( http://arxiv.org/abs/2011.07251v1 ) ライセンス: Link先を確認 | Allen Roush and Arvind Balaji | (参考訳) 議論マイニングにおける先行研究は、自動議論システムにおける潜在的な応用をしばしば暗示している。
この焦点にもかかわらず、競合の形式的議論で見つかった問題に自然言語処理技術を適用するデータセットやモデルはほとんど存在しない。
これを改善するために、DebateSumデータセットを提示する。
DebateSumは187,386個のユニークな証拠と、対応する議論と抽出的な要約からなる。
DebateSumは7年間にわたって、National Speech and Debate Association内の競合企業によって収集されたデータを使って作成された。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
また、 debatesum でトレーニングされた fasttext word-vectors のセットである debate2vec も紹介する。
最後に,今日,全国講演討論会のメンバーによって広く活用されているこのデータセットの検索エンジンを提案する。
debatesum検索エンジンは、ここで公開されている。 http://www.debate.cards Prior work in Argument Mining frequently alludes to its potential applications in automatic debating systems. Despite this focus, almost no datasets or models exist which apply natural language processing techniques to problems found within competitive formal debate. To remedy this, we present the DebateSum dataset. DebateSum consists of 187,386 unique pieces of evidence with corresponding argument and extractive summaries. DebateSum was made using data compiled by competitors within the National Speech and Debate Association over a 7-year period. We train several transformer summarization models to benchmark summarization performance on DebateSum. We also introduce a set of fasttext word-vectors trained on DebateSum called debate2vec. Finally, we present a search engine for this dataset which is utilized extensively by members of the National Speech and Debate Association today. The DebateSum search engine is available to the public here: http://www.debate.cards | 翻訳日:2022-09-25 13:27:46 公開日:2020-11-14 |
# 言葉は魂の窓である:フェイクニュース検出のための言語ベースのユーザ表現 Words are the Window to the Soul: Language-based User Representations for Fake News Detection ( http://arxiv.org/abs/2011.07389v1 ) ライセンス: Link先を確認 | Marco Del Tredici and Raquel Fern\'andez | (参考訳) 個人の認知的・社会的特徴は言語使用に反映される。
さらに、偽ニュースをオンラインで広める傾向にある個人は、共通の特徴を共有することが多い。
これらのアイデアを基盤として,ソーシャルメディア上での個人表現を生成言語のみに基づいて生成し,偽ニュースの検出に使用するモデルを提案する。
このタスクには言語ベースのユーザ表現が有益であることを示す。
また、フェイクニューススプレッダーの言語を拡張分析し、その主な特徴がドメイン独立であり、2つの英語データセット間で一貫性があることを示した。
最後に、ソーシャルグラフにおける言語使用と接続の関係を利用して、データ中のエコーチェンバー効果の有無を評価する。 Cognitive and social traits of individuals are reflected in language use. Moreover, individuals who are prone to spread fake news online often share common traits. Building on these ideas, we introduce a model that creates representations of individuals on social media based only on the language they produce, and use them to detect fake news. We show that language-based user representations are beneficial for this task. We also present an extended analysis of the language of fake news spreaders, showing that its main features are mostly domain independent and consistent across two English datasets. Finally, we exploit the relation between language use and connections in the social graph to assess the presence of the Echo Chamber effect in our data. | 翻訳日:2022-09-25 13:27:33 公開日:2020-11-14 |
# 電子商取引質問書作成の意義 Meaningful Answer Generation of E-Commerce Question-Answering ( http://arxiv.org/abs/2011.07307v1 ) ライセンス: Link先を確認 | Shen Gao, Xiuying Chen, Zhaochun Ren, Dongyan Zhao and Rui Yan | (参考訳) eコマースポータルでは、製品関連の質問に対する回答を生成することが重要な課題となっている。
本稿では,大規模な未ラベルのeコマースレビューや製品属性から正確かつ完全な回答を生成することを学ぶ製品対応回答生成の課題に焦点を当てる。
しかし、安全な回答問題はテキスト生成タスクに重大な課題をもたらし、Eコマースの質問応答タスクは例外ではない。
より有意義な回答を生成するために,本論文では,製品レビュー,製品属性,プロトタイプ回答を考慮に入れて,安全な回答問題を緩和する,有意義な製品応答生成(mpag)と呼ばれる新しい生成ニューラルモデルを提案する。
製品レビューと製品属性は意味のあるコンテンツを提供するために使用され、プロトタイプの回答はより多様な回答パターンをもたらす。
そこで本研究では,レビュー推論モジュールとプロトタイプ回答リーダを備えた新しい回答生成器を提案する。
私たちのキーとなるアイデアは、大規模なレビューから正しい質問認識情報を取得し、既存のプロトタイプ回答から一貫性のある有意義な回答を書く方法を学ぶことです。
より具体的には、これらのレビューの中で推論を行うための選択的書き込みユニットからなる読み書きメモリを提案する。
次に,プロトタイプ回答から解答骨格を抽出するために,包括的マッチングからなるプロトタイプ読取装置を用いる。
最後に,質問と上記の部品を入力として,最終回答を生成するための回答エディタを提案する。
eコマースプラットフォームから収集した実世界のデータセットに基づいて,本モデルが自動計測と人間評価の両面で最先端のパフォーマンスを達成していることを示す。
人間の評価は、我々のモデルが常に特定の、適切な回答を生成できることを示す。 In e-commerce portals, generating answers for product-related questions has become a crucial task. In this paper, we focus on the task of product-aware answer generation, which learns to generate an accurate and complete answer from large-scale unlabeled e-commerce reviews and product attributes. However, safe answer problems pose significant challenges to text generation tasks, and e-commerce question-answering task is no exception. To generate more meaningful answers, in this paper, we propose a novel generative neural model, called the Meaningful Product Answer Generator (MPAG), which alleviates the safe answer problem by taking product reviews, product attributes, and a prototype answer into consideration. Product reviews and product attributes are used to provide meaningful content, while the prototype answer can yield a more diverse answer pattern. To this end, we propose a novel answer generator with a review reasoning module and a prototype answer reader. Our key idea is to obtain the correct question-aware information from a large scale collection of reviews and learn how to write a coherent and meaningful answer from an existing prototype answer. To be more specific, we propose a read-and-write memory consisting of selective writing units to conduct reasoning among these reviews. We then employ a prototype reader consisting of comprehensive matching to extract the answer skeleton from the prototype answer. Finally, we propose an answer editor to generate the final answer by taking the question and the above parts as input. Conducted on a real-world dataset collected from an e-commerce platform, extensive experimental results show that our model achieves state-of-the-art performance in terms of both automatic metrics and human evaluations. Human evaluation also demonstrates that our model can consistently generate specific and proper answers. | 翻訳日:2022-09-25 13:21:32 公開日:2020-11-14 |
# マルチモーダル表現学習における早期融合の利点について On the Benefits of Early Fusion in Multimodal Representation Learning ( http://arxiv.org/abs/2011.07191v1 ) ライセンス: Link先を確認 | George Barnum, Sabera Talukder, Yisong Yue | (参考訳) 世界のインテリジェントな推論には、個々のモダリティが信頼できない情報や不完全な情報を含む可能性があるため、複数のモダリティからのデータを統合する必要がある。
マルチモーダル学習における先行研究は、重要な独立処理後にのみ入力モダリティを融合させる。
一方、脳はほぼ即座にマルチモーダル処理を行う。
この従来のマルチモーダル学習と神経科学の分離は、初期のマルチモーダル融合の詳細な研究が人工マルチモーダル表現を改善することを示唆している。
初期のマルチモーダル融合の研究を容易にするために,音声と視覚の両方の入力を同時に処理する畳み込みLSTMネットワークアーキテクチャを構築し,音声と視覚情報を組み合わせたレイヤを選択する。
以上の結果から,初期C-LSTM層における音声入力と視覚入力の即時融合により,音声入力と視覚入力の両方において白色雑音が付加されることにより,高い性能のネットワークが得られることが示された。 Intelligently reasoning about the world often requires integrating data from multiple modalities, as any individual modality may contain unreliable or incomplete information. Prior work in multimodal learning fuses input modalities only after significant independent processing. On the other hand, the brain performs multimodal processing almost immediately. This divide between conventional multimodal learning and neuroscience suggests that a detailed study of early multimodal fusion could improve artificial multimodal representations. To facilitate the study of early multimodal fusion, we create a convolutional LSTM network architecture that simultaneously processes both audio and visual inputs, and allows us to select the layer at which audio and visual information combines. Our results demonstrate that immediate fusion of audio and visual inputs in the initial C-LSTM layer results in higher performing networks that are more robust to the addition of white noise in both audio and visual inputs. | 翻訳日:2022-09-25 13:21:05 公開日:2020-11-14 |
# 自己監督政策適応に関する幾何学的視点 A Geometric Perspective on Self-Supervised Policy Adaptation ( http://arxiv.org/abs/2011.07318v1 ) ライセンス: Link先を確認 | Cristian Bodnar, Karol Hausman, Gabriel Dulac-Arnold, Rico Jonschkowski | (参考訳) 現実世界の強化学習(RL)の最も難しい側面の1つは、エージェントがトレーニング環境でやるべきことから逸脱する、予測不可能で絶えず変化する邪魔行為の多さである。
エージェントは報酬を無視するために報酬信号から学ぶことができるが、現実世界の複雑さは報酬を得るのを難しくする。
最近の自己監督手法のクラスでは、挑戦的な注意をそらすことなく報酬のない適応が可能であることが示されている。
しかし、以前の作品では短い1つの適応設定に焦点が当てられていた。
本稿では,実世界の具体化に類似した長期適応設定を考察し,自己教師付き適応に関する幾何学的視点を提案する。
この適応プロセス中に埋め込み空間で発生するプロセスを実証的に記述し、その好ましくない影響が性能に与える影響を明らかにし、その除去方法を示す。
さらに,アクタベースおよびアクタフリーエージェントが,アクタによって記述された多様体の幾何学と批判関数を操作することによって,さらにターゲット環境に一般化できるのかを理論的に検討する。 One of the most challenging aspects of real-world reinforcement learning (RL) is the multitude of unpredictable and ever-changing distractions that could divert an agent from what was tasked to do in its training environment. While an agent could learn from reward signals to ignore them, the complexity of the real-world can make rewards hard to acquire, or, at best, extremely sparse. A recent class of self-supervised methods have shown promise that reward-free adaptation under challenging distractions is possible. However, previous work focused on a short one-episode adaptation setting. In this paper, we consider a long-term adaptation setup that is more akin to the specifics of the real-world and propose a geometric perspective on self-supervised adaptation. We empirically describe the processes that take place in the embedding space during this adaptation process, reveal some of its undesirable effects on performance and show how they can be eliminated. Moreover, we theoretically study how actor-based and actor-free agents can further generalise to the target environment by manipulating the geometry of the manifolds described by the actor and critic functions. | 翻訳日:2022-09-25 13:20:48 公開日:2020-11-14 |
# MP-Boost: 適応機能とオブザーバサンプリングによるミニパッチブースティング MP-Boost: Minipatch Boosting via Adaptive Feature and Observation Sampling ( http://arxiv.org/abs/2011.07218v1 ) ライセンス: Link先を確認 | Mohammad Taha Toghani, Genevera I. Allen | (参考訳) ブースティング手法は、最も汎用的で市販の機械学習アプローチであり、広く普及している。
本稿では,人気のあるadaboost法や勾配ブースティング法に匹敵する精度を持つブースティング法を提案するが,計算速度は速く,解の解釈も容易である。
AdaBoostをベースとしたアルゴリズムであるMP-Boostを開発し、各イテレーションでインスタンスや機能の小さなサブセットを適応的に選択することや、ミニパッチ(MP)と呼ぶものを学習する。
データの小さな部分集合を逐次学習することで、我々のアプローチは他の古典的なブースティングアルゴリズムよりも高速に計算できる。
また、MP-Boostは、最も重要な機能と挑戦的なインスタンスをアップウェイトする機能やインスタンスの確率分布を適応的に学習することで、学習に最も関連するミニパッチを適応的に選択する。
これらの学習された確率分布は、この方法の解釈にも役立つ。
我々は,様々な二分分類タスクに対するアプローチの解釈可能性,比較精度,計算時間を実証的に実証した。 Boosting methods are among the best general-purpose and off-the-shelf machine learning approaches, gaining widespread popularity. In this paper, we seek to develop a boosting method that yields comparable accuracy to popular AdaBoost and gradient boosting methods, yet is faster computationally and whose solution is more interpretable. We achieve this by developing MP-Boost, an algorithm loosely based on AdaBoost that learns by adaptively selecting small subsets of instances and features, or what we term minipatches (MP), at each iteration. By sequentially learning on tiny subsets of the data, our approach is computationally faster than other classic boosting algorithms. Also as it progresses, MP-Boost adaptively learns a probability distribution on the features and instances that upweight the most important features and challenging instances, hence adaptively selecting the most relevant minipatches for learning. These learned probability distributions also aid in interpretation of our method. We empirically demonstrate the interpretability, comparative accuracy, and computational time of our approach on a variety of binary classification tasks. | 翻訳日:2022-09-25 13:20:29 公開日:2020-11-14 |
# データ駆動型アルゴリズム設計 Data-driven Algorithm Design ( http://arxiv.org/abs/2011.07177v1 ) ライセンス: Link先を確認 | Maria-Florina Balcan | (参考訳) データ駆動アルゴリズム設計は、現代のデータサイエンスとアルゴリズム設計の重要な側面である。
最悪のケースパフォーマンス保証のみを持つシェルフアルゴリズムをオフにするのではなく、パラメトリ化されたアルゴリズムの大規模なファミリーを最適化し、それらのアルゴリズムのパラメータをドメインからの問題インスタンスのトレーニングセットを使用してチューニングし、将来のインスタンスよりも高いパフォーマンスが期待できる構成を決定する。
しかし、この作業のほとんどは性能保証がない。
課題は、分割、部分集合選択、アライメント問題など、多くの重要な組合せ問題において、パラメータの微調整がアルゴリズムの振る舞いの変化のカスケードを引き起こす可能性があるため、アルゴリズムの性能はそのパラメータの不連続な関数である。
本章では,データ駆動型組合せアルゴリズムの設計を基盤とする最近の研究について調査する。
特定のアプリケーションから典型的な問題インスタンスのコレクションがすべて同時に、あるいはオンライン形式で提示されるバッチシナリオとオンラインシナリオの両方において、強力な計算と統計のパフォーマンス保証を提供します。 Data driven algorithm design is an important aspect of modern data science and algorithm design. Rather than using off the shelf algorithms that only have worst case performance guarantees, practitioners often optimize over large families of parametrized algorithms and tune the parameters of these algorithms using a training set of problem instances from their domain to determine a configuration with high expected performance over future instances. However, most of this work comes with no performance guarantees. The challenge is that for many combinatorial problems of significant importance including partitioning, subset selection, and alignment problems, a small tweak to the parameters can cause a cascade of changes in the algorithm's behavior, so the algorithm's performance is a discontinuous function of its parameters. In this chapter, we survey recent work that helps put data-driven combinatorial algorithm design on firm foundations. We provide strong computational and statistical performance guarantees, both for the batch and online scenarios where a collection of typical problem instances from the given application are presented either all at once or in an online fashion, respectively. | 翻訳日:2022-09-25 13:19:37 公開日:2020-11-14 |
# PLAS: オフライン強化学習のための潜在行動空間 PLAS: Latent Action Space for Offline Reinforcement Learning ( http://arxiv.org/abs/2011.07213v1 ) ライセンス: Link先を確認 | Wenxuan Zhou, Sujay Bajracharya, David Held | (参考訳) オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
この設定は、データ収集が遅く、潜在的に危険であるロボット工学のような強化学習の現実的な応用において、ますます重要なパラダイムとなる。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
これにより、トレーニング中にデータセットのサポート内でアクションを選択するポリシを制約するという課題が発生します。
我々は,この要件が自然に満たされるように,潜伏行動空間(PLAS)の政策を単に学習することを提案する。
シミュレーションにおける連続制御ベンチマークと物理ロボットによる変形可能な物体操作タスクの評価を行った。
提案手法は, 各種連続制御タスクや各種データセットに対して一貫した競合性能を提供し, 既存のオフライン強化学習手法よりも明確な制約で優れることを示した。
ビデオとコードはhttps://sites.google.com/view/latent-policyで入手できる。 The goal of offline reinforcement learning is to learn a policy from a fixed dataset, without further interactions with the environment. This setting will be an increasingly more important paradigm for real-world applications of reinforcement learning such as robotics, in which data collection is slow and potentially dangerous. Existing off-policy algorithms have limited performance on static datasets due to extrapolation errors from out-of-distribution actions. This leads to the challenge of constraining the policy to select actions within the support of the dataset during training. We propose to simply learn the Policy in the Latent Action Space (PLAS) such that this requirement is naturally satisfied. We evaluate our method on continuous control benchmarks in simulation and a deformable object manipulation task with a physical robot. We demonstrate that our method provides competitive performance consistently across various continuous control tasks and different types of datasets, outperforming existing offline reinforcement learning methods with explicit constraints. Videos and code are available at https://sites.google.com/view/latent-policy. | 翻訳日:2022-09-25 13:18:57 公開日:2020-11-14 |
# 多目的ノーマルゲームにおける対向学習の認識とモデリング Opponent Learning Awareness and Modelling in Multi-Objective Normal Form Games ( http://arxiv.org/abs/2011.07290v1 ) ライセンス: Link先を確認 | Roxana R\u{a}dulescu, Timothy Verstraeten, Yijie Zhang, Patrick Mannion, Diederik M. Roijers, Ann Now\'e | (参考訳) 多くの実世界のマルチエージェント相互作用は、複数の異なる基準、すなわち、ペイオフは本質的に多目的である。
しかし、同じ多目的ペイオフベクターが参加者ごとに異なるユーティリティをもたらす可能性がある。
したがって、エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェントインタラクションに対する対向モデリングの効果について,最初の研究を行う。
具体的には,スカラライズされた期待リターン最適化基準の下で非線形効用関数を持つ2人プレイの多目的正規形ゲームについて検討する。
我々は,この環境での混成戦略の強化学習と,対立する政策の再構築と学習を相手の学習意識に組み込む拡張(つまり,相手の学習ステップを予見する際の政策の影響を考慮しながら学習する)に寄与する。
5つの異なるMONFGの実証的な結果から、対立する学習意識とモデリングが、この環境での学習のダイナミクスを劇的に変えることが示される。
平衡が存在する場合、対向モデリングはそれを実装するエージェントに大きな利益を与える。
ナッシュ均衡が存在しない場合、相手の学習意識とモデリングにより、エージェントは近似平衡の有意義な解に収束することができる。 Many real-world multi-agent interactions consider multiple distinct criteria, i.e. the payoffs are multi-objective in nature. However, the same multi-objective payoff vector may lead to different utilities for each participant. Therefore, it is essential for an agent to learn about the behaviour of other agents in the system. In this work, we present the first study of the effects of such opponent modelling on multi-objective multi-agent interactions with non-linear utilities. Specifically, we consider two-player multi-objective normal form games with non-linear utility functions under the scalarised expected returns optimisation criterion. We contribute novel actor-critic and policy gradient formulations to allow reinforcement learning of mixed strategies in this setting, along with extensions that incorporate opponent policy reconstruction and learning with opponent learning awareness (i.e., learning while considering the impact of one's policy when anticipating the opponent's learning step). Empirical results in five different MONFGs demonstrate that opponent learning awareness and modelling can drastically alter the learning dynamics in this setting. When equilibria are present, opponent modelling can confer significant benefits on agents that implement it. When there are no Nash equilibria, opponent learning awareness and modelling allows agents to still converge to meaningful solutions that approximate equilibria. | 翻訳日:2022-09-25 13:18:25 公開日:2020-11-14 |
# 自然言語ロボット学習のためのマイナショット物体の接地とマッピング Few-shot Object Grounding and Mapping for Natural Language Robot Instruction Following ( http://arxiv.org/abs/2011.07384v1 ) ライセンス: Link先を確認 | Valts Blukis, Ross A. Knepper, Yoav Artzi | (参考訳) そこで本研究では,自然言語命令に従うロボットの方針を学習し,新たな対象を判断するために容易に拡張できる課題について検討する。
そこで本研究では,拡張現実データから学習した数発の言語条件付きオブジェクトの接地法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
このマッピングアプローチを命令追従ポリシに統合することで,既存の未確認オブジェクトをテスト時に推論することが可能になる。
生の観測と指示を物理的クワッドコプターの連続制御にマッピングする学習のタスクを評価する。
我々の手法は、訓練中にすべての物体を観察した場合でも、新しい物体の存在下での先行技術よりも著しく優れています。 We study the problem of learning a robot policy to follow natural language instructions that can be easily extended to reason about new objects. We introduce a few-shot language-conditioned object grounding method trained from augmented reality data that uses exemplars to identify objects and align them to their mentions in instructions. We present a learned map representation that encodes object locations and their instructed use, and construct it from our few-shot grounding output. We integrate this mapping approach into an instruction-following policy, thereby allowing it to reason about previously unseen objects at test-time by simply adding exemplars. We evaluate on the task of learning to map raw observations and instructions to continuous control of a physical quadcopter. Our approach significantly outperforms the prior state of the art in the presence of new objects, even when the prior approach observes all objects during training. | 翻訳日:2022-09-25 13:12:08 公開日:2020-11-14 |
# 対人フェアネスの欠点と修正の提案 Shortcomings of Counterfactual Fairness and a Proposed Modification ( http://arxiv.org/abs/2011.07312v1 ) ライセンス: Link先を確認 | Fabian Beigang | (参考訳) 本稿では, アルゴリズムが公正であるために必要な条件として, 反実的公正性が欠かせないことを論じ, この欠点を解消するために, 制約をいかに修正できるかを示唆する。
この目的のために, 虚偽の公平さと直観的な公正判断が相違する仮説的シナリオについて論じる。
そこで, より詳細なアルゴリズムフェアネスの必要条件として, 対実フェアネスの欠点を検討するために, 差別の概念をいかに説明できるかを問う。
次に、この分析の知見を、その欠点を回避していると思われる対実的公正制約の修正である、新たな公正制約、因果的妥当性公正に取り入れる。 In this paper, I argue that counterfactual fairness does not constitute a necessary condition for an algorithm to be fair, and subsequently suggest how the constraint can be modified in order to remedy this shortcoming. To this end, I discuss a hypothetical scenario in which counterfactual fairness and an intuitive judgment of fairness come apart. Then, I turn to the question how the concept of discrimination can be explicated in order to examine the shortcomings of counterfactual fairness as a necessary condition of algorithmic fairness in more detail. I then incorporate the insights of this analysis into a novel fairness constraint, causal relevance fairness, which is a modification of the counterfactual fairness constraint that seems to circumvent its shortcomings. | 翻訳日:2022-09-25 13:11:33 公開日:2020-11-14 |
# OGNet:リモートセンシング画像のディープラーニングによるグローバル石油・ガスインフラデータベースを目指して OGNet: Towards a Global Oil and Gas Infrastructure Database using Deep Learning on Remotely Sensed Imagery ( http://arxiv.org/abs/2011.07227v1 ) ライセンス: Link先を確認 | Hao Sheng, Jeremy Irvin, Sasankh Munukutla, Shawn Zhang, Christopher Cross, Kyle Story, Rose Rustowicz, Cooper Elsworth, Zutao Yang, Mark Omara, Ritesh Gautam, Robert B. Jackson, Andrew Y. Ng | (参考訳) 地球が現在経験している温暖化の少なくとも4分の1は、メタンの人為的排出によるものである。
軌道上には複数の衛星があり、今後数年以内に打ち上げられる予定で、これらの排出を検知し、定量化することができるが、メタン排出を地上の排出源に分類するには、世界中の排出源の位置と特性の包括的なデータベースが不可欠である。
本研究では,無償で利用可能な高分解能空中画像を利用して石油・ガスのインフラを自動的に検出する深層学習アルゴリズムを開発した。
我々は、OGNetと呼ばれる最良のアルゴリズムと専門家のレビューを用いて、米国の石油精製所と石油ターミナルの位置を特定します。
ognetは、石油とガスのインフラの4つの標準データセットに存在しない多くの施設を検出している。
検出されたすべての施設は、インフラタイプや貯蔵タンクの数など、メタン排出に寄与する特性と関連している。
この研究で収集されたデータは、http://stanfordmlgroup.github.io/projects/ognet.com/で無料で利用できる。 At least a quarter of the warming that the Earth is experiencing today is due to anthropogenic methane emissions. There are multiple satellites in orbit and planned for launch in the next few years which can detect and quantify these emissions; however, to attribute methane emissions to their sources on the ground, a comprehensive database of the locations and characteristics of emission sources worldwide is essential. In this work, we develop deep learning algorithms that leverage freely available high-resolution aerial imagery to automatically detect oil and gas infrastructure, one of the largest contributors to global methane emissions. We use the best algorithm, which we call OGNet, together with expert review to identify the locations of oil refineries and petroleum terminals in the U.S. We show that OGNet detects many facilities which are not present in four standard public datasets of oil and gas infrastructure. All detected facilities are associated with characteristics known to contribute to methane emissions, including the infrastructure type and the number of storage tanks. The data curated and produced in this study is freely available at http://stanfordmlgroup.github.io/projects/ognet . | 翻訳日:2022-09-25 13:11:19 公開日:2020-11-14 |
# 深層学習による新生児x線写真における複数カテーテルの自動分類 Automatic classification of multiple catheters in neonatal radiographs with deep learning ( http://arxiv.org/abs/2011.07394v1 ) ライセンス: Link先を確認 | Robert D. E. Henderson, Xin Yi, Scott J. Adams and Paul Babyn | (参考訳) 新生児胸部および腹部X線写真上の複数のカテーテルを分類する深層学習アルゴリズムの開発と評価を行った。
畳み込みニューラルネットワーク(CNN)を777個の新生児胸部と腹部X線写真を用いて訓練し,それぞれ81%-9%-10%の分割試験を行った。
ImageNetで事前トレーニングしたResNet-50(CNN)を採用しました。
経気管管(etts)、鼻腔管(ngts)、血管・静脈カテーテル(uacs、utcs)の存在または欠如を示すために、各画像にタグを付けることに限定された。
データセットには2つ以上のカテーテルを含む591のイメージ、1つしか持たない167のイメージと、全く持たない49のイメージが含まれていた。
性能は平均精度 (ap) で測定し, 精度-リコール曲線下の領域から算出した。
テストデータから,NGTでは0.977(0.679-0.999),ETTでは0.989(0.751-1.000),UACでは0.979(0.873-0.997),UVCでは0.937(0.785-0.984)の総合信頼区間を得た。
2つ以上のカテーテルからなる58枚のテスト画像に類似しており、NGTは0.975 (0.255-1.000)、ETTは0.997 (0.009-1.000)、UACは0.981 (0.797-0.998)、UVCは0.937 (0.689-0.990)である。
これら4種類のカテーテルの同時検出において,ネットワークの性能は高い。
放射線科医は、そのようなアルゴリズムを時間節約のメカニズムとして使用し、ラジオグラフ上のカテーテルの報告を自動化する。 We develop and evaluate a deep learning algorithm to classify multiple catheters on neonatal chest and abdominal radiographs. A convolutional neural network (CNN) was trained using a dataset of 777 neonatal chest and abdominal radiographs, with a split of 81%-9%-10% for training-validation-testing, respectively. We employed ResNet-50 (a CNN), pre-trained on ImageNet. Ground truth labelling was limited to tagging each image to indicate the presence or absence of endotracheal tubes (ETTs), nasogastric tubes (NGTs), and umbilical arterial and venous catheters (UACs, UVCs). The data set included 561 images containing 2 or more catheters, 167 images with only one, and 49 with none. Performance was measured with average precision (AP), calculated from the area under the precision-recall curve. On our test data, the algorithm achieved an overall AP (95% confidence interval) of 0.977 (0.679-0.999) for NGTs, 0.989 (0.751-1.000) for ETTs, 0.979 (0.873-0.997) for UACs, and 0.937 (0.785-0.984) for UVCs. Performance was similar for the set of 58 test images consisting of 2 or more catheters, with an AP of 0.975 (0.255-1.000) for NGTs, 0.997 (0.009-1.000) for ETTs, 0.981 (0.797-0.998) for UACs, and 0.937 (0.689-0.990) for UVCs. Our network thus achieves strong performance in the simultaneous detection of these four catheter types. Radiologists may use such an algorithm as a time-saving mechanism to automate reporting of catheters on radiographs. | 翻訳日:2022-09-25 13:11:01 公開日:2020-11-14 |
# 係数化ガウス過程変分オートエンコーダ Factorized Gaussian Process Variational Autoencoders ( http://arxiv.org/abs/2011.07255v1 ) ライセンス: Link先を確認 | Metod Jazbec, Michael Pearce, Vincent Fortuin | (参考訳) 変分オートエンコーダは、しばしば等方ガウス先行と平均体後部を仮定するので、潜在変数間の類似性や一貫性を期待するシナリオでは構造を利用できない。
ガウス過程変分オートエンコーダは、潜在ガウス過程を用いてこの問題を緩和するが、立方体の推論時間複雑性をもたらす。
多くのデータセットに存在する補助的特徴の独立性を利用して、これらのモデルのよりスケーラブルな拡張を提案する。
我々のモデルは、これらの特徴にまたがる潜在カーネルを異なる次元で分解し、重要なスピードアップ(理論と実践)を導き、既存の非スケーラブルアプローチと実証的に比較可能にします。
さらに,本手法では,グローバル潜在情報のさらなるモデリングや,より汎用的な入力組合せの補間が可能となる。 Variational autoencoders often assume isotropic Gaussian priors and mean-field posteriors, hence do not exploit structure in scenarios where we may expect similarity or consistency across latent variables. Gaussian process variational autoencoders alleviate this problem through the use of a latent Gaussian process, but lead to a cubic inference time complexity. We propose a more scalable extension of these models by leveraging the independence of the auxiliary features, which is present in many datasets. Our model factorizes the latent kernel across these features in different dimensions, leading to a significant speed-up (in theory and practice), while empirically performing comparably to existing non-scalable approaches. Moreover, our approach allows for additional modeling of global latent information and for more general extrapolation to unseen input combinations. | 翻訳日:2022-09-25 13:10:24 公開日:2020-11-14 |
# genni: ニューラルネットワーク識別性のための等価性の幾何の可視化 GENNI: Visualising the Geometry of Equivalences for Neural Network Identifiability ( http://arxiv.org/abs/2011.07407v1 ) ライセンス: Link先を確認 | Daniel Lengyel, Janith Petangoda, Isak Falk, Kate Highnam, Michalis Lazarou, Arinbj\"orn Kolbeinsson, Marc Peter Deisenroth, Nicholas R. Jennings | (参考訳) ニューラルネットワークの対称性を可視化する効率的なアルゴリズムを提案する。
通常、モデルはパラメータ空間に関して定義され、非等値パラメータは同じ入力出力マップを生成できる。
提案手法であるGENNIは,機能的に等価なパラメータを効率的に同定し,その結果の同値クラスの部分空間を可視化する。
そうすることで、一般的に使われている、または新しく開発されたニューラルネットワークアーキテクチャの最適化と一般化への応用により、識別可能性に関する質問をよりよく探求できるようになりました。 We propose an efficient algorithm to visualise symmetries in neural networks. Typically, models are defined with respect to a parameter space, where non-equal parameters can produce the same input-output map. Our proposed method, GENNI, allows us to efficiently identify parameters that are functionally equivalent and then visualise the subspace of the resulting equivalence class. By doing so, we are now able to better explore questions surrounding identifiability, with applications to optimisation and generalizability, for commonly used or newly developed neural network architectures. | 翻訳日:2022-09-25 13:10:08 公開日:2020-11-14 |
# 深層学習技術を用いたシンハラ語の感性分析 Sentiment Analysis for Sinhala Language using Deep Learning Techniques ( http://arxiv.org/abs/2011.07280v1 ) ライセンス: Link先を確認 | Lahiru Senevirathne, Piyumal Demotte, Binod Karunanayake, Udyogi Munasinghe, Surangika Ranathunga | (参考訳) 機械学習とディープラーニングの急速な発展により、自然言語処理(NLP)タスクは、英語や中国語などの高度に資源化された言語に対して、より包括的なパフォーマンスを得ることができた。
しかし、豊富な形態を持つ未解決言語であるシンハラは、これらの進歩を経験していない。
感情分析には、バイナリケースのドキュメントレベルの感情分析のみに焦点を当てたディープラーニングアプローチに関する、以前の2つの研究しか存在しない。
彼らは3種類のディープラーニングモデルを実験した。
本稿では,rnn,lstm,bi-lstmなどの標準シーケンスモデルや,階層型注意型ハイブリッドニューラルネットワークやカプセルネットワークといった最新の最先端モデルの利用に関する包括的研究を行う。
分類は文書レベルで行われるが、POSITIVE, NEGATIVE, NEUTRAL, CONFLICT クラスを考慮すればより粒度の細かいものとなる。
この4つのクラスに注釈を付けた15059年のシンハラのニュースコメントと948万のトークンからなるコーパスのデータセットが公開されている。
これはSinhalaにとってこれまでで最大の感情アノテートデータセットだ。 Due to the high impact of the fast-evolving fields of machine learning and deep learning, Natural Language Processing (NLP) tasks have further obtained comprehensive performances for highly resourced languages such as English and Chinese. However Sinhala, which is an under-resourced language with a rich morphology, has not experienced these advancements. For sentiment analysis, there exists only two previous research with deep learning approaches, which focused only on document-level sentiment analysis for the binary case. They experimented with only three types of deep learning models. In contrast, this paper presents a much comprehensive study on the use of standard sequence models such as RNN, LSTM, Bi-LSTM, as well as more recent state-of-the-art models such as hierarchical attention hybrid neural networks, and capsule networks. Classification is done at document-level but with more granularity by considering POSITIVE, NEGATIVE, NEUTRAL, and CONFLICT classes. A data set of 15059 Sinhala news comments, annotated with these four classes and a corpus consists of 9.48 million tokens are publicly released. This is the largest sentiment annotated data set for Sinhala so far. | 翻訳日:2022-09-25 13:09:59 公開日:2020-11-14 |
# 非条件言語モデルのみを用いた条件付き自然言語生成:探索 Conditioned Natural Language Generation using only Unconditioned Language Model: An Exploration ( http://arxiv.org/abs/2011.07347v1 ) ライセンス: Link先を確認 | Fan-Keng Sun, Cheng-I Lai | (参考訳) トランスフォーマーベースの言語モデルは、自然言語生成(NLG)に非常に強力であることが示されている。
しかし、トピックや属性など一部のユーザー入力で条件付けされたテキスト生成は自明ではない。
過去のアプローチでは、オリジナルのLMアーキテクチャの変更、コーパス上のLMを属性ラベルで再トレーニングすること、あるいは復号時にテキスト生成をガイドするために個別に訓練された 'Guidance model' のいずれかに依存していた。
我々は、上記のアプローチは不要であり、元の無条件LMは条件付きNLGに十分であると主張した。
試料の流動性と多様性を自動的および人間的評価によって評価した。 Transformer-based language models have shown to be very powerful for natural language generation (NLG). However, text generation conditioned on some user inputs, such as topics or attributes, is non-trivial. Past approach relies on either modifying the original LM architecture, re-training the LM on corpora with attribute labels, or having separately trained `guidance models' to guide text generation in decoding. We argued that the above approaches are not necessary, and the original unconditioned LM is sufficient for conditioned NLG. We evaluated our approaches by the samples' fluency and diversity with automated and human evaluation. | 翻訳日:2022-09-25 13:09:33 公開日:2020-11-14 |