このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210221)

# ベルの定理における算術的抜け穴:絡み合った量子暗号に対する見過ごされた脅威

Arithmetic loophole in Bell's theorem: An overlooked threat to entangled-state quantum cryptography ( http://arxiv.org/abs/2004.04097v9 )

ライセンス: Link先を確認
Marek Czachor(参考訳) ベルの定理は、量子相関の局所的隠れ変数モデルをすべて除外することである。 しかし、明示的な反例は、2電子一重項状態の典型的回転対称量子確率を正確に再構成できる、一般化された算術と計算に基づく新しい局所現実モデルのクラスを示す。 可観測確率はマクロ観測者によって用いられる通常の算術と一致しているが、ベルの定理の反実的な側面は隠れ変数算術と計算の選択に敏感である。 このモデルはアインシュタイン、ポドルスキー、ローゼン、ベルの意味で古典的であり、現実の要素と確率は隠れ変数の確率密度の積分によってモデル化される。 確率密度は局所現実理論の典型的なクレーター・ホーンの積形式を持つ。 しかし、積も積分も回転の表現も通常のものではない。 積分はすべての標準性質を持つが、積を定義する算術に関してのみである。 通常の証明 \`a la Bell における積分表現の形式的な変換は機能しないので、標準的なベル型不等式は証明できない。 私たちが考えるシステムは決定論的、局所現実的、回転不変であり、観測者は自由意志を持ち、検出器は完璧である。

Bell's theorem is supposed to exclude all local hidden-variable models of quantum correlations. However, an explicit counterexample shows that a new class of local realistic models, based on generalized arithmetic and calculus, can exactly reconstruct rotationally symmetric quantum probabilities typical of two-electron singlet states. Observable probabilities are consistent with the usual arithmetic employed by macroscopic observers, but counterfactual aspects of Bell's theorem are sensitive to the choice of hidden-variable arithmetic and calculus. The model is classical in the sense of Einstein, Podolsky, Rosen, and Bell: elements of reality exist and probabilities are modeled by integrals of hidden-variable probaility densities. Probability densities have a Clauser-Horne product form typical of local realistic theories. However, neither the product nor the integral nor the representation of rotations are the usual ones. The integral has all the standard properties but only with respect to the arithmetic that defines the product. Certain formal transformations of integral expressions one finds in the usual proofs \`a la Bell do not work, so standard Bell-type inequalities cannot be proved. The system we consider is deterministic, local-realistic, rotationally invariant, observers have free will, detectors are perfect, so is free of all the canonical loopholes discussed in the literature.
翻訳日:2023-05-26 06:07:01 公開日:2021-02-21
# 最小長を持つ理論における準位表現について

On the quasi-position representation in theories with a minimal length ( http://arxiv.org/abs/2005.12258v2 )

ライセンス: Link先を確認
Pasquale Bosso(参考訳) 最小長の量子力学モデルはしばしば、位置と運動量の間の可換関係を変更することによって記述される。 これは運動量空間で記述される場合、小さな複雑さを表すが、少なくとも公式には、(準)配置表現は誤解の原因である多くの問題を取得する。 本稿では,これらの問題を概観し,特に位置演算子の表現に関して,最小長モデルのいくつかの側面を明らかにする。

Quantum mechanical models with a minimal length are often described by modifying the commutation relation between position and momentum. Although this represents a small complication when described in momentum space, at least formally, the (quasi-)position representation acquires numerous issues, source of misunderstandings. In this work, we review these issues, clarifying some of the aspects of minimal length models, with particular reference to the representation of the position operator.
翻訳日:2023-05-18 12:20:48 公開日:2021-02-21
# 雑音耐性量子回路の機械学習

Machine learning of noise-resilient quantum circuits ( http://arxiv.org/abs/2007.01210v2 )

ライセンス: Link先を確認
Lukasz Cincio, Kenneth Rudinger, Mohan Sarovar, Patrick J. Coles(参考訳) 雑音の緩和と低減は、短期量子コンピュータから有用な答えを得るために重要である。 本稿では,量子回路における量子ハードウェアノイズの影響を低減するために,機械学習に基づく汎用フレームワークを提案する。 ノイズアウェア回路学習(nacl)と呼ばれるこの手法は、ユニタリ変換の計算や量子状態のセットの作成、あるいは多量子ビット状態の可観測性を推定するために設計された回路に適用する。 デバイス内のキュービットのノイズと接続に関する情報をキャプチャするタスクとデバイスモデルが与えられたとき、naclはノイズの存在下でこのタスクを達成するために最適化された回路を出力する。 これは、回路深さと回路構造に対するタスク固有のコスト関数を最小化する。 NACLを実証するために,超伝導回路量子デバイス上にゲートセットトモグラフィーから導出される微細ノイズモデルに応答する回路を構築し,量子状態重なり,量子フーリエ変換,W状態生成などの応用を行った。

Noise mitigation and reduction will be crucial for obtaining useful answers from near-term quantum computers. In this work, we present a general framework based on machine learning for reducing the impact of quantum hardware noise on quantum circuits. Our method, called noise-aware circuit learning (NACL), applies to circuits designed to compute a unitary transformation, prepare a set of quantum states, or estimate an observable of a many-qubit state. Given a task and a device model that captures information about the noise and connectivity of qubits in a device, NACL outputs an optimized circuit to accomplish this task in the presence of noise. It does so by minimizing a task-specific cost function over circuit depths and circuit structures. To demonstrate NACL, we construct circuits resilient to a fine-grained noise model derived from gate set tomography on a superconducting-circuit quantum device, for applications including quantum state overlap, quantum Fourier transform, and W-state preparation.
翻訳日:2023-05-11 20:47:27 公開日:2021-02-21
# 予防接種戦略としての隔離

Quarantines as a Targeted Immunization Strategy ( http://arxiv.org/abs/2008.08262v3 )

ライセンス: Link先を確認
Jessica Hoffmann, Matt Jordan, Constantine Caramanis(参考訳) 新型コロナウイルスの感染拡大の背景には、検疫は「カーブを膨らませ」、病気の拡散を遅らせるために使われてきた。 本稿では,グラフ上に拡散するSIR流行の緩和のため,検疫の唯一のメリットではないことを示す。 実際、ヒトの接触ネットワークは、無作為なノードの免疫が感染を遅らせるには極めて効果の低いパワーロー構造を示し、高次ノードの免疫は効率よく羊の免疫を保証できる。 理論的には、検疫が正しい瞬間に宣言された場合、高次ノードは標的免疫の形式である除去された状態において不釣り合いである。 検疫が早すぎると宣言しても、その後の感染の波は最初の波よりも緩やかに広がる。 これにより、最小数の個人を感染させながら、グラフを免疫化することを目的としたオープン・アンド・クローズ戦略が提案され、人口が将来の感染にロバストな状態になることが保証される。 私たちの知る限りでは、ワクチンを必要とせずに集団免疫を保証できる唯一の戦略です。 シミュレーションおよび実生活ネットワーク上での結果を広範囲に検証した。

In the context of the recent COVID-19 outbreak, quarantine has been used to "flatten the curve" and slow the spread of the disease. In this paper, we show that this is not the only benefit of quarantine for the mitigation of an SIR epidemic spreading on a graph. Indeed, human contact networks exhibit a powerlaw structure, which means immunizing nodes at random is extremely ineffective at slowing the epidemic, while immunizing high-degree nodes can efficiently guarantee herd immunity. We theoretically prove that if quarantines are declared at the right moment, high-degree nodes are disproportionately in the Removed state, which is a form of targeted immunization. Even if quarantines are declared too early, subsequent waves of infection spread slower than the first waves. This leads us to propose an opening and closing strategy aiming at immunizing the graph while infecting the minimum number of individuals, guaranteeing the population is now robust to future infections. To the best of our knowledge, this is the only strategy that guarantees herd immunity without requiring vaccines. We extensively verify our results on simulated and real-life networks.
翻訳日:2023-05-05 20:44:39 公開日:2021-02-21
# キラル対称性を破った非断熱相転移

Nonadiabatic Phase Transition with Broken Chiral Symmetry ( http://arxiv.org/abs/2012.07672v2 )

ライセンス: Link先を確認
Bin Yan, Vladimir Y. Chernyak, Wojciech H. Zurek, Nikolai A. Sinitsyn(参考訳) 線形時間依存な横磁場と単位セル当たり2つの異なるスピンを持つイジングスピン鎖における非断熱的な量子相転移を探索する。 このようなスピン系は、非断熱遷移をサポートする隙間のない励起を持つ臨界点を通過する。 それでも、鎖状亜格子の1つの励起は、ほぼ断熱的な状態において指数関数的に抑制される。 そこで,種々の準粒子に対して指数関数的に大きな密度分離を誘導するコヒーレント機構を明らかにした。

We explore nonadiabatic quantum phase transitions in an Ising spin chain with a linearly time-dependent transverse field and two different spins per unit cell. Such a spin system passes through critical points with gapless excitations, which support nonadiabatic transitions. Nevertheless, we find that the excitations on one of the chain sub-lattices are suppressed in the nearly-adiabatic regime exponentially. Thus, we reveal a coherent mechanism to induce exponentially large density separation for different quasiparticles.
翻訳日:2023-04-20 21:12:24 公開日:2021-02-21
# 局所多重基底におけるSU(3)Yang-Mills格子ゲージ理論の量子シミュレーション用トレイルヘッド

A Trailhead for Quantum Simulation of SU(3) Yang-Mills Lattice Gauge Theory in the Local Multiplet Basis ( http://arxiv.org/abs/2101.10227v2 )

ライセンス: Link先を確認
Anthony Ciavarella, Natalie Klco, and Martin J. Savage(参考訳) ゲージ場理論の量子シミュレーションにおける局所的相互作用の維持は、ヒルベルト空間のほとんどの状態は、理論上は有益であるが、実験的に避けることは困難である。 ゲージ場の改革は、古典的にヒルベルト空間を前処理し、その場を自由度で表わすことで、しばしばゲージ不変状態と物理的状態の比率を変更することができる。 本稿では,su(3)yang-millsゲージ理論を,投影された大域的量子数の大域的基底と,制御的プラケット作用素が効率的な時間発展をサポートする局所的基底の両方において,既約表現の格子上で表現することの意義について考察する。 各頂点の内部ゲージ空間(例えば色イソスピンや色過電荷)を古典的に積分すると、量子ビットの要求と非物理的ヒルベルト空間の次元の両方が大幅に減少する。 スケールでの将来の計算を知らせるチューニング手順を開始し、ibmの超伝導量子デバイスの一つに1つと2つのプラケットの時間発展が実装され、初期のベンチマーク量を特定する。 2次元ヘキサゴナルまたは1次元近距離内部状態接続を制約したqudit環境の潜在的な利点は、将来の大規模計算のために議論される。

Maintaining local interactions in the quantum simulation of gauge field theories relegates most states in the Hilbert space to be unphysical -- theoretically benign, but experimentally difficult to avoid. Reformulations of the gauge fields can modify the ratio of physical to gauge-variant states often through classically preprocessing the Hilbert space and modifying the representation of the field on qubit degrees of freedom. This paper considers the implications of representing SU(3) Yang-Mills gauge theory on a lattice of irreducible representations in both a global basis of projected global quantum numbers and a local basis in which controlled-plaquette operators support efficient time evolution. Classically integrating over the internal gauge space at each vertex (e.g., color isospin and color hypercharge) significantly reduces both the qubit requirements and the dimensionality of the unphysical Hilbert space. Initiating tuning procedures that may inform future calculations at scale, the time evolution of one- and two-plaquettes are implemented on one of IBM's superconducting quantum devices, and early benchmark quantities are identified. The potential advantages of qudit environments, with either constrained 2D hexagonal or 1D nearest-neighbor internal state connectivity, are discussed for future large-scale calculations.
翻訳日:2023-04-14 00:41:19 公開日:2021-02-21
# 不完全なソースを持つ参照フレーム非依存測定デバイス非依存量子鍵分布

Reference-frame-independent measurement-device-independent quantum key distribution with imperfect sources ( http://arxiv.org/abs/2102.10638v1 )

ライセンス: Link先を確認
Jian-Rong Zhu, Chun-Mei Zhang, Qin Wang(参考訳) RFI-MDI-QKD(Reference-frame-independent Measurement-Device-Independent quantum key distribution)は、検出側チャネル攻撃の可能性を排除し、参照フレームをリアルタイムにアライメントする必要がある。 しかし、以前のRFI-MDI-QKD実装は全て、ソースの完全な状態の準備を前提としており、これは非現実的であり、セキュリティの抜け穴につながる可能性がある。 本稿では、状態準備欠陥に対して堅牢なRFI-MDI-QKDプロトコルを提案する。 従来の6状態RFI-MDI-QKDと比較して,本手法は4つの欠陥のある状態で実現可能であり,RFI-MDI-QKDの実用的安全性を向上し,実験的な実装を簡素化する。 さらに, シミュレーションの結果から, Z塩基のソース欠陥はRFI-MDI-QKDの性能に悪影響を及ぼすが, X塩基とY塩基のソース欠陥はほとんど影響しないことがわかった。 我々は,本研究がRFI-MDI-QKDの実践的実装に貴重な参考になることを期待している。

Reference-frame-independent measurement-device-independent quantum key distribution (RFI-MDI-QKD) can remove all potential detector side-channel attacks and the requirement of real-time alignment of reference frames. However, all previous RFI-MDI-QKD implementations assume the perfect state preparation in sources, which is impractical and may lead to security loopholes. Here, we propose a RFI-MDI-QKD protocol which is robust against state preparation flaws. Comparing to the conventional six-state RFI-MDI-QKD, our scheme can be realized with only four flawed states, which improves the practical security of RFI-MDI-QKD and simplifies the experimental implementation. In addition, simulation results demonstrate that source flaws in Z basis have adverse effect on the performance of RFI-MDI-QKD while the source flaws in X and Y bases have almost no effect. We hope that this work could provide a valuable reference for practical implementations of RFI-MDI-QKD.
翻訳日:2023-04-10 07:45:06 公開日:2021-02-21
# ハイブリッドシステムにおける非古典性の絡み合いに基づく証人の弁証

Vindication of entanglement-based witnesses of non-classicality in hybrid systems ( http://arxiv.org/abs/2102.10615v1 )

ライセンス: Link先を確認
Emanuele Marconato, Chiara Marletto(参考訳) 最近、Vedralと私たちの一人は、コンストラクタ情報理論の考え方に基づいて、量子理論に従う必要のないシステムにおいて、非古典性の絡み合いに基づく目撃者を提案した。 証人は、仲介者が局所的に2つの量子系を絡めることができれば、それは古典的でない必要があると主張する。 ホールとレジナットは、2つの量子系を絡める古典的な系が存在すると主張している。 ここでは、ホールとレジナットが提案した反例が実際に証人を検証することを説明し、非古典主義の証人をその完全な一般性で非難する。

Recently, Vedral and one of us proposed an entanglement-based witness of non-classicality in systems that need not obey quantum theory, based on constructor-information-theoretic ideas, which offers a robust foundation for recently proposed table-top tests of non-classicality in gravity. The witness asserts that if a mediator can entangle locally two quantum systems, then it has to be non-classical. Hall and Reginatto claimed that there are classical systems that can entangle two quantum systems, thus violating our proposed witness. Here we refute that claim, explaining that the counterexample proposed by Hall and Reginatto in fact validates the witness, vindicating the witness of non-classicality in its full generality.
翻訳日:2023-04-10 07:44:38 公開日:2021-02-21
# majorana aharonov-bohm干渉計における majorana qubitコヒーレンスの生成

Generating Majorana qubit coherence in Majorana Aharonov-Bohm interferometer ( http://arxiv.org/abs/2102.10586v1 )

ライセンス: Link先を確認
Fei-Lei Xiong, Hon-Lam Lai and Wei-Min Zhang(参考訳) 本稿では,マヨルナ量子ビットのコヒーレンスを生成するための2つの位相超伝導鎖(tscs)からなるアハロノフ-ボーム干渉計を提案する。 一般化された完全マスター方程式とその解を求め、様々な操作下でのMZM量子状態のリアルタイムダイナミクスを研究する。 磁気フラックスの調整によりデコヒーレンス率を著しく変更し,無散逸MZMを生成できることを実証した。 鉛にバイアス電圧を適用することで、MZM量子ビットコヒーレンスを演算し、マヨラナ量子ビットのほぼ純粋な重ね合わせ状態を生成することができる。 さらに、ゲート電圧を介してリードとTSCの結合を制御することにより、異なるフェルミオンパリティを持つMZM量子ビット間のパリティフリップを実現することができる。

We propose an Aharonov-Bohm interferometer consisted of two topological superconducting chains (TSCs) to generate coherence of Majorana qubits, each qubit is made of two Majorana zero modes (MZMs) with the definite fermion parity. We obtain the generalized exact master equation as well as its solution and study the real-time dynamics of the MZM qubit states under various operations. We demonstrate that by tuning the magnetic flux, the decoherence rates can be modified significantly, and dissipationless MZMs can be generated. By applying the bias voltage to the leads, one can manipulate MZM qubit coherence and generate a nearly pure superposition state of Majorana qubit. Moreover, parity flipping between MZM qubits with different fermion parities can be realized by controlling the coupling between the leads and the TSCs through gate voltages.
翻訳日:2023-04-10 07:44:22 公開日:2021-02-21
# 有限時間における軽量量子オットーエンジン

Light-matter quantum Otto engine in finite time ( http://arxiv.org/abs/2102.10559v1 )

ライセンス: Link先を確認
G. Alvarado Barrios, F. Albarr\'an-Arriagada, F. J. Pe\~na, E. Solano and J. C. Retamal(参考訳) 有限時間における量子オットーエンジンの研究において、作用物質は、量子ラビモデルにより記述された調和振動子と相互作用する2レベルシステムから構成される。 開系力学を記述する算術方程式を数値的に解くことにより, 限界サイクルを取得し, エンジンの総作業量, 効率, パワーを算出する。 抽出された全作業量と最大出力での効率を, 生成の絡み合いと量子不協和により考慮した作業物質に埋め込まれた量子相関と関係付ける。 興味深いことに、作業物質が超強結合状態にある場合、エンジンはカーゾン=アルボーン効率を克服できる。 この高効率な体制は、作業物質の絡み合いが熱い等温期において最大に減少するケースとほぼ一致する。 量子熱エンジンにおける相関作業物質の効率性について検討した。

We study a quantum Otto engine at finite time, where the working substance is composed of a two-level system interacting with a harmonic oscillator, described by the quantum Rabi model. We obtain the limit cycle and calculate the total work extracted, efficiency, and power of the engine by numerically solving the master equation describing the open system dynamics. We relate the total work extracted and the efficiency at maximum power with the quantum correlations embedded in the working substance, which we consider through entanglement of formation and quantum discord. Interestingly, we find that the engine can overcome the Curzon-Ahlborn efficiency when the working substance is in the ultrastrong coupling regime. This high-efficiency regime roughly coincides with the cases where the entanglement in the working substance experiences the greatest reduction in the hot isochoric stage. Our results highlight the efficiency performance of correlated working substances for quantum heat engines.
翻訳日:2023-04-10 07:44:02 公開日:2021-02-21
# 政策対応型モビリティモデルが都市での新型コロナウイルス(covid-19)感染拡大を説明

Policy-Aware Mobility Model Explains the Growth of COVID-19 in Cities ( http://arxiv.org/abs/2102.10538v1 )

ライセンス: Link先を確認
Zhenyu Han, Fengli Xu, Yong Li, Tao Jiang, Depeng Jin, Jianhua Lu, James A. Evans(参考訳) 新型コロナウイルスの感染拡大が続く中、標準的な疫学モデルでは説明がつかず、各都市で特有の成長曲線を予想する作業は医療供給や治療に欠かせない。 外出禁止令、ソーシャルディスタンシング、隔離、強制マスク着用など、新型コロナウイルスの感染拡大を遅らせる非薬剤的介入を考慮する必要がある。 また、新型コロナウイルスと人の移動や詳細な移動データを関連付けた最近の研究は、疾病予測における都市移動を考える必要性を示唆している。 ここでは,都市内モビリティと政策導入を新しいメタポピュレーション・サーモデルに組み込むことにより,米国の都市におけるcovid-19の複雑な成長パターンを正確に予測できることを示す(r^2$ = 0.990)。 政策介入によるモビリティの変化の推定は、Apple Mobility Trends Reports(Pearson R = 0.872)の実証的な観察と一致しており、データ制限のあるモデルベースの予測の有用性を示唆している。 また, 都市部における二次感染は, 人口不均等化や都市内人口増加などにより, 都市部における二次感染の多さを反映している。 そこで本モデルでは, 同様の社会的コストで, より効果的に病原体の伝達を軽減できる位置認識型モビリティ低減策を提案する。 最後に,このモデルが,合理的な非薬理介入政策の設計を知らせる,きめ細かな解析・シミュレーションの枠組みとなることを実証する。

With the continued spread of coronavirus, the task of forecasting distinctive COVID-19 growth curves in different cities, which remain inadequately explained by standard epidemiological models, is critical for medical supply and treatment. Predictions must take into account non-pharmaceutical interventions to slow the spread of coronavirus, including stay-at-home orders, social distancing, quarantine and compulsory mask-wearing, leading to reductions in intra-city mobility and viral transmission. Moreover, recent work associating coronavirus with human mobility and detailed movement data suggest the need to consider urban mobility in disease forecasts. Here we show that by incorporating intra-city mobility and policy adoption into a novel metapopulation SEIR model, we can accurately predict complex COVID-19 growth patterns in U.S. cities ($R^2$ = 0.990). Estimated mobility change due to policy interventions is consistent with empirical observation from Apple Mobility Trends Reports (Pearson's R = 0.872), suggesting the utility of model-based predictions where data are limited. Our model also reproduces urban "superspreading", where a few neighborhoods account for most secondary infections across urban space, arising from uneven neighborhood populations and heightened intra-city churn in popular neighborhoods. Therefore, our model can facilitate location-aware mobility reduction policy that more effectively mitigates disease transmission at similar social cost. Finally, we demonstrate our model can serve as a fine-grained analytic and simulation framework that informs the design of rational non-pharmaceutical interventions policies.
翻訳日:2023-04-10 07:43:45 公開日:2021-02-21
# オンラインソーシャルメディアによる市民登録・市民権改正法に対する抗議活動のダイナミクスの探求:インド人体験

Exploring the dynamics of protest against National Register of Citizens & Citizenship Amendment Act through online social media: the Indian experience ( http://arxiv.org/abs/2102.10531v1 )

ライセンス: Link先を確認
Souvik Roy and Milan Mukherjee and Priyadarsini Sinha and Sukanta Das and Subhasis Bandopadhyay and Abhik Mukherjee(参考訳) 過去10年間に世界中の政治抗議運動で見られた一般的な流動性は、ソーシャルメディアの存在に重きを置いている。 このように、計算分析と社会科学の視点を組み合わせた学際的アプローチで現代運動を研究することが可能である。 本研究は,nrc-caa制定に反対するインド全国運動の文脈において,このようなダイナミクスを理解するための努力を行っている。 個人の不満の集団的動員への転換性、特に国家のセンシティブな地域を横断するソーシャルメディアへの反射的介入は、質的(フィールドワーク)と量的(計算)技術の組み合わせによって提示される。 この研究は、分析的アプローチのリアルタイム適用と合わせて、一次データ生成によってさらに強化される。

The generic fluidity observed in the nature of political protest movements across the world during the last decade weigh heavily with the presence of social media. As such, there is a possibility to study the contemporary movements with an interdisciplinary approach combining computational analytics with social science perspectives. The present study has put efforts to understand such dynamics in the context of the ongoing nationwide movement in India opposing the NRC-CAA enactment. The transformative nature of individual discontent into collective mobilization, especially with a reflective intervention in social media across a sensitive region of the nation state, is presented here with a combination of qualitative (fieldwork) and quantitative (computing) techniques. The study is augmented further by the primary data generation coupled with real-time application of analytical approaches.
翻訳日:2023-04-10 07:43:17 公開日:2021-02-21
# オープン量子システムにおける対称性保護コヒーレンスの運命

Fate of symmetry protected coherence in open quantum system ( http://arxiv.org/abs/2102.10524v1 )

ライセンス: Link先を確認
Tian-Shu Deng and Lei Pan(参考訳) 対称性に保護された量子系の動的進化におけるコヒーレンスの運命について検討する。 開量子系に対するシステムプラスバスの形式論の下では、反ユニタリ対称性は初期コヒーレンスを保護するユニタリ対称性と大きく異なる。 具体的には、リンドブラッドのマスター方程式を利用すると、ハミルトニアンとシステム環境の相互作用が同じ反ユニタリ対称性を尊重しているにもかかわらず、対称性が保護された退化部分空間の純粋状態はデコヒールとなる。 対照的に、保護対称性がユニタリであるときにコヒーレンスが持続する。 初期状態のコヒーレンスを保てる対称性の組み合わせの種類を説明するための詳細な分類表を提供し、スピン3/2$システムにおけるいくつかの具体的なモデルによって確認される。 我々の結果は、安定な時間反転対称位相状態の実験的実現の可能性を探るのに役立つ。

We investigate the fate of coherence in the dynamical evolution of a symmetry protected quantum system. Under the formalism of system-plus-bath for open quantum system, the anti-unitary symmetry exhibits significant difference from the unitary one in protecting initial coherence. Specifically, taking advantage of Lindblad master equation, we find that a pure state in the symmetry protected degenerate subspace will decohere even though both the system Hamiltonian and system-environment interaction respect the same anti-unitary symmetry. In contrast, the coherence will persist when the protecting symmetry is unitary. We provide an elaborate classification table to illustrate what kinds of symmetry combinations are able to preserve the coherence of initial state, which is confirmed by several concrete models in spin-$3/2$ system. Our results could help to explore the possible experimental realization of stable time-reversal symmetric topological states.
翻訳日:2023-04-10 07:43:02 公開日:2021-02-21
# 自然災害における黒板からムードへの転換--教員と学生の認識

Transitioning from Blackboard to Moodle amidst Natural Disaster: Faculty and Students Perceptions ( http://arxiv.org/abs/2102.10523v1 )

ライセンス: Link先を確認
Ajayi Ekuase-Anwansedo, Jose Noguera, Brandon Dumas(参考訳) 高等教育機関は、eラーニングサービスの質を改善し、学習ソリューションを組織のニーズに適合させる方法を模索し続けている。 2016年秋学期、アメリカ合衆国南部にある大学は、ブラックボード学習管理システム(英語版)からムードル学習管理システム(英語版)への移行を決定した。 このような移行は、大学職員、教員、学生にとって大きな課題となる。 さらに2016年8月、cnnはルイジアナ州でハリケーン・サンディ以来の最悪の自然災害をテーマにした。 このことで州内で大規模な活動が途絶えた。 本稿では,ある lms から別の lms への移行に対する教員と学生の認識と,そのプロセスに自然災害が与えた影響について検討する。 学部と学生は、移行過程の認識、両システムに対する認識、好み、なぜかを理解するために調査された。 さらに,自然災害時の遷移に特有の課題を同定した。 本研究の成果は,あるlmsから別のlmsへの移行に伴う問題や,自然災害時の遷移に特有の問題を予測するのに有用である。 改善すべき領域を特定するためにも使用できる。

Higher educational institutions continuously look for ways to improve the quality of their eLearning services and adapt learning solutions to suit the needs of the institution. During the 2016 Fall Semester, a university located in the Southern part of United States decided to transition from the Blackboard learning management system (LMS) to the Moodle learning management system. Typically such a transition presents a huge challenge for the University staff, faculty, and students. Additionally, on August 2016, what CNN themedthe worst natural disaster, to strike the United States since Hurricane Sandy, occurred in Louisiana during the transition. This led to massive disruptions in activities throughout the state. This paper examines the perceptions of both faculty and student on the transition from one LMS to another and also what impact, if any, the natural disaster had on the process. Faculty and students were surveyed to gain understanding of how they perceived the transitioning process, their perception of both systems, their preferences, and why. Furthermore, we identified issues peculiar to transitioning during a natural disaster. The results of this study can be used to anticipate issues that may be associated with transitioning from one LMS to the other and issues peculiar to transitioning amidst a natural disaster. It can also be used to identify areas for improvement.
翻訳日:2023-04-10 07:42:47 公開日:2021-02-21
# クラウドベースの学習管理システムが学習管理システム実装プロセスに及ぼす影響--学部と学生の視点から

Effect of Cloud Based Learning Management System on The Learning Management System Implementation Process: Faculty and Student Perspectives ( http://arxiv.org/abs/2102.10522v1 )

ライセンス: Link先を確認
Ajayi Ekuase-Anwansedo, Akai Smith(参考訳) 大学におけるeラーニングの概念は、長年にわたって急速に成長し、学習管理システムだけでなく、Facebookや高度な学習ツール(ゲーム、シミュレーション、仮想化など)などの学習用に設計されたツールも含んでいる。 その結果、クラウドベースのLMSは、従来のLMSの次の進化として評価されている。 クラウドベースのLMSは、従来のLMS実装プロセスに関連するいくつかの課題を解決することを期待されている。 前報では,LMS実施過程における教員や学生の関与の欠如が,教員や学生のLMS使用の制限につながることを報告した。 クラウドベースのLMSはこれらの問題を解決するのだろうか? 文献のレビューを行い,従来のlms,クラウドコンピューティング,クラウドベースのlmsの概要を述べるとともに,クラウドコンピューティングlmsが教員や学生によって提起された課題をどのように解決するかを説明した。 クラウドベースのLMSは従来のLMSに関連する技術的な問題の大部分を解決しているが、人間の問題の一部は解決されなかった。 本研究は,LMS実装プロセスに関連する非技術的問題に注意を向けることを願っている。

The concept of E-learning in Universities has grown rapidly over the years to include not just only a learning management system but also tools initially not designed for learning such as Facebook and advanced learning tools, for example games, simulations and virtualization. As a result, Cloud-based LMS is being touted as the next evolution of the traditional LMS. It is hoped that Cloud based LMS will resolve some of the challenges associated with the traditional LMS implementation process. In a previous study, we reported that lack of involvement of faculty and students in the LMS implementation process results in the limited use of the LMS by faculty and students. The question then is, Will the cloud-based LMS resolve these issues? We conducted a review of literature and presented an overview of the traditional LMS, cloud computing and the cloudbased LMS and we described how the cloud computing LMS resolve issues raised by faculty and students. we find that even though, cloud-based LMS resolve most of the technical issues associated with the traditional LMS, some of the human issues were not resolved. We hope that this study draws attention to non-technical issues associated with the LMS implementation process.
翻訳日:2023-04-10 07:42:28 公開日:2021-02-21
# 学習管理システム(LMS)の実装を救うには? 利害関係者分析アプローチ

How to Survive a Learning Management System (LMS) Implementation? A Stakeholder Analysis Approach ( http://arxiv.org/abs/2102.10521v1 )

ライセンス: Link先を確認
Ajayi Ekuase-Anwansedo, Susannah F. Craig, Jose Noguera(参考訳) 学習管理システム(lms)の実装を生き残るためには、様々な利害関係者のニーズに対する理解が必要である。 全ての LMS 実装の目的は,教員や学生によるシステムの利用を確実にし,教育とコミュニケーションを強化し,学生の学習成果を高めることである。 教師や生徒がシステムを使っていない場合、システムは役に立たない。 本研究は,新たなLMSシステムの実装と導入に不可欠な重要な成功要因を解明するために,LMS実装プロセスに関わる様々なステークホルダを特定し,理解することの重要性を動機としている。 この目的のために、私たちは株主という用語を定義します。 LMS実施プロセスにおける主要な利害関係者を特定するために、ステークホルダー分析を行った。 次に、目標とニーズを分析し、実装プロセスでどのように協力するかを説明します。 この研究の成果は、高等教育機関に実施プロセスの概要と利害関係者のニーズに関する有用な洞察を与え、その結果、LMSを実装する際に達成される成功のレベルが向上することを保証する。

To survive a learning management system (LMS) implementation an understanding of the needs of the various stakeholders is necessary. The goal of every LMS implementation is to ensure the use of the system by instructors and students to enhance teaching and communication thereby enhancing learning outcomes of the students. If the teachers and students do not use the system, the system is useless. This research is motivated by the importance of identifying and understanding various stakeholders involved in the LMS implementation process in order to anticipate possible challenges and identify critical success factors essential for the effective implementation and adoption of a new LMS system. To this end, we define the term stakeholder. We conducted a stakeholder analysis to identify the key stakeholders in an LMS implementation process. We then analyze their goals and needs, and how they collaborate in the implementation process. The findings of this work will provide institutions of higher learning an overview of the implementation process and useful insights into the needs of the stakeholders, which will in turn ensure an increase in the level of success achieved when implementing a LMS.
翻訳日:2023-04-10 07:42:11 公開日:2021-02-21
# Wasserstein近位勾配アルゴリズム

The Wasserstein Proximal Gradient Algorithm ( http://arxiv.org/abs/2002.03035v3 )

ライセンス: Link先を確認
Adil Salim, Anna Korba, Giulia Luise(参考訳) ワッサーシュタイン勾配流は、確率測度(すなわちワッサーシュタイン空間)の空間上の目的関数を最小化するために最も急降下の曲線を定義する連続時間力学である。 この目的は通常、固定された目標分布の発散である。 近年,確率分布の近似を目的とした機械学習アルゴリズムの収束の研究に,このような連続時間ダイナミクスが用いられている。 しかし、これらのアルゴリズムの離散時間挙動は連続時間ダイナミクスと異なる可能性がある。 また,本論文では離散勾配流が提案されているが,その最小化力についてはほとんど分かっていない。 本研究では,対象関数が滑らかかつ非滑らかな測地線凸項の和である場合に対応するための前方逆(fb)離散化スキームを提案する。 凸最適化と最適輸送の手法を用いて、FBスキームをワッサーシュタイン空間上の最小化アルゴリズムとして解析する。 より正確には、FBスキームがユークリッド空間の近勾配アルゴリズムと同様の収束を保証するという軽度の仮定の下で示される。

Wasserstein gradient flows are continuous time dynamics that define curves of steepest descent to minimize an objective function over the space of probability measures (i.e., the Wasserstein space). This objective is typically a divergence w.r.t. a fixed target distribution. In recent years, these continuous time dynamics have been used to study the convergence of machine learning algorithms aiming at approximating a probability distribution. However, the discrete-time behavior of these algorithms might differ from the continuous time dynamics. Besides, although discretized gradient flows have been proposed in the literature, little is known about their minimization power. In this work, we propose a Forward Backward (FB) discretization scheme that can tackle the case where the objective function is the sum of a smooth and a nonsmooth geodesically convex terms. Using techniques from convex optimization and optimal transport, we analyze the FB scheme as a minimization algorithm on the Wasserstein space. More precisely, we show under mild assumptions that the FB scheme has convergence guarantees similar to the proximal gradient algorithm in Euclidean spaces.
翻訳日:2023-01-03 05:02:27 公開日:2021-02-21
# 自己着点過程に対する深いフーリエ核

Deep Fourier Kernel for Self-Attentive Point Processes ( http://arxiv.org/abs/2002.07281v5 )

ライセンス: Link先を確認
Shixiang Zhu, Minghe Zhang, Ruyi Ding, Yao Xie(参考訳) 本稿では,複雑な非線形時間依存構造を捉えるために,離散イベントデータに対する注意に基づく新しいモデルを提案する。 注意機構からアイデアを借用し,点過程の条件強度関数に組み込む。 さらに、ニューラルネットワークを用いてスペクトルを表現し、従来のドット生成カーネルと大きく異なり、より複雑な類似構造を捉えることができるフーリエカーネル埋め込みを用いた新しいスコア関数を導入する。 我々は,提案手法の理論的特性を確立し,合成データおよび実データに対する最先端技術と比較し,本手法の競合性能を実証する。

We present a novel attention-based model for discrete event data to capture complex non-linear temporal dependence structures. We borrow the idea from the attention mechanism and incorporate it into the point processes' conditional intensity function. We further introduce a novel score function using Fourier kernel embedding, whose spectrum is represented using neural networks, which drastically differs from the traditional dot-product kernel and can capture a more complex similarity structure. We establish our approach's theoretical properties and demonstrate our approach's competitive performance compared to the state-of-the-art for synthetic and real data.
翻訳日:2022-12-31 12:17:14 公開日:2021-02-21
# 変圧器ホークスプロセス

Transformer Hawkes Process ( http://arxiv.org/abs/2002.09291v5 )

ライセンス: Link先を確認
Simiao Zuo, Haoming Jiang, Zichong Li, Tuo Zhao, Hongyuan Zha(参考訳) 現代のデータ取得は、ソーシャルメディア、ヘルスケア、金融市場など、さまざまなドメインで大量のイベントシーケンスデータを生成する。 これらのデータは、しばしば複雑な短期および長期の時間的依存関係を示す。 しかし、既存のリカレントニューラルネットワークベースのポイントプロセスモデルのほとんどは、そのような依存関係を捕捉できず、信頼性の低い予測性能をもたらす。 この問題に対処するために,長期依存を捕捉する自己保持機構を活用し,計算効率を享受するトランスフォーマーホークスプロセス(THP)モデルを提案する。 様々なデータセットの数値実験により、THPは既存のモデルよりも、顕著なマージンによる可能性と事象予測の精度の両方において優れていることが示された。 さらに、thpは非常に一般的であり、追加の構造知識を組み込むことができる。 本稿では、THPが関係情報を組み込む際に、複数の点過程を学習するための予測性能の改善を実現する具体例を示す。

Modern data acquisition routinely produce massive amounts of event sequence data in various domains, such as social media, healthcare, and financial markets. These data often exhibit complicated short-term and long-term temporal dependencies. However, most of the existing recurrent neural network based point process models fail to capture such dependencies, and yield unreliable prediction performance. To address this issue, we propose a Transformer Hawkes Process (THP) model, which leverages the self-attention mechanism to capture long-term dependencies and meanwhile enjoys computational efficiency. Numerical experiments on various datasets show that THP outperforms existing models in terms of both likelihood and event prediction accuracy by a notable margin. Moreover, THP is quite general and can incorporate additional structural knowledge. We provide a concrete example, where THP achieves improved prediction performance for learning multiple point processes when incorporating their relational information.
翻訳日:2022-12-30 00:44:30 公開日:2021-02-21
# Johnson-Lindenstrauss変換の逆数外乱を用いた高次元最適化の有効性と回復

The Effectiveness of Johnson-Lindenstrauss Transform for High Dimensional Optimization With Adversarial Outliers, and the Recovery ( http://arxiv.org/abs/2002.11923v5 )

ライセンス: Link先を確認
Hu Ding, Ruizhe Qin, Jiawei Huang(参考訳) 本稿では,高次元におけるロバスト最適化問題を考える。 実世界のデータセットには大きなノイズや攻撃者からの特別なサンプルが含まれている可能性があるため、我々は特に任意の(そして潜在的に敵対的な)アウトリーチによる最適化問題に興味を持っている。 我々は2つの基本的な最適化問題に焦点を絞った: "em svm with outliers} と "em $k$-center clustering with outliers} である。 実際、それらは相反する外れ値にいかなる制限も課せないため、組合せ最適化問題は非常に困難である。 したがって、高次元空間の例を考えると、それらの計算複雑性は非常に高い。 ジョンソン・リンデンシュトラウス変換 (JL) は次元減少の最も一般的な方法の1つである。 JL変換は、過去数十年にわたって広く研究されてきたが、敵の外れ値を扱う効果は、これまで(我々の知る限り)研究されていない。 幾何学からの新しい知見に基づき、これらの2つの問題の複雑さがJL変換によって著しく低減できることを証明した。 さらに,次元が縮小された空間の解は,元の$\mathbb{r}^d$ で効率的に回収できることを示した。 実験では、JL変換と、他のよく知られた次元還元法を比較し、それらの性能を合成および実データ上で研究する。

In this paper, we consider robust optimization problems in high dimensions. Because a real-world dataset may contain significant noise or even specially crafted samples from some attacker, we are particularly interested in the optimization problems with arbitrary (and potentially adversarial) outliers. We focus on two fundamental optimization problems: {\em SVM with outliers} and {\em $k$-center clustering with outliers}. They are in fact extremely challenging combinatorial optimization problems, since we cannot impose any restriction on the adversarial outliers. Therefore, their computational complexities are quite high especially when we consider the instances in high dimensional spaces. The {\em Johnson-Lindenstrauss (JL) Transform} is one of the most popular methods for dimension reduction. Though the JL transform has been widely studied in the past decades, its effectiveness for dealing with adversarial outliers has never been investigated before (to the best of our knowledge). Based on some novel insights from the geometry, we prove that the complexities of these two problems can be significantly reduced through the JL transform. Moreover, we prove that the solution in the dimensionality-reduced space can be efficiently recovered in the original $\mathbb{R}^d$ while the quality is still preserved. In the experiments, we compare JL transform with several other well known dimension reduction methods, and study their performances on synthetic and real datasets.
翻訳日:2022-12-28 09:25:21 公開日:2021-02-21
# MetaPoison: 汎用クリーンラベルデータ中毒

MetaPoison: Practical General-purpose Clean-label Data Poisoning ( http://arxiv.org/abs/2004.00225v2 )

ライセンス: Link先を確認
W. Ronny Huang, Jonas Geiping, Liam Fowl, Gavin Taylor, Tom Goldstein(参考訳) データ中毒 — トレーニングデータのサブセットに知覚不可能な変更を加えることによって、攻撃者がモデルを制御できるプロセス — は、ニューラルネットワークのコンテキストにおいて、新たな脅威となる。 データ中毒ニューラルネットワークに対する既存の攻撃は、バイレベル最適化によって直接中毒問題を解決することは、一般的に深層モデルにとって難解であると考えられているため、手作りのヒューリスティックスに依存している。 メタポゾン(MetaPoison)は、メタラーニングによって二段階問題を近似し、ニューラルネットワークを騙す毒を発生させる一階法である。 MetaPoisonは、従来のクリーンラベル中毒法をはるかに上回る効果がある。 MetaPoisonは堅牢である: あるモデルのために作られた有毒なデータは、未知のトレーニング設定とアーキテクチャを持つさまざまな犠牲者モデルに転送される。 MetaPoisonは汎用的で、微調整のシナリオだけでなく、ゼロからエンドツーエンドのトレーニングにも使えます。 メタポゾンは、あるクラスの毒物を使ってターゲットイメージに他の任意の選択されたクラスのラベルを付けるような、任意の敵目標を達成することができる。 最後に、MetaPoisonは現実世界で動作する。 ブラックボックスのGoogle Cloud AutoML APIでトレーニングされたモデルのデータ中毒を初めて実証した。 コードとプレメイドの毒はhttps://github.com/wronnyhuang/metapoisonで提供される。

Data poisoning -- the process by which an attacker takes control of a model by making imperceptible changes to a subset of the training data -- is an emerging threat in the context of neural networks. Existing attacks for data poisoning neural networks have relied on hand-crafted heuristics, because solving the poisoning problem directly via bilevel optimization is generally thought of as intractable for deep models. We propose MetaPoison, a first-order method that approximates the bilevel problem via meta-learning and crafts poisons that fool neural networks. MetaPoison is effective: it outperforms previous clean-label poisoning methods by a large margin. MetaPoison is robust: poisoned data made for one model transfer to a variety of victim models with unknown training settings and architectures. MetaPoison is general-purpose, it works not only in fine-tuning scenarios, but also for end-to-end training from scratch, which till now hasn't been feasible for clean-label attacks with deep nets. MetaPoison can achieve arbitrary adversary goals -- like using poisons of one class to make a target image don the label of another arbitrarily chosen class. Finally, MetaPoison works in the real-world. We demonstrate for the first time successful data poisoning of models trained on the black-box Google Cloud AutoML API. Code and premade poisons are provided at https://github.com/wronnyhuang/metapoison
翻訳日:2022-12-17 17:44:19 公開日:2021-02-21
# 深層学習を用いた完全インテリジェント反射型表面支援型セキュア通信

Truly Intelligent Reflecting Surface-Aided Secure Communication Using Deep Learning ( http://arxiv.org/abs/2004.03056v2 )

ライセンス: Link先を確認
Yizhuo Song, Muhammad R. A. Khandaker, Faisal Tariq, Kai-Kit Wong and Apriana Toding(参考訳) 本稿では,無線環境における通信のための物理層セキュリティ設計のための機械学習について述べる。 無線環境は、メタマテリアルベースのインテリジェント反射面(IRS)を用いて、カスタマイズ可能なパス損失、マルチパスフェード、干渉効果をプログラム可能であると仮定される。 特に、irs要素からのきめ細かい反射は、正当な受信機で秘密化率を最大化するためにチャンネルアドバンテージを作成するために利用される。 リアルタイムにIRS要素の反射を調整するための深層学習(DL)技術が開発されている。 シミュレーションの結果,DL手法は計算複雑性を著しく低減しつつ,従来の手法に匹敵する性能を示した。

This paper considers machine learning for physical layer security design for communication in a challenging wireless environment. The radio environment is assumed to be programmable with the aid of a meta material-based intelligent reflecting surface (IRS) allowing customisable path loss, multi-path fading and interference effects. In particular, the fine-grained reflections from the IRS elements are exploited to create channel advantage for maximizing the secrecy rate at a legitimate receiver. A deep learning (DL) technique has been developed to tune the reflections of the IRS elements in real-time. Simulation results demonstrate that the DL approach yields comparable performance to the conventional approaches while significantly reducing the computational complexity.
翻訳日:2022-12-16 00:51:50 公開日:2021-02-21
# 高次元動的グラフィカルモデルにおける変化点の推定

Inference on the Change Point for High Dimensional Dynamic Graphical Models ( http://arxiv.org/abs/2005.09711v3 )

ライセンス: Link先を確認
Abhishek Kaul, Hongjin Zhang, Konstantinos Tsampourakis and George Michailidis(参考訳) 動的に発展するグラフィカルモデルにおける変化点パラメータの推定器を開発し,高次元スケーリング下での漸近分布を得る。 後者の結果を得るため、提案した推定器は$O_p(\psi^{-2})$収束率を示し、$\psi$は変化点前後のグラフィカルモデルパラメータ間のジャンプサイズを表す。 さらに、グラフィカルモデルパラメータのプラグイン推定に対する十分な適応性を保持する。 我々は,ジャンプサイズの大きさの消滅状態と非消滅状態の両方の下での漸近分布の形式を特徴づける。 特に前者の場合では負のドリフト非対称なブラウン運動のargmaxに対応し、後者の場合では負のドリフト非対称な2辺ランダムウォークのargmaxに対応し、その増加はグラフィカルモデルの分布に依存する。 変更点と、合成データに基づいて評価されたパフォーマンスを推定するアルゴリズムを簡単に実装できる。 提案手法は,rna系列のマイクロバイオームデータと若年者と高齢者の変動についてさらに示す。

We develop an estimator for the change point parameter for a dynamically evolving graphical model, and also obtain its asymptotic distribution under high dimensional scaling. To procure the latter result, we establish that the proposed estimator exhibits an $O_p(\psi^{-2})$ rate of convergence, wherein $\psi$ represents the jump size between the graphical model parameters before and after the change point. Further, it retains sufficient adaptivity against plug-in estimates of the graphical model parameters. We characterize the forms of the asymptotic distribution under the both a vanishing and a non-vanishing regime of the magnitude of the jump size. Specifically, in the former case it corresponds to the argmax of a negative drift asymmetric two sided Brownian motion, while in the latter case to the argmax of a negative drift asymmetric two sided random walk, whose increments depend on the distribution of the graphical model. Easy to implement algorithms are provided for estimating the change point and their performance assessed on synthetic data. The proposed methodology is further illustrated on RNA-sequenced microbiome data and their changes between young and older individuals.
翻訳日:2022-12-01 14:44:53 公開日:2021-02-21
# 深さ依存性によるreluネットワークのシャープ表現定理

Sharp Representation Theorems for ReLU Networks with Precise Dependence on Depth ( http://arxiv.org/abs/2006.04048v2 )

ライセンス: Link先を確認
Guy Bresler and Dheeraj Nagaraj(参考訳) 本稿では,D$ReLU層を持つニューラルネットワークに対して,関数のクラスとして$\mathcal{G}_D$のシャープな次元自由表現結果を示す。 これらの結果は次の意味での深さの正確な利点を捉えている: 1. $d$ relu 層による関数のクラスを表すレートは、下界の一致によって示されるように定数にシャープである。 2. それぞれの$D$, $\mathcal{G}_{D} \subseteq \mathcal{G}_{D+1}$ に対して、$D$ は函数のクラスを拡大するので、$\mathcal{G}_{D}$ は徐々に滑らかでない関数を含む。 3.$D^{\prime} < D$ の場合、深度$D^{\prime}$ネットワークによって達成されるクラス $\mathcal{G}_D$ の近似率は、深度$D$ネットワークによって達成されるものよりも極端に悪い。 これは、任意の深さ$d$ とニューロン数 $n$ のフィードフォワードネットワークの表現力の細かなキャラクタリゼーションであり、既存の表現結果とは対照的に、$n$ で急速に$d$ を増加させるか、関数が非常に滑らかであると仮定する。 後者の場合、同様のレートは単一の非線形層で得ることができる。 その結果、より深いネットワークがより滑らかな関数を表現するのに優れているという仮説が有力であり、実際、ディープネットワークがアクティベーション関数をほとんど持たない高振動関数を生成できるという事実を十分に活用することが、技術的に目新しさであることがわかった。

We prove sharp dimension-free representation results for neural networks with $D$ ReLU layers under square loss for a class of functions $\mathcal{G}_D$ defined in the paper. These results capture the precise benefits of depth in the following sense: 1. The rates for representing the class of functions $\mathcal{G}_D$ via $D$ ReLU layers is sharp up to constants, as shown by matching lower bounds. 2. For each $D$, $\mathcal{G}_{D} \subseteq \mathcal{G}_{D+1}$ and as $D$ grows the class of functions $\mathcal{G}_{D}$ contains progressively less smooth functions. 3. If $D^{\prime} < D$, then the approximation rate for the class $\mathcal{G}_D$ achieved by depth $D^{\prime}$ networks is strictly worse than that achieved by depth $D$ networks. This constitutes a fine-grained characterization of the representation power of feedforward networks of arbitrary depth $D$ and number of neurons $N$, in contrast to existing representation results which either require $D$ growing quickly with $N$ or assume that the function being represented is highly smooth. In the latter case similar rates can be obtained with a single nonlinear layer. Our results confirm the prevailing hypothesis that deeper networks are better at representing less smooth functions, and indeed, the main technical novelty is to fully exploit the fact that deep networks can produce highly oscillatory functions with few activation functions.
翻訳日:2022-11-24 07:29:06 公開日:2021-02-21
# 未ラベルアウトオブドメインデータによる対向ロバスト性の改善

Improving Adversarial Robustness via Unlabeled Out-of-Domain Data ( http://arxiv.org/abs/2006.08476v2 )

ライセンス: Link先を確認
Zhun Deng, Linjun Zhang, Amirata Ghorbani, James Zou(参考訳) 複数のドメインから安価なラベル付きデータを取り入れたデータ拡張は、特にラベル付きデータに制限がある場合に予測を改善する強力な方法である。 本研究では,領域外非ラベルデータを活用することで,敵対的ロバスト性を高める方法について検討する。 分布と分類器の幅広いクラスに対して,標準分類とロバスト分類の間にはサンプル複雑性ギャップが存在することを示す。 このギャップがどの程度橋渡し可能かは,上界と下界の両方を提供することで,シフト領域からのラベルなしサンプルを活用することで定量化する。 さらに,ラベルなしのデータがラベル付きデータと同じドメインではなく,シフトしたドメインから来る場合,より優れた競合的ロバスト性を実現するための設定を示す。 また、ラベル付きドメインとラベルなしドメインの間で、疎性などの構造情報を共有する場合に、ドメイン外データを活用する方法についても検討する。 実験により、2つのオブジェクト認識データセット(CIFAR-10 と SVHN)を取得・ラベル付けが容易で拡張し、元のドメインに対する$\ell_\infty$ 敵攻撃に対するモデルの堅牢性を大幅に改善した。

Data augmentation by incorporating cheap unlabeled data from multiple domains is a powerful way to improve prediction especially when there is limited labeled data. In this work, we investigate how adversarial robustness can be enhanced by leveraging out-of-domain unlabeled data. We demonstrate that for broad classes of distributions and classifiers, there exists a sample complexity gap between standard and robust classification. We quantify to what degree this gap can be bridged via leveraging unlabeled samples from a shifted domain by providing both upper and lower bounds. Moreover, we show settings where we achieve better adversarial robustness when the unlabeled data come from a shifted domain rather than the same domain as the labeled data. We also investigate how to leverage out-of-domain data when some structural information, such as sparsity, is shared between labeled and unlabeled domains. Experimentally, we augment two object recognition datasets (CIFAR-10 and SVHN) with easy to obtain and unlabeled out-of-domain data and demonstrate substantial improvement in the model's robustness against $\ell_\infty$ adversarial attacks on the original domain.
翻訳日:2022-11-21 03:16:04 公開日:2021-02-21
# 高次元精度行列推定におけるメタ学習による回復支援

Meta Learning for Support Recovery in High-dimensional Precision Matrix Estimation ( http://arxiv.org/abs/2006.12598v2 )

ライセンス: Link先を確認
Qian Zhang and Yilin Zheng and Jean Honorio(参考訳) 本稿では,新しいタスクにおける十分なサンプル複雑性を低減し,他の補助タスクから得た情報を用いて,高次元精度行列推定における支援のためのメタ学習(すなわち非ゼロエントリの集合)について検討する。 我々の設定では、各タスクは異なるランダムな真の精度行列を持ち、それぞれが異なる可能性がある。 すべての真の精度行列(すなわち、真のサポートユニオン)の支持の和の和は小さいと仮定する。 異なるタスクから全てのサンプルをプールすることを提案し、$\ell_1$-regularized log-determinant Bregman divergence を最小化して単精度行列を推定する。 高確率で、推定された単精度行列の支持は真の支持結合に等しいことを示し、n 次元ベクトルと $k$タスクに対して、タスク当たりのサンプル数が $n \in o((\log n)/k)$ であることを示した。 つまり、より多くのタスクが利用可能になった場合、タスク毎のサンプルを少なくする。 我々は、必要なサンプル数に対して一致する情報理論上の下限を証明し、これは$n \in \omega((\log n)/k)$である。 すると、新しいタスクでは、$\ell_1$-regularized log- determinant bregman の最小化と、サポートが推定されたサポートユニオンのサブセットであるという追加の制約により、サポートが成功するサポートリカバリの十分なサンプルの複雑さを $o(\log(|s_{\text{off}}|))$ where $|s_{\text{off}}|$ がサポートユニオンの非対角要素の数であり、スパース行列に対して$n$ 以下となることが証明される。 また、必要なサンプル数に対して$\omega(\log(|s_{\text{off}}|))の一致した情報理論下限を証明します。 合成実験は我々の理論を検証する。

In this paper, we study meta learning for support (i.e., the set of non-zero entries) recovery in high-dimensional precision matrix estimation where we reduce the sufficient sample complexity in a novel task with the information learned from other auxiliary tasks. In our setup, each task has a different random true precision matrix, each with a possibly different support. We assume that the union of the supports of all the true precision matrices (i.e., the true support union) is small in size. We propose to pool all the samples from different tasks, and \emph{improperly} estimate a single precision matrix by minimizing the $\ell_1$-regularized log-determinant Bregman divergence. We show that with high probability, the support of the \emph{improperly} estimated single precision matrix is equal to the true support union, provided a sufficient number of samples per task $n \in O((\log N)/K)$, for $N$-dimensional vectors and $K$ tasks. That is, one requires less samples per task when more tasks are available. We prove a matching information-theoretic lower bound for the necessary number of samples, which is $n \in \Omega((\log N)/K)$, and thus, our algorithm is minimax optimal. Then for the novel task, we prove that the minimization of the $\ell_1$-regularized log-determinant Bregman divergence with the additional constraint that the support is a subset of the estimated support union could reduce the sufficient sample complexity of successful support recovery to $O(\log(|S_{\text{off}}|))$ where $|S_{\text{off}}|$ is the number of off-diagonal elements in the support union and is much less than $N$ for sparse matrices. We also prove a matching information-theoretic lower bound of $\Omega(\log(|S_{\text{off}}|))$ for the necessary number of samples. Synthetic experiments validate our theory.
翻訳日:2022-11-18 05:11:53 公開日:2021-02-21
# 未知共変量シフト上の自己チューニングバンド

Self-Tuning Bandits over Unknown Covariate-Shifts ( http://arxiv.org/abs/2007.08584v4 )

ライセンス: Link先を確認
Joseph Suk and Samory Kpotufe(参考訳) コヴァリエート、すなわちコンテクスト・バンディット(文脈的バンディット)によるバンディットは、与えられた時間に最適なアクション(または腕)がt$で、コンテキストが$x_t$、例えば新しい患者の医療歴、消費者の過去の購入に依存する状況に対処する。 文脈の分布は、季節性や新しい環境への展開などによって時間とともに変化する可能性があると理解されているが、多くの研究はそのような変化を最も敵対的に扱うことに関心を持ち、自然界で最悪の場合となる。 一方、共変量シフトは、分布の軽度から比較的厳しい変化を捉えることができる中間的な形式主義として分類されている。 このような中盤シナリオでは, 非パラメトリックな帯域幅を考慮し, 文脈分布の変化の連続性を強く捉えた新たな後悔境界を導出する。 さらに,シフト時間やシフト量を知ることなく,これらのレートを適応的に達成できることを示す。

Bandits with covariates, a.k.a. contextual bandits, address situations where optimal actions (or arms) at a given time $t$, depend on a context $x_t$, e.g., a new patient's medical history, a consumer's past purchases. While it is understood that the distribution of contexts might change over time, e.g., due to seasonalities, or deployment to new environments, the bulk of studies concern the most adversarial such changes, resulting in regret bounds that are often worst-case in nature. Covariate-shift on the other hand has been considered in classification as a middle-ground formalism that can capture mild to relatively severe changes in distributions. We consider nonparametric bandits under such middle-ground scenarios, and derive new regret bounds that tightly capture a continuum of changes in context distribution. Furthermore, we show that these rates can be adaptively attained without knowledge of the time of shift nor the amount of shift.
翻訳日:2022-11-09 22:21:50 公開日:2021-02-21
# ニューラルネットワークを用いたサッカーボール検出:制約付きハードウェアシナリオにおける複数アーキテクチャの比較

Detecting soccer balls with reduced neural networks: a comparison of multiple architectures under constrained hardware scenarios ( http://arxiv.org/abs/2009.13684v2 )

ライセンス: Link先を確認
Douglas De Rizzo Meneghetti, Thiago Pedro Donadon Homem, Jonas Henrique Renolfi de Oliveira, Isaac Jesus da Silva, Danilo Hernani Perico, Reinaldo Augusto da Costa Bianchi(参考訳) 最先端検出精度を実現するオブジェクト検出技術は、グラフィック処理ユニットで最適な性能を発揮するように実装された畳み込みニューラルネットワークを用いている。 移動ロボットのような一部のハードウェアシステムは、制約のあるハードウェア環境で動作しているが、それでもオブジェクト検出能力の恩恵を受けている。 複数のネットワークモデルが提案されており、少ないアーキテクチャとよりリーンな操作で同等の精度を達成している。 移動ロボットのサッカーチームのための物体検出システムを構築する必要性から、この研究は、ボール検出の特定のタスクにおいて、制約のあるハードウェア環境をターゲットにした最近のニューラルネットワークの提案の比較研究を提供する。 我々は、モバイルロボットでキャプチャした注釈付き画像データセットにおいて、異なるアーキテクチャのMobileNetV2およびMobileNetV3モデルの複数のオープン実装と、YOLOv3、TinyYOLOv3、YOLOv4、TinyYOLOv4をトレーニングする。 次に、テストデータセットの平均精度と異なる解像度の動画における推論時間について、制約のあるハードウェア設定の下で報告する。 その結果,MobileNetV3モデルは制約シナリオのみにおいて,mAPと推論時間との間に良好なトレードオフがあることが判明した。 公式実装のYOLOモデルはCPUの推論には適していない。

Object detection techniques that achieve state-of-the-art detection accuracy employ convolutional neural networks, implemented to have optimal performance in graphics processing units. Some hardware systems, such as mobile robots, operate under constrained hardware situations, but still benefit from object detection capabilities. Multiple network models have been proposed, achieving comparable accuracy with reduced architectures and leaner operations. Motivated by the need to create an object detection system for a soccer team of mobile robots, this work provides a comparative study of recent proposals of neural networks targeted towards constrained hardware environments, in the specific task of soccer ball detection. We train multiple open implementations of MobileNetV2 and MobileNetV3 models with different underlying architectures, as well as YOLOv3, TinyYOLOv3, YOLOv4 and TinyYOLOv4 in an annotated image data set captured using a mobile robot. We then report their mean average precision on a test data set and their inference times in videos of different resolutions, under constrained and unconstrained hardware configurations. Results show that MobileNetV3 models have a good trade-off between mAP and inference time in constrained scenarios only, while MobileNetV2 with high width multipliers are appropriate for server-side inference. YOLO models in their official implementations are not suitable for inference in CPUs.
翻訳日:2022-10-13 22:16:25 公開日:2021-02-21
# ベイジアン3次元ハンドポース推定のためのアクティブラーニング

Active Learning for Bayesian 3D Hand Pose Estimation ( http://arxiv.org/abs/2010.00694v2 )

ライセンス: Link先を確認
Razvan Caramalau, Binod Bhattarai, Tae-Kyun Kim(参考訳) 本稿では3次元ポーズ推定のためのディープラーニングアーキテクチャに対するベイズ近似を提案する。 この枠組みを通じて、データや学習能力に影響される2種類の不確実性を調査し、分析する。 さらに,3つのベンチマークに対して標準推定器との比較を行った。 第1のコントリビューションはベースラインを上回り、第2のパートではアクティブな学習アプリケーションに対処します。 また,新たに提案した取得関数により,ベイジアンハンドポーズ推定器が最小データ量で最小誤差を求めることを示す。 基礎となるコードはhttps://github.com/razvancaramalau/al_bhpeで公開されている。

We propose a Bayesian approximation to a deep learning architecture for 3D hand pose estimation. Through this framework, we explore and analyse the two types of uncertainties that are influenced either by data or by the learning capability. Furthermore, we draw comparisons against the standard estimator over three popular benchmarks. The first contribution lies in outperforming the baseline while in the second part we address the active learning application. We also show that with a newly proposed acquisition function, our Bayesian 3D hand pose estimator obtains lowest errors with the least amount of data. The underlying code is publicly available at https://github.com/razvancaramalau/al_bhpe.
翻訳日:2022-10-12 07:51:54 公開日:2021-02-21
# 条件密度推定としての構造を含まない集合予測

Set Prediction without Imposing Structure as Conditional Density Estimation ( http://arxiv.org/abs/2010.04109v2 )

ライセンス: Link先を確認
David W. Zhang, Gertjan J. Burghouts, Cees G.M. Snoek(参考訳) 集合予測とは、未知の相互関係を持つ無順序変数の集合を予測するための学習である。 そのようなモデルの訓練は、集合上の計量空間の構造を課す。 我々は,不適切に選択された損失関数が予測不能につながる確率的かつ過小評価されたケースに注目した。 例として条件付きポイントクラウド再構成や将来の分子状態の予測がある。 本稿では,学習を条件密度推定として見ることにより,セットロスによるトレーニングの代替案を提案する。 学習フレームワークは,深いエネルギーに基づくモデルに適合し,勾配誘導サンプリングによる難解な確率を近似する。 さらに,対象集合の変動を反映し,複数の予測を可能にする確率的拡張予測アルゴリズムを提案する。 様々なデータセットに対して,マルチモーダル密度を学習し,異なる推定値を生成する能力について実証的に実証する。 我々のアプローチは、標準ベンチマークの以前のセット予測モデルと競合する。 さらに重要なのは、明確な予測以上の、対処可能なタスクのファミリーを拡張することだ。

Set prediction is about learning to predict a collection of unordered variables with unknown interrelations. Training such models with set losses imposes the structure of a metric space over sets. We focus on stochastic and underdefined cases, where an incorrectly chosen loss function leads to implausible predictions. Example tasks include conditional point-cloud reconstruction and predicting future states of molecules. In this paper, we propose an alternative to training via set losses by viewing learning as conditional density estimation. Our learning framework fits deep energy-based models and approximates the intractable likelihood with gradient-guided sampling. Furthermore, we propose a stochastically augmented prediction algorithm that enables multiple predictions, reflecting the possible variations in the target set. We empirically demonstrate on a variety of datasets the capability to learn multi-modal densities and produce different plausible predictions. Our approach is competitive with previous set prediction models on standard benchmarks. More importantly, it extends the family of addressable tasks beyond those that have unambiguous predictions.
翻訳日:2022-10-09 11:30:58 公開日:2021-02-21
# 非教師なしデータを用いた非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善

Improving Streaming Automatic Speech Recognition With Non-Streaming Model Distillation On Unsupervised Data ( http://arxiv.org/abs/2010.12096v2 )

ライセンス: Link先を確認
Thibault Doutre, Wei Han, Min Ma, Zhiyun Lu, Chung-Cheng Chiu, Ruoming Pang, Arun Narayanan, Ananya Misra, Yu Zhang, Liangliang Cao(参考訳) ストリーミングエンドツーエンド自動音声認識(ASR)モデルは、スマートスピーカーやオンデバイスアプリケーションで広く利用されている。 これらのモデルは音声を最小限のレイテンシで書き起こすことが期待されているため、非ストリーミングモデルと比較して、将来の文脈では因果関係がないことが制約される。 その結果、ストリーミングモデルは通常、非ストリーミングモデルよりもパフォーマンスが悪くなります。 教師として非ストリーミング型asrモデルを利用して任意の規模のデータセットに書き起こしを生成し,その知識をストリーミングasrモデルに蒸留することで,新しい効果的な学習方法を提案する。 これにより、ストリーミングモデルのトレーニングを最大300万時間YouTubeオーディオに拡大します。 実験により, RNNTモデルの単語誤り率(WER)は, LibriSpeech だけでなく, 4言語でのYouTubeデータにも著しく低減できることがわかった。 例えば、フランス語では、ベースラインと同じラベル付きデータに基づいてトレーニングされた非ストリーミング教師モデルを利用することで、WERをベースラインストリーミングモデルと比較して16.4%削減することができる。

Streaming end-to-end automatic speech recognition (ASR) models are widely used on smart speakers and on-device applications. Since these models are expected to transcribe speech with minimal latency, they are constrained to be causal with no future context, compared to their non-streaming counterparts. Consequently, streaming models usually perform worse than non-streaming models. We propose a novel and effective learning method by leveraging a non-streaming ASR model as a teacher to generate transcripts on an arbitrarily large data set, which is then used to distill knowledge into streaming ASR models. This way, we scale the training of streaming models to up to 3 million hours of YouTube audio. Experiments show that our approach can significantly reduce the word error rate (WER) of RNNT models not only on LibriSpeech but also on YouTube data in four languages. For example, in French, we are able to reduce the WER by 16.4% relatively to a baseline streaming model by leveraging a non-streaming teacher model trained on the same amount of labeled data as the baseline.
翻訳日:2022-10-04 07:43:41 公開日:2021-02-21
# 深層畳み込みネットワークにおけるマシューズ相関係数損失:皮膚病変分割への応用

Matthews Correlation Coefficient Loss for Deep Convolutional Networks: Application to Skin Lesion Segmentation ( http://arxiv.org/abs/2010.13454v2 )

ライセンス: Link先を確認
Kumar Abhishek, Ghassan Hamarneh(参考訳) 皮膚病変のセグメンテーションは,コンピュータによる皮膚病変の診断を支援する臨床診断支援システムにおいて重要な課題である。 深層学習に基づくアプローチではセグメンテーション性能が向上しているが、これらのモデルはデータのクラス不均衡、特に背景の健康な皮膚で占める画像のごく一部に影響を受けやすい。 クラス不均衡問題に取り組むために一般的なサイコロ損失関数のバリエーションが提案されているにもかかわらず、サイコロ損失定式化は背景画素の誤分類を罰しない。 本稿では,スキュートクラス分布のシナリオにおいて効率的であることが示されているマシューズ相関係数を用いた新しい計量に基づく損失関数を提案し,それを深部セグメンテーションモデルの最適化に利用する。 ISBI ISIC 2017 Skin Lesion Segmentation Challengeデータセット、DermoFit Image Library、PH2データセットの3つの皮膚病変画像データセットの評価では、提案された損失関数を用いてトレーニングされたモデルは、平均ジャカード指数でそれぞれ11.25%、4.87%、0.76%の損失関数でトレーニングされたモデルを上回っている。 コードはhttps://github.com/kakumarabhishek/mcc-lossで入手できる。

The segmentation of skin lesions is a crucial task in clinical decision support systems for the computer aided diagnosis of skin lesions. Although deep learning-based approaches have improved segmentation performance, these models are often susceptible to class imbalance in the data, particularly, the fraction of the image occupied by the background healthy skin. Despite variations of the popular Dice loss function being proposed to tackle the class imbalance problem, the Dice loss formulation does not penalize misclassifications of the background pixels. We propose a novel metric-based loss function using the Matthews correlation coefficient, a metric that has been shown to be efficient in scenarios with skewed class distributions, and use it to optimize deep segmentation models. Evaluations on three skin lesion image datasets: the ISBI ISIC 2017 Skin Lesion Segmentation Challenge dataset, the DermoFit Image Library, and the PH2 dataset, show that models trained using the proposed loss function outperform those trained using Dice loss by 11.25%, 4.87%, and 0.76% respectively in the mean Jaccard index. The code is available at https://github.com/kakumarabhishek/MCC-Loss.
翻訳日:2022-10-02 18:38:08 公開日:2021-02-21
# ハイブリッド・ディープ・イメージ・プリエントによる逆問題解法:過剰フィッティング防止への挑戦

Solving Inverse Problems with Hybrid Deep Image Priors: the challenge of preventing overfitting ( http://arxiv.org/abs/2011.01748v2 )

ライセンス: Link先を確認
Zhaodong Sun(参考訳) 我々は,dip(deep image prior)のオーバーフィッティング問題を主に解析し,解決する。 ディープ・イメージ・プリエント(deep image prior)はスーパーレゾリューション、インペインティング、デノージングなどの逆問題を解くことができる。 他のディープラーニングアプローチに対するディップの主な利点は、大規模なデータセットへのアクセスを必要としないことである。 しかし、ニューラルネットワークのパラメータとノイズの多いデータが多いため、DIPはイテレーションの数が増えるにつれて画像内のノイズに適応する。 論文では,重ね合わせを避けるために,ハイブリッド深部画像プリエントを用いる。 ハイブリッドプリエントは、DIPと総変分のような明示的なプリエント、あるいはデノナイジングアルゴリズムのような暗黙的なプリエントとを組み合わせる。 我々は、ADMMステップの内ループに起因する余分な計算を避けるために、ADMM(交互方向乗算器)法を用いて、新しい事前形式を取り入れ、ADMMの異なる形式を試す。 また,勾配降下のダイナミクスと過フィッティング現象との関係についても検討した。 その結果, ハイブリッドプライオリティが過剰フィット防止に重要な役割を担っていることがわかった。 また,ある方向に沿って画像に収まるように試み,ノイズレベルが大きい場合に過度な収差を低減できることを示す。 ノイズレベルが小さい場合、オーバーフィッティング問題を大幅に削減することはない。

We mainly analyze and solve the overfitting problem of deep image prior (DIP). Deep image prior can solve inverse problems such as super-resolution, inpainting and denoising. The main advantage of DIP over other deep learning approaches is that it does not need access to a large dataset. However, due to the large number of parameters of the neural network and noisy data, DIP overfits to the noise in the image as the number of iterations grows. In the thesis, we use hybrid deep image priors to avoid overfitting. The hybrid priors are to combine DIP with an explicit prior such as total variation or with an implicit prior such as a denoising algorithm. We use the alternating direction method-of-multipliers (ADMM) to incorporate the new prior and try different forms of ADMM to avoid extra computation caused by the inner loop of ADMM steps. We also study the relation between the dynamics of gradient descent, and the overfitting phenomenon. The numerical results show the hybrid priors play an important role in preventing overfitting. Besides, we try to fit the image along some directions and find this method can reduce overfitting when the noise level is large. When the noise level is small, it does not considerably reduce the overfitting problem.
翻訳日:2022-09-30 05:56:37 公開日:2021-02-21
# リフレクションアウェアガイドによる2段単一反射除去

Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance ( http://arxiv.org/abs/2012.00945v2 )

ライセンス: Link先を確認
Yu Li, Ming Liu, Yaling Yi, Qince Li, Dongwei Ren, Wangmeng Zuo(参考訳) ガラス表面を捉えた画像から望ましくない反射を除去することは、多くの実用的な応用シナリオにおいて非常に難しい問題である。 反射除去を改善するため、カスケード深部モデルは通常、進行的に伝達を推定するために採用されている。 しかし、既存のほとんどの手法は、伝送推定の導出に先立って結果を利用する際にはまだ限られている。 本稿では,単一画像反射除去(sirr)のためのリフレクションアウェアガイダンス(ragnet)を用いた2段階ネットワークを提案する。 具体的に言うと、反射層は一般に非常に単純であり、比較的容易に推定できるため、最初に推定される。 リフレクションアウェア誘導(RAG)モジュールは、送信層の予測において、推定反射をよりうまく活用するために精査される。 推定反射と観測から特徴マップを組み込むことにより、ragは(i)観測からの反射の効果を緩和するために、(ii)部分畳み込みにおいてマスクを生成し、線形結合仮説から逸脱する効果を緩和することができる。 さらに、エンコーダとデコーダの機能のコントリビューションの調整のために、専用のマスクロスが提示される。 5つの一般的なデータセットの実験は、最先端SIRR法と比較して、RAGNetの量的および定性的優位性を示している。 ソースコードと事前訓練されたモデルはhttps://github.com/liyucs/RAGNet.comで入手できる。

Removing undesired reflection from an image captured through a glass surface is a very challenging problem with many practical application scenarios. For improving reflection removal, cascaded deep models have been usually adopted to estimate the transmission in a progressive manner. However, most existing methods are still limited in exploiting the result in prior stage for guiding transmission estimation. In this paper, we present a novel two-stage network with reflection-aware guidance (RAGNet) for single image reflection removal (SIRR). To be specific, the reflection layer is firstly estimated due to that it generally is much simpler and is relatively easier to estimate. Reflectionaware guidance (RAG) module is then elaborated for better exploiting the estimated reflection in predicting transmission layer. By incorporating feature maps from the estimated reflection and observation, RAG can be used (i) to mitigate the effect of reflection from the observation, and (ii) to generate mask in partial convolution for mitigating the effect of deviating from linear combination hypothesis. A dedicated mask loss is further presented for reconciling the contributions of encoder and decoder features. Experiments on five commonly used datasets demonstrate the quantitative and qualitative superiority of our RAGNet in comparison to the state-of-the-art SIRR methods. The source code and pre-trained model are available at https://github.com/liyucs/RAGNet.
翻訳日:2021-05-25 04:02:27 公開日:2021-02-21
# (参考訳) 深部生成モデルを用いたベイズ画像再構成

Bayesian Image Reconstruction using Deep Generative Models ( http://arxiv.org/abs/2012.04567v3 )

ライセンス: CC BY 4.0
Razvan V Marinescu, Daniel Moyer, Polina Golland(参考訳) 機械学習モデルは、ペア(入力、出力)データを使用して、エンドツーエンドおよび教師付き設定で一般的に訓練される。 古典的な例としては、(低解像度、高解像度)画像のペアでトレーニングする最近のスーパーレゾリューション法がある。 しかしながら、これらのエンドツーエンドアプローチは、入力(例えば、夜間画像と日光)や関連する潜伏変数(例えば、カメラのぼやけや手の動き)の分布シフトがある度に再トレーニングする必要がある。 本研究では,最先端(sota)生成モデル(以下stylegan2)を強力な画像前駆的手法として活用し,ベイズの定理を多くの下流復元タスクに適用する。 BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,画像復元作業,すなわち超解像およびインペイントを,異なる前方破壊モデルと組み合わせることで解く。 i) Flick Faces High Qualityのデータセット(ii) MIMIC IIIの240,000個の胸部X線、(iii)脳MRIの5つのデータセットと7,329個のスキャンを組み合わせた3つの大きな、多種多様なデータセットについて、BRGMをデモした。 3つのデータセットにまたがって,データセット固有のハイパーパラメータチューニングがなければ,各再構築作業に特有の最先端手法と比較して,特に低解像度レベルでの最先端のパフォーマンスが得られます。 私たちのソースコードと事前訓練済みのモデルはすべてオンラインで利用可能です。

Machine learning models are commonly trained end-to-end and in a supervised setting, using paired (input, output) data. Classical examples include recent super-resolution methods that train on pairs of (low-resolution, high-resolution) images. However, these end-to-end approaches require re-training every time there is a distribution shift in the inputs (e.g., night images vs daylight) or relevant latent variables (e.g., camera blur or hand motion). In this work, we leverage state-of-the-art (SOTA) generative models (here StyleGAN2) for building powerful image priors, which enable application of Bayes' theorem for many downstream reconstruction tasks. Our method, called Bayesian Reconstruction through Generative Models (BRGM), uses a single pre-trained generator model to solve different image restoration tasks, i.e., super-resolution and in-painting, by combining it with different forward corruption models. We demonstrate BRGM on three large, yet diverse, datasets that enable us to build powerful priors: (i) 60,000 images from the Flick Faces High Quality dataset (ii) 240,000 chest X-rays from MIMIC III and (iii) a combined collection of 5 brain MRI datasets with 7,329 scans. Across all three datasets and without any dataset-specific hyperparameter tuning, our approach yields state-of-the-art performance on super-resolution, particularly at low-resolution levels, as well as inpainting, compared to state-of-the-art methods that are specific to each reconstruction task. Our source code and all pre-trained models are available online: https://razvanmarinescu.github.io/brgm/.
翻訳日:2021-05-17 03:03:06 公開日:2021-02-21
# 異種情報ネットワークの分類におけるメタパスコンテキストの活用

Leveraging Meta-path Contexts for Classification in Heterogeneous Information Networks ( http://arxiv.org/abs/2012.10024v2 )

ライセンス: Link先を確認
Xiang Li, Danhao Ding, Ben Kao, Yizhou Sun, Nikos Mamoulis(参考訳) 異種情報ネットワーク(HIN)は、異なるタイプのオブジェクトを頂点として、また様々なタイプのオブジェクト間の関係をエッジとして持つ。 HINにおけるオブジェクトの分類問題について検討する。 既存の手法の多くは、ラベル付きオブジェクトをトレーニングセットとして与えたときに性能が悪く、そのようなシナリオで分類精度を向上させる手法は計算量的に高価であることが多い。 これらの問題に対処するために,グラフニューラルネットワークモデルであるConCHを提案する。 ConCHは、半教師付き学習と自己教師付き学習を組み合わせたマルチタスク学習問題として分類問題を定式化し、ラベル付きデータとラベルなしデータの両方から学習する。 ConCHはメタパスを使用し、オブジェクト間のセマンティックな関係をキャプチャするオブジェクトタイプのシーケンスである。 ConCHは、グラフ畳み込みによるオブジェクトの埋め込みとコンテキストの埋め込みを共用する。 また、注意機構を使ってそのような埋め込みを融合する。 我々は、他の15の分類法に対して、ConCHの性能を評価するために広範な実験を行う。 以上の結果から,ConCHはHIN分類の効率的かつ効率的な方法であることがわかった。

A heterogeneous information network (HIN) has as vertices objects of different types and as edges the relations between objects, which are also of various types. We study the problem of classifying objects in HINs. Most existing methods perform poorly when given scarce labeled objects as training sets, and methods that improve classification accuracy under such scenarios are often computationally expensive. To address these problems, we propose ConCH, a graph neural network model. ConCH formulates the classification problem as a multi-task learning problem that combines semi-supervised learning with self-supervised learning to learn from both labeled and unlabeled data. ConCH employs meta-paths, which are sequences of object types that capture semantic relationships between objects. ConCH co-derives object embeddings and context embeddings via graph convolution. It also uses the attention mechanism to fuse such embeddings. We conduct extensive experiments to evaluate the performance of ConCH against other 15 classification methods. Our results show that ConCH is an effective and efficient method for HIN classification.
翻訳日:2021-05-01 18:00:59 公開日:2021-02-21
# フェデレーション・アンラーニング

Federated Unlearning ( http://arxiv.org/abs/2012.13891v2 )

ライセンス: Link先を確認
Gaoyang Liu, Yang Yang, Xiaoqiang Ma, Chen Wang, Jiangchuan Liu(参考訳) Federated Learning (FL)は先頃、有望な分散機械学習(ML)パラダイムとして登場した。 忘れられる権利"の実践的なニーズとデータ中毒に対する攻撃は、訓練されたFLモデルから特定のトレーニングデータを取り除いたり、未学習にしたりできる効率的なテクニックを要求する。 しかし、MLの文脈における既存の未学習技術は、FLとMLがデータからどのように学習するかという固有の区別のために、FLにはもはや効果がない。 したがって、FLモデルから効率的にデータを除去する方法はほとんど探索されていない。 In this paper, we take the first step to fill this gap by presenting FedEraser, the first federated unlearning methodology that can eliminate the influence of a federated client's data on the global FL model while significantly reducing the time used for constructing the unlearned FL model.The basic idea of FedEraser is to trade the central server's storage for unlearned model's construction time, where FedEraser reconstructs the unlearned model by leveraging the historical parameter updates of federated clients that have been retained at the central server during the training process of FL. モデル有効性を維持しつつ、未学習モデルの再構築に著しいスピードアップをもたらすため、未学習モデルの迅速な構築に使用される新しいキャリブレーション法も開発されている。 現実的な4つのデータセットの実験では、FedEraserの有効性が示されており、スクラッチからの再トレーニングと比較すると、期待速度は4\times$である。 我々は、FLの早期段階として、公正かつ透明な方法で、法的および倫理的基準に準拠することを期待している。

Federated learning (FL) has recently emerged as a promising distributed machine learning (ML) paradigm. Practical needs of the "right to be forgotten" and countering data poisoning attacks call for efficient techniques that can remove, or unlearn, specific training data from the trained FL model. Existing unlearning techniques in the context of ML, however, are no longer in effect for FL, mainly due to the inherent distinction in the way how FL and ML learn from data. Therefore, how to enable efficient data removal from FL models remains largely under-explored. In this paper, we take the first step to fill this gap by presenting FedEraser, the first federated unlearning methodology that can eliminate the influence of a federated client's data on the global FL model while significantly reducing the time used for constructing the unlearned FL model.The basic idea of FedEraser is to trade the central server's storage for unlearned model's construction time, where FedEraser reconstructs the unlearned model by leveraging the historical parameter updates of federated clients that have been retained at the central server during the training process of FL. A novel calibration method is further developed to calibrate the retained updates, which are further used to promptly construct the unlearned model, yielding a significant speed-up to the reconstruction of the unlearned model while maintaining the model efficacy. Experiments on four realistic datasets demonstrate the effectiveness of FedEraser, with an expected speed-up of $4\times$ compared with retraining from the scratch. We envision our work as an early step in FL towards compliance with legal and ethical criteria in a fair and transparent manner.
翻訳日:2021-04-24 20:08:13 公開日:2021-02-21
# DeepHateExplainer: アンダーリソースベンガル語における説明可能なヘイト音声検出

DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced Bengali Language ( http://arxiv.org/abs/2012.14353v2 )

ライセンス: Link先を確認
Md. Rezaul Karim and Sumon Kanti Dey and Bharathi Raja Chakravarthi(参考訳) ソーシャルメディアやマイクロブログサイトの指数関数的な成長は、表現の自由と個人の声の強化のためのプラットフォームを提供するだけでなく、オンラインハラスメント、サイバーいじめ、ヘイトスピーチなどの反社会的行動を表現することもできる。 社会的および反社会的行動分析にテキストデータを活用するために、主に英語のような高リソース言語に対してコンテキストを予測することで、多くの研究が提案されている。 しかし、ベンガル語のような、正確な自然言語処理(NLP)のための計算資源が不足している、一部の言語はリソース不足である。 本稿では,我々はdeephateexplainerという語源の少ないベンガル語からヘイトスピーチを検出するための説明可能なアプローチを提案する。 このアプローチでは、ベンガルテキストはまず、政治的、個人的、地政学的、宗教的嫌悪に分類される前に、様々なトランスフォーマーベースのニューラルアンサンブル法(単言語バングラ・バートベース、多言語bert-cased/uncased、xlm-roberta)を用いて、包括的に前処理される。 その後、人間の解釈可能な説明を提供する前に、重要な(ほとんど、少なくとも)用語が感度分析とレイヤワイド関連伝播(LRP)で識別される。 最後に、説明の質(すなわち忠実さ)を測定するために、包括性と十分性を計算する。 機械学習(リニアモデルとツリーベースモデル)とディープニューラルネットワーク(CNN、Bi-LSTM、および単語埋め込みによるConv-LSTM)に対する評価は、MLとDNNのベースラインを上回る政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアが84%、90%、88%、そして88%となる。

The exponential growths of social media and micro-blogging sites not only provide platforms for empowering freedom of expression and individual voices, but also enables people to express anti-social behavior like online harassment, cyberbullying, and hate speech. Numerous works have been proposed to utilize the textual data for social and anti-social behavior analysis, by predicting the contexts mostly for highly-resourced languages like English. However, some languages are under-resourced, e.g., South Asian languages like Bengali, that lack computational resources for accurate natural language processing (NLP). In this paper, we propose an explainable approach for hate speech detection from the under-resourced Bengali language, which we called DeepHateExplainer. In our approach, Bengali texts are first comprehensively preprocessed, before classifying them into political, personal, geopolitical, and religious hates, by employing the neural ensemble method of different transformer-based neural architectures (i.e., monolingual Bangla BERT-base, multilingual BERT-cased/uncased, and XLM-RoBERTa). Subsequently, important (most and least) terms are identified with sensitivity analysis and layer-wise relevance propagation (LRP), before providing human-interpretable explanations. Finally, to measure the quality of the explanation (i.e., faithfulness), we compute the comprehensiveness and sufficiency. Evaluations against machine learning (linear and tree-based models) and deep neural networks (i.e., CNN, Bi-LSTM, and Conv-LSTM with word embeddings) baselines yield F1 scores of 84%, 90%, 88%, and 88%, for political, personal, geopolitical, and religious hates, respectively, outperforming both ML and DNN baselines.
翻訳日:2021-04-19 11:12:59 公開日:2021-02-21
# (参考訳) インシリコ抗体親和性成熟のためのシーケンスベースディープラーニング抗体の設計

Sequence-based deep learning antibody design for in silico antibody affinity maturation ( http://arxiv.org/abs/2103.03724v1 )

ライセンス: CC BY 4.0
Yue Kang, Dawei Leng, Jinjiang Guo, Lurong Pan(参考訳) 抗体治療は過去数十年間、薬物の発見と開発に広く研究されてきた。 抗体発見パイプラインにおける注目度は、治療リードの最適化ステップである。 従来の方法とin silicoアプローチは、特定のターゲット抗原に対して高い結合親和性を持つ候補を生成することを目的としている。 従来のin vitroアプローチでは、候補選択にハイブリドーマやファージディスプレイ、評価に表面プラズモン共鳴(SPR)を使用し、シリコ計算では、設計プロセスに数学的アルゴリズムと計算処理力を組み込むことで、高コスト化と効率の向上を目指している。 本研究では, 深層学習技術を用いた抗体親和性予測法を用いて, 抗体-抗原相互作用を表現するための異なるグラフに基づく設計について検討した。 他のシリコ計算では実験的に決定された結晶構造を必要とするが、本研究はインシリコ抗体成熟のための配列ベースのモデルの能力に関心を寄せた。 本研究は,従来の手法や深層学習手法と比較して,結合親和性の予測精度を達成した。 抗体-抗原結合特異性をさらに研究し、実際のシナリオにおける最適化プロセスをシミュレートするために、ペアワイズ予測戦略を導入した。 ベースラインおよびペアワイズ予測の結果に基づいて解析を行った。 結果として得られた予測と効率は、スケーラブルな産業プラクティスとして適応するシーケンスベースの手法の実現可能性と計算効率を証明する。

Antibody therapeutics has been extensively studied in drug discovery and development within the past decades. One increasingly popular focus in the antibody discovery pipeline is the optimization step for therapeutic leads. Both traditional methods and in silico approaches aim to generate candidates with high binding affinity against specific target antigens. Traditional in vitro approaches use hybridoma or phage display for candidate selection, and surface plasmon resonance (SPR) for evaluation, while in silico computational approaches aim to reduce the high cost and improve efficiency by incorporating mathematical algorithms and computational processing power in the design process. In the present study, we investigated different graph-based designs for depicting antibody-antigen interactions in terms of antibody affinity prediction using deep learning techniques. While other in silico computations require experimentally determined crystal structures, our study took interest in the capability of sequence-based models for in silico antibody maturation. Our preliminary studies achieved satisfying prediction accuracy on binding affinities comparing to conventional approaches and other deep learning approaches. To further study the antibody-antigen binding specificity, and to simulate the optimization process in real-world scenario, we introduced pairwise prediction strategy. We performed analysis based on both baseline and pairwise prediction results. The resulting prediction and efficiency prove the feasibility and computational efficiency of sequence-based method to be adapted as a scalable industry practice.
翻訳日:2021-04-05 09:42:28 公開日:2021-02-21
# (参考訳) IoTで実現可能な社会関係 - 人工知能

IoT-Enabled Social Relationships Meet Artificial Social Intelligence ( http://arxiv.org/abs/2103.01776v1 )

ライセンス: CC BY 4.0
Sahraoui Dhelim, Huansheng Ning, Fadi Farha, Liming Chen, Luigi Atzori and Mahmoud Daneshmand(参考訳) モノのインターネットの最近の進歩、ユビキタスコンピューティングリソースやモバイルデバイスのアクセシビリティの増大、リッチメディアコンテンツの普及、そしてその後の社会的、経済的、文化的変化により、コンピューティング技術とアプリケーションはこの10年間で急速に進化してきた。 今やそれらはパーソナルコンピューティングを超えて、コラボレーションと社会的インタラクションを全般的に促進し、iotエンティティ間の社会的関係の急速な拡大を引き起こしている。 これらの関係と不均一な社会的特徴の増大は、IoTネットワークがこれらの関係を利用して提供されたサービスを改善し、リレーションブレーションとして知られる配信コンテンツをカスタマイズするのを防ぐ、コンピューティングと通信のボトルネックに繋がった。 一方、ソーシャルコンピューティングにおける人工知能応用の急速な進歩は、社会関係爆発問題に対処する可能性を持つ人工知能(ASI)と呼ばれる有望な研究分野の出現につながっている。 本稿では、社会関係の検出と管理におけるIoTの役割、IoTにおける社会関係の爆発的発生問題について論じ、社会指向機械学習やディープラーニング技術を含むAISを用いた提案されたソリューションについてレビューする。

With the recent advances of the Internet of Things, and the increasing accessibility of ubiquitous computing resources and mobile devices, the prevalence of rich media contents, and the ensuing social, economic, and cultural changes, computing technology and applications have evolved quickly over the past decade. They now go beyond personal computing, facilitating collaboration and social interactions in general, causing a quick proliferation of social relationships among IoT entities. The increasing number of these relationships and their heterogeneous social features have led to computing and communication bottlenecks that prevent the IoT network from taking advantage of these relationships to improve the offered services and customize the delivered content, known as relationship explosion. On the other hand, the quick advances in artificial intelligence applications in social computing have led to the emerging of a promising research field known as Artificial Social Intelligence (ASI) that has the potential to tackle the social relationship explosion problem. This paper discusses the role of IoT in social relationships detection and management, the problem of social relationships explosion in IoT and reviews the proposed solutions using ASI, including social-oriented machine-learning and deep-learning techniques.
翻訳日:2021-04-05 09:34:03 公開日:2021-02-21
# (参考訳) 異なる不確かさ環境下でのネットワーク最適化モデル

Some Network Optimization Models under Diverse Uncertain Environments ( http://arxiv.org/abs/2103.08327v1 )

ライセンス: CC0 1.0
Saibal Majumder(参考訳) ネットワークモデルは、多くの実生活問題を数学的に表す効率的な方法を提供する。 過去数十年間、ネットワーク最適化の分野は、研究者や実践者の間で関心が高まってきた。 本論文で検討したネットワークモデルは,交通問題,最短経路問題,最短木問題,最大フロー問題を含む4つのタイプに分類される。 ネットワーク最適化問題の決定パラメータが正確ではなく、不完全なデータや証拠の欠如、不適切な判断やランダム性といった要因から生じる様々な不確実性によって特徴付けられる場合、状況に遭遇することが多い。 決定論的環境を考えると、ネットワーク最適化に関するいくつかの研究がある。 しかし、文献では、様々な不確実なフレームワークの下で、単一および多目的のネットワーク最適化問題に関する調査はあまり行われていない。 この論文は、異なる不確実なパラダイムの下で7つの異なるネットワークモデルを提案する。 ここで、不確実性ネットワークモデルを定式化する不確実性プログラミング手法は、(i)期待値モデル、(ii)確率制約モデル、(iii)依存確率制約モデルである。 その後、不確実なネットワークモデルの対応するcrisp同値を、異なる解法を用いて解決する。 この論文で用いられる解法は古典的手法と進化的アルゴリズムに広く分類することができる。 この論文で使用される古典的手法は、DijkstraアルゴリズムとKruskalアルゴリズム、修正された粗いDijkstraアルゴリズム、大域的基準法、エプシロン制約法、ファジィプログラミング法である。 一方,進化アルゴリズムでは,非決定的な交叉を伴う多様な集団遺伝アルゴリズムを提案し,2つの多目的進化アルゴリズムを検討した。

Network models provide an efficient way to represent many real life problems mathematically. In the last few decades, the field of network optimization has witnessed an upsurge of interest among researchers and practitioners. The network models considered in this thesis are broadly classified into four types including transportation problem, shortest path problem, minimum spanning tree problem and maximum flow problem. Quite often, we come across situations, when the decision parameters of network optimization problems are not precise and characterized by various forms of uncertainties arising from the factors, like insufficient or incomplete data, lack of evidence, inappropriate judgements and randomness. Considering the deterministic environment, there exist several studies on network optimization problems. However, in the literature, not many investigations on single and multi objective network optimization problems are observed under diverse uncertain frameworks. This thesis proposes seven different network models under different uncertain paradigms. Here, the uncertain programming techniques used to formulate the uncertain network models are (i) expected value model, (ii) chance constrained model and (iii) dependent chance constrained model. Subsequently, the corresponding crisp equivalents of the uncertain network models are solved using different solution methodologies. The solution methodologies used in this thesis can be broadly categorized as classical methods and evolutionary algorithms. The classical methods, used in this thesis, are Dijkstra and Kruskal algorithms, modified rough Dijkstra algorithm, global criterion method, epsilon constraint method and fuzzy programming method. Whereas, among the evolutionary algorithms, we have proposed the varying population genetic algorithm with indeterminate crossover and considered two multi objective evolutionary algorithms.
翻訳日:2021-04-05 09:06:43 公開日:2021-02-21
# 都市ビッグデータを用いたマルチモーダル情報融合のためのコンパクトニューラルモデルによる交通事故リスク予測

Risk Prediction on Traffic Accidents using a Compact Neural Model for Multimodal Information Fusion over Urban Big Data ( http://arxiv.org/abs/2103.05107v1 )

ライセンス: Link先を確認
Wenshan Wang, Su Yang, and Weishan Zhang(参考訳) 交通事故のリスクマップの予測は,事故予防と緊急対応の早期計画に不可欠である。 ここでの課題は、都市ビッグデータのマルチモーダルな性質にある。 本稿では,マルチモーダルな特徴を用いたオーバーフィッティングを緩和するコンパクトニューラルアンサンブルモデルを提案し,衛星画像における道路複雑性のフラクタル測度,タクシー流れ,pois,道路幅,openstreetmapにおける接続性などの新機能を開発する。 このソリューションは、ベースラインメソッドや単一モダリティデータベースのソリューションよりもパフォーマンスに有望である。 マイクロビューから可視化した結果,リスクの高いシーンやリスクの低いシーンの視覚的パターンが明らかになり,将来の道路設計の教訓となる。 都市の観点からは、予測されたリスクマップは基礎的真理に近く、緊急対応のための資源の空間的構成や警報標識の最適化の基盤として機能することができる。 私たちの知る限りでは、交通事故予測における視覚的かつ時空間的特徴を融合し、データマイニングに基づく都市コンピューティングとコンピュータビジョンに基づく都市認識のギャップを埋める最初の作業である。

Predicting risk map of traffic accidents is vital for accident prevention and early planning of emergency response. Here, the challenge lies in the multimodal nature of urban big data. We propose a compact neural ensemble model to alleviate overfitting in fusing multimodal features and develop some new features such as fractal measure of road complexity in satellite images, taxi flows, POIs, and road width and connectivity in OpenStreetMap. The solution is more promising in performance than the baseline methods and the single-modality data based solutions. After visualization from a micro view, the visual patterns of the scenes related to high and low risk are revealed, providing lessons for future road design. From city point of view, the predicted risk map is close to the ground truth, and can act as the base in optimizing spatial configuration of resources for emergency response, and alarming signs. To the best of our knowledge, it is the first work to fuse visual and spatio-temporal features in traffic accident prediction while advances to bridge the gap between data mining based urban computing and computer vision based urban perception.
翻訳日:2021-04-05 00:45:11 公開日:2021-02-21
# オンラインオンラインメタ学習によるスパイキングニューラルネットワークの高速オンデバイス適応

Fast On-Device Adaptation for Spiking Neural Networks via Online-Within-Online Meta-Learning ( http://arxiv.org/abs/2103.03901v1 )

ライセンス: Link先を確認
Bleema Rosenfeld, Bipin Rajendran, Osvaldo Simeone(参考訳) Spiking Neural Networks(SNN)は、モバイルヘルスケア管理や自然言語処理などのアプリケーションのためのデバイス上でのエッジインテリジェンスのための機械学習モデルとして最近人気を集めている。 このような高度にパーソナライズされたユースケースでは、モデルが最小限のトレーニングデータしか持たない個人のユニークな特徴に適応できることが重要です。 メタラーニングは、新しいタスクに素早く適応するためのモデルを訓練する方法として提案されている。 SNNのための数少ないメタラーニングソリューションはオフラインで動作し、現在のニューロモルフィックエッジデバイスと互換性のないある種のバックプロパゲーションを必要とする。 本稿では,タスクストリーム上での生涯学習を可能にする,OWOML-SNNと呼ばれるSNNのオンライン・オンラインメタ学習ルールを提案する。

Spiking Neural Networks (SNNs) have recently gained popularity as machine learning models for on-device edge intelligence for applications such as mobile healthcare management and natural language processing due to their low power profile. In such highly personalized use cases, it is important for the model to be able to adapt to the unique features of an individual with only a minimal amount of training data. Meta-learning has been proposed as a way to train models that are geared towards quick adaptation to new tasks. The few existing meta-learning solutions for SNNs operate offline and require some form of backpropagation that is incompatible with the current neuromorphic edge-devices. In this paper, we propose an online-within-online meta-learning rule for SNNs termed OWOML-SNN, that enables lifelong learning on a stream of tasks, and relies on local, backprop-free, nested updates.
翻訳日:2021-04-05 00:42:49 公開日:2021-02-21
# ディープラーニングのための再生活性化関数

Reproducing Activation Function for Deep Learning ( http://arxiv.org/abs/2101.04844v2 )

ライセンス: Link先を確認
Senwei Liang and Liyao Lyu and Chunmei Wang and Haizhao Yang(参考訳) 本稿では,コンピュータビジョンから科学計算に至るまで,様々な応用のディープラーニング精度を向上させるために,再生活性化関数(RAF)を提案する。 この考え方は、いくつかの基本的な機能と学習可能な線形結合を用いて、ニューロンごとにニューロンのデータ駆動活性化関数を構築することである。 RAFで武装したニューラルネットワーク(NN)は、従来の近似ツールを再現できるため、従来のNNよりも少ないパラメータのターゲット関数を近似することができる。 NNトレーニングでは、RAFは従来のアクティベーション機能よりも条件番号のよいニューラルタンジェントカーネル(NTK)を生成でき、ディープラーニングのスペクトルバイアスを低減できる。 広範な数値実験によって示されるように,提案するrafは,既存の音声/画像/ビデオ再構成,pdes,固有値問題に対して,既存のディープラーニングソルバよりも高精度な解に対するディープラーニング最適化の収束を容易にする。 RAFでは,音声・ビデオ再生の誤差,PDE,固有値問題の誤差がベースラインに比べて14%以上,73%以上,99%減少し,画像再構成の性能は58%向上した。

We propose reproducing activation functions (RAFs) to improve deep learning accuracy for various applications ranging from computer vision to scientific computing. The idea is to employ several basic functions and their learnable linear combination to construct neuron-wise data-driven activation functions for each neuron. Armed with RAFs, neural networks (NNs) can reproduce traditional approximation tools and, therefore, approximate target functions with a smaller number of parameters than traditional NNs. In NN training, RAFs can generate neural tangent kernels (NTKs) with a better condition number than traditional activation functions lessening the spectral bias of deep learning. As demonstrated by extensive numerical tests, the proposed RAFs can facilitate the convergence of deep learning optimization for a solution with higher accuracy than existing deep learning solvers for audio/image/video reconstruction, PDEs, and eigenvalue problems. With RAFs, the errors of audio/video reconstruction, PDEs, and eigenvalue problems are decreased by over 14%, 73%, 99%, respectively, compared with baseline, while the performance of image reconstruction increases by 58%.
翻訳日:2021-03-30 08:02:02 公開日:2021-02-21
# グローバルおよびパートアウェア深部特徴表現学習による人格識別

Hand-Based Person Identification using Global and Part-Aware Deep Feature Representation Learning ( http://arxiv.org/abs/2101.05260v3 )

ライセンス: Link先を確認
Nathanael L. Baisa, Zheheng Jiang, Ritesh Vyas, Bryan Williams, Hossein Rahmani, Plamen Angelov, Sue Black(参考訳) 性的虐待を含む重大犯罪の場合、身元を特定できる唯一の可能な情報は手の画像であることが多い。 この証拠は制御不能な状況にあるため、分析は困難である。 この場合、機能比較のグローバルアプローチは限られているため、ローカル情報を検討するために拡張することが重要である。 本研究では,グローバルとローカル両方の深層特徴表現を学習し,ハンドベースの人物識別を提案する。 提案手法であるglobal and part-aware network (gpa-net)は,conv-layer上にグローバルおよびローカルなブランチを作成し,ロバストなグローバルおよびパートレベルの特徴を学習する。 局所的な(部分レベルの)特徴を学習するために、水平方向と垂直方向の両方で凸層上の均一なパーティショニングを行う。 画像のパーティショニングやポーズ推定などの外部の手がかりを必要とすることなく,ソフトパーティショニングを行うことで,部品の検索を行う。 提案手法が競合するアプローチを著しく上回っていることを示すため,2つの大規模マルチエスニックデータセットと公開ハンドデータセットについて広範な評価を行った。

In cases of serious crime, including sexual abuse, often the only available information with demonstrated potential for identification is images of the hands. Since this evidence is captured in uncontrolled situations, it is difficult to analyse. As global approaches to feature comparison are limited in this case, it is important to extend to consider local information. In this work, we propose hand-based person identification by learning both global and local deep feature representation. Our proposed method, Global and Part-Aware Network (GPA-Net), creates global and local branches on the conv-layer for learning robust discriminative global and part-level features. For learning the local (part-level) features, we perform uniform partitioning on the conv-layer in both horizontal and vertical directions. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. We make extensive evaluations on two large multi-ethnic and publicly available hand datasets, demonstrating that our proposed method significantly outperforms competing approaches.
翻訳日:2021-03-30 07:56:39 公開日:2021-02-21
# (参考訳) CheXtransfer:胸部X線解釈のための画像ネットモデルの性能とパラメータ効率

CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation ( http://arxiv.org/abs/2101.06871v2 )

ライセンス: CC BY 4.0
Alexander Ke, William Ellsworth, Oishi Banerjee, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部x線解釈のための深層学習法は通常、imagenet用に開発された事前訓練されたモデルに依存している。 このパラダイムは、より良いImageNetアーキテクチャが胸部X線タスクでより良く機能し、ImageNetが予めトレーニングした重みがランダム初期化よりもパフォーマンスを高めることを前提としている。 本研究は, 大規模胸部X線データセット(CheXpert)における16の人気の畳み込みアーキテクチャの伝達性能とパラメータ効率を比較し, これらの仮定について検討する。 まず,事前トレーニングのないモデルと事前トレーニングのないモデルで,ImageNetのパフォーマンスとCheXpertパフォーマンスの関係は見つからない。 第二に、事前訓練のないモデルの場合、モデルファミリーの選択は、医療画像タスクのための家族内のサイズ以上のパフォーマンスに影響を与える。 第3に、ImageNet事前学習は、より小さなアーキテクチャにおいて、より統計的に重要なアーキテクチャ間のパフォーマンス向上をもたらすことを観察する。 第4に、事前訓練されたモデルから最終ブロックをトラッカーすることで、ImageNetアーキテクチャがCheXpertにとって不要に大きいかどうかを調べ、統計的に重要な性能低下を伴わずに、平均3.25倍のパラメータ効率が得られることを発見した。 本研究は,ImageNetと胸部X線解釈性能の関係に関する新たな実験的証拠を提供する。

Deep learning methods for chest X-ray interpretation typically rely on pretrained models developed for ImageNet. This paradigm assumes that better ImageNet architectures perform better on chest X-ray tasks and that ImageNet-pretrained weights provide a performance boost over random initialization. In this work, we compare the transfer performance and parameter efficiency of 16 popular convolutional architectures on a large chest X-ray dataset (CheXpert) to investigate these assumptions. First, we find no relationship between ImageNet performance and CheXpert performance for both models without pretraining and models with pretraining. Second, we find that, for models without pretraining, the choice of model family influences performance more than size within a family for medical imaging tasks. Third, we observe that ImageNet pretraining yields a statistically significant boost in performance across architectures, with a higher boost for smaller architectures. Fourth, we examine whether ImageNet architectures are unnecessarily large for CheXpert by truncating final blocks from pretrained models, and find that we can make models 3.25x more parameter-efficient on average without a statistically significant drop in performance. Our work contributes new experimental evidence about the relation of ImageNet to chest x-ray interpretation performance.
翻訳日:2021-03-27 17:42:40 公開日:2021-02-21
# (参考訳) 積分学習による有能な物体検出

Salient Object Detection via Integrity Learning ( http://arxiv.org/abs/2101.07663v3 )

ライセンス: CC BY 4.0
Mingchen Zhuge, Deng-Ping Fan, Nian Liu, Dingwen Zhang, Dong Xu, and Ling Shao(参考訳) 現行の正当性物体検出(SOD)は驚くべき進歩を遂げているが、予測された正当性領域の整合性に関しては影に映し出される。 マイクロレベルとマクロレベルの両方で整合性の概念を定義します。 特にマイクロレベルでは、マクロレベルでは、モデルが与えられたイメージシーンからすべての有能なオブジェクトを発見する必要があるが、特定の有能なオブジェクトに属する全ての部分を強調する必要がある。 健全な物体検出のための整合性学習を容易にするため、我々は3つの重要な要素を探索し、強健な整合性特徴を学習する新しい積分認知ネットワーク(ICON)を設計する。 1) 特徴の識別性を重視する既存のモデルとは異なり,様々な受容領域(カーネル形状やコンテキストなど)で特徴を集約し,特徴の多様性を高めるために,多彩な特徴集約(dfa)コンポーネントを導入する。 このような多様性は、積分サルエント天体の採掘の基礎である。 2) DFA の特徴に基づき,マクロレベルでの健全なオブジェクトを強調表示する機能チャネルの強化と,他の注意をそらすものを抑制することを目的とした整合性チャネル拡張 (ICE) コンポーネントを導入する。 3) 拡張特徴を抽出した後, 部分検証 (pwv) 法を用いて, 部分と対象特徴が強い一致を持つか否かを判定する。 このような部分的な合意は、それぞれの有能なオブジェクトに対するマイクロレベルの整合性をさらに改善することができる。 ICONの有効性を示すため、7つの挑戦的なベンチマークで総合的な実験を行い、有望な結果が得られた。

Albeit current salient object detection (SOD) works have achieved fantastic progress, they are cast into the shade when it comes to the integrity of the predicted salient regions. We define the concept of integrity at both the micro and macro level. Specifically, at the micro level, the model should highlight all parts that belong to a certain salient object, while at the macro level, the model needs to discover all salient objects from the given image scene. To facilitate integrity learning for salient object detection, we design a novel Integrity Cognition Network (ICON), which explores three important components to learn strong integrity features. 1) Unlike the existing models that focus more on feature discriminability, we introduce a diverse feature aggregation (DFA) component to aggregate features with various receptive fields (i.e.,, kernel shape and context) and increase the feature diversity. Such diversity is the foundation for mining the integral salient objects. 2) Based on the DFA features, we introduce the integrity channel enhancement (ICE) component with the goal of enhancing feature channels that highlight the integral salient objects at the macro level, while suppressing the other distracting ones. 3) After extracting the enhanced features, the part-whole verification (PWV) method is employed to determine whether the part and whole object features have strong agreement. Such part-whole agreements can further improve the micro-level integrity for each salient object. To demonstrate the effectiveness of ICON, comprehensive experiments are conducted on seven challenging benchmarks, where promising results are achieved.
翻訳日:2021-03-23 01:34:43 公開日:2021-02-21
# クラス不均衡下での深部ニューラルネットワーク訓練のための制約付き最適化

Constrained Optimization for Training Deep Neural Networks Under Class Imbalance ( http://arxiv.org/abs/2102.12894v1 )

ライセンス: Link先を確認
Sara Sangalli, Ertunc Erdil, Andreas Hoetker, Olivio Donati, Ender Konukoglu(参考訳) ディープニューラルネットワーク(DNN)は、トレーニング中に他のものよりもサンプルが大幅に少ないクラスに対してより多くの間違いを犯すことで悪名高い。 このようなクラス不均衡は臨床応用においてユビキタスであり、最も少ないサンプルを持つクラスは、誤った分類が深刻な結果をもたらす重要なケース(例えば、がん)に対応しているため、処理が非常に重要である。 このようなケースを見逃さないように、バイナリ分類器はより高いしきい値を設定することによって高いTrue Positive Rates(TPR)で動作する必要がありますが、クラス不均衡の問題に対して非常に高いFalse Positive Rates(FPR)のコストがかかります。 授業の不均衡下での既存の学習方法は、これを考慮しないことが多い。 正のサンプルの誤分類が高コストに結びついている問題に対して,高いTPRでFPRを減らし,予測精度を向上させるべきである。 この目的のために,制約付き最適化問題として二項分類のためのDNNのトレーニングを行い,既存の損失関数と併用してROC曲線(AUC)の下で最大領域を強制できる新しい制約を導入する。 拡張ラグランジアン法(alm, augmented lagrangian method)を用いて制約付き最適化問題を解く。 CIFAR10と社内医療画像データセットを用いた画像分類アプリケーションの実験結果を提示する。 その結果,提案手法は,高TPR,高AUCで低FPRを達成することにより,使用する損失関数をほぼ常に向上させることが示された。

Deep neural networks (DNNs) are notorious for making more mistakes for the classes that have substantially fewer samples than the others during training. Such class imbalance is ubiquitous in clinical applications and very crucial to handle because the classes with fewer samples most often correspond to critical cases (e.g., cancer) where misclassifications can have severe consequences. Not to miss such cases, binary classifiers need to be operated at high True Positive Rates (TPR) by setting a higher threshold but this comes at the cost of very high False Positive Rates (FPR) for problems with class imbalance. Existing methods for learning under class imbalance most often do not take this into account. We argue that prediction accuracy should be improved by emphasizing reducing FPRs at high TPRs for problems where misclassification of the positive samples are associated with higher cost. To this end, we pose the training of a DNN for binary classification as a constrained optimization problem and introduce a novel constraint that can be used with existing loss functions to enforce maximal area under the ROC curve (AUC). We solve the resulting constrained optimization problem using an Augmented Lagrangian method (ALM), where the constraint emphasizes reduction of FPR at high TPR. We present experimental results for image-based classification applications using the CIFAR10 and an in-house medical imaging dataset. Our results demonstrate that the proposed method almost always improves the loss functions it is used with by attaining lower FPR at high TPR and higher or equal AUC.
翻訳日:2021-02-26 14:03:25 公開日:2021-02-21
# 順序的相対的信念エントロピー

Ordinal relative belief entropy ( http://arxiv.org/abs/2102.12575v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 特殊にカスタマイズされたエントロピーは、識別枠に存在する不確実性の度合いを測るために広く用いられる。 しかし、これらのエントロピーはすべて、フレームを、実際の状況に合致しない線量を既に決定済みの全体と見なす。 実生活では、すべてが順序で来るので、識別フレームに含まれる命題の配列を決定する動的プロセスの不確実性を測定する方法は、まだオープンな問題であり、関連する研究は行われていません。 そこで本稿では,提案の確認順序を考慮した識別枠の不確実性を測定するための新しい順序エントロピーを提案する。 伝統的なエントロピーと比較して、認識の枠組みに存在する命題の順序によってもたらされる不確かさの程度に影響を及ぼす。 また,本論文では,提案エントロピーの正確性と妥当性を検証するための数値的例を示す。

Specially customised Entropies are widely applied in measuring the degree of uncertainties existing in the frame of discernment. However, all of these entropies regard the frame as a whole that has already been determined which dose not conform to actual situations. In real life, everything comes in an order, so how to measure uncertainties of the dynamic process of determining sequence of propositions contained in a frame of discernment is still an open issue and no related research has been proceeded. Therefore, a novel ordinal entropy to measure uncertainties of the frame of discernment considering the order of confirmation of propositions is proposed in this paper. Compared with traditional entropies, it manifests effects on degree of uncertainty brought by orders of propositions existing in a frame of discernment. Besides, some numerical examples are provided to verify the correctness and validity of the proposed entropy in this paper.
翻訳日:2021-02-26 13:51:58 公開日:2021-02-21
# (参考訳) データ保護法によるプライバシーポリシーの遵守の検出

Detecting Compliance of Privacy Policies with Data Protection Laws ( http://arxiv.org/abs/2102.12362v1 )

ライセンス: CC BY 4.0
Ayesha Qamar, Tehreem Javed, and Mirza Omer Beg(参考訳) プライバシポリシ(privacy policy)とは、組織や企業がユーザの個人情報の処理に採用したプラクティスを記述した法的文書である。 しかし、ポリシーは法的文書であるため、理解が難しい広範な法的用語で書かれることがよくあります。 プライバシポリシに関する作業は行われているが、特定のプライバシポリシが特定の国や州のデータ保護法に準拠しているかどうかを検証する問題に対処するものはない。 我々は、一般データ保護規則(gdpr)など、さまざまなデータ保護法に照らしてプライバシーポリシーを分析するフレームワークを提供することで、このギャップを埋めることを目指している。 そのために、まずプライバシーポリシーと法律の両方をラベル付けしました。 次に、ポリシーの内容を、ポリシーが準拠しなければならない適切な法律セグメントにマップするために相関スキームが開発されます。 次に、NLP技術を使用して、法律の対応するテキストでプライバシーポリシーのテキストの遵守を確認します。 このようなツールを使用することで、ユーザーは自分の個人データがどのように管理されているかを理解することができます。 現在、GDPRとPDPAのマッピングを提供していますが、すでに構築されているパイプラインに他の法律を簡単に組み込むことができます。

Privacy Policies are the legal documents that describe the practices that an organization or company has adopted in the handling of the personal data of its users. But as policies are a legal document, they are often written in extensive legal jargon that is difficult to understand. Though work has been done on privacy policies but none that caters to the problem of verifying if a given privacy policy adheres to the data protection laws of a given country or state. We aim to bridge that gap by providing a framework that analyzes privacy policies in light of various data protection laws, such as the General Data Protection Regulation (GDPR). To achieve that, firstly we labeled both the privacy policies and laws. Then a correlation scheme is developed to map the contents of a privacy policy to the appropriate segments of law that a policy must conform to. Then we check the compliance of privacy policy's text with the corresponding text of the law using NLP techniques. By using such a tool, users would be better equipped to understand how their personal data is managed. For now, we have provided a mapping for the GDPR and PDPA, but other laws can easily be incorporated in the already built pipeline.
翻訳日:2021-02-25 15:46:21 公開日:2021-02-21
# (参考訳) タスク識別のための同時脳波と視線追跡データの動的グラフモデリング

Dynamic Graph Modeling of Simultaneous EEG and Eye-tracking Data for Reading Task Identification ( http://arxiv.org/abs/2102.11922v1 )

ライセンス: CC BY 4.0
Puneet Mathur, Trisha Mittal and Dinesh Manocha(参考訳) 我々は,脳波~(EEG)と眼球運動~(EM)データからヒトの読取意図を識別し,通常の読取とタスク指向読取を区別するために,AdaGTCNと呼ぶ新しいアプローチを提案する。 読解プロセスの生理的側面(認知的負荷と読解意図)を理解することは,クラウドソースによる注釈付きデータの品質向上に役立つ。 適応グラフ時間畳み込みネットワーク(AdaGTCN)は適応グラフ学習層と深部グラフ畳み込み層を用いて,単語レベルの眼球運動固定中に記録された時間ロックされたEEGシーケンスを用いて読み出し活動を識別する。 Adaptive Graph Learning LayerはEEG電極信号間の空間的相関を動的に学習する一方、Deep Neighborhood Graph Convolution Layerは高密度グラフ近傍の時間的特徴を活用して、他の現代的なアプローチよりもタスク識別を読み取る技術の現状を確立する。 このアプローチといくつかのベースラインを比較し、ZuCo 2.0データセットの6.29%の改善と広範なアブレーション実験を報告する。

We present a new approach, that we call AdaGTCN, for identifying human reader intent from Electroencephalogram~(EEG) and Eye movement~(EM) data in order to help differentiate between normal reading and task-oriented reading. Understanding the physiological aspects of the reading process~(the cognitive load and the reading intent) can help improve the quality of crowd-sourced annotated data. Our method, Adaptive Graph Temporal Convolution Network (AdaGTCN), uses an Adaptive Graph Learning Layer and Deep Neighborhood Graph Convolution Layer for identifying the reading activities using time-locked EEG sequences recorded during word-level eye-movement fixations. Adaptive Graph Learning Layer dynamically learns the spatial correlations between the EEG electrode signals while the Deep Neighborhood Graph Convolution Layer exploits temporal features from a dense graph neighborhood to establish the state of the art in reading task identification over other contemporary approaches. We compare our approach with several baselines to report an improvement of 6.29% on the ZuCo 2.0 dataset, along with extensive ablation experiments
翻訳日:2021-02-25 14:15:22 公開日:2021-02-21
# (参考訳) 隠れた共同創業者との因果関係分析

Causal Mediation Analysis with Hidden Confounders ( http://arxiv.org/abs/2102.11724v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Huan Liu(参考訳) 因果関係推論の重要な問題は、治療の総効果を異なる因果経路に分解し、各経路における因果効果を定量化することである。 因果分析(CMA)は、これらの因果効果を特定し、推定するための公式な統計的アプローチである。 CMAの中心は、全ての前処理の共同設立者が測定され、後処理の共同設立者や隠れた共同設立者など、様々な種類の共同設立を捉えることができるという逐次的無知の仮定である。 通常、観察研究では検証できないが、この仮定は従来の手法の適用範囲と実用性の両方を抑える。 したがって、この作業は、統一された共著者とそのプロキシ変数による因果グラフに従うことによって、厳密な仮定を回避することを目的とする。 我々のコアコントリビューションは、深層潜伏変数モデルとプロキシ戦略を組み合わせたアルゴリズムであり、統一された代理共同創設者を共同で推論し、観測変数からCMAの異なる因果効果を推定する。 合成データと半合成データの両方を用いた経験的評価により,提案手法の有効性が検証された。

An important problem in causal inference is to break down the total effect of treatment into different causal pathways and quantify the causal effect in each pathway. Causal mediation analysis (CMA) is a formal statistical approach for identifying and estimating these causal effects. Central to CMA is the sequential ignorability assumption that implies all pre-treatment confounders are measured and they can capture different types of confounding, e.g., post-treatment confounders and hidden confounders. Typically unverifiable in observational studies, this assumption restrains both the coverage and practicality of conventional methods. This work, therefore, aims to circumvent the stringent assumption by following a causal graph with a unified confounder and its proxy variables. Our core contribution is an algorithm that combines deep latent-variable models and proxy strategy to jointly infer a unified surrogate confounder and estimate different causal effects in CMA from observed variables. Empirical evaluations using both synthetic and semi-synthetic datasets validate the effectiveness of the proposed method.
翻訳日:2021-02-25 01:57:33 公開日:2021-02-21
# (参考訳) robust action governorを用いた安全強化学習

Safe Reinforcement Learning Using Robust Action Governor ( http://arxiv.org/abs/2102.10643v1 )

ライセンス: CC BY 4.0
Yutong Li, Nan Li, H. Eric Tseng, Anouck Girard, Dimitar Filev, Ilya Kolmanovsky(参考訳) Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。 これにより、RLの現実世界の制御問題、特に安全クリティカルシステムへの応用が妨げられる。 本論文では, RLアルゴリズムと, 学習中の安全関連要件を管理するために, セット理論的手法とオンライン最適化を応用したロバスト・アクション・ガバナー (RAG) と呼ばれる, アドオン安全監督モジュールを組み込んだ安全RLのフレームワークについて紹介する。 自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。

Reinforcement Learning (RL) is essentially a trial-and-error learning procedure which may cause unsafe behavior during the exploration-and-exploitation process. This hinders the applications of RL to real-world control problems, especially to those for safety-critical systems. In this paper, we introduce a framework for safe RL that is based on integration of an RL algorithm with an add-on safety supervision module, called the Robust Action Governor (RAG), which exploits set-theoretic techniques and online optimization to manage safety-related requirements during learning. We illustrate this proposed safe RL framework through an application to automotive adaptive cruise control.
翻訳日:2021-02-24 19:43:08 公開日:2021-02-21
# (参考訳) メモリ効率の高いオープンドメインQAのためのインデックスコンテンツの運用

Pruning the Index Contents for Memory Efficient Open-Domain QA ( http://arxiv.org/abs/2102.10697v1 )

ライセンス: CC BY 4.0
Martin Fajcik, Martin Docekal, Karel Ondrej, Pavel Smrz(参考訳) 本研究では、NaturalQuestionsとEfficentQAデータセットの50%の正確な一致を超え、最先端のアプローチを組み合わせることで達成可能なものを示す新しいパイプラインを提示する。 具体的には,レトリバー,リカウンタ,抽出リーダ,生成リーダ,およびそれらを統合する簡単な方法からなる,新たなr2-d2パイプラインを提案する。 さらに、以前の作業では、数十ギブの順番でスケールする外部ドキュメントの巨大なインデックスがしばしば付いている。 本研究では,オープンドメインQAシステムをインデックス,OS,ライブラリコンポーネントで完全に6GiBドッカー画像に収まるとともに,元のインデックス内容の8%しか保持せず,3%のEM精度を失うような,大規模インデックスの内容をprunする簡単なアプローチを提案する。

This work presents a novel pipeline that demonstrates what is achievable with a combined effort of state-of-the-art approaches, surpassing the 50% exact match on NaturalQuestions and EfficentQA datasets. Specifically, it proposes the novel R2-D2 (Rank twice, reaD twice) pipeline composed of retriever, reranker, extractive reader, generative reader and a simple way to combine them. Furthermore, previous work often comes with a massive index of external documents that scales in the order of tens of GiB. This work presents a simple approach for pruning the contents of a massive index such that the open-domain QA system altogether with index, OS, and library components fits into 6GiB docker image while retaining only 8% of original index contents and losing only 3% EM accuracy.
翻訳日:2021-02-24 16:21:27 公開日:2021-02-21
# (参考訳) CheXseg: エキスパートアノテーションとDNN生成したSaliency Mapsを組み合わせてX線セグメンテーション

CheXseg: Combining Expert Annotations with DNN-generated Saliency Maps for X-ray Segmentation ( http://arxiv.org/abs/2102.10484v1 )

ライセンス: CC BY 4.0
Soham Gadgil, Mark Endo, Emily Wen, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 医療画像のセグメンテーションモデルは通常、ピクセルレベルで専門家のアノテーションによって監督される。 本研究では,多ラベルセマンティックセグメンテーションモデルのトレーニングのために,高品質の画素レベルのエキスパートアノテーションと粗いDNN生成サリエンシマップのスケールを組み合わせる手法を提案する。 我々はCheXsegと呼ばれる半教師付き手法のマルチラベル胸部X線解釈への応用を実演する。 CheXsegは、ピクセルレベルのエキスパートアノテーションのみを13.4%、DNN生成のサリエンシーマップのみを91.2%、完全に監視されたメソッドのパフォーマンス(mIoU)を改善する。 さらに, ナレッジ蒸留を用いた半監督法を実装し, CheXseg が優勢であるにもかかわらず, 最良完全監督法の性能 (mIoU) を4.83%上回ることがわかった。 我々の最善の方法は10の病理のうち3つについて放射線科医の合意を一致させ、全体的な性能の差を71.6%削減できる。

Medical image segmentation models are typically supervised by expert annotations at the pixel-level, which can be expensive to acquire. In this work, we propose a method that combines the high quality of pixel-level expert annotations with the scale of coarse DNN-generated saliency maps for training multi-label semantic segmentation models. We demonstrate the application of our semi-supervised method, which we call CheXseg, on multi-label chest x-ray interpretation. We find that CheXseg improves upon the performance (mIoU) of fully-supervised methods that use only pixel-level expert annotations by 13.4% and weakly-supervised methods that use only DNN-generated saliency maps by 91.2%. Furthermore, we implement a semi-supervised method using knowledge distillation and find that though it is outperformed by CheXseg, it exceeds the performance (mIoU) of the best fully-supervised method by 4.83%. Our best method is able to match radiologist agreement on three out of ten pathologies and reduces the overall performance gap by 71.6% as compared to weakly-supervised methods.
翻訳日:2021-02-24 15:33:37 公開日:2021-02-21
# (参考訳) 弱めのNAS予測器は必要なだけ

Weak NAS Predictors Are All You Need ( http://arxiv.org/abs/2102.10490v1 )

ライセンス: CC BY 4.0
Junru Wu, Xiyang Dai, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Ye Yu, Zhangyang Wang, Zicheng Liu, Mei Chen, Lu Yuan(参考訳) neural architecture search (nas)は、アーキテクチャとパフォーマンスの多様体を探索することで、最良のネットワークアーキテクチャを見つける。 しばしば多くのアーキテクチャを訓練し、評価し、膨大な計算コストを発生させる。 最近の予測器ベースのnasアプローチは、アーキテクチャとパフォーマンスのペアをサンプリングし、プロキシの精度を予測するという2つの重要なステップでこの問題を解決しようとする。 しかし、サンプルが限られているため、これらの予測器はトップアーキテクチャを見つけるにはほど遠い。 本稿では,アーキテクチャ空間全体をカバーする複雑な予測器の探索から,ハイパフォーマンスなサブ空間へと徐々に進む弱い予測器のセットへとパラダイムをシフトする。 提案する弱い予測器の鍵となる特性に基づいて、より良いアーキテクチャをサンプリングする確率が増加している。 したがって、以前に学習した予測器によって導かれたいくつかの優れたアーキテクチャをサンプリングし、新しい弱い予測器を推定する。 この粗い繰り返しにより、サンプリング空間のランク付けは徐々に洗練され、最終的には最適なアーキテクチャを見つけるのに役立つ。 NAS-Bench-101 および NAS-Bench-201 の最高性能アーキテクチャを見つけるのにサンプルのコストが少ないことを実証し、NASNet 検索空間における最先端の ImageNet 性能を実現します。 コードはhttps://github.com/VITA-Group/WeakNASで入手できます。

Neural Architecture Search (NAS) finds the best network architecture by exploring the architecture-to-performance manifold. It often trains and evaluates a large number of architectures, causing tremendous computation costs. Recent predictor-based NAS approaches attempt to solve this problem with two key steps: sampling some architecture-performance pairs and fitting a proxy accuracy predictor. Given limited samples, these predictors, however, are far from accurate to locate top architectures. In this paper, we shift the paradigm from finding a complicated predictor that covers the whole architecture space to a set of weaker predictors that progressively move towards the high-performance sub-space. It is based on the key property of the proposed weak predictors that their probabilities of sampling better architectures keep increasing. We thus only sample a few well-performed architectures guided by the previously learned predictor and estimate a new better weak predictor. By this coarse-to-fine iteration, the ranking of sampling space is refined gradually, which helps find the optimal architectures eventually. Experiments demonstrate that our method costs fewer samples to find the top-performance architectures on NAS-Bench-101 and NAS-Bench-201, and it achieves the state-of-the-art ImageNet performance on the NASNet search space. The code is available at https://github.com/VITA-Group/WeakNAS
翻訳日:2021-02-24 15:20:01 公開日:2021-02-21
# (参考訳) コンピュータ支援全スライディング画像解析の総合的レビュー:データセットから特徴抽出, セグメンテーション, 分類, 検出アプローチまで

A Comprehensive Review of Computer-aided Whole-slide Image Analysis: from Datasets to Feature Extraction, Segmentation, Classification, and Detection Approaches ( http://arxiv.org/abs/2102.10553v1 )

ライセンス: CC BY 4.0
Chen Li, Xintong Li, Md Rahaman, Xiaoyan Li, Hongzan Sun, Hong Zhang, Yong Zhang, Xiaoqi Li, Jian Wu, Yudong Yao, Marcin Grzegorzek(参考訳) コンピュータ支援診断(CAD)および画像スキャン技術の開発により、WSI(Whole-slide Image)スキャナーは病理診断の分野で広く使用されています。 したがって、wsi分析は現代のデジタル病理学の鍵となっている。 2004年以来、WSIはCADでますます使用されています。 機械ビジョン法は通常半自動または全自動コンピュータに基づいているため、高効率で省力化が可能です。 WSIとCAD技術の組み合わせにより、病理学者はより安定的で定量的な分析結果を得ることができ、労働コストを節約し、診断の客観性を向上させることができる。 本稿では,機械学習に基づくWSI分析手法について概説する。 まず、WSI および CAD メソッドの開発状況を紹介する。 次に, セグメンテーション, 分類, 検出タスクのためのWSIデータセットと評価指標について論じる。 次に、wsiセグメンテーション、分類、検出における機械学習の最新開発を継続的にレビューする。 最後に, 既存手法について検討し, 解析手法の適用性を分析し, この分野における解析手法の適用可能性を予測する。

With the development of computer-aided diagnosis (CAD) and image scanning technology, Whole-slide Image (WSI) scanners are widely used in the field of pathological diagnosis. Therefore, WSI analysis has become the key to modern digital pathology. Since 2004, WSI has been used more and more in CAD. Since machine vision methods are usually based on semi-automatic or fully automatic computers, they are highly efficient and labor-saving. The combination of WSI and CAD technologies for segmentation, classification, and detection helps histopathologists obtain more stable and quantitative analysis results, save labor costs and improve diagnosis objectivity. This paper reviews the methods of WSI analysis based on machine learning. Firstly, the development status of WSI and CAD methods are introduced. Secondly, we discuss publicly available WSI datasets and evaluation metrics for segmentation, classification, and detection tasks. Then, the latest development of machine learning in WSI segmentation, classification, and detection are reviewed continuously. Finally, the existing methods are studied, the applicabilities of the analysis methods are analyzed, and the application prospects of the analysis methods in this field are forecasted.
翻訳日:2021-02-24 14:14:50 公開日:2021-02-21
# (参考訳) 対比的自己監督型ニューラルネットワーク探索

Contrastive Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2102.10557v1 )

ライセンス: CC BY 4.0
Nam Nguyen and J. Morris Chang(参考訳) 本論文では,教師付き学習から受け継いだデータラベリングのコストを完全に軽減する,細胞ベースのニューラルアーキテクチャ探索アルゴリズム(NAS)を提案する。 本アルゴリズムは,画像表現に対する自己教師あり学習の有効性を活かし,コンピュータビジョンの重要課題となっている。 まず、対照的な自己監督学習の下でわずかのラベルなしの列車データを使用して、より広範な検索空間を検索し、計算リソースを消費することなく、より良い神経アーキテクチャを発見することができます。 第二に、評価段階でのアーキテクチャの最終性能を損なうことなく、検索段階でのラベル付きデータ(コントラスト損失)のコストを完全に軽減します。 最後に,木分割推定器 (SMBO-TPE) による逐次モデルベース最適化によりNAS問題の固有離散探索空間に取り組み,計算コスト応答面を著しく低減する。 実験により, 検索アルゴリズムは, データラベリングコスト, 探索時間, 最終的な検証精度において, より効率的な結果が得られることを示した。

This paper proposes a novel cell-based neural architecture search algorithm (NAS), which completely alleviates the expensive costs of data labeling inherited from supervised learning. Our algorithm capitalizes on the effectiveness of self-supervised learning for image representations, which is an increasingly crucial topic of computer vision. First, using only a small amount of unlabeled train data under contrastive self-supervised learning allow us to search on a more extensive search space, discovering better neural architectures without surging the computational resources. Second, we entirely relieve the cost for labeled data (by contrastive loss) in the search stage without compromising architectures' final performance in the evaluation phase. Finally, we tackle the inherent discrete search space of the NAS problem by sequential model-based optimization via the tree-parzen estimator (SMBO-TPE), enabling us to reduce the computational expense response surface significantly. An extensive number of experiments empirically show that our search algorithm can achieve state-of-the-art results with better efficiency in data labeling cost, searching time, and accuracy in final validation.
翻訳日:2021-02-24 13:38:09 公開日:2021-02-21
# (参考訳) 事前学習言語モデルを用いた自動コード生成

Automatic Code Generation using Pre-Trained Language Models ( http://arxiv.org/abs/2102.10535v1 )

ライセンス: CC BY 4.0
Luis Perez, Lizi Ottens, Sudharshan Viswanathan(参考訳) 自然言語処理の最近の進歩 \cite{gpt2} \cite{BERT} は、複数の自然言語タスクで人間に近いパフォーマンスをもたらしている。 本稿では,厳密な構文規則を持つ高度に構造化された環境に類似の手法を適用することができるかを検討する。 具体的には,事前学習された言語モデル上に構築したpython言語におけるコード生成のためのエンドツーエンド機械学習モデルを提案する。 本研究では,BLEUスコア0.22を達成し,合理的なシーケンス・ツー・シーケンスベースラインよりも46\%向上した微調整モデルが,コード生成タスクにおいて良好に動作できることを実証する。 トレーニングやデータ処理に使用されるすべての結果と関連コードはGitHubで入手できる。

Recent advancements in natural language processing \cite{gpt2} \cite{BERT} have led to near-human performance in multiple natural language tasks. In this paper, we seek to understand whether similar techniques can be applied to a highly structured environment with strict syntax rules. Specifically, we propose an end-to-end machine learning model for code generation in the Python language built on-top of pre-trained language models. We demonstrate that a fine-tuned model can perform well in code generation tasks, achieving a BLEU score of 0.22, an improvement of 46\% over a reasonable sequence-to-sequence baseline. All results and related code used for training and data processing are available on GitHub.
翻訳日:2021-02-24 13:05:58 公開日:2021-02-21
# (参考訳) 30歳で帰納論理プログラミング

Inductive logic programming at 30 ( http://arxiv.org/abs/2102.10556v1 )

ライセンス: CC BY 4.0
Andrew Cropper, Sebastijan Duman\v{c}i\'c, Richard Evans, and Stephen H. Muggleton(参考訳) インダクティブ・ロジック・プログラミング(Inductive logic programming、ILP)は、論理ベースの機械学習の一種である。 ILPの目標は、与えられたトレーニング例と背景知識を一般化する仮説(論理プログラム)を誘導することです。 ILPが30歳になると、フィールドでの最近の作業を調査します。 本調査では, (i) メタレベルの探索手法, (ii) 少数の例から一般化した再帰的プログラムの学習手法, (iii) 発明を述語する新しいアプローチ, (iv) 様々な技術, 特に解集合プログラミングとニューラルネットワークの利用に焦点を当てた。 ILPの現在の限界について論じ、今後の研究の方向性について論じる。

Inductive logic programming (ILP) is a form of logic-based machine learning. The goal of ILP is to induce a hypothesis (a logic program) that generalises given training examples and background knowledge. As ILP turns 30, we survey recent work in the field. In this survey, we focus on (i) new meta-level search methods, (ii) techniques for learning recursive programs that generalise from few examples, (iii) new approaches for predicate invention, and (iv) the use of different technologies, notably answer set programming and neural networks. We conclude by discussing some of the current limitations of ILP and discuss directions for future research.
翻訳日:2021-02-24 12:09:59 公開日:2021-02-21
# (参考訳) 深部ReLUネットワークの長所を期待する

Deep ReLU Networks Preserve Expected Length ( http://arxiv.org/abs/2102.10492v1 )

ライセンス: CC BY 4.0
Boris Hanin, Ryan Jeong, David Rolnick(参考訳) ニューラルネットワークによって計算される関数の複雑さを評価することは、ネットワークがどのように学習し一般化するかを理解するのに役立つ。 ネットワークが長さを歪める方法 - もしネットワークが単位長曲線を入力として取ると、結果の出力曲線の長さはどのくらいになるのか? この長さはネットワークの深さで指数関数的に増加すると広く信じられている。 期待される長さの歪みは深さとともに成長せず、標準のランダム初期化を持つRELUネットワークでは、実際にわずかに縮小します。 また、この結果は、長さ歪みの高次モーメントと高次元体積の歪みの両方に対して上界を証明して一般化する。 これらの理論結果は実験結果と相関しており、トレーニング後も長さの歪みは控えめなままです。

Assessing the complexity of functions computed by a neural network helps us understand how the network will learn and generalize. One natural measure of complexity is how the network distorts length -- if the network takes a unit-length curve as input, what is the length of the resulting curve of outputs? It has been widely believed that this length grows exponentially in network depth. We prove that in fact this is not the case: the expected length distortion does not grow with depth, and indeed shrinks slightly, for ReLU networks with standard random initialization. We also generalize this result by proving upper bounds both for higher moments of the length distortion and for the distortion of higher-dimensional volumes. These theoretical results are corroborated by our experiments, which indicate that length distortion remains modest even after training.
翻訳日:2021-02-24 10:46:23 公開日:2021-02-21
# (参考訳) MedAug: 患者メタデータを活用したコントラスト学習は胸部X線解釈の表現を改善する

MedAug: Contrastive learning leveraging patient metadata improves representations for chest X-ray interpretation ( http://arxiv.org/abs/2102.10663v1 )

ライセンス: CC BY 4.0
Yen Nhi Truong Vu, Richard Wang, Niranjan Balachandar, Can Liu, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 同じ画像の複数のビューのペア間の自己教師ありコントラスト学習は、ラベルのないデータを利用して、自然画像と医学画像の両方に有意義な視覚的表現を作り出すことに成功している。 しかし、患者メタデータの可用性を利用して表現を改善する医療画像のペアを選択する方法を決定する作業は限られています。 本研究では, 患者メタデータを用いて, 多分異なる画像の視点から正のペアを選択する手法を開発した。 胸部X線解釈の正の対を選択するための戦略を比較検討し, 同一患者, 画像研究, 側方性などを検討した。 胸水分類のためのラベル付きデータセットの1%にリニア層を微調整して下流タスク性能を評価する。 すべての側面で同じ研究から同じ患者からの画像を使用することを含む私たちの最高のパフォーマンスの肯定的なペア選択戦略は、それぞれ前の対照的方法とImageNet事前訓練ベースラインの両方から平均AUCで3.4%と14.4%のパフォーマンスの増加を達成します。 疾患分類における下流性能向上の鍵となるのは、(1)患者メタデータを用いて、同一の病状を持つ異なる画像から正のペアを適切に作成すること、(2)クエリーのペアリングに用いられる異なる画像の数を最大化することである。 さらに,コントラスト学習における患者メタデータの活用について検討するが,メタデータを使用しないベースラインの改善は見つからない。 本手法は医用画像解釈に広く適用でき,コントラスト学習のためのペア選択に医学的洞察を取り入れる柔軟性がある。

Self-supervised contrastive learning between pairs of multiple views of the same image has been shown to successfully leverage unlabeled data to produce meaningful visual representations for both natural and medical images. However, there has been limited work on determining how to select pairs for medical images, where availability of patient metadata can be leveraged to improve representations. In this work, we develop a method to select positive pairs coming from views of possibly different images through the use of patient metadata. We compare strategies for selecting positive pairs for chest X-ray interpretation including requiring them to be from the same patient, imaging study or laterality. We evaluate downstream task performance by fine-tuning the linear layer on 1% of the labeled dataset for pleural effusion classification. Our best performing positive pair selection strategy, which involves using images from the same patient from the same study across all lateralities, achieves a performance increase of 3.4% and 14.4% in mean AUC from both a previous contrastive method and ImageNet pretrained baseline respectively. Our controlled experiments show that the keys to improving downstream performance on disease classification are (1) using patient metadata to appropriately create positive pairs from different images with the same underlying pathologies, and (2) maximizing the number of different images used in query pairing. In addition, we explore leveraging patient metadata to select hard negative pairs for contrastive learning, but do not find improvement over baselines that do not use metadata. Our method is broadly applicable to medical image interpretation and allows flexibility for incorporating medical insights in choosing pairs for contrastive learning.
翻訳日:2021-02-24 06:13:12 公開日:2021-02-21
# (参考訳) 血管内超音波画像におけるlumenおよびmedia-adventitiaの深層学習による抽出法

A Deep Learning-based Method to Extract Lumen and Media-Adventitia in Intravascular Ultrasound Images ( http://arxiv.org/abs/2102.10480v1 )

ライセンス: CC BY 4.0
Fubao Zhu, Zhengyuan Gao, Chen Zhao, Hanlei Zhu, Yong Dong, Jingfeng Jiang, Neng Dai, Weihua Zhou(参考訳) 血管内超音波検査(IVUS)は冠動脈壁の直接の可視化を可能にし,動脈硬化の評価と狭窄度に適している。 このような臨床評価には、IVUSのルーメンと中性アドベンチア(MA)の正確なセグメンテーションと測定が不可欠です。 しかし、現在のセグメンテーションは、時間とユーザ依存のマニュアル操作に依存している。 本稿では,lumen と ma の境界を自動抽出するエンコーダ・デコーダ深層アーキテクチャを用いた深層学習に基づく手法を提案する。 IVUS-U-Net++というメソッドは、よく知られたU-Net++モデルの拡張です。 より具体的には、U-Net++モデルに機能ピラミッドネットワークが追加され、さまざまなスケールで機能マップの利用が可能になった。 その結果、確率マップの精度とその後のセグメンテーションが改善されました。この研究では18人の患者から1746個のIVUS画像を集めました。 データセット全体を10倍のクロスバリデーションのためのトレーニングデータセット(1572イメージ)と、モデルのパフォーマンスを評価するテストデータセット(174イメージ)に分割した。 我々のivus-u-net++セグメンテーションモデルは、jaccard測度 (jm) が 0.9412、ハウスドルフ距離 (hd) が 0.0639 mm、jmが 0.9509、それぞれma境界が 0.0867 mmであった。 また,Pearson相関とBland-Altman相関解析により,セグメント化結果から測定した12の臨床パラメータと地上真理との相関性を評価し,地上真理(全Ps<0.01)と自動測定が一致した。 以上の結果から,提案したIVUS-U-Net++モデルが臨床応用に大いに期待できることが示唆された。

Intravascular ultrasound (IVUS) imaging allows direct visualization of the coronary vessel wall and is suitable for the assessment of atherosclerosis and the degree of stenosis. Accurate segmentation and measurements of lumen and median-adventitia (MA) from IVUS are essential for such a successful clinical evaluation. However, current segmentation relies on manual operations, which is time-consuming and user-dependent. In this paper, we aim to develop a deep learning-based method using an encoder-decoder deep architecture to automatically extract both lumen and MA border. Our method named IVUS-U-Net++ is an extension of the well-known U-Net++ model. More specifically, a feature pyramid network was added to the U-Net++ model, enabling the utilization of feature maps at different scales. As a result, the accuracy of the probability map and subsequent segmentation have been improved We collected 1746 IVUS images from 18 patients in this study. The whole dataset was split into a training dataset (1572 images) for the 10-fold cross-validation and a test dataset (174 images) for evaluating the performance of models. Our IVUS-U-Net++ segmentation model achieved a Jaccard measure (JM) of 0.9412, a Hausdorff distance (HD) of 0.0639 mm for the lumen border, and a JM of 0.9509, an HD of 0.0867 mm for the MA border, respectively. Moreover, the Pearson correlation and Bland-Altman analyses were performed to evaluate the correlations of 12 clinical parameters measured from our segmentation results and the ground truth, and automatic measurements agreed well with those from the ground truth (all Ps<0.01). In conclusion, our preliminary results demonstrate that the proposed IVUS-U-Net++ model has great promise for clinical use.
翻訳日:2021-02-24 03:38:13 公開日:2021-02-21
# (参考訳) 発達障害児に対するAIによる行動分析 : 精密治療に向けて

AI-Augmented Behavior Analysis for Children with Developmental Disabilities: Building Towards Precision Treatment ( http://arxiv.org/abs/2102.10635v1 )

ライセンス: CC BY 4.0
Shadi Ghafghazi, Amarie Carnett, Leslie Neely, Arun Das, Paul Rad(参考訳) 自閉症スペクトラム障害は、社会的、コミュニケーション的、行動的課題を特徴とする発達障害である。 自閉症、知的障害、発達障害(auidd)と診断される個人は通常、長期のケアと治療と教育を必要とする。 AUIDDの効果的な治療は、訓練された応用行動分析者(ABA)が行う効率的で慎重な行動観察に依存している。 しかし、このプロセスは、臨床医にデータの収集と分析、問題行動の特定、分類的結果の分類と予測のためのパターン分析の実行、治療に対する応答性の仮説化、治療計画の効果の検出など、ABAを過大評価する。 臨床意思決定パイプラインへのデジタル技術の統合と人工知能(AI)アルゴリズムによる自動意思決定の進歩は、新しいアルゴリズムと高忠実度センサーを使用して教育と治療を強化することの重要性を強調しています。 本稿では、AI-Augmented Learning and Applied Behavior Analytics(AI-ABA)プラットフォームを紹介し、AUIDD個人に対してパーソナライズされた治療と学習計画を提供する。 自動データ収集と分析とともに体系的な実験を定義することで、AI-ABAは強化ベースの拡張現実や仮想現実やその他のモバイルプラットフォームを使用した自己規制行動を促進することができる。 これにより、AI-ABAは、臨床医が正確なデータ駆動意思決定に集中し、AUIDDの個人に対する個別の介入の質を高めることができる。

Autism spectrum disorder is a developmental disorder characterized by significant social, communication, and behavioral challenges. Individuals diagnosed with autism, intellectual, and developmental disabilities (AUIDD) typically require long-term care and targeted treatment and teaching. Effective treatment of AUIDD relies on efficient and careful behavioral observations done by trained applied behavioral analysts (ABAs). However, this process overburdens ABAs by requiring the clinicians to collect and analyze data, identify the problem behaviors, conduct pattern analysis to categorize and predict categorical outcomes, hypothesize responsiveness to treatments, and detect the effects of treatment plans. Successful integration of digital technologies into clinical decision-making pipelines and the advancements in automated decision-making using Artificial Intelligence (AI) algorithms highlights the importance of augmenting teaching and treatments using novel algorithms and high-fidelity sensors. In this article, we present an AI-Augmented Learning and Applied Behavior Analytics (AI-ABA) platform to provide personalized treatment and learning plans to AUIDD individuals. By defining systematic experiments along with automated data collection and analysis, AI-ABA can promote self-regulative behavior using reinforcement-based augmented or virtual reality and other mobile platforms. Thus, AI-ABA could assist clinicians to focus on making precise data-driven decisions and increase the quality of individualized interventions for individuals with AUIDD.
翻訳日:2021-02-23 20:36:55 公開日:2021-02-21
# (参考訳) 深層強化学習の高速化:人間プレイヤーからの衝突回避学習

Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision Avoidance from Human Player ( http://arxiv.org/abs/2102.10711v1 )

ライセンス: CC BY 4.0
Hanlin Niu, Ze Ji, Farshad Arvin, Barry Lennox, Hujun Yin, and Joaquin Carrasco(参考訳) 本稿では,センサレベルのマップレス衝突回避アルゴリズムを提案する。このアルゴリズムは,センサデータを線形および角速度にマッピングし,地図のない未知環境をナビゲートする移動ロボットである。 ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。 ゲームフォーマットシミュレーションフレームワークは、人間が移動ロボットを目標に遠隔操作できるように設計され、報酬関数を用いて人間のアクションもスコアされる。 人間のプレイヤーデータと自己再生データは、優先された体験再生アルゴリズムを用いてサンプリングされる。 提案手法と学習戦略は,シミュレーション環境である \textit{environment 1} とシミュレーション廊下環境である \textit{environment 2} の2つの異なる実験構成で評価し,その性能について検討した。 提案手法は,環境1および環境2の20\%において,標準的Deep Deterministic Policy Gradient (DDPG)法が要求するトレーニングステップの16\%のみを用いて,同じレベルの報酬を得ていることを示した。 20回のランダムミッションの評価において,提案手法はガゼボの2つの環境において,訓練時間の2~h未満と2.5~h未満で衝突することはなかった。 また、DDPGよりもスムーズな軌道も生成した。 提案手法は実環境における実ロボットにも実装され,性能評価を行った。 シミュレーションソフトウェアを用いてトレーニングしたモデルは,さらに微調整することなく実世界のシナリオに直接適用可能であることを確認でき,DDPGよりも高い堅牢性を示すことができる。 https://youtu.be/BmwxevgsdGc https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance

This paper presents a sensor-level mapless collision avoidance algorithm for use in mobile robots that map raw sensor data to linear and angular velocities and navigate in an unknown environment without a map. An efficient training strategy is proposed to allow a robot to learn from both human experience data and self-exploratory data. A game format simulation framework is designed to allow the human player to tele-operate the mobile robot to a goal and human action is also scored using the reward function. Both human player data and self-playing data are sampled using prioritized experience replay algorithm. The proposed algorithm and training strategy have been evaluated in two different experimental configurations: \textit{Environment 1}, a simulated cluttered environment, and \textit{Environment 2}, a simulated corridor environment, to investigate the performance. It was demonstrated that the proposed method achieved the same level of reward using only 16\% of the training steps required by the standard Deep Deterministic Policy Gradient (DDPG) method in Environment 1 and 20\% of that in Environment 2. In the evaluation of 20 random missions, the proposed method achieved no collision in less than 2~h and 2.5~h of training time in the two Gazebo environments respectively. The method also generated smoother trajectories than DDPG. The proposed method has also been implemented on a real robot in the real-world environment for performance evaluation. We can confirm that the trained model with the simulation software can be directly applied into the real-world scenario without further fine-tuning, further demonstrating its higher robustness than DDPG. The video and code are available: https://youtu.be/BmwxevgsdGc https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance
翻訳日:2021-02-23 20:23:58 公開日:2021-02-21
# (参考訳) Mastering Terra Mystica: マルチエージェント協調ボードゲームに自己再生を適用する

Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative Board Games ( http://arxiv.org/abs/2102.10540v1 )

ライセンス: CC BY 4.0
Luis Perez(参考訳) 本稿では,terra mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索・比較し,以下tmと略す。 これまでAIを用いたスーパーヒューマンゲームプレイの分野では、Go、Chess、Shogi \cite{AlphaZero}などのゲームにおけるジェネリックアルゴリズムのブレークスルーが有効であることが証明されています。 われわれはこれらのブレークスルーを直接、人間のプレイヤーと競合するAIを作成することを目的として、TMの新たな国家表現に適用する。 具体的には,この状態表現にalphazeroを適用する最初の結果を示し,その戦略を分析する。 簡単な分析がなされた。 我々はこの修正アルゴリズムを新しい状態表現型アルファtmと呼ぶ。 最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。 この論文で使用されるすべてのコードは、 \href{https://github.com/kandluis/terrazero}{GitHub} で入手できる。

In this paper, we explore and compare multiple algorithms for solving the complex strategy game of Terra Mystica, hereafter abbreviated as TM. Previous work in the area of super-human game-play using AI has proven effective, with recent break-through for generic algorithms in games such as Go, Chess, and Shogi \cite{AlphaZero}. We directly apply these breakthroughs to a novel state-representation of TM with the goal of creating an AI that will rival human players. Specifically, we present the initial results of applying AlphaZero to this state-representation and analyze the strategies developed. A brief analysis is presented. We call this modified algorithm with our novel state-representation AlphaTM. In the end, we discuss the success and shortcomings of this method by comparing against multiple baselines and typical human scores. All code used for this paper is available at on \href{https://github.com/kandluis/terrazero}{GitHub}.
翻訳日:2021-02-23 19:07:40 公開日:2021-02-21
# (参考訳) 画像処理のための深分解ネットワーク:可視・赤外画像融合の事例研究

A Deep Decomposition Network for Image Processing: A Case Study for Visible and Infrared Image Fusion ( http://arxiv.org/abs/2102.10526v1 )

ライセンス: CC0 1.0
Yu Fu, Xiao-Jun Wu, Josef Kittler(参考訳) 画像分解は画像処理分野において重要な課題である。 ソース画像から有能な特徴を抽出することができる。 本稿では畳み込みニューラルネットワークに基づく新しい画像分解法を提案する。 この方法は、多くの画像処理タスクに適用できる。 本稿では,画像分解ネットワークを画像融合タスクに適用する。 赤外線画像と可視光画像を入力し、それぞれ3つの高周波特徴画像と低周波特徴画像に分解する。 2つの特徴画像セットは、特定の融合戦略を用いて融合特徴画像を取得する。 最後に、特徴画像を再構成して融合画像を得る。 現状の融合法と比較すると,本手法は主観的評価と客観的評価の両方において優れた性能を示した。

Image decomposition is a crucial subject in the field of image processing. It can extract salient features from the source image. We propose a new image decomposition method based on convolutional neural network. This method can be applied to many image processing tasks. In this paper, we apply the image decomposition network to the image fusion task. We input infrared image and visible light image and decompose them into three high-frequency feature images and a low-frequency feature image respectively. The two sets of feature images are fused using a specific fusion strategy to obtain fusion feature images. Finally, the feature images are reconstructed to obtain the fused image. Compared with the state-of-the-art fusion methods, this method has achieved better performance in both subjective and objective evaluation.
翻訳日:2021-02-23 18:29:30 公開日:2021-02-21
# (参考訳) Kuka LBR iiwaロボットを用いた3Dビジョン誘導ピックアンドプレイス

3D Vision-guided Pick-and-Place Using Kuka LBR iiwa Robot ( http://arxiv.org/abs/2102.10710v1 )

ライセンス: CC BY 4.0
Hanlin Niu, Ze Ji, Zihang Zhu, Hujun Yin, and Joaquin Carrasco(参考訳) 本論文では,3Dカメラを搭載したロボットアームを用いた視覚誘導ピック・アンド・プレースタスク制御システムの開発について述べる。 主なステップには、カメラの本質的および外部的なキャリブレーション、手目キャリブレーション、初期オブジェクトポーズ登録、オブジェクトポーズアライメントアルゴリズム、ピック&プレース実行が含まれます。 提案システムにより,ロボットは新しいオブジェクトを登録する時間に制限のあるオブジェクトを選択・配置することができ,開発したソフトウェアを新たなオブジェクトシナリオに迅速に適用することができる。 この統合システムは、kuka iiwaとrobotiq gripper(2本の指グリッパーと3本の指グリッパー)と3dカメラ(intel realsense d415カメラ、intel realsense d435カメラ、microsoft kinect v2)のハードウェアの組み合わせでテストされた。 システム全体は、他のロボットアーム、グリッパー、および3dカメラの組み合わせのためにも変更できる。

This paper presents the development of a control system for vision-guided pick-and-place tasks using a robot arm equipped with a 3D camera. The main steps include camera intrinsic and extrinsic calibration, hand-eye calibration, initial object pose registration, objects pose alignment algorithm, and pick-and-place execution. The proposed system allows the robot be able to to pick and place object with limited times of registering a new object and the developed software can be applied for new object scenario quickly. The integrated system was tested using the hardware combination of kuka iiwa, Robotiq grippers (two finger gripper and three finger gripper) and 3D cameras (Intel realsense D415 camera, Intel realsense D435 camera, Microsoft Kinect V2). The whole system can also be modified for the combination of other robotic arm, gripper and 3D camera.
翻訳日:2021-02-23 18:11:31 公開日:2021-02-21
# (参考訳) 科学的発見のための記号回帰:風速予測への応用

Symbolic regression for scientific discovery: an application to wind speed forecasting ( http://arxiv.org/abs/2102.10570v1 )

ライセンス: CC BY-SA 4.0
Ismail Alaoui Abdellaoui and Siamak Mehrkanoon(参考訳) 記号回帰は、データから解析方程式を明らかにするための一連の手法に対応する。 閉じた形式式を通じて、これらの技術は、新しい法則の潜在的な科学的発見、説明可能性、特徴工学、高速推論などの大きな利点を提供します。 同様に、ディープラーニングベースの技術は複雑なパターンをモデリングする素晴らしい能力を示している。 本論文は,最近のエンドツーエンドのシンボリック回帰手法の適用を目的とする。 風速予測のための分析式を得るために、方程式学習者(EQL)。 短時間の地平線予測に対して,少数の特徴量のみを用いて合理的な精度が得られる解析式を導出できることを示す。

Symbolic regression corresponds to an ensemble of techniques that allow to uncover an analytical equation from data. Through a closed form formula, these techniques provide great advantages such as potential scientific discovery of new laws, as well as explainability, feature engineering as well as fast inference. Similarly, deep learning based techniques has shown an extraordinary ability of modeling complex patterns. The present paper aims at applying a recent end-to-end symbolic regression technique, i.e. the equation learner (EQL), to get an analytical equation for wind speed forecasting. We show that it is possible to derive an analytical equation that can achieve reasonable accuracy for short term horizons predictions only using few number of features.
翻訳日:2021-02-23 16:07:00 公開日:2021-02-21
# 大規模ブラックボックス最適化のためのゼロオーダーブロックコーディネートディサントアルゴリズム

A Zeroth-Order Block Coordinate Descent Algorithm for Huge-Scale Black-Box Optimization ( http://arxiv.org/abs/2102.10707v1 )

ライセンス: Link先を確認
HanQin Cai, Yuchen Lou, Daniel McKenzie, Wotao Yin(参考訳) 問題の大きさがあまりに大きいため,決定変数に対する基本ベクトル演算さえも実現不可能な,大規模環境におけるゼロ階最適化問題を考える。 本稿では,総問合せ複雑性が良好で,文単位の計算複雑性がはるかに小さいzo-bcdという新しいアルゴリズムを提案する。 さらに,循環式測定行列を巧みに利用することで,zo-bcdのメモリフットプリントをさらに削減できることを示す。 本手法の適用例として,ウェーブレット領域におけるニューラルネットワークに基づく分類器に対する敵攻撃を作れば,問題次元が170万を超える可能性がある。 特に、ウェーブレット領域における音声分類器の対角的例を作成することで、最先端の攻撃成功率97.9%を達成できることを示す。

We consider the zeroth-order optimization problem in the huge-scale setting, where the dimension of the problem is so large that performing even basic vector operations on the decision variables is infeasible. In this paper, we propose a novel algorithm, coined ZO-BCD, that exhibits favorable overall query complexity and has a much smaller per-iteration computational complexity. In addition, we discuss how the memory footprint of ZO-BCD can be reduced even further by the clever use of circulant measurement matrices. As an application of our new method, we propose the idea of crafting adversarial attacks on neural network based classifiers in a wavelet domain, which can result in problem dimensions of over 1.7 million. In particular, we show that crafting adversarial examples to audio classifiers in a wavelet domain can achieve the state-of-the-art attack success rate of 97.9%.
翻訳日:2021-02-23 15:27:10 公開日:2021-02-21
# 生成モデルは絡み合いを知っているか? コントラスト学習は必要なだけ

Do Generative Models Know Disentanglement? Contrastive Learning is All You Need ( http://arxiv.org/abs/2102.10543v1 )

ライセンス: Link先を確認
Xuanchi Ren, Tao Yang, Yuwang Wang, Wenjun Zeng(参考訳) 不連続生成モデルは典型的には余分な正規化項で訓練されるが、これは各潜在因子が世代品質のコストで個別で独立した変化を起こすことを奨励する。 離散項なしで訓練された生成モデルの潜在空間を横断するとき、生成されたサンプルは意味的に意味のある変化を示し、疑問を提起する。 本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。 ディスコは、 (i) 潜在空間で横断方向を提供するナビゲータと、 (ii) 2つの共有重みエンコーダからなる$\delta$-contrastorと、これらの方向に沿って画像ペアをそれぞれ不等角表現にエンコードし、エンコードされた表現を変分空間にマッピングする差分演算子からなる。 エントロピーに基づくエンコード表現をよりアンタングルにするための支配損失と、同じ意味を持つ方向に対応するためにハードネガティブを反転させる戦略の2つの重要な手法を提案する。 DisCoは、ナビゲーターを最適化して潜時空間の偏角方向を発見し、エンコーダはコントラスト学習で画像から偏角表現を抽出し、GAN、VAE、フローを含む事前訓練された非偏角生成モデルに与えられた最先端の離角化を実現します。 Project page at https://github.com/xrenaa/DisCo.com

Disentangled generative models are typically trained with an extra regularization term, which encourages the traversal of each latent factor to make a distinct and independent change at the cost of generation quality. When traversing the latent space of generative models trained without the disentanglement term, the generated samples show semantically meaningful change, raising the question: do generative models know disentanglement? We propose an unsupervised and model-agnostic method: Disentanglement via Contrast (DisCo) in the Variation Space. DisCo consists of: (i) a Navigator providing traversal directions in the latent space, and (ii) a $\Delta$-Contrastor composed of two shared-weight Encoders, which encode image pairs along these directions to disentangled representations respectively, and a difference operator to map the encoded representations to the Variation Space. We propose two more key techniques for DisCo: entropy-based domination loss to make the encoded representations more disentangled and the strategy of flipping hard negatives to address directions with the same semantic meaning. By optimizing the Navigator to discover disentangled directions in the latent space and Encoders to extract disentangled representations from images with Contrastive Learning, DisCo achieves the state-of-the-art disentanglement given pretrained non-disentangled generative models, including GAN, VAE, and Flow. Project page at https://github.com/xrenaa/DisCo.
翻訳日:2021-02-23 15:25:40 公開日:2021-02-21
# コンテンツとスタイルを再考する: 教師なしの絡み合いのバイアスを探る

Rethinking Content and Style: Exploring Bias for Unsupervised Disentanglement ( http://arxiv.org/abs/2102.10544v1 )

ライセンス: Link先を確認
Xuanchi Ren, Tao Yang, Yuwang Wang, Wenjun Zeng(参考訳) content and style (c-s) disentanglementはオブジェクトの基本的な説明要素を2つの独立した部分空間に分解することを目的としている。 教師なしのアンサンブルの観点から、コンテンツとスタイルを再考し、データバイアスとして機能する画像再構築に異なる要因が重要であると仮定して、教師なしのC-Sアンサングル化の定式化を提案します。 実データ分布を近似する際,C-Sディコンタングルメントモジュール(C-S DisMo)により,対応するモデル帰納的バイアスを導入し,異なる役割と独立な役割をコンテンツやスタイルに割り当てる。 具体的には、画像再構築の最も支配的な要因をエンコードするデータセットから埋め込まれた各コンテンツは、データセット全体の共有分布からサンプリングされるものと仮定される。 アフィン変換によって共有分布をカスタマイズするために、残りの因子を符号化する特定の画像に対するスタイル埋め込みが使用される。 いくつかのポピュラーデータセットの実験では、この方法が最先端の監視されていないC-Sの非絡み合いを達成していることが示されています。 提案手法の有効性を,ドメイン翻訳と単一ビュー3D再構成という下流タスクで検証する。 Project page at https://github.com/xrenaa/CS-DisMo

Content and style (C-S) disentanglement intends to decompose the underlying explanatory factors of objects into two independent subspaces. From the unsupervised disentanglement perspective, we rethink content and style and propose a formulation for unsupervised C-S disentanglement based on our assumption that different factors are of different importance and popularity for image reconstruction, which serves as a data bias. The corresponding model inductive bias is introduced by our proposed C-S disentanglement Module (C-S DisMo), which assigns different and independent roles to content and style when approximating the real data distributions. Specifically, each content embedding from the dataset, which encodes the most dominant factors for image reconstruction, is assumed to be sampled from a shared distribution across the dataset. The style embedding for a particular image, encoding the remaining factors, is used to customize the shared distribution through an affine transformation. The experiments on several popular datasets demonstrate that our method achieves the state-of-the-art unsupervised C-S disentanglement, which is comparable or even better than supervised methods. We verify the effectiveness of our method by downstream tasks: domain translation and single-view 3D reconstruction. Project page at https://github.com/xrenaa/CS-DisMo.
翻訳日:2021-02-23 15:24:54 公開日:2021-02-21
# IndoBERTを用いたインドネシアのクリックベイト見出し検出のためのWebベースアプリケーション

Web-based Application for Detecting Indonesian Clickbait Headlines using IndoBERT ( http://arxiv.org/abs/2102.10601v1 )

ライセンス: Link先を確認
Muhammad Noor Fakhruzzaman, Sie Wildan Gunawan(参考訳) インドネシアのオンラインニュースでクリックベイトの使用が増加すると、ニュース価値の高い記事がクリックベイティニュースに埋もれてしまうことがあります。 このようなクリックベイトを検出するには、信頼性と軽量なツールが必要です。 最先端の自然言語処理モデルBERTを活用し、RESTful APIベースのアプリケーションを開発する。 この研究では、クラウドサーバー上でモデルをトレーニングするために必要なコンピューティングリソースをオフロードし、クライアント側アプリケーションはAPIにリクエストを送信するだけで、クラウドサーバーは残りの処理を行います。 IndoBERTを言語モデルとして,インドネシアのクリックベイトを検出するWebアプリケーションの設計と開発を行った。 アプリケーションの使用状況が議論され、平均ROC-AUCの89%のパフォーマンスで一般公開されています。

With increasing usage of clickbaits in Indonesian Online News, newsworthy articles sometimes get buried among clickbaity news. A reliable and lightweight tool is needed to detect such clickbaits on-the-go. Leveraging state-of-the-art natural language processing model BERT, a RESTful API based application is developed. This study offloaded the computing resources needed to train the model on the cloud server, while the client-side application only needs to send a request to the API and the cloud server will handle the rest. This study proposed the design and developed a web-based application to detect clickbait in Indonesian using IndoBERT as a language model. The application usage is discussed and available for public use with a performance of mean ROC-AUC of 89%.
翻訳日:2021-02-23 15:23:14 公開日:2021-02-21
# アラビア語のツイートに関する事前トレーニングBERT:実践的考察

Pre-Training BERT on Arabic Tweets: Practical Considerations ( http://arxiv.org/abs/2102.10684v1 )

ライセンス: Link先を確認
Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish and Younes Samih(参考訳) 下流NLPタスクのためのトランスフォーマー(BERT)からの双方向エンコーダ表現の事前トレーニングは、非トリバルタスクです。 トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。 すべてアラビア方言とソーシャルメディアをサポートすることを意図している。 実験では、データ多様性の集中性と言語的に認識されたセグメンテーションの有効性を強調した。 また、より多くのデータやトレーニングステップがよりよいモデルを必要としないことも強調している。 私達の新しいモデルは複数の下流のタスクで新しい最先端の結果を達成します。 得られたモデルはQARiBという名前でコミュニティにリリースされている。

Pretraining Bidirectional Encoder Representations from Transformers (BERT) for downstream NLP tasks is a non-trival task. We pretrained 5 BERT models that differ in the size of their training sets, mixture of formal and informal Arabic, and linguistic preprocessing. All are intended to support Arabic dialects and social media. The experiments highlight the centrality of data diversity and the efficacy of linguistically aware segmentation. They also highlight that more data or more training step do not necessitate better models. Our new models achieve new state-of-the-art results on several downstream tasks. The resulting models are released to the community under the name QARiB.
翻訳日:2021-02-23 15:23:03 公開日:2021-02-21
# 画像データに基づく条件付き生成逆ニューラルネットワークのスケーラブルバランストレーニング

Scalable Balanced Training of Conditional Generative Adversarial Neural Networks on Image Data ( http://arxiv.org/abs/2102.10485v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Vittorio Gabbi, Junqi Yin, Simona Perotto, Nouamane Laanait(参考訳) 本稿では,DC-CGANモデル(Deep Convolutional Generative Adversarial Neural Network)を学習するための分散アプローチを提案する。 本手法は,データラベルに従ってトレーニングデータを分割することで,ジェネレータと判別器間の不均衡を低減し,複数のジェネレータが同時にトレーニングされる並列トレーニングを実行し,それぞれが単一のデータラベルに焦点を当てたスケーラビリティを向上させる。 MNIST, CIFAR10, CIFAR100, ImageNet1kデータセットのインセプションスコアと画質の評価を行い、DC-CGANのトレーニングにおける最先端技術と比較して大幅に改善した。 olcf supercomputer summitでは、最大1000プロセスと2000のnvidia v100 gpuを使用して、4つのデータセットすべてで弱いスケーリングを実現している。

We propose a distributed approach to train deep convolutional generative adversarial neural network (DC-CGANs) models. Our method reduces the imbalance between generator and discriminator by partitioning the training data according to data labels, and enhances scalability by performing a parallel training where multiple generators are concurrently trained, each one of them focusing on a single data label. Performance is assessed in terms of inception score and image quality on MNIST, CIFAR10, CIFAR100, and ImageNet1k datasets, showing a significant improvement in comparison to state-of-the-art techniques to training DC-CGANs. Weak scaling is attained on all the four datasets using up to 1,000 processes and 2,000 NVIDIA V100 GPUs on the OLCF supercomputer Summit.
翻訳日:2021-02-23 15:22:10 公開日:2021-02-21
# 回路による期待核のトラクタブル計算

Tractable Computation of Expected Kernels by Circuits ( http://arxiv.org/abs/2102.10562v1 )

ライセンス: Link先を確認
Wenzhe Li, Zhe Zeng, Antonio Vergari, Guy Van den Broeck(参考訳) あるカーネル関数の期待値の計算は、古典的サポートベクターマシンの理論から、確率的モデリング、統計的推論、カジュアルな発見、ディープラーニングまで幅広い応用における分布のカーネル埋め込みの活用まで、機械学習においてユビキタスである。 これらすべてのシナリオにおいて、カーネルの期待は一般に難解であるため、モンテカルロの推定に頼りがちである。 本研究では, 確率的回路表現の最近の進歩を活かして, 期待カーネルを正確かつ効率的に計算できる条件を特徴付ける。 まず、カーネルの回路表現を構築し、そのようなトラクタブル計算へのアプローチを提案する。 次に, 1 つの難解なシナリオ,1) カーネルサポートベクターレグレッセプタによるデータ不足の推論,2) 崩壊したブラックボックス重要サンプリングスキームの考案,の2つの難解なシナリオの新たなアルゴリズムを導出することにより,カーネル埋め込みフレームワークの進歩を実証する。 最後に、両アルゴリズムを実証的に評価し、様々なデータセットの標準ベースラインを上回っていることを示す。

Computing the expectation of some kernel function is ubiquitous in machine learning, from the classical theory of support vector machines, to exploiting kernel embeddings of distributions in applications ranging from probabilistic modeling, statistical inference, casual discovery, and deep learning. In all these scenarios, we tend to resort to Monte Carlo estimates as expectations of kernels are intractable in general. In this work, we characterize the conditions under which we can compute expected kernels exactly and efficiently, by leveraging recent advances in probabilistic circuit representations. We first construct a circuit representation for kernels and propose an approach to such tractable computation. We then demonstrate possible advancements for kernel embedding frameworks by exploiting tractable expected kernels to derive new algorithms for two challenging scenarios: 1) reasoning under missing data with kernel support vector regressors; 2) devising a collapsed black-box importance sampling scheme. Finally, we empirically evaluate both algorithms and show that they outperform standard baselines on a variety of datasets.
翻訳日:2021-02-23 15:19:02 公開日:2021-02-21
# 領域不変性に対応する形状の深層的特徴の学習

Learning Deep Features for Shape Correspondence with Domain Invariance ( http://arxiv.org/abs/2102.10493v1 )

ライセンス: Link先を確認
Praful Agrawal, Ross T. Whitaker, Shireen Y. Elhabian(参考訳) 対応に基づく形状モデルは、解剖学の統計解析に依存する様々な医学的イメージング応用の鍵となる。 このような形状モデルは、集団固有の形状統計のための集団全体の一貫した解剖学的特徴を表すことが期待されている。 対応配置の初期のアプローチは、より単純な解剖学の近くの探索に依存している。 形状対応の座標変換は、増大する解剖学的複雑性に対処することを約束する。 それにもかかわらず、固有の形状レベルの幾何学的複雑性と人口レベルの形状変化のため、座標的対応はしばしば解剖学的対応に変換されない。 対応配置に対する別のグループ的なアプローチは、幾何学的記述と人口の統計コンパクト性の間のトレードオフを明示的にモデル化する。 しかし、これらのモデルは非線形形状対応の解決に限定的に成功している。 近年の研究では、位置データを高次元の特徴空間に引き上げることで、アプリケーション固有の対応の概念を採用することで、この制限に対処している。 しかし、彼らはドメイン固有の機能と一貫したランドマークを作成するために手動の専門知識に大きく依存しています。 本論文では, 深層畳み込みニューラルネットワークを用いて, 形状アンサンブルから対応しやすい特徴を抽出する, 自動機能学習手法を提案する。 さらに,事前学習された幾何学的特徴を新たな解剖学で補強するために,教師なし領域適応スキームを導入する。 ヒト肩甲骨,大腿骨骨,骨盤骨の解剖学的データセットの結果,教師付きファッションで学習した特徴は,手動による特徴と比較すると,対応推定のパフォーマンスが向上したことを示している。 さらに、教師なし学習は、より単純な解剖学的に学習した特徴から教師付きドメイン適応を用いて複雑な解剖学的特徴を学習する。

Correspondence-based shape models are key to various medical imaging applications that rely on a statistical analysis of anatomies. Such shape models are expected to represent consistent anatomical features across the population for population-specific shape statistics. Early approaches for correspondence placement rely on nearest neighbor search for simpler anatomies. Coordinate transformations for shape correspondence hold promise to address the increasing anatomical complexities. Nonetheless, due to the inherent shape-level geometric complexity and population-level shape variation, the coordinate-wise correspondence often does not translate to the anatomical correspondence. An alternative, group-wise approach for correspondence placement explicitly models the trade-off between geometric description and the population's statistical compactness. However, these models achieve limited success in resolving nonlinear shape correspondence. Recent works have addressed this limitation by adopting an application-specific notion of correspondence through lifting positional data to a higher dimensional feature space. However, they heavily rely on manual expertise to create domain-specific features and consistent landmarks. This paper proposes an automated feature learning approach, using deep convolutional neural networks to extract correspondence-friendly features from shape ensembles. Further, an unsupervised domain adaptation scheme is introduced to augment the pretrained geometric features with new anatomies. Results on anatomical datasets of human scapula, femur, and pelvis bones demonstrate that features learned in supervised fashion show improved performance for correspondence estimation compared to the manual features. Further, unsupervised learning is demonstrated to learn complex anatomy features using the supervised domain adaptation from features learned on simpler anatomy.
翻訳日:2021-02-23 15:13:17 公開日:2021-02-21
# 画像分布とタスクが対比ロバスト性に及ぼす影響

The Effects of Image Distribution and Task on Adversarial Robustness ( http://arxiv.org/abs/2102.10534v1 )

ライセンス: Link先を確認
Owen Kunhardt, Arturo Deza, Tomaso Poggio(参考訳) 本稿では,曲線(AUC)測定値の下の領域に適応して,初期$\epsilon=-interval $[\epsilon_0, \epsilon_1]$(逆摂動強度のインターバル)のモデルに対して,初期$\epsilon_0$のパフォーマンスが異なる場合に,モデル間の非バイアスな比較を容易にする。 これは、異なる画像分布やタスク(または他の変数)に対して、逆向きにモデルがどの程度頑健であるかを判断したり、モデルが他のモデルに対してどの程度頑健であるかを測定するのに使うことができる。 We used this adversarial robustness metric on models of an MNIST, CIFAR-10, and a Fusion dataset (CIFAR-10 + MNIST) where trained models performed either a digit or object recognition task using a LeNet, ResNet50, or a fully connected network (FullyConnectedNet) architecture and found the following: 1) CIFAR-10 models are inherently less adversarially robust than MNIST models; 2) Both the image distribution and task that a model is trained on can affect the adversarial robustness of the resultant model. 3)異なる画像分布とタスクの事前学習は、その画像分布と結果モデルにおけるタスクによって引き起こされる敵の頑健さを乗り越えることがあるが、この結果は、異なる画像統計やタスク(主にオブジェクト対数字)に暴露されることから、ある知覚システムの学習された表現空間を他に比べて非自明に区別することを意味する。 さらに、モデルシステムが同じレベルのパフォーマンスを持つように等しい場合、または融合画像のほぼ一致した画像統計にさらされた場合でも、これらの結果は保持されますが、異なるタスク。

In this paper, we propose an adaptation to the area under the curve (AUC) metric to measure the adversarial robustness of a model over a particular $\epsilon$-interval $[\epsilon_0, \epsilon_1]$ (interval of adversarial perturbation strengths) that facilitates unbiased comparisons across models when they have different initial $\epsilon_0$ performance. This can be used to determine how adversarially robust a model is to different image distributions or task (or some other variable); and/or to measure how robust a model is comparatively to other models. We used this adversarial robustness metric on models of an MNIST, CIFAR-10, and a Fusion dataset (CIFAR-10 + MNIST) where trained models performed either a digit or object recognition task using a LeNet, ResNet50, or a fully connected network (FullyConnectedNet) architecture and found the following: 1) CIFAR-10 models are inherently less adversarially robust than MNIST models; 2) Both the image distribution and task that a model is trained on can affect the adversarial robustness of the resultant model. 3) Pretraining with a different image distribution and task sometimes carries over the adversarial robustness induced by that image distribution and task in the resultant model; Collectively, our results imply non-trivial differences of the learned representation space of one perceptual system over another given its exposure to different image statistics or tasks (mainly objects vs digits). Moreover, these results hold even when model systems are equalized to have the same level of performance, or when exposed to approximately matched image statistics of fusion images but with different tasks.
翻訳日:2021-02-23 15:12:53 公開日:2021-02-21
# 分離型畳み込みLSTMを用いたバイオレンス検出のための高効率2ストリームネットワーク

Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM ( http://arxiv.org/abs/2102.10590v1 )

ライセンス: Link先を確認
Zahidul Islam, Mohammad Rukonuzzaman, Raiyan Ahmed, Md. Hasanul Kabir, Moshiur Farazi(参考訳) 監視映像から暴力を自動的に検出することは、無人のセキュリティ監視システムやインターネットビデオフィルタリングなどに適用可能であるため、特に注目に値する活動認識のサブセットである。 本研究では,SepConvLSTM (Separable Convolutional LSTM) とプリトレーニングされたMobileNet(ストリームがバックグラウンドで抑制されたフレームを入力として取り込む)と,隣接するフレームの他のストリームプロセスの違いを利用して,効率的な2ストリームディープラーニングアーキテクチャを提案する。 我々は,移動しない背景を抑え,フレーム間の動きを捉えることによって,フレーム内の移動物体をハイライトする,シンプルで高速な入力前処理技術を採用した。 暴力的な行動は体の動きによって特徴づけられるため、これらの入力は差別的な特徴を生み出すのに役立つ。 SepConvLSTM は、ConvLSTM の各ゲートの畳み込み操作を深さ方向の分離可能な畳み込みに置き換えることで構築され、非常に少ないパラメータを使用して堅牢な長距離時空間特性を生成します。 2つのストリームの出力特徴マップを結合する3つの融合手法を実験した。 提案手法の評価は3つの標準公開データセットで行った。 我々のモデルは、より大きく、より困難なRWF-2000データセットの精度を2%以上のマージンで上回り、より小さなデータセットの最先端結果と一致させる。 実験の結果,提案モデルの方が計算効率と検出精度の両面で優れていることがわかった。

Automatically detecting violence from surveillance footage is a subset of activity recognition that deserves special attention because of its wide applicability in unmanned security monitoring systems, internet video filtration, etc. In this work, we propose an efficient two-stream deep learning architecture leveraging Separable Convolutional LSTM (SepConvLSTM) and pre-trained MobileNet where one stream takes in background suppressed frames as inputs and other stream processes difference of adjacent frames. We employed simple and fast input pre-processing techniques that highlight the moving objects in the frames by suppressing non-moving backgrounds and capture the motion in-between frames. As violent actions are mostly characterized by body movements these inputs help produce discriminative features. SepConvLSTM is constructed by replacing convolution operation at each gate of ConvLSTM with a depthwise separable convolution that enables producing robust long-range Spatio-temporal features while using substantially fewer parameters. We experimented with three fusion methods to combine the output feature maps of the two streams. Evaluation of the proposed methods was done on three standard public datasets. Our model outperforms the accuracy on the larger and more challenging RWF-2000 dataset by more than a 2% margin while matching state-of-the-art results on the smaller datasets. Our experiments lead us to conclude, the proposed models are superior in terms of both computational efficiency and detection accuracy.
翻訳日:2021-02-23 15:12:23 公開日:2021-02-21
# 自律型安全な着陸サイト選択のための不確実性認識深層学習

Uncertainty-Aware Deep Learning for Autonomous Safe Landing Site Selection ( http://arxiv.org/abs/2102.10545v1 )

ライセンス: Link先を確認
Kento Tomita and Katherine A. Skinner and Koki Ho(参考訳) 危険な検出は、惑星表面への自律着陸を可能にするために重要です。 現在の最新の方法は、従来のコンピュータビジョンアプローチを利用して、入力デジタル標高モデル(DEM)から安全な地形の識別を自動化します。 しかし, センサノイズの増加に伴い, 入力demの性能が低下する可能性がある。 同時に、さまざまなアプリケーション向けにディープラーニング技術が開発されています。 それでも、安全に重要な宇宙ミッションへの適用は、その出力の信頼性に関する懸念のため、しばしば制限されてきた。 そこで本論文では,危険検知と着陸地点選定のための不確実性を考慮した学習手法を提案する。 i) ベイズ深層学習と意味セグメンテーションにより安全性予測マップとその不確実性マップを生成すること、および(ii) 生成された不確実性マップを用いて、予測マップ内の不確実性画素をフィルタし、特定の画素(すなわち、モデルが安全予測について確信を持っている画素)のみに基づいて安全な着陸地点の選択を行うことによる、信頼性の高い安全な着陸地点選択を可能にする。 提案手法の性能を実証するために,Mars HiRISEデジタル地形モデルと各種騒音レベルに基づくシミュレーションデータを用いて実験を行った。

Hazard detection is critical for enabling autonomous landing on planetary surfaces. Current state-of-the-art methods leverage traditional computer vision approaches to automate identification of safe terrain from input digital elevation models (DEMs). However, performance for these methods can degrade for input DEMs with increased sensor noise. At the same time, deep learning techniques have been developed for various applications. Nevertheless, their applicability to safety-critical space missions has been often limited due to concerns regarding their outputs' reliability. In response to this background, this paper proposes an uncertainty-aware learning-based method for hazard detection and landing site selection. The developed approach enables reliable safe landing site selection by: (i) generating a safety prediction map and its uncertainty map together via Bayesian deep learning and semantic segmentation; and (ii) using the generated uncertainty map to filter out the uncertain pixels in the prediction map so that the safe landing site selection is performed only based on the certain pixels (i.e., pixels for which the model is certain about its safety prediction). Experiments are presented with simulated data based on a Mars HiRISE digital terrain model and varying noise levels to demonstrate the performance of the proposed approach.
翻訳日:2021-02-23 15:11:42 公開日:2021-02-21
# 画像分類強化のためのスパイクニューラルネットワークと人工ニューラルネットワークの組み合わせ

Combining Spiking Neural Network and Artificial Neural Network for Enhanced Image Classification ( http://arxiv.org/abs/2102.10592v1 )

ライセンス: Link先を確認
Naoya Muramatsu and Hai-Tao Yu(参考訳) 深層ニューラルネットワークの継続的な革新により、生物学的脳シナプスに近いスパイクニューラルネットワーク(SNN)が、低消費電力のため注目を集めている。 しかしながら、連続的なデータ値に対しては、値をスパイクトレインに変換するためのコーディングプロセスを採用する必要がある。 したがって、これらの値を直接処理する人工知能ニューラルネットワーク(ANN)の性能を超えていない。 この目的のために、ANNとSNNを組み合わせて、関連するパフォーマンスを改善する汎用ハイブリッドニューラルネットワーク(HNN)を構築する。

With the continued innovations of deep neural networks, spiking neural networks (SNNs) that more closely resemble biological brain synapses have attracted attention owing to their low power consumption. However, for continuous data values, they must employ a coding process to convert the values to spike trains. Thus, they have not yet exceeded the performance of artificial neural networks (ANNs), which handle such values directly. To this end, we combine an ANN and an SNN to build versatile hybrid neural networks (HNNs) that improve the concerned performance.
翻訳日:2021-02-23 15:08:57 公開日:2021-02-21
# 画像超解像のための領域ベースディープラーニングアーキテクチャのTchebichef変換

Tchebichef Transform Domain-based Deep Learning Architecture for Image Super-resolution ( http://arxiv.org/abs/2102.10640v1 )

ライセンス: Link先を確認
Ahlad Kumar and Harsh Vardhan Singh(参考訳) 最近の新型コロナウイルスの流行は、人工知能とディープラーニングを用いた医療画像の分野に貢献する研究者を動機づけています。 ここ数年、超解像(SR)は深層学習法を用いて顕著な成果を上げてきた。 低解像度(LR)画像から対応する高分解能(HR)画像への非線形マッピングを学ぶためのディープラーニング手法の能力は、さまざまな研究分野でSRのための説得力のある結果をもたらします。 本稿では,Tchebichef変換領域における深層学習に基づく画像超解像アーキテクチャを提案する。 これは、カスタマイズされたtchebichef畳み込み層(tcl$)を通じて変換層を提案アーキテクチャに統合することで実現される。 TCLの役割は、Tchebichef基底関数を使用して、LRイメージを空間領域から直交変換ドメインに変換することである。 上記の変換の反転は、逆チェビシェフ畳み込み層 (ITCL) と呼ばれる別の層を用いて達成され、変換領域から空間領域へのLR画像の逆変換を行う。 SRのタスクにTchebichef変換ドメインを使用することは、超解像のタスクを簡素化する画像の高低周波数表現の利点を取ることが観察されています。 さらに,コビッドをベースとした医用画像の品質向上のためのトランスファーラーニング手法を導入する。 当院のアーキテクチャはcovid-19のx線およびct画像の品質を高め,臨床診断に有用な画像品質を提供する。 提案した Tchebichef transform domain super- resolution (TTDSR) アーキテクチャを用いて得られた実験結果は、訓練可能なパラメータの少ない深層学習手法と比較して、競合する結果をもたらす。

The recent outbreak of COVID-19 has motivated researchers to contribute in the area of medical imaging using artificial intelligence and deep learning. Super-resolution (SR), in the past few years, has produced remarkable results using deep learning methods. The ability of deep learning methods to learn the non-linear mapping from low-resolution (LR) images to their corresponding high-resolution (HR) images leads to compelling results for SR in diverse areas of research. In this paper, we propose a deep learning based image super-resolution architecture in Tchebichef transform domain. This is achieved by integrating a transform layer into the proposed architecture through a customized Tchebichef convolutional layer ($TCL$). The role of TCL is to convert the LR image from the spatial domain to the orthogonal transform domain using Tchebichef basis functions. The inversion of the aforementioned transformation is achieved using another layer known as the Inverse Tchebichef convolutional Layer (ITCL), which converts back the LR images from the transform domain to the spatial domain. It has been observed that using the Tchebichef transform domain for the task of SR takes the advantage of high and low-frequency representation of images that makes the task of super-resolution simplified. We, further, introduce transfer learning approach to enhance the quality of Covid based medical images. It is shown that our architecture enhances the quality of X-ray and CT images of COVID-19, providing a better image quality that helps in clinical diagnosis. Experimental results obtained using the proposed Tchebichef transform domain super-resolution (TTDSR) architecture provides competitive results when compared with most of the deep learning methods employed using a fewer number of trainable parameters.
翻訳日:2021-02-23 15:08:49 公開日:2021-02-21
# 直観的な手術ロボット遠隔操作を強化するためのマイクロ外科手術時の手指運動のマッピング

Mapping Surgeon's Hand/Finger Motion During Conventional Microsurgery to Enhance Intuitive Surgical Robot Teleoperation ( http://arxiv.org/abs/2102.10585v1 )

ライセンス: Link先を確認
Mohammad Fattahi Sani, Raimondo Ascione, Sanja Dogramadzi(参考訳) 目的: ロボットと人工知能(AI)の最近の進歩は、いくつかの外科専門分野でロボット支援最小侵襲手術(RAMIS)を強化する医療技術の大幅な進歩をもたらしました。 しかし、現在の人間ロボットインタフェースは直感的な遠隔操作を欠いているため、外科医の手指の感覚や微妙な動きを模倣することはできない。 これらの制限により、遠隔操作のロボット手術はマイクロ手術には適せず、確立した外科医には学習が困難になる。 本研究では,心臓微小手術における術者の手の動きと相乗的運動を直感的に記録・マッピングし,今後の直感的遠隔手術を改善するパイロット研究を報告する。 方法: モックアップ心臓マイクロ手術中に手首,手指,手術用具のリアルタイムデータ取得(rtda)入力をマッピングすることで,深層神経ネットワーク(dnn)を訓練できるプロトタイプシステムの開発に取り組んだ。 トレーニングされたネットワークは、洗練された手関節角度からツールのポーズを推定するために使用された。 結果: 模擬マイクロサージにおける外科医のフィードバックに基づき, 運動追跡のための軽量センサを備えたウェアラブルシステムは, 手術や器具のハンドリングに干渉しなかった。 このウェアラブルモーショントラッキングシステムは、推定ツールポーズと測定ツールポーズを比較して、DNNネットワークの入力を表す有意義なデータセットを必要に応じて追加した15個の指先関節角度センサを用いて生成する。 DNNアーキテクチャは高い推定精度と最小二乗誤差でツールのポーズを決定する能力に最適化された。 本手法は, 平均2乗誤差(MSE)が0.3%未満である記録外科医の手指の動きから, 遠隔操作に必要な手術器具のポーズを正確に推定できることを示した。

Purpose: Recent developments in robotics and artificial intelligence (AI) have led to significant advances in healthcare technologies enhancing robot-assisted minimally invasive surgery (RAMIS) in some surgical specialties. However, current human-robot interfaces lack intuitive teleoperation and cannot mimic surgeon's hand/finger sensing and fine motion. These limitations make tele-operated robotic surgery not suitable for micro-surgery and difficult to learn for established surgeons. We report a pilot study showing an intuitive way of recording and mapping surgeon's gross hand motion and the fine synergic motion during cardiac micro-surgery as a way to enhance future intuitive teleoperation. Methods: We set to develop a prototype system able to train a Deep Neural Net-work (DNN) by mapping wrist, hand and surgical tool real-time data acquisition(RTDA) inputs during mock-up heart micro-surgery procedures. The trained network was used to estimate the tools poses from refined hand joint angles. Results: Based on surgeon's feedback during mock micro-surgery, the developed wearable system with light-weight sensors for motion tracking did not interfere with the surgery and instrument handling. The wearable motion tracking system used 15 finger-thumb-wrist joint angle sensors to generate meaningful data-sets representing inputs of the DNN network with new hand joint angles added as necessary based on comparing the estimated tool poses against measured tool pose. The DNN architecture was optimized for the highest estimation accuracy and the ability to determine the tool pose with the least mean squared error. This novel approach showed that the surgical instrument's pose, an essential requirement for teleoperation, can be accurately estimated from recorded surgeon's hand/finger movements with a mean squared error (MSE) less than 0.3%
翻訳日:2021-02-23 15:08:00 公開日:2021-02-21
# 認知のパターン:確率的型付きメタグラフの時系列化によるガロア接続としての認知アルゴリズム

Patterns of Cognition: Cognitive Algorithms as Galois Connections Fulfilled by Chronomorphisms On Probabilistically Typed Metagraphs ( http://arxiv.org/abs/2102.10581v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) AGI関連アルゴリズムの広いクラスは、エッジターゲットが確率依存型でラベル付けされている有向メタグラフの探索と最適化プロセスをリンクするガロア接続を指定し、これらの接続をメタグラフクロノ同型を含むプロセスによって実現することによって、共通の形式的フレームワークで表現することができる。 OpenCog AGIフレームワークで使用されるコア認知アルゴリズムは、確率論的論理推論、進化的プログラム学習、パターンマイニング、集約的クラスタリング、パターンマイニング、非線形動的注意割り当てである。 提示された分析は、これらの認知アルゴリズムを、メタグラフ上で定義された関数を最適化する再帰的離散的決定プロセスとして表現することを含む。 認知過程に関わる結合操作の相互関連性は、しばしばプロセスの折り畳みおよび展開操作への分解を可能にする上で重要な役割を果たしていることが示されている。 可逆論理と可逆プログラム実行の使用に向けての武装。 また、この相互連想性が成り立つ場合、再帰的決定プロセスの実行に使用されるサブゴールの階層と、形式パターン理論の観点で定義可能なサブパターンの階層との間にアライメントがあることも観察されている。

It is argued that a broad class of AGI-relevant algorithms can be expressed in a common formal framework, via specifying Galois connections linking search and optimization processes on directed metagraphs whose edge targets are labeled with probabilistic dependent types, and then showing these connections are fulfilled by processes involving metagraph chronomorphisms. Examples are drawn from the core cognitive algorithms used in the OpenCog AGI framework: Probabilistic logical inference, evolutionary program learning, pattern mining, agglomerative clustering, pattern mining and nonlinear-dynamical attention allocation. The analysis presented involves representing these cognitive algorithms as recursive discrete decision processes involving optimizing functions defined over metagraphs, in which the key decisions involve sampling from probability distributions over metagraphs and enacting sets of combinatory operations on selected sub-metagraphs. The mutual associativity of the combinatory operations involved in a cognitive process is shown to often play a key role in enabling the decomposition of the process into folding and unfolding operations; a conclusion that has some practical implications for the particulars of cognitive processes, e.g. militating toward use of reversible logic and reversible program execution. It is also observed that where this mutual associativity holds, there is an alignment between the hierarchy of subgoals used in recursive decision process execution and a hierarchy of subpatterns definable in terms of formal pattern theory.
翻訳日:2021-02-23 15:03:20 公開日:2021-02-21
# 胃病理学的画像分類のための階層的条件付きランダムフィールドに基づく注意メカニズムのアプローチ

A Hierarchical Conditional Random Field-based Attention Mechanism Approach for Gastric Histopathology Image Classification ( http://arxiv.org/abs/2102.10499v1 )

ライセンス: Link先を確認
Yixin Li, Xinran Wu, Chen Li, Changhao Sun, Md Rahaman, Yudong Yao, Xiaoyan Li, Yong Zhang, Tao Jiang(参考訳) 通常弱い教師付き学習ミッションである胃病理学画像分類(GHIC)タスクでは、画像に必然的に冗長な情報があります。 そのため,特徴を効果的に区別できるネットワークを設計することが研究の話題となっている。 本稿では,臨床診断におけるGHICの課題を克服し,病理医を支援するために,階層型条件付ランダムフィールドベース注意機構(HCRF-AM)モデルを提案する。 HCRF-AMモデルは、注意機構(AM)モジュールと画像分類(IC)モジュールで構成される。 AMモジュールでは、注意領域を抽出するためにHCRFモデルを構築している。 icモジュールでは、注意領域選択により畳み込みニューラルネットワーク(cnn)モデルを訓練し、cnnのパッチレベル出力から画像レベルの結果を得るための分類確率に基づくアンサンブル学習と呼ばれるアルゴリズムを適用する。 この実験では、胃病理学的データセットで96.67%の分類特異性が700の画像で達成される。 HCRF-AMモデルは高い分類性能を示し,GHIC分野での有効性と将来の可能性を示す。

In the Gastric Histopathology Image Classification (GHIC) tasks, which is usually weakly supervised learning missions, there is inevitably redundant information in the images. Therefore, designing networks that can focus on effective distinguishing features has become a popular research topic. In this paper, to accomplish the tasks of GHIC superiorly and to assist pathologists in clinical diagnosis, an intelligent Hierarchical Conditional Random Field based Attention Mechanism (HCRF-AM) model is proposed. The HCRF-AM model consists of an Attention Mechanism (AM) module and an Image Classification (IC) module. In the AM module, an HCRF model is built to extract attention regions. In the IC module, a Convolutional Neural Network (CNN) model is trained with the attention regions selected and then an algorithm called Classification Probability-based Ensemble Learning is applied to obtain the image-level results from patch-level output of the CNN. In the experiment, a classification specificity of 96.67% is achieved on a gastric histopathology dataset with 700 images. Our HCRF-AM model demonstrates high classification performance and shows its effectiveness and future potential in the GHIC field.
翻訳日:2021-02-23 14:59:25 公開日:2021-02-21
# 双曲確率符号化による認知機能低下の予測

Predicting Future Cognitive Decline with Hyperbolic Stochastic Coding ( http://arxiv.org/abs/2102.10503v1 )

ライセンス: Link先を確認
J. Zhang, Q. Dong, J. Shi, Q. Li, C.M. Stonnington, B.A. Gutman, K. Chen, E.M. Reiman, R.J. Caselli, P.M. Thompson, J. Ye, Y. Wang(参考訳) 双曲幾何学は、一般的なトポロジカル構造を持つ脳皮質および皮質表面のモデリングに成功した。 しかし、そのようなアプローチは、他の表面ベースの脳形態分析法と同様に、通常、高次元の特徴を生み出す。 認知低下予測研究、特に限られた対象数を持つデータセットにおける統計力を制限する。 このような制約に対処するため,HSC(hyperbolic stochastic code)と呼ばれる新しいフレームワークを提案する。 予備実験の結果から,様々な分類タスクで優れた結果が得られることが示された。 我々の研究は、表面ベースの脳画像研究ツールを充実させ、個々の治療戦略に役立つ診断および予後指標をもたらす可能性がある。

Hyperbolic geometry has been successfully applied in modeling brain cortical and subcortical surfaces with general topological structures. However such approaches, similar to other surface based brain morphology analysis methods, usually generate high dimensional features. It limits their statistical power in cognitive decline prediction research, especially in datasets with limited subject numbers. To address the above limitation, we propose a novel framework termed as hyperbolic stochastic coding (HSC). Our preliminary experimental results show that our algorithm achieves superior results on various classification tasks. Our work may enrich surface based brain imaging research tools and potentially result in a diagnostic and prognostic indicator to be useful in individualized treatment strategies.
翻訳日:2021-02-23 14:59:06 公開日:2021-02-21
# 単一画像デハージングのためのプログレッシブ深度学習

Progressive Depth Learning for Single Image Dehazing ( http://arxiv.org/abs/2102.10514v1 )

ライセンス: Link先を確認
Yudong Liang, Bin Wang, Jiaying Liu, Deyu Li, Sanping Zhou and Wenqi Ren(参考訳) ヘイズ画像の定式化は、主に反射光と周囲のエアライトが主である。 既存の脱湿法は、しばしば深度を無視し、より重いヘイズが視界を乱す遠くの地域で失敗する。 しかし,伝送推定のための深度情報のガイダンスは,距離が大きくなるにつれて視界が低下する可能性があることに留意する。 次いで、良好な伝送推定は、ヘイズ画像の深さ推定を容易にすることができる。 本稿では,画像の奥行きと透過マップを反復的に推定する遠距離モデルを提案し,奥行き情報の指導により,hazy画像の効率的な奥行き予測を行い,デハザーズ性能を向上させる。 画像深度と伝送マップを段階的に洗練して、デハズドイメージをよりよく復元します。 私たちのアプローチは、画像深度と伝送マップの内部関係を明示的にモデリングすることから利益を得ます。 提案するネットワークは, 深度推定とヘイズ除去の観点から, 最先端の脱ヘイズ法に対して良好に機能することを示した。

The formulation of the hazy image is mainly dominated by the reflected lights and ambient airlight. Existing dehazing methods often ignore the depth cues and fail in distant areas where heavier haze disturbs the visibility. However, we note that the guidance of the depth information for transmission estimation could remedy the decreased visibility as distances increase. In turn, the good transmission estimation could facilitate the depth estimation for hazy images. In this paper, a deep end-to-end model that iteratively estimates image depths and transmission maps is proposed to perform an effective depth prediction for hazy images and improve the dehazing performance with the guidance of depth information. The image depth and transmission map are progressively refined to better restore the dehazed image. Our approach benefits from explicitly modeling the inner relationship of image depth and transmission map, which is especially effective for distant hazy areas. Extensive results on the benchmarks demonstrate that our proposed network performs favorably against the state-of-the-art dehazing methods in terms of depth estimation and haze removal.
翻訳日:2021-02-23 14:58:56 公開日:2021-02-21
# ResNetと軽量アグリゲーションによる行動品質評価の改善

Improving Action Quality Assessment using ResNets and Weighted Aggregation ( http://arxiv.org/abs/2102.10555v1 )

ライセンス: Link先を確認
Shafkat Farabi, Hasibul Haque Himel, Fakhruddin Gazzali, Bakhtiar Hasan, Md. Hasanul Kabir, Moshiur Farazi(参考訳) アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。 AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。 これらの高レベル表現は、行動品質評価を行うために使用されます。 C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。 本稿では,行動品質評価のための学習表現のための残差接続を持つ深い畳み込みニューラルネットワークを実験する。 畳み込みニューラルネットワークの深さと入力クリップサイズが動作スコアの予測精度に及ぼす影響について検討した。 また,特徴抽出のための3次元畳み込みの代わりに(2+1)d畳み込みを用いる効果についても検討する。 平均化の現在のクリップレベルの特徴表現集約技術は,特徴の相対的重要性を捉えるには不十分であることがわかった。 そこで本研究では,学習に基づく重み付け学習手法を提案する。 提案した集計手法を用いて, 34層(2+1)の畳み込みニューラルネットワークを用いて, MTL-AQAデータセットにおける最新のスピアマンのランク相関0.9315(0.45%の増加)を達成した。

Action quality assessment (AQA) aims at automatically judging human action based on a video of the said action and assigning a performance score to it. The majority of works in the existing literature on AQA transform RGB videos to higher-level representations using C3D networks. These higher-level representations are used to perform action quality assessment. Due to the relatively shallow nature of C3D, the quality of extracted features is lower than what could be extracted using a deeper convolutional neural network. In this paper, we experiment with deeper convolutional neural networks with residual connections for learning representations for action quality assessment. We assess the effects of the depth and the input clip size of the convolutional neural network on the quality of action score predictions. We also look at the effect of using (2+1)D convolutions instead of 3D convolutions for feature extraction. We find that the current clip level feature representation aggregation technique of averaging is insufficient to capture the relative importance of features. To overcome this, we propose a learning-based weighted-averaging technique that can perform better. We achieve a new state-of-the-art Spearman's rank correlation of 0.9315 (an increase of 0.45%) on the MTL-AQA dataset using a 34 layer (2+1)D convolutional neural network with the capability of processing 32 frame clips, using our proposed aggregation technique.
翻訳日:2021-02-23 14:58:41 公開日:2021-02-21
# Few-shot Visual Question Answeringにおける構成表現の学習

Learning Compositional Representation for Few-shot Visual Question Answering ( http://arxiv.org/abs/2102.10575v1 )

ライセンス: Link先を確認
Dalu Guo, Dacheng Tao(参考訳) 現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。 しかし、人間がこれらの新しいカテゴリーに素早く適応できるのは、これまで見てきた概念を整理して、深層学習手法ではほとんど検討されていない新しいクラスを解明することを学ぶためです。 そこで,本稿では,回答から得られた属性を十分なデータで抽出する手法を提案する。 人間の努力なしに、さまざまな回答と属性を持つVQAの少数ショットデータセットを生成します。 このデータセットでは、属性ネットワークを構築し、属性全体ではなく画像の一部から特徴を学習することによって属性を分離します。 vqa v2.0バリデーションデータセットにおける実験結果は,提案する属性ネットワークの有効性と,回答とそれに対応する属性との制約,および少数のトレーニング例で回答を処理する方法の能力を示している。

Current methods of Visual Question Answering perform well on the answers with an amount of training data but have limited accuracy on the novel ones with few examples. However, humans can quickly adapt to these new categories with just a few glimpses, as they learn to organize the concepts that have been seen before to figure the novel class, which are hardly explored by the deep learning methods. Therefore, in this paper, we propose to extract the attributes from the answers with enough data, which are later composed to constrain the learning of the few-shot ones. We generate the few-shot dataset of VQA with a variety of answers and their attributes without any human effort. With this dataset, we build our attribute network to disentangle the attributes by learning their features from parts of the image instead of the whole one. Experimental results on the VQA v2.0 validation dataset demonstrate the effectiveness of our proposed attribute network and the constraint between answers and their corresponding attributes, as well as the ability of our method to handle the answers with few training examples.
翻訳日:2021-02-23 14:58:21 公開日:2021-02-21
# 結核のセグメンテーションとローカライゼーションを改善するための弱局所化を用いたカスタムモダリティ特化U-Netモデルの訓練

Training custom modality-specific U-Net models with weak localizations for improved Tuberculosis segmentation and localization ( http://arxiv.org/abs/2102.10607v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Les Folio, Jane Dimperio, Philip Alderson and Sameer Antani(参考訳) UNetセグメンテーションモデルは従来の手工芸品よりも優れた性能を示している。 モダリティ固有のDLモデルは、ストック画像で事前訓練されているものよりも、ドメイン知識を関連するターゲットタスクに転送するのがよい。 それらの利用は、モデル適応、一般化、興味ある局所化のクラス固有の領域を改善するのに役立ちます。 本研究では,結核 (tb) の意味セグメンテーションのためのカスタム胸部x線モダリティ特定 unet モデルを訓練した。 このような症状の自動化セグメンテーションは、放射線科医が最初の解釈とレポートの完了後にエラーを減らすのに役立ちます。 これにより、患者のケアと生産性を改善しつつ意思決定を補うことで、放射線学の精度を向上させることができる。 私たちのアプローチは、まず一般にバウンディングボックスとして提供される弱いTBアノテーションを備えた公開胸部X線データセットを使用して、UNetモデルのセットを訓練する包括的な戦略を使用します。 次に,TBの出現を疑う2値決定ROIマスクを作成するために訓練されたDL分類器の出力から,ローカライゼーションの弱いデータに対する強化トレーニング戦略を用いて,最高の性能モデルの結果を改善する。 この強化は、同じトレーニング分布やその他の機関横断的なコレクションから得られるテストデータを用いて、パフォーマンスを向上させることを目的としている。 非拡張トレーニングと比較して、当社の強化トレーニング戦略は、トレーニング分布に類似したテストデータと、機関間テストセットの両方で、カスタムモダリティ固有のunetモデルが優れたパフォーマンスを達成するのに役立ちました。

UNet segmentation models have demonstrated superior performance compared to conventional handcrafted features. Modality specific DL models are better at transferring domain knowledge to a relevant target task than those that are pretrained on stock photography images. Using them helps improve model adaptation, generalization, and class-specific region of interest localization. In this study, we train custom chest X ray modality specific UNet models for semantic segmentation of Tuberculosis (TB) consistent findings. Automated segmentation of such manifestations could help radiologists reduce errors following initial interpretation and before finalizing the report. This could improve radiologist accuracy by supplementing decision making while improving patient care and productivity. Our approach uses a comprehensive strategy that first uses publicly available chest X ray datasets with weak TB annotations, typically provided as bounding boxes, to train a set of UNet models. Next, we improve the results of the best performing model using an augmented training strategy on data with weak localizations from the outputs of a selection of DL classifiers that are trained to produce a binary decision ROI mask for suspected TB manifestations. The augmentation aims to improve performance with test data derived from the same training distribution and other cross institutional collections. We observe that compared to non augmented training our augmented training strategy helped the custom modality specific UNet models achieve superior performance with test data that is both similar to the training distribution as well as for cross institutional test sets.
翻訳日:2021-02-23 14:58:04 公開日:2021-02-21
# 医療用トランス:医療用画像セグメンテーションのための定格軸注意

Medical Transformer: Gated Axial-Attention for Medical Image Segmentation ( http://arxiv.org/abs/2102.10662v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Poojan Oza, Ilker Hacihaliloglu, Vishal M. Patel(参考訳) 過去10年間で、Deep Convolutional Neural Networksは医療画像のセグメンテーションに広く採用され、十分なパフォーマンスを実現している。 しかし、畳み込みアーキテクチャに固有の帰納バイアスがあるため、画像内の長距離依存性の理解が欠如している。 最近提案されたTransformerベースのアーキテクチャは,長距離依存性を符号化し,表現力の高い表現を学習する。 これにより、Transformerベースのソリューションを探究し、Transformerベースのネットワークアーキテクチャを医療画像のセグメンテーションタスクに適用する可能性について検討する。 ビジョンアプリケーション用に提案された既存のトランスフォーマーベースのネットワークアーキテクチャの大部分は、大規模なデータセットを適切にトレーニングする必要がある。 しかし、視覚応用用のデータセットと比較して、医用イメージングではデータサンプル数は比較的少なく、医療用トランスフォーマーの効率的な訓練が困難である。 そこで本研究では,自己配置モジュールに新たな制御機構を導入することにより,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。 さらに,医療画像上でモデルを効果的に訓練するために,LoGo(Lo-Global Training Strategy)を提案する。 具体的には、画像全体とパッチで運用し、それぞれグローバルとローカルの機能を学びます。 The proposed Medical Transformer (MedT) are evaluate on three different medical image segmentation datasets and that it achieve a good performance than the convolutional and other related transformer based architectures。 コード: https://github.com/jeya-maria-jose/Medical-Transformer

Over the past decade, Deep Convolutional Neural Networks have been widely adopted for medical image segmentation and shown to achieve adequate performance. However, due to the inherent inductive biases present in the convolutional architectures, they lack understanding of long-range dependencies in the image. Recently proposed Transformer-based architectures that leverage self-attention mechanism encode long-range dependencies and learn representations that are highly expressive. This motivates us to explore Transformer-based solutions and study the feasibility of using Transformer-based network architectures for medical image segmentation tasks. Majority of existing Transformer-based network architectures proposed for vision applications require large-scale datasets to train properly. However, compared to the datasets for vision applications, for medical imaging the number of data samples is relatively low, making it difficult to efficiently train transformers for medical applications. To this end, we propose a Gated Axial-Attention model which extends the existing architectures by introducing an additional control mechanism in the self-attention module. Furthermore, to train the model effectively on medical images, we propose a Local-Global training strategy (LoGo) which further improves the performance. Specifically, we operate on the whole image and patches to learn global and local features, respectively. The proposed Medical Transformer (MedT) is evaluated on three different medical image segmentation datasets and it is shown that it achieves better performance than the convolutional and other related transformer-based architectures. Code: https://github.com/jeya-maria-jose/Medical-Transformer
翻訳日:2021-02-23 14:57:40 公開日:2021-02-21
# マルチタスクCNNを用いた確率的車両再構成

Probabilistic Vehicle Reconstruction Using a Multi-Task CNN ( http://arxiv.org/abs/2102.10681v1 )

ライセンス: Link先を確認
Max Coenen and Franz Rottensteiner(参考訳) 画像からの3次元ポーズと物体の形状の検索は不適切な問題である。 オブジェクト再構成の一般的な方法は、変形可能な3Dモデルのキーポイント、エッジ、輪郭などのエンティティを、画像から推測される対応するエンティティにマッチさせることである。 しかし、そのようなアプローチはモデルの初期化やキーポイントの局所化や照明条件に非常に敏感である。 本稿では,新しいマルチタスクCNNの出力を利用するステレオ画像から形状認識型3D車両を復元する確率論的手法を提案する。 具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。 3次元ステレオ情報と共に予測分布を共通の確率的枠組みに統合する。 CNNによるワイヤフレームエッジの検出は、照明条件やオブジェクトコントラストに対する感度を低下させ、キーポイント位置を推定する代わりに生の確率マップを使用することで、キーポイント位置決め誤差に対する感度を低下させると考えている。 提案手法は,KITTIベンチマークと新たな"Stereo-Vehicle"データセットを用いて,提案手法の有効性を検証した。

The retrieval of the 3D pose and shape of objects from images is an ill-posed problem. A common way to object reconstruction is to match entities such as keypoints, edges, or contours of a deformable 3D model, used as shape prior, to their corresponding entities inferred from the image. However, such approaches are highly sensitive to model initialisation, imprecise keypoint localisations and/or illumination conditions. In this paper, we present a probabilistic approach for shape-aware 3D vehicle reconstruction from stereo images that leverages the outputs of a novel multi-task CNN. Specifically, we train a CNN that outputs probability distributions for the vehicle's orientation and for both, vehicle keypoints and wireframe edges. Together with 3D stereo information we integrate the predicted distributions into a common probabilistic framework. We believe that the CNN-based detection of wireframe edges reduces the sensitivity to illumination conditions and object contrast and that using the raw probability maps instead of inferring keypoint positions reduces the sensitivity to keypoint localisation errors. We show that our method achieves state-of-the-art results, evaluating our method on the challenging KITTI benchmark and on our own new 'Stereo-Vehicle' dataset.
翻訳日:2021-02-23 14:57:16 公開日:2021-02-21
# Reward Delay Calibration が有効であった1例

Empirical Sufficiency Featuring Reward Delay Calibration ( http://arxiv.org/abs/2102.10527v1 )

ライセンス: Link先を確認
Yixuan Liu, Hu Wang, Xiaowei Wang, Xiaoyue Sun, Liuyue Jiang and Minhui Xue(参考訳) 遅延報酬の適切なクレジット割り当ては、強化学習の基本的な課題です。 この問題に対処するために,分類の観点から着想を得た遅延報酬校正パラダイムを提案する。 我々は、よく表現された状態ベクトルは、同一または同等の必須情報を含むので互いに類似性を持つと仮定する。 この目的のために,我々は,分布内の状態ベクトルがエージェントを連続したステップで環境報酬信号に導くような経験的十分分布を定義する。 したがって、純度訓練された分類器は、その分布を取得し、校正された報酬を生成するように設計されている。 実時間抽出を追跡し,異なる報酬関数を構築することで,十分な状態抽出の正しさを検証した。 その結果,分類器は時間的,正確な校正報酬を生成することができた。 さらに、報酬はモデルのトレーニングプロセスをより効率的にすることができる。 最後に, モデルによって抽出された十分条件が, ヒトの観察と共振することを示す。

Appropriate credit assignment for delay rewards is a fundamental challenge for reinforcement learning. To tackle this problem, we introduce a delay reward calibration paradigm inspired from a classification perspective. We hypothesize that well-represented state vectors share similarities with each other since they contain the same or equivalent essential information. To this end, we define an empirical sufficient distribution, where the state vectors within the distribution will lead agents to environmental reward signals in the consequent steps. Therefore, a purify-trained classifier is designed to obtain the distribution and generate the calibrated rewards. We examine the correctness of sufficient state extraction by tracking the real-time extraction and building different reward functions in environments. The results demonstrate that the classifier could generate timely and accurate calibrated rewards. Moreover, the rewards are able to make the model training process more efficient. Finally, we identify and discuss that the sufficient states extracted by our model resonate with the observations of humans.
翻訳日:2021-02-23 14:52:07 公開日:2021-02-21
# 摂動と勾配に基づく説明の統一とロバスト性に向けて

Towards the Unification and Robustness of Perturbation and Gradient Based Explanations ( http://arxiv.org/abs/2102.10618v1 )

ライセンス: Link先を確認
Sushant Agarwal, Shahin Jabbari, Chirag Agarwal, Sohini Upadhyay, Zhiwei Steven Wu, Himabindu Lakkaraju(参考訳) 機械学習のブラックボックスは、医療や刑事司法などの重要な領域にますます展開されているため、ポストホックな方法でこれらのブラックボックスを説明するテクニックの開発に重点が置かれている。 本研究では、グラデーションに基づく手法であるSmoothGradと、摂動に基づく手法であるLIMEの変種という2つのポピュラーなポストホック解釈手法を分析します。 より具体的には、これらの2つの方法によって出力される説明に対して明示的な閉じた形式表現を導出し、両者が期待値において同じ説明に収束することを示す。 その後、この接続を活用して、これらの技術のために堅牢性などの他の望ましい特性を確立します。 また、これらの方法が期待される説明に収束するために必要な摂動数に対する有限個のサンプル複雑性境界も導出する。 最後に,合成データと実世界データの両方について広範な実験を行い,理論を実証的に検証した。

As machine learning black boxes are increasingly being deployed in critical domains such as healthcare and criminal justice, there has been a growing emphasis on developing techniques for explaining these black boxes in a post hoc manner. In this work, we analyze two popular post hoc interpretation techniques: SmoothGrad which is a gradient based method, and a variant of LIME which is a perturbation based method. More specifically, we derive explicit closed form expressions for the explanations output by these two methods and show that they both converge to the same explanation in expectation, i.e., when the number of perturbed samples used by these methods is large. We then leverage this connection to establish other desirable properties, such as robustness, for these techniques. We also derive finite sample complexity bounds for the number of perturbations required for these methods to converge to their expected explanation. Finally, we empirically validate our theory using extensive experimentation on both synthetic and real world datasets.
翻訳日:2021-02-23 14:51:54 公開日:2021-02-21
# 深層ネットワークにおける合成再現性

Synthesizing Irreproducibility in Deep Networks ( http://arxiv.org/abs/2102.10696v1 )

ライセンス: Link先を確認
Robert R. Snapp and Gil I. Shamir(参考訳) ディープネットワークの成功と優れたパフォーマンスは、その人気と使用をますます多くのアプリケーションに広めています。 しかし、最近の研究では、現代のディープネットワークが再現性(非決定性または非特異性とも呼ばれる)に苦しんでいることが示されている。 アーキテクチャ、構造、トレーニングハイパーパラメータ、パラメータで同じで、まったく同じトレーニングデータでトレーニングされている2つ以上のモデルでは、これまで見つからなかった個々の例で異なる予測が得られます。 したがって、制御されたテストデータに対してうまく機能するモデルは、テストデータと似たデータが期待される現実世界にデプロイされた場合、予期せぬ方法で実行される可能性がある。 これらの問題の起源を理解するために、単純な合成モデルとデータを研究します。 単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。 本研究は,初期化におけるランダム性,データシャッフルウィンドウサイズ,アクティベーション関数が,非常に制御された合成データにおいても予測不能な予測に与える影響を示す。 予測されるように、初期化におけるランダム性や訓練例のシャッフルは、この現象を悪化させるが、モデル複雑性と非線形性の選択は、深層モデルを作る際にも重要な役割を果たす。

The success and superior performance of deep networks is spreading their popularity and use to an increasing number of applications. Very recent works, however, demonstrate that modern day deep networks suffer from irreproducibility (also referred to as nondeterminism or underspecification). Two or more models that are identical in architecture, structure, training hyper-parameters, and parameters, and that are trained on exactly the same training data, yield different predictions on individual previously unseen examples. Thus, a model that performs well on controlled test data, may perform in unexpected ways when deployed in the real world, whose data is expected to be similar to the test data. We study simple synthetic models and data to understand the origins of these problems. We show that even with a single nonlinearity and for very simple data and models, irreproducibility occurs. Our study demonstrates the effects of randomness in initialization, training data shuffling window size, and activation functions on prediction irreproducibility, even under very controlled synthetic data. While, as one would expect, randomness in initialization and in shuffling the training examples exacerbates the phenomenon, we show that model complexity and the choice of nonlinearity also play significant roles in making deep models irreproducible.
翻訳日:2021-02-23 14:51:35 公開日:2021-02-21
# オンラインプラットフォームに対する批判的コメントを検索するソーシャルネットワーク分析

Social Networks Analysis to Retrieve Critical Comments on Online Platforms ( http://arxiv.org/abs/2102.10495v1 )

ライセンス: Link先を確認
Shova Bhandari, Rini Raju(参考訳) ソーシャルネットワークは、生活のあらゆる面でユーザーの習慣を分析するための豊富なデータソースである。 ユーザーの行動は、さまざまな国の健康システムの決定的なコンポーネントです。 善行の促進は公衆衛生を著しく改善させる。 本研究では,テキスト解析手法を用いて,ソーシャルネットワーク解析のための新しいモデルを開発する。 グローバルパンデミックに対する各ユーザの反応を,オンライン行動の分析によって定義する。 類似の習慣を持つオンラインユーザのグループをクラスタ化することで、異なる社会にウイルスがどのように広がるかを見つけるのに役立つ。 ソーシャルメディアのハイリスクオンラインユーザーにおける健康的なライフスタイルを促進することは、公衆衛生に大きな影響を与え、世界的なパンデミックの影響を軽減します。 本研究では,パンデミック時のソーシャルメディア上でのユーザ活動に基づくクラスタリング行動に対する新たなアプローチを導入し,オンラインプラットフォームにおける健康を促進するための機械学習モデルを提案する。

Social networks are rich source of data to analyze user habits in all aspects of life. User's behavior is decisive component of a health system in various countries. Promoting good behavior can improve the public health significantly. In this work, we develop a new model for social network analysis by using text analysis approach. We define each user reaction to global pandemic with analyzing his online behavior. Clustering a group of online users with similar habits, help to find how virus spread in different societies. Promoting the healthy life style in the high risk online users of social media have significant effect on public health and reducing the effect of global pandemic. In this work, we introduce a new approach to clustering habits based on user activities on social media in the time of pandemic and recommend a machine learning model to promote health in the online platforms.
翻訳日:2021-02-23 14:48:33 公開日:2021-02-21
# STDPはスパイクニューラルネットワークのバックプロパゲーションによる学習を促進する

STDP enhances learning by backpropagation in a spiking neural network ( http://arxiv.org/abs/2102.10530v1 )

ライセンス: Link先を確認
Kotaro Furuya and Jun Ohkubo(参考訳) スパイクニューラルネットワークのための半教師付き学習法を提案する。 提案手法は, 生物学的に妥当な学習規則である, バックプロパゲーションによる教師あり学習とスパイクタイピング依存塑性(STDP)による教師なし学習からなる。 数値実験により,少量のラベル付きデータを用いた場合,追加のラベル付けを行わずに精度を向上できることを示した。 この特徴は、既存の識別モデルの半教師付き学習法では達成されていない。 イベント駆動システムのための学習手法を提案することができる。 したがって、ニューロモルフィックハードウェアで実装すれば、リアルタイムの問題で非常に効率的になります。 その結果,STDPは教師付き学習の後に適用された場合,自己組織化以外の重要な役割を担っていることが示唆された。

A semi-supervised learning method for spiking neural networks is proposed. The proposed method consists of supervised learning by backpropagation and subsequent unsupervised learning by spike-timing-dependent plasticity (STDP), which is a biologically plausible learning rule. Numerical experiments show that the proposed method improves the accuracy without additional labeling when a small amount of labeled data is used. This feature has not been achieved by existing semi-supervised learning methods of discriminative models. It is possible to implement the proposed learning method for event-driven systems. Hence, it would be highly efficient in real-time problems if it were implemented on neuromorphic hardware. The results suggest that STDP plays an important role other than self-organization when applied after supervised learning, which differs from the previous method of using STDP as pre-training interpreted as self-organization.
翻訳日:2021-02-23 14:48:21 公開日:2021-02-21
# 既約論理の相対表現性 II

Relative Expressiveness of Defeasible Logics II ( http://arxiv.org/abs/2102.10532v1 )

ライセンス: Link先を確認
Michael J. Maher(参考訳) (maher 2012) は、難解論理の相対表現性に関するアプローチを導入し、相対表現性の概念を2つ検討した。 これらの相対表現性の第一の定義を用いて、DLフレームワークの全ての非実現可能論理は、この相対表現性の定式化の下で等しく表現可能であることを示す。 相対表現性の第二の定式化は、第一よりも強い。 しかし,個々の敗退を取り入れた論理は,チーム敗退の論理と同等に表現できることを示す。 したがって、DLにおける論理表現性の唯一の相違は、あいまいさの扱い方の違いから生じる。 これにより、dl の相対表現性の研究は \cite{maher12} で始まる。

(Maher 2012) introduced an approach for relative expressiveness of defeasible logics, and two notions of relative expressiveness were investigated. Using the first of these definitions of relative expressiveness, we show that all the defeasible logics in the DL framework are equally expressive under this formulation of relative expressiveness. The second formulation of relative expressiveness is stronger than the first. However, we show that logics incorporating individual defeat are equally expressive as the corresponding logics with team defeat. Thus the only differences in expressiveness of logics in DL arise from differences in how ambiguity is handled. This completes the study of relative expressiveness in DL begun in \cite{Maher12}.
翻訳日:2021-02-23 14:48:07 公開日:2021-02-21
# 渦流場における効率的なナビゲーションの学習

Learning Efficient Navigation in Vortical Flow Fields ( http://arxiv.org/abs/2102.10536v1 )

ライセンス: Link先を確認
Peter Gunnarson, Ioannis Mandralis, Guido Novati, Petros Koumoutsakos, John O. Dabiri(参考訳) 海洋測量などのロボットアプリケーションでは、バックグラウンドフローフィールドの存在下での効率的なポイントツーポイントナビゲーションが重要です。 このようなアプリケーションでは、ロボットは周囲の状況を知るか、時間的に変化する電流に直面するだけであり、軌道計画に最適な制御技術を使うことは制限される。 本研究では,新しい強化学習アルゴリズムを適用し,非定常2次元流れ場を介して固定速度スイマーを操る時間効率のよいナビゲーションポリシを探索する。 このアルゴリズムは、環境手がかりをディープニューラルネットワークに入力し、スイマーの行動を判断し、記憶と記憶のリプレイを展開する。 得られたスイマーは,目標に達するために背景の流れをうまく利用できたが,この成功は知覚された環境条件の種類に依存している。 驚くべきことに、速度センシングアプローチは、バイオミメティック渦センシングアプローチをほぼ2倍の成功率で上回った。 局所速度測定を取り入れた強化学習アルゴリズムは,グローバルな最適制御プランナーが発見する経路の時間効率に近づきながら,目標地点に到達するのにほぼ100%の成功を収めた。

Efficient point-to-point navigation in the presence of a background flow field is important for robotic applications such as ocean surveying. In such applications, robots may only have knowledge of their immediate surroundings or be faced with time-varying currents, which limits the use of optimal control techniques for planning trajectories. Here, we apply a novel Reinforcement Learning algorithm to discover time-efficient navigation policies to steer a fixed-speed swimmer through an unsteady two-dimensional flow field. The algorithm entails inputting environmental cues into a deep neural network that determines the swimmer's actions, and deploying Remember and Forget Experience replay. We find that the resulting swimmers successfully exploit the background flow to reach the target, but that this success depends on the type of sensed environmental cue. Surprisingly, a velocity sensing approach outperformed a bio-mimetic vorticity sensing approach by nearly two-fold in success rate. Equipped with local velocity measurements, the reinforcement learning algorithm achieved near 100% success in reaching the target locations while approaching the time-efficiency of paths found by a global optimal control planner.
翻訳日:2021-02-23 14:47:57 公開日:2021-02-21
# checksoft: 人々中心の空間に人や物事を追跡するスケーラブルなイベント駆動ソフトウェアアーキテクチャ

CheckSoft : A Scalable Event-Driven Software Architecture for Keeping Track of People and Things in People-Centric Spaces ( http://arxiv.org/abs/2102.10513v1 )

ライセンス: Link先を確認
Rohan Sarkar and Avinash C. Kak(参考訳) 空港のチェックポイントセキュリティエリア,自動小売店舗,スマートライブラリなど,人中心のアプリケーションにおける対象と対象とのインタラクションを追跡するための,スケーラブルなイベント駆動型ソフトウェアアーキテクチャであるchecksoftを提案する。 このアーキテクチャは、監視カメラのネットワークによってリアルタイムで生成されたビデオデータを利用する。 これらのアプリケーションの自動化にはさまざまな側面がありますが、全体的な問題の最も難しい部分は、人とオブジェクトの相互作用を追跡することです。 CheckSoftは有限状態マシン(FSM)ベースのロジックを使用して、そのようなインタラクションを追跡し、システムがビデオカメラによるインタラクションの誤った検出を迅速に拒否できるようにします。 CheckSoftは、アーキテクチャは、個別のプロセスが各人間と各オブジェクトの「ストレージコンテナ」に割り当てられるマルチプロセスに基づいているため、容易にスケーラブルである。 ストレージコンテナは、CheckSoftがデプロイされた特定のアプリケーションに応じて、オブジェクトを表示する棚またはオブジェクトが格納されるビンである場合があります。

We present CheckSoft, a scalable event-driven software architecture for keeping track of people-object interactions in people-centric applications such as airport checkpoint security areas, automated retail stores, smart libraries, and so on. The architecture works off the video data generated in real time by a network of surveillance cameras. Although there are many different aspects to automating these applications, the most difficult part of the overall problem is keeping track of the interactions between the people and the objects. CheckSoft uses finite-state-machine (FSM) based logic for keeping track of such interactions which allows the system to quickly reject any false detections of the interactions by the video cameras. CheckSoft is easily scalable since the architecture is based on multi-processing in which a separate process is assigned to each human and to each "storage container" for the objects. A storage container may be a shelf on which the objects are displayed or a bin in which the objects are stored, depending on the specific application in which CheckSoft is deployed.
翻訳日:2021-02-23 14:45:03 公開日:2021-02-21
# 移動可能な視覚単語:自己監督学習のための解剖学的パターンのセマンティクスを探求する

Transferable Visual Words: Exploiting the Semantics of Anatomical Patterns for Self-supervised Learning ( http://arxiv.org/abs/2102.10680v1 )

ライセンス: Link先を確認
Fatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Zongwei Zhou, Michael B. Gotway, Jianming Liang(参考訳) 本稿では,医学画像解析における深層学習のためのアノテーション効率を実現するために,transportable visual words(transvw)という新しい概念を提案する。 医療画像 - 定義された臨床目的のために身体の特定の部分に焦点を合わせ、患者間で解剖学的に非常に類似した画像を生成し、画像間で洗練された解剖学的パターンを生成する。 これらの視覚単語は自己発見を通じて解剖学的一貫性に従って自動的に収穫され、自己発見された視覚単語は、自己分類と自己修復(self-supervision and self-restoration)を通じて意味論に富んだ汎用画像表現を学ぶための、深いモデルにとって強力で自由な監督信号として機能する。 我々は,複数のアプリケーションにおいて,より高い性能とより高速なコンバージェンスとアノテーションコストの低減により,transvwのアノテーション効率を実証する。 Our TransVW has several important advantages, including (1) TransVW is a fully autodidactic scheme, which exploits the semantics of visual words for self-supervised learning, requiring no expert annotation; (2) visual word learning is an add-on strategy, which complements existing self-supervised methods, boosting their performance; and (3) the learned image representation is semantics-enriched models, which have proven to be more robust and generalizable, saving annotation efforts for a variety of applications through transfer learning. 私たちのコード、事前訓練されたモデル、およびキュレートされたビジュアルワードはhttps://github.com/JLiangLab/TransVW.orgで利用可能です。

This paper introduces a new concept called "transferable visual words" (TransVW), aiming to achieve annotation efficiency for deep learning in medical image analysis. Medical imaging--focusing on particular parts of the body for defined clinical purposes--generates images of great similarity in anatomy across patients and yields sophisticated anatomical patterns across images, which are associated with rich semantics about human anatomy and which are natural visual words. We show that these visual words can be automatically harvested according to anatomical consistency via self-discovery, and that the self-discovered visual words can serve as strong yet free supervision signals for deep models to learn semantics-enriched generic image representation via self-supervision (self-classification and self-restoration). Our extensive experiments demonstrate the annotation efficiency of TransVW by offering higher performance and faster convergence with reduced annotation cost in several applications. Our TransVW has several important advantages, including (1) TransVW is a fully autodidactic scheme, which exploits the semantics of visual words for self-supervised learning, requiring no expert annotation; (2) visual word learning is an add-on strategy, which complements existing self-supervised methods, boosting their performance; and (3) the learned image representation is semantics-enriched models, which have proven to be more robust and generalizable, saving annotation efforts for a variety of applications through transfer learning. Our code, pre-trained models, and curated visual words are available at https://github.com/JLiangLab/TransVW.
翻訳日:2021-02-23 14:44:30 公開日:2021-02-21
# Saatyの不整合指数の非完全比較への拡張:近似しきい値

Extension of Saaty's inconsistency index to incomplete comparisons: Approximated thresholds ( http://arxiv.org/abs/2102.10558v1 )

ライセンス: Link先を確認
Kolos Csaba \'Agoston and L\'aszl\'o Csat\'o(参考訳) ペアワイズ比較行列は、いくつかのペアが欠落している設定でますます使用される。 しかし、このような不完全なデータセットを分析するための不整合指標は少なく、関連するしきい値を持つ指標も少ない。 本稿では,saatyが提案する不整合指数を不完全ペアワイズ比較行列に一般化する。 この拡張は、不足要素を埋めて不完全行列の固有値を最小化するアプローチに基づいている。 これは、0.1の有名なしきい値が許容される不整合の条件を提供する一貫性比の重要な成分であるランダムインデックスの確立された値を直接適用できないことを意味する。 ランダム行列の不一致は、行列サイズと欠落した要素の数の関数であることが判明し、後者の変数の場合にはほぼ線形依存である。 この結果は,不完全ペアワイズ比較行列の受入・取り消しのための統計的基準として,実践者によって直接利用できる。

Pairwise comparison matrices are increasingly used in settings where some pairs are missing. However, there exist few inconsistency indices to analyse such incomplete data sets and even fewer measures have an associated threshold. This paper generalises the inconsistency index proposed by Saaty to incomplete pairwise comparison matrices. The extension is based on the approach of filling the missing elements to minimise the eigenvalue of the incomplete matrix. It means that the well-established values of the random index, a crucial component of the consistency ratio for which the famous threshold of 0.1 provides the condition for the acceptable level of inconsistency, cannot be directly adopted. The inconsistency of random matrices turns out to be the function of matrix size and the number of missing elements, with a nearly linear dependence in the case of the latter variable. Our results can be directly used by practitioners as a statistical criterion for accepting/rejecting an incomplete pairwise comparison matrix.
翻訳日:2021-02-23 14:42:54 公開日:2021-02-21
# Flipping Limited Weight Bitsによるディープニューラルネットワークに対するターゲット攻撃

Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits ( http://arxiv.org/abs/2102.10496v1 )

ライセンス: Link先を確認
Jiawang Bai, Baoyuan Wu, Yong Zhang, Yiming Li, Zhifeng Li, Shu-Tao Xia(参考訳) ディープニューラルネットワーク(DNN)の脆弱性を探るため、トレーニング段階における中毒ベースのバックドア攻撃や推論段階における敵攻撃など、多くの攻撃パラダイムが研究されている。 本稿では,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。 具体的には、特定のサンプルをサンプル修正なしにターゲットクラスに誤分類すると同時に、他のサンプルの予測精度を著しく低減し、ステルス性を確保することが目的である。 この目的のために、パラメータはメモリにバイナリビット($i.e.$, 0, 1)として保存されるため、この問題をバイナリ整数プログラミング(BIP)として定式化する。 整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成し、乗算器の交互方向法(ADMM)を用いて効率よく効率的に解けるようにする。 したがって、反転した臨界ビットはヒューリスティックな戦略を用いるのではなく、最適化によって容易に決定することができる。 広範な実験は、DNN攻撃における我々の方法の優位性を示す。

To explore the vulnerability of deep neural networks (DNNs), many attack paradigms have been well studied, such as the poisoning-based backdoor attack in the training stage and the adversarial attack in the inference stage. In this paper, we study a novel attack paradigm, which modifies model parameters in the deployment stage for malicious purposes. Specifically, our goal is to misclassify a specific sample into a target class without any sample modification, while not significantly reduce the prediction accuracy of other samples to ensure the stealthiness. To this end, we formulate this problem as a binary integer programming (BIP), since the parameters are stored as binary bits ($i.e.$, 0 and 1) in the memory. By utilizing the latest technique in integer programming, we equivalently reformulate this BIP problem as a continuous optimization problem, which can be effectively and efficiently solved using the alternating direction method of multipliers (ADMM) method. Consequently, the flipped critical bits can be easily determined through optimization, rather than using a heuristic strategy. Extensive experiments demonstrate the superiority of our method in attacking DNNs.
翻訳日:2021-02-23 14:40:30 公開日:2021-02-21
# LSTM深層学習モデルを用いたデリー大気質予測 : 新型コロナウイルスロックダウンに着目して

Delhi air quality prediction using LSTM deep learning models with a focus on COVID-19 lockdown ( http://arxiv.org/abs/2102.10551v1 )

ライセンス: Link先を確認
Animesh Tiwari, Rishabh Gupta, Rohitash Chandra(参考訳) 大気汚染は、農業、経済、道路事故、健康に幅広い影響を与えます。 本稿では,インドのデリー州において,短期的(多段階的)空気品質予測のための新しい深層学習手法を提案する。 我々のディープラーニング手法は、双方向LSTMやエンコーダ・デコーダLSTMモデルなどを含む長期短期記憶(LSTM)ネットワークモデルで構成されている。 我々は,80時間にわたる10の予測地平線に対する空気質の予測と,不確かさを定量化した長期(1ヶ月先)予測を行う多変量時系列手法を用いる。 以上の結果から,多変量双方向LSTMモデルでは,完全ロックダウン期間と部分ロックダウン期間の空気品質にCOVID-19の影響があるにもかかわらず,最高の予測が可能であることが示唆された。 新型コロナウイルス(COVID-19)による大気質への影響は、完全ロックダウン中に有意であるが、その後の大気品質の低下は前例のないほど成長した。

Air pollution has a wide range of implications on agriculture, economy, road accidents, and health. In this paper, we use novel deep learning methods for short-term (multi-step-ahead) air-quality prediction in selected parts of Delhi, India. Our deep learning methods comprise of long short-term memory (LSTM) network models which also include some recent versions such as bidirectional-LSTM and encoder-decoder LSTM models. We use a multivariate time series approach that attempts to predict air quality for 10 prediction horizons covering total of 80 hours and provide a long-term (one month ahead) forecast with uncertainties quantified. Our results show that the multivariate bidirectional-LSTM model provides best predictions despite COVID-19 impact on the air-quality during full and partial lockdown periods. The effect of COVID-19 on the air quality has been significant during full lockdown; however, there was unprecedented growth of poor air quality afterwards.
翻訳日:2021-02-23 14:40:12 公開日:2021-02-21
# CT-SCANのホモロジーによるCOVID-19の分類

Classification of COVID-19 via Homology of CT-SCAN ( http://arxiv.org/abs/2102.10593v1 )

ライセンス: Link先を確認
Sohail Iqbal, H. Fareed Ahmed, Talha Qaiser, Muhammad Imran Qureshi, Nasir Rajpoot(参考訳) SARS-CoV-2(COVID-19)感染の世界的な広がりでは、特にこの流行のホットスポットで早期に病気を検出することが非常に重要です。 世界には110万人以上の感染者がいます、ソファー。 逆転写ポリメラーゼ連鎖反応(RT-PCR)には、その迅速性および有効結果のCTスキャン画像が好ましい。 患者の早期発見と分離は、病気の広がりを制御する唯一の可能な方法です。 CT-Scansの自動解析は、このプロセスにおいて大きな支援を提供することができる。 本稿では,CTスキャン画像を用いたSARS-CoV-2検出手法を提案する。 本手法は,非常に直感的で自然な形状解析の考え方に基づいており,専門医を模倣する試みである。 SARS-CoV-2の特徴をトポロジカル特性を定量化して主に追跡します。 私たちは主にトポロジカルデータ分析(TDA)から永続ホモロジーと呼ばれるツールを使用して、これらのトポロジカル特性を計算します。 我々は,sars-cov-2 ct-scanデータセット (sars-cov-2 ct-scan dataset) \citep{soares2020sars} のトレーニングとテストを行った。 我々のモデルは、全体的なベンチマークf1スコアを99.42\%$、精度99.416\%$、精度99.41\%$、そして99.42\%$をリコールしました。 TDA技術には、新型コロナウイルスの効率的かつ迅速な検出に使用できる大きなポテンシャルがあります。 特にRT-PCRラボやキットが深刻な危機に陥っている低所得国では、TDAの潜在能力は、世界的な新型コロナウイルスの迅速かつ安全な検出のためにクリニックで活用される可能性がある。

In this worldwide spread of SARS-CoV-2 (COVID-19) infection, it is of utmost importance to detect the disease at an early stage especially in the hot spots of this epidemic. There are more than 110 Million infected cases on the globe, sofar. Due to its promptness and effective results computed tomography (CT)-scan image is preferred to the reverse-transcription polymerase chain reaction (RT-PCR). Early detection and isolation of the patient is the only possible way of controlling the spread of the disease. Automated analysis of CT-Scans can provide enormous support in this process. In this article, We propose a novel approach to detect SARS-CoV-2 using CT-scan images. Our method is based on a very intuitive and natural idea of analyzing shapes, an attempt to mimic a professional medic. We mainly trace SARS-CoV-2 features by quantifying their topological properties. We primarily use a tool called persistent homology, from Topological Data Analysis (TDA), to compute these topological properties. We train and test our model on the "SARS-CoV-2 CT-scan dataset" \citep{soares2020sars}, an open-source dataset, containing 2,481 CT-scans of normal and COVID-19 patients. Our model yielded an overall benchmark F1 score of $99.42\% $, accuracy $99.416\%$, precision $99.41\%$, and recall $99.42\%$. The TDA techniques have great potential that can be utilized for efficient and prompt detection of COVID-19. The immense potential of TDA may be exploited in clinics for rapid and safe detection of COVID-19 globally, in particular in the low and middle-income countries where RT-PCR labs and/or kits are in a serious crisis.
翻訳日:2021-02-23 14:38:35 公開日:2021-02-21
# 凸面上の最も近い点を見つけるためのスケッチ法

A Sketching Method for Finding the Closest Point on a Convex Hull ( http://arxiv.org/abs/2102.10502v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 我々は,データセットの凸殻上の点を,その外側の問合せ点に最も近いようにスケッチするアルゴリズムを開発した。 データセットの凸包の研究は、その幾何学的構造とその分布に関する有用な情報を提供することができる。 多くの機械学習データセットは多数の特徴を持つサンプルを持っているが、計算幾何学における正確なアルゴリズムは通常そのような設定のために設計されていない。 あるいは、線形制約を持つ線型最小二乗問題として定式化することもできる。 しかし、標準最適化アルゴリズムを使って問題を解決することは、大規模なデータセットにとって非常に高価である。 提案アルゴリズムでは,データ構造を利用したスケッチ処理を行い,無関係な点から最適化プロセスを解き放つ。 これには、データを断片に分割し、徐々にピースをつなぎ合わせながら、アクティブな制約セットを迅速に変更できる勾配のプロジェクトメソッドを使用して最適なソリューションを改善します。 本手法は, 既成のアルゴリズムよりも高速な凸問題の最適解を導出する。

We develop a sketching algorithm to find the point on the convex hull of a dataset, closest to a query point outside it. Studying the convex hull of datasets can provide useful information about their geometric structure and their distribution. Many machine learning datasets have large number of samples with large number of features, but exact algorithms in computational geometry are usually not designed for such setting. Alternatively, the problem can be formulated as a linear least-squares problem with linear constraints. However, solving the problem using standard optimization algorithms can be very expensive for large datasets. Our algorithm uses a sketching procedure to exploit the structure of the data and unburden the optimization process from irrelevant points. This involves breaking the data into pieces and gradually putting the pieces back together, while improving the optimal solution using a gradient project method that can rapidly change its active set of constraints. Our method eventually leads to the optimal solution of our convex problem faster than off-the-shelf algorithms.
翻訳日:2021-02-23 14:34:21 公開日:2021-02-21
# 不均質情報ネットワークにおけるレコメンデーションの遺伝的メタ構造探索

Genetic Meta-Structure Search for Recommendation on Heterogeneous Information Network ( http://arxiv.org/abs/2102.10550v1 )

ライセンス: Link先を確認
Zhenyu Han, Fengli Xu, Jinghan Shi, Yu Shang, Haorui Ma, Pan Hui, Yong Li(参考訳) 過去10年間で、異種情報ネットワーク(HIN)は現代のレコメンデーターシステムにとって重要な方法論となっている。 そのパワーをフル活用するために、手動設計のネットワークテンプレート、すなわちメタ構造を導入し、セマンティック・アウェア情報をフィルタリングする。 手作りのメタ構造は、労力とデータに依存した高度な専門家の知識に依存している。 一方、メタ構造の数は、そのサイズとノードタイプ数によって指数関数的に増加するため、ブルートフォース検索は禁止される。 これらの課題に対処するために、HINの推薦のためのメタ構造設計を自動的に最適化する遺伝的メタ構造探索(GEMS)を提案する。 具体的には、GEMSは、推奨のために意味のあるメタ構造を探索する並列遺伝的アルゴリズムを採用し、検索空間を効率的に探索する専用のルールとメタ構造予測器を設計します。 最後に,様々なメタ構造から情報を動的に融合するマルチビューグラフ畳み込みネットワークモジュールを提案する。 3つの実世界のデータセットに対する大規模な実験は、GEMSの有効性を示唆している。 手作業によるメタパスを利用する簡略化されたGEMSと比較して、GEMSはほとんどの評価指標で$ 6\%$パフォーマンス向上を達成します。 より重要なことは、hinベースのレコメンダシステム設計に光を当てる、特定されたメタ構造に関する詳細な分析を行います。

In the past decade, the heterogeneous information network (HIN) has become an important methodology for modern recommender systems. To fully leverage its power, manually designed network templates, i.e., meta-structures, are introduced to filter out semantic-aware information. The hand-crafted meta-structure rely on intense expert knowledge, which is both laborious and data-dependent. On the other hand, the number of meta-structures grows exponentially with its size and the number of node types, which prohibits brute-force search. To address these challenges, we propose Genetic Meta-Structure Search (GEMS) to automatically optimize meta-structure designs for recommendation on HINs. Specifically, GEMS adopts a parallel genetic algorithm to search meaningful meta-structures for recommendation, and designs dedicated rules and a meta-structure predictor to efficiently explore the search space. Finally, we propose an attention based multi-view graph convolutional network module to dynamically fuse information from different meta-structures. Extensive experiments on three real-world datasets suggest the effectiveness of GEMS, which consistently outperforms all baseline methods in HIN recommendation. Compared with simplified GEMS which utilizes hand-crafted meta-paths, GEMS achieves over $6\%$ performance gain on most evaluation metrics. More importantly, we conduct an in-depth analysis on the identified meta-structures, which sheds light on the HIN based recommender system design.
翻訳日:2021-02-23 14:34:06 公開日:2021-02-21
# 信頼領域分割によるマルチエージェント強化学習における非定常処理

Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via Trust Region Decomposition ( http://arxiv.org/abs/2102.10616v1 )

ライセンス: Link先を確認
Wenhao Li, Xiangfeng Wang, Bo Jin, Junjie Sheng, Hongyuan Zha(参考訳) 非定常性は、学習手順中のエージェントのポリシー変更によって引き起こされるマルチエージェント強化学習における厄介な問題です。 この問題を解決する現在の取り組みには、中央集権的な批評家や分散アクター(ccda)、人口ベースのセルフプレイ、その他のモデリングなど、有効性とスケーラビリティに独自の制限がある。 本稿では, 新規に$\delta$-stationarity測定法を導入し, 共同政策の発散に比例することが理論的に証明された政策シーケンスの定常性を明示的にモデル化する。 しかし、平均場近似のような単純な政策因子化は、信頼領域分解ジレンマとみなすことができるより大きな政策発散につながる。 共同政策を一般的なマルコフ確率場としてモデル化し、メッセージパッシングに基づく信頼領域分解ネットワークを提案し、共同政策の発散をより正確に推定する。 MAMTと呼ばれるトラスト領域分解を伴うマルチエージェントミラー下降ポリシーアルゴリズムは、$\delta$-stationarityを満たす目的で確立されています。 MAMTは、地域政策の信頼領域をエンドツーエンドで適応的に調整できるため、非定常問題を緩和するために共同政策の発散をほぼ制限することができます。 本手法は,複雑度の異なるコーディネーションタスクのベースラインと比較して,目立った,安定した性能向上を実現する。

Non-stationarity is one thorny issue in multi-agent reinforcement learning, which is caused by the policy changes of agents during the learning procedure. Current works to solve this problem have their own limitations in effectiveness and scalability, such as centralized critic and decentralized actor (CCDA), population-based self-play, modeling of others and etc. In this paper, we novelly introduce a $\delta$-stationarity measurement to explicitly model the stationarity of a policy sequence, which is theoretically proved to be proportional to the joint policy divergence. However, simple policy factorization like mean-field approximation will mislead to larger policy divergence, which can be considered as trust region decomposition dilemma. We model the joint policy as a general Markov random field and propose a trust region decomposition network based on message passing to estimate the joint policy divergence more accurately. The Multi-Agent Mirror descent policy algorithm with Trust region decomposition, called MAMT, is established with the purpose to satisfy $\delta$-stationarity. MAMT can adjust the trust region of the local policies adaptively in an end-to-end manner, thereby approximately constraining the divergence of joint policy to alleviate the non-stationary problem. Our method can bring noticeable and stable performance improvement compared with baselines in coordination tasks of different complexity.
翻訳日:2021-02-23 14:33:44 公開日:2021-02-21