このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210129となっている論文です。

PDF登録状況(公開日: 20210129)

TitleAuthorsAbstract論文公表日・翻訳日
# コヒーレント散乱による室温での強光機械的カップリング

Strong Optomechanical Coupling at Room Temperature by Coherent Scattering ( http://arxiv.org/abs/2005.10201v2 )

ライセンス: Link先を確認
Andr\'es de los R\'ios Sommer, Nadine Meyer, Romain Quidant(参考訳) システムの量子制御は、いかなるデコヒーレンスレートよりも早く量子状態の操作を必要とする。 メソスコピック系では、これまでのところ極低温系でしか到達していない。 量子制御における重要なマイルストーンはいわゆる強結合レジームであり、キャビティ光学ではキャビティ崩壊速度や機械的減衰よりも大きい光機械的結合強度に対応する。 ここでは, 浮遊シリカ粒子と高精細光空洞との間の室温における強い結合状態を示す。 通常のモード分割は、空洞を直接駆動する代わりにコヒーレント散乱を用いることによって達成される。 ここで達成された結合強度は空洞の直線幅の3倍に近づき、強い結合状態に深く入り込む。 強結合状態に入ることは、室温でメソスコピックな物体を持つ量子制御に不可欠なステップである。

Quantum control of a system requires the manipulation of quantum states faster than any decoherence rate. For mesoscopic systems, this has so far only been reached by few cryogenic systems. An important milestone towards quantum control is the so-called strong coupling regime, which in cavity optomechanics corresponds to an optomechanical coupling strength larger than cavity decay rate and mechanical damping. Here, we demonstrate the strong coupling regime at room temperature between a levitated silica particle and a high finesse optical cavity. Normal mode splitting is achieved by employing coherent scattering, instead of directly driving the cavity. The coupling strength achieved here approaches three times the cavity linewidth, crossing deep into the strong coupling regime. Entering the strong coupling regime is an essential step towards quantum control with mesoscopic objects at room temperature.
翻訳日:2023-05-19 05:51:57 公開日:2021-01-29
# wifitrace:パッシブwifiセンシングを用いた感染症のネットワークベースの接触追跡

WiFiTrace: Network-based Contact Tracing for Infectious Diseases Using Passive WiFi Sensing ( http://arxiv.org/abs/2005.12045v3 )

ライセンス: Link先を確認
Amee Trivedi, Camellia Zakaria, Rajesh Balan, Prashant Shenoy(参考訳) 接触追跡は、感染症の拡散を封じ込めるための確立された効果的なアプローチである。 近年,Bluetoothを利用した接触追跡手法が普及しているが,これらの手法は重要な大量採用の必要性に悩まされている。 本稿では、クライアント側を介さずに、パッシブWiFiセンシングに依存する、ネットワーク中心の接触追跡手法であるWiFiTraceを提案する。 提案手法では,企業ネットワークが収集したWiFiネットワークログをパフォーマンスとセキュリティ監視に利用し,デバイストラジェクトリを再構築してコンタクトトレースを行う。 我々のアプローチは、新しい技術に取って代わるのではなく、従来の手法の有効性を高めるために特別に設計されている。 数万のユーザを持つ大規模ネットワークにアプローチをスケールするための,効率的なグラフアルゴリズムを設計した。 グラフベースのアプローチは、インデックス更新のオーバーヘッドやブロッキングを伴わずに、インデックス付きPostgresSQLを少なくとも4.5倍上回る。 システムの全プロトタイプを実装し、2つの大きな大学キャンパスに展開した。 実世界のWiFiデータセットを用いたケーススタディと詳細な実験により,本手法の有効性を検証した。

Contact tracing is a well-established and effective approach for the containment of the spread of infectious diseases. While Bluetooth-based contact tracing method using phones has become popular recently, these approaches suffer from the need for a critical mass adoption to be effective. In this paper, we present WiFiTrace, a network-centric approach for contact tracing that relies on passive WiFi sensing with no client-side involvement. Our approach exploits WiFi network logs gathered by enterprise networks for performance and security monitoring, and utilizes them for reconstructing device trajectories for contact tracing. Our approach is specifically designed to enhance the efficacy of traditional methods, rather than to supplant them with new technology. We designed an efficient graph algorithm to scale our approach to large networks with tens of thousands of users. The graph-based approach outperforms an indexed PostgresSQL in memory by at least 4.5X without any index update overheads or blocking. We have implemented a full prototype of our system and deployed it on two large university campuses. We validated our approach and demonstrate its efficacy using case studies and detailed experiments using real-world WiFi datasets.
翻訳日:2023-05-18 12:31:40 公開日:2021-01-29
# 物理学におけるコンピュータ代数:水素原子の隠されたSO(4)対称性

Computer Algebra in Physics: The hidden SO(4) symmetry of the hydrogen atom ( http://arxiv.org/abs/2006.12498v2 )

ライセンス: Link先を確認
Pascal Szriftgiser, Edgardo S. Cheb-Terrab(参考訳) パウリは、量子力学の初期において水素原子の隠れたso(4)対称性に最初に気づいた([1])。 この対称性から離れると、スピンレス水素原子のスペクトルと状態の縮退を、明示的にシュリンガー方程式 [2] を解くことなく取り戻すことができる。 本稿では,計算機代数システム(CAS)を用いて,SO(4)対称性とスペクトルを導出する。 この問題は [3, 4] よく知られているが、その解はテンソル量子作用素と式を操るいくつかのステップを伴い、可換規則とアインシュタインの指数の和則の組み合わせを考慮してそれらを単純化する。 したがって、この種の量子・テンソル・代数計算に関するCASの現状をテストするには優れたモデルである。 一般的に言えば、CASは代数規則に従属する非可換テンソル計算のように、退屈で時間がかかり、エラーを起こしやすい操作に大いに役立つ。 このプレゼンテーションはまた、より複雑な記号的問題を体系的に取り組むのに役立つコンピュータ代数演算のパターンも示している。

Pauli first noticed the hidden SO(4) symmetry for the Hydrogen atom in the early stages of quantum mechanics [1]. Departing from that symmetry, one can recover the spectrum of a spinless hydrogen atom and the degeneracy of its states without explicitly solving Schr\"odinger's equation [2]. In this paper, we derive that SO(4) symmetry and spectrum using a computer algebra system (CAS). While this problem is well known [3, 4], its solution involves several steps of manipulating expressions with tensorial quantum operators, simplifying them by taking into account a combination of commutator rules and Einstein's sum rule for repeated indices. Therefore, it is an excellent model to test the current status of CAS concerning this kind of quantum-and-tensor-algebra computations. Generally speaking, when capable, CAS can significantly help with manipulations that, like non-commutative tensor calculus subject to algebra rules, are tedious, time-consuming and error-prone. The presentation also shows a pattern of computer algebra operations that can be useful for systematically tackling more complicated symbolic problems of this kind.
翻訳日:2023-05-13 04:51:17 公開日:2021-01-29
# 量子オットーエンジンに対する非マルコフ効果:-系--保存相互作用の役割-

Non-Markovian effect on quantum Otto engine: -Role of system--reservoir interaction- ( http://arxiv.org/abs/2006.13586v2 )

ライセンス: Link先を確認
Yuji Shirai, Kazunari Hashimoto, Ryuta Tezuka, Chikako Uchiyama and Naomichi Hatano(参考訳) 各サイクルが2つの有限時間量子イソコリック(加熱または冷却)プロセスと2つの量子断熱作業抽出プロセスからなる量子オットーエンジンの極限サイクルについて検討する。 無限個のボソンからなる2つの貯水池と弱に相互作用する作用物質としての2レベル系を考えると、サイクルの無限反復後の作業抽出における非マルコフ効果(量子等調過程(qips)における還元ダイナミクスの短時間挙動)について検討する。 我々は,貯水池に移動するエネルギーが短時間でシステムに戻るパラメータ領域に注目し,この領域をエネルギー逆流と呼び,部分量子力学的可逆性を示す。 巨視的熱力学とは完全に異なる状況として, qipsにおける貯留層の平均エネルギー変化を全計数統計を用いて評価することにより, 相互作用エネルギーは有限かつ負であることが判明した。 この特徴は、(1)カルノーの定理は相互作用エネルギーを含む仕事の定義と一致しているが、相互作用を除く仕事の定義は熱力学法則と深刻な矛盾を招き、(2)エネルギー逆流は仕事の抽出を増加させる。 その結果、有限時間に作動する量子オットーエンジンの設計において、系-保存相互作用が弱い場合でも、非マルコフ効果を含める必要があるため、相互作用エネルギーに注意を払う必要があることがわかった。

We study a limit cycle of a quantum Otto engine whose each cycle consists of two finite-time quantum isochoric (heating or cooling) processes and two quantum adiabatic work-extracting processes. Considering a two-level system as a working substance that weakly interacts with two reservoirs comprising an infinite number of bosons, we investigate the non-Markovian effect (short-time behavior of the reduced dynamics in the quantum isochoric processes (QIPs)) on work extraction after infinite repetition of the cycles. We focus on the parameter region where energy transferred to the reservoir can come back to the system in a short-time regime, which we call energy backflow to show partial quantum-mechanical reversibility. As a situation completely different from macroscopic thermodynamics, we find that the interaction energy is finite and negative by evaluating the average energy change of the reservoir during the QIPs by means of the full-counting statistics, corresponding to the two-point measurements. The feature leads us to the following findings: (1) the Carnot theorem is consistent with a definition of work including the interaction energy, although the commonly used definition of work excluding the interaction leads to a serious conflict with the thermodynamic law, and (2) the energy backflow can increase the work extraction. Our findings show that we need to pay attention to the interaction energy in designing a quantum Otto engine operated in a finite time, which requires us to include the non-Markovian effect, even when the system-reservoir interaction is weak.
翻訳日:2023-05-12 22:35:03 公開日:2021-01-29
# ギャンブルデーモンの熱力学

Thermodynamics of Gambling Demons ( http://arxiv.org/abs/2008.01630v3 )

ライセンス: Link先を確認
Gonzalo Manzano, Diego Subero, Olivier Maillet, Rosario Fazio, Jukka P. Pekola and \'Edgar Rold\'an(参考訳) 我々は,非平衡過程を確率的に停止する慣例的なギャンブル戦略に従う悪魔を紹介し,実現する。 ギャンブルの存在下で行う平均的な作業に対する第二法則的な不等式と、古典的および量子的非定常確率過程に対する普遍的な停止時間変動関係を導出する。 実験では、静電ポテンシャルが個々の電子のダイナミックスを金属の島にトンネルさせる単一電子箱を用いて実験を行った。 量子ジャンプ軌跡を測定するギャンブルデーモンにおけるコヒーレンスの役割についても論じる。

We introduce and realize demons that follow a customary gambling strategy to stop a nonequilibrium process at stochastic times. We derive second-law-like inequalities for the average work done in the presence of gambling, and universal stopping-time fluctuation relations for classical and quantum non-stationary stochastic processes. We test experimentally our results in a single-electron box, where an electrostatic potential drives the dynamics of individual electrons tunneling into a metallic island. We also discuss the role of coherence in gambling demons measuring quantum jump trajectories.
翻訳日:2023-05-07 04:23:02 公開日:2021-01-29
# ウィキメディアプロジェクトにおける知識ギャップの分類(第2版)

A Taxonomy of Knowledge Gaps for Wikimedia Projects (Second Draft) ( http://arxiv.org/abs/2008.12314v2 )

ライセンス: Link先を確認
Miriam Redi, Martin Gerlach, Isaac Johnson, Jonathan Morgan, and Leila Zia(参考訳) In January 2019, prompted by the Wikimedia Movement's 2030 strategic direction, the Research team at the Wikimedia Foundation identified the need to develop a knowledge gaps index -- a composite index to support the decision makers across the Wikimedia movement by providing: a framework to encourage structured and targeted brainstorming discussions; data on the state of the knowledge gaps across the Wikimedia projects that can inform decision making and assist with measuring the long term impact of large scale initiatives in the Movement. After its first release in July 2020, the Research team has developed the second complete draft of a taxonomy of knowledge gaps for the Wikimedia projects, as the first step towards building the knowledge gap index. We studied more than 250 references by scholars, researchers, practitioners, community members and affiliates -- exposing evidence of knowledge gaps in readership, contributorship, and content of Wikimedia projects. 本稿では,この知見を詳述し,知識ギャップの分類法をまとめ,知識ギャップを構造化されたフレームワークに分類,分類する。 残りの作業でさらに学ぶことになる分類学は、知識ギャップ指数を通じて、2つの2030年の戦略的方向性の1つである知識エクイティを運用し、定量化する基礎となるでしょう。

In January 2019, prompted by the Wikimedia Movement's 2030 strategic direction, the Research team at the Wikimedia Foundation identified the need to develop a knowledge gaps index -- a composite index to support the decision makers across the Wikimedia movement by providing: a framework to encourage structured and targeted brainstorming discussions; data on the state of the knowledge gaps across the Wikimedia projects that can inform decision making and assist with measuring the long term impact of large scale initiatives in the Movement. After its first release in July 2020, the Research team has developed the second complete draft of a taxonomy of knowledge gaps for the Wikimedia projects, as the first step towards building the knowledge gap index. We studied more than 250 references by scholars, researchers, practitioners, community members and affiliates -- exposing evidence of knowledge gaps in readership, contributorship, and content of Wikimedia projects. We elaborated the findings and compiled the taxonomy of knowledge gaps in this paper, where we describe, group and classify knowledge gaps into a structured framework. The taxonomy that you will learn more about in the rest of this work will serve as a basis to operationalize and quantify knowledge equity, one of the two 2030 strategic directions, through the knowledge gaps index.
翻訳日:2023-05-04 19:27:52 公開日:2021-01-29
# エネルギー空間格子におけるエネルギー分解情報スクランブル

Energy-Resolved Information Scrambling in Energy-Space Lattices ( http://arxiv.org/abs/2009.02361v2 )

ライセンス: Link先を確認
S. Pegahan, I. Arakelyan and J. E. Thomas(参考訳) フェルミガスの弱い相互作用はエネルギー空間におけるスピン格子をシミュレートし、多体量子系における情報拡散とスピンコヒーレンスを研究するための豊富なプラットフォームを提供する。 スピンベクトルは、測定されたスピン密度からエネルギーの関数として決定できることを示し、一般的なエネルギー空間解決プロトコルを実現する。 本システムでは,時間外相関関数を測定し,多体コヒーレンスのエネルギー依存性を観測する。

Weakly interacting Fermi gases simulate spin-lattices in energy-space, offering a rich platform for investigating information spreading and spin coherence in a large many-body quantum system. We show that the collective spin vector can be determined as a function of energy from the measured spin density, enabling general energy-space resolved protocols. We measure an out-of-time-order correlation function in this system and observe the energy dependence of the many-body coherence.
翻訳日:2023-05-03 20:34:01 公開日:2021-01-29
# チュートリアル:ゲート型超伝導量子コンピューティング

Tutorial: Gate-based superconducting quantum computing ( http://arxiv.org/abs/2009.08021v3 )

ライセンス: Link先を確認
Sangil Kwon, Akiyoshi Tomonaga, Gopika Lakshmi Bhai, Simon J. Devitt, and Jaw-Shen Tsai(参考訳) 本稿では,ゲート型超伝導量子コンピューティングシステムを理解し構築するための基本的な概念的要素を紹介する。

In this tutorial, we introduce basic conceptual elements to understand and build a gate-based superconducting quantum computing system.
翻訳日:2023-05-02 00:24:43 公開日:2021-01-29
# 証人オペレーターは、$d_{1}\otimes d_{2}$ dimensional system における二成分結合絡み状態の合流点下限のより良い推定を提供する

Witness Operator Provides Better Estimate of the Lower Bound of Concurrence of Bipartite Bound Entangled States in $d_{1}\otimes d_{2}$ Dimensional System ( http://arxiv.org/abs/2010.05035v2 )

ライセンス: Link先を確認
Shruti Aggarwal and Satyabrata Adhikari(参考訳) 証人演算子は絡み合った状態の検出と定量化に有用であることが知られている。 これは、多くの混合絡み合った状態を検出する証人演算子の家族を構築する動機となった。 この証人演算子のファミリーは、検出された混合絡み合い状態の合流率の下限を推定するために使用される。 証人作用素の構成法は、任意の$d_{1}\otimes d_{2} (d_{1}\leq d_{2})$次元系における絡み合った状態の収束のより低い境界を、 \cite{kchen} で与えられる収束の下位境界と比較して推定するという意味で重要である。 我々は,従来手法では検出されなかった多数の拘束的絡み合い状態を検出し,それらの拘束的絡み合い状態の結束率の下限を推定するために証人演算子の期待値を用いることにより,構築された証人オペレーターの意義を示した。

It is known that the witness operator is useful in the detection and quantification of entangled states. This motivated us for the construction of the family of witness operators that can detect many mixed entangled states. This family of witness operators is then used to estimate the lower bound of concurrence of the detected mixed entangled states. Our method of construction of witness operator is important in the sense that it will estimate a better lower bound of concurrence of the entangled states in arbitrary $d_{1}\otimes d_{2} (d_{1}\leq d_{2})$ dimensional system compared to the lower bound of the concurrence given in \cite{kchen}. We have shown the significance of our constructed witness operator by detecting many bound entangled states that are not detected by the earlier methods and then we use the expectation value of the witness operator to estimate the lower bound of the concurrence of those bound entangled states.
翻訳日:2023-04-29 11:24:04 公開日:2021-01-29
# gkp量子コンピューティングのための動的デカップリングによるtwirlingとhamiltonian engineering

Twirling and Hamiltonian Engineering via Dynamical Decoupling for GKP Quantum Computing ( http://arxiv.org/abs/2010.13853v3 )

ライセンス: Link先を確認
Jonathan Conrad(参考訳) 本稿では,GKP量子誤差補正における効率的な論理チャネルの対角化,GKP符号空間へのプロジェクション,高速変位パルスを用いた動的デカップリングシーケンスの構築,GKP安定化器であるハミルトン人を適切な基板-ハミルトンから蒸留するエネルギー制約近似トワイリング演算を提案する。 後者は、ジョセフソン接合と平行な重インダクタンスを含むLCオシレータによって与えられる。 このプラットフォームは原則として、"パッシブ"安定化GKP量子ビットを動的に生成することで、明確な安定化器の測定や状態リセットなしに保護されたGKP量子コンピューティングを可能にする。

I introduce an energy constrained approximate twirling operation that can be used to diagonalize effective logical channels in GKP quantum error correction, project states into the GKP code space and construct a dynamical decoupling sequence with fast displacements pulses to distill the GKP stabilizer Hamiltonians from a suitable substrate-Hamiltonian. The latter is given by an LC-oscillator comprising a superinductance in parallel to a Josephson Junction. This platform in principle allows for protected GKP quantum computing without explicit stabilizer measurements or state-reset by dynamically generating a `passively' stabilized GKP qubit.
翻訳日:2023-04-27 11:11:13 公開日:2021-01-29
# 北エフ連鎖による電流の完全な数え上げ統計と交換変動定理

Full counting statistics of the currents through a Kitaev chain and the exchange fluctuation theorem ( http://arxiv.org/abs/2011.05823v2 )

ライセンス: Link先を確認
Fan Zhang and H. T. Quan(参考訳) 交換ゆらぎ定理 (xfts) は、粒子の基本的な対称性と複数の系間のエネルギー交換の関係を記述する。 ここでは、同じ温度で2つの貯水池に接続される北エフ鎖のXFTについて検討する。 キタエフ連鎖モデルのパラメータを変化させることで、トランスポート電流の全計数統計を解析的に計算し、対応するxftを複数の電流成分に対して定式化する。 また,xftの数値計算結果も示す。 北エフ鎖のハミルトニアンにおけるU(1)対称性の破れ項の存在により、XFTの様々な形態が出現し、それらはよく知られた輸送過程の観点で解釈できる。

Exchange fluctuation theorems (XFTs) describe a fundamental symmetry relation for particle and energy exchange between several systems. Here we study the XFTs of a Kitaev chain connected to two reservoirs in the same temperature but different bias. By varying the parameters in the Kitaev chain model, we calculate analytically the full counting statistics of the transport current and formulate the corresponding XFTs for multiple current components. We also demonstrate the XFTs with numerical results. We find that due to the presence of the U(1) symmetry breaking terms in the Hamiltonian of the Kitaev chain, various forms of the XFTs emerge, and they can be interpreted in terms of various well-known transport processes.
翻訳日:2023-04-24 11:41:13 公開日:2021-01-29
# 全光学スカラー原子磁気センサを用いたベクトル計測

Vector Measurements Using All Optical Scalar Atomic Magnetometers ( http://arxiv.org/abs/2011.08943v2 )

ライセンス: Link先を確認
Rui Zhang, Rahul Mhaskar, Ken Smith, Easswar Balasubramaniam, and Mark Prouty(参考訳) スカラー動作に関する固有パラメータを用いた全光学スカラー原子磁気センサを用いてベクトル場測定を行った。 ベルブルーム型原子磁気センサは、プローブビームのオン共鳴吸収によってセシウム原子のラーモアの利得を測定する。 プローブ信号の交流成分は磁場強度測定に使用されるが、プローブdc信号には磁場とプローブビームの間の角度として定義される極角に関する情報が含まれている。 プローブビームの周波数変調による光シフト誘起磁場から追加の極角情報を得る。 測定時間は100ミリ秒で、最適なセンサー配向の商用小型センサを用いて0.02度以上の感度を達成している。 角測定精度は、光エンコーダに対して0〜180度の全極角範囲でチェックされる。 1度以上の誤差は、ほとんどの設定された極角で記録される。 方位角測定には直交方向の2つのセンサーが使用される。

Vector field measurement is demonstrated with an all-optical scalar atomic magnetometer using intrinsic parameters related to its scalar operation. The Bell-Bloom type atomic magnetometer measures the Larmor precession of cesium atoms through on-resonant absorption of a probe beam. While the AC component of the probe signal is used for the field magnitude measurement, the probe DC signal contains information about the polar angle, defined as the angle between the magnetic field and the probe beam. Additional polar angle information is obtained from the light-shift-induced magnetic field caused by the frequency modulation of the probe beam. With a measurement time of 100 milliseconds, better than 0.02 degree sensitivity has been achieved using a commercial miniaturized sensor at the optimal sensor orientation. The angle measurement accuracy is checked against an optical encoder over the entire polar angle range of 0 to 180 degrees. Better than 1 degree error is recorded over most set polar angles. Azimuthal angle measurement is also exhibited with two orthogonally oriented sensors.
翻訳日:2023-04-23 21:11:47 公開日:2021-01-29
# 光コヒーレントフィードバックによるキャビティ光学

Cavity optomechanics assisted by optical coherent feedback ( http://arxiv.org/abs/2011.11585v3 )

ライセンス: Link先を確認
Alfred Harwood, Matteo Brunelli, Alessio Serafini(参考訳) 線形化された状態で動作するオプトロメカニカルシステムに作用する光コヒーレントフィードバックループを幅広く検討する。 我々は, 冷却, 定常スキューズ, 絡み込みなどのキー操作の改善, および光学的・機械的状態伝達におけるそのようなループの有効性を評価する。 機械的サイドバンド冷却は, 受動的, 干渉的コヒーレントフィードバックにより向上し, 低定常占有を実現し, 冷却過程を著しく高速化し, 非ゼロ遅延時間による冷却性能の劣化効果を定量化する。 青いサイドバンドにおける定常的な絡み合い生成は、パッシブ干渉フィードバックによっても助けられるため、不安定なシステムを安定化させることができるが、アクティブフィードバック(スクイージング要素を含む)はこの目的に役立たない。 アクティブフィードバックループは、光学的にしか生成できないが、機械的スクイーズはできないことを示す。 最後に, 強い結合状態にあるレッドサイドバンド駆動システムにおいて, 受動的フィードバックが過渡時間における状態伝達を支援することを証明する。

We consider a wide family of optical coherent feedback loops acting on an optomechanical system operating in the linearized regime. We assess the efficacy of such loops in improving key operations, such as cooling, steady-state squeezing and entanglement, as well as optical to mechanical state transfer. We find that mechanical sideband cooling can be enhanced through passive, interferometric coherent feedback, achieving lower steady-state occupancies and considerably speeding up the cooling process; we also quantify the detrimental effect of non-zero delay times on the cooling performance. Steady state entanglement generation in the blue sideband can also be assisted by passive interferometric feedback, which allows one to stabilise otherwise unstable systems, though active feedback (including squeezing elements) does not help to this aim. We show that active feedback loops only allow for the generation of optical, but not mechanical squeezing. Finally, we prove that passive feedback can assist state transfer at transient times for red-sideband driven systems in the strong coupling regime.
翻訳日:2023-04-23 09:00:46 公開日:2021-01-29
# アルゴリズムによるワクチン誤情報のための電子商取引プラットフォームの検討

Auditing E-Commerce Platforms for Algorithmically Curated Vaccine Misinformation ( http://arxiv.org/abs/2101.08419v2 )

ライセンス: Link先を確認
Prerna Juneja, Tanushree Mitra(参考訳) eコマースプラットフォームがワクチンの誤情報を増幅しているとの懸念が高まっている。 本研究は,amazon(アマゾン)の検索アルゴリズムと推奨アルゴリズムについて,ワクチンの誤情報に対するアルゴリズム監査を2セット実施する。 まず、プラットフォームにログインすることなく、ワクチン関連検索列に属する検索結果を体系的に監査する。 検索結果の10.47%が不正な健康製品を促進している。 また、ランキングバイアスも観察し、amazonのランキングミスインフォーマティブな検索結果は、検索結果を非難するよりも高い。 次に、商品のクリックなど、さまざまな現実世界のユーザアクションを実行することによって、歴史が徐々に構築されるアカウント履歴によるパーソナライズの効果を分析する。 我々は,Amazonの推薦でフィルタバブル効果の証拠を見出した。誤報製品に対するアクションを行うアカウントは,中性製品に対するアクションを行うアカウントよりも誤情報が多い。 面白いことに、ユーザーが不正な商品をクリックすると、ユーザーがその商品を買う意思を示すのと比べてホームページの推薦が汚染される。

There is a growing concern that e-commerce platforms are amplifying vaccine-misinformation. To investigate, we conduct two-sets of algorithmic audits for vaccine misinformation on the search and recommendation algorithms of Amazon -- world's leading e-retailer. First, we systematically audit search-results belonging to vaccine-related search-queries without logging into the platform -- unpersonalized audits. We find 10.47% of search-results promote misinformative health products. We also observe ranking-bias, with Amazon ranking misinformative search-results higher than debunking search-results. Next, we analyze the effects of personalization due to account-history, where history is built progressively by performing various real-world user-actions, such as clicking a product. We find evidence of filter-bubble effect in Amazon's recommendations; accounts performing actions on misinformative products are presented with more misinformation compared to accounts performing actions on neutral and debunking products. Interestingly, once user clicks on a misinformative product, homepage recommendations become more contaminated compared to when user shows an intention to buy that product.
翻訳日:2023-04-14 08:44:31 公開日:2021-01-29
# 近傍保存層によるニューラルネットワークのロバスト性向上

Improving Neural Network Robustness through Neighborhood Preserving Layers ( http://arxiv.org/abs/2101.11766v2 )

ライセンス: Link先を確認
Bingyuan Liu, Christopher Malon, Lingzhou Xue and Erik Kruus(参考訳) ニューラルネットワークにおける敵攻撃に対するロバスト性は、機械学習コミュニティにおいて重要な研究トピックである。 ニューラルネットの脆弱性の1つの主要な源は、過パラメーター化された完全接続層である。 本稿では,これら完全接続層を置き換え,ネットワークロバスト性を向上させる新しい近傍保存層を提案する。 このような層を組み込むことができ、効率的にトレーニングできる新しいニューラルネットワークアーキテクチャを示す。 理論上、我々のモデルは、勾配の大きさを効果的に制御するため、歪みに対してよりロバストであることが証明される。 最後に、我々の設計したネットワークアーキテクチャは、ベンチマークデータセットMNISTやCIFAR10に対するPGD攻撃など、最先端の勾配に基づく攻撃に対してより堅牢であることを示す。

Robustness against adversarial attack in neural networks is an important research topic in the machine learning community. We observe one major source of vulnerability of neural nets is from overparameterized fully-connected layers. In this paper, we propose a new neighborhood preserving layer which can replace these fully connected layers to improve the network robustness. We demonstrate a novel neural network architecture which can incorporate such layers and also can be trained efficiently. We theoretically prove that our models are more robust against distortion because they effectively control the magnitude of gradients. Finally, we empirically show that our designed network architecture is more robust against state-of-art gradient descent based attacks, such as a PGD attack on the benchmark datasets MNIST and CIFAR10.
翻訳日:2023-04-13 12:06:32 公開日:2021-01-29
# 窒素空洞中心アンサンブルを用いた外部核スピンの過分極

Hyperpolarisation of external nuclear spins using nitrogen-vacancy centre ensembles ( http://arxiv.org/abs/2101.12325v1 )

ライセンス: Link先を確認
A. J. Healey, L. T. Hall, G. A. L. White, T. Teraji, M.-A. Sani, F. Separovic, J.-P. Tetienne, L. C. L. Hollenberg(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、核磁気共鳴(NMR)実験の感度を高めるために分子系の非侵襲的に超分極する核スピンの候補として浮上している。 原理実験のいくつかの有望な証明は、単一のnvからダイヤモンドの外の水素スピンへの小規模の偏光移動を実証している。 しかし、現実的なNMR感度向上を実現するための必須条件である高密度NVアンサンブルの使用によるこれらの結果のスケールアップはまだ実証されていない。 本研究では,マイクロメートルスケールでの浅層nvアンサンブルと外部核ターゲットとの偏光相互作用の証拠を示し,有用な偏光強化を実現するための課題を特徴付ける。 固体ターゲットにおける水素との相互作用の最も好ましい例は、NVあたりの最大偏極移動率$\approx 7500$ spins を10^6$ NVsを含む領域で測定することである。 分子拡散が転移を制限する液体状態目標に対して、偏光効率の低下が認められる。 理論モデルを用いて解析した結果,現実的なダイヤモンド材料の改良によりNMR感度向上技術の実装が可能であることが示唆された。

The nitrogen-vacancy (NV) centre in diamond has emerged as a candidate to non-invasively hyperpolarise nuclear spins in molecular systems to improve the sensitivity of nuclear magnetic resonance (NMR) experiments. Several promising proof of principle experiments have demonstrated small-scale polarisation transfer from single NVs to hydrogen spins outside the diamond. However, the scaling up of these results to the use of a dense NV ensemble, which is a necessary prerequisite for achieving realistic NMR sensitivity enhancement, has not yet been demonstrated. In this work, we present evidence for a polarising interaction between a shallow NV ensemble and external nuclear targets over a micrometre scale, and characterise the challenges in achieving useful polarisation enhancement. In the most favourable example of the interaction with hydrogen in a solid state target, a maximum polarisation transfer rate of $\approx 7500$ spins per second per NV is measured, averaged over an area containing order $10^6$ NVs. Reduced levels of polarisation efficiency are found for liquid state targets, where molecular diffusion limits the transfer. Through analysis via a theoretical model, we find that our results suggest implementation of this technique for NMR sensitivity enhancement is feasible following realistic diamond material improvements.
翻訳日:2023-04-13 09:04:58 公開日:2021-01-29
# シリコン三重量子ドットにおけるバルブ間トンネル結合の空間的変化の探究

Probing the Spatial Variation of the Inter-Valley Tunnel Coupling in a Silicon Triple Quantum Dot ( http://arxiv.org/abs/2101.12594v1 )

ライセンス: Link先を確認
F. Borjans, X. Zhang, X. Mi, G. Cheng, N. Yao, C. A. C. Jackson, L. F. Edge, and J. R. Petta(参考訳) シリコン量子ドットに閉じ込められた電子は、軌道、スピン、バレー自由度を示す。 谷の自由度は6つの縮退した電子的ミニマを持つシリコンのバルクバンド構造に由来する。 縮退性は、ひずみと電子閉じ込めによるシリコン量子井戸で持ち上げることができるが、最も低い2つの谷の「バレー分割」は原子スケールの障害に敏感であることが知られている。 大きな谷の分割はよく定義されたスピンキュービットを持つことが望ましい。 さらに、隣接する量子ドットに異なる谷を結合するバレー間トンネル結合の理解は、エネルギー準位図のギャップがシリコン量子ドットアレイにおける電荷およびスピン移動プロトコルの忠実性に影響を与える可能性があるため、非常に重要である。 ここで、マイクロ波分光法を用いて谷の分割における空間的変動を観測し、三重量子ドット (tqd) 内の2つの点 (i$ と $j$) を結合したトンネル内結合 (t_{ij}$ と $t'_{ij}$) を観測する。 谷間と谷内トンネルの結合率の空間的変化は、$t_{12}'/t_{12}=0.90$と$t_{23}'/t_{23}=0.56$である。 インタードットトンネル障壁をチューニングすることにより、理論上予想されるように$t'_{ij}$が$t_{ij}$と線形にスケールすることを示す。 その結果, シリコン量子井戸の局所的不均一性に起因する近傍の点における谷間相互作用が強いことが示唆された。

Electrons confined in silicon quantum dots exhibit orbital, spin, and valley degrees of freedom. The valley degree of freedom originates from the bulk bandstructure of silicon, which has six degenerate electronic minima. The degeneracy can be lifted in silicon quantum wells due to strain and electronic confinement, but the "valley splitting" of the two lowest lying valleys is known to be sensitive to atomic-scale disorder. Large valley splittings are desirable to have a well-defined spin qubit. In addition, an understanding of the inter-valley tunnel coupling that couples different valleys in adjacent quantum dots is extremely important, as the resulting gaps in the energy level diagram may affect the fidelity of charge and spin transfer protocols in silicon quantum dot arrays. Here we use microwave spectroscopy to probe spatial variations in the valley splitting, and the intra- and inter-valley tunnel couplings ($t_{ij}$ and $t'_{ij}$) that couple dots $i$ and $j$ in a triple quantum dot (TQD). We uncover large spatial variations in the ratio of inter-valley to intra-valley tunnel couplings $t_{12}'/t_{12}=0.90$ and $t_{23}'/t_{23}=0.56$. By tuning the interdot tunnel barrier we also show that $t'_{ij}$ scales linearly with $t_{ij}$, as expected from theory. The results indicate strong interactions between different valley states on neighboring dots, which we attribute to local inhomogeneities in the silicon quantum well.
翻訳日:2023-04-13 09:03:29 公開日:2021-01-29
# オープン量子システムにおける超強光子結合の探索

Probing Ultrastrong Light-Matter Coupling in Open Quantum Systems ( http://arxiv.org/abs/2101.12545v1 )

ライセンス: Link先を確認
A. Ridolfo, J. Rajendran, L. Giannelli, E. Paladino, G. Falci(参考訳) 高度コヒーレント制御による超強結合光と物質の動的検出システムは,近年,特異な量子特性を検出するための一意なツールとして提案されている。 コヒーレンス(Coherence)は原則として、システムの絡み合った固有状態を実状態に変換する仮想光子のオンデマンド変換を可能にする。 ここでは,この効果を非一貫性の存在下で研究し,理想的レジームから遠く離れたところでは,このような特異な特徴を探究することができることを示した。

Dynamically probing systems of ultrastrongly coupled light and matter by advanced coherent control has been recently proposed as a unique tool for detecting peculiar quantum features of this regime. Coherence allows in principle on-demand conversion of virtual photons dressing the entangled eigenstates of the system to real ones, with unitary efficiency and remarkable robustness. Here we study this effect in the presence of decoherence, showing that also in far from ideal regimes is it possible to probe such peculiar features.
翻訳日:2023-04-13 09:02:29 公開日:2021-01-29
# 個別イベントシミュレーションによる救急外来における患者ピークの出現状況の影響

Effect of different patient peak arrivals on an Emergency Department via discrete event simulation ( http://arxiv.org/abs/2101.12432v1 )

ライセンス: Link先を確認
G. Fava (1), T. Giovannelli (1), M. Messedaglia (2), M. Roma (1) ((1) Dipartimento di Ingegneria Informatica Automatica e Gestionale ''A. Ruberti'', SAPIENZA Universit\`a di Roma, (2) ACTOR Start up of SAPIENZA Universit\`a di Roma)(参考訳) 救急署(EDs)の混雑は世界的に広く認知されている現象である。 その結果は、訪問の待ち時間と患者の治療から、生命を脅かす健康状態まで様々である。 国際社会は、この現象を分析し、待ち時間を短縮し、サービスの質を向上させるために、より一層の努力を払っている。 本枠組みでは,最近イタリア中部で発生した大地震の被害を受けた中規模EDを流れる患者の流れを解析するための離散事象シミュレーション(DES)モデルを提案する。 特に,本研究の目的は,患者の到着数を急上昇させる致命的な事象(自然災害など)に対応する異常なed条件をシミュレートすることである。 EDプロセスに関する詳細なデータの提供により、正確なDESモデルを構築し、広範なシナリオ分析を実行できるようになった。 このモデルはed管理者に有効な意思決定支援システムを提供するとともに、大量災害時に起動する特定の緊急計画を定義する。

Emergency Departments (EDs) overcrowding is a well recognized worldwide phenomenon. The consequences range from long waiting times for visits and treatment of patients up to life-threatening health conditions. The international community is devoting greater and greater efforts to analyze this phenomenon aiming at reducing waiting times, improving the quality of the service. Within this framework, we propose a Discrete Event Simulation (DES) model to study the patient flows through a medium-size ED located in a region of Central Italy recently hit by a severe earthquake. In particular, our aim is to simulate unusual ED conditions, corresponding to critical events (like a natural disaster) that cause a sudden spike in the number of patient arrivals. The availability of detailed data concerning the ED processes enabled to build an accurate DES model and to perform extensive scenario analyses. The model provides a valid decision support system for the ED managers also in defining specific emergency plans to be activated in case of mass casualty disasters.
翻訳日:2023-04-13 09:02:06 公開日:2021-01-29
# 通信効率の高い量子秘密共有の理論

Theory of Communication Efficient Quantum Secret Sharing ( http://arxiv.org/abs/2101.12419v1 )

ライセンス: Link先を確認
Kaushik Senthoor and Pradeep Kiran Sarvepalli(参考訳) $(((k,n))$ 量子しきい値秘密共有(QTS)スキームは、量子秘密を$n$のパーティ間で共有するための量子暗号プロトコルで、秘密を$k$以上のパーティで回収できるが、$k-1$以下のパーティでは秘密に関する情報が得られない。 これらのスキームに関する広範な研究にもかかわらず、回復中に量子通信コストを最適化する研究はほとんど行われていない。 近年,通信効率のよい量子しきい値秘密共有(CE-QTS)方式の研究を開始した。 これらのスキームは、回復のために$d\geq k$partyにアクセスすることで、qtsスキームにおける通信の複雑さを減少させる。 秘密裏に各キューディットを回収するために$k$ quditsを必要とする標準的なQTSスキームとは対照的に、これらのスキームは$\frac{d}{d-k+1}$ for $d>k$の通信コストが低い。 本稿では,通信効率のよい量子しきい値スキームの理論をさらに発展させる。 本稿では,すべての$d\geq k$の通信コストを同時に削減する汎用CE-QTS方式を提案する。 我々は、CE-QTSと普遍CE-QTSスキームを構築するために、ランプ量子秘密共有に基づくフレームワークを提供する。 ステアケース符号に基づく普遍CE-QTSスキームの別の構成を提案する。 コミュニケーションの複雑さの低い境界を導出し、構造が最適であることを示す。 最後に、CE-QTSスキームを解析するために情報理論モデルを開発し、このモデルを用いて通信複雑性の低い境界を再度証明する。

A $((k,n))$ quantum threshold secret sharing (QTS) scheme is a quantum cryptographic protocol for sharing a quantum secret among $n$ parties such that the secret can be recovered by any $k$ or more parties while $k-1$ or fewer parties have no information about the secret. Despite extensive research on these schemes, there has been very little study on optimizing the quantum communication cost during recovery. Recently, we initiated the study of communication efficient quantum threshold secret sharing (CE-QTS) schemes. These schemes reduce the communication complexity in QTS schemes by accessing $d\geq k$ parties for recovery; here $d$ is fixed ahead of encoding the secret. In contrast to the standard QTS schemes which require $k$ qudits for recovering each qudit in the secret, these schemes have a lower communication cost of $\frac{d}{d-k+1}$ for $d>k$. In this paper, we further develop the theory of communication efficient quantum threshold schemes. Here, we propose universal CE-QTS schemes which reduce the communication cost for all $d\geq k$ simultaneously. We provide a framework based on ramp quantum secret sharing to construct CE-QTS and universal CE-QTS schemes. We give another construction for universal CE-QTS schemes based on Staircase codes. We derived a lower bound on communication complexity and show that our constructions are optimal. Finally, an information theoretic model is developed to analyse CE-QTS schemes and the lower bound on communication complexity is proved again using this model.
翻訳日:2023-04-13 09:01:52 公開日:2021-01-29
# 対称性破断後の対称性保護トポロジーの動的シグネチャ

Dynamical signatures of symmetry protected topology following symmetry breaking ( http://arxiv.org/abs/2101.12405v1 )

ライセンス: Link先を確認
Jacob A. Marks, Michael Sch\"uler, Thomas P. Devereaux(参考訳) 本研究では,対称性を破る初期状態から始まる対称性保護トポロジカル(SPT)系の短時間非平衡力学におけるトポロジカルシグネチャについて検討する。 na\"真に、保護対称性が破られるとトポロジーは意味を失うと期待できる。 この直観を定義すれば、相互作用するSu-Schrieffer-Heeger(SSH)モデルにおいて、対称性の破れとクエンチダイナミクスの組み合わせがトポロジーの単一粒子と多体シグネチャをいかに生み出すかを示す。 対称性の破れ状態のダイナミクスから、ポスト・クエンチ・ハミルトニアンの射影に関する対称性の平衡位相位相図を動的に観測できることがわかった。 アンサンブル力学において、保護対称性の自発対称性の破れ(SSB)が、単位時間進化の下で固定されていない量子化された多体トポロジカルな「不変」をもたらすことを示す。 我々はこの「動的多体トポロジー」(DMBT)を掘り下げる。 純粋状態とアンサンブルのシグネチャはともに極めて堅牢であることを示し、これらの非平衡シグネチャは対称性や空間次元の保護に関わらず、SPTシステムにおいて非常に汎用的であるべきであると論じる。

We investigate topological signatures in the short-time non-equilibrium dynamics of symmetry protected topological (SPT) systems starting from initial states which break the protecting symmetry. Na\"ively, one might expect that topology loses meaning when a protecting symmetry is broken. Defying this intuition, we illustrate, in an interacting Su-Schrieffer-Heeger (SSH) model, how this combination of symmetry breaking and quench dynamics can give rise to both single-particle and many-body signatures of topology. From the dynamics of the symmetry broken state, we find that we are able to dynamically probe the equilibrium topological phase diagram of a symmetry respecting projection of the post-quench Hamiltonian. In the ensemble dynamics, we demonstrate how spontaneous symmetry breaking (SSB) of the protecting symmetry can result in a quantized many-body topological `invariant' which is not pinned under unitary time evolution. We dub this `dynamical many-body topology' (DMBT). We show numerically that both the pure state and ensemble signatures are remarkably robust, and argue that these non-equilibrium signatures should be quite generic in SPT systems, regardless of protecting symmetries or spatial dimension.
翻訳日:2023-04-13 09:01:23 公開日:2021-01-29
# 都市力学のマルチスカラーモデルにおけるスケール間の強い結合

Strong coupling between scales in a multi-scalar model of urban dynamics ( http://arxiv.org/abs/2101.12725v1 )

ライセンス: Link先を確認
Juste Raimbault(参考訳) 都市進化の過程は、異なるスケールで起こり、レベル間の複雑な相互作用と比較的異なる種類のプロセスがある。 実際の都市動態は、トップダウンとボトムアップの両方のフィードバックという意味で、実際にスケール間の強い結合を含んでいるが、領域の持続可能な管理に重要な実践的意味を持つ。 本稿では,マクロスケールにおける都市相互作用モデルと,大都市規模における都市形態形成のための形態形成モデルとを結合した,都市成長のマルチスカラーシミュレーションモデルを提案する。 スケール間の強い結合は、各スケールのモデルパラメータを他のスケールの軌跡に応じて更新することで達成される。 このモデルは都市の合成システムに適用され、探索される。 シミュレーション結果は強結合の非自明な効果を示す。 その結果、都市スプロールを含むような政策パラメータに対する最適なアクションがシフトされる。 また、モデル上で多目的最適化アルゴリズムを実行し、スケール間の妥協が捕捉されることを示す。 当社のアプローチは,スケール間の強いフィードバックを含む,より運用的な都市動態モデルに向けた新たな研究方向を開く。

Urban evolution processes occur at different scales, with intricate interactions between levels and relatively distinct type of processes. To what extent actual urban dynamics include an actual strong coupling between scales, in the sense of both top-down and bottom-up feedbacks, remains an open issue with important practical implications for the sustainable management of territories. We introduce in this paper a multi-scalar simulation model of urban growth, coupling a system of cities interaction model at the macroscopic scale with morphogenesis models for the evolution of urban form at the scale of metropolitan areas. Strong coupling between scales is achieved through an update of model parameters at each scale depending on trajectories at the other scale. The model is applied and explored on synthetic systems of cities. Simulation results show a non-trivial effect of the strong coupling. As a consequence, an optimal action on policy parameters such as containing urban sprawl is shifted. We also run a multi-objective optimization algorithm on the model, showing showing that compromise between scales are captured. Our approach opens new research directions towards more operational urban dynamics models including a strong feedback between scales.
翻訳日:2023-04-13 08:53:52 公開日:2021-01-29
# サイバーバブル検出における機械学習アルゴリズムの比較性能:トルコ語前処理技術を用いて

Comparative Performance of Machine Learning Algorithms in Cyberbullying Detection: Using Turkish Language Preprocessing Techniques ( http://arxiv.org/abs/2101.12718v1 )

ライセンス: Link先を確認
Emre Cihan Ates, Erkan Bostanci, Mehmet Serdar Guzel(参考訳) インターネットやソーシャルメディアの利用が増えるにつれ、サイバーいじめが大きな問題になっていることは明らかだ。 サイバーいじめの危険な結果から保護するための最も基本的な方法は、サイバーいじめを含むコンテンツを積極的に検出し制御することである。 今日のインターネットとソーシャルメディアの統計を見ると、人間の力だけでサイバーいじめの内容を検出することは不可能です。 ソーシャルメディアを安全な通信空間にするためには,効果的なサイバーいじめ検出手法が必要である。 現在の研究は、サイバーバブルの検出と排除に機械学習を使うことに焦点を当てている。 ほとんどの研究は、サイバーいじめの検出のために英語のテキストで行われているが、トルコ語での研究はほとんどない。 限定的な方法とアルゴリズムは、トルコ語の研究にも用いられた。 さらに、サイバーいじめを含むテキストの分類に使用されるアルゴリズムの範囲と性能が異なるため、適切なアルゴリズムを使用することの重要性が明らかになる。 本研究の目的は,サイバーいじめを含むトルコのメッセージの検出における,異なる機械学習アルゴリズムの性能を比較することである。 本研究では,トルコの自然言語処理技術を用いて,サイバーいじめを含むテキストを識別するために,19種類の分類アルゴリズムを用いた。 分類器の性能評価には,精度,リコール,精度,F1スコア値が用いられた。 Light Gradient Boosting Model (LGBM)アルゴリズムは90.788%の精度と90.949%のF1スコアで最高の性能を示した。

With the increasing use of the internet and social media, it is obvious that cyberbullying has become a major problem. The most basic way for protection against the dangerous consequences of cyberbullying is to actively detect and control the contents containing cyberbullying. When we look at today's internet and social media statistics, it is impossible to detect cyberbullying contents only by human power. Effective cyberbullying detection methods are necessary in order to make social media a safe communication space. Current research efforts focus on using machine learning for detecting and eliminating cyberbullying. Although most of the studies have been conducted on English texts for the detection of cyberbullying, there are few studies in Turkish. Limited methods and algorithms were also used in studies conducted on the Turkish language. In addition, the scope and performance of the algorithms used to classify the texts containing cyberbullying is different, and this reveals the importance of using an appropriate algorithm. The aim of this study is to compare the performance of different machine learning algorithms in detecting Turkish messages containing cyberbullying. In this study, nineteen different classification algorithms were used to identify texts containing cyberbullying using Turkish natural language processing techniques. Precision, recall, accuracy and F1 score values were used to evaluate the performance of classifiers. It was determined that the Light Gradient Boosting Model (LGBM) algorithm showed the best performance with 90.788% accuracy and 90.949% F1 Score value.
翻訳日:2023-04-13 08:53:37 公開日:2021-01-29
# 機械翻訳,感情分析,テキストの類似性,話題モデリング,ツイート:警察組織と集団組織におけるソーシャルメディア利用の理解

Machine Translation, Sentiment Analysis, Text Similarity, Topic Modelling, and Tweets: Understanding Social Media Usage Among Police and Gendarmerie Organizations ( http://arxiv.org/abs/2101.12717v1 )

ライセンス: Link先を確認
Emre Cihan Ates, Erkan Bostanci, Mehmet Serdar Guzel(参考訳) ソーシャルメディアがコミュニケーションに革命をもたらしたことはよく知られている。 今日では、市民、企業、公共機関がソーシャルメディアを積極的に利用して、自分たちが直面している人口をより良く表現している。 この活動的な使用は、社会関係を改善する目的で国民とコミュニケーションをとるため、憲兵隊や警察組織によっても行われている。 しかし、時折、その対象とする観客からは、元兵隊や警察機関のポストがあまり注目されず、文献に十分な研究が得られていないことが判明している。 本研究では,トルコ(Jandarma - Polis),イタリア(Carabinieri - Polizia),フランス(GendarmeriePolice),スペイン(Guardia Civil - Polic\'ia)で活動しているジェンダルメリや警察組織によるソーシャルメディアの利用状況について,Twitter上での活動について比較検討することを目的とした。 その結果,jandarma (turkey) はtwitter のサンプルにおいて最も影響力の強い存在であることが判明し,研究で比較検討を行った。

It is well known that social media has revolutionized communication. Nowadays, citizens, companies, and public institutions actively use social media in order to express themselves better to the population they address. This active use is also carried out by the gendarmerie and police organizations to communicate with the public with the purpose of improving social relations. However, it has been seen that the posts by the gendarmerie and police organizations did not attract much attention from their target audience from time to time, and it has been discovered that there was not enough research in the literature on this issue. In this study, it was aimed to investigate the use of social media by the gendarmerie and police organizations operating in Turkey (Jandarma - Polis), Italy (Carabinieri - Polizia), France (Gendarmerie - Police) and Spain (Guardia Civil - Polic\'ia), and the extent to which they can be effective on the followers, by comparatively examining their activity on twitter. According to the obtained results, it was found that Jandarma (Turkey) has the highest power of influence in the twitter sample, and the findings were comparatively presented in the study.
翻訳日:2023-04-13 08:53:19 公開日:2021-01-29
# 連結のない情報因果関係

Information Causality without concatenation ( http://arxiv.org/abs/2101.12710v1 )

ライセンス: Link先を確認
Nikolai Miklin and Marcin Paw{\l}owski(参考訳) 情報因果性(Information Causality)は、古典的な通信チャネル上でランダムにアクセス可能なデータの量は、送信側と受信側が非局所的相関のソースにアクセスする場合でも、その容量を超えることができない、という物理原理である。 この原理は、完全な形式主義に頼ることなく、量子力学の非局所性(英語版)(nonlocality of quantum mechanics)を束縛することができる。 有望であるにも拘わらず、後者の結果は連結の過程によって課される制限のために他のベルの不等式への一般化がほとんどなかった。 本研究は,通信チャネル容量の制限により,結合がうまく置き換えられることを示す。 これにより、再帰的かつ場合によっては、すべての既知結果をよりシンプルな方法で大幅に改善し、情報因果原理を、これまで適用できなかったベルのシナリオに適用することが可能になります。

Information Causality is a physical principle which states that the amount of randomly accessible data over a classical communication channel cannot exceed its capacity, even if the sender and the receiver have access to a source of nonlocal correlations. This principle can be used to bound the nonlocality of quantum mechanics without resorting to its full formalism, with a notable example of reproducing the Tsirelson's bound of the Clauser-Horne-Shimony-Holt inequality. Despite being promising, the latter result found little generalization to other Bell inequalities because of the limitations imposed by the process of concatenation, in which several nonsignaling resources are put together to produce tighter bounds. In this work, we show that concatenation can be successfully replaced by limits on the communication channel capacity. It allows us to re-derive and, in some cases, significantly improve all the previously known results in a simpler manner and apply the Information Causality principle to previously unapproachable Bell scenarios.
翻訳日:2023-04-13 08:52:55 公開日:2021-01-29
# R\'esum\'e-Driven Development: 定義と実証的特徴

R\'esum\'e-Driven Development: A Definition and Empirical Characterization ( http://arxiv.org/abs/2101.12703v1 )

ライセンス: Link先を確認
Jonas Fritzsch, Marvin Wyrich, Justus Bogner, Stefan Wagner(参考訳) 技術は、ソフトウェア専門家の雇用プロセスにおいて重要な役割を果たす。 このプロセスの中で、いくつかの研究は、最適以下の採用経験につながる誤解と悪い実践を明らかにした。 同じ文脈で、グレイ文学は「r\'esum\'e-driven development (rdd)」という用語を、雇用者と応募者の間の相互作用として、雇用者の両方においてトレンド技術が過度に強調され、再開される現象として用いている。 rddは書籍やオンラインの議論で散発的に言及されているが、この話題に関する科学的研究は今のところ行われていない。 したがって、雇用(130)と技術(558)の両方で591人のソフトウェア専門家を調査し、私たちのサンプルのかなりの部分でrddファセットを特定して、この現象を実証的に調査しました。 調査の結果に基づいて、R\'esum\'e-Driven Development の枠組みと説明のための理論を概念化した。 最後に,影響要因と結果について議論し,その定義を提案する。 私たちの貢献は、将来の研究の基盤を提供し、ソフトウェア産業に大きな影響を与える可能性のあるシステム的トレンドに対する認識を高めます。

Technologies play an important role in the hiring process for software professionals. Within this process, several studies revealed misconceptions and bad practices which lead to suboptimal recruitment experiences. In the same context, grey literature anecdotally coined the term R\'esum\'e-Driven Development (RDD), a phenomenon describing the overemphasis of trending technologies in both job offerings and resumes as an interaction between employers and applicants. While RDD has been sporadically mentioned in books and online discussions, there are so far no scientific studies on the topic, despite its potential negative consequences. We therefore empirically investigated this phenomenon by surveying 591 software professionals in both hiring (130) and technical (558) roles and identified RDD facets in substantial parts of our sample: 60% of our hiring professionals agreed that trends influence their job offerings, while 82% of our software professionals believed that using trending technologies in their daily work makes them more attractive for prospective employers. Grounded in the survey results, we conceptualize a theory to frame and explain R\'esum\'e-Driven Development. Finally, we discuss influencing factors and consequences and propose a definition of the term. Our contribution provides a foundation for future research and raises awareness for a potentially systemic trend that may broadly affect the software industry.
翻訳日:2023-04-13 08:52:35 公開日:2021-01-29
# AI(倫理)成熟度モデルが登場

Time for AI (Ethics) Maturity Model Is Now ( http://arxiv.org/abs/2101.12701v1 )

ライセンス: Link先を確認
Ville Vakkuri, Marianna Jantunen, Erika Halme, Kai-Kristian Kemell, Anh Nguyen-Duc, Tommi Mikkonen, Pekka Abrahamsson(参考訳) ある種の人工知能(AI)を備えたシステムに関しては、倫理的懸念が重要であるという共通の合意があるようだ。 倫理的AIの要求はあらゆる方向から宣言される。 これに応えて、近年、公共機関、政府、大学はAIベースのシステムを設計、使用する際に考慮すべき原則のセットを提供するために急いでいる。 しかし、私たちはハイレベルな原則が実践者にとって実行可能なアドバイスに簡単に変わりません。 そのため、企業はAI開発をガイドラインする独自の倫理ガイドラインも公開している。 この記事では、AIソフトウェアはまだソフトウェアであり、ソフトウェア開発の観点からアプローチする必要があります。 ソフトウェアエンジニアリングパラダイムは成熟度モデル思考を導入し、企業が重要な機能として知られる選択された視点からパフォーマンスを改善するためのロードマップを提供する。 aiソフトウェアの成熟度モデルを開発するための行動を呼び掛けたいと考えています。 我々は、AI倫理に焦点をあてるべきなのか、それともより広範に、AIシステムの開発のための成熟度モデルと呼ばれるAIシステムの品質を議論したい。

There appears to be a common agreement that ethical concerns are of high importance when it comes to systems equipped with some sort of Artificial Intelligence (AI). Demands for ethical AI are declared from all directions. As a response, in recent years, public bodies, governments, and universities have rushed in to provide a set of principles to be considered when AI based systems are designed and used. We have learned, however, that high-level principles do not turn easily into actionable advice for practitioners. Hence, also companies are publishing their own ethical guidelines to guide their AI development. This paper argues that AI software is still software and needs to be approached from the software development perspective. The software engineering paradigm has introduced maturity model thinking, which provides a roadmap for companies to improve their performance from the selected viewpoints known as the key capabilities. We want to voice out a call for action for the development of a maturity model for AI software. We wish to discuss whether the focus should be on AI ethics or, more broadly, the quality of an AI system, called a maturity model for the development of AI systems.
翻訳日:2023-04-13 08:52:12 公開日:2021-01-29
# 一次元反強磁性半導体バナジウムテトラスルフィド(VS_4$)ナノワイヤのドーピングによる半金属化

Doping isolated one-dimensional antiferro-magnetic semiconductor Vanadium tetrasulfide ($VS_4$) nanowires with carriers induces half-metallicity ( http://arxiv.org/abs/2101.12658v1 )

ライセンス: Link先を確認
Shuo Li, Junjie He, Petr Nachtigall, Lukas Grajciar and Federico Brivio(参考訳) 準一次元(1次元)四硫化バナジウム(vs_4$)ナノワイヤ(nws)は、ファンデルワールス相互作用を介して結合しバルク相を形成する合成半導体である。 しかし、これらの個々のナノワイヤの性質は不明である。 それにもかかわらず、安定性の計算は、$VS_4$) NWsがバルク構造から分離可能であることを示している。 そこで我々は,バルク相の幾何学的,電子的,磁気的性質を理論的に検討し,$VS_4$NWsを分離した。 以上の結果から,バルク相と孤立$VS_4$NWsはそれぞれ2.24eVと2.64eVのバンドギャップを持つ半導体であり,それぞれDFT計算に基づく反強磁性(AFM)基底状態を好むことが示唆された。 これらの計算はまた、孤立した$vs_4$ nws が電子とホールドーピングで半金属反強磁性を示すことを示唆した。 その結果、孤立した$VS_4$NWsのスピン偏極電流を局所的なゲート電圧で操作できる。 したがって、これらの1次元AFM材料は、1次元強磁性材料よりも磁気摂動に強いため、基礎研究とスピントロニクス応用の両方を前進させる可能性が高い。

Quasi one-dimensional (1D) vanadium tetrasulfide ($VS_4$) nanowires (NWs) are synthetic semiconductors which combine with each other through Van der Waals interactions to form bulk phases. However, the properties of these individual nanowires remain unknown. Nevertheless, our calculations of their stability indicate that $VS_4$) NWs can be separated from their bulk structures. Accordingly, we theoretically investigated the geometrical, electronic, and magnetic properties of bulk phase and isolated $VS_4$ NWs. Our results indicate that both bulk phase and isolated $VS_4$ NWs are semiconductors with band gaps of 2.24 and 2.64 eV, respectively, and that they prefer the antiferromagnetic (AFM) ground state based on DFT calculations. These calculations also suggested that isolated $VS_4$ NWs show half-metallic antiferromagnetism upon electron and hole doping because carrier doping splits the spin degeneracy to induce local spin polarisation. As a result, spin polarisation currents in isolated $VS_4$ NWs can be manipulated with locally applied gate voltage. Therefore, these 1D AFM materials have a high potential for advancing both fundamental research and spintronic applications because they are more resistant to magnetic perturbation than their 1D ferromagnetic counterparts.
翻訳日:2023-04-13 08:51:56 公開日:2021-01-29
# 先進半導体製造による量子ビット

Qubits made by advanced semiconductor manufacturing ( http://arxiv.org/abs/2101.12650v1 )

ライセンス: Link先を確認
A.M.J. Zwerver, T. Kr\"ahenmann, T.F. Watson, L. Lampert, H.C. George, R. Pillarisetty, S.A. Bojarski, P. Amin, S.V. Amitonov, J.M. Boter, R. Caudillo, D. Corras-Serrano, J.P. Dehollain, G. Droulers, E.M. Henry, R. Kotlyar, M. Lodari, F. Luthi, D.J. Michalak, B.K. Mueller, S. Neyens, J. Roberts, N. Samkharadze, G. Zheng, O.K. Zietz, G. Scappucci, M. Veldhorst, L.M.K. Vandersypen, J.S. Clarke(参考訳) 本格的な量子コンピュータは数百万の量子ビットを統合する必要がある。 この要件を満たすために工業用半導体製造を活用するという約束は、シリコン量子ドットにおける量子コンピューティングの追求を加速させた。 しかし、これまでは電子ビームリソグラフィと、学術的なスタイルのリフトオフプロセスに依存してきた。 これらの製造技術はプロセスの柔軟性を提供するが、収量が少なく均一性が低い。 重要な問題は、トランジスタの高収率、スループット、均一性を実現するために製造ファブ環境で開発された処理条件が量子ドットアレイに適しているか、微妙な量子ビット特性を損なわないかである。 ここでは、全光学リソグラフィーと全工業加工を用いた300mm半導体製造施設で製造された28Si/28SiO2界面で量子ドットを実演する。 その結果,ナノスケールゲートパターンを顕著な均一性で実現した。 量子ドットは、トンネルバリア制御が優れており、フォールトトレラントな2量子ビットゲートにとって重要な特徴である。 磁気共鳴を用いたシングルスピン量子ビットの操作は、1テスラで1s以上の緩和時間と3ms以上のコヒーレンス時間を示し、これまで報告されたシリコンスピン量子ビットの品質と一致している。 完全産業技術を用いた高品質量子ビットの実現は大規模量子コンピュータの展望を強力に高める

Full-scale quantum computers require the integration of millions of quantum bits. The promise of leveraging industrial semiconductor manufacturing to meet this requirement has fueled the pursuit of quantum computing in silicon quantum dots. However, to date, their fabrication has relied on electron-beam lithography and, with few exceptions, on academic style lift-off processes. Although these fabrication techniques offer process flexibility, they suffer from low yield and poor uniformity. An important question is whether the processing conditions developed in the manufacturing fab environment to enable high yield, throughput, and uniformity of transistors are suitable for quantum dot arrays and do not compromise the delicate qubit properties. Here, we demonstrate quantum dots hosted at a 28Si/28SiO2 interface, fabricated in a 300 mm semiconductor manufacturing facility using all-optical lithography and fully industrial processing. As a result, we achieve nanoscale gate patterns with remarkable homogeneity. The quantum dots are well-behaved in the multi-electron regime, with excellent tunnel barrier control, a crucial feature for fault-tolerant two-qubit gates. Single-spin qubit operation using magnetic resonance reveals relaxation times of over 1 s at 1 Tesla and coherence times of over 3 ms, matching the quality of silicon spin qubits reported to date. The feasibility of high-quality qubits made with fully-industrial techniques strongly enhances the prospects of a large-scale quantum computer
翻訳日:2023-04-13 08:51:30 公開日:2021-01-29
# スマートブレスレットによる前頭症検出のユーザ要求と分析

User Requirements and Analysis of Preeclampsia Detection done through a Smart Bracelet ( http://arxiv.org/abs/2102.09346v1 )

ライセンス: Link先を確認
Iuliana Marin, Andrei Vasilateanu, Bujor Pavaloiu, Nicolae Goga(参考訳) 医学生と医療スタッフは、短時間で正確な結果を提示しなければならない近代的な装置を用いて患者の状態をモニターし、可能な限り早期に介入する必要がある。 血圧モニタリングのためのeラーニングシステムを使用し, 患者観察, 評価, 治療の新たな手法を古典的介入と比較して適用した。 これにより、医学生は実践訓練の知識を向上させることができる。 医療活動において、専門機器は重要な場所を占める。 血圧をモニターできる装置は、血圧値の連続記録のために手首に沿って圧力センサを内蔵したスマートブレスレットである。 これにより、意思決定支援システムを用いた緊急障害の予測が可能になる。 新たな介入アプローチの学習を促進し、学習者の応答性を高める。 世界保健機関(WHO)によると、高血圧性疾患は世界中の妊婦の約10%に影響を及ぼし、母親や子供の間で障害や長期死亡の重要な原因となっている。 本論文は, 年齢の異なる人を対象に, 妊娠前診断におけるスマートブレスレットの使用に関して, 様々な特化領域を有する調査結果に基づくものである。 その目的は、その人の人気を判断し、ユーザ要件を決定することだ。 妊婦は常に監視され、医師は患者の診断を更新します。 医学生は、重要な状況から学び、学習しながらこれらの事例から利益を得ることができる。 調査の結果、調査対象者のほとんどは、この装置の存在が非常に有用であると考えており、女性の個人は妊娠中に血圧をモニターすることがより心地よいと感じていた。

Medical students along with the medical staff have to monitor the state of the patients by using modern devices which have to offer precise results in a short amount of time, so that the intervention to be done as soon as possible. E-learning systems for blood pressure monitoring are used and new methods of patient observation, evaluation and treatment are applied compared to classical intervention. Based on this, medical students can improve their knowledge for the practical training. In the medical activities specialized devices occupy an important place. A device that can monitor the blood pressure is a smart bracelet that incorporates a pressure sensor along the wrist for continuous recording of blood pressure values. This enables the prediction of the emergency disorders using a decision support system. It facilitates the learning of new intervention approaches and boosts the responsiveness among learners. According to the World Health Organization, hypertensive disorders affect about 10% of pregnant women worldwide and are an important cause of disability and long-term death among mothers and children. This paper is based on a survey completed by persons of different ages and having various specialization domains regarding the use of smart bracelets for detecting preeclampsia. The aim is to decide upon its popularity among people and to determine the user requirements. The pregnant women will be constantly monitored, doctors can update the diagnosis of the patient. The medical students can learn from the critical situations and benefit from these cases while learning. The results of the survey showed that most of the interviewed persons consider the existence of such a device to be very useful, mostly the female individuals would feel more comfortable to have their blood pressure monitored during pregnancy.
翻訳日:2023-04-13 08:45:13 公開日:2021-01-29
# 量子力学への代数的アプローチの概観 理論的妥当性の評価

A Review of The Algebraic Approaches to Quantum Mechanics. Appraisals on Their Theoretical Relevance ( http://arxiv.org/abs/2102.00861v1 )

ライセンス: Link先を確認
Antonino Drago(参考訳) 量子力学の様々な代数的基礎を概観する。 この説は、この説の誕生以来、昨年まで提唱されてきた。 Heisenberg-Born-Jordan (1925), Weyl (1928), Dirac (1930), von Neumann (1936), Segal (1947), T.F. Jordan (1986), Morchio and Strocchi (2009), Buchholz and Fregenhagen (2019) である。 3つの事例が強調されています 1) ディラック財団の誤解 2) フォン・ノイマンのヒルベルト空間の解析的アプローチから作用素の環の代数的アプローチへの変換。 3) 摂動ラグランジアン代数に基づく最近の量子力学の基礎。 また、qmの歴史における代数的アプローチによるゴー・アンド・ストップ経路に関する歴史的考察も提供されている。 形式主義のレベルは、ただの行列の導入から群論やC*-代数まで増加してきた。 しかし、物理学の基礎に接近する進展はなく、問題ベースの理論として組織されたqmの代数的定式化を発見し、構成的数学以外のものを使うという問題は開いている。

I review the various algebraic foundations of quantum mechanics. They have been suggested since the birth of this theory till up to last year. They are the following ones: Heisenberg-Born-Jordan (1925), Weyl (1928), Dirac (1930), von Neumann (1936), Segal (1947), T.F. Jordan (1986), Morchio and Strocchi (2009) and Buchholz and Fregenhagen (2019). Three cases are stressed: 1) the misinterpretation of Dirac foundation; 2) von Neumann conversion from the analytic approach of Hilbert space to the algebraic approach of the rings of operators; 3) the recent foundation of quantum mechanics upon the algebra of perturbation Lagrangians. Moreover, historical considerations on the go-and-stop path performed by the algebraic approach in the history of QM are offered. The level of formalism has increased from the mere introduction of matrices till up to group theory and C*-algebras. But there was no progress in approaching closer the foundations of physics; therefore the problem of discovering an algebraic formulation of QM organized as a problem-based theory and making use of no more than constructive mathematics is open.
翻訳日:2023-04-13 08:44:50 公開日:2021-01-29
# 1-\mu$mピンホールによるイオン注入によるダイヤモンド中のシリコン空色中心のスケーラブルな生成

Scalable creation of silicon-vacancy color centers in diamond by ion implantation through a 1-$\mu$m pinhole ( http://arxiv.org/abs/2102.00076v1 )

ライセンス: Link先を確認
L. Hunold, S. Lagomarsino, A.M. Flatae, H. Kambalathmana, F. Sledz, S. Sciortino, N. Gelli, L. Giuntini, M. Agio(参考訳) ダイヤモンドにおける量子エミッタの制御は、単一光子デバイスの製造における主要な研究の成果である。 ここでは、イオン注入による単結晶ダイヤモンドにおけるシリコン空洞(SiV)色中心のスケーラブル化について述べる。 SiVの側方位置は試料の前方に1-\mu$mのピンホールで空間的に制御され、ピエゾステージを用いて正確にナノメートル移動することができる。 イオンビーム位置をカメラで監視することにより、初期注入位置を制御する。 これにより、シリコンイオンは回折限界に匹敵する領域の所望の位置に注入される。 ピンホールによって散乱されるイオンの役割と単一量子エミッタ生成のためのsiv色中心の活性化率について考察する。

The controlled creation of quantum emitters in diamond represents a major research effort in the fabrication of single-photon devices. Here, we present the scalable production of silicon-vacancy (SiV) color centers in single-crystal diamond by ion implantation. The lateral position of the SiV is spatially controlled by a 1-$\mu$m pinhole placed in front of the sample, which can be moved nanometer precise using a piezo stage. The initial implantation position is controlled by monitoring the ion beam position with a camera. Hereby, silicon ions are implanted at the desired spots in an area comparable to the diffraction limit. We discuss the role of ions scattered by the pinhole and the activation yield of the SiV color centers for the creation of single quantum emitters.
翻訳日:2023-04-13 08:44:01 公開日:2021-01-29
# 室温の量子記憶を繋ぐ158kmの基本的な量子ネットワーク

An elementary 158 km long quantum network connecting room temperature quantum memories ( http://arxiv.org/abs/2101.12742v1 )

ライセンス: Link先を確認
Dounan Du, Paul Stankus, Olli-Pentti Saira, Mael Flament, Steven Sagona-Stophel, Mehdi Namazi, Dimitrios Katramatos, Eden Figueroa(参考訳) 第1世代の長距離量子リピータネットワークは、通信光子と相互作用し、量子干渉を媒介とする絡み合い生成操作を行う量子メモリを必要とする。 長距離環境で実生活のファイバー接続を使ってこれらの相互接続を実証する能力は、スケーラブルな量子インターネットを実現する上で最重要である。 ここでは,2つの独立した室温量子メモリで生成する不明瞭なテレコム光子間のHong-Ou-Mandel(HOM)干渉を158kmの距離で観測することで,これらの重要な課題に対処する。 単一光子レベルの実験入力に対して,$\rm \boldsymbol{V=(38\pm2)\%}$の長距離伝搬により干渉振動を得た。 ストーニーブルック大学とブルックヘブン国立研究所の量子研究所を繋ぐ最初の量子ネットワークのプロトタイプは、都市間量子通信の基礎となる大規模なメモリ支援エンタングルメント分布量子ネットワークへと進化する予定である。

First-generation long-distance quantum repeater networks require quantum memories capable of interfacing with telecom photons to perform quantum-interference-mediated entanglement generation operations. The ability to demonstrate these interconnections using real-life fiber connections in a long-distance setting is paramount to realize a scalable quantum internet. Here we address these significant challenges by observing Hong-Ou-Mandel (HOM) interference between indistinguishable telecom photons produced in two independent room temperature quantum memories, separated by a distance of 158 km. We obtained interference visibilities after long-distance propagation of $\rm \boldsymbol{V=(38\pm2)\%}$ for single-photon level experimental inputs. This first-of-its-kind quantum network prototype connecting quantum laboratories in Stony Brook University and Brookhaven National Laboratory is envisioned to evolve into a large-scale memory-assisted entanglement distribution quantum network, the basis for inter-city quantum communication.
翻訳日:2023-04-13 08:42:57 公開日:2021-01-29
# 仮定なしでセキュアなソフトウェアリース

Secure Software Leasing Without Assumptions ( http://arxiv.org/abs/2101.12739v1 )

ライセンス: Link先を確認
Anne Broadbent, Stacey Jeffery, S\'ebastien Lord, Supartha Podder, Aarthi Sundaram(参考訳) 量子暗号は古典的な情報だけでは達成できない機能を実現することで知られている。 最近、SSL(Secure Software Leasing)がこれらの関心領域の1つとして登場した。 回路クラスからターゲット回路$C$が与えられた場合、SSLは、受信者が$C$を評価することができる$C$のエンコーディングを生成し、ソフトウェアの創始者がソフトウェアが返却されたことを検証できるようにする。 このような機能は、ユーザーがソフトウェアのコピーを保持するのを防ぐことは不可能であるため、古典的な情報だけでは達成できない。 近年の研究では、コンピュート・アンド・コンペアと呼ばれる関数のクラスに対する量子情報を用いたSSLの達成可能性を示している(これらはよく知られた点関数の一般化である)。 これらの先行研究はすべてセットアップや計算の仮定を用いている。 ここでは,SSL は計算・計算回路において仮定なしで実現可能であることを示す。 sslに関連する概念である量子コピー保護(quantum copy-protection)が研究されているが、エンコーディング手順が本質的には、$c$のエンコーディングの1つのコピーを2つの部分に分割することを妨げているため、それぞれが$c$を評価できる。 我々は,任意の量子メッセージ認証コードから,このような誠実で悪意のあるコピー保護スキームを導出できることを示せば,ポイント関数を任意の仮定なしにコピー保護することができることを示す。 そこで,本研究では,汎用的正当なコピー保護スキームがsslを暗示することを示す。

Quantum cryptography is known for enabling functionalities that are unattainable using classical information alone. Recently, Secure Software Leasing (SSL) has emerged as one of these areas of interest. Given a target circuit $C$ from a circuit class, SSL produces an encoding of $C$ that enables a recipient to evaluate $C$, and also enables the originator of the software to verify that the software has been returned -- meaning that the recipient has relinquished the possibility of any further use of the software. Clearly, such a functionality is unachievable using classical information alone, since it is impossible to prevent a user from keeping a copy of the software. Recent results have shown the achievability of SSL using quantum information for a class of functions called compute-and-compare (these are a generalization of the well-known point functions). These prior works, however all make use of setup or computational assumptions. Here, we show that SSL is achievable for compute-and-compare circuits without any assumptions. Our technique involves the study of quantum copy-protection, which is a notion related to SSL, but where the encoding procedure inherently prevents a would-be quantum software pirate from splitting a single copy of an encoding for $C$ into two parts, each of which enables a user to evaluate $C$. We show that point functions can be copy-protected without any assumptions, for a novel security definition involving one honest and one malicious evaluator; this is achieved by showing that from any quantum message authentication code, we can derive such an honest-malicious copy-protection scheme. We then show that a generic honest-malicious copy-protection scheme implies SSL; by prior work, this yields SSL for compute-and-compare functions.
翻訳日:2023-04-13 08:42:37 公開日:2021-01-29
# 特徴的重要性における疫学的価値:フェミニストの疫学からの教訓

Epistemic values in feature importance methods: Lessons from feminist epistemology ( http://arxiv.org/abs/2101.12737v1 )

ライセンス: Link先を確認
Leif Hancox-Li and I. Elizabeth Kumar(参考訳) 一般大衆が機械学習アルゴリズムから説明責任と透明性を求める中で、アルゴリズムとその出力を説明する方法に関する研究論文は急速に拡大している。 特徴重要メソッドは、一般的な説明メソッドのクラスを形成する。 本稿では,フェミニストの認識論のレンズを最近の重要度研究に適用する。 本研究は, 特徴的重要性の方法と, フェミニストの認識学とどのように対立しているかについて検討する。 我々は,フェミニスト的認識主義的価値観を尊重する説明について,社会的文脈の重要性,従属する知識者の認識主義的特権を考慮し,より対話的な知識の方法を採用する方法について,研究を行う方法について提案する。

As the public seeks greater accountability and transparency from machine learning algorithms, the research literature on methods to explain algorithms and their outputs has rapidly expanded. Feature importance methods form a popular class of explanation methods. In this paper, we apply the lens of feminist epistemology to recent feature importance research. We investigate what epistemic values are implicitly embedded in feature importance methods and how or whether they are in conflict with feminist epistemology. We offer some suggestions on how to conduct research on explanations that respects feminist epistemic values, taking into account the importance of social context, the epistemic privileges of subjugated knowers, and adopting more interactional ways of knowing.
翻訳日:2023-04-13 08:42:10 公開日:2021-01-29
# 多項パラメータに対する最適信頼領域

Optimal Confidence Regions for the Multinomial Parameter ( http://arxiv.org/abs/2002.01044v2 )

ライセンス: Link先を確認
Matthew L. Malloy, Ardhendu Tripathy, Robert D. Nowak(参考訳) 厳密な信頼領域とインターバルの構築は、統計的推測と意思決定の中心である。 本稿では,カテゴリデータに対する最小平均体積信頼領域を示す新しい理論を開発する。 より正確には、未知分布の$\boldsymbol{p}$に従って$k$可能な値の1つを取る確率変数の$n$ iid実現から生成される経験的分布$\widehat{\boldsymbol{p}}$を考える。 これは多項分布からの単一のドローと類似している。 信頼領域は、$\widehat{\boldsymbol{p}}$に依存し、特定の信頼度を持つ未知の$\boldsymbol{p}$を含む確率単純集合の部分集合である。 本稿は,常設質問に答えて,最小平均ボリューム信頼領域を構築する方法について述べる。 また、各領域の最適性は、平均値などの線形関数の最適信頼区間に直接変換され、適応機械学習アルゴリズムにおけるサンプルの複雑さや後悔の度合いを示唆する。

Construction of tight confidence regions and intervals is central to statistical inference and decision making. This paper develops new theory showing minimum average volume confidence regions for categorical data. More precisely, consider an empirical distribution $\widehat{\boldsymbol{p}}$ generated from $n$ iid realizations of a random variable that takes one of $k$ possible values according to an unknown distribution $\boldsymbol{p}$. This is analogous to a single draw from a multinomial distribution. A confidence region is a subset of the probability simplex that depends on $\widehat{\boldsymbol{p}}$ and contains the unknown $\boldsymbol{p}$ with a specified confidence. This paper shows how one can construct minimum average volume confidence regions, answering a long standing question. We also show the optimality of the regions directly translates to optimal confidence intervals of linear functionals such as the mean, implying sample complexity and regret improvements for adaptive machine learning algorithms.
翻訳日:2023-01-04 08:57:26 公開日:2021-01-29
# 身体的エージェントに対する行動系列の感覚伝達性について

On the Sensory Commutativity of Action Sequences for Embodied Agents ( http://arxiv.org/abs/2002.05630v3 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Michael Garcia-Ortiz, David Filliat(参考訳) 人工エージェントの認識は、ai研究の大きな課題の1つだ。 ディープラーニングとデータ駆動アプローチは、監視によって知覚を学習できるが、オープンワールドにスケールしない制約付き問題で成功している。 このような場合、ファーストパーソンセンサーを備えた自律的実施エージェントでは、特定のタスクを解決するために知覚をエンドツーエンドに学習することができる。 しかし、文献によれば、知覚は純粋に受動的圧縮機構ではなく、抽象表現の定式化において重要な役割を果たす。 本稿では,群論の数学的定式化の下で,これらの具体的エージェントに対する知覚を研究することを提案する。 特に,このような具体化剤が知覚する感覚情報に関して,連続的な行動系列の可換性について考察する。 本稿では,エージェントの自由度が環境にどの程度影響するかを測定する,感覚コミュニケーション確率(SCP)基準を導入する。 リアルなロボットのセットアップなど、さまざまな環境でこの基準を計算する方法を示す。 我々は,scpと行動系列の可換性を用いて,環境内のオブジェクトについて学習し,強化学習におけるサンプル効率を向上させる方法について実証的に示す。

Perception of artificial agents is one the grand challenges of AI research. Deep Learning and data-driven approaches are successful on constrained problems where perception can be learned using supervision, but do not scale to open-worlds. In such case, for autonomous embodied agents with first-person sensors, perception can be learned end-to-end to solve particular tasks. However, literature shows that perception is not a purely passive compression mechanism, and that actions play an important role in the formulation of abstract representations. We propose to study perception for these embodied agents, under the mathematical formalism of group theory in order to make the link between perception and action. In particular, we consider the commutative properties of continuous action sequences with respect to sensory information perceived by such an embodied agent. We introduce the Sensory Commutativity Probability (SCP) criterion which measures how much an agent's degree of freedom affects the environment in embodied scenarios. We show how to compute this criterion in different environments, including realistic robotic setups. We empirically illustrate how SCP and the commutative properties of action sequences can be used to learn about objects in the environment and improve sample-efficiency in Reinforcement Learning.
翻訳日:2023-01-01 09:35:09 公開日:2021-01-29
# 線形icaのための単射特徴マップの学習

Learning Bijective Feature Maps for Linear ICA ( http://arxiv.org/abs/2002.07766v5 )

ライセンス: Link先を確認
Alexander Camuto, Matthew Willetts, Brooks Paige, Chris Holmes, Stephen Roberts(参考訳) 画像のような高次元データを独立した潜在因子、すなわち独立成分分析(ica)に分割することは、オープンリサーチの問題である。 このように、画像データに適した既存の確率的深層生成モデル(DGM)は、非線形ICAタスクでは性能が劣る。 そこで本研究では,単射特徴写像と線形icaモデルを組み合わせて,高次元データの解釈可能な潜在構造を学ぶdgmを提案する。 そのようなハイブリッドモデルによる共同訓練の複雑さを考えると、直交長方行列の多様体、スティーフェル多様体に近くて線型ICAを制約する新しい理論を導入する。 これにより、高速に収束し、訓練が容易なモデルを作成し、フローベースモデルや線形ICA、画像上の変分オートエンコーダよりも、教師なしの潜在因子発見を向上する。

Separating high-dimensional data like images into independent latent factors, i.e independent component analysis (ICA), remains an open research problem. As we show, existing probabilistic deep generative models (DGMs), which are tailor-made for image data, underperform on non-linear ICA tasks. To address this, we propose a DGM which combines bijective feature maps with a linear ICA model to learn interpretable latent structures for high-dimensional data. Given the complexities of jointly training such a hybrid model, we introduce novel theory that constrains linear ICA to lie close to the manifold of orthogonal rectangular matrices, the Stiefel manifold. By doing so we create models that converge quickly, are easy to train, and achieve better unsupervised latent factor discovery than flow-based models, linear ICA, and Variational Autoencoders on images.
翻訳日:2022-12-30 19:07:06 公開日:2021-01-29
# ユーザレベルプライバシ保護フェデレーション学習:分析と性能最適化

User-Level Privacy-Preserving Federated Learning: Analysis and Performance Optimization ( http://arxiv.org/abs/2003.00229v2 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Ming Ding, Chuan Ma, Hang Su, Bo Zhang and H. Vincent Poor(参考訳) フェデレートラーニング(FL)は、協調機械学習フレームワークの一種であり、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。 それでも情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベート情報を推測することは可能である。 この問題に対処するため,我々はまず,ローカルディファレンシャルプライバシ(ldp)の概念を利用し,サーバにアップロードする前に共有モデルに人工的なノイズを加えることで,ユーザレベルのディファレンシャルプライバシ(udp)アルゴリズムを提案する。 我々の分析によれば、UDPフレームワークは、人工ノイズプロセスのばらつきを変化させることで、調整可能なプライバシー保護レベルを持つ$i$-th MTに対して$(\epsilon_{i}, \delta_{i})$-LDPを実現することができる。 次に、UDPアルゴリズムの理論的収束上限を導出する。 最高の学習性能を達成するために最適なコミュニケーションラウンドが複数存在することを明らかにする。 さらに,通信ラウンド割引(CRD)方式を提案する。 ヒューリスティック探索法と比較して,提案手法は探索の計算複雑性と収束性能とのトレードオフをはるかに向上させることができる。 広汎な実験により,提案手法を用いたUDPアルゴリズムは,与えられたプライバシ保護レベルに対するトレーニング効率とモデル品質の両方を効果的に向上できることが示された。

Federated learning (FL), as a type of collaborative machine learning framework, is capable of preserving private data from mobile terminals (MTs) while training the data into useful models. Nevertheless, from a viewpoint of information theory, it is still possible for a curious server to infer private information from the shared models uploaded by MTs. To address this problem, we first make use of the concept of local differential privacy (LDP), and propose a user-level differential privacy (UDP) algorithm by adding artificial noise to the shared models before uploading them to servers. According to our analysis, the UDP framework can realize $(\epsilon_{i}, \delta_{i})$-LDP for the $i$-th MT with adjustable privacy protection levels by varying the variances of the artificial noise processes. We then derive a theoretical convergence upper-bound for the UDP algorithm. It reveals that there exists an optimal number of communication rounds to achieve the best learning performance. More importantly, we propose a communication rounds discounting (CRD) method. Compared with the heuristic search method, the proposed CRD method can achieve a much better trade-off between the computational complexity of searching and the convergence performance. Extensive experiments indicate that our UDP algorithm using the proposed CRD method can effectively improve both the training efficiency and model quality for the given privacy protection levels.
翻訳日:2022-12-27 20:25:36 公開日:2021-01-29
# TinyMLシステムのベンチマーク: 課題と方向性

Benchmarking TinyML Systems: Challenges and Direction ( http://arxiv.org/abs/2003.04821v4 )

ライセンス: Link先を確認
Colby R. Banbury, Vijay Janapa Reddi, Max Lam, William Fu, Amin Fazel, Jeremy Holleman, Xinyuan Huang, Robert Hurtado, David Kanter, Anton Lokhmotov, David Patterson, Danilo Pau, Jae-sun Seo, Jeff Sieracki, Urmish Thakker, Marian Verhelst, Poonam Yadav(参考訳) 超低消費電力機械学習(TinyML)ハードウェアの最近の進歩は、まったく新しいタイプのスマートアプリケーションをアンロックすることを約束している。 しかし、これらのシステムに対する広く受け入れられているベンチマークが欠如しているため、継続的な進歩は限られている。 ベンチマークにより、システムの性能を計測し、体系的に比較し、評価し、改善することができる。 本稿では、TinyMLの現在の状況を説明し、TinyMLワークロードのための公平で有用なハードウェアベンチマークを開発するための課題と方向性について論じる。 さらに,4つのベンチマークを提示し,選択手法について考察する。 当社の視点は,30以上の組織からなるtinymlperfワーキンググループの集団的思考を反映している。

Recent advancements in ultra-low-power machine learning (TinyML) hardware promises to unlock an entirely new class of smart applications. However, continued progress is limited by the lack of a widely accepted benchmark for these systems. Benchmarking allows us to measure and thereby systematically compare, evaluate, and improve the performance of systems and is therefore fundamental to a field reaching maturity. In this position paper, we present the current landscape of TinyML and discuss the challenges and direction towards developing a fair and useful hardware benchmark for TinyML workloads. Furthermore, we present our four benchmarks and discuss our selection methodology. Our viewpoints reflect the collective thoughts of the TinyMLPerf working group that is comprised of over 30 organizations.
翻訳日:2022-12-24 21:47:03 公開日:2021-01-29
# 不連続表現を用いた自己教師付き2次元画像から3次元形状変換

Self-Supervised 2D Image to 3D Shape Translation with Disentangled Representations ( http://arxiv.org/abs/2003.10016v2 )

ライセンス: Link先を確認
Berk Kaya, Radu Timofte(参考訳) 2次元画像ビューと3次元オブジェクト形状を変換するフレームワークを提案する。 近年のディープラーニングの進歩により,シーンから構造認識表現を学習できるようになった。 しかし、既存の文献では、画像と3d形状のペアが完全な監視の下でトレーニングに利用できると仮定している。 本稿では,3つの課題を満たす翻訳フレームワークを構築するための自己教師付き画像sistを提案する。 (i) 1枚の画像から3次元形状を再構成すること。 (ii)形状、外観、視点の絡み合った表現を学習すること。 3)これらの独立要因からリアルなRGB画像を生成する。 既存のアプローチとは対照的に,本手法ではトレーニングに画像形状ペアは不要である。 代わりに、同じオブジェクトクラスの未ペア画像と形状データセットを使用し、画像生成と形状再構成ネットワークを共同で訓練する。 本手法は,完全教師付き手法によって達成された最先端技術と定量的・定性的に比較し,有望な結果が得られる。

We present a framework to translate between 2D image views and 3D object shapes. Recent progress in deep learning enabled us to learn structure-aware representations from a scene. However, the existing literature assumes that pairs of images and 3D shapes are available for training in full supervision. In this paper, we propose SIST, a Self-supervised Image to Shape Translation framework that fulfills three tasks: (i) reconstructing the 3D shape from a single image; (ii) learning disentangled representations for shape, appearance and viewpoint; and (iii) generating a realistic RGB image from these independent factors. In contrast to the existing approaches, our method does not require image-shape pairs for training. Instead, it uses unpaired image and shape datasets from the same object class and jointly trains image generator and shape reconstruction networks. Our translation method achieves promising results, comparable in quantitative and qualitative terms to the state-of-the-art achieved by fully-supervised methods.
翻訳日:2022-12-21 05:41:51 公開日:2021-01-29
# 部分微分レンダリングによるヒト単眼のポーズと形状再構成

Monocular Human Pose and Shape Reconstruction using Part Differentiable Rendering ( http://arxiv.org/abs/2003.10873v2 )

ライセンス: Link先を確認
Min Wang, Feng Qiu, Wentao Liu, Chen Qian, Xiaowei Zhou, Lizhuang Ma(参考訳) 単眼画像からの人物のポーズと形状の復元は、閉塞や形状のばらつきによる曖昧さの除去に依存する。 最近の研究は、3次元基底真理によって監視された深層ニューラルネットワークを通してパラメトリックモデルを直接推定する回帰に基づく手法に成功している。 しかし、3D地上の真理は豊富でなく、効率的に得られない。 本稿では,身体部分のセグメンテーションを批判的監督として紹介する。 部分分割は各部位の形状を示すだけでなく、部分間の閉塞も推測するのに役立つ。 部分分割による再構成を改善するために,ニューラルネットワークや最適化ループにおける部分分割によって部分ベースモデルを制御可能な部分レベル微分可能レンダラを提案する。 また,スケルトンと詳細な形状の中間表現としてレンダリングパイプラインに係わる一般的なパラメトリックモデルについても紹介する。 提案手法はパラメータ回帰,ボディモデル最適化,詳細なモデル登録を組み合わせる。 実験の結果,提案手法はポーズと形状のバランスのとれた評価を達成し,ヒト3.6m,up-3d,lspデータセットにおける最先端のアプローチを上回った。

Superior human pose and shape reconstruction from monocular images depends on removing the ambiguities caused by occlusions and shape variance. Recent works succeed in regression-based methods which estimate parametric models directly through a deep neural network supervised by 3D ground truth. However, 3D ground truth is neither in abundance nor can efficiently be obtained. In this paper, we introduce body part segmentation as critical supervision. Part segmentation not only indicates the shape of each body part but helps to infer the occlusions among parts as well. To improve the reconstruction with part segmentation, we propose a part-level differentiable renderer that enables part-based models to be supervised by part segmentation in neural networks or optimization loops. We also introduce a general parametric model engaged in the rendering pipeline as an intermediate representation between skeletons and detailed shapes, which consists of primitive geometries for better interpretability. The proposed approach combines parameter regression, body model optimization, and detailed model registration altogether. Experimental results demonstrate that the proposed method achieves balanced evaluation on pose and shape, and outperforms the state-of-the-art approaches on Human3.6M, UP-3D and LSP datasets.
翻訳日:2022-12-20 09:18:06 公開日:2021-01-29
# 知識ベースクエリに対する忠実な埋め込み

Faithful Embeddings for Knowledge Base Queries ( http://arxiv.org/abs/2004.03658v3 )

ライセンス: Link先を確認
Haitian Sun, Andrew O. Arnold, Tania Bedrax-Weiss, Fernando Pereira, William W. Cohen(参考訳) 理想的知識ベース(KB)の帰納的閉包は、KBが答えられる論理的クエリを正確に含んでいる。 しかし、実際にはKBは不完全かつ過剰な仕様であり、実際の答えを持つクエリには答えられない。 KBエンティティとKBクエリを埋め込み空間で共同で表現し、KB推論における緩和と一般化をサポートする手法が最近提案されている。 しかし,本研究では,一般化や緩和を必要としない解に対する帰納的推論にQE系が不一致であることを示す。 提案手法は,帰納的推論に忠実な新しいQE手法を用いてこの問題に対処し,不完全KBに対する複雑なクエリの性能向上につながることを示す。 最後に、この新しいQEモジュールをニューラルな質問応答システムに挿入すると、最先端技術よりも大幅に改善されることを示す。

The deductive closure of an ideal knowledge base (KB) contains exactly the logical queries that the KB can answer. However, in practice KBs are both incomplete and over-specified, failing to answer some queries that have real-world answers. \emph{Query embedding} (QE) techniques have been recently proposed where KB entities and KB queries are represented jointly in an embedding space, supporting relaxation and generalization in KB inference. However, experiments in this paper show that QE systems may disagree with deductive reasoning on answers that do not require generalization or relaxation. We address this problem with a novel QE method that is more faithful to deductive reasoning, and show that this leads to better performance on complex queries to incomplete KBs. Finally we show that inserting this new QE module into a neural question-answering system leads to substantial improvements over the state-of-the-art.
翻訳日:2022-12-15 22:36:36 公開日:2021-01-29
# SGDとその連続時間に対する収束率と近似結果

Convergence rates and approximation results for SGD and its continuous-time counterpart ( http://arxiv.org/abs/2004.04193v2 )

ライセンス: Link先を確認
Xavier Fontaine, Valentin De Bortoli, and Alain Durmus(参考訳) 本稿では,SGD(Stochastic Gradient Descent)の非増加ステップサイズによる理論的解析を提案する。 まず,再帰を定義するsgdは,適切なカップリングを用いて時間不均質な確率微分方程式 (sde) の解によって近似できることを示す。 バッチノイズの特定の場合、スタイン法における最近の進歩を用いて、結果を精錬する。 そして, 決定論的および確率的最適化手法の連続的手法による最近の解析から動機付け, 連続過程の長期的挙動を考察し, 非漸近的境界を確立する。 そこで我々は,独立性のある新たな比較手法を開発した。 これらの手法を離散的な設定に適応させることで、対応するSGD配列に対して同じ結果が成り立つことを示す。 本解析では,sgdの凸集合における非漸近的境界を,従来の研究よりも弱い仮定下で特に改善する。 最後に、非凸函数のクラスに適用できる有名な {\l}ojasiewicz不等式(英語版)の緩和を含む様々な条件下で有限時間収束結果を確立する。

This paper proposes a thorough theoretical analysis of Stochastic Gradient Descent (SGD) with non-increasing step sizes. First, we show that the recursion defining SGD can be provably approximated by solutions of a time inhomogeneous Stochastic Differential Equation (SDE) using an appropriate coupling. In the specific case of a batch noise we refine our results using recent advances in Stein's method. Then, motivated by recent analyses of deterministic and stochastic optimization methods by their continuous counterpart, we study the long-time behavior of the continuous processes at hand and establish non-asymptotic bounds. To that purpose, we develop new comparison techniques which are of independent interest. Adapting these techniques to the discrete setting, we show that the same results hold for the corresponding SGD sequences. In our analysis, we notably improve non-asymptotic bounds in the convex setting for SGD under weaker assumptions than the ones considered in previous works. Finally, we also establish finite-time convergence results under various conditions, including relaxations of the famous {\L}ojasiewicz inequality, which can be applied to a class of non-convex functions.
翻訳日:2022-12-15 09:20:47 公開日:2021-01-29
# IterDet: クラウド環境におけるオブジェクト検出の反復的スキーム

IterDet: Iterative Scheme for Object Detection in Crowded Environments ( http://arxiv.org/abs/2005.05708v2 )

ライセンス: Link先を確認
Danila Rukhovich, Konstantin Sofiiuk, Danil Galeev, Olga Barinova, Anton Konushin(参考訳) ディープラーニングベースの検出器は通常、同じオブジェクトの重複検出を含む冗長なオブジェクトバウンディングボックスを生成する。 これらのボックスは、興味のある対象ごとに正確に1つのバウンディングボックスを選択するために、非最大抑圧(NMS)を使用してフィルタリングされる。 このグレディスキームは単純で、孤立したオブジェクトに対して十分な精度を提供するが、異なるオブジェクトのボックスを保存し、重複検出を抑える必要があるため、しばしば混み合った環境で失敗する。 この作業では、オブジェクトの新たなサブセットを各イテレーションで検出する、別の反復スキームを開発します。 前のイテレーションから検出されたボックスは、次のイテレーションでネットワークに渡され、同じオブジェクトが2回検出されないようにする。 この反復的なスキームは、1段階と2段階の物体検出器の両方に適用でき、訓練と推論の手順を少し修正するだけでよい。 4つのデータセットで2つの異なるベースライン検出器を用いて広範囲な実験を行い、ベースラインに対して大幅な改善を示し、人的およびより広い人的データセットにおける最先端のパフォーマンスをもたらす。 ソースコードとトレーニングされたモデルはhttps://github.com/saic-vul/iterdetで入手できる。

Deep learning-based detectors usually produce a redundant set of object bounding boxes including many duplicate detections of the same object. These boxes are then filtered using non-maximum suppression (NMS) in order to select exactly one bounding box per object of interest. This greedy scheme is simple and provides sufficient accuracy for isolated objects but often fails in crowded environments, since one needs to both preserve boxes for different objects and suppress duplicate detections. In this work we develop an alternative iterative scheme, where a new subset of objects is detected at each iteration. Detected boxes from the previous iterations are passed to the network at the following iterations to ensure that the same object would not be detected twice. This iterative scheme can be applied to both one-stage and two-stage object detectors with just minor modifications of the training and inference procedures. We perform extensive experiments with two different baseline detectors on four datasets and show significant improvement over the baseline, leading to state-of-the-art performance on CrowdHuman and WiderPerson datasets. The source code and the trained models are available at https://github.com/saic-vul/iterdet.
翻訳日:2022-12-03 19:17:17 公開日:2021-01-29
# 深部ニューラルネットワークのトレーニングにおける確率勾配降下の非収束性

Non-convergence of stochastic gradient descent in the training of deep neural networks ( http://arxiv.org/abs/2006.07075v2 )

ライセンス: Link先を確認
Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek(参考訳) ディープニューラルネットワークは確率勾配降下を伴う様々な応用領域で訓練されている。 しかし、なぜこれがうまく機能するのかの厳密な数学的説明は存在しない。 確率勾配勾配勾配を持つニューラルネットワークのトレーニングには、4つの異なる離散化パラメータがある。 (i)ネットワークアーキテクチャ 二 訓練データの量 (iii)傾斜段数、及び (iv)ランダムに初期化された勾配軌道の数。 4つのパラメータがすべて正しい順序で無限大に送られると近似誤差がゼロに収束することを示すことができるが、本論文では、その深さがその幅よりも大きくランダム初期化の数が十分速くならない場合に、確率的勾配降下がreluネットワークに対して収束しないことを示す。

Deep neural networks have successfully been trained in various application areas with stochastic gradient descent. However, there exists no rigorous mathematical explanation why this works so well. The training of neural networks with stochastic gradient descent has four different discretization parameters: (i) the network architecture; (ii) the amount of training data; (iii) the number of gradient steps; and (iv) the number of randomly initialized gradient trajectories. While it can be shown that the approximation error converges to zero if all four parameters are sent to infinity in the right order, we demonstrate in this paper that stochastic gradient descent fails to converge for ReLU networks if their depth is much larger than their width and the number of random initializations does not increase to infinity fast enough.
翻訳日:2022-11-22 03:33:54 公開日:2021-01-29
# グラフニューラルネットワークを用いたスパースデータからの連続時間PDE学習

Learning continuous-time PDEs from sparse data with graph neural networks ( http://arxiv.org/abs/2006.08956v3 )

ライセンス: Link先を確認
Valerii Iakovlev, Markus Heinonen, Harri L\"ahdesm\"aki(参考訳) 多くの力学系の挙動は複素だがまだ未知の偏微分方程式(PDE)に従う。 データから直接PDEを学習するためにいくつかの機械学習手法が提案されているが、従来の手法は離散時間近似に制限されている。 本稿では、メッセージパッシンググラフニューラルネットワークにより制御方程式をパラメータ化した力学系に対する一般的な連続時間差分モデルを提案する。 このモデルは任意の空間と時間の離散化を認め、観測点の位置と観測の間の時間間隔の制約を取り除く。 このモデルは、効率的なニューラルPDE推論を可能にする連続時間随伴法を用いて訓練される。 モデルが非構造化グリッドで動作できること、任意の時間ステップ、ノイズの多い観察を実証する。 提案手法は,PDEと最先端予測性能を併せ持ついくつかの既知物理系の既存手法と比較する。

The behavior of many dynamical systems follow complex, yet still unknown partial differential equations (PDEs). While several machine learning methods have been proposed to learn PDEs directly from data, previous methods are limited to discrete-time approximations or make the limiting assumption of the observations arriving at regular grids. We propose a general continuous-time differential model for dynamical systems whose governing equations are parameterized by message passing graph neural networks. The model admits arbitrary space and time discretizations, which removes constraints on the locations of observation points and time intervals between the observations. The model is trained with continuous-time adjoint method enabling efficient neural PDE inference. We demonstrate the model's ability to work with unstructured grids, arbitrary time steps, and noisy observations. We compare our method with existing approaches on several well-known physical systems that involve first and higher-order PDEs with state-of-the-art predictive performance.
翻訳日:2022-11-20 19:20:08 公開日:2021-01-29
# マシンフェアネスの不確実性定理--因果的視点

The Impossibility Theorem of Machine Fairness -- A Causal Perspective ( http://arxiv.org/abs/2007.06024v2 )

ライセンス: Link先を確認
Kailash Karthik Saravanakumar(参考訳) 社会的および経済的環境における機械学習の普及に伴い、AIコミュニティにおける機械学習バイアスの概念への関心が高まっている。 歴史的データに基づいてトレーニングされたモデルは、社会に存在するバイアスを反映し、彼らの決定を通じて未来に広める。 コミュニティではマシンフェアネスの3つの顕著な指標があり、これらすべてを同時に満たすことは不可能であることが統計的に示されている。 これは公平性の定義に関する曖昧さにつながった。 本稿では, 不合理性定理に対する因果的視点と, マシンフェアネスの因果的目標について述べる。

With the increasing pervasive use of machine learning in social and economic settings, there has been an interest in the notion of machine bias in the AI community. Models trained on historic data reflect biases that exist in society and propagated them to the future through their decisions. There are three prominent metrics of machine fairness used in the community, and it has been shown statistically that it is impossible to satisfy them all at the same time. This has led to an ambiguity with regards to the definition of fairness. In this report, a causal perspective to the impossibility theorem of fairness is presented along with a causal goal for machine fairness.
翻訳日:2022-11-11 05:12:18 公開日:2021-01-29
# 変分オートエンコーダのロバスト性に関する理論的理解に向けて

Towards a Theoretical Understanding of the Robustness of Variational Autoencoders ( http://arxiv.org/abs/2007.07365v3 )

ライセンス: Link先を確認
Alexander Camuto, Matthew Willetts, Stephen Roberts, Chris Holmes, Tom Rainforth(参考訳) 敵攻撃や他の入力摂動に対する変分オートエンコーダ(VAE)の堅牢性を理解するために,我々は進出している。 以前の研究は、VAEを攻撃し、防御するためのアルゴリズム的なアプローチを開発してきたが、VAEが堅牢であることの意味については、まだ定式化されていない。 これに対処するために、確率モデルのロバスト性に対する新しい基準である $r$-robustness を開発します。 次に、これを用いてvaesのロバスト性の最初の理論的結果を構築し、入力空間のマージンを導出し、その結果の再構築に関する保証を提供する。 非公式に、任意の摂動が元の再構成と類似した再構築を生成する領域を定義することができる。 分析支援のため,断定法を用いて訓練したvaesは,ロバスト性指標の下でのスコアが良好であるだけでなく,その原因を理論的な結果から解釈できることを示した。

We make inroads into understanding the robustness of Variational Autoencoders (VAEs) to adversarial attacks and other input perturbations. While previous work has developed algorithmic approaches to attacking and defending VAEs, there remains a lack of formalization for what it means for a VAE to be robust. To address this, we develop a novel criterion for robustness in probabilistic models: $r$-robustness. We then use this to construct the first theoretical results for the robustness of VAEs, deriving margins in the input space for which we can provide guarantees about the resulting reconstruction. Informally, we are able to define a region within which any perturbation will produce a reconstruction that is similar to the original reconstruction. To support our analysis, we show that VAEs trained using disentangling methods not only score well under our robustness metrics, but that the reasons for this can be interpreted through our theoretical results.
翻訳日:2022-11-10 13:58:12 公開日:2021-01-29
# グラフニューラルネットワーク:アーキテクチャ、安定性、転送性

Graph Neural Networks: Architectures, Stability and Transferability ( http://arxiv.org/abs/2008.01767v3 )

ライセンス: Link先を確認
Luana Ruiz, Fernando Gama, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、グラフでサポートされている信号のための情報処理アーキテクチャである。 これらは、古典的畳み込みフィルタのバンクではなくグラフ畳み込みフィルタのバンクを含む個々の層を含む畳み込みニューラルネットワーク(cnns)の一般化として提示される。 GNNはCNNとして運営されている。 フィルタはポイントワイズな非線形性で構成され、層に積み重ねられる。 GNNアーキテクチャは、置換とグラフ変形の安定性に等しいことが示されている。 これらの特性は、経験的に観察できるGNNの優れた性能を説明するのに役立つ。 また、グラフが極限オブジェクトに収束すると、graphon、gnnsが対応する限界オブジェクト、graphonニューラルネットワークに収束することを示した。 この収束は、ノード数が異なるネットワーク間のGNNの転送可能性を正当化する。 概念は、GNNのレコメンデーションシステム、分散協調制御、無線通信ネットワークへの応用によって説明される。

Graph Neural Networks (GNNs) are information processing architectures for signals supported on graphs. They are presented here as generalizations of convolutional neural networks (CNNs) in which individual layers contain banks of graph convolutional filters instead of banks of classical convolutional filters. Otherwise, GNNs operate as CNNs. Filters are composed with pointwise nonlinearities and stacked in layers. It is shown that GNN architectures exhibit equivariance to permutation and stability to graph deformations. These properties help explain the good performance of GNNs that can be observed empirically. It is also shown that if graphs converge to a limit object, a graphon, GNNs converge to a corresponding limit object, a graphon neural network. This convergence justifies the transferability of GNNs across networks with different number of nodes. Concepts are illustrated by the application of GNNs to recommendation systems, decentralized collaborative control, and wireless communication networks.
翻訳日:2022-11-02 23:40:06 公開日:2021-01-29
# グレディモンテカルロ探索によるスパース信号の再構成

Reconstructing Sparse Signals via Greedy Monte-Carlo Search ( http://arxiv.org/abs/2008.03175v3 )

ライセンス: Link先を確認
Kao Hayashi, Tomoyuki Obuchi, Yoshiyuki Kabashima(参考訳) 高次元空間におけるスパース線形回帰の定式化におけるスパース信号を再構成するモンテカルロ法を提案する。 このアルゴリズムの基本的な考え方は、与えられたデータベクトルまたは応答を表す変数または共変数を明示的に選択し、その選択のランダムに生成された更新を受け付けることである。 このアルゴリズムは greedy monte-carlo (gmc) search algorithm と呼ばれる。 その性能は数値実験によって検証され、ノイズレスの場合、GCCは妥当なレベルのアンダーサンプリングの状況において完全な再構築を達成でき、$\ell_1$緩和よりも優れているが、理論上はMCベースの手法のアルゴリズム的限界に到達しない。 必要な計算時間についても検討し,シミュレーションアニーリングを用いたアルゴリズムと比較した。 さらに, 合成データセットと実世界のデータセットを用いて, GMCの実用性を支持するノイズケース実験を行った。

We propose a Monte-Carlo-based method for reconstructing sparse signals in the formulation of sparse linear regression in a high-dimensional setting. The basic idea of this algorithm is to explicitly select variables or covariates to represent a given data vector or responses and accept randomly generated updates of that selection if and only if the energy or cost function decreases. This algorithm is called the greedy Monte-Carlo (GMC) search algorithm. Its performance is examined via numerical experiments, which suggests that in the noiseless case, GMC can achieve perfect reconstruction in undersampling situations of a reasonable level: it can outperform the $\ell_1$ relaxation but does not reach the algorithmic limit of MC-based methods theoretically clarified by an earlier analysis. The necessary computational time is also examined and compared with that of an algorithm using simulated annealing. Additionally, experiments on the noisy case are conducted on synthetic datasets and on a real-world dataset, supporting the practicality of GMC.
翻訳日:2022-11-02 01:02:08 公開日:2021-01-29
# アナログラグランジュ符号計算

Analog Lagrange Coded Computing ( http://arxiv.org/abs/2008.08565v2 )

ライセンス: Link先を確認
Mahdi Soleymani, Hessam Mahdavifar, A. Salman Avestimehr(参考訳) 分散コンピューティングシナリオでは、ワーカノードの集合の計算能力を使用して、ワーカ間で分散されたデータセット上で特定の計算タスクを実行する。 Yuらによって提案されたラグランジュ符号化コンピューティング(LCC)は、有名なラグランジュ多項式を利用して、労働者の共謀の可能性を秘めたデータのプライバシーを維持しながら、そのようなシナリオでデータセットの多項式評価を行う。 この解は、データを有限体に定量化することに依存しており、シャミールの秘密の共有は、その主要な構成要素の1つである。 しかし、このようなソリューションは、主に計算オーバーフローのため、データセットのサイズで適切にスケーラブルではない。 このような重要な問題に対処するため,アナログLCC(ALCC)と呼ばれるアナログ領域へのLCCの新たな拡張を提案する。 提案するALCCプロトコルのすべての操作は、R/Cの無限フィールド上で実行されるが、実際の実装では浮動小数点数を使用する。 我々は、ALCCにおけるデータのプライバシを、ある大きさの衝突労働者の任意のサブセットに対して、識別セキュリティ(DS)と相互情報セキュリティ(MIS)メトリクスの観点から特徴づける。 また、浮動小数点数を用いた演算を前提とした実用的な設定で結果の精度を特徴付ける。 その結果、ALCCの結果とプライバシーレベルとの基本的なトレードオフが観察され、数値的に評価される。 さらに,行列のバッチ上で行列-行列乗算を行うための提案手法を実装した。 両スキームが同じビット数を用いてデータシンボルを表現していると仮定すると、ALCCは固定点数を用いて実装された最先端のLCCよりも優れている。

A distributed computing scenario is considered, where the computational power of a set of worker nodes is used to perform a certain computation task over a dataset that is dispersed among the workers. Lagrange coded computing (LCC), proposed by Yu et al., leverages the well-known Lagrange polynomial to perform polynomial evaluation of the dataset in such a scenario in an efficient parallel fashion while keeping the privacy of data amidst possible collusion of workers. This solution relies on quantizing the data into a finite field, so that Shamir's secret sharing, as one of its main building blocks, can be employed. Such a solution, however, is not properly scalable with the size of dataset, mainly due to computation overflows. To address such a critical issue, we propose a novel extension of LCC to the analog domain, referred to as analog LCC (ALCC). All the operations in the proposed ALCC protocol are done over the infinite fields of R/C but for practical implementations floating-point numbers are used. We characterize the privacy of data in ALCC, against any subset of colluding workers up to a certain size, in terms of the distinguishing security (DS) and the mutual information security (MIS) metrics. Also, the accuracy of outcome is characterized in a practical setting assuming operations are performed using floating-point numbers. Consequently, a fundamental trade-off between the accuracy of the outcome of ALCC and its privacy level is observed and is numerically evaluated. Moreover, we implement the proposed scheme to perform matrix-matrix multiplication over a batch of matrices. It is observed that ALCC is superior compared to the state-of-the-art LCC, implemented using fixed-point numbers, assuming both schemes use an equal number of bits to represent data symbols.
翻訳日:2022-10-27 12:45:18 公開日:2021-01-29
# 時空間統計の探索による自己教師付き映像表現学習

Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics ( http://arxiv.org/abs/2008.13426v2 )

ライセンス: Link先を確認
Jiangliu Wang, Jianbo Jiao, Linchao Bao, Shengfeng He, Wei Liu, and Yun-hui Liu(参考訳) 本稿では,自己教師付きビデオ表現学習問題に対処する新しい前提課題を提案する。 具体的には、ラベルのないビデオクリップが与えられた場合、最大運動の空間的位置と支配方向、時間軸に沿った最大の色多様性の空間的位置と支配的な色など、時空間統計的な一連の要約を計算する。 次にニューラルネットワークを構築して、ビデオフレームを入力として与えた統計要約を生成するようにトレーニングする。 学習難易度を緩和するために,空間的分割パターンを多用し,空間的デカルト座標に代えて粗い空間位置を符号化する。 我々のアプローチは、人間の視覚系が視覚領域におけるコンテンツの変化に敏感であり、視覚内容を理解するために粗い空間的位置に関する印象のみを必要とするという観察に着想を得たものである。 提案手法の有効性を検証するため,C3D,3D-ResNet,R(2+1)D,S3D-Gの4つのバックボーンネットワークを用いて実験を行った。 提案手法は,動作認識,映像検索,動的シーン認識,行動類似性ラベル付けを含む4つの下流映像解析タスクにおいて,これらのバックボーンネットワークにおける既存手法よりも優れていた。 ソースコードはhttps://github.com/laura-wang/video_repres_stsで公開されている。

This paper proposes a novel pretext task to address the self-supervised video representation learning problem. Specifically, given an unlabeled video clip, we compute a series of spatio-temporal statistical summaries, such as the spatial location and dominant direction of the largest motion, the spatial location and dominant color of the largest color diversity along the temporal axis, etc. Then a neural network is built and trained to yield the statistical summaries given the video frames as inputs. In order to alleviate the learning difficulty, we employ several spatial partitioning patterns to encode rough spatial locations instead of exact spatial Cartesian coordinates. Our approach is inspired by the observation that human visual system is sensitive to rapidly changing contents in the visual field, and only needs impressions about rough spatial locations to understand the visual contents. To validate the effectiveness of the proposed approach, we conduct extensive experiments with four 3D backbone networks, i.e., C3D, 3D-ResNet, R(2+1)D and S3D-G. The results show that our approach outperforms the existing approaches across these backbone networks on four downstream video analysis tasks including action recognition, video retrieval, dynamic scene recognition, and action similarity labeling. The source code is publicly available at: https://github.com/laura-wang/video_repres_sts.
翻訳日:2022-10-23 07:09:09 公開日:2021-01-29
# 組合せ学習法に基づく緊急車両の戦術的意思決定

Tactical Decision Making for Emergency Vehicles Based on A Combinational Learning Method ( http://arxiv.org/abs/2009.04203v3 )

ライセンス: Link先を確認
Haoyi Niu, Jianming Hu, Zheyu Cui, Yi Zhang(参考訳) 緊急車両(EV)の応答時間の増加は、不測の財産と生命の喪失につながる可能性がある。 この点に関して、EVの微視的制御の戦術的決定は改善すべき課題である。 本稿では,evに先立つ優先ゾーンのcvsが車線を加速または変更し,それを回避するためのルールベース回避戦略(as)を考案する。 さらに,速度適応型コンパクト状態空間(SC-DQN)を用いた新しいDQN法をEVの高速機能に適合させ,様々な道路トポロジで一般化する。 その後、SC-DQNの入力に対するASフィードバックの実行は、結合として有機的に結合するようにした。 次のアプローチでは、DRLは一般化におけるルールベースの回避戦略を補完し、逆にルールベースの回避戦略はDRLの安定性を補完し、それらの組み合わせはより応答時間が少なく、衝突速度が低く、軌道が滑らかになる可能性がある。

Increasing the response time of emergency vehicles(EVs) could lead to an immeasurable loss of property and life. On this account, tactical decision making for EVs' microscopic control remains an indispensable issue to be improved. In this paper, a rule-based avoiding strategy(AS) is devised, that CVs in the prioritized zone ahead of EV should accelerate or change their lane to avoid it. Besides, a novel DQN method with speed-adaptive compact state space (SC-DQN) is put forward to fit in EVs' high-speed feature and generalize in various road topologies. Afterward, the execution of AS feedback to the input of SC-DQN so that they joint organically as a combinational method. The following approach reveals that DRL could complement rule-based avoiding strategy in generalization, and on the contrary, the rule-based avoiding strategy could complement DRL in stability, and their combination could lead to less response time, lower collision rate and smoother trajectory.
翻訳日:2022-10-20 12:08:00 公開日:2021-01-29
# 心内エコーカテーテルの自動操作に向けて

Towards Automatic Manipulation of Intra-cardiac Echocardiography Catheter ( http://arxiv.org/abs/2009.05859v3 )

ライセンス: Link先を確認
Young-Ho Kim, Jarrod Collins, Zhongyu Li, Ponraj Chinnadurai, Ankur Kapoor, C. Huie Lin, Tommaso Mansi(参考訳) 心内心エコー法(ICE)は、電気生理学的および構造的心臓介入を導く強力な画像モダリティである。 ICEは解剖学、カテーテル、緊急合併症をリアルタイムで観察する。 しかし、このプロシージャ内画像への依存度の増加は、しばしば介入主義者やイメージナーとして機能する医師に高い認知的需要をもたらす。 本稿では,ICEカテーテル用ロボットマニピュレータについて,画像診断とプロシージャ自動化のプロセス開発のためのプラットフォームとして機能する。 本稿では,(1)医師が介入中にビューを保存し,ボタンを押して自動的に復帰できるビューリカバリプロセス,(2)カテーテル湾曲時の非線形動作によるキネマティックモデルエラーを補償するデータ駆動アプローチの2つのアプリケーションモジュールを紹介し,カテーテル先端のより正確な制御を提供する。 心ファントムおよび動物実験におけるカテーテル位置決めと位置・画像解析によるビュー回復の検証を行う。 ベンチトップ実験およびファントム実験において,誤差補償のための簡易キャリブレーション手法と,カテーテルの複雑な回転による検証を行った。 結果は、ICE用のロボットマニピュレータが効率よく再現可能なツールを提供し、実行時間を短縮し、ICEイメージングのさらなる活用を促進することを支持する。

Intra-cardiac Echocardiography (ICE) is a powerful imaging modality for guiding electrophysiology and structural heart interventions. ICE provides real-time observation of anatomy, catheters, and emergent complications. However, this increased reliance on intraprocedural imaging creates a high cognitive demand on physicians who can often serve as interventionalist and imager. We present a robotic manipulator for ICE catheters to assist physicians with imaging and serve as a platform for developing processes for procedural automation. Herein, we introduce two application modules towards these goals: (1) a view recovery process that allows physicians to save views during intervention and automatically return with the push of a button and (2) a data-driven approach to compensate kinematic model errors that result from non-linear behaviors in catheter bending, providing more precise control of the catheter tip. View recovery is validated by repeated catheter positioning in cardiac phantom and animal experiments with position- and image-based analysis. We present a simplified calibration approach for error compensation and verify with complex rotation of the catheter in benchtop and phantom experiments under varying realistic curvature conditions. Results support that a robotic manipulator for ICE can provide an efficient and reproducible tool, potentially reducing execution time and promoting greater utilization of ICE imaging.
翻訳日:2022-10-19 07:48:37 公開日:2021-01-29
# 構造MRヘッドスキャンにおけるセグメンテーション精度がTMSおよびtESの電場計算に及ぼす影響

Influence of segmentation accuracy in structural MR head scans on electric field computation for TMS and tES ( http://arxiv.org/abs/2009.12015v2 )

ライセンス: Link先を確認
Essam A. Rashed, Jose Gomez-Tames, Akimasa Hirata(参考訳) 電気刺激効果に基づくいくつかの診断および治療方法において、刺激に関連する内部物理量が誘導電界である。 個々のヒトモデルにおける誘導電界を推定するためには、対応する身体部位の(磁気共鳴画像(MRI)スキャンなどの解剖学的画像の組織へのセグメンテーションが必要である。 次に、異なるアノテート組織に関連する電気的特性をデジタルモデルに割り当て、ボリューム導体を生成する。 オープンな疑問は、異なる組織の分断精度が誘導電界の分布にどのように影響するかである。 本研究では,異なる組織のパラメトリックセグメンテーションを適用し,利用可能なMRIのセグメンテーションを利用して,深層学習ニューラルネットワークアーキテクチャ(ForkNet)を用いた頭部モデルの異なる品質を生成する。 次に、誘導電界の比較を行い、モデルセグメンテーション変動の影響を評価する。 計算結果から,セグメンテーション誤差の影響は組織依存性であることが示唆された。 脳では、脳脊髄液(CSF)ではセグメンテーションの精度が比較的高く、灰白質(GM)では中等度であり、経頭蓋磁気刺激(TMS)や経頭蓋電気刺激(TES)では白質が低い。 dice係数(dc)の観点からのcsfセグメンテーション精度の10%の低下は、両方の応用において正規化誘導電界の最大4%の低下をもたらす。 しかし、5.6%DCのGMセグメンテーション精度の低下により、正規化誘導電界は6%まで増加する。 TMS, tESともにCSFとGMの間に電界変動の正の傾向が認められた。 ここで得られた発見は、計算結果の潜在的な不確実性を定量化するのに役立つだろう。

In several diagnosis and therapy procedures based on electrostimulation effect, the internal physical quantity related to the stimulation is the induced electric field. To estimate the induced electric field in an individual human model, the segmentation of anatomical imaging, such as (magnetic resonance image (MRI) scans, of the corresponding body parts into tissues is required. Then, electrical properties associated with different annotated tissues are assigned to the digital model to generate a volume conductor. An open question is how segmentation accuracy of different tissues would influence the distribution of the induced electric field. In this study, we applied parametric segmentation of different tissues to exploit the segmentation of available MRI to generate different quality of head models using deep learning neural network architecture, named ForkNet. Then, the induced electric field are compared to assess the effect of model segmentation variations. Computational results indicate that the influence of segmentation error is tissue-dependent. In brain, sensitivity to segmentation accuracy is relatively high in cerebrospinal fluid (CSF), moderate in gray matter (GM) and low in white matter for transcranial magnetic stimulation (TMS) and transcranial electrical stimulation (tES). A CSF segmentation accuracy reduction of 10% in terms of Dice coefficient (DC) lead to decrease up to 4% in normalized induced electric field in both applications. However, a GM segmentation accuracy reduction of 5.6% DC leads to increase of normalized induced electric field up to 6%. Opposite trend of electric field variation was found between CSF and GM for both TMS and tES. The finding obtained here would be useful to quantify potential uncertainty of computational results.
翻訳日:2022-10-14 22:38:57 公開日:2021-01-29
# 深部生成モデルにおけるロッテリティケットの獲得

Winning Lottery Tickets in Deep Generative Models ( http://arxiv.org/abs/2010.02350v2 )

ライセンス: Link先を確認
Neha Mukund Kalibhat, Yogesh Balaji, Soheil Feizi(参考訳) 抽選券仮説は、与えられたニューラルネットワークのスパースなサブネットワークが、適切に初期化されれば、元のネットワークと同等あるいはそれ以上のパフォーマンスに達するように訓練できることを示唆している。 抽選チケットの先行研究は、主に教師付き学習設定に焦点を当てており、いくつかの論文は分類問題において「勝者チケット」を見つける効果的な方法を提案している。 本稿では,GANやVAEなどの深層生成モデルにおける入賞チケットの存在を確認した。 提案手法は, (遅延巻き戻しを伴って) 人気反復等級プルーニング手法を用いて, 獲得チケットの獲得に有効であることを示す。 このアプローチによって、AutoEncodersでは99%、VAEでは93%、CIFARとCeleb-Aデータセットでは89%のチケットが有効になる。 また,同一アーキテクチャを共有する異なる生成モデル(gansとvaes)間での入賞チケットの転送性を実証し,入賞チケットには多種多様な深層生成モデルのトレーニングに役立つ帰納バイアスがあることを示唆した。 さらに,「早期切符」と呼ばれるトレーニングのごく初期の段階での切符の検出により,生成モデルにおける抽選券の実用性を示す。 早期のバードチケットにより,浮動小数点演算(FLOP)の最大88%の削減とトレーニング時間の最大54%の削減を実現し,資源制約の厳しい大規模生成モデルのトレーニングを可能にした。 これらの結果は、SNIP(Lee、Ajanthan、Torr 2019)やGraSP(Wang、Zhang、Grosse 2020)といった既存のアーリープルーニング手法よりも優れています。 本研究は,生成モデルの収束と安定性を向上できる適切なネットワーク初期化の存在に光を当てた。

The lottery ticket hypothesis suggests that sparse, sub-networks of a given neural network, if initialized properly, can be trained to reach comparable or even better performance to that of the original network. Prior works in lottery tickets have primarily focused on the supervised learning setup, with several papers proposing effective ways of finding "winning tickets" in classification problems. In this paper, we confirm the existence of winning tickets in deep generative models such as GANs and VAEs. We show that the popular iterative magnitude pruning approach (with late rewinding) can be used with generative losses to find the winning tickets. This approach effectively yields tickets with sparsity up to 99% for AutoEncoders, 93% for VAEs and 89% for GANs on CIFAR and Celeb-A datasets. We also demonstrate the transferability of winning tickets across different generative models (GANs and VAEs) sharing the same architecture, suggesting that winning tickets have inductive biases that could help train a wide range of deep generative models. Furthermore, we show the practical benefits of lottery tickets in generative models by detecting tickets at very early stages in training called "early-bird tickets". Through early-bird tickets, we can achieve up to 88% reduction in floating-point operations (FLOPs) and 54% reduction in training time, making it possible to train large-scale generative models over tight resource constraints. These results out-perform existing early pruning methods like SNIP (Lee, Ajanthan, and Torr 2019) and GraSP (Wang, Zhang, and Grosse 2020). Our findings shed light towards existence of proper network initializations that could improve convergence and stability of generative models.
翻訳日:2022-10-10 20:55:23 公開日:2021-01-29
# SplitEasy: モバイルデバイス上でMLモデルをトレーニングするための実践的アプローチ

SplitEasy: A Practical Approach for Training ML models on Mobile Devices ( http://arxiv.org/abs/2011.04232v2 )

ライセンス: Link先を確認
Kamalesh Palanisamy, Vivek Khimani, Moin Hussain Moti, Dimitris Chatzopoulos(参考訳) 現代のモバイルデバイスは、リソースが豊富だが、サーバーの助けなしに最先端の機械学習モデルを訓練することはできない。 分割学習は、最近、低消費電力モバイルデバイス上で複雑なディープラーニング(DL)モデルをトレーニングするための有望なテクニックとして登場した。 この技術の背後にある中核的な考え方は、計算集約的なレイヤをサーバにオフロードしながら、モバイルデバイス上でDLモデルのセンシティブなレイヤをトレーニングすることである。 シミュレーション環境での分割学習の有効性については,多くの研究がすでに検討されているが,この目的のために有用なツールキットは存在しない。 本研究では,モバイルデバイス上で生データをサーバに転送することなくMLモデルをトレーニングする機能フレームワークを開発する上で,解決すべき理論的,技術的課題を強調した。 これらの課題に着目し,スプリットラーニングを用いたモバイルデバイス上でMLモデルをトレーニングするフレームワークであるSplitEasyを提案する。 SplitEasyが提供する抽象化を使うことで、開発者は最小限の変更を行うことで、分割学習環境でさまざまなDLモデルを実行できる。 SplitEasyの詳細を説明し、6つの最先端ニューラルネットワークで実験を行う。 本稿では,モバイルデバイスのみではトレーニングできないモデルをトレーニングし,データサンプル毎にほぼ一定時間を要することを実証する。

Modern mobile devices, although resourceful, cannot train state-of-the-art machine learning models without the assistance of servers, which require access to, potentially, privacy-sensitive user data. Split learning has recently emerged as a promising technique for training complex deep learning (DL) models on low-powered mobile devices. The core idea behind this technique is to train the sensitive layers of a DL model on mobile devices while offloading the computationally intensive layers to a server. Although a lot of works have already explored the effectiveness of split learning in simulated settings, a usable toolkit for this purpose does not exist. In this work, we highlight the theoretical and technical challenges that need to be resolved to develop a functional framework that trains ML models in mobile devices without transferring raw data to a server. Focusing on these challenges, we propose SplitEasy, a framework for training ML models on mobile devices using split learning. Using the abstraction provided by SplitEasy, developers can run various DL models under split learning setting by making minimal modifications. We provide a detailed explanation of SplitEasy and perform experiments with six state-of-the-art neural networks. We demonstrate how SplitEasy can train models that cannot be trained solely by a mobile device while incurring nearly constant time per data sample.
翻訳日:2022-09-28 00:44:31 公開日:2021-01-29
# 粗視・微視的マルコフ確率場に基づく高速点雲地上セグメンテーション手法

A Fast Point Cloud Ground Segmentation Approach Based on Coarse-To-Fine Markov Random Field ( http://arxiv.org/abs/2011.13140v2 )

ライセンス: Link先を確認
Weixin Huang, Huawei Liang, Linglong Lin, Zhiling Wang, Shaobo Wang, Biao Yu, Runxin Niu(参考訳) グラウンドセグメンテーションは、自動運転車(AV)と3D LiDARの重要な前処理タスクである。 精度と計算複雑性のバランスをとるのが非常に難しい既存の地盤分断手法の問題を解決するために,粗いマルコフランダム場(MRF)法に基づく高速点雲分断手法を提案する。 地中粗いセグメンテーションに改良された標高マップを用い, 時空間隣接点を用いてセグメンテーション結果の最適化を行う。 処理された点雲は、高信頼障害点、接地点、未知の分類点に分類され、MRFモデルを初期化する。 グラフカット法はモデルを解くために使われ、細かなセグメンテーションを実現する。 I7-3770 CPUの1コアだけでVelodyne HDL-64Eデータのフレームを処理する(平均39.77ms)。 また,提案手法の有効性を実証するためにフィールド試験を行った。

Ground segmentation is an important preprocessing task for autonomous vehicles (AVs) with 3D LiDARs. To solve the problem of existing ground segmentation methods being very difficult to balance accuracy and computational complexity, a fast point cloud ground segmentation approach based on a coarse-to-fine Markov random field (MRF) method is proposed. The method uses an improved elevation map for ground coarse segmentation, and then uses spatiotemporal adjacent points to optimize the segmentation results. The processed point cloud is classified into high-confidence obstacle points, ground points, and unknown classification points to initialize an MRF model. The graph cut method is then used to solve the model to achieve fine segmentation. Experiments on datasets showed that our method improves on other algorithms in terms of ground segmentation accuracy and is faster than other graph-based algorithms, which require only a single core of an I7-3770 CPU to process a frame of Velodyne HDL-64E data (in 39.77 ms, on average). Field tests were also conducted to demonstrate the effectiveness of the proposed method.
翻訳日:2022-09-20 08:55:18 公開日:2021-01-29
# 経験的リスクランドスケープによる過剰リスクの完全な特徴付け

A Full Characterization of Excess Risk via Empirical Risk Landscape ( http://arxiv.org/abs/2012.02456v2 )

ライセンス: Link先を確認
Mingyang Yi, Ruoyu Wang, Zhi-Ming Ma(参考訳) 本稿では,滑らかな凸損失関数と非凸損失関数の両方を持つ固有アルゴリズムによって訓練されたモデルの過剰リスクの統一的解析を行う。 イテレーションのステップに依存する文献の既存の境界とは対照的に、過剰なリスクに対する我々の境界はイテレーションの数に偏らない。 これは、少なくともスムースな損失関数に対しては、トレーニング後に過剰なリスクが保証されることを強調する。 リスクを過大にするために,アルゴリズムの安定性と非漸近的なリスクランドスケープのキャラクタリゼーションに基づく手法を開発した。 適切なアルゴリズムで得られたモデルは、この手法で一般化することが証明された。 特に,非凸損失に対しては,構築した補助アルゴリズムの安定性と手法を用いて結論を得る。 これを経験的リスクランドスケープのいくつかの性質と組み合わせることで、古典的な最適化結果の助けを借りて、凸型と非凸型の両方の過剰なリスクに収束した上限を導出する。

In this paper, we provide a unified analysis of the excess risk of the model trained by a proper algorithm with both smooth convex and non-convex loss functions. In contrast to the existing bounds in the literature that depends on iteration steps, our bounds to the excess risk do not diverge with the number of iterations. This underscores that, at least for smooth loss functions, the excess risk can be guaranteed after training. To get the bounds to excess risk, we develop a technique based on algorithmic stability and non-asymptotic characterization of the empirical risk landscape. The model obtained by a proper algorithm is proved to generalize with this technique. Specifically, for non-convex loss, the conclusion is obtained via the technique and analyzing the stability of a constructed auxiliary algorithm. Combining this with some properties of the empirical risk landscape, we derive converged upper bounds to the excess risk in both convex and non-convex regime with the help of some classical optimization results.
翻訳日:2021-05-22 20:38:13 公開日:2021-01-29
# (参考訳) 双曲空間と球面空間における大域リーマン加速度

Global Riemannian Acceleration in Hyperbolic and Spherical Spaces ( http://arxiv.org/abs/2012.03618v3 )

ライセンス: CC BY 4.0
David Mart\'inez-Rubio(参考訳) さらに,双曲空間や球面の部分集合上で定義される滑らかかつ測地凸(g-凸)あるいは強いg-凸関数の最適化のために,ユークリッド空間における加速度勾配降下と同じ速度を達成する最初の大域一階法を導入することにより,リーマン多様体上の加速度現象をさらに研究する。 我々の知る限りでは、これはユークリッド空間以外のリーマン多様体 $\mathcal{m}$ 上で定義される函数上で、この率を世界規模で達成する最初の方法である。 プロキシとして、独立利子の凸性と準凸性の間の条件の下で、制約付き非凸ユークリッド問題を解く。 さらに、有界断面曲率を持つ任意のリーマン多様体に対して、滑らかかつ g-凸函数の最適化法から滑らかかつ強い g-凸函数の方法への還元を与える。

We further research on the acceleration phenomenon on Riemannian manifolds by introducing the first global first-order method that achieves the same rates as accelerated gradient descent in the Euclidean space for the optimization of smooth and geodesically convex (g-convex) or strongly g-convex functions defined on the hyperbolic space or a subset of the sphere, up to constants and log factors. To the best of our knowledge, this is the first method that is proved to achieve these rates globally on functions defined on a Riemannian manifold $\mathcal{M}$ other than the Euclidean space. As a proxy, we solve a constrained non-convex Euclidean problem, under a condition between convexity and quasar-convexity, of independent interest. Additionally, for any Riemannian manifold of bounded sectional curvature, we provide reductions from optimization methods for smooth and g-convex functions to methods for smooth and strongly g-convex functions and vice versa.
翻訳日:2021-05-20 10:49:20 公開日:2021-01-29
# MIX : オープンドメイン質問応答解決のためのマルチタスク学習アプローチ

MIX : a Multi-task Learning Approach to Solve Open-Domain Question Answering ( http://arxiv.org/abs/2012.09766v2 )

ライセンス: Link先を確認
Sofian Chaybouti, Achraf Saghe, Aymen Shabou(参考訳) 本稿では,オープンドメイン質問応答を解決するためのマルチタスク深層学習手法MIXを紹介する。 まず,検索スペースを削減するためにBM25ベースのRetriever,RoBERTaベースのScorerとExtractorという3つのブロックからなる多段パイプラインを設計し,検索した段落をランク付けし,関連するテキストを抽出する。 最終的には,スケーラビリティ問題に対処するために,システムの計算効率をさらに向上する。マルチタスク学習により,ScorerとExtractorによって解決されたタスクを並列化する。 本システムは,概念的に単純化しつつ,スプリットオープンベンチマークにおける最先端のパフォーマンスと同等である。

In this paper, we introduce MIX : a multi-task deep learning approach to solve Open-Domain Question Answering. First, we design our system as a multi-stage pipeline made of 3 building blocks : a BM25-based Retriever, to reduce the search space; RoBERTa based Scorer and Extractor, to rank retrieved paragraphs and extract relevant spans of text respectively. Eventually, we further improve computational efficiency of our system to deal with the scalability challenge : thanks to multi-task learning, we parallelize the close tasks solved by the Scorer and the Extractor. Our system is on par with state-of-the-art performances on the squad-open benchmark while being simpler conceptually.
翻訳日:2021-05-02 07:30:00 公開日:2021-01-29
# PBNS:非制御ガーメントポース空間変形のための物理ベースニューラルシミュレータ

PBNS: Physically Based Neural Simulator for Unsupervised Garment Pose Space Deformation ( http://arxiv.org/abs/2012.11310v2 )

ライセンス: Link先を確認
Hugo Bertiche, Meysam Madadi and Sergio Escalera(参考訳) 本稿では,深層学習による着衣のポーズ空間変形(psd)を自動的に取得する手法を提案する。 古典的なアプローチは、衣服をアニメーションするために物理ベースのシミュレーション(PBS)に依存している。 これらは空間と時間の十分な微細な離散化を与えられた一般的な解であり、非常に現実的な結果が得られる。 しかし、計算コストは高く、シーンの変更によって再シミュレーションが必要となる。 PSDを用いた線形ブレンドスキニング(LBS)はPBSに代わる軽量な代替手段を提供するが、適切なPSDを学ぶには大量のデータが必要である。 我々は,暗黙のPBSとして定式化された深層学習を用いて,制約のあるシナリオで現実的なPose Spaceの変形を教師なしで学習することを提案する。 さらに,数列のPBSに匹敵する時間で,これらのモデルを訓練することが可能であることを示す。 我々の知る限りでは、布のための神経シミュレータを最初に提案する。 ドメインにおけるディープベースアプローチはトレンドになりつつあるが、これらはデータハングリーモデルである。 さらに、PBSデータからしわをよりよく学習するための複雑な定式化を提案することも多い。 データからの依存は、これらのソリューションのスケーラビリティを低下させ、その定式化は適用性と互換性を妨げる。 LBSモデルのPSDを学習するための教師なし方法論(3Dアニメーション標準)を提案することにより、これらの欠点を克服する。 その結果, アニメーション衣服と有意義なポーズ依存性の折り畳み, しわには布の一貫性が認められた。

We present a methodology to automatically obtain Pose Space Deformation (PSD) basis for rigged garments through deep learning. Classical approaches rely on Physically Based Simulations (PBS) to animate clothes. These are general solutions that, given a sufficiently fine-grained discretization of space and time, can achieve highly realistic results. However, they are computationally expensive and any scene modification prompts the need of re-simulation. Linear Blend Skinning (LBS) with PSD offers a lightweight alternative to PBS, though, it needs huge volumes of data to learn proper PSD. We propose using deep learning, formulated as an implicit PBS, to unsupervisedly learn realistic cloth Pose Space Deformations in a constrained scenario: dressed humans. Furthermore, we show it is possible to train these models in an amount of time comparable to a PBS of a few sequences. To the best of our knowledge, we are the first to propose a neural simulator for cloth. While deep-based approaches in the domain are becoming a trend, these are data-hungry models. Moreover, authors often propose complex formulations to better learn wrinkles from PBS data. Dependency from data makes these solutions scalability lower, while their formulation hinders its applicability and compatibility. By proposing an unsupervised methodology to learn PSD for LBS models (3D animation standard), we overcome both of these drawbacks. Results obtained show cloth-consistency in the animated garments and meaningful pose-dependant folds and wrinkles.
翻訳日:2021-04-27 06:21:50 公開日:2021-01-29
# 各種データモダリティからの人間の行動認識 : レビュー

Human Action Recognition from Various Data Modalities: A Review ( http://arxiv.org/abs/2012.11866v3 )

ライセンス: Link先を確認
Zehua Sun, Jun Liu, Qiuhong Ke, Hossein Rahmani, Mohammed Bennamoun and Gang Wang(参考訳) human action recognition(har)は、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。 幅広い応用があり、コンピュータビジョンの分野で注目を集めている。 ヒューマンアクションは、rgb、スケルトン、深さ、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー、wifi信号など、さまざまなデータモダリティを使用して表現することができる。 その結果,HAR の様々なアプローチを様々なモダリティを用いて検討する試みが数多く行われている。 本稿では,HARにおける入力データモダリティのタイプに基づくディープラーニング手法の最近の進歩を包括的に調査する。 具体的には,単一のデータモダリティと複数のデータモダリティに対して,現在の主流となるディープラーニング手法について検討する。 また,いくつかのベンチマークデータセットで比較結果を示し,洞察に富んだ観測を行い,今後の研究の方向性を示唆する。

Human Action Recognition (HAR) aims to understand human behavior and assign a label to each action. It has a wide range of applications, and therefore has been attracting increasing attention in the field of computer vision. Human actions can be represented using various data modalities, such as RGB, skeleton, depth, infrared, point cloud, event stream, audio, acceleration, radar, and WiFi signal, which encode different sources of useful yet distinct information and have various advantages depending on the application scenarios. Consequently, lots of existing works have attempted to investigate different types of approaches for HAR using various modalities. In this paper, we present a comprehensive survey of recent progress in deep learning methods for HAR based on the type of input data modality. Specifically, we review the current mainstream deep learning methods for single data modalities and multiple data modalities, including the fusion-based and the co-learning-based frameworks. We also present comparative results on several benchmark datasets for HAR, together with insightful observations and inspiring future research directions.
翻訳日:2021-04-26 07:31:03 公開日:2021-01-29
# 都市活力指数の教師なし機械学習手法

Unsupervised Machine learning methods for city vitality index ( http://arxiv.org/abs/2012.12082v2 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault, Jonathan Simard, and Daniel Massicotte(参考訳) 本稿では, 地域活力指数(VI)を長年にわたって評価し, 予測することの課題について考察する。 標準的な方法はありませんし、過去数十年で遡って行うのはさらに複雑です。 しかし、将来VIを予測するためには、過去の特徴を評価し、学習することが不可欠である。 本稿では,k平均クラスタリングアルゴリズムに基づいて,このようなVIを評価する手法を提案する。 この教師なし機械学習手法のメタパラメータを遺伝的アルゴリズム法により最適化する。 得られたクラスタとVIに基づいて、都市の各地区のVIを予測するために線形回帰を適用する。 クラスタリングで使用される各特徴の重みはランダム森林回帰アルゴリズムを用いて計算する。 この方法は、都市主義者にとって強力な洞察となり、スマートシティの文脈における都市計画の反動を刺激することができる。

This paper concerns the challenge to evaluate and predict a district vitality index (VI) over the years. There is no standard method to do it, and it is even more complicated to do it retroactively in the last decades. Although, it is essential to evaluate and learn features of the past to predict a VI in the future. This paper proposes a method to evaluate such a VI, based on a k-mean clustering algorithm. The meta parameters of this unsupervised machine learning technique are optimized by a genetic algorithm method. Based on the resulting clusters and VI, a linear regression is applied to predict the VI of each district of a city. The weights of each feature used in the clustering are calculated using a random forest regressor algorithm. This method can be a powerful insight for urbanists and inspire the redaction of a city plan in the smart city context.
翻訳日:2021-04-26 07:25:45 公開日:2021-01-29
# ポグゲンドルフ型視覚錯覚に対する皮質誘発サブリーマンモデル

A cortical-inspired sub-Riemannian model for Poggendorff-type visual illusions ( http://arxiv.org/abs/2012.14184v2 )

ライセンス: Link先を確認
Emre Baspinar and Luca Calatroni and Valentina Franceschi and Dario Prandi(参考訳) We consider Wilson-Cowan-type model for the mathematical description of orientation-dependent Poggendorff-like illusions。 我々のモデリングは、局所的および側方的接続に基づくV1の本質的な異方性機能的アーキテクチャと一致して、サブリーマン熱核を神経細胞相互作用項に埋め込む2つの提案された皮質刺激によるアプローチを改善した。 両モデルの数値的実現のために, 標準勾配降下アルゴリズムとフーリエに基づく手法を組み合わせることで, サブラプラシアン進化の効率的な計算を行う。 数値計算の結果, サブリーマンカーネルを用いることで, 従来の手法と比較して, 数値的に視覚的誤認識や着色型バイアスを再現できることがわかった。

We consider Wilson-Cowan-type models for the mathematical description of orientation-dependent Poggendorff-like illusions. Our modelling improves two previously proposed cortical-inspired approaches embedding the sub-Riemannian heat kernel into the neuronal interaction term, in agreement with the intrinsically anisotropic functional architecture of V1 based on both local and lateral connections. For the numerical realisation of both models, we consider standard gradient descent algorithms combined with Fourier-based approaches for the efficient computation of the sub-Laplacian evolution. Our numerical results show that the use of the sub-Riemannian kernel allows to reproduce numerically visual misperceptions and inpainting-type biases in a stronger way in comparison with the previous approaches.
翻訳日:2021-04-19 10:56:32 公開日:2021-01-29
# 遅延フィードバックによる逆マルコフ決定過程の学習

Learning Adversarial Markov Decision Processes with Delayed Feedback ( http://arxiv.org/abs/2012.14843v2 )

ライセンス: Link先を確認
Tal Lancewicki and Aviv Rosenberg and Yishay Mansour(参考訳) 強化学習は通常、エージェントが環境からすぐにフィードバックを観察すると仮定するが、多くの現実世界のアプリケーション(レコメンデーションシステムなど)では、フィードバックは遅延して観察される。 そこで本研究では,未知の遷移を伴うマルコフ決定過程 (mdps) におけるオンライン学習について考察する。 つまり、エピソード $k$ の費用と軌道は、エピソード $k + d^k$ の終わりにのみ利用可能であり、遅延 $d^k$ は同一でも有界でもないし、敵によって選択される。 我々は,全情報フィードバック下での$\widetilde o ( \sqrt{k} + \sqrt{d} )$ ($k$ はエピソード数,$d = \sum_{k} d^k$ は総遅延である) の最適化に基づく新しいアルゴリズムを提案する。 バンドイットフィードバックの下では、コストが確率的であると仮定して、同様の$\widetilde O ( \sqrt{K} + \sqrt{D} )$ regret を、一般の場合$\widetilde O ( K^{2/3} + D^{2/3} )$ regret を証明している。 我々の知る限り、我々は敵のMDPにおける遅延フィードバックの重要な設定を最初に検討する。

Reinforcement learning typically assumes that the agent observes feedback from the environment immediately, but in many real-world applications (like recommendation systems) the feedback is observed in delay. Thus, we consider online learning in episodic Markov decision processes (MDPs) with unknown transitions, adversarially changing costs and unrestricted delayed feedback. That is, the costs and trajectory of episode $k$ are only available at the end of episode $k + d^k$, where the delays $d^k$ are neither identical nor bounded, and are chosen by an adversary. We present novel algorithms based on policy optimization that achieve near-optimal high-probability regret of $\widetilde O ( \sqrt{K} + \sqrt{D} )$ under full-information feedback, where $K$ is the number of episodes and $D = \sum_{k} d^k$ is the total delay. Under bandit feedback, we prove similar $\widetilde O ( \sqrt{K} + \sqrt{D} )$ regret assuming that the costs are stochastic, and $\widetilde O ( K^{2/3} + D^{2/3} )$ regret in the general case. To our knowledge, we are the first to consider the important setting of delayed feedback in adversarial MDPs.
翻訳日:2021-04-18 20:33:25 公開日:2021-01-29
# (参考訳) Ask2Transformers:事前学習言語モデルによるゼロショットドメインラベル付け

Ask2Transformers: Zero-Shot Domain labelling with Pre-trained Language Models ( http://arxiv.org/abs/2101.02661v2 )

ライセンス: CC BY 4.0
Oscar Sainz and German Rigau(参考訳) 本稿では,様々な事前学習された言語モデルを用いて,wordnetのシンセクタにドメインラベルを割り当てるシステムを提案する。 さらに、システムは特定のドメインラベルを使用するように制限されない。 我々は、異なる既成言語モデルとタスク定式化で符号化された知識を利用して、特定のWordNet定義のドメインラベルを推測する。 提案したゼロショットシステムは,評価に用いる英語データセットの新たな最先端化を実現する。

In this paper we present a system that exploits different pre-trained Language Models for assigning domain labels to WordNet synsets without any kind of supervision. Furthermore, the system is not restricted to use a particular set of domain labels. We exploit the knowledge encoded within different off-the-shelf pre-trained Language Models and task formulations to infer the domain label of a particular WordNet definition. The proposed zero-shot system achieves a new state-of-the-art on the English dataset used in the evaluation.
翻訳日:2021-04-10 16:12:14 公開日:2021-01-29
# (参考訳) コスト感受性クラスを用いた対人学習

Adversarial Learning with Cost-Sensitive Classes ( http://arxiv.org/abs/2101.12372v1 )

ライセンス: CC BY 4.0
Haojing Shen, Sihong Chen, Ran Wang, Xizhao Wang(参考訳) いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。 本稿では,保護クラスと非保護クラスを区別できるモデルを学習するために,コストに敏感な分類と敵学習を組み合わせた枠組みを提案する。 このフレームワークでは、Min-Maxプロパティと呼ばれるディープニューラルネットワークのトレーニング中に、畳み込み層のほとんどのパラメータの絶対値がゼロに近づく一方で、少数のパラメータの絶対値が著しく大きくなるという興味深い現象が見られます。 ランダム分布の観点から定式化され解析されるこのMin-Max特性に基づいて、敵の強靭性向上のための新たな防御モデルを構築する。 構築されたモデルの利点は、敵の訓練をもはや必要とせず、従って、敵の訓練を必要とする既存のモデルよりも高い計算効率を持つことである。 実験により,全てのクラスの平均精度については,攻撃が起こらない場合の既存モデルとほぼ同等であり,攻撃が発生した場合の既存モデルよりも優れていることを確認した。 具体的には、保護されたクラスの精度について、攻撃が発生した場合、提案モデルは既存のモデルよりもはるかに優れている。

It is necessary to improve the performance of some special classes or to particularly protect them from attacks in adversarial learning. This paper proposes a framework combining cost-sensitive classification and adversarial learning together to train a model that can distinguish between protected and unprotected classes, such that the protected classes are less vulnerable to adversarial examples. We find in this framework an interesting phenomenon during the training of deep neural networks, called Min-Max property, that is, the absolute values of most parameters in the convolutional layer approach zero while the absolute values of a few parameters are significantly larger becoming bigger. Based on this Min-Max property which is formulated and analyzed in a view of random distribution, we further build a new defense model against adversarial examples for adversarial robustness improvement. An advantage of the built model is that it does no longer need adversarial training, and thus, has a higher computational efficiency than most existing models of needing adversarial training. It is experimentally confirmed that, regarding the average accuracy of all classes, our model is almost as same as the existing models when an attack does not occur and is better than the existing models when an attack occurs. Specifically, regarding the accuracy of protected classes, the proposed model is much better than the existing models when an attack occurs.
翻訳日:2021-04-06 13:54:34 公開日:2021-01-29
# (参考訳) シャープ低水準の不平等の需要に対する公平な資源配分

Fair Resource Allocation for Demands with Sharp Lower Tail Inequalities ( http://arxiv.org/abs/2101.12403v1 )

ライセンス: CC BY 4.0
Vacharapat Mettanant, Jittat Fakcharoenphol(参考訳) 資源割り当てにおける公平性の問題として、複数のグループが資源を総固定量で共通の情報源から要求する問題を考える。 一般的なモデルはelzaynらによって導入された。 [FAT*'19]。 我々は需要分布が分かっている場合を考慮したDonahue と Kleinberg [FAT*'20] に従う。 鋭利な下尾不等式を満たす多くの共通需要分布において,各グループの平均需要に比例する資源を提供する自然割当は,非常によく機能することを示す。 より具体的には、この自然割当は概ね公平で効率的である(つまり、最大使用量に近い)。 また、少量の不公平が許される場合、Price of Fairness (PoF) が1.5%近くとなることも示している。

We consider a fairness problem in resource allocation where multiple groups demand resources from a common source with the total fixed amount. The general model was introduced by Elzayn et al. [FAT*'19]. We follow Donahue and Kleinberg [FAT*'20] who considered the case when the demand distribution is known. We show that for many common demand distributions that satisfy sharp lower tail inequalities, a natural allocation that provides resources proportional to each group's average demand performs very well. More specifically, this natural allocation is approximately fair and efficient (i.e., it provides near maximum utilization). We also show that, when small amount of unfairness is allowed, the Price of Fairness (PoF), in this case, is close to 1.
翻訳日:2021-04-06 13:35:00 公開日:2021-01-29
# (参考訳) サブストラクショナル最適トランスポートによるクロスドメインアクティビティ認識

Cross-domain Activity Recognition via Substructural Optimal Transport ( http://arxiv.org/abs/2102.03353v1 )

ライセンス: CC BY 4.0
Wang Lu, Yiqiang Chen, Jindong Wang, Xin Qin(参考訳) 人間の活動認識(HAR)に十分なラベル付きデータを収集するのは高価で時間を要する。 最近、多くの作業が、ソースドメインのラベル付きサンプルを利用してターゲットドメインにアノテートするドメイン適応によって問題を解決している。 既存のドメイン適応メソッドは、主にドメインレベル、クラスレベル、またはサンプルレベルの分散マッチングによるクロスドメイン表現の適応にフォーカスします。 しかし、ドメインレベルとクラスレベルのマッチングは粗いため、不適応になる可能性があり、サンプルレベルのマッチングはノイズの影響を深刻に受け、最終的に過適応を引き起こす可能性がある。 本稿では,ドメインの内部構造を利用して高精度かつ効率的な知識伝達を行うために,ドメイン適応のためのサブ構造レベルマッチングを提案する。 SSDAに基づいて,クロスドメインHARのための最適トランスポートベース実装であるSubstructural Optimal Transport (SOT)を提案する。 本稿では,クラスタ化手法を用いてアクティビティのサブ構造を取得し,異なるドメイン間の重み付きサブストラクチャの結合を求める。 4つの大規模公共活動認識データセット(すなわち4つの公共活動認識データセット)について総合的な実験を行った。 UCI-DSADS, UCI-HAR, USC-HAD, PAMAP2) は、SOTが他の最先端手法よりも優れていることを示した。 さらに、SOTは比較法よりもはるかに高速である。

It is expensive and time-consuming to collect sufficient labeled data for human activity recognition (HAR). Recently, lots of work solves the problem via domain adaptation which leverages the labeled samples from the source domain to annotate the target domain. Existing domain adaptation methods mainly focus on adapting cross-domain representations via domain-level, class-level, or sample-level distribution matching. However, the domain- and class-level matching are too coarse that may result in under-adaptation, while sample-level matching may be affected by the noise seriously and eventually cause over-adaptation. In this paper, we propose substructure-level matching for domain adaptation (SSDA) to utilize the internal substructures of the domain to perform accurate and efficient knowledge transfer. Based on SSDA, we propose an optimal transport-based implementation, Substructural Optimal Transport (SOT), for cross-domain HAR. We obtain the substructures of activities via clustering methods and seeks the coupling of the weighted substructures between different domains. We conduct comprehensive experiments on four large public activity recognition datasets (i.e. UCI-DSADS, UCI-HAR, USC-HAD, PAMAP2), which demonstrates that SOT significantly outperforms other state-of-the-art methods w.r.t classification accuracy (10%+ improvement). In addition, SOT is much faster than comparison methods.
翻訳日:2021-04-06 13:26:32 公開日:2021-01-29
# (参考訳) 能動符号化による頂点制御のための焦点・周辺視の階層的統合学習

Learning Hierarchical Integration of Foveal and Peripheral Vision for Vergence Control by Active Efficient Coding ( http://arxiv.org/abs/2103.05100v1 )

ライセンス: CC BY 4.0
Zhetuo Zhao, Jochen Triesch, Bertram E. Shi(参考訳) 能動的高能率符号化(AEC)フレームワークは、視覚処理と眼球運動のジョイント発達、例えば両眼差選択性ニューロンの出現と、左右の眼像を整列する解離性眼球運動の融合頂点をパロニクス的に説明する。 Vergenceは、相補的な役割を果たす葉と周辺の両方の情報によって駆動される。 高分解能フォビアは正確な短距離運動を駆動することができる。 低解像度周辺は、粗い長距離運動をサポートする。 fovea と periphery は、例えば、矛盾する情報を含むこともある。 物体の深さが異なるためです 過去のAECモデルは周辺情報と胎児情報を統合していたが、これらの特徴を明示的に考慮しなかった。 ここでは2段階の階層的アプローチを提案する。 下部レベルは、窩および周辺領域から異なるバージェンス作用を生成する。 トップレベルは1つを選ぶ。 階層的アプローチは現実的な環境において従来のアプローチよりも優れており、アライメントが良く、振動も少ないことを示す。

The active efficient coding (AEC) framework parsimoniously explains the joint development of visual processing and eye movements, e.g., the emergence of binocular disparity selective neurons and fusional vergence, the disjunctive eye movements that align left and right eye images. Vergence can be driven by information in both the fovea and periphery, which play complementary roles. The high resolution fovea can drive precise short range movements. The lower resolution periphery supports coarser long range movements. The fovea and periphery may also contain conflicting information, e.g. due to objects at different depths. While past AEC models did integrate peripheral and foveal information, they did not explicitly take into account these characteristics. We propose here a two-level hierarchical approach that does. The bottom level generates different vergence actions from foveal and peripheral regions. The top level selects one. We demonstrate that the hierarchical approach performs better than prior approaches in realistic environments, exhibiting better alignment and less oscillation.
翻訳日:2021-04-06 13:09:09 公開日:2021-01-29
# (参考訳) 非定常環境におけるユーザ嗜好の学習

Learning User Preferences in Non-Stationary Environments ( http://arxiv.org/abs/2101.12506v1 )

ライセンス: CC BY 4.0
Wasim Huleihel and Soumyabrata Pal and Ofer Shayevitz(参考訳) レコメンデーションシステムは、オンラインコラボレーティブ・フィルタリング(CF)アルゴリズムを使用して、ユーザーが過去に提供したレーティングに基づいて、あるユーザが好むアイテムを時間とともに識別する。 この問題は、ユーザの好みが時間とともに変化しない場合(静的の場合)に広く研究されてきた。 本稿では,ユーザの嗜好に時間的不確実性をもたらすオンライン非定常レコメンデーションシステムのための新しいモデルを提案する。 本モデルでは,ユーザベースのCFアルゴリズムを提案し,その達成可能な報酬の理論的解析を行う。 関連する非定常的マルチアームバンディット文学と比較して、本モデルの主な難しさは、あるユーザの好みの変化が他のユーザの推薦に深刻な影響を及ぼすという事実にある。 また、実世界のデータセット上でアルゴリズムをテストし、実世界のアプリケーションでその効果を示す。 我々の実験で最も驚くべき観察の1つは、我々のアルゴリズムが時間とともに好みが変化しない場合でも、他の静的アルゴリズムよりも優れているという事実である。 これは、実際に我々が提案したような動的アルゴリズムは静止環境においても有益である、という一般的な結論を示唆している。

Recommendation systems often use online collaborative filtering (CF) algorithms to identify items a given user likes over time, based on ratings that this user and a large number of other users have provided in the past. This problem has been studied extensively when users' preferences do not change over time (static case); an assumption that is often violated in practical settings. In this paper, we introduce a novel model for online non-stationary recommendation systems which allows for temporal uncertainties in the users' preferences. For this model, we propose a user-based CF algorithm, and provide a theoretical analysis of its achievable reward. Compared to related non-stationary multi-armed bandit literature, the main fundamental difficulty in our model lies in the fact that variations in the preferences of a certain user may affect the recommendations for other users severely. We also test our algorithm over real-world datasets, showing its effectiveness in real-world applications. One of the main surprising observations in our experiments is the fact our algorithm outperforms other static algorithms even when preferences do not change over time. This hints toward the general conclusion that in practice, dynamic algorithms, such as the one we propose, might be beneficial even in stationary environments.
翻訳日:2021-04-06 12:59:52 公開日:2021-01-29
# (参考訳) digitalexposome: real-time multi-sensor fusion と deep belief network による都市環境の定量化

DigitalExposome: Quantifying the Urban Environment Influence on Wellbeing based on Real-Time Multi-Sensor Fusion and Deep Belief Network ( http://arxiv.org/abs/2101.12615v1 )

ライセンス: CC BY-SA 4.0
Thomas Johnson, Eiman Kanjo, Kieran Woodward(参考訳) 本稿では,「DigitalExposome」という用語を,マルチモデルモバイルセンシング技術を用いた環境,個人特性,行動,幸福感の関連性を理解するための概念的枠組みとして定義する。 具体的には, 都市環境要因を含むマルチセンサデータ(例えば, 初めて)を同時収集した。 PM1, PM2.5, PM10, Oxidised, Reduced, NH3 and Noise, People Count in the neighborhood, body reaction (EDA, HR, HRV, Body temperature, BVP and Movement)、および個人の反応(例)を含む大気汚染。 都市環境における自己申告値) 私たちのユーザは、事前に特定された都市パスに従って、包括的なセンシングエッジデバイスを使用してデータを収集しました。 データは即座に融合され、タイムスタンプされ、コレクションの時点でジオタグ付けされる。 変数間の関係を明らかにするために, 原理成分分析, 回帰, 空間可視化など多変量統計解析手法が適用されている。 その結果, EDAと心拍変動HRVは環境変数とともに環境中の粒子状物質(PM)のレベルに著しく影響していることがわかった。 さらに,Deep Belief Network を用いて,畳み込みニューラルネットワークの性能を最大 (a=80.8%, {\sigma}=0.001) まで向上させたマルチモデルデータフィードから特徴を抽出した。

In this paper, we define the term 'DigitalExposome' as a conceptual framework that takes us closer towards understanding the relationship between environment, personal characteristics, behaviour and wellbeing using multimodel mobile sensing technology. Specifically, we simultaneously collected (for the first time) multi-sensor data including urban environmental factors (e.g. air pollution including: PM1, PM2.5, PM10, Oxidised, Reduced, NH3 and Noise, People Count in the vicinity), body reaction (physiological reactions including: EDA, HR, HRV, Body Temperature, BVP and movement) and individuals' perceived responses (e.g. self-reported valence) in urban settings. Our users followed a pre-specified urban path and collected the data using a comprehensive sensing edge devices. The data is instantly fused, time-stamped and geo-tagged at the point of collection. A range of multivariate statistical analysis techniques have been applied including Principle Component Analysis, Regression and spatial visualisations to unravel the relationship between the variables. Results showed that EDA and Heart Rate Variability HRV are noticeably impacted by the level of Particulate Matters (PM) in the environment well with the environmental variables. Furthermore, we adopted Deep Belief Network to extract features from the multimodel data feed which outperformed Convolutional Neural Network and achieved up to (a=80.8%, {\sigma}=0.001) accuracy.
翻訳日:2021-04-06 11:32:06 公開日:2021-01-29
# (参考訳) state of the art: content-based and hybrid phishing detection

State of the Art: Content-based and Hybrid Phishing Detection ( http://arxiv.org/abs/2101.12723v1 )

ライセンス: CC BY 4.0
F. Casta\~no, E. Fidalgo, E. Alegre, D. Chaves, M. Sanchez-Paniagua(参考訳) フィッシング攻撃は時間とともに進化し増加しており、そのため、正当なサイトとフィッシングサイトを区別する作業はますます難しくなり、最も熟練したユーザーさえも騙すことになる。 この問題を解決するための主な提案は、リストベース、urlベース、コンテンツベース、ハイブリッドの4つのアプローチに分けられる。 この技術の現状では、Webコンテンツベースとハイブリッドアプローチを用いたフィッシング検出の手法を概観し、比較している。

Phishing attacks have evolved and increased over time and, for this reason, the task of distinguishing between a legitimate site and a phishing site is more and more difficult, fooling even the most expert users. The main proposals focused on addressing this problem can be divided into four approaches: List-based, URL based, content-based, and hybrid. In this state of the art, the most recent techniques using web content-based and hybrid approaches for Phishing Detection are reviewed and compared.
翻訳日:2021-04-06 11:12:54 公開日:2021-01-29
# (参考訳) general stein's unbiased risk estimatorを用いた画像再構成のためのモデル適応

Model Adaptation for Image Reconstruction using Generalized Stein's Unbiased Risk Estimator ( http://arxiv.org/abs/2102.00047v1 )

ライセンス: CC BY 4.0
Hemant Kumar Aggarwal, Mathews Jacob(参考訳) 深層学習画像再構成アルゴリズムは、取得方式がトレーニング中に使用する前方モデルと大きく異なる場合、しばしばモデルミスマッチに悩まされる。 我々は、ネットワークをk空間のデータに適応させ、モデルミスフィットの影響を最小限に抑えるために、一般化スタインの非バイアスリスク推定(GSURE)損失指標を導入する。 k空間の平均二乗誤差に依存する現在の方法とは異なり、提案手法は測定のノイズを考慮に入れている。 これにより、アプローチのオーバーフィッティングに対する脆弱性が軽減され、平均二乗誤差に依存するスキームに比べて、再構築品質が改善される。 このアプローチは、事前学習されたモデルを新しい取得設定(例えば、マルチサイト)やトレーニングデータとは異なるコントラストに迅速に適応するのに役立つかもしれない。

Deep learning image reconstruction algorithms often suffer from model mismatches when the acquisition scheme differs significantly from the forward model used during training. We introduce a Generalized Stein's Unbiased Risk Estimate (GSURE) loss metric to adapt the network to the measured k-space data and minimize model misfit impact. Unlike current methods that rely on the mean square error in kspace, the proposed metric accounts for noise in the measurements. This makes the approach less vulnerable to overfitting, thus offering improved reconstruction quality compared to schemes that rely on mean-square error. This approach may be useful to rapidly adapt pre-trained models to new acquisition settings (e.g., multi-site) and different contrasts than training data
翻訳日:2021-04-06 11:07:33 公開日:2021-01-29
# (参考訳) RecSSD: ソリッドステートドライブに基づく推奨推論のためのニアデータ処理

RecSSD: Near Data Processing for Solid State Drive Based Recommendation Inference ( http://arxiv.org/abs/2102.00075v1 )

ライセンス: CC BY 4.0
Mark Wilkening, Udit Gupta, Samuel Hsia, Caroline Trippel, Carole-Jean Wu, David Brooks, Gu-Yeon Wei(参考訳) ニューラルネットワークによるパーソナライズドレコメンデーションモデルは、検索、ソーシャルメディア、エンターテイメントなど、さまざまなデータセンタアプリケーションで使用されている。 最先端モデルは、膨大なメモリ容量を必要とする数十億のパラメータを持つ大規模な埋め込みテーブルで構成されている。 残念ながら、大規模かつ高速なDRAMベースのメモリは、高いインフラストラクチャコストを伴います。 従来のSSDベースのストレージソリューションは、桁違いの容量を提供するが、読み込み遅延と帯域幅が悪く、推論性能が低下する。 RecSSDは、ニューラルレコメンデーション推論用にカスタマイズされた、ニアデータ処理ベースのSSDメモリシステムである。

Neural personalized recommendation models are used across a wide variety of datacenter applications including search, social media, and entertainment. State-of-the-art models comprise large embedding tables that have billions of parameters requiring large memory capacities. Unfortunately, large and fast DRAM-based memories levy high infrastructure costs. Conventional SSD-based storage solutions offer an order of magnitude larger capacity, but have worse read latency and bandwidth, degrading inference performance. RecSSD is a near data processing based SSD memory system customized for neural recommendation inference that reduces end-to-end model inference latency by 2X compared to using COTS SSDs across eight industry-representative models.
翻訳日:2021-04-06 11:00:30 公開日:2021-01-29
# (参考訳) 個人化学生のプロクラッションモデリングのための刺激感性ホークスプロセス

Stimuli-Sensitive Hawkes Processes for Personalized Student Procrastination Modeling ( http://arxiv.org/abs/2102.00089v1 )

ライセンス: CC BY 4.0
Mengfan Yao, Siqian Zhao, Shaghayegh Sahebi, Reza Feyzi Behnagh(参考訳) オンライン学習環境において、学生の先延ばしと期限の取り締まりは大きな課題であり、負の教育効果と幸福な副作用がある。 学生の活動の連続的なモデリングと次の学習時間の予測は、これらの課題を緩和するために個人化されたタイムリーな介入を作成するのに役立つ重要な問題である。 しかし、学生のプロクラッションを動的にモデル化しようとする試みは、次の活動時間を予測することができず、活動履歴の欠如に対処できず、パーソナライズされず、割任期限などの重要なコース特性を無視するなど、大きな問題に悩まされていた。 これらの問題を解決するために,すべての学生配置ペアを共同でモデル化し,その類似性を生かし,歴史的観察のない学生の次の活動時間を予測することによって,新たな刺激感受性ホークスプロセスモデル(SSHP)を導入する。 環境から一定の外部トリガー効果を仮定する通常の点過程とは異なり、割り当ての有効性、割り当て期限、各学生の時間管理習慣に応じて3種類の動的外部刺激をモデル化する。 2つの合成データセットと2つの実世界のデータセットに関する実験は、最先端モデルと比較して、将来の活動予測の優れた性能を示している。 また,本モデルでは,学習者の活動強度を柔軟かつ正確にパラメータ化できることを示す。

Student procrastination and cramming for deadlines are major challenges in online learning environments, with negative educational and well-being side effects. Modeling student activities in continuous time and predicting their next study time are important problems that can help in creating personalized timely interventions to mitigate these challenges. However, previous attempts on dynamic modeling of student procrastination suffer from major issues: they are unable to predict the next activity times, cannot deal with missing activity history, are not personalized, and disregard important course properties, such as assignment deadlines, that are essential in explaining the cramming behavior. To resolve these problems, we introduce a new personalized stimuli-sensitive Hawkes process model (SSHP), by jointly modeling all student-assignment pairs and utilizing their similarities, to predict students' next activity times even when there are no historical observations. Unlike regular point processes that assume a constant external triggering effect from the environment, we model three dynamic types of external stimuli, according to assignment availabilities, assignment deadlines, and each student's time management habits. Our experiments on two synthetic datasets and two real-world datasets show a superior performance of future activity prediction, comparing with state-of-the-art models. Moreover, we show that our model achieves a flexible and accurate parameterization of activity intensities in students.
翻訳日:2021-04-06 10:37:52 公開日:2021-01-29
# (参考訳) 緩和したクラスターホークス過程によるmoocsのプロクラスチン化モデリング

Relaxed Clustered Hawkes Process for Procrastination Modeling in MOOCs ( http://arxiv.org/abs/2102.00093v1 )

ライセンス: CC BY 4.0
Mengfan Yao, Siqian Zhao, Shaghayegh Sahebi, Reza Feyzi Behnagh(参考訳) ホークスプロセスは、金融やソーシャルネットワークのアクティビティ分析など、さまざまなアプリケーションにおけるバーストシーケンスのモデリングにおいて効率的であることが示されている。 伝統的に、これらのモデルは各プロセスを独立にパラメータ化し、各ポイントプロセスの歴史を完全に観察できると仮定する。 しかし、そのようなモデルは、そのような仮定に違反する教育の分野など、特定の実世界の応用において非効率もしくは禁止される可能性がある。 本研究は,学生の学習者の確率的傾向を発見・予測する問題に起因し,補助的特徴に頼らずに,すべての観察過程を同時に学習することで,意味のある学生行動クラスタを発見できる,新しい個人化されたホークスプロセスモデル(RCHawkes-Gamma)を提案する。 本研究は,rchawkes-gammaが学生集団とその時間的プロクチングダイナミクスを効果的に回復し,将来の学生活動の予測性能を向上させることを実証するものである。 学習パラメータと学生遅延との関連についてさらに分析した結果,学生集団は,学生の様々な先延ばし行動の有意義な表現を明らかにした。

Hawkes processes have been shown to be efficient in modeling bursty sequences in a variety of applications, such as finance and social network activity analysis. Traditionally, these models parameterize each process independently and assume that the history of each point process can be fully observed. Such models could however be inefficient or even prohibited in certain real-world applications, such as in the field of education, where such assumptions are violated. Motivated by the problem of detecting and predicting student procrastination in students Massive Open Online Courses (MOOCs) with missing and partially observed data, in this work, we propose a novel personalized Hawkes process model (RCHawkes-Gamma) that discovers meaningful student behavior clusters by jointly learning all partially observed processes simultaneously, without relying on auxiliary features. Our experiments on both synthetic and real-world education datasets show that RCHawkes-Gamma can effectively recover student clusters and their temporal procrastination dynamics, resulting in better predictive performance of future student activities. Our further analyses of the learned parameters and their association with student delays show that the discovered student clusters unveil meaningful representations of various procrastination behaviors in students.
翻訳日:2021-04-06 10:19:57 公開日:2021-01-29
# (参考訳) パルスオキシメトリー信号を用いた覚醒時および睡眠時の睡眠ステージ分類のための時間畳み込みネットワークとトランスフォーマー

Temporal convolutional networks and transformers for classifying the sleep stage in awake or asleep using pulse oximetry signals ( http://arxiv.org/abs/2102.03352v1 )

ライセンス: CC BY 4.0
Ramiro Casal, Leandro E. Di Persia, and Gast\'on Schlotthauer(参考訳) 睡眠障害は世界人口において非常に広範に存在し、診断方法の複雑さを考えると、一般的な低診断に苦しむ。 そのため,より簡易なスクリーニング手法の開発への関心が高まっている。 パルスオキシメータは、ポータブルで低コストでアクセス可能な技術であるため、睡眠障害スクリーニングの理想的な装置である。 この装置は、睡眠段階に関する情報を得るのに役立つ心拍数(HR)を推定することができる。 本研究では,パルスオキシメータからのhr信号のみを用いて覚醒時や睡眠時の睡眠ステージを分類することを目的としたネットワークアーキテクチャを開発した。 提案されたアーキテクチャには2つの基本部分がある。 第1部は、時間的畳み込みネットワークを用いてHRの表現を得る目的を有する。 次に、得られた表現を用いて、注意機構のみを組み込んだモデルであるトランスフォーマーに基づく第2部をフィードする。 トランスフォーマーはシーケンスをモデル化し、睡眠段階間の遷移ルールを学ぶことができる。 提案法の性能は,健常者5000名と病的被験者5000名からなる睡眠時心健康調査データセットで評価した。 データセットは、トレーニング用2500ドル、検証用250ドル、テスト用1250ドルの3つのサブセットに分割された。 全体の正確性、特異性、感受性、およびコーエンのカッパ係数は90.0%, 94.9%, 78.1%, 0.73であった。

Sleep disorders are very widespread in the world population and suffer from a generalized underdiagnosis, given the complexity of their diagnostic methods. Therefore, there is an increasing interest in developing simpler screening methods. A pulse oximeter is an ideal device for sleep disorder screenings since it is a portable, low-cost and accessible technology. This device can provide an estimation of the heart rate (HR), which can be useful to obtain information regarding the sleep stage. In this work, we developed a network architecture with the aim of classifying the sleep stage in awake or asleep using only HR signals from a pulse oximeter. The proposed architecture has two fundamental parts. The first part has the objective of obtaining a representation of the HR by using temporal convolutional networks. Then, the obtained representation is used to feed the second part, which is based on transformers, a model built solely with attention mechanisms. Transformers are able to model the sequence, learning the transition rules between sleep stages. The performance of the proposed method was evaluated on Sleep Heart Health Study dataset, composed of 5000 healthy and pathological subjects. The dataset was split into three subsets: 2500 for training, $1250$ for validating, and 1250 for testing. The overall accuracy, specificity, sensibility, and Cohen's Kappa coefficient were 90.0%, 94.9%, 78.1%, and 0.73.
翻訳日:2021-04-06 09:59:18 公開日:2021-01-29
# 適応型ニューラルネットワークによるレイアウト設計のための生成設計手法

An adaptive artificial neural network-based generative design method for layout designs ( http://arxiv.org/abs/2101.12410v1 )

ライセンス: Link先を確認
Chao Qian, Renkai Tan, Wenjing Ye(参考訳) レイアウトデザインは様々な分野で遭遇する。 多くの設計自由度を持つ問題に対して、設計手法の効率が大きな関心事となっている。 近年,ニューラルネットワークなどの機械学習手法が,設計プロセスの高速化に利用されてきている。 このような多くのアプローチの主な問題は、高次元シミュレーションを用いて生成される大規模なトレーニングデータのコーパスの必要性である。 トレーニングデータ生成に関連する高い計算コストは、機械学習手法を用いて得られる効率を大幅に低下させる。 本研究では,適応型ニューラルネットワークを用いた生成設計手法を提案する。 本手法では,生成逆ネットワークを用いて設計候補を生成し,設計変数の数を大幅に削減する。 目的関数の評価を高速化するため、関数評価のための代理モデルとして畳み込みニューラルネットワークを構築した。 逆設計は遺伝的アルゴリズムと2つのニューラルネットワークを用いて行う。 最適解探索のために設計空間を効果的に探索できる新しい適応学習・最適化戦略が提案されている。 そのため、必要なトレーニングデータの数は大幅に削減される。 2つの熱源レイアウト設計問題に対して,提案手法の性能を実証した。 どちらの問題も最適な設計が得られた。 既存のアプローチと比べ、提案手法は正確性と効率の点で最高の性能を持つ。

Layout designs are encountered in a variety of fields. For problems with many design degrees of freedom, efficiency of design methods becomes a major concern. In recent years, machine learning methods such as artificial neural networks have been used increasingly to speed up the design process. A main issue of many such approaches is the need for a large corpus of training data that are generated using high-dimensional simulations. The high computational cost associated with training data generation largely diminishes the efficiency gained by using machine learning methods. In this work, an adaptive artificial neural network-based generative design approach is proposed and developed. This method uses a generative adversarial network to generate design candidates and thus the number of design variables is greatly reduced. To speed up the evaluation of the objective function, a convolutional neural network is constructed as the surrogate model for function evaluation. The inverse design is carried out using the genetic algorithm in conjunction with two neural networks. A novel adaptive learning and optimization strategy is proposed, which allows the design space to be effectively explored for the search for optimal solutions. As such the number of training data needed is greatly reduced. The performance of the proposed design method is demonstrated on two heat source layout design problems. In both problems, optimal designs have been obtained. Compared with several existing approaches, the proposed approach has the best performance in terms of accuracy and efficiency.
翻訳日:2021-04-05 00:28:53 公開日:2021-01-29
# 類似した畳み込みカーネルペアの共有による2次元異種マルチタスクの学習

Learning Twofold Heterogeneous Multi-Task by Sharing Similar Convolution Kernel Pairs ( http://arxiv.org/abs/2101.12431v1 )

ライセンス: Link先を確認
Quan Feng and Songcan Chen(参考訳) 不均質なマルチタスク学習(HMTL)はマルチタスク学習(MTL)において重要なトピックである。 既存のほとんどのHMTL法は、全てのタスクが同じ入力(ラベル)空間に存在するが、必要のない一貫した出力(ラベル)空間またはそれらの入力(ラベル)空間が不均一であるシナリオを解決している。 しかし,我々の知る限りでは,入力空間と出力空間が不整合あるいは不均一であるような2次元不均質mtl(thmtl)シナリオは限定的である。 本稿では,この複雑なシナリオに対処するために,マルチタスク適応学習(mtal,multi-task adaptive learning)ネットワークを設計し,thmtl設定で複数のタスクを学習する。 特に,mtalネットワークの各層における類似した畳み込みカーネルからの知識共有のためのタスク間の固有関係を探索し,活用する。 そして、共有を実現するために、任意の対の畳み込みカーネルを、閾値$\rho$よりも大きな類似度で重み付けて集約し、ネットワーク全体の冗長性を抑えつつ、効果的にクロスタスク学習を行う。 最後に、エンドツーエンドのトレーニングを行います。 本手法の有効性を実例と比較し,本手法の有効性を実証した。

Heterogeneous multi-task learning (HMTL) is an important topic in multi-task learning (MTL). Most existing HMTL methods usually solve either scenario where all tasks reside in the same input (feature) space yet unnecessarily the consistent output (label) space or scenario where their input (feature) spaces are heterogeneous while the output (label) space is consistent. However, to the best of our knowledge, there is limited study on twofold heterogeneous MTL (THMTL) scenario where the input and the output spaces are both inconsistent or heterogeneous. In order to handle this complicated scenario, in this paper, we design a simple and effective multi-task adaptive learning (MTAL) network to learn multiple tasks in such THMTL setting. Specifically, we explore and utilize the inherent relationship between tasks for knowledge sharing from similar convolution kernels in individual layers of the MTAL network. Then in order to realize the sharing, we weightedly aggregate any pair of convolutional kernels with their similarity greater than some threshold $\rho$, consequently, our model effectively performs cross-task learning while suppresses the intra-redundancy of the entire network. Finally, we conduct end-to-end training. Our experimental results demonstrate the effectiveness of our method in comparison with the state-of-the-art counterparts.
翻訳日:2021-04-05 00:28:39 公開日:2021-01-29
# リジェクトオプション分類器の最適戦略

Optimal strategies for reject option classifiers ( http://arxiv.org/abs/2101.12523v1 )

ライセンス: Link先を確認
V. Franc, D. Prusa, V. Voracek(参考訳) リジェクトオプションによる分類では、不確定なケースでは、分類器は予測を省略することができる。 リジェクトオプション分類器の古典的なコストベースモデルは、リジェクションのコストを明示的に定義する必要がある。 代替の有界改善モデルは、拒絶コストの概念を避け、選択的リスクと最大被覆が保証された分類子を求める。 我々は、最小選択リスクと保証カバレッジを持つ分類器を求める有界被覆モデルという対称的な定義を作成した。 異なる定式化にもかかわらず、3つの拒絶モデルは同じ予測戦略をもたらすことを証明している: ベイズ分類器は、ランダム化されたベイズ選択関数を持つ。 確率化されたベイズ選択関数を構成するのに十分な予測不確かさのスカラー要約として、適切な不確かさスコアの概念を定義する。 任意のブラックボックス分類器の例から適切な不確かさスコアを学習するための2つのアルゴリズムを提案する。 どちらのアルゴリズムもフィッシャーの適切な不確実性スコアの一貫した推定を提供し、分類、順序回帰、構造化出力分類といった様々な予測問題に対してその効率性を示す。

In classification with a reject option, the classifier is allowed in uncertain cases to abstain from prediction. The classical cost-based model of a reject option classifier requires the cost of rejection to be defined explicitly. An alternative bounded-improvement model, avoiding the notion of the reject cost, seeks for a classifier with a guaranteed selective risk and maximal cover. We coin a symmetric definition, the bounded-coverage model, which seeks for a classifier with minimal selective risk and guaranteed coverage. We prove that despite their different formulations the three rejection models lead to the same prediction strategy: a Bayes classifier endowed with a randomized Bayes selection function. We define a notion of a proper uncertainty score as a scalar summary of prediction uncertainty sufficient to construct the randomized Bayes selection function. We propose two algorithms to learn the proper uncertainty score from examples for an arbitrary black-box classifier. We prove that both algorithms provide Fisher consistent estimates of the proper uncertainty score and we demonstrate their efficiency on different prediction problems including classification, ordinal regression and structured output classification.
翻訳日:2021-04-05 00:28:16 公開日:2021-01-29
# Deep Radial Basis Function Data Descriptor (D-RBFDD) Network: 異常検出のための1クラスニューラルネットワーク

The Deep Radial Basis Function Data Descriptor (D-RBFDD) Network: A One-Class Neural Network for Anomaly Detection ( http://arxiv.org/abs/2101.12632v1 )

ライセンス: Link先を確認
Mehran H. Z. Bazargani, Arjun Pakrashi, Brian Mac Namee(参考訳) 異常検出は機械学習では難しい問題であり、低レベルの生データ表現でキャプチャされたインスタンスを扱う場合には、十分な技術的機能セットが存在しない。 放射状基底関数データ記述子(rbfdd)ネットワークは異常検出に有効な解であるが、生のデータ表現を効果的に処理しない浅層モデルである。 本稿では,rbfddネットワークを低レベルの生データ表現を用いた異常検出問題に適した深い1クラス分類器に変換する手法について検討する。 トランスファー学習に基づくアプローチは有効ではないこと,また,汎用分類モデルによって学習された潜在表現が異常検出に適さないことが示唆された。 代わりに、D-RBFDD(Deep Radial Basis Function Data Descriptor)ネットワークを形成するために、RBF層の前に複数の畳み込み層を追加するアプローチが非常に効果的であることを示す。 本研究は,画像分類データセットから生成された複数の異常検出シナリオと,心電図(ECG)データから異なる種類の不整脈を検出する実世界の異常検出データセットを用いて評価実験を行った。 本研究では,d-rbfddネットワークが,画像データセット上のdeep support vector data descriptor (deep svdd),one-class svm,アイソレーションフォレストを含む最先端の異常検出手法よりも優れており,ecgデータセットの競合結果が得られることを示す。

Anomaly detection is a challenging problem in machine learning, and is even more so when dealing with instances that are captured in low-level, raw data representations without a well-behaved set of engineered features. The Radial Basis Function Data Descriptor (RBFDD) network is an effective solution for anomaly detection, however, it is a shallow model that does not deal effectively with raw data representations. This paper investigates approaches to modifying the RBFDD network to transform it into a deep one-class classifier suitable for anomaly detection problems with low-level raw data representations. We show that approaches based on transfer learning are not effective and our results suggest that this is because the latent representations learned by generic classification models are not suitable for anomaly detection. Instead we show that an approach that adds multiple convolutional layers before the RBF layer, to form a Deep Radial Basis Function Data Descriptor (D-RBFDD) network, is very effective. This is shown in a set of evaluation experiments using multiple anomaly detection scenarios created from publicly available image classification datasets, and a real-world anomaly detection dataset in which different types of arrhythmia are detected in electrocardiogram (ECG) data. Our experiments show that the D-RBFDD network out-performs state-of-the-art anomaly detection methods including the Deep Support Vector Data Descriptor (Deep SVDD), One-Class SVM, and Isolation Forest on the image datasets, and produces competitive results for the ECG dataset.
翻訳日:2021-04-05 00:28:00 公開日:2021-01-29
# 厳格な信用格付けのモデル化:機械学習技術を用いた正確性と運転要因の評価

Modelling Sovereign Credit Ratings: Evaluating the Accuracy and Driving Factors using Machine Learning Techniques ( http://arxiv.org/abs/2101.12684v1 )

ライセンス: Link先を確認
Bart H.L. Overes and Michel van der Wel(参考訳) 国家信用格付けは国の信用格付けを要約する。 これらの評価は、政府が新しい債務を発行できる経済と利回りに大きな影響を及ぼす。 本稿では,多層パーセプトロン(MLP),分類・回帰木(CART),オーダード・ロジット(OL)モデルを用いて,主権信用格付けの予測を行う。 ソブリン信用格付けの予測にはmlpが最も適しており、68%の精度で、カート(59%)とol(33%)が続く。 決定要因の調査は、全てのモデルにおいてほぼ同じ説明変数が重要であり、規制品質、一人当たりGDP、失業率が共通の重要な変数であることを示している。 経済理論とは対照的に、一人当たりの規制品質やGDPは高い信用格付けに関連付けられ、高い失業率は低い信用格付けに関連付けられている。

Sovereign credit ratings summarize the creditworthiness of countries. These ratings have a large influence on the economy and the yields at which governments can issue new debt. This paper investigates the use of a Multilayer Perceptron (MLP), Classification and Regression Trees (CART), and an Ordered Logit (OL) model for the prediction of sovereign credit ratings. We show that MLP is best suited for predicting sovereign credit ratings, with an accuracy of 68%, followed by CART (59%) and OL (33%). Investigation of the determining factors shows that roughly the same explanatory variables are important in all models, with regulatory quality, GDP per capita and unemployment rate as common important variables. Consistent with economic theory, a higher regulatory quality and/or GDP per capita are associated with a higher credit rating, while a higher unemployment rate is associated with a lower credit rating.
翻訳日:2021-04-05 00:26:19 公開日:2021-01-29
# ステップ間:big-mと凸包式の間の中間緩和

Between steps: Intermediate relaxations between big-M and convex hull formulations ( http://arxiv.org/abs/2101.12708v1 )

ライセンス: Link先を確認
Jan Kronqvist and Ruth Misener and Calvin Tsay(参考訳) この研究は、big-m と凸包式の間の緩和のクラスを発達させ、両者の利点を引き出す。 提案する「p-split」定式化は、付加的に分離可能な制約をpパーティションに分割し、分割された分節の凸包を形成する。 パラメータPはモデルサイズと緩和強度のトレードオフを表す。 新たな定式化を考察し、ある仮定の下で、緩和がビッグm同値から凸包へ収束する階層を形成することを証明した。 提案した定式化を,K平均クラスタリング,P_ball問題,ReLUニューラルネットワークを含むテストセット上で,Big-Mおよびconvexの船体定式化と比較した。 計算結果から, 中間 p-split 定式化は拡張凸包定式よりも少ない変数と制約で凸包の強い外的近似を形成できることが示され, ビッグm と凸包の両方に対して大きな計算上の優位性が得られた。

This work develops a class of relaxations in between the big-M and convex hull formulations of disjunctions, drawing advantages from both. The proposed "P-split" formulations split convex additively separable constraints into P partitions and form the convex hull of the partitioned disjuncts. Parameter P represents the trade-off of model size vs. relaxation strength. We examine the novel formulations and prove that, under certain assumptions, the relaxations form a hierarchy starting from a big-M equivalent and converging to the convex hull. We computationally compare the proposed formulations to big-M and convex hull formulations on a test set including: K-means clustering, P_ball problems, and ReLU neural networks. The computational results show that the intermediate P-split formulations can form strong outer approximations of the convex hull with fewer variables and constraints than the extended convex hull formulations, giving significant computational advantages over both the big-M and convex hull.
翻訳日:2021-04-05 00:26:02 公開日:2021-01-29
# 一度だけクエリする: 最小繰り返しのクエリによる効果的なブラックボックス攻撃

You Only Query Once: Effective Black Box Adversarial Attacks with Minimal Repeated Queries ( http://arxiv.org/abs/2102.00029v1 )

ライセンス: Link先を確認
Devin Willmott, Anit Kumar Sahu, Fatemeh Sheikholeslami, Filipe Condessa, Zico Kolter(参考訳) 研究者は、深い分類器(クラスラベルを著しく変更する小さな摂動)に対する敵対的な攻撃を、分類器へのクエリアクセスしか持たない「ブラックボックス」設定でも実行可能であることを繰り返し示してきた。 しかし、ブラックボックス設定のすべての以前の作業は、同じ画像を小さな変更(通常数千回以上)で繰り返しクエリすることで分類器を攻撃し、ディフェンダーがそれに続く攻撃を検出するのが容易である。 本研究では、異なる画像のシーケンスを1回だけクエリすることで、ブラックボックス設定で(普遍的な)逆摂動を作ることができることを示す。 この攻撃は、多くの類似クエリの検出を防止し、クラス化子への入力に適用されると誤分類を引き起こす摂動を生成する。 実験では、この制限に従う攻撃は、MNISTとCIFAR-10の分類器入力の大部分を騙し、イメージネット分類器に60~70 %の入力を超過する未目標の敵の摂動を生じさせることを示した。 対象設定では,1画像につき1クエリのみ許可した場合に20\%$以上,画像毎に2クエリを許可した場合に66\%$以下,imagenet分類器に対してターゲットのブラックボックスユニバーサルアタックを提示する。

Researchers have repeatedly shown that it is possible to craft adversarial attacks on deep classifiers (small perturbations that significantly change the class label), even in the "black-box" setting where one only has query access to the classifier. However, all prior work in the black-box setting attacks the classifier by repeatedly querying the same image with minor modifications, usually thousands of times or more, making it easy for defenders to detect an ensuing attack. In this work, we instead show that it is possible to craft (universal) adversarial perturbations in the black-box setting by querying a sequence of different images only once. This attack prevents detection from high number of similar queries and produces a perturbation that causes misclassification when applied to any input to the classifier. In experiments, we show that attacks that adhere to this restriction can produce untargeted adversarial perturbations that fool the vast majority of MNIST and CIFAR-10 classifier inputs, as well as in excess of $60-70\%$ of inputs on ImageNet classifiers. In the targeted setting, we exhibit targeted black-box universal attacks on ImageNet classifiers with success rates above $20\%$ when only allowed one query per image, and $66\%$ when allowed two queries per image.
翻訳日:2021-04-05 00:25:40 公開日:2021-01-29
# ドメインエキスパートからデータサイエンティストへの知識共有によるNLPモデルの構築

Facilitating Knowledge Sharing from Domain Experts to Data Scientists for Building NLP Models ( http://arxiv.org/abs/2102.00036v1 )

ライセンス: Link先を確認
Soya Park, April Wang, Ban Kawas, Q. Vera Liao, David Piorkowski, Marina Danilevsky(参考訳) データサイエンティストは、機械学習(ML)モデルを構築したい新しいドメインを理解するために、急な学習曲線に直面します。 ドメインの専門家からのインプットは役に立つが、そのようなインプットは制限され、高価であり、一般的にモデル開発パイプラインで簡単に消費できる形式ではない。 本稿では、NLPモデルを構築するために、ドメインエキスパートがデータサイエンティストと重要なドメイン知識を共有するためのフレームワークであるZivaを提案する。 Zivaでは、専門家がドメイン概念抽出器と5種類のラベル正当性を代表データサンプル上で蒸留し、共有することができる。 Zivaの設計は、ML開発プロジェクトにおけるドメイン知識獲得プロセスの現在の実践を理解するために、データサイエンティストの予備インタビューによって通知される。 設計を評価するために、mix-methodのケーススタディを実施して、zivaがドメインの専門家とデータサイエンティストのインタラクションをいかに促進できるかを評価します。 以上の結果から,(1) ドメインの専門家は,心的負荷とストレスレベルを低く保ちながら,豊かなドメイン知識を提供するために,(2) ドメインの専門家は,ドメインに関する重要な情報を学習し,情報のスケーラビリティを提供し,知識を共有するためのドメイン専門家の負担を軽減するために,Zivaの成果を見出すことができた。 本研究は, ケーススタディによるZiva出力を用いたNLPモデルの構築実験により結論付けられた。

Data scientists face a steep learning curve in understanding a new domain for which they want to build machine learning (ML) models. While input from domain experts could offer valuable help, such input is often limited, expensive, and generally not in a form readily consumable by a model development pipeline. In this paper, we propose Ziva, a framework to guide domain experts in sharing essential domain knowledge to data scientists for building NLP models. With Ziva, experts are able to distill and share their domain knowledge using domain concept extractors and five types of label justification over a representative data sample. The design of Ziva is informed by preliminary interviews with data scientists, in order to understand current practices of domain knowledge acquisition process for ML development projects. To assess our design, we run a mix-method case-study to evaluate how Ziva can facilitate interaction of domain experts and data scientists. Our results highlight that (1) domain experts are able to use Ziva to provide rich domain knowledge, while maintaining low mental load and stress levels; and (2) data scientists find Ziva's output helpful for learning essential information about the domain, offering scalability of information, and lowering the burden on domain experts to share knowledge. We conclude this work by experimenting with building NLP models using the Ziva output by our case study.
翻訳日:2021-04-05 00:25:15 公開日:2021-01-29
# カーゴ容量管理予約制御問題の解決に機械学習は役立つか?

Can Machine Learning Help in Solving Cargo Capacity Management Booking Control Problems? ( http://arxiv.org/abs/2102.00092v1 )

ライセンス: Link先を確認
Justin Dumouchelle, Emma Frejinger, Andrea Lodi(参考訳) 収益管理は航空会社(航空会社や鉄道など)にとって重要である。 本稿では,本論文で注目されていない貨物容量管理に焦点をあてる。 より正確には、予約受理/拒否決定の制御の問題に焦点をあてる: 限られた能力の付与、予約要求の受け入れ、あるいは、潜在的に高い収益で将来の予約の予備能力への拒否。 この問題を有限水平確率動的プログラムとして定式化する。 受理された予約の費用は、地平線の終わりに発生し、貨物の荷造りと経路に依存する。 これは計算的に難しい側面であり、後者は運用上の意思決定問題に対する解決策であり、我々のアプリケーションでは車両ルーティング問題(VRP)である。 オンライン計算とオフライン計算のバランスを求めるため,教師付き学習を用いてvrpに対するソリューションコストの予測者を訓練する。 そこで我々は,この予測を近似動的プログラミングと強化学習アルゴリズムでオンラインに利用し,予約制御問題を解く。 その結果を文献の既存手法と比較し,評価時間を短縮して利益を増大させる制御方針を得ることができることを示した。 これは、運用コストの正確な近似と、VRPの解決と比較して無視可能な計算時間によって達成される。

Revenue management is important for carriers (e.g., airlines and railroads). In this paper, we focus on cargo capacity management which has received less attention in the literature than its passenger counterpart. More precisely, we focus on the problem of controlling booking accept/reject decisions: Given a limited capacity, accept a booking request or reject it to reserve capacity for future bookings with potentially higher revenue. We formulate the problem as a finite-horizon stochastic dynamic program. The cost of fulfilling the accepted bookings, incurred at the end of the horizon, depends on the packing and routing of the cargo. This is a computationally challenging aspect as the latter are solutions to an operational decision-making problem, in our application a vehicle routing problem (VRP). Seeking a balance between online and offline computation, we propose to train a predictor of the solution costs to the VRPs using supervised learning. In turn, we use the predictions online in approximate dynamic programming and reinforcement learning algorithms to solve the booking control problem. We compare the results to an existing approach in the literature and show that we are able to obtain control policies that provide increased profit at a reduced evaluation time. This is achieved thanks to accurate approximation of the operational costs and negligible computing time in comparison to solving the VRPs.
翻訳日:2021-04-05 00:24:51 公開日:2021-01-29
# thz/vlc無線vrネットワークにおける信頼通信のためのメタ強化学習

Meta-Reinforcement Learning for Reliable Communication in THz/VLC Wireless VR Networks ( http://arxiv.org/abs/2102.12277v1 )

ライセンス: Link先を確認
Yining Wang, Mingzhe Chen, Zhaohui Yang, Walid Saad, Tao luo, Shuguang Cui, H. Vincent Poor(参考訳) 本稿では,屋内テラヘルツ(THz)/可視光通信(VLC)無線ネットワークにおいて,VR(VR)サービスの品質向上の課題について検討する。 研究モデルでは、小型基地局(SBS)は、THz帯と発光ダイオード(LED)を介して高品質なVR画像をVRユーザーに送信し、VLCを用いた正確な屋内位置決めサービスを提供する。 ここで、vrユーザーはリアルタイムで動き、その動きパターンはアプリケーションによって時間とともに変化する。 THzとVLCのリンクはVRユーザーの身体によってブロックされる。 研究対象の THz/VLC 無線VR ネットワークのエネルギー消費を制御するため,VLC アクセスポイント (VAP) を選択的にオンにする必要がある。 ユーザの位置に基づいて、各sbは対応するvr画像を生成し、ボディブロックなしでthzリンクを構築してvrコンテンツを送信する。 本課題は,SBSのユーザ関連性を制御し,適切なVAPを選択することで,VRユーザの平均使用回数を最大化する最適化問題として定式化されている。 この問題を解決するために,訓練されたポリシが新たなユーザ動作パターンに迅速に適応できるメタポリシ勾配(mpg)アルゴリズムを提案する。 多数のユーザを抱えるVRシナリオの問題を解決するために,低複雑性のデュアルメソッドベースMPGアルゴリズム(D-MPG)を提案する。 シミュレーションの結果、ベースライン信頼領域ポリシー最適化アルゴリズム(TRPO)と比較して、提案したMPGとD-MPGのアルゴリズムは、平均サービス利用者数で最大38.2%、33.8%、収束速度で75%、87.5%向上していることがわかった。

In this paper, the problem of enhancing the quality of virtual reality (VR) services is studied for an indoor terahertz (THz)/visible light communication (VLC) wireless network. In the studied model, small base stations (SBSs) transmit high-quality VR images to VR users over THz bands and light-emitting diodes (LEDs) provide accurate indoor positioning services for them using VLC. Here, VR users move in real time and their movement patterns change over time according to their applications. Both THz and VLC links can be blocked by the bodies of VR users. To control the energy consumption of the studied THz/VLC wireless VR network, VLC access points (VAPs) must be selectively turned on so as to ensure accurate and extensive positioning for VR users. Based on the user positions, each SBS must generate corresponding VR images and establish THz links without body blockage to transmit the VR content. The problem is formulated as an optimization problem whose goal is to maximize the average number of successfully served VR users by selecting the appropriate VAPs to be turned on and controlling the user association with SBSs. To solve this problem, a meta policy gradient (MPG) algorithm that enables the trained policy to quickly adapt to new user movement patterns is proposed. In order to solve the problem for VR scenarios with a large number of users, a dual method based MPG algorithm (D-MPG) with a low complexity is proposed. Simulation results demonstrate that, compared to a baseline trust region policy optimization algorithm (TRPO), the proposed MPG and D-MPG algorithms yield up to 38.2% and 33.8% improvement in the average number of successfully served users as well as 75% and 87.5% gains in the convergence speed, respectively.
翻訳日:2021-04-05 00:23:46 公開日:2021-01-29
# RetaGNN:ホリスティックシークエンシャルレコメンデーションのための関係性時間減衰グラフニューラルネットワーク

RetaGNN: Relational Temporal Attentive Graph Neural Networks for Holistic Sequential Recommendation ( http://arxiv.org/abs/2101.12457v1 )

ライセンス: Link先を確認
Cheng Hsu, Cheng-Te Li(参考訳) シークエンシャルレコメンデーション(SR)は、現在のアクセスしたアイテムに基づいて、ユーザのアイテムのリストを正確に推薦することである。 新規ユーザーが現実世界に継続的に到着する一方で、重要なタスクは、ユーザーやアイテムの埋め込みを再トレーニングせずに生成できる誘導的SRを持つことである。 ユーザとイテムの相互作用が極めて疎い場合、別の重要なタスクは、リッチなデータを持つあるドメインから派生した知識を別のドメインに転送可能なSRを持つことである。 本研究は,従来の,帰納的,移譲可能な設定を同時に対応させる包括的SRを提案することを目的とする。 本稿では,新しいディープラーニングモデルであるrelational temporal attentive graph neural networks (retagnn)を提案する。 RetaGNNの主なアイデアは3倍です。 まず,学習可能な重み行列がノードやエッジではなく,ユーザ,アイテム,属性間のさまざまな関係にあるユーザ-テーマペアから抽出したローカルサブグラフ上で,帰納的かつ転送可能な能力を持つために,関係性有意なgnnを訓練する。 第2に,ユーザの嗜好の長期的,短期的な時間的パターンを逐次的自己着脱機構によって符号化する。 第3に、RetaGNNのトレーニングを改善するために、関係対応型正規化用語が考案されている。 MovieLens、Instagram、およびBook-Crossingデータセットで実施された実験によると、RetaGNNは従来の、インダクティブで、転送可能な設定の下で、最先端のメソッドよりも優れたパフォーマンスを発揮する。 導出された注意重みもモデル説明可能性をもたらす。

Sequential recommendation (SR) is to accurately recommend a list of items for a user based on her current accessed ones. While new-coming users continuously arrive in the real world, one crucial task is to have inductive SR that can produce embeddings of users and items without re-training. Given user-item interactions can be extremely sparse, another critical task is to have transferable SR that can transfer the knowledge derived from one domain with rich data to another domain. In this work, we aim to present the holistic SR that simultaneously accommodates conventional, inductive, and transferable settings. We propose a novel deep learning-based model, Relational Temporal Attentive Graph Neural Networks (RetaGNN), for holistic SR. The main idea of RetaGNN is three-fold. First, to have inductive and transferable capabilities, we train a relational attentive GNN on the local subgraph extracted from a user-item pair, in which the learnable weight matrices are on various relations among users, items, and attributes, rather than nodes or edges. Second, long-term and short-term temporal patterns of user preferences are encoded by a proposed sequential self-attention mechanism. Third, a relation-aware regularization term is devised for better training of RetaGNN. Experiments conducted on MovieLens, Instagram, and Book-Crossing datasets exhibit that RetaGNN can outperform state-of-the-art methods under conventional, inductive, and transferable settings. The derived attention weights also bring model explainability.
翻訳日:2021-04-05 00:22:43 公開日:2021-01-29
# AGSTN:短期都市センサ値予測のための意識調整グラフ時空間ネットワーク

AGSTN: Learning Attention-adjusted Graph Spatio-Temporal Networks for Short-term Urban Sensor Value Forecasting ( http://arxiv.org/abs/2101.12465v1 )

ライセンス: Link先を確認
Yi-Ju Lu, Cheng-Te Li(参考訳) 大気汚染警報, 自転車資源管理, インテリジェント交通システムなどの都市分野では, センサ値の時空間相関時系列の予測が重要である。 近年の進歩は,センサ間の空間的および時間的依存関係をよりよく学習するためにグラフニューラルネットワーク(GNN)を利用しているが,センサ間の時間進化時空間相関(STC)をモデル化することはできない。 さらに, 時系列変動の形式はセンサによって異なるため, モデルは変動変調を学習する必要がある。 本稿では,これらの課題に対処するため,新しいGNNモデルであるAttention-adjusted Graph Spatio-Temporal Network (AGSTN)を提案する。 AGSTNでは、時系列学習を伴うマルチグラフ畳み込みを開発し、時間進化STCを学習する。 提案する注意調整機構によりゆらぎ変調を実現する。 3つのセンサデータ、空気質、自転車需要、交通の流れに関する実験は、agstnが最先端の手法よりも優れていることを示している。

Forecasting spatio-temporal correlated time series of sensor values is crucial in urban applications, such as air pollution alert, biking resource management, and intelligent transportation systems. While recent advances exploit graph neural networks (GNN) to better learn spatial and temporal dependencies between sensors, they cannot model time-evolving spatio-temporal correlation (STC) between sensors, and require pre-defined graphs, which are neither always available nor totally reliable, and target at only a specific type of sensor data at one time. Moreover, since the form of time-series fluctuation is varied across sensors, a model needs to learn fluctuation modulation. To tackle these issues, in this work, we propose a novel GNN-based model, Attention-adjusted Graph Spatio-Temporal Network (AGSTN). In AGSTN, multi-graph convolution with sequential learning is developed to learn time-evolving STC. Fluctuation modulation is realized by a proposed attention adjustment mechanism. Experiments on three sensor data, air quality, bike demand, and traffic flow, exhibit that AGSTN outperforms the state-of-the-art methods.
翻訳日:2021-04-05 00:22:12 公開日:2021-01-29
# BridgeDPI: 薬物とタンパク質の相互作用を予測する新しいグラフニューラルネットワーク

BridgeDPI: A Novel Graph Neural Network for Predicting Drug-Protein Interactions ( http://arxiv.org/abs/2101.12547v1 )

ライセンス: Link先を確認
Yifan Wu, Min Gao, Min Zeng, Feiyang Chen, Min Li and Jie Zhang(参考訳) モチベーション(Motivation): 薬物とタンパク質の相互作用(DPI)を探索する。 利用可能な生体データの高速拡張により、計算手法は実験的な手法を効果的に支援することができる。 このうち、深層学習法はタンパク質配列や分子構造などの基本的な特徴のみから特徴を抽出する。 他のものは、配列や分子だけでなく、タンパク質-タンパク質とドラッグ・ドラッグ・アソシエーション(PPAsとDDA)から学ぶことで、著しく改善する。 PPAとDDAは一般に計算手法を用いて得られる。 しかし、既存の計算手法にはいくつかの制限があり、結果として低品質のPPAとDDAが予測性能を妨げている。 そこで我々は,PPAとDDAを効果的に学習し,DPIの特定のタスクの予測性能を向上させるための,教師付き学習手法を開発したいと考えている。 結果:本研究では,新しいディープラーニングフレームワークであるbridgedpiを提案する。 BridgeDPIはハイパーノードと呼ばれるノードのクラスを導入し、異なるタンパク質やドラッグをPPAやDDAとして使えるようにブリッジする。 プロセス全体がエンドツーエンドの学習であるため、ハイパーノードはDPIの特定のタスクのために学習することができる。 従って、そのようなモデルによりDPIの予測性能が向上する。 3つの実世界のデータセットにおいて、BridgeDPIが最先端の手法より優れていることを示す。 さらに、アブレーション研究はハイパーノードの有効性を検証する。 最後に、独立した検証で、BridgeDPIは新型コロナウイルスのタンパク質と様々な抗ウイルス薬の候補結合を調査している。 そして、予測結果は世界保健機関(WHO)の声明と一致し、ブリッジDPIの有効性と信頼性を示している。

Motivation: Exploring drug-protein interactions (DPIs) work as a pivotal step in drug discovery. The fast expansion of available biological data enables computational methods effectively assist in experimental methods. Among them, deep learning methods extract features only from basic characteristics, such as protein sequences, molecule structures. Others achieve significant improvement by learning from not only sequences/molecules but the protein-protein and drug-drug associations (PPAs and DDAs). The PPAs and DDAs are generally obtained by using computational methods. However, existing computational methods have some limitations, resulting in low-quality PPAs and DDAs that hamper the prediction performance. Therefore, we hope to develop a novel supervised learning method to learn the PPAs and DDAs effectively and thereby improve the prediction performance of the specific task of DPI. Results: In this research, we propose a novel deep learning framework, namely BridgeDPI. BridgeDPI introduces a class of nodes named hyper-nodes, which bridge different proteins/drugs to work as PPAs and DDAs. The hyper-nodes can be supervised learned for the specific task of DPI since the whole process is an end-to-end learning. Consequently, such a model would improve prediction performance of DPI. In three real-world datasets, we further demonstrate that BridgeDPI outperforms state-of-the-art methods. Moreover, ablation studies verify the effectiveness of the hyper-nodes. Last, in an independent verification, BridgeDPI explores the candidate bindings among COVID-19's proteins and various antiviral drugs. And the predictive results accord with the statement of the World Health Organization and Food and Drug Administration, showing the validity and reliability of BridgeDPI.
翻訳日:2021-04-05 00:21:51 公開日:2021-01-29
# 太陽フレアGOES時系列分類のための低次元畳み込みニューラルネットワーク

Low Dimensional Convolutional Neural Network For Solar Flares GOES Time Series Classification ( http://arxiv.org/abs/2101.12550v1 )

ライセンス: Link先を確認
Vlad Landa and Yuval Reuveni(参考訳) 太陽フレアのような宇宙天気現象は、一定の大きさに達すると大きな破壊力を持つ。 このような大規模な太陽フレア現象は、宇宙アース無線通信を妨害し、宇宙アース電子機器を中和する可能性がある。 本研究では,太陽フレア予測モデルを構築するための深層学習手法を探索し,利用可能な時系列データに基づいて特徴抽出の能力とともに,その限界を検証する。 そこで我々は,MクラスとXクラスの太陽フレア発生確率を1,3,6,12,24,48,72,96時間フレームで予測する多層1D畳み込みニューラルネットワーク(CNN)を提案する。 モデルの性能を訓練し評価するために,1998年7月から2019年1月にかけて,利用可能な静止運用環境衛星(goes)のx線時系列データを活用し,太陽周期23,24のほぼすべてをカバーした。 予測モデルは, ランダム選択と, (2) 時系列選択の2つの異なるシナリオで訓練され, 評価された。 その結果,(1) 時間的選択は,(1) 時間的選択が,Mクラスモデルに対するランダム選択と,Xクラスモデルにおける2\%の上昇係数とに対して,3\%の劣化係数が得られることがわかった。 2)x線時系列データのみを利用する場合,提案モデルは他の研究と比較して高いスコアが得られる。 3) x線系列のみと組み合わされたモデルでは,m級とx級の太陽フレア現象の区別に失敗している。 すべてのソースコードはhttps://github.com/vladlanda/Low-dimensional-Convolutional-Neural-Network-For-Solar-Flares-GOES-Time -Series-Classificationで入手できる。

Space weather phenomena such as solar flares, have massive destructive power when reaches certain amount of magnitude. Such high magnitude solar flare event can interfere space-earth radio communications and neutralize space-earth electronics equipment. In the current study, we explorer the deep learning approach to build a solar flare forecasting model and examine its limitations along with the ability of features extraction, based on the available time-series data. For that purpose, we present a multi-layer 1D Convolutional Neural Network (CNN) to forecast solar flare events probability occurrence of M and X classes at 1,3,6,12,24,48,72,96 hours time frame. In order to train and evaluate the performance of the model, we utilised the available Geostationary Operational Environmental Satellite (GOES) X-ray time series data, ranged between July 1998 and January 2019, covering almost entirely the solar cycles 23 and 24. The forecasting model were trained and evaluated in two different scenarios (1) random selection and (2) chronological selection, which were compare afterward. Moreover we compare our results to those considered as state-of-the-art flare forecasting models, both with similar approaches and different ones.The majority of the results indicates that (1) chronological selection obtain a degradation factor of 3\% versus the random selection for the M class model and elevation factor of 2\% for the X class model. (2) When consider utilizing only X-ray time-series data, the suggested model achieve high score results compare to other studies. (3) The suggested model combined with solely X-ray time-series fails to distinguish between M class magnitude and X class magnitude solar flare events. All source code are available at https://github.com/vladlanda/Low-Dimensional-Convolutional-Neural-Network-For-Solar-Flares-GOES-Time -Series-Classification
翻訳日:2021-04-05 00:21:28 公開日:2021-01-29
# リップマン・シュウィンガー方程式に適用する反復局在化ネットワーク

Recurrent Localization Networks applied to the Lippmann-Schwinger Equation ( http://arxiv.org/abs/2102.00063v1 )

ライセンス: Link先を確認
Conlain Kelly, Surya R. Kalidindi(参考訳) 物質科学における物理系をモデル化するための計算手法の大部分は、分析的(すなわち)に由来する。 物理に基づく)またはデータ駆動(すなわち) 機械学習に基づく)起源。 これら2つのアプローチの強みを組み合わせるために,一般化リップマン・シュウィンガー型(l-s)の方程式を解くための新しい機械学習手法を考案する。 このパラダイムでは、与えられた問題を等価なL-S方程式に変換し、最適化問題として解決する。 学習に基づくループアンロールの一部として、リカレント畳み込みニューラルネットワークを用いて、関心のある分野の制御方程式を反復的に解く。 このアーキテクチャは、機械学習アプローチの一般化性と計算効率を活用するが、物理に基づく解釈も可能である。 本研究では, 局所的(ボクセルレベル)弾性ひずみの予測において, 優れた精度が得られる2相弾性局在問題に対する学習手法を示す。 多数の支配方程式を等価なL-S形式に変換することができるため、提案アーキテクチャは多スケールの物質現象にまたがって潜在的に応用できる。

The bulk of computational approaches for modeling physical systems in materials science derive from either analytical (i.e. physics based) or data-driven (i.e. machine-learning based) origins. In order to combine the strengths of these two approaches, we advance a novel machine learning approach for solving equations of the generalized Lippmann-Schwinger (L-S) type. In this paradigm, a given problem is converted into an equivalent L-S equation and solved as an optimization problem, where the optimization procedure is calibrated to the problem at hand. As part of a learning-based loop unrolling, we use a recurrent convolutional neural network to iteratively solve the governing equations for a field of interest. This architecture leverages the generalizability and computational efficiency of machine learning approaches, but also permits a physics-based interpretation. We demonstrate our learning approach on the two-phase elastic localization problem, where it achieves excellent accuracy on the predictions of the local (i.e., voxel-level) elastic strains. Since numerous governing equations can be converted into an equivalent L-S form, the proposed architecture has potential applications across a range of multiscale materials phenomena.
翻訳日:2021-04-05 00:20:56 公開日:2021-01-29
# 構造駆動階層型深層強化学習によるスケーラブル電圧制御

Scalable Voltage Control using Structure-Driven Hierarchical Deep Reinforcement Learning ( http://arxiv.org/abs/2102.00077v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Renke Huang, Qiuhua Huang, Thanh Long Vu, Tianzhixi Yin(参考訳) 本稿では,新しい階層型深層強化学習(drl)による電力系統の電圧制御設計を提案する。 DRLエージェントは、障害後の電圧回復基準を満たすように、高速かつ適応的な制御動作の選択のために訓練される。 既存の電圧制御技術は、動作速度、異なる位置間の最適調整、スケーラビリティの問題に悩まされている。 本研究では,電力系統の領域分割構造を利用して,大規模グリッドモデルに適用可能な階層型drl設計を提案する。 本研究では,2段階アーキテクチャにおける電圧制御問題に適した拡張型ランダム探索アルゴリズムを用いる。 我々は、地域的に分散されたRLエージェントを訓練し、各領域の低レベルポリシーを計算し、低レベルポリシーを更新して下層エージェントが行うコントロールアクションを効率的に調整する高レベルDRLエージェントを同時に訓練する。 ieeeベンチマーク39-busモデルにおける3領域の数値実験により,提案手法の利点と複雑さが示された。

This paper presents a novel hierarchical deep reinforcement learning (DRL) based design for the voltage control of power grids. DRL agents are trained for fast, and adaptive selection of control actions such that the voltage recovery criterion can be met following disturbances. Existing voltage control techniques suffer from the issues of speed of operation, optimal coordination between different locations, and scalability. We exploit the area-wise division structure of the power system to propose a hierarchical DRL design that can be scaled to the larger grid models. We employ an enhanced augmented random search algorithm that is tailored for the voltage control problem in a two-level architecture. We train area-wise decentralized RL agents to compute lower-level policies for the individual areas, and concurrently train a higher-level DRL agent that uses the updates of the lower-level policies to efficiently coordinate the control actions taken by the lower-level agents. Numerical experiments on the IEEE benchmark 39-bus model with 3 areas demonstrate the advantages and various intricacies of the proposed hierarchical approach.
翻訳日:2021-04-05 00:20:38 公開日:2021-01-29
# 非線形偏微分方程式に対する還元作用素推論

Reduced operator inference for nonlinear partial differential equations ( http://arxiv.org/abs/2102.00083v1 )

ライセンス: Link先を確認
Elizabeth Qian, Ionut-Gabriel Farcas, and Karen Willcox(参考訳) 本稿では,時間依存型非線形偏微分方程式(PDE)が支配するシステムの進化を予測するための計算コストのかかる代理モデルとして,データから学習する新しい科学機械学習手法を提案する。 B. Peherstorfer and K. Willcox, data-driven operator inference for non-intrusive projection-based model reduction, Computer Methods in Applied Mechanics and Engineering, 306 (2016)] for systems by ordinary differential equations。 この方法は2つの主要な要素をまとめる。 第一に、プロジェクションに基づくモデル還元のアイデアは、支配PDEの既知の形式を反映した低次元多項式演算子によって学習モデルを明示的にパラメータ化するために用いられる。 第二に、教師付き機械学習ツールは、この物理インフォームドパラメトリゼーションの縮小演算子をデータから推測するために使用される。 より一般的な(非ポリノミカルな)非線形性を含むPDEを管理するシステムでは、学習されたモデル性能は、PDEの多項式構造を露出するリフト可変変換を用いることで改善することができる。 提案手法は,1800万自由度以上の3次元燃焼シミュレーションにおいて,6桁の次元減少と5~6桁のモデル実行時減少を精度良く予測できることを示した。

We present a new scientific machine learning method that learns from data a computationally inexpensive surrogate model for predicting the evolution of a system governed by a time-dependent nonlinear partial differential equation (PDE), an enabling technology for many computational algorithms used in engineering settings. Our formulation generalizes to the PDE setting the Operator Inference method previously developed in [B. Peherstorfer and K. Willcox, Data-driven operator inference for non-intrusive projection-based model reduction, Computer Methods in Applied Mechanics and Engineering, 306 (2016)] for systems governed by ordinary differential equations. The method brings together two main elements. First, ideas from projection-based model reduction are used to explicitly parametrize the learned model by low-dimensional polynomial operators which reflect the known form of the governing PDE. Second, supervised machine learning tools are used to infer from data the reduced operators of this physics-informed parametrization. For systems whose governing PDEs contain more general (non-polynomial) nonlinearities, the learned model performance can be improved through the use of lifting variable transformations, which expose polynomial structure in the PDE. The proposed method is demonstrated on a three-dimensional combustion simulation with over 18 million degrees of freedom, for which the learned reduced models achieve accurate predictions with a dimension reduction of six orders of magnitude and model runtime reduction of 5-6 orders of magnitude.
翻訳日:2021-04-05 00:20:22 公開日:2021-01-29
# 深部強化学習によるレーザー粉末層核融合の熱制御

Thermal Control of Laser Powder Bed Fusion Using Deep Reinforcement Learning ( http://arxiv.org/abs/2102.03355v1 )

ライセンス: Link先を確認
Francis Ogoke, Amir Barati Farimani(参考訳) 粉末ベースの添加物製造技術は、従来の方法では製造が難しい複雑な構造を構築するためのツールを提供する。 レーザー粉体層融合では、粉体層の特定の領域を選択的に溶融して、特定の部分の二次元断面を形成する部品が作られる。 しかし, 欠陥の発生頻度が高いことが, この手法の適用に影響を及ぼす。 したがって、欠陥の発生につながる現象を避けるために、プロセスパラメータを動的に変更するための制御ポリシーが必要である。 これらの欠陥の可能性を最小化する汎用制御戦略を導出する深層強化学習(drl)フレームワークを提案する。 生成した制御ポリシーは溶融過程におけるレーザーの速度を変化させ、溶融プールの一貫性を確保し、生成した製品の過熱を低減する。 各種レーザー軌道下での粉体層層の連続温度分布の効率的なシミュレーションに基づいて制御方針を訓練し検証する。

Powder-based additive manufacturing techniques provide tools to construct intricate structures that are difficult to manufacture using conventional methods. In Laser Powder Bed Fusion, components are built by selectively melting specific areas of the powder bed, to form the two-dimensional cross-section of the specific part. However, the high occurrence of defects impacts the adoption of this method for precision applications. Therefore, a control policy for dynamically altering process parameters to avoid phenomena that lead to defect occurrences is necessary. A Deep Reinforcement Learning (DRL) framework that derives a versatile control strategy for minimizing the likelihood of these defects is presented. The generated control policy alters the velocity of the laser during the melting process to ensure the consistency of the melt pool and reduce overheating in the generated product. The control policy is trained and validated on efficient simulations of the continuum temperature distribution of the powder bed layer under various laser trajectories.
翻訳日:2021-04-05 00:19:32 公開日:2021-01-29
# 薄膜強磁性デバイスを用いた貯留層計算

Reservoir Computing with Thin-film Ferromagnetic Devices ( http://arxiv.org/abs/2101.12700v1 )

ライセンス: Link先を確認
Matthew Dale, Richard F. L. Evans, Sarah Jenkins, Simon O'Keefe, Angelika Sebald, Susan Stepney, Fernando Torre, Martin Trefzer(参考訳) 人工知能の進歩は脳に触発された技術によってもたらされるが、これらの技術は生体システムよりも強力でエネルギー効率が良い。 ニューラルネットワークの非線形ダイナミクスにインスパイアされた新しい非伝統的なコンピューティングハードウェアは、極端な並列性と超低消費電力の可能性を秘めている。 物理貯水池計算は、光ベースからスピントロニクスまで、様々な非伝統的なシステムでこれを実証している。 貯水池コンピュータは、システムの内部ダイナミクスを利用して、高次元特徴空間に入力されるタスクを非線形に投影する。 トレーニングされた読み出し層は、パターン認識や時系列分析などのタスクを実行するために機能を組み合わせる。 進展にもかかわらず、外部信号処理を行わずに最先端の性能を達成することは依然として困難である。 ここでは、シミュレーションにより、薄膜ジオメトリーの磁性物質は、デジタルリカレントニューラルネットワークと同等以上の精度で貯水池コンピュータを実現することができることを示す。 以上の結果から, 磁性膜の基本スピン特性は, 機械学習タスクを解くために必要な非線形ダイナミクスとメモリを生成することがわかった。 さらに,個別の神経コンポーネントや外部処理の必要性をなくすことで,ニューロモルフィックハードウェアのサイズを縮小できることを示した。 磁性薄膜の自然力学とナノスケールサイズは、ポータブルなスマートデバイス、自動運転車、ロボティクスを革新する可能性を持つ高速エネルギー効率コンピューティングへの新たな道を示す。

Advances in artificial intelligence are driven by technologies inspired by the brain, but these technologies are orders of magnitude less powerful and energy efficient than biological systems. Inspired by the nonlinear dynamics of neural networks, new unconventional computing hardware has emerged with the potential for extreme parallelism and ultra-low power consumption. Physical reservoir computing demonstrates this with a variety of unconventional systems from optical-based to spintronic. Reservoir computers provide a nonlinear projection of the task input into a high-dimensional feature space by exploiting the system's internal dynamics. A trained readout layer then combines features to perform tasks, such as pattern recognition and time-series analysis. Despite progress, achieving state-of-the-art performance without external signal processing to the reservoir remains challenging. Here we show, through simulation, that magnetic materials in thin-film geometries can realise reservoir computers with greater than or similar accuracy to digital recurrent neural networks. Our results reveal that basic spin properties of magnetic films generate the required nonlinear dynamics and memory to solve machine learning tasks. Furthermore, we show that neuromorphic hardware can be reduced in size by removing the need for discrete neural components and external processing. The natural dynamics and nanoscale size of magnetic thin-films present a new path towards fast energy-efficient computing with the potential to innovate portable smart devices, self driving vehicles, and robotics.
翻訳日:2021-04-05 00:19:00 公開日:2021-01-29
# 無線デバイス間ネットワークによるフェデレーション学習:アルゴリズムと収束解析

Federated Learning over Wireless Device-to-Device Networks: Algorithms and Convergence Analysis ( http://arxiv.org/abs/2101.12704v1 )

ライセンス: Link先を確認
Hong Xing and Osvaldo Simeone and Suzhi Bi(参考訳) サイロ化されたデータセンタ上でのIoT(Internet-of-Things)デバイスとクラウドコンピューティングアプリケーションの普及は、フェデレーションドラーニング(FL)を通じて、複数のクライアントによる共有モデルの協調トレーニングに新たな関心を喚起している。 無線システムにおけるFL実装の通信効率を向上させるため、近年の研究では、チャネルノイズ、フェード、干渉を考慮したデジタルおよびアナログ伝送方式とともに、圧縮と次元削減機構を提案する。 この先行技術は、主に分散クライアントと中央サーバからなる星のトポロジに焦点を当てている。 対照的に,分散確率勾配降下 (dsgd) のディジタルおよびアナログ実装の性能に関する理論的知見を提供し,無線デバイス間通信 (d2d) ネットワークに対するflの研究を行った。 まず、通信効率の良いDSGDアルゴリズムの汎用ディジタルおよびアナログ無線実装を紹介し、圧縮にはランダム線形符号化(RLC)、同時アナログ伝送にはエアコン(AirComp)を利用する。 次に、凸性と接続性の仮定の下で、両実装に収束境界を提供する。 その結果,ネットワークの接続性とSNR(Signal-to-Noise ratio)レベルに対する最適性ギャップの依存性が示された。 解析は画像分類タスクの実験によって裏付けられる。

The proliferation of Internet-of-Things (IoT) devices and cloud-computing applications over siloed data centers is motivating renewed interest in the collaborative training of a shared model by multiple individual clients via federated learning (FL). To improve the communication efficiency of FL implementations in wireless systems, recent works have proposed compression and dimension reduction mechanisms, along with digital and analog transmission schemes that account for channel noise, fading, and interference. This prior art has mainly focused on star topologies consisting of distributed clients and a central server. In contrast, this paper studies FL over wireless device-to-device (D2D) networks by providing theoretical insights into the performance of digital and analog implementations of decentralized stochastic gradient descent (DSGD). First, we introduce generic digital and analog wireless implementations of communication-efficient DSGD algorithms, leveraging random linear coding (RLC) for compression and over-the-air computation (AirComp) for simultaneous analog transmissions. Next, under the assumptions of convexity and connectivity, we provide convergence bounds for both implementations. The results demonstrate the dependence of the optimality gap on the connectivity and on the signal-to-noise ratio (SNR) levels in the network. The analysis is corroborated by experiments on an image-classification task.
翻訳日:2021-04-05 00:18:39 公開日:2021-01-29
# (参考訳) Poincar\e Ballにおける知識強化型トップK勧告

Knowledge-Enhanced Top-K Recommendation in Poincar\'e Ball ( http://arxiv.org/abs/2101.04852v2 )

ライセンス: CC BY 4.0
Chen Ma, Liheng Ma, Yingxue Zhang, Haolun Wu, Xue Liu and Mark Coates(参考訳) コンテンツやサービスが増えるにつれて、パーソナライズされたリコメンデーションシステムがますます重要になってきています。 豊富な情報を提供する能力のおかげで、推薦性能と解釈可能性を高めるために知識グラフ(KG)が組み込まれている。 知識グラフを効果的に利用するために,双曲空間におけるレコメンデーションモデルを提案し,知識グラフの階層構造の学習を容易にする。 さらに、ある項目の隣接エンティティの相対的重要性を決定するために双曲的注意ネットワークを用いる。 さらに,項目とその隣接表現を適応的に規則化する適応的かつ細粒度の正則化機構を提案する。 実世界の3つのデータセットと最先端の手法との比較により,提案手法はTop-KレコメンデーションのNDCG@Kにおいて,最高の既存モデルを2-16%上回っていることを示す。

Personalized recommender systems are increasingly important as more content and services become available and users struggle to identify what might interest them. Thanks to the ability for providing rich information, knowledge graphs (KGs) are being incorporated to enhance the recommendation performance and interpretability. To effectively make use of the knowledge graph, we propose a recommendation model in the hyperbolic space, which facilitates the learning of the hierarchical structure of knowledge graphs. Furthermore, a hyperbolic attention network is employed to determine the relative importances of neighboring entities of a certain item. In addition, we propose an adaptive and fine-grained regularization mechanism to adaptively regularize items and their neighboring representations. Via a comparison using three real-world datasets with state-of-the-art methods, we show that the proposed model outperforms the best existing models by 2-16% in terms of NDCG@K on Top-K recommendation.
翻訳日:2021-04-03 21:50:22 公開日:2021-01-29
# 不適切な学習による予測問題の誤特定と頑健性について

On Misspecification in Prediction Problems and Robustness via Improper Learning ( http://arxiv.org/abs/2101.05234v2 )

ライセンス: Link先を確認
Annie Marsden, John Duchi, Gregory Valiant(参考訳) 基礎モデルが誤特定された場合の確率的予測ゲームについて検討し,不正確なパラメトリックモデルを用いた予測結果について検討した。 損失関数や分布のパラメトリックな族に対して、同じモデルクラスの最高の予測器と比較して「適切な」予測器を演奏したことの後悔は、少なくとも$\sqrt{\gamma n}$ よりも低い有界スケーリングを持ち、$\gamma$ はモデルが全変動距離において真の分布に不比例する尺度であることを示す。 対照的に、アグリゲーションベース(improper)学習者を用いて、$d$がパラメータの次元である任意の基底生成分布に対して、後悔のあった$d \log n$を得ることができる。 これらの結果は、複数の学習者を統合するための単純な戦略がより堅牢で、いくつかの実験がこの仮説に合致することを示唆している。

We study probabilistic prediction games when the underlying model is misspecified, investigating the consequences of predicting using an incorrect parametric model. We show that for a broad class of loss functions and parametric families of distributions, the regret of playing a "proper" predictor -- one from the putative model class -- relative to the best predictor in the same model class has lower bound scaling at least as $\sqrt{\gamma n}$, where $\gamma$ is a measure of the model misspecification to the true distribution in terms of total variation distance. In contrast, using an aggregation-based (improper) learner, one can obtain regret $d \log n$ for any underlying generating distribution, where $d$ is the dimension of the parameter; we exhibit instances in which this is unimprovable even over the family of all learners that may play distributions in the convex hull of the parametric family. These results suggest that simple strategies for aggregating multiple learners together should be more robust, and several experiments conform to this hypothesis.
翻訳日:2021-03-30 08:06:20 公開日:2021-01-29
# GIID-Net:ニューラル・アーキテクチャ・サーチとアテンションによる一般化可能な画像インペインティング検出

GIID-Net: Generalizable Image Inpainting Detection via Neural Architecture Search and Attention ( http://arxiv.org/abs/2101.07419v2 )

ライセンス: Link先を確認
Haiwei Wu and Jiantao Zhou(参考訳) 深層学習(DL)は、画像インペイントの分野でその強力な能力を示しており、視覚的に妥当な結果をもたらす可能性がある。 一方、高度な画像インペイントツールの悪意ある使用(例)。 フェイクニュースを報告するための重要なオブジェクトを削除する) 画像データの信頼性に対する脅威が増大している。 本研究は, 塗布された領域を画素精度で検出するGIID-Net(General-to-end Generalizable Image Inpainting Detection Network)を提案する。 提案するgiid-netは,拡張ブロック,抽出ブロック,決定ブロックの3つのサブブロックからなる。 具体的には, この拡張ブロックは, 階層的に結合した特殊層を用いることで, 塗工跡の増大を図っている。 ニューラルネットワーク探索(NAS)アルゴリズムによって自動的に設計される抽出ブロックは、実際の塗装検出タスクの特徴を抽出することを目的としている。 抽出された潜在機能をさらに最適化するために,グローバル・アテンションモジュールとローカルアテンションモジュールを決定ブロックに統合し,グローバル・アテンションはグローバル・アテンションの類似度を測定することによってクラス内差異を低減し,ローカル・アテンションはローカル・アテンションの一貫性を強化する。 さらに,giid-netの一般化可能性についても徹底的に検討し,異なるトレーニングデータによって非常に異なる一般化能力が得られることを見出した。 提案するgiid-netの優位性を検証するために,最先端の競合製品と比較実験を行った。 以上の結果から,共通アーティファクトは多彩な画像塗布法で共有されていることが示唆された。 最後に、この領域における将来の研究のために、10Kイメージペアのパブリックな塗装データセットを構築します。

Deep learning (DL) has demonstrated its powerful capabilities in the field of image inpainting, which could produce visually plausible results. Meanwhile, the malicious use of advanced image inpainting tools (e.g. removing key objects to report fake news) has led to increasing threats to the reliability of image data. To fight against the inpainting forgeries, in this work, we propose a novel end-to-end Generalizable Image Inpainting Detection Network (GIID-Net), to detect the inpainted regions at pixel accuracy. The proposed GIID-Net consists of three sub-blocks: the enhancement block, the extraction block and the decision block. Specifically, the enhancement block aims to enhance the inpainting traces by using hierarchically combined special layers. The extraction block, automatically designed by Neural Architecture Search (NAS) algorithm, is targeted to extract features for the actual inpainting detection tasks. In order to further optimize the extracted latent features, we integrate global and local attention modules in the decision block, where the global attention reduces the intra-class differences by measuring the similarity of global features, while the local attention strengthens the consistency of local features. Furthermore, we thoroughly study the generalizability of our GIID-Net, and find that different training data could result in vastly different generalization capability. Extensive experimental results are presented to validate the superiority of the proposed GIID-Net, compared with the state-of-the-art competitors. Our results would suggest that common artifacts are shared across diverse image inpainting methods. Finally, we build a public inpainting dataset of 10K image pairs for the future research in this area.
翻訳日:2021-03-22 11:32:46 公開日:2021-01-29
# 隣人同士をスプライシングして(形式的な)テキストを生成する

Generating (Formulaic) Text by Splicing Together Nearest Neighbors ( http://arxiv.org/abs/2101.08248v2 )

ライセンス: Link先を確認
Sam Wiseman, Arturs Backurs, Karl Stratos(参考訳) 本稿では、検索した「隣接」ソース-ターゲットペアからテキストセグメントを分割することで、条件付きテキスト生成タスク、特に定式テキストを生成するタスクに取り組むことを提案する。 エンコーダ-デコーダ設定で検索された隣人の条件が、左から右へテキストトークンを生成する最近の作業とは異なり、隣接するテキストのセグメントを直接操作するポリシー(つまり、挿入または置換)を学習し、出力を生成する。 このような政策を訓練する標準的な手法は,各世代にオラクルの導出を必要とするため,そのような導出が最短であることは,特定の重み付けされた文脈自由文法の下での構文解析に還元できることを示す。 この方法で学んだポリシーは、近隣のトークンレベルポリシーと競合するテーブル・ツー・テキストや見出し生成を自動メトリクスで解釈できるが、近隣のスキーマベースのポリシー以外は、強力な近隣のベースラインを達成できない。 しかし、いずれの場合もスプライシングによる生成は高速である。

We propose to tackle conditional text generation tasks, especially those which require generating formulaic text, by splicing together segments of text from retrieved "neighbor" source-target pairs. Unlike recent work that conditions on retrieved neighbors in an encoder-decoder setting but generates text token-by-token, left-to-right, we learn a policy that directly manipulates segments of neighbor text (i.e., by inserting or replacing them) to form an output. Standard techniques for training such a policy require an oracle derivation for each generation, and we prove that finding the shortest such derivation can be reduced to parsing under a particular weighted context-free grammar. We find that policies learned in this way allow for interpretable table-to-text or headline generation that is competitive with neighbor-based token-level policies on automatic metrics, though on all but one dataset neighbor-based policies underperform a strong neighborless baseline. In all cases, however, generating by splicing is faster.
翻訳日:2021-03-22 01:36:36 公開日:2021-01-29
# 血管アノテーションとセグメンテーションのための効率的な学習フレームワークVessel-CAPTCHA

Vessel-CAPTCHA: an efficient learning framework for vessel annotation and segmentation ( http://arxiv.org/abs/2101.09321v3 )

ライセンス: Link先を確認
Vien Ngoc Dang and Giuseppe Di Giacomo and Viola Marconetto and Prateek Mathur and Rosa Cortese and Marco Lorenzi and Ferran Prados and Maria A. Zuluaga(参考訳) 3次元脳血管画像分割のためのディープラーニング技術の使用は、他の臓器や組織のセグメンテーションほど広くは普及していない。 これは2つの要因によって説明できる。 第一に、深層学習技術は、全体像の大きさと比較して比較的小さな物体のセグメンテーションにおける性能が劣る傾向にある。 第2に,血管樹の複雑化と血管径の縮小により,深層学習法で典型的に必要とされるアノテートトレーニングデータ量を得ることが困難である。 そこで本研究では,新しいアノテーション効率の高い深層学習容器セグメンテーションフレームワークを提案する。 このフレームワークはピクセル毎のアノテーションを避け、トレーニングセット内のコンテナと非vessel 2dパッチを区別するパッチレベルラベルのみを、webアプリケーションのボットと人間を区別するために使用されるcaptchaに似た設定で要求する。 ユーザが提供するアノテーションは、2つのタスクに使用される: 1)各パッチでコンテナとバックグラウンドのピクセル単位でラベルを自動的に生成し、セグメンテーションネットワークをトレーニングするために、2) 分類器ネットワークをトレーニングする。 分類器ネットワークは、さらに弱いパッチラベルを生成し、さらにアノテーションの負担を軽減し、品質の悪い画像のノイズフィルタとして機能する。 我々はこの枠組みを,Time-of-Flight angiography (TOF) と Susceptibility-Weighted Images (SWI) における脳血管ツリーの分画に用いている。 その結果,学習のためのピクセルラベルを用いた学習に基づくセグメンテーション法において,アノテーション時間の最大80%削減しつつ,最先端の精度を実現することができた。

The use of deep learning techniques for 3D brain vessel image segmentation has not been as widespread as for the segmentation of other organs and tissues. This can be explained by two factors. First, deep learning techniques tend to show poor performances at the segmentation of relatively small objects compared to the size of the full image. Second, due to the complexity of vascular trees and the small size of vessels, it is challenging to obtain the amount of annotated training data typically needed by deep learning methods. To address these problems, we propose a novel annotation-efficient deep learning vessel segmentation framework. The framework avoids pixel-wise annotations, only requiring patch-level labels to discriminate between vessel and non-vessel 2D patches in the training set, in a setup similar to the CAPTCHAs used to differentiate humans from bots in web applications. The user-provided annotations are used for two tasks: 1) to automatically generate pixel-wise labels for vessels and background in each patch, which are used to train a segmentation network, and 2) to train a classifier network. The classifier network allows to generate additional weak patch labels, further reducing the annotation burden, and it acts as a noise filter for poor quality images. We use this framework for the segmentation of the cerebrovascular tree in Time-of-Flight angiography (TOF) and Susceptibility-Weighted Images (SWI). The results show that the framework achieves state-of-the-art accuracy, while reducing the annotation time by up to 80% with respect to learning-based segmentation methods using pixel-wise labels for training
翻訳日:2021-03-20 17:23:31 公開日:2021-01-29
# UAVリモートセンシングにおける深層学習の展望

A Review on Deep Learning in UAV Remote Sensing ( http://arxiv.org/abs/2101.10861v2 )

ライセンス: Link先を確認
Lucas Prado Osco, Jos\'e Marcato Junior, Ana Paula Marques Ramos, L\'ucio Andr\'e de Castro Jorge, Sarah Narges Fatholahi, Jonathan de Andrade Silva, Edson Takashi Matsubara, Hemerson Pistori, Wesley Nunes Gon\c{c}alves, Jonathan Li(参考訳) Deep Neural Networks(DNN)は、印象的な能力でデータから表現を学び、画像、時系列、自然言語、オーディオ、ビデオなどの処理に重要なブレークスルーをもたらした。 リモートセンシング分野では,DNNアルゴリズムの応用に関する調査と文献の改訂が,そのサブフィールドで生成された情報の量を要約するために行われている。 近年,無人航空機(UAV)の応用が空中センシング研究を支配している。 しかし,「深層学習」と「UAVリモートセンシング」を併用した文献改訂はまだ行われていない。 本研究の動機は,UAV画像に適用されたディープラーニング(DL)の基礎を包括的にレビューすることであった。 本稿では,UAV取得データを用いた最近の応用における分類・回帰手法について述べる。 そのために、国際科学雑誌データベースに掲載された合計232の論文が調査された。 得られた資料を収集し, 応用, センサ, 技術に関する特性評価を行った。 本稿では,有望な結果をDLが提示し,UAV画像データに関連するタスクを処理できる可能性について述べる。 最後に,UAVリモートセンシング分野における顕著なDLパスについて解説し,今後の展望を提案する。 我々のリビジョンは、リモートセンシングの様々なサブフィールドにおけるDNNアルゴリズムによるUAVベースの画像応用の最先端を紹介、解説、要約し、環境、都市、農業の文脈でグループ化するためのフレンドリーなアプローチで構成されている。

Deep Neural Networks (DNNs) learn representation from data with an impressive capability, and brought important breakthroughs for processing images, time-series, natural language, audio, video, and many others. In the remote sensing field, surveys and literature revisions specifically involving DNNs algorithms' applications have been conducted in an attempt to summarize the amount of information produced in its subfields. Recently, Unmanned Aerial Vehicles (UAV) based applications have dominated aerial sensing research. However, a literature revision that combines both "deep learning" and "UAV remote sensing" thematics has not yet been conducted. The motivation for our work was to present a comprehensive review of the fundamentals of Deep Learning (DL) applied in UAV-based imagery. We focused mainly on describing classification and regression techniques used in recent applications with UAV-acquired data. For that, a total of 232 papers published in international scientific journal databases was examined. We gathered the published material and evaluated their characteristics regarding application, sensor, and technique used. We relate how DL presents promising results and has the potential for processing tasks associated with UAV-based image data. Lastly, we project future perspectives, commentating on prominent DL paths to be explored in the UAV remote sensing field. Our revision consists of a friendly-approach to introduce, commentate, and summarize the state-of-the-art in UAV-based image applications with DNNs algorithms in diverse subfields of remote sensing, grouping it in the environmental, urban, and agricultural contexts.
翻訳日:2021-03-20 17:23:03 公開日:2021-01-29
# (参考訳) raspberry piを用いた単チャンネル脳波のための外傷性脳損傷検出システム

A Raspberry Pi-based Traumatic Brain Injury Detection System for Single-Channel Electroencephalogram ( http://arxiv.org/abs/2101.10869v2 )

ライセンス: CC BY 4.0
Navjodh Singh Dhillon, Agustinus Sutandi, Manoj Vishwanath, Miranda M. Lim, Hung Cao, Dong Si(参考訳) 外傷性脳損傷(TBI)は、死と障害の一般的な原因である。 しかし、既存のtbi診断ツールは主観的または広範な臨床設定と専門知識を必要とする。 TBI関連機械学習研究の有望な成果と相まって、比較的高性能なコンピュータシステムの可利用性と小型化により、TBIを早期に検出するためのコンパクトでポータブルなシステムを構築することができる。 本研究は,機械学習を用いてtbiを効率的に識別し,単一チャネル脳波(eeg)信号から睡眠ステージを自動的にスコアリングする,raspberry piベースのポータブル,リアルタイムデータ取得,自動処理システムについて述べる。 本稿では,ADC(Analog to Digital Converter)を用いて脳波信号をデジタル化するシステムの設計,実装,検証について論じ,軽度TBI(mTBI)の存在を検出するためにリアルタイム信号分類を行う。 畳み込みニューラルネットワーク(CNN)とXGBoostに基づく予測モデルを用いて、性能を評価し、複数の種類の予測モデルで動作するシステムの汎用性を実証する。 ピーク分類精度は最大90%以上であり, TBIと制御条件の比較では, 16秒から64秒までの分類時間が1秒未満である。 本研究は,早期tbi検出およびtbi研究のための医療機器を必要とせずに,現場利用に適したシステムの開発を可能にする。 さらに、この研究は、接続されたリアルタイムTBI関連健康・健康モニタリングシステムを実装するための道を開く。

Traumatic Brain Injury (TBI) is a common cause of death and disability. However, existing tools for TBI diagnosis are either subjective or require extensive clinical setup and expertise. The increasing affordability and reduction in size of relatively high-performance computing systems combined with promising results from TBI related machine learning research make it possible to create compact and portable systems for early detection of TBI. This work describes a Raspberry Pi based portable, real-time data acquisition, and automated processing system that uses machine learning to efficiently identify TBI and automatically score sleep stages from a single-channel Electroen-cephalogram (EEG) signal. We discuss the design, implementation, and verification of the system that can digitize EEG signal using an Analog to Digital Converter (ADC) and perform real-time signal classification to detect the presence of mild TBI (mTBI). We utilize Convolutional Neural Networks (CNN) and XGBoost based predictive models to evaluate the performance and demonstrate the versatility of the system to operate with multiple types of predictive models. We achieve a peak classification accuracy of more than 90% with a classification time of less than 1 s across 16 s - 64 s epochs for TBI vs control conditions. This work can enable development of systems suitable for field use without requiring specialized medical equipment for early TBI detection applications and TBI research. Further, this work opens avenues to implement connected, real-time TBI related health and wellness monitoring systems.
翻訳日:2021-03-20 13:35:19 公開日:2021-01-29
# ドパミン:医療データに関する異なるプライベートフェデレーション学習

Dopamine: Differentially Private Federated Learning on Medical Data ( http://arxiv.org/abs/2101.11693v2 )

ライセンス: Link先を確認
Mohammad Malekzadeh, Burak Hasircioglu, Nitish Mital, Kunal Katarya, Mehmet Emre Ozfatura, Deniz G\"und\"uz(参考訳) 世界中の病院で豊富な医療データセットがホストされているが、患者のプライバシーに対する懸念は、医療診断のために深層ニューラルネットワーク(DNN)をトレーニングするためにそのようなデータを使用することに対する障壁である。 分散データセット上でDNNを訓練するシステムであるDopamineを提案し,DPSGD(Federated Learning)とDPSGD(Federated stochastic gradient descend)を併用し,セキュアなアグリゲーションを組み合わせることで,差分プライバシ(DP)保証とDNNの精度とのトレードオフを他のアプローチよりも向上することができる。 糖尿病網膜症~(DR)タスクの結果は、ドパミンが集中トレーニングのそれに近いDP保証を提供し、DPSGDを調整せずに適用するパラレルDPのFLよりも優れた分類精度を達成することを示しています。 コードはhttps://github.com/ipc-lab/private-ml-for-healthで入手できる。

While rich medical datasets are hosted in hospitals distributed across the world, concerns on patients' privacy is a barrier against using such data to train deep neural networks (DNNs) for medical diagnostics. We propose Dopamine, a system to train DNNs on distributed datasets, which employs federated learning (FL) with differentially-private stochastic gradient descent (DPSGD), and, in combination with secure aggregation, can establish a better trade-off between differential privacy (DP) guarantee and DNN's accuracy than other approaches. Results on a diabetic retinopathy~(DR) task show that Dopamine provides a DP guarantee close to the centralized training counterpart, while achieving a better classification accuracy than FL with parallel DP where DPSGD is applied without coordination. Code is available at https://github.com/ipc-lab/private-ml-for-health.
翻訳日:2021-03-13 19:31:42 公開日:2021-01-29
# (参考訳) ADePT: 自動エンコーダに基づく微分プライベートテキスト変換

ADePT: Auto-encoder based Differentially Private Text Transformation ( http://arxiv.org/abs/2102.01502v1 )

ライセンス: CC BY 4.0
Satyapriya Krishna, Rahul Gupta, Christophe Dupuy(参考訳) プライバシーは、個人情報を含むデータに統計モデルを構築する際に重要な関心事です。 差別化プライバシは、プライバシーの強力な定義を提供し、いくつかのプライバシの懸念を解決するために使用できる(Dwork et al., 2014)。 機密情報を含むデータセットの差分プライベート変換には複数のソリューションが提案されている。 しかし、そのような変換アルゴリズムは、プロセスにノイズが加わるため、自然言語処理(NLP)タスクにおいて有用性が低い。 本論文では,オートエンコーダを用いた実用性保全型プライベートテキスト変換アルゴリズムを提供することにより,この問題に対処する。 提案アルゴリズムはテキストを変換して攻撃に対して頑健性を提供し,下流nlpタスクでうまく機能する高い意味品質の変換を生成する。 本アルゴリズムの理論的プライバシ保証を証明し,変換データを用いたモデル上でのメンバシップ推論攻撃(mia (shokri et al., 2017) によるプライバシリークを評価する。 提案手法は,MIA攻撃に対して,既存のベースラインに比べて基礎となる変換プロセスの有用性を低下させることなく,より優れた性能を発揮することを示す。

Privacy is an important concern when building statistical models on data containing personal information. Differential privacy offers a strong definition of privacy and can be used to solve several privacy concerns (Dwork et al., 2014). Multiple solutions have been proposed for the differentially-private transformation of datasets containing sensitive information. However, such transformation algorithms offer poor utility in Natural Language Processing (NLP) tasks due to noise added in the process. In this paper, we address this issue by providing a utility-preserving differentially private text transformation algorithm using auto-encoders. Our algorithm transforms text to offer robustness against attacks and produces transformations with high semantic quality that perform well on downstream NLP tasks. We prove the theoretical privacy guarantee of our algorithm and assess its privacy leakage under Membership Inference Attacks(MIA) (Shokri et al., 2017) on models trained with transformed data. Our results show that the proposed model performs better against MIA attacks while offering lower to no degradation in the utility of the underlying transformation process compared to existing baselines.
翻訳日:2021-02-04 06:48:20 公開日:2021-01-29
# Web ベースコーパスから学ぶエンタープライズドメインオントロジー

Enterprise domain ontology learning from web-based corpus ( http://arxiv.org/abs/2102.01498v1 )

ライセンス: Link先を確認
Andrei Vasilateanu, Nicolae Goga, Elena-Alice Tanase, Iuliana Marin(参考訳) 企業知識は競争の激しい企業環境において重要な資産である。 暗黙的で明示的な知識を学び、保存し、配布する能力は、成功と失敗の違いです。 エンタープライズ・ナレッジ・マネジメントは明確に定義された研究分野であるが、現在の実装では中小企業への方向性が欠けている。 本稿では,自動生成ドメインオントロジーに基づく企業内の関連文書のセマンティック検索エンジンを提案する。 本稿では、オントロジー学習と人口の構成要素に焦点を当てる。

Enterprise knowledge is a key asset in the competing and fast-changing corporate landscape. The ability to learn, store and distribute implicit and explicit knowledge can be the difference between success and failure. While enterprise knowledge management is a well-defined research domain, current implementations lack orientation towards small and medium enterprise. We propose a semantic search engine for relevant documents in an enterprise, based on automatic generated domain ontologies. In this paper we focus on the component for ontology learning and population.
翻訳日:2021-02-03 16:52:47 公開日:2021-01-29
# 統計学者がディープラーニングを教える

A Statistician Teaches Deep Learning ( http://arxiv.org/abs/2102.01194v1 )

ライセンス: Link先を確認
G. Jogesh Babu, David Banks, Hyunsoon Cho, David Han, Hailin Sang and Shouyi Wang(参考訳) ディープラーニング(dl)は注目を集め、現代のデータサイエンスでますます人気が高まっている。 コンピュータ科学者はディープラーニング技術の開発を先導し、そのアイデアと視点は統計学者にとって異質に思える。 それでも統計学者が関与することが重要であり、多くの学生がキャリアのためにこの専門知識を必要としています。 本論文では,統計・応用数理科学研究所で開催されたDLプログラムの一環として,この文化格差に対処し,統計大学院生に深層学習を教えるためのヒントを提供する。 若干の背景から,dlと統計的視点の相違点を列挙し,dl大学院の2つのイテレーションの指導から進化した推奨シラバスを提供し,提案課題の例を示し,教材の注釈付きリストを与え,2つの研究領域の文脈でdlを議論する。

Deep learning (DL) has gained much attention and become increasingly popular in modern data science. Computer scientists led the way in developing deep learning techniques, so the ideas and perspectives can seem alien to statisticians. Nonetheless, it is important that statisticians become involved -- many of our students need this expertise for their careers. In this paper, developed as part of a program on DL held at the Statistical and Applied Mathematical Sciences Institute, we address this culture gap and provide tips on how to teach deep learning to statistics graduate students. After some background, we list ways in which DL and statistical perspectives differ, provide a recommended syllabus that evolved from teaching two iterations of a DL graduate course, offer examples of suggested homework assignments, give an annotated list of teaching resources, and discuss DL in the context of two research areas.
翻訳日:2021-02-03 16:19:04 公開日:2021-01-29
# (参考訳) 有害言語検出のための自動デビアス化の課題

Challenges in Automated Debiasing for Toxic Language Detection ( http://arxiv.org/abs/2102.00086v1 )

ライセンス: CC BY 4.0
Xuhui Zhou, Maarten Sap, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) バイアス協会は、有毒な言語を検出するための分類器の開発において挑戦的であり、公平性と正確性の両方を妨げる。 近年,有毒な言語検出法として,テキスト分類データセットやモデルに対するデバイアス法が提案されている。 私たちの焦点は語彙(例えば、単語、スラリー、アイデンティティ言及)と方言マーカー(特にアフリカ系アメリカ人英語)である。 包括的実験により,現在の毒性検出装置では,既存の手法が偏りを防止できる能力に制限があることが確認された。 次に,概念実証として,方言認識データの自動補正手法を提案する。 合成ラベルの使用にもかかわらず、この方法は毒性との方言の関連を減らします。 以上の結果から,有毒な言語データに基づいてトレーニングされたモデルのデバイアス化は,既存のバイアスを取り除くために単にデータを緩和するほど効果的ではないことがわかった。

Biased associations have been a challenge in the development of classifiers for detecting toxic language, hindering both fairness and accuracy. As potential solutions, we investigate recently introduced debiasing methods for text classification datasets and models, as applied to toxic language detection. Our focus is on lexical (e.g., swear words, slurs, identity mentions) and dialectal markers (specifically African American English). Our comprehensive experiments establish that existing methods are limited in their ability to prevent biased behavior in current toxicity detectors. We then propose an automatic, dialect-aware data correction method, as a proof-of-concept. Despite the use of synthetic labels, this method reduces dialectal associations with toxicity. Overall, our findings show that debiasing a model trained on biased toxic language data is not as effective as simply relabeling the data to remove existing biases.
翻訳日:2021-02-03 06:59:48 公開日:2021-01-29
# (参考訳) ニューロモルフィック事象に基づく視覚センサに対する中性子誘起単一イベント効果:宇宙応用に向けた第一歩

Neutron-Induced, Single-Event Effects on Neuromorphic Event-based Vision Sensor: A First Step Towards Space Applications ( http://arxiv.org/abs/2102.00112v1 )

ライセンス: CC BY 4.0
Seth Roffe, Himanshu Akolkar, Alan D. George, Bernab\'e Linares-barranco and Ryad Benosman(参考訳) 本稿では,宇宙飛行用ニューロモーフィック・イベント・ベース・ビジョンカメラの適合性と,中性子放射による性能への影響について検討する。 ニューロモルフィックイベントベースの視覚カメラは、非同期でクロックレスなデータ取得を実装した新しいセンサーであり、ミリ秒以下の時間精度で120dB以上の輝度の変化に関する情報を提供する。 これらのセンサーは、余分な情報を取り除きながら視覚力学の極めてスパースな表現を提供し、低リソース要求に適合するため、宇宙応用に大きな可能性を秘めている。 ロスアラモス中性子科学センターで広スペクトル中性子照射を行い,その効果を分類した。 その結果,放射時のセンサの回復速度が非常に速く,音源マクロパルスに対するノイズ発生バーストの相関が高かった。 入射角度の異なる事象数との間に有意な差は認められなかったが, 異なる角度での騒音イベントの空間構造には有意差が認められた。 その結果、イベントベースのカメラは、信号対雑音比3.355の空間的な放射環境でも機能することがわかった。 また、放射誘起ノイズがイベントレベルの計算に影響を与えないことも示している。 また、当社が実施したノイズモデリングに基づくシミュレーション環境であるイベントベース放射線誘発ノイズシミュレーション環境(Event-RINSE)を導入し、収集したデータから放射誘起ノイズの影響をあらゆるイベントストリームに注入し、開発したコードが放射能環境で動作できるようにします。 我々の知る限りでは、このような中性子誘起ノイズ解析がニューロモルフィック・ビジョン・センサーで行われてきたのはこれが初めてであり、このようなセンサーを宇宙応用に利用することの利点を示す。

This paper studies the suitability of neuromorphic event-based vision cameras for spaceflight, and the effects of neutron radiation on their performance. Neuromorphic event-based vision cameras are novel sensors that implement asynchronous, clockless data acquisition, providing information about the change in illuminance greater than 120dB with sub-millisecond temporal precision. These sensors have huge potential for space applications as they provide an extremely sparse representation of visual dynamics while removing redundant information, thereby conforming to low-resource requirements. An event-based sensor was irradiated under wide-spectrum neutrons at Los Alamos Neutron Science Center and its effects were classified. We found that the sensor had very fast recovery during radiation, showing high correlation of noise event bursts with respect to source macro-pulses. No significant differences were observed between the number of events induced at different angles of incidence but significant differences were found in the spatial structure of noise events at different angles. The results show that event-based cameras are capable of functioning in a space-like, radiative environment with a signal-to-noise ratio of 3.355. They also show that radiation-induced noise does not affect event-level computation. We also introduce the Event-based Radiation-Induced Noise Simulation Environment (Event-RINSE), a simulation environment based on the noise-modelling we conducted and capable of injecting the effects of radiation-induced noise from the collected data to any stream of events in order to ensure that developed code can operate in a radiative environment. To the best of our knowledge, this is the first time such analysis of neutron-induced noise analysis has been performed on a neuromorphic vision sensor, and this study shows the advantage of using such sensors for space applications.
翻訳日:2021-02-03 03:27:43 公開日:2021-01-29
# (参考訳) Internet of Thing アプリケーションのための暗黙のフィードバックに基づくグループ推奨システム

Implicit Feedback-based Group Recommender System for Internet of Thing Applications ( http://arxiv.org/abs/2102.00835v1 )

ライセンス: CC BY 4.0
Zhiwei Guo, Keping Yu, Tan Guo, Ali Kashif Bashir, Muhammad Imran, Mohsen Guizani(参考訳) モノのインターネット(IoT)ベースのソーシャルメディアアプリケーションの流行により、人々間の距離が大幅に短縮されました。 その結果、iotベースのソーシャルメディアにおけるリコメンダシステムは、個々のユーザではなく、ユーザグループ指向で開発する必要がある。 しかし、既存の手法は暗黙のフィードバックのシナリオを無視し、明示的な嗜好フィードバックに強く依存していた。 そこで本論文では,IoT型ソーシャルメディアにおける確率推論と非協調ゲーム(GREPING)を用いた暗黙的フィードバック型グループレコメンダーシステムを提案する。 特に、未知のプロセス変数はベイズ後方確率推定によって観測可能な暗黙的フィードバックから推定できる。 さらに,非協調ゲームを用いて,グローバルに最適な推薦結果を算出することができる。 GREPINGを効率性と頑健性という2つの側面から評価する実験を2つのグループで行った。 実験の結果, GREPINGの促進と安定性は, ベースライン法に比べ明らかであった。

With the prevalence of Internet of Things (IoT)-based social media applications, the distance among people has been greatly shortened. As a result, recommender systems in IoT-based social media need to be developed oriented to groups of users rather than individual users. However, existing methods were highly dependent on explicit preference feedbacks, ignoring scenarios of implicit feedback. To remedy such gap, this paper proposes an implicit feedback-based group recommender system using probabilistic inference and non-cooperative game(GREPING) for IoT-based social media. Particularly, unknown process variables can be estimated from observable implicit feedbacks via Bayesian posterior probability inference. In addition, the globally optimal recommendation results can be calculated with the aid of non-cooperative game. Two groups of experiments are conducted to assess the GREPING from two aspects: efficiency and robustness. Experimental results show obvious promotion and considerable stability of the GREPING compared to baseline methods.
翻訳日:2021-02-02 23:45:24 公開日:2021-01-29
# (参考訳) CAMBI: コントラスト対応マルチスケールバンド指数

CAMBI: Contrast-aware Multiscale Banding Index ( http://arxiv.org/abs/2102.00079v1 )

ライセンス: CC BY 4.0
Pulkit Tandon, Mariana Afonso, Joel Sole, Luk\'a\v{s} Krasula(参考訳) バンディングアーティファクトは、ビデオ中の滑らかな領域の量子化から生じる人工的な輪郭である。 より効率的なコーデックを備えた最近の高品質のビデオシステムの出現にもかかわらず、これらのアーティファクトは、特に大きなディスプレイで目立つままです。 本研究では,符号化パラメータやディザリングに対するバンドング可視性の依存性を理解するため,包括的主観的研究を行った。 その後、人間の視覚系におけるコントラスト感度関数の洞察を利用してバンドの可視性を予測するCAMBI(Contrast-aware Multiscale Banding Index)と呼ばれるシンプルで直感的な非参照バンディングインデックスを開発しました。 cambiは、視覚モチベーションのハイパーパラメータのみを使用しながら、バンディングの主観的知覚とよく相関する。

Banding artifacts are artificially-introduced contours arising from the quantization of a smooth region in a video. Despite the advent of recent higher quality video systems with more efficient codecs, these artifacts remain conspicuous, especially on larger displays. In this work, a comprehensive subjective study is performed to understand the dependence of the banding visibility on encoding parameters and dithering. We subsequently develop a simple and intuitive no-reference banding index called CAMBI (Contrast-aware Multiscale Banding Index) which uses insights from Contrast Sensitivity Function in the Human Visual System to predict banding visibility. CAMBI correlates well with subjective perception of banding while using only a few visually-motivated hyperparameters.
翻訳日:2021-02-02 22:02:45 公開日:2021-01-29
# (参考訳) SCAN: 共同マルチエージェントインテント予測のための空間文脈注意ネットワーク

SCAN: A Spatial Context Attentive Network for Joint Multi-Agent Intent Prediction ( http://arxiv.org/abs/2102.00109v1 )

ライセンス: CC BY 4.0
Jasmine Sekhon, Cody Fleming(参考訳) 人中心環境における自律的エージェントの安全なナビゲーションには、近隣の歩行者の動きを理解し予測する能力が必要である。 しかし、歩行者の意図を予測することは複雑な問題です。 歩行者の動きは複雑な社会航法規範に支配され、近隣の軌道に依存し、自然界では多様である。 本研究では、シーン内のすべての歩行者に対して社会的に許容可能な複数の将来の軌跡を共同で予測できる \textbf{SCAN}, a \textbf{S}patial \textbf{C}ontext \textbf{A}ttentive \textbf{N}etworkを提案する。 SCANは、仮定が少なく、パラメータ効率が高く、最先端の空間アテンションアプローチよりも解釈しやすい方法で、新しい空間アテンション機構を用いて、空間クローズドな隣人の影響を符号化する。 いくつかのデータセットの実験を通して,提案手法は予測意図の精度の観点から,アート軌道予測手法の精度を定量的に向上させることができることを示した。

Safe navigation of autonomous agents in human centric environments requires the ability to understand and predict motion of neighboring pedestrians. However, predicting pedestrian intent is a complex problem. Pedestrian motion is governed by complex social navigation norms, is dependent on neighbors' trajectories, and is multimodal in nature. In this work, we propose \textbf{SCAN}, a \textbf{S}patial \textbf{C}ontext \textbf{A}ttentive \textbf{N}etwork that can jointly predict socially-acceptable multiple future trajectories for all pedestrians in a scene. SCAN encodes the influence of spatially close neighbors using a novel spatial attention mechanism in a manner that relies on fewer assumptions, is parameter efficient, and is more interpretable compared to state-of-the-art spatial attention approaches. Through experiments on several datasets we demonstrate that our approach can also quantitatively outperform state of the art trajectory prediction methods in terms of accuracy of predicted intent.
翻訳日:2021-02-02 21:51:41 公開日:2021-01-29
# (参考訳) ランダムグラフマッチングにおけるシャープリコンストラクションスレッショルドの設定

Settling the Sharp Reconstruction Thresholds of Random Graph Matching ( http://arxiv.org/abs/2102.00082v1 )

ライセンス: CC BY 4.0
Yihong Wu and Jiaming Xu and Sophie H. Yu(参考訳) 本稿では,二つの辺相関ランダムグラフ間の隠れ頂点対応を回復する問題について検討する。 2つのグラフがガウス重み付き完備グラフであるガウスモデルと、2つのグラフが共通の親 Erd\H{o}s-R\'enyi graph $\mathcal{G}(n,p)$ からサブサンプリングされるエルド\H{o}s-R\'enyiモデルに焦点を当てる。 p=n^{-o(1)}$ の高密度グラフに対して、よりシャープなしきい値が存在することを証明し、上述の頂点の消滅分数を除いて全てと正しく一致することができ、下記の任意の正の分数に正しく一致するようなグラフは不可能である、すなわち「オール・オア・ナッシング」相転移と呼ばれる現象である。 さらに驚くべきことに、ガウスの設定では、すべての頂点は高い確率で正確に一致させることができる。 対照的に、sparse erd\h{o}s-r\'enyi graphs with $p=n^{-\theta(1)}$ に対し、all-or-nothing 現象はもはや存在せず、定数因子まで閾値を決定する。 また, erd\h{o}s-r\'enyiグラフの既存の結果をシャープにすることで, 正確な回復のための鋭いしきい値も導出する。 否定的な結果の証明は、切断された第2モーメント計算に基づく相互情報の厳密な特徴付けと、相互情報と再構成誤差の積分を関連付ける「領域定理」に基づいている。 正の結果は、エッジ上の誘発された置換のサイクル構造を考慮に入れた最大可能性推定器の厳しい分析から生じる。

This paper studies the problem of recovering the hidden vertex correspondence between two edge-correlated random graphs. We focus on the Gaussian model where the two graphs are complete graphs with correlated Gaussian weights and the Erd\H{o}s-R\'enyi model where the two graphs are subsampled from a common parent Erd\H{o}s-R\'enyi graph $\mathcal{G}(n,p)$. For dense graphs with $p=n^{-o(1)}$, we prove that there exists a sharp threshold, above which one can correctly match all but a vanishing fraction of vertices and below which correctly matching any positive fraction is impossible, a phenomenon known as the "all-or-nothing" phase transition. Even more strikingly, in the Gaussian setting, above the threshold all vertices can be exactly matched with high probability. In contrast, for sparse Erd\H{o}s-R\'enyi graphs with $p=n^{-\Theta(1)}$, we show that the all-or-nothing phenomenon no longer holds and we determine the thresholds up to a constant factor. Along the way, we also derive the sharp threshold for exact recovery, sharpening the existing results in Erd\H{o}s-R\'enyi graphs. The proof of the negative results builds upon a tight characterization of the mutual information based on the truncated second-moment computation and an "area theorem" that relates the mutual information to the integral of the reconstruction error. The positive results follows from a tight analysis of the maximum likelihood estimator that takes into account the cycle structure of the induced permutation on the edges.
翻訳日:2021-02-02 17:05:52 公開日:2021-01-29
# VX2TEXT:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習

VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs ( http://arxiv.org/abs/2101.12059v2 )

ライセンス: Link先を確認
Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani(参考訳) ビデオ+テキスト、音声、音声からなるマルチモーダル入力からテキストを生成するためのフレームワークである \textsc{vx2text} を提案する。 言語モデリングに有効であることが示されているトランスフォーマーネットワークを活用するために、各モダリティはまず学習可能なトークン化器によって言語埋め込みのセットに変換される。 これにより、言語空間におけるマルチモーダル融合が可能となり、アドホックなクロスモーダル融合モジュールの必要性がなくなる。 連続入力(ビデオやオーディオなど)におけるトークン化の非微分性に対処するために、エンドツーエンドのトレーニングを可能にするリラクゼーションスキームを利用する。 さらに,従来のエンコーダのみのモデルとは異なり,言語エンコーダが融合したマルチモーダル埋め込みからオープンなテキストを生成する自動回帰デコーダも網羅している。 これは、我々のアプローチを完全に生成し、タスクごとに特別なネットワークヘッドを設計する必要なしに、異なる「ビデオ+x$ to text」問題に直接適用します。 提案するフレームワークは概念的に単純であるだけでなく,極めて効果的である。単一のアーキテクチャに基づくアプローチは,映像ベースの3つのテキスト生成タスク – キャプション,質問応答,音声視覚シーン認識ダイアログ – において,最先端の作業よりも優れている,という実験結果が得られた。

We present \textsc{Vx2Text}, a framework for text generation from multimodal inputs consisting of video plus text, speech, or audio. In order to leverage transformer networks, which have been shown to be effective at modeling language, each modality is first converted into a set of language embeddings by a learnable tokenizer. This allows our approach to perform multimodal fusion in the language space, thus eliminating the need for ad-hoc cross-modal fusion modules. To address the non-differentiability of tokenization on continuous inputs (e.g., video or audio), we utilize a relaxation scheme that enables end-to-end training. Furthermore, unlike prior encoder-only models, our network includes an autoregressive decoder to generate open-ended text from the multimodal embeddings fused by the language encoder. This renders our approach fully generative and makes it directly applicable to different "video+$x$ to text" problems without the need to design specialized network heads for each task. The proposed framework is not only conceptually simple but also remarkably effective: experiments demonstrate that our approach based on a single architecture outperforms the state-of-the-art on three video-based text-generation tasks -- captioning, question answering and audio-visual scene-aware dialog.
翻訳日:2021-02-02 17:00:23 公開日:2021-01-29
# 植物健康ブレット分類のための微調整BERTモデル

Fine-tuning BERT-based models for Plant Health Bulletin Classification ( http://arxiv.org/abs/2102.00838v1 )

ライセンス: Link先を確認
Shufan Jiang (CRESTIC, ISEP), Rafael Angarita (ISEP), Stephane Cormier (CRESTIC), Francis Rousseaux (CRESTIC)(参考訳) デジタル化の時代には、農業のさまざまなアクターが多数のデータを生成します。 そのようなデータは、既にドメイン内の潜在的な歴史知識を含んでいる。 この知識は、グローバルまたはローカルの側面における自然災害を正確に研究し、リスク防止タスクを改善し、歩留まりを増強し、人口増加と栄養習慣の変化の課題に取り組むのに役立ちます。 特にフランスの植物健康情報報(bsv、フランス語: bulletin de sant{\e} du v{\'e}g{\e}tal)は、農業生産における植物衛生リスクの発達段階に関する情報を提供する。 しかし、それらは自然言語で書かれており、機械や人間はできるだけ効率的に利用することはできない。 自然言語処理(NLP)技術は、大量の自然言語データを自動処理し分析することを目的としている。 2010年代以降、計算能力と並列化の増大に伴い、表現学習と深層学習の手法がNLPで広まっていった。 最近進歩したBidirectional Encoder Representations from Transformers (BERT)は、植物健康管理領域における知識表現と自然言語理解の再考を促します。 この作業の目標は、BSVを自動的に分類してデータのインデックス化を容易にするBERTベースのアプローチを提案することである。 事前訓練されたbert言語モデルに200個のbsvをサンプリングし, 害虫や病原体として分類し, 予備的な結果を得た。

In the era of digitization, different actors in agriculture produce numerous data. Such data contains already latent historical knowledge in the domain. This knowledge enables us to precisely study natural hazards within global or local aspects, and then improve the risk prevention tasks and augment the yield, which helps to tackle the challenge of growing population and changing alimentary habits. In particular, French Plants Health Bulletins (BSV, for its name in French Bulletin de Sant{\'e} du V{\'e}g{\'e}tal) give information about the development stages of phytosanitary risks in agricultural production. However, they are written in natural language, thus, machines and human cannot exploit them as efficiently as it could be. Natural language processing (NLP) technologies aim to automatically process and analyze large amounts of natural language data. Since the 2010s, with the increases in computational power and parallelization, representation learning and deep learning methods became widespread in NLP. Recent advancements Bidirectional Encoder Representations from Transformers (BERT) inspire us to rethink of knowledge representation and natural language understanding in plant health management domain. The goal in this work is to propose a BERT-based approach to automatically classify the BSV to make their data easily indexable. We sampled 200 BSV to finetune the pretrained BERT language models and classify them as pest or/and disease and we show preliminary results.
翻訳日:2021-02-02 16:47:59 公開日:2021-01-29
# AGIシステムにおけるデファクトプランニング

Counterfactual Planning in AGI Systems ( http://arxiv.org/abs/2102.00834v1 )

ライセンス: Link先を確認
Koen Holtman(参考訳) 人工知能を応用した未来AIシステムにおいて、様々な安全メカニズムを創造するための設計手法として、反現実的計画を提示する。 反現実計画の重要なステップは、AGI機械学習システムを使用して、システムが現実世界とは異なるように設計された反現実世界モデルを構築することです。 反実計画エージェントは、この反実計画世界で期待される実用性を最大限に引き出す行動を決定し、実世界で同じ行動を行う。 agiエージェントの緊急停止ボタンと、エージェントが情報爆発を起こす前に自動的に停止する安全インターロックを構築するために、偽の計画を用いています。 また、人間によってエージェントの報酬関数を反復的に改善するために使用できる入力端末を備えたエージェントを構築し、この改善プロセスを操作するエージェントに対するインセンティブを抑える。 非エージェントAGIシステムにおける反実用計画の例として、反実用オラクルを構築する。 設計手法として、数理対物の定義にグラフィカル表記を用いることを中心に、対物計画が構築される。 この2ダイアグラム表記法は、機械学習エージェントの中に通常存在する複雑な自己参照および間接表現のタイプを推論するためのコンパクトで可読な言語を提供する。

We present counterfactual planning as a design approach for creating a range of safety mechanisms that can be applied in hypothetical future AI systems which have Artificial General Intelligence. The key step in counterfactual planning is to use an AGI machine learning system to construct a counterfactual world model, designed to be different from the real world the system is in. A counterfactual planning agent determines the action that best maximizes expected utility in this counterfactual planning world, and then performs the same action in the real world. We use counterfactual planning to construct an AGI agent emergency stop button, and a safety interlock that will automatically stop the agent before it undergoes an intelligence explosion. We also construct an agent with an input terminal that can be used by humans to iteratively improve the agent's reward function, where the incentive for the agent to manipulate this improvement process is suppressed. As an example of counterfactual planning in a non-agent AGI system, we construct a counterfactual oracle. As a design approach, counterfactual planning is built around the use of a graphical notation for defining mathematical counterfactuals. This two-diagram notation also provides a compact and readable language for reasoning about the complex types of self-referencing and indirect representation which are typically present inside machine learning agents.
翻訳日:2021-02-02 16:41:49 公開日:2021-01-29
# 単一の画像から再ターゲットする神経3D服

Neural 3D Clothes Retargeting from a Single Image ( http://arxiv.org/abs/2102.00062v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Kihwan Kim, Jan Kautz, and Hyun Soo Park(参考訳) 本稿では,所定の3d衣料テンプレートモデルの潜在的なポーズと変形を発生させ,一つのrgb画像で個人に適合させる,衣料再ターゲティング手法を提案する。 この問題は、全く同じ姿勢で異なる3d衣料品テンプレートモデルを身に着けている人々のイメージなど、根拠となる真実データを得ることが不可能であることから、基本的には不適切である。 物理シミュレーションから生成された大規模合成データを利用して、2次元密度体ポーズを3次元衣料変形にマッピングします。 シミュレーションデータを用いて,所定の体間接触点や衣服シルエットと整合して3次元変形の物理的妥当性を検証し,ラベルのない実画像に適合する半教師付き学習フレームワークを提案する。 新しいニューラルネットワークリターゲティングネットワーク(CRNet)は、セミスーパーバイザーのリターゲティングタスクをエンドツーエンドで統合するように設計されている。 本評価では,現実的な3次元ポーズと,実際の実例における衣服モデルの再ターゲティングに必要な変形場を予測できることを示す。

In this paper, we present a method of clothes retargeting; generating the potential poses and deformations of a given 3D clothing template model to fit onto a person in a single RGB image. The problem is fundamentally ill-posed as attaining the ground truth data is impossible, i.e., images of people wearing the different 3D clothing template model at exact same pose. We address this challenge by utilizing large-scale synthetic data generated from physical simulation, allowing us to map 2D dense body pose to 3D clothing deformation. With the simulated data, we propose a semi-supervised learning framework that validates the physical plausibility of the 3D deformation by matching with the prescribed body-to-cloth contact points and clothing silhouette to fit onto the unlabeled real images. A new neural clothes retargeting network (CRNet) is designed to integrate the semi-supervised retargeting task in an end-to-end fashion. In our evaluation, we show that our method can predict the realistic 3D pose and deformation field needed for retargeting clothes models in real-world examples.
翻訳日:2021-02-02 16:39:32 公開日:2021-01-29
# 信念機能に基づく脳腫瘍分割のための半教師付き学習

Belief function-based semi-supervised learning for brain tumor segmentation ( http://arxiv.org/abs/2102.00097v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Thierry Denoeux(参考訳) 病変領域の精密分割は治療の最適化に重要である。 ディープラーニングにより、注釈付きデータを使用して病変領域を検出およびセグメント化することができます。 しかし、正確な注釈付きデータを取得することは、医療分野で非常に困難です。 さらに、不確かさと不正確さのラベル付けはセグメンテーション結果の信頼性を損なう。 本稿では,情報融合戦略を持つ新しい明示的ニューラルネットワークによる不確実な境界問題と,半教師付き学習による注釈付きデータの不足に対処する。 実験の結果,提案手法は最先端手法よりも優れた性能を示す。

Precise segmentation of a lesion area is important for optimizing its treatment. Deep learning makes it possible to detect and segment a lesion field using annotated data. However, obtaining precisely annotated data is very challenging in the medical domain. Moreover, labeling uncertainty and imprecision make segmentation results unreliable. In this paper, we address the uncertain boundary problem by a new evidential neural network with an information fusion strategy, and the scarcity of annotated data by semi-supervised learning. Experimental results show that our proposal has better performance than state-of-the-art methods.
翻訳日:2021-02-02 16:38:53 公開日:2021-01-29
# Kernel Ridge Regression Imputation の項目非応答における統計的推論

Statistical Inference after Kernel Ridge Regression Imputation under item nonresponse ( http://arxiv.org/abs/2102.00058v1 )

ライセンス: Link先を確認
Hengfang Wang, Jae-Kwang Kim(参考訳) Imputationは、欠落したデータを扱う一般的なテクニックである。 カーネルリッジ回帰法による非パラメトリックな計算手法を考察し、一貫した分散推定を提案する。 提案する分散推定器は,エントロピー法を用いて密度比を推定する線形化手法に基づいている。 核リッジ回帰インプテーションにおいてソボレフ空間を利用した場合, インプテーション推定器のルートn一貫性が確立され, 提案する分散推定器の開発が可能となる。 本理論を検証するために合成データ実験を行った。

Imputation is a popular technique for handling missing data. We consider a nonparametric approach to imputation using the kernel ridge regression technique and propose consistent variance estimation. The proposed variance estimator is based on a linearization approach which employs the entropy method to estimate the density ratio. The root-n consistency of the imputation estimator is established when a Sobolev space is utilized in the kernel ridge regression imputation, which enables us to develop the proposed variance estimator. Synthetic data experiments are presented to confirm our theory.
翻訳日:2021-02-02 16:12:11 公開日:2021-01-29
# ロボット手術におけるジェスチャ認識

Gesture Recognition in Robotic Surgery: a Review ( http://arxiv.org/abs/2102.00027v1 )

ライセンス: Link先を確認
Beatrice van Amsterdam, Matthew J. Clarkson, Danail Stoyanov(参考訳) 目的: 手術活動認識はコンピュータ支援介入の基本的なステップである。 本稿では,最近のデータ駆動アプローチに着目したロボット手術における細粒度ジェスチャーの自動認識手法の現状と今後の展望について概説する。 方法: ロボット, ロボット支援, JIGSAWS, 外科, 外科, ジェスチャー, きめ細かな, サーム, アクション, 軌跡, セグメンテーション, 認識, パーシングの5つの文献データベースで検索を行った。 選抜された記事は、トレーニングに必要な監督レベルに基づいて分類され、時系列分析とデータモデリングのための主要なフレームワークを表すグループに分けられた。 結果:合計52記事がレビューされました。 研究分野は急速に拡大しており、記事の大半は過去4年間に掲載されている。 識別的特徴抽出とマルチモーダルデータ統合を用いた深層学習に基づく時間モデルにより,小型手術データセットにおいて有望な結果が得られた。 現在、教師なし手法は教師なし手法よりも大幅に性能が低い。 結論: 注釈付きデモンストレーションの大規模かつ多様なオープンソースデータセットの開発は, 外科的ジェスチャー認識のための堅牢なソリューションの開発と検証に不可欠である。 識別的特徴抽出と知識伝達のための新しい戦略、あるいは教師なし、半教師なしのアプローチは、データとラベルの必要性を軽減できるが、同等のパフォーマンスを達成するためにはまだ実証されていない。 今後の重要な研究方向は、ジェスチャー固有のエラーや異常の検出と予測である。 意義:本稿は,この急速に発展する分野の現状を要約した手術用ジェスチャー認識手法の包括的かつ構造化された分析である。

Objective: Surgical activity recognition is a fundamental step in computer-assisted interventions. This paper reviews the state-of-the-art in methods for automatic recognition of fine-grained gestures in robotic surgery focusing on recent data-driven approaches and outlines the open questions and future research directions. Methods: An article search was performed on 5 bibliographic databases with the following search terms: robotic, robot-assisted, JIGSAWS, surgery, surgical, gesture, fine-grained, surgeme, action, trajectory, segmentation, recognition, parsing. Selected articles were classified based on the level of supervision required for training and divided into different groups representing major frameworks for time series analysis and data modelling. Results: A total of 52 articles were reviewed. The research field is showing rapid expansion, with the majority of articles published in the last 4 years. Deep-learning-based temporal models with discriminative feature extraction and multi-modal data integration have demonstrated promising results on small surgical datasets. Currently, unsupervised methods perform significantly less well than the supervised approaches. Conclusion: The development of large and diverse open-source datasets of annotated demonstrations is essential for development and validation of robust solutions for surgical gesture recognition. While new strategies for discriminative feature extraction and knowledge transfer, or unsupervised and semi-supervised approaches, can mitigate the need for data and labels, they have not yet been demonstrated to achieve comparable performance. Important future research directions include detection and forecast of gesture-specific errors and anomalies. Significance: This paper is a comprehensive and structured analysis of surgical gesture recognition methods aiming to summarize the status of this rapidly evolving field.
翻訳日:2021-02-02 15:59:26 公開日:2021-01-29
# 線形化フレームワークと微調整のためのモデル選択のための新しいベンチマーク

A linearized framework and a new benchmark for model selection for fine-tuning ( http://arxiv.org/abs/2102.00084v1 )

ライセンス: Link先を確認
Aditya Deshpande, Alessandro Achille, Avinash Ravichandran, Hao Li, Luca Zancato, Charless Fowlkes, Rahul Bhotika, Stefano Soatto, Pietro Perona(参考訳) さまざまなドメイン("モデル動物園")で事前トレーニングされたモデルの集合の微調整が、低データ環境でのテスト精度を改善する技術として登場している。 ただし、モデル選択、すなわち。 トレーニングをせずにモデル動物園から微調整する適切なモデルを事前に選択する方法は、オープンなトピックのままです。 我々は線形化フレームワークを用いて微調整を近似し、モデル選択のための2つの新しいベースライン -- ラベル勾配とラベル特徴相関 - を導入する。 文献内のすべてのモデル選択アルゴリズムは、異なるユースケースでテストされ、直接比較されることがないので、我々は、モデル選択のための新しい包括的なベンチマークを導入する:i)単一およびマルチドメインモデルのモデル動物園、およびii)多くのターゲットタスク。 今回のベンチマークでは,imagenetモデルの微調整と比較して,model zooの精度向上が強調された。 モデル選択ベースラインは,少数の選択で微調整可能な最適モデルを選択することができ,既存のアルゴリズムと比較した場合の精度に最も高いランク付け相関を示す。

Fine-tuning from a collection of models pre-trained on different domains (a "model zoo") is emerging as a technique to improve test accuracy in the low-data regime. However, model selection, i.e. how to pre-select the right model to fine-tune from a model zoo without performing any training, remains an open topic. We use a linearized framework to approximate fine-tuning, and introduce two new baselines for model selection -- Label-Gradient and Label-Feature Correlation. Since all model selection algorithms in the literature have been tested on different use-cases and never compared directly, we introduce a new comprehensive benchmark for model selection comprising of: i) A model zoo of single and multi-domain models, and ii) Many target tasks. Our benchmark highlights accuracy gain with model zoo compared to fine-tuning Imagenet models. We show our model selection baseline can select optimal models to fine-tune in few selections and has the highest ranking correlation to fine-tuning accuracy compared to existing algorithms.
翻訳日:2021-02-02 15:58:39 公開日:2021-01-29
# 架空画像における合成データと階層オブジェクト検出

Synthetic Data and Hierarchical Object Detection in Overhead Imagery ( http://arxiv.org/abs/2102.00103v1 )

ライセンス: Link先を確認
Nathan Clement, Alan Schoen, Arnold Boedihardjo, and Andrew Jenkins(参考訳) ニューラルネットワークモデルの性能は、ビッグデータの可用性によって制限されることが多い。 本研究では、衛星画像における低・低サンプル学習を向上するための新しい合成データ生成および増強手法を調査・開発する。 合成データ生成手法の拡張に加えて,合成トレーニングサンプルの有用性向上のための階層的検出手法を提案する。 合成画像3Dモデルとニューラルスタイルトランスファーの既存の技術を検討するとともに、3Dモデルをブレンドするために、逆向きに訓練された再スキーネットワークGAN-Reskinnerを導入します。 さらに,自己構築の2段階の階層的検出・分類モデルにおいて,合成データの値をテストする。 合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。 合成データのすべてのモダリティは、実用的な地理空間分析問題で広くテストされます。 本手法を用いて開発した合成データは、特に実際のトレーニング画像と組み合わせると、検出性能を高めることがよくあります。 我々のGAN-Reskinnerは、データソースが唯一合成されている場合、従来の3Dモデルよりも性能を向上し、すべての場合において階層モデルはベースラインのエンドツーエンド検出アーキテクチャよりも優れています。

The performance of neural network models is often limited by the availability of big data sets. To treat this problem, we survey and develop novel synthetic data generation and augmentation techniques for enhancing low/zero-sample learning in satellite imagery. In addition to extending synthetic data generation approaches, we propose a hierarchical detection approach to improve the utility of synthetic training samples. We consider existing techniques for producing synthetic imagery--3D models and neural style transfer--as well as introducing our own adversarially trained reskinning network, the GAN-Reskinner, to blend 3D models. Additionally, we test the value of synthetic data in a two-stage, hierarchical detection/classification model of our own construction. To test the effectiveness of synthetic imagery, we employ it in the training of detection models and our two stage model, and evaluate the resulting models on real satellite images. All modalities of synthetic data are tested extensively on practical, geospatial analysis problems. Our experiments show that synthetic data developed using our approach can often enhance detection performance, particularly when combined with some real training images. When the only source of data is synthetic, our GAN-Reskinner often boosts performance over conventionally rendered 3D models and in all cases the hierarchical model outperforms the baseline end-to-end detection architecture.
翻訳日:2021-02-02 15:58:01 公開日:2021-01-29
# ログ損失と誤種別によるシーケンス予測

Sequential prediction under log-loss and misspecification ( http://arxiv.org/abs/2102.00050v1 )

ライセンス: Link先を確認
Meir Feder and Yury Polyanskiy(参考訳) 累積的後悔の観点から,ログロスの下での逐次予測の問題を考える。 すなわち、分布の仮説クラスが与えられた場合、学習者は次の文字を順番に予測(分布)し、その性能は仮説クラスから最高の定数予測器のベースラインと比較される。 よく特定されたケースは、データ生成分布が仮説クラスに属するという追加の仮定に対応する。 ここでは、より一般的な不特定ケースの結果を紹介します。 ログロスの特別な性質のため、密度推定とモデル選択における競合最適性の文脈でも同じ問題が生じる。 d$-次元ガウス位置仮説クラスでは、よく特定され誤認された症例における累積後悔が無症状に一致することを示した。 言い換えると、私たちは、このケースにおける配布不要(またはpac)の後悔の特徴として$o(1)$を提供しています。 この場合の最悪のケース(または個々のシーケンス)の後悔は、加法定数 ${d\over 2} + o(1)$ によって大きいことを思い出す。 驚くべきことに、伝統的なベイズ人の推定値もシュタルコフの正規化された最大確率もpacの後悔を達成できず、我々の推定値には重み付きデータに対する特別な「ロバスト化」が必要となる。 さらに, 最適推定器の存在と特異性, および(漸近的に)近縁な仮説を持つ不明瞭な後悔の間に, 不特定な後悔を挟み込むことの2つの一般的な結果を示す。

We consider the question of sequential prediction under the log-loss in terms of cumulative regret. Namely, given a hypothesis class of distributions, learner sequentially predicts the (distribution of the) next letter in sequence and its performance is compared to the baseline of the best constant predictor from the hypothesis class. The well-specified case corresponds to an additional assumption that the data-generating distribution belongs to the hypothesis class as well. Here we present results in the more general misspecified case. Due to special properties of the log-loss, the same problem arises in the context of competitive-optimality in density estimation, and model selection. For the $d$-dimensional Gaussian location hypothesis class, we show that cumulative regrets in the well-specified and misspecified cases asymptotically coincide. In other words, we provide an $o(1)$ characterization of the distribution-free (or PAC) regret in this case -- the first such result as far as we know. We recall that the worst-case (or individual-sequence) regret in this case is larger by an additive constant ${d\over 2} + o(1)$. Surprisingly, neither the traditional Bayesian estimators, nor the Shtarkov's normalized maximum likelihood achieve the PAC regret and our estimator requires special "robustification" against heavy-tailed data. In addition, we show two general results for misspecified regret: the existence and uniqueness of the optimal estimator, and the bound sandwiching the misspecified regret between well-specified regrets with (asymptotically) close hypotheses classes.
翻訳日:2021-02-02 15:45:45 公開日:2021-01-29
# 単一時系列の適応シーケンス設計

Adaptive Sequential Design for a Single Time-Series ( http://arxiv.org/abs/2102.00102v1 )

ライセンス: Link先を確認
Ivana Malenica, Aurelien Bibaut and Mark J. van der Laan(参考訳) 現在の研究は、精密医療のための堅牢な統計手法の必要性によって動機付けられており、任意の時点において単一の単位に対して実行可能な推論を提供する統計手法の必要性に対処する。 提案手法は,設計の制御されたコンポーネントの最適かつ未知な選択を学習して,期待する結果を最適化することを目的として,時間とともに収集したデータに基づいて,将来の時刻実験にランダム化機構を適用する。 その結果,一つのサンプルに基づいて最適規則を学習でき,平均目標パラメータの正当な推論により任意の点tにおける設計を調整できることがわかった。 この研究は統計精度医学の分野にいくつかの貢献をしている。 まず、単一の単位時系列データに対する現在のコンテキストによって定義される条件付き因果パラメータの平均の一般クラスを定義する。 本研究は,少数の仮定の下で時系列の確率分布の非パラメトリックモデルを定義し,提案対象パラメータの効率的な影響曲線の二重ロバスト構造を用いて,推定手順における逐次ランダム化を十分に活用することを目的とする。 治療を割り当てるための複数の探索探索戦略、および最適なルールを推定する方法を提示する。 最後に、対象パラメータが個々の観察されたコンテキストに応じて時間とともに適応する最適な治療規則の下で、平均に関するデータ適応推論の研究について述べる。 我々の対象パラメータは2倍の堅牢性を持つ効率的な影響関数でパスワイズに微分可能であり、従来提案されていた変動よりも容易に推定できる。 我々は,マルティンゲール設定に適応したブラケットエントロピーの概念で表現されたドンスカー条件下での推定値の極限分布を特徴付ける。

The current work is motivated by the need for robust statistical methods for precision medicine; as such, we address the need for statistical methods that provide actionable inference for a single unit at any point in time. We aim to learn an optimal, unknown choice of the controlled components of the design in order to optimize the expected outcome; with that, we adapt the randomization mechanism for future time-point experiments based on the data collected on the individual over time. Our results demonstrate that one can learn the optimal rule based on a single sample, and thereby adjust the design at any point t with valid inference for the mean target parameter. This work provides several contributions to the field of statistical precision medicine. First, we define a general class of averages of conditional causal parameters defined by the current context for the single unit time-series data. We define a nonparametric model for the probability distribution of the time-series under few assumptions, and aim to fully utilize the sequential randomization in the estimation procedure via the double robust structure of the efficient influence curve of the proposed target parameter. We present multiple exploration-exploitation strategies for assigning treatment, and methods for estimating the optimal rule. Lastly, we present the study of the data-adaptive inference on the mean under the optimal treatment rule, where the target parameter adapts over time in response to the observed context of the individual. Our target parameter is pathwise differentiable with an efficient influence function that is doubly robust - which makes it easier to estimate than previously proposed variations. We characterize the limit distribution of our estimator under a Donsker condition expressed in terms of a notion of bracketing entropy adapted to martingale settings.
翻訳日:2021-02-02 15:45:01 公開日:2021-01-29
# (参考訳) NTU60-X:Skeleton-based Recognition of Subtle Human Actions

NTU60-X: Towards Skeleton-based Recognition of Subtle Human Actions ( http://arxiv.org/abs/2101.11529v2 )

ライセンス: CC BY 4.0
Anirudh Thatipelli, Neel Trivedi, Ravi Kiran Sarvadevabhatla(参考訳) 手指のようなきめ細かい関節の欠如は、最大のアクション認識データセットであるNTU-RGBDでトレーニングされたアートスケルトンアクション認識モデルの状態の基本的なパフォーマンスボトルネックである。 このボトルネックに対処するために、新しいスケルトンベースのヒューマンアクションデータセット、NTU60-Xを導入する。 NTU-RGBDのように各骨格の25個の体関節に加えて、NTU60-Xデータセットは指と顔の関節を含んでおり、より豊かな骨格表現を可能にします。 導入したデータセットを使用したトレーニングを可能にするために,アートアプローチの状態を適切に修正する。 以上の結果から,NTU60-Xは,上記のボトルネックを克服し,総合的かつ最悪の行動カテゴリーにおける芸術的パフォーマンスの向上に有効であることが示唆された。

The lack of fine-grained joints such as hand fingers is a fundamental performance bottleneck for state of the art skeleton action recognition models trained on the largest action recognition dataset, NTU-RGBD. To address this bottleneck, we introduce a new skeleton based human action dataset - NTU60-X. In addition to the 25 body joints for each skeleton as in NTU-RGBD, NTU60-X dataset includes finger and facial joints, enabling a richer skeleton representation. We appropriately modify the state of the art approaches to enable training using the introduced dataset. Our results demonstrate the effectiveness of NTU60-X in overcoming the aforementioned bottleneck and improve state of the art performance, overall and on hitherto worst performing action categories.
翻訳日:2021-02-01 20:12:17 公開日:2021-01-29
# 係り受け解析における構文核 ---多言語探索

Syntactic Nuclei in Dependency Parsing -- A Multilingual Exploration ( http://arxiv.org/abs/2101.11959v2 )

ライセンス: Link先を確認
Ali Basirat and Joakim Nivre(参考訳) 構文的依存解析の標準モデルは、依存関係に入る基本単位として単語を取る。 本論文では,Tesni\`{e}reによって提案された核のより抽象的な概念を用いて,これらのモデルを強化することのメリットについて検討する。 我々は、核の概念をUniversal Dependenciesのフレームワークで定義する方法と、コンポジション関数を使って遷移ベースの依存性パーサにこの概念を認識させる方法を示す。 12言語の実験では、核組成が解析精度の小さいが有意な改善をもたらすことが示されている。 さらなる分析により、改良は主に、名目修飾子、調整の関係、主述語、直接対象を含む少数の依存関係に関係していることが明らかとなった。

Standard models for syntactic dependency parsing take words to be the elementary units that enter into dependency relations. In this paper, we investigate whether there are any benefits from enriching these models with the more abstract notion of nucleus proposed by Tesni\`{e}re. We do this by showing how the concept of nucleus can be defined in the framework of Universal Dependencies and how we can use composition functions to make a transition-based dependency parser aware of this concept. Experiments on 12 languages show that nucleus composition gives small but significant improvements in parsing accuracy. Further analysis reveals that the improvement mainly concerns a small number of dependency relations, including nominal modifiers, relations of coordination, main predicates, and direct objects.
翻訳日:2021-02-01 19:38:43 公開日:2021-01-29
# 自動車の道徳的・社会的影響

Moral and Social Ramifications of Autonomous Vehicles ( http://arxiv.org/abs/2101.11775v2 )

ライセンス: Link先を確認
Veljko Dubljevi\'c (1), Sean Douglas (1), Jovan Milojevich (2), Nirav Ajmeri (3), William A. Bauer (1), George F. List (1) and Munindar P. Singh (1) ((1) North Carolina State University, (2) Oklahoma State University, (3) University of Bristol)(参考訳) 自動運転車(AV)は、特に説明責任、尊厳、正義に関する重要な社会的および倫理的な懸念を提起します。 私たちは、AV技術がプロフェッショナルおよびセミプロフェッショナルドライバーの生活と生活にどのように影響を与えるかから生じる特定の懸念に焦点を当てています。 そのような懸念の以前の研究は専門家の意見に焦点を当てていますが、私たちはこれらの倫理的および社会的課題をドライバー自身の視点から理解するよう努めています。 そこで我々は,半構造化インタビューに基づく質的研究手法を採用した。 これは、調査などの表面的な方法のバイアスを回避することによって、ステークホルダーのコア懸念を深く理解するのに役立つ確立された社会科学方法論です。 運転者は、avが交通システムに大きな影響を与えるという専門家の意見に同意する一方で、生活の見通しを理解し、運転職が不十分で職業が保護に値するものではないという提案を否定する。 ドライバーが専門家とどう違うかを示すことで、私たちの研究はavとaiや他の先進技術との差を広げています。 以上の結果から,新たな技術が倫理的に導入されるためには,ステークホルダーの質的研究が不可欠であることが示唆された。

Autonomous Vehicles (AVs) raise important social and ethical concerns, especially about accountability, dignity, and justice. We focus on the specific concerns arising from how AV technology will affect the lives and livelihoods of professional and semi-professional drivers. Whereas previous studies of such concerns have focused on the opinions of experts, we seek to understand these ethical and societal challenges from the perspectives of the drivers themselves. To this end, we adopted a qualitative research methodology based on semi-structured interviews. This is an established social science methodology that helps understand the core concerns of stakeholders in depth by avoiding the biases of superficial methods such as surveys. We find that whereas drivers agree with the experts that AVs will significantly impact transportation systems, they are apprehensive about the prospects for their livelihoods and dismiss the suggestions that driving jobs are unsatisfying and their profession does not merit protection. By showing how drivers differ from the experts, our study has ramifications beyond AVs to AI and other advanced technologies. Our findings suggest that qualitative research applied to the relevant, especially disempowered, stakeholders is essential to ensuring that new technologies are introduced ethically.
翻訳日:2021-02-01 19:25:44 公開日:2021-01-29
# 新規ポテンシャル3CL$^{\text{pro}}$とPL$^{\text{pro}}$阻害剤の自動設計

Automatic design of novel potential 3CL$^{\text{pro}}$ and PL$^{\text{pro}}$ inhibitors ( http://arxiv.org/abs/2101.11890v2 )

ライセンス: Link先を確認
Timothy Atkinson, Saeed Saremi, Faustino Gomez, Jonathan Masci(参考訳) SARS-CoV-1およびSARS-CoV-2の新規阻害剤の設計を目的として、特定の望ましい特性を有する分子を同定するプロパティ予測器、既知のトレーニング分子と与えられた分子の統計的類似性を近似するエネルギーモデル、および分子探索方法の3つの構成要素からなる一般分子最適化フレームワークである分子ニューラルアッセイサーチ(MONAS)を提案する。 この研究では、これらのコンポーネントは、それぞれ、グラフニューラルネットワーク(GNNs)、Deep Energy Estimator Networks(DEEN)、およびモンテカルロツリーサーチ(MCTS)でインスタンス化される。 この実装は、GNNがSARS-CoV-1阻害剤であると判断した120万分子(40万分子のうち)を同定するために使用され、同時に、GNNの訓練に用いられるデータセットに統計的に近接している。

With the goal of designing novel inhibitors for SARS-CoV-1 and SARS-CoV-2, we propose the general molecule optimization framework, Molecular Neural Assay Search (MONAS), consisting of three components: a property predictor which identifies molecules with specific desirable properties, an energy model which approximates the statistical similarity of a given molecule to known training molecules, and a molecule search method. In this work, these components are instantiated with graph neural networks (GNNs), Deep Energy Estimator Networks (DEEN) and Monte Carlo tree search (MCTS), respectively. This implementation is used to identify 120K molecules (out of 40-million explored) which the GNN determined to be likely SARS-CoV-1 inhibitors, and, at the same time, are statistically close to the dataset used to train the GNN.
翻訳日:2021-02-01 19:20:03 公開日:2021-01-29
# 生成型adversarial networkの隠れたタスク:ganトレーニングにおける代替的視点

The Hidden Tasks of Generative Adversarial Networks: An Alternative Perspective on GAN Training ( http://arxiv.org/abs/2101.11863v2 )

ライセンス: Link先を確認
Romann M. Weber(参考訳) 本稿では、GAN(Generative Adversarial Network)のトレーニングについて、GANジェネレータのトレーニングステップが2つの暗黙のサブプロブレムに分解されることを示す。 第一に、判別器は、およそ逆分類器ラベルによって生成される「逆例」の形で、ジェネレータに新しいターゲットデータを提供する。 第二に、これらの例は、ネットワークのトレーニングに指定された主な損失に関係なく、最小二乗回帰によってジェネレータを更新するターゲットとして使用される。 主たる理論的結果を実験的に検証し、これらのサブ問題を明確にすることで可能な代替トレーニング方法の意味を議論する。 また、ネットワーク内の誘導バイアスの単純な表現も紹介し、その回帰目標に対する発電機の出力を記述することに適用します。

We present an alternative perspective on the training of generative adversarial networks (GANs), showing that the training step for a GAN generator decomposes into two implicit sub-problems. In the first, the discriminator provides new target data to the generator in the form of "inverse examples" produced by approximately inverting classifier labels. In the second, these examples are used as targets to update the generator via least-squares regression, regardless of the main loss specified to train the network. We experimentally validate our main theoretical result and discuss implications for alternative training methods that are made possible by making these sub-problems explicit. We also introduce a simple representation of inductive bias in networks, which we apply to describing the generator's output relative to its regression targets.
翻訳日:2021-02-01 19:14:31 公開日:2021-01-29
# (参考訳) メタラーニングによる文法誤り訂正のためのFew-Shot Domain Adaptation

Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning ( http://arxiv.org/abs/2101.12409v1 )

ライセンス: CC BY 4.0
Shengsheng Zhang, Yaping Huang, Yun Chen, Liner Yang, Chencheng Wang, Erhong Yang(参考訳) シーケンス・トゥ・シークエンスに基づく既存のGEC(Grammatical Error Correction)メソッドの多くは、より優れたパフォーマンスを得るためにより多くの擬似データを生成する方法に焦点を当てている。 少数のGECドメイン適応に対処する作業はほとんどない。 本稿では、異なるGECドメインを異なるGECタスクとして扱い、疑似データを使用せずに、メタラーニングを少数のGECドメイン適応に拡張することを提案する。 データ豊富なソースドメインのセットを利用してモデルパラメータの初期化を学び、新しいリソース-poorターゲットドメインへの迅速な適応を促進する。 GECモデルを第2言語学習者の第1言語(L1)に適用する。 提案手法を評価するために,9つのL1をソースドメイン,5つのL1をターゲットドメインとする。 L1 GEC領域適応データセットの実験結果から,提案手法は平均0.50ドルF_{0.5}$スコアのマルチタスク変換学習ベースラインよりも優れており,200のパラレル文しか持たない新しいL1ドメインに効果的に適応できることを示した。

Most existing Grammatical Error Correction (GEC) methods based on sequence-to-sequence mainly focus on how to generate more pseudo data to obtain better performance. Few work addresses few-shot GEC domain adaptation. In this paper, we treat different GEC domains as different GEC tasks and propose to extend meta-learning to few-shot GEC domain adaptation without using any pseudo data. We exploit a set of data-rich source domains to learn the initialization of model parameters that facilitates fast adaptation on new resource-poor target domains. We adapt GEC model to the first language (L1) of the second language learner. To evaluate the proposed method, we use nine L1s as source domains and five L1s as target domains. Experiment results on the L1 GEC domain adaptation dataset demonstrate that the proposed approach outperforms the multi-task transfer learning baseline by 0.50 $F_{0.5}$ score on average and enables us to effectively adapt to a new L1 domain with only 200 parallel sentences.
翻訳日:2021-02-01 16:55:44 公開日:2021-01-29
# (参考訳) ニューラルマシン翻訳のための単言語データ合成

Synthesizing Monolingual Data for Neural Machine Translation ( http://arxiv.org/abs/2101.12462v1 )

ライセンス: CC BY 4.0
Benjamin Marie, Atsushi Fujita(参考訳) ニューラルマシン翻訳(NMT)では、ターゲット言語のモノリンガルデータは、通常「バックトランスレーション」と呼ばれる方法で、追加の訓練並列データを合成する。 合成データはより優れたNMT、特に低リソース言語ペアとドメインのトレーニングに役立つことが示されている。 それでも、ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。 本研究では,特定の領域において,非常に小さな単言語データを利用する大規模合成並列データを生成する新しい手法を提案する。 予め訓練されたGPT-2モデルをこのような小さなドメイン内モノリンガルデータに微調整し、その結果モデルを使用して大量の合成インドメインモノリンガルデータを生成します。 次に、バックトランスレーションまたはフォワードトランスレーションを行い、合成インドメイン並列データを生成します。 3つの言語ペアと5つのドメインに関する予備実験を行い,全構成のnmtを改善するために,完全合成だが有用なドメイン内並列データを生成する手法の有効性を示した。 また,パーソナライズされたnmtに対して極端に適応する有望な結果を示す。

In neural machine translation (NMT), monolingual data in the target language are usually exploited through a method so-called "back-translation" to synthesize additional training parallel data. The synthetic data have been shown helpful to train better NMT, especially for low-resource language pairs and domains. Nonetheless, large monolingual data in the target domains or languages are not always available to generate large synthetic parallel data. In this work, we propose a new method to generate large synthetic parallel data leveraging very small monolingual data in a specific domain. We fine-tune a pre-trained GPT-2 model on such small in-domain monolingual data and use the resulting model to generate a large amount of synthetic in-domain monolingual data. Then, we perform back-translation, or forward translation, to generate synthetic in-domain parallel data. Our preliminary experiments on three language pairs and five domains show the effectiveness of our method to generate fully synthetic but useful in-domain parallel data for improving NMT in all configurations. We also show promising results in extreme adaptation for personalized NMT.
翻訳日:2021-02-01 16:47:48 公開日:2021-01-29
# (参考訳) CD2CR:ドキュメントとドメインの相互参照解決

CD2CR: Co-reference Resolution Across Documents and Domains ( http://arxiv.org/abs/2101.12637v1 )

ライセンス: CC BY 4.0
James Ravenscroft and Arie Cattan and Amanda Clare and Ido Dagan and Maria Liakata(参考訳) cross-document co-reference resolution (cdcr) は、多くのテキスト文書にまたがるエンティティや概念への言及を識別しリンクするタスクである。 このタスクの現在の最先端モデルは、すべてのドキュメントが同じタイプ(例えば、)であると仮定する。 ニュース記事)または同じテーマに該当する。 しかし、異なるドメイン(タイプまたはテーマ)でCDCRを実行することも望ましい。 この論文で特に注目するユースケースは、科学的な仕事とそれらの議論する新聞記事にまたがるエンティティの解決である。 科学記事とニュースの両方で同じ実体と対応する概念を識別することは、科学者が彼らの仕事がどのように主流メディアで表現されるかを理解するのに役立ちます。 クロスドキュメントのクロスドメインコリファレンス解決(CD$^2$CR)のための新しいタスクと英語データセットを提案する。 このタスクは異種ドキュメントタイプ間のエンティティ間のリンクを識別することを目的としている。 このクロスドメインなクロスドキュメント設定では、既存のCDCRモデルはうまく動作せず、CD$2$CR上の現在の最先端CDCRモデルより優れたベースラインモデルを提供する。 当社のデータセット、アノテーションツール、ガイドライン、およびクロスドキュメントのクロスドメインコリファレンスモデルはすべて、オープンソースリソースとして提供されています。

Cross-document co-reference resolution (CDCR) is the task of identifying and linking mentions to entities and concepts across many text documents. Current state-of-the-art models for this task assume that all documents are of the same type (e.g. news articles) or fall under the same theme. However, it is also desirable to perform CDCR across different domains (type or theme). A particular use case we focus on in this paper is the resolution of entities mentioned across scientific work and newspaper articles that discuss them. Identifying the same entities and corresponding concepts in both scientific articles and news can help scientists understand how their work is represented in mainstream media. We propose a new task and English language dataset for cross-document cross-domain co-reference resolution (CD$^2$CR). The task aims to identify links between entities across heterogeneous document types. We show that in this cross-domain, cross-document setting, existing CDCR models do not perform well and we provide a baseline model that outperforms current state-of-the-art CDCR models on CD$^2$CR. Our data set, annotation tool and guidelines as well as our model for cross-document cross-domain co-reference are all supplied as open access open source resources.
翻訳日:2021-02-01 16:38:02 公開日:2021-01-29
# (参考訳) 最適化 $\alpha\mu$

Optimizing $\alpha\mu$ ( http://arxiv.org/abs/2101.12639v1 )

ライセンス: CC BY 4.0
Tristan Cazenave and Swann Legras and V\'eronique Ventos(参考訳) $\alpha\mu$は、Perfect Information Monte Carlo Searchのデフォルトである戦略融合と非局所性の2つを修復する検索アルゴリズムである。 本稿では,ブリッジゲームに$\alpha\mu$を最適化し,無駄な計算を回避した。 提案した最適化は汎用的で、他の不完全な情報ターンベースゲームに適用できる。 パレートフロントを含む複数の最適化を定義し、これらの最適化が検索を高速化することを示す。 これらの最適化のいくつかは、ノードの検索を停止するカットであり、他の最適化は、不要でコストのかかる評価を避けるために、可能世界の冗長化を追跡する。 また、$\alpha\mu$ search treeの葉の二重ダミー検索の並列化の利点も測定する。

$\alpha\mu$ is a search algorithm which repairs two defaults of Perfect Information Monte Carlo search: strategy fusion and non locality. In this paper we optimize $\alpha\mu$ for the game of Bridge, avoiding useless computations. The proposed optimizations are general and apply to other imperfect information turn-based games. We define multiple optimizations involving Pareto fronts, and show that these optimizations speed up the search. Some of these optimizations are cuts that stop the search at a node, while others keep track of which possible worlds have become redundant, avoiding unnecessary, costly evaluations. We also measure the benefits of parallelizing the double dummy searches at the leaves of the $\alpha\mu$ search tree.
翻訳日:2021-02-01 16:24:26 公開日:2021-01-29
# (参考訳) NeMo: ロバスト3次元ポース推定のためのコントラスト特徴のニューラルネットワークモデル

NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose Estimation ( http://arxiv.org/abs/2101.12378v1 )

ライセンス: CC BY 4.0
Angtian Wang, Adam Kortylewski, Alan Yuille(参考訳) 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。 本研究では,3Dポーズ推定における標準的深層学習手法が,対象物が部分的に遮蔽されたり,以前見つからなかったポーズから見たりした場合,堅牢ではないことを示した。 生成的視覚モデルから部分閉塞へのロバスト性に着想を得て,物体の3次元生成表現とディープニューラルネットワークを,NeMoと呼ぶ統一ニューラルネットワークアーキテクチャに統合することを提案する。 特にnemoは、密集した3dメッシュ上の各頂点における神経特徴活性化の生成モデルを学ぶ。 微分可能レンダリングを用いて、NeMoとターゲット画像の特徴表現との再構成誤差を最小化することにより、3Dオブジェクトのポーズを推定する。 レコンストラクション損失の局所視認を避けるために,特徴抽出器を訓練し,メッシュ上の個々の特徴表現間の距離をコントラスト学習を用いて最大化する。 PASCAL3D+、Occluded-PASCAL3D+およびObjectNet3Dに関する広範な実験により、NeMoは通常のディープネットワークに比べて、部分閉塞に対してより堅牢であり、かつ、通常のデータ上での競合性能を維持しながら、目に見えないポーズを示す。 興味深いことに、私たちの実験では、メッシュ表現が真の物体ジオメトリを立方体で粗大に近似するだけであっても、NeMoが合理的にうまく機能することを示しており、正確な3Dポーズ推定には詳細な3Dジオメトリは必要ありません。 コードはhttps://github.com/Angtian/NeMoで公開されている。

3D pose estimation is a challenging but important task in computer vision. In this work, we show that standard deep learning approaches to 3D pose estimation are not robust when objects are partially occluded or viewed from a previously unseen pose. Inspired by the robustness of generative vision models to partial occlusion, we propose to integrate deep neural networks with 3D generative representations of objects into a unified neural architecture that we term NeMo. In particular, NeMo learns a generative model of neural feature activations at each vertex on a dense 3D mesh. Using differentiable rendering we estimate the 3D object pose by minimizing the reconstruction error between NeMo and the feature representation of the target image. To avoid local optima in the reconstruction loss, we train the feature extractor to maximize the distance between the individual feature representations on the mesh using contrastive learning. Our extensive experiments on PASCAL3D+, occluded-PASCAL3D+ and ObjectNet3D show that NeMo is much more robust to partial occlusion and unseen pose compared to standard deep networks, while retaining competitive performance on regular data. Interestingly, our experiments also show that NeMo performs reasonably well even when the mesh representation only crudely approximates the true object geometry with a cuboid, hence revealing that the detailed 3D geometry is not needed for accurate 3D pose estimation. The code is publicly available at https://github.com/Angtian/NeMo.
翻訳日:2021-02-01 16:14:10 公開日:2021-01-29
# (参考訳) 異常検出のための学習記憶誘導正規性

Re Learning Memory Guided Normality for Anomaly Detection ( http://arxiv.org/abs/2101.12382v1 )

ライセンス: CC BY 4.0
Kevin Stephen, Varun Menon(参考訳) 著者らは,新たに導入されたメモリモジュールを論文で活用する,教師なし異常検出の新しい手法を導入した。 筆者らは,ネットワークが先駆的なパターンを学習し,学習メモリを用いて畳み込みニューラルネットワークの表現能力を低減することで,パフォーマンスの向上に寄与すると主張する。 さらに,著者らが導入した2つの損失,分離性損失とコンパクト性損失の有効性を検証し,記憶項目の識別能力と深層学習機能の向上を図った。 記憶項目のt-SNEプロットの助けを借りて有効性を検証する。

The authors have introduced a novel method for unsupervised anomaly detection that utilises a newly introduced Memory Module in their paper. We validate the authors claim that this helps improve performance by helping the network learn prototypical patterns, and uses the learnt memory to reduce the representation capacity of Convolutional Neural Networks. Further, we validate the efficacy of two losses introduced by the authors, Separateness Loss and Compactness Loss presented to increase the discriminative power of the memory items and the deeply learned features. We test the efficacy with the help of t-SNE plots of the memory items.
翻訳日:2021-02-01 15:58:49 公開日:2021-01-29
# (参考訳) CNNのクラス・アグノスティックな特徴を可視化する「心の目」

The Mind's Eye: Visualizing Class-Agnostic Features of CNNs ( http://arxiv.org/abs/2101.12447v1 )

ライセンス: CC BY 4.0
Alexandros Stergiou(参考訳) Convolutional Neural Networks (CNNs) の視覚的な解釈可能性は、CNN の複雑さが内部の動作を理解することに課す大きな課題のために、大きな人気を得ています。 CNNのクラス特徴を視覚化するために多くの技術が提案されているが、そのほとんどが特定の層における入力と抽出した特徴との対応を提供していない。 これにより、各層がより反応する刺激の発見が防止される。 本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。 このクラスに依存しない方法で機能を探索することで、cnnの機能抽出に集中することができる。 本手法では,2目的の活性化最大化と距離最小化損失を発生器ネットワークや元のモデルへの修正を必要とせずに利用する。 これにより、FLOPの数は元のネットワークに制限される。 広く利用されているアーキテクチャの可視化品質を実証する。

Visual interpretability of Convolutional Neural Networks (CNNs) has gained significant popularity because of the great challenges that CNN complexity imposes to understanding their inner workings. Although many techniques have been proposed to visualize class features of CNNs, most of them do not provide a correspondence between inputs and the extracted features in specific layers. This prevents the discovery of stimuli that each layer responds better to. We propose an approach to visually interpret CNN features given a set of images by creating corresponding images that depict the most informative features of a specific layer. Exploring features in this class-agnostic manner allows for a greater focus on the feature extractor of CNNs. Our method uses a dual-objective activation maximization and distance minimization loss, without requiring a generator network nor modifications to the original model. This limits the number of FLOPs to that of the original network. We demonstrate the visualization quality on widely-used architectures.
翻訳日:2021-02-01 15:49:59 公開日:2021-01-29
# (参考訳) アダプティブ・リサイズによるUAVバードの目視物体検出におけるスケール不変性獲得

Gaining Scale Invariance in UAV Bird's Eye View Object Detection by Adaptive Resizing ( http://arxiv.org/abs/2101.12694v1 )

ライセンス: CC BY 4.0
Martin Messmer, Benjamin Kiefer, Andreas Zell(参考訳) 本研究では,UAV鳥の視線画像に適用可能な新しい前処理ステップを導入し,適応リサイズ(Adaptive Resizing)と呼ぶ。 これは、UAVデータセットに固有のオブジェクトのスケールの広大な分散を調整するために構築されている。 さらに、平均で4倍から5倍の推論速度を改善します。 私たちは、UAVDT、VisDrone、そして新しいデータセットでこれを広範囲にテストしました。 UAVDTでは,AP50では100%以上の相対的な改善が達成されている。 さらに、この方法が一般的なUAVオブジェクト検出タスクにどのように適用できるかを示す。 さらに,一定の高度で訓練し,異なる領域でテストを行うドメイン転送タスクにおいて,その手法をうまくテストできた。 コードは当社のウェブサイトで公開されます。

In this work, we introduce a new preprocessing step applicable to UAV bird's eye view imagery, which we call Adaptive Resizing. It is constructed to adjust the vast variances in objects' scales, which are naturally inherent to UAV data sets. Furthermore, it improves inference speed by four to five times on average. We test this extensively on UAVDT, VisDrone, and on a new data set, we captured ourselves. On UAVDT, we achieve more than 100 % relative improvement in AP50. Moreover, we show how this method can be applied to a general UAV object detection task. Additionally, we successfully test our method on a domain transfer task where we train on some interval of altitudes and test on a different one. Code will be made available at our website.
翻訳日:2021-02-01 15:41:39 公開日:2021-01-29
# (参考訳) ニューラルネットワーク翻訳のための遷移型グラフデコーダ

Transition based Graph Decoder for Neural Machine Translation ( http://arxiv.org/abs/2101.12640v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Omri Abend(参考訳) ソース側のシンボリックシンタクティック構造とセマンティック構造をニューラルネットワーク翻訳(NMT)に組み込むことで多くの成果が得られたが、そのような構造の復号化に対処した作品はほとんどなかった。 そこで我々は,Dyer (2016) による RNN を用いた同様の手法に着想を得た,木およびグラフのデコーディングのための汎用的なトランスフォーマーベースアプローチを提案する。 提案する英語・ドイツ語・ドイツ語・英語・ロシア語への普遍的依存構文を持つデコーダを用いた実験では、標準トランスフォーマーデコーダよりも性能が向上し、モデルのアブレーション版も改善されている。

While a number of works showed gains from incorporating source-side symbolic syntactic and semantic structure into neural machine translation (NMT), much fewer works addressed the decoding of such structure. We propose a general Transformer-based approach for tree and graph decoding based on generating a sequence of transitions, inspired by a similar approach that uses RNNs by Dyer (2016). Experiments with using the proposed decoder with Universal Dependencies syntax on English-German, German-English and English-Russian show improved performance over the standard Transformer decoder, as well as over ablated versions of the model.\tacltxt{\footnote{All code implementing the presented models will be released upon acceptance.
翻訳日:2021-02-01 15:34:19 公開日:2021-01-29
# (参考訳) BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge ( http://arxiv.org/abs/2101.12729v1 )

ライセンス: CC BY 4.0
Martin Kocour, Guillermo C\'ambara, Jordi Luque, David Bonet, Mireia Farr\'us, Martin Karafi\'at, Karel Vesel\'y and Jan ''Honza'' \^Cernock\'y(参考訳) 本論文では,BUTとTelef\'onica ResearchのAlbayzin 2020 Challengeのための自動音声認識システムの開発に関する共同作業について述べる。 ハイブリッドモデルまたはエンドツーエンドモデルに基づくアプローチを比較します。 ハイブリッドモデリングでは,仕様層が性能に与える影響について検討する。 エンドツーエンドモデリングでは,ゲート線形単位(GLU)を持つ畳み込みニューラルネットワークを用いた。 また, 単語誤り率を改善するため, 追加のn-gram言語モデルを用いて評価を行った。 さらに,雑音環境から音声を抽出する音源分離手法について検討する。 テレビ番組)。 より正確には、demucsという神経ベースの音楽分離器の使用の効果を評価する。 最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。 最終提出されたシステムで使用される技術とは別に、トレーニングのために高品質な書き起こしを検索する取り組みについても述べます。

This paper describes joint effort of BUT and Telef\'onica Research on development of Automatic Speech Recognition systems for Albayzin 2020 Challenge. We compare approaches based on either hybrid or end-to-end models. In hybrid modelling, we explore the impact of SpecAugment layer on performance. For end-to-end modelling, we used a convolutional neural network with gated linear units (GLUs). The performance of such model is also evaluated with an additional n-gram language model to improve word error rates. We further inspect source separation methods to extract speech from noisy environment (i.e. TV shows). More precisely, we assess the effect of using a neural-based music separator named Demucs. A fusion of our best systems achieved 23.33% WER in official Albayzin 2020 evaluations. Aside from techniques used in our final submitted systems, we also describe our efforts in retrieving high quality transcripts for training.
翻訳日:2021-02-01 15:16:19 公開日:2021-01-29
# (参考訳) 音声アシスタントにおけるモークアップワード検出のための音声強調

Speech Enhancement for Wake-Up-Word detection in Voice Assistants ( http://arxiv.org/abs/2101.12732v1 )

ライセンス: CC BY 4.0
David Bonet, Guillermo C\'ambara, Fernando L\'opez, Pablo G\'omez, Carlos Segura, Jordi Luque(参考訳) キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。 音声アシスタントの非常に一般的な問題は、音楽、テレビ、バックグラウンド音声などのバックグラウンドノイズによってアクティベートされ、デバイスが誤って起動してしまうことだ。 本稿では,これらのノイズの存在下での認識率の向上と誤報の低減を目的とした,WUW検出タスクに適応した音声強調(SE)モデルを提案する。 SEモデルは、波形レベルでの完全畳み込み復調自動エンコーダであり、単純なWUW分類ネットワークのBCE損失とともに、ログメルスペクトログラムおよび波形復元損失を使用して訓練される。 キーワードに非常に音素的に類似している負のサンプルを含む困難な条件でWUWを認識するタスクのために、新しいデータベースが意図的に準備されました。 データベースは、公開データベースと、さまざまなノイズや環境をシミュレートする徹底的なデータ拡張によって拡張される。 単純で最先端のWUW検出器とSEを結合することによって得られた結果は、SEとWUW検出器がエンドツーエンドで訓練されている場合に特に、ノイズの存在下でのパフォーマンスを高めながら、静的な環境における認識率にSEが負の影響を及ぼさないことを示しています。

Keyword spotting and in particular Wake-Up-Word (WUW) detection is a very important task for voice assistants. A very common issue of voice assistants is that they get easily activated by background noise like music, TV or background speech that accidentally triggers the device. In this paper, we propose a Speech Enhancement (SE) model adapted to the task of WUW detection that aims at increasing the recognition rate and reducing the false alarms in the presence of these types of noises. The SE model is a fully-convolutional denoising auto-encoder at waveform level and is trained using a log-Mel Spectrogram and waveform reconstruction losses together with the BCE loss of a simple WUW classification network. A new database has been purposely prepared for the task of recognizing the WUW in challenging conditions containing negative samples that are very phonetically similar to the keyword. The database is extended with public databases and an exhaustive data augmentation to simulate different noises and environments. The results obtained by concatenating the SE with a simple and state-of-the-art WUW detectors show that the SE does not have a negative impact on the recognition rate in quiet environments while increasing the performance in the presence of noise, especially when the SE and WUW detector are trained jointly end-to-end.
翻訳日:2021-02-01 15:06:00 公開日:2021-01-29
# (参考訳) 負の副作用を避けるための衝突正則化器の課題

Challenges for Using Impact Regularizers to Avoid Negative Side Effects ( http://arxiv.org/abs/2101.12509v1 )

ライセンス: CC BY-SA 4.0
David Lindner and Kyle Matoba and Alexander Meulemans(参考訳) 強化学習のための報酬関数の設計は困難であり、どの行動に報酬が与えられるかを指定する以外に、望ましくない結果も避けなければならない。 不特定の報酬関数は意図しない副作用や全体的な安全でない行動を引き起こす可能性がある。 この問題を克服するため,近年の研究では,環境に大きな影響を及ぼす行動を妨げる影響レギュレータによる報酬関数の強化が提案されている。 影響正則化器による最初の結果は、ある種の副作用を緩和する上で有望であるように思われるが、重要な課題は残る。 本稿では,インパクト・レギュラライザの主な課題を考察し,基本的な設計決定に関連付ける。 我々は,最近のアプローチが抱える課題と未解決の課題について詳細に議論する。 最後に、影響正則化器による負の副作用の防止における未解決課題を克服するための有望な方向を探る。

Designing reward functions for reinforcement learning is difficult: besides specifying which behavior is rewarded for a task, the reward also has to discourage undesired outcomes. Misspecified reward functions can lead to unintended negative side effects, and overall unsafe behavior. To overcome this problem, recent work proposed to augment the specified reward function with an impact regularizer that discourages behavior that has a big impact on the environment. Although initial results with impact regularizers seem promising in mitigating some types of side effects, important challenges remain. In this paper, we examine the main current challenges of impact regularizers and relate them to fundamental design decisions. We discuss in detail which challenges recent approaches address and which remain unsolved. Finally, we explore promising directions to overcome the unsolved challenges in preventing negative side effects with impact regularizers.
翻訳日:2021-02-01 14:54:43 公開日:2021-01-29
# (参考訳) マルチタイプリソース割り当てのシーケンシャルなメカニズム

Sequential Mechanisms for Multi-type Resource Allocation ( http://arxiv.org/abs/2101.12522v1 )

ライセンス: CC BY 4.0
Sujoy Sikdar, Xiaoxi Guo, Haibin Wang, Lirong Xia, Yongzhi Cao(参考訳) リソース割り当ての問題には、複数のタイプのリソースが関係しており、各タイプのリソースを「ローカル」に割り当てる異なるエージェンシーが責任を持ち、中央プランナーは、与えられたエージェントの好みに応じて最終的なリソース割り当ての特性を保証することを望んでいる。 本研究では, 局所メカニズムの特性, 指定されたタイプの資源を割り当てる責任, およびこれらの局所メカニズムから構成されるシーケンシャルメカニズムの特性の関係を, 語彙的嗜好の下で順次適用し, 人工知能と経済学における複数の資源に対する嗜好のモデルとしてよく研究した。 選好がO-legalである場合、エージェントがそれらのタイプに対して共通の重要順序を共有する場合、各ローカルメカニズムが同じ性質を満たす場合に限り、シーケンシャルメカニズムが匿名性、中立性、非ボッシー性、パレート最適化の望ましい特性を満たすことを示し、順序Oに応じて順次適用される。 我々の主な結果は, o-legal lexicographic preferences では, 戦略的安全性とそれらの組み合わせを満足するすべてのメカニズムは, 戦略的安全性を兼ね備えた局所的機構の逐次構成であり, 同じ特性の組み合わせを満足しなければならない。

Several resource allocation problems involve multiple types of resources, with a different agency being responsible for "locally" allocating the resources of each type, while a central planner wishes to provide a guarantee on the properties of the final allocation given agents' preferences. We study the relationship between properties of the local mechanisms, each responsible for assigning all of the resources of a designated type, and the properties of a sequential mechanism which is composed of these local mechanisms, one for each type, applied sequentially, under lexicographic preferences, a well studied model of preferences over multiple types of resources in artificial intelligence and economics. We show that when preferences are O-legal, meaning that agents share a common importance order on the types, sequential mechanisms satisfy the desirable properties of anonymity, neutrality, non-bossiness, or Pareto-optimality if and only if every local mechanism also satisfies the same property, and they are applied sequentially according to the order O. Our main results are that under O-legal lexicographic preferences, every mechanism satisfying strategyproofness and a combination of these properties must be a sequential composition of local mechanisms that are also strategyproof, and satisfy the same combinations of properties.
翻訳日:2021-02-01 14:42:09 公開日:2021-01-29
# (参考訳) 確率的プログラムのための帰納的合成

Inductive Synthesis for Probabilistic Programs Reaches New Horizons ( http://arxiv.org/abs/2101.12683v1 )

ライセンス: CC BY 4.0
Roman Andriushchenko, Milan Ceska, Sebastian Junges, Joost-Pieter Katoen(参考訳) 本稿では,確率的プログラムの自動合成手法を提案する。 開始点は、関連するが明確な位相を持つ有限状態マルコフ鎖の有限族を表すプログラムスケッチと、PCTL仕様である。 この方法は、プログラムに違反するための反例(CE)を熱心に生成し、それらを家族をプルーニングするために使用する新しい誘導性オラクルの上に構築される。 これらの CE は、MDP 抽象化を使用して導関数によって提供される最良および最悪の振る舞いの境界という形で、家族のセマンティクスを活用します。 さらに、合成性能を監視し、インダクティブ推論とインダクティブ推論を適応的に切り替える。 実験により,新しいCE構造はより高速で効率的なプルーニング戦略を提供し,幅広いベンチマーク上での合成プロセスの高速化につながることが示された。 分散化された部分観測可能なコントローラの合成など,困難な問題に対して,実行時間を1日から数分に短縮する。

This paper presents a novel method for the automated synthesis of probabilistic programs. The starting point is a program sketch representing a finite family of finite-state Markov chains with related but distinct topologies, and a PCTL specification. The method builds on a novel inductive oracle that greedily generates counter-examples (CEs) for violating programs and uses them to prune the family. These CEs leverage the semantics of the family in the form of bounds on its best- and worst-case behaviour provided by a deductive oracle using an MDP abstraction. The method further monitors the performance of the synthesis and adaptively switches between the inductive and deductive reasoning. Our experiments demonstrate that the novel CE construction provides a significantly faster and more effective pruning strategy leading to acceleration of the synthesis process on a wide range of benchmarks. For challenging problems, such as the synthesis of decentralized partially-observable controllers, we reduce the run-time from a day to minutes.
翻訳日:2021-02-01 14:02:49 公開日:2021-01-29
# (参考訳) 生成的深層学習による強化学習エージェントの実態説明

Counterfactual State Explanations for Reinforcement Learning Agents via Generative Deep Learning ( http://arxiv.org/abs/2101.12446v1 )

ライセンス: CC BY 4.0
Matthew L. Olson, Roli Khanna, Lawrence Neal, Fuxin Li, Weng-Keen Wong(参考訳) 反事実的な説明、それは"なぜではないのか?"を扱う。 シナリオは、AIエージェントの行動に洞察力のある説明を提供することができます。 本研究では,Atari のような視覚入力環境で動作する深層強化学習(RL)エージェントの非現実的説明の生成に焦点を当てる。 生成的深層学習に基づく非現実的説明に対する新しい例に基づくアプローチである反実状態説明について紹介する。 具体的には、反事実状態は、エージェントが異なるアクションを選択するようにatariゲームイメージに必要最小限の変更を示す。 また,機械学習の専門家でない人に対する反事実状態の有効性についても検討した。 第1回ユーザスタディでは,実際のゲームによって,あるいは生成的な深層学習アプローチによって,逆実状態の説明が生成されるかどうか,人間が識別できるかどうかを調査した。 第2のユーザスタディでは、非専門家が欠陥のあるエージェントを識別する上で、偽造状態の説明が有効かどうかを調査し、実際のゲームからの画像を用いた近隣の説明に基づくベースラインのアプローチと比較した。 以上の結果から,非専門家が欠陥のあるrlエージェントをより効果的に識別し,説明を全く持たないように,反事実的状態説明は実際のゲーム画像に十分な忠実性を有することが示唆された。

Counterfactual explanations, which deal with "why not?" scenarios, can provide insightful explanations to an AI agent's behavior. In this work, we focus on generating counterfactual explanations for deep reinforcement learning (RL) agents which operate in visual input environments like Atari. We introduce counterfactual state explanations, a novel example-based approach to counterfactual explanations based on generative deep learning. Specifically, a counterfactual state illustrates what minimal change is needed to an Atari game image such that the agent chooses a different action. We also evaluate the effectiveness of counterfactual states on human participants who are not machine learning experts. Our first user study investigates if humans can discern if the counterfactual state explanations are produced by the actual game or produced by a generative deep learning approach. Our second user study investigates if counterfactual state explanations can help non-expert participants identify a flawed agent; we compare against a baseline approach based on a nearest neighbor explanation which uses images from the actual game. Our results indicate that counterfactual state explanations have sufficient fidelity to the actual game images to enable non-experts to more effectively identify a flawed RL agent compared to the nearest neighbor baseline and to having no explanation at all.
翻訳日:2021-02-01 13:41:17 公開日:2021-01-29
# (参考訳) 生成モデルによるナノロボット形状の予測

Predicting Nanorobot Shapes via Generative Models ( http://arxiv.org/abs/2101.12719v1 )

ライセンス: CC BY-SA 4.0
Emma Benjaminson (1), Rebecca E. Taylor (1,2,3), Matthew Travers (4) ((1) Mechanical Engineering, Carnegie Mellon University, Pittsburgh, PA, (2) Biomedical Engineering, Carnegie Mellon University, Pittsburgh, PA, (3) Electrical and Computer Engineering, Carnegie Mellon University, Pittsburgh PA, (4) Robotics Institute, Carnegie Mellon University, Pittsburgh, PA)(参考訳) dnaナノテクノロジーの分野は、高い収率で、作用可能な特性を持つ異なる構造を組み立てることを可能にした。 例えば、研究者はアクティベート可能なコンポーネントを作成しました。 刺激的な次のステップは、これらのコンポーネントを多機能ナノロボットに組み合わせ、人体のターゲット場所に泳ぐなどの複雑なタスクを実行し、有害反応を検出し、その後、薬物負荷を解放して停止させることです。 しかし、より複雑なナノロボットを組み立て始めると、望まれるナノロボットの収量は、コンポーネントの組み合わせの数が増えるにつれて減少し始める。 したがって、この研究の最終的な目標は、収率を最大化する予測モデルを開発することである。 しかし、予測モデルのトレーニングは通常、大きなデータセットを必要とする。 私たちが組み立てに興味があるナノロボットにとって、これは収集が難しいでしょう。 これは、個々の構造の形状と大きさを特徴付ける高忠実度データが収集に非常に時間がかかるのに対して、低忠実度データは容易に入手できるが、異なるプロセスのバルク統計しか取得できないためである。 そこで本研究では,低忠実度データと高忠実度データを組み合わせて,二段階プロセスを用いて生成モデルを訓練する。 まず、比較的小さな高忠実度データセットを使用して、生成モデルをトレーニングします。 実行時、モデルは低忠実度データを取り込み、高忠実度コンテンツの近似に使用する。 低忠実度データで測定した特定の特性のサンプルに対してモデルに偏りを与えることでこれを行う。 この研究では、我々は最終的にこの研究が焦点を合わせるナノロボットの代理表現として取るグラフィカルモデルの所望のノード程度に私たちの分布をバイアスします。 我々はまだナノロボットの忠実度の高いデータセットを蓄積していないので、molgan architecture [1] と qm9 small molecule dataset [2-3] を利用してアプローチを実証している。

The field of DNA nanotechnology has made it possible to assemble, with high yields, different structures that have actionable properties. For example, researchers have created components that can be actuated. An exciting next step is to combine these components into multifunctional nanorobots that could, potentially, perform complex tasks like swimming to a target location in the human body, detect an adverse reaction and then release a drug load to stop it. However, as we start to assemble more complex nanorobots, the yield of the desired nanorobot begins to decrease as the number of possible component combinations increases. Therefore, the ultimate goal of this work is to develop a predictive model to maximize yield. However, training predictive models typically requires a large dataset. For the nanorobots we are interested in assembling, this will be difficult to collect. This is because high-fidelity data, which allows us to characterize the shape and size of individual structures, is very time-consuming to collect, whereas low-fidelity data is readily available but only captures bulk statistics for different processes. Therefore, this work combines low- and high-fidelity data to train a generative model using a two-step process. We first use a relatively small, high-fidelity dataset to train a generative model. At run time, the model takes low-fidelity data and uses it to approximate the high-fidelity content. We do this by biasing the model towards samples with specific properties as measured by low-fidelity data. In this work we bias our distribution towards a desired node degree of a graphical model that we take as a surrogate representation of the nanorobots that this work will ultimately focus on. We have not yet accumulated a high-fidelity dataset of nanorobots, so we leverage the MolGAN architecture [1] and the QM9 small molecule dataset [2-3] to demonstrate our approach.
翻訳日:2021-02-01 13:40:12 公開日:2021-01-29
# (参考訳) uavからのオブジェクト検出にドメインラベルを活用する

Leveraging domain labels for object detection from UAVs ( http://arxiv.org/abs/2101.12677v1 )

ライセンス: CC BY 4.0
Benjamin Kiefer, Martin Messmer, Andreas Zell(参考訳) 無人航空機(UAV)からの物体検出は、多くの航空ビジョンベースのアプリケーションで非常に重要です。 汎用物体検出法は非常に成功したが、UAVが捉えた画像に適用すると大きな性能低下が観測される。 これは、高度の変化、視野角の動的変化、撮影時間の違いなど、撮像条件のバリエーションが大きいためである。 ドメイン知識は貴重な情報源であり,自由にアクセス可能なセンサデータを用いて,ドメイン認識対象検出器を提案する。 モデルをクロスドメインとドメイン固有の部分に分割することで、複数のモデルとメトリクスにわたる複数のデータセットで大幅なパフォーマンス改善が達成される。 特に,実時間検出器用UAVDTの最先端性能について述べる。 さらに,高度と視野角のアノテーションを特徴とする2900画像に13個の713個の物体を注釈付けして,新たな空中画像データセットを作成する。

Object detection from Unmanned Aerial Vehicles (UAVs) is of great importance in many aerial vision-based applications. Despite the great success of generic object detection methods, a large performance drop is observed when applied to images captured by UAVs. This is due to large variations in imaging conditions, such as varying altitudes, dynamically changing viewing angles, and different capture times. We demonstrate that domain knowledge is a valuable source of information and thus propose domain-aware object detectors by using freely accessible sensor data. By splitting the model into cross-domain and domain-specific parts, substantial performance improvements are achieved on multiple datasets across multiple models and metrics. In particular, we achieve a new state-of-the-art performance on UAVDT for real-time detectors. Furthermore, we create a new airborne image dataset by annotating 13 713 objects in 2 900 images featuring precise altitude and viewing angle annotations.
翻訳日:2021-02-01 13:30:02 公開日:2021-01-29
# (参考訳) グラフ畳み込みネットワークによる汎用OCRパラグラフの同定

General-Purpose OCR Paragraph Identification by Graph Convolution Networks ( http://arxiv.org/abs/2101.12741v1 )

ライセンス: CC BY 4.0
Renshen Wang, Yasuhisa Fujii and Ashok C. Popat(参考訳) パラグラフはドキュメントエンティティの重要なクラスです。 OCRテキストボックスに適用した空間グラフ畳み込みネットワーク(GCN)による段落識別のための新しい手法を提案する。 行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。 各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。 純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3〜4桁小さく、PubLayNetや他のデータセットで同等以上の精度を達成しています。 さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。

Paragraphs are an important class of document entities. We propose a new approach for paragraph identification by spatial graph convolution networks (GCN) applied on OCR text boxes. Two steps, namely line splitting and line clustering, are performed to extract paragraphs from the lines in OCR results. Each step uses a beta-skeleton graph constructed from bounding boxes, where the graph edges provide efficient support for graph convolution operations. With only pure layout input features, the GCN model size is 3~4 orders of magnitude smaller compared to R-CNN based models, while achieving comparable or better accuracies on PubLayNet and other datasets. Furthermore, the GCN models show good generalization from synthetic training data to real-world images, and good adaptivity for variable document styles.
翻訳日:2021-02-01 13:21:04 公開日:2021-01-29
# (参考訳) スパースグラフィカルモデルにおけるツリーベースのノード集約

Tree-based Node Aggregation in Sparse Graphical Models ( http://arxiv.org/abs/2101.12503v1 )

ライセンス: CC BY 4.0
Ines Wilms and Jacob Bien(参考訳) 高次元グラフィカルモデルはしばしば、ネットワーク内のエッジ数を減らすことを目的とした正規化を用いて推定される。 本研究では,グラフィカルモデルのノードを集約することで,より単純なネットワークを生成できることを示す。 木集合型グラフィカルラッソやタグラッソと呼ばれる新しい凸正規化手法を開発し、エッジスパースとノード集約の両方のグラフィカルモデルを推定する。 集約は、ノードの類似性をエンコードし、結果の集約ノードの解釈を容易にするツリーの形式でサイド情報を活用することで、データ駆動の方法で実行される。 本稿では,乗算器の局所適応交互方向法を用いてタグラッソの効率的な実装を行い,シミュレーションや金融・生物学における応用において,提案手法の実用的利点を示す。

High-dimensional graphical models are often estimated using regularization that is aimed at reducing the number of edges in a network. In this work, we show how even simpler networks can be produced by aggregating the nodes of the graphical model. We develop a new convex regularized method, called the tree-aggregated graphical lasso or tag-lasso, that estimates graphical models that are both edge-sparse and node-aggregated. The aggregation is performed in a data-driven fashion by leveraging side information in the form of a tree that encodes node similarity and facilitates the interpretation of the resulting aggregated nodes. We provide an efficient implementation of the tag-lasso by using the locally adaptive alternating direction method of multipliers and illustrate our proposal's practical advantages in simulation and in applications in finance and biology.
翻訳日:2021-02-01 13:00:23 公開日:2021-01-29
# 言語モデルに言語構造を注入することは、脳の記録との整合性を改善するか?

Does injecting linguistic structure into language models lead to better alignment with brain recordings? ( http://arxiv.org/abs/2101.12608v1 )

ライセンス: Link先を確認
Mostafa Abdou, Ana Valeria Gonzalez, Mariya Toneva, Daniel Hershcovich, Anders S{\o}gaard(参考訳) 神経科学者は、自然言語処理のためのディープニューラルネットワークを、脳内で言語がどのように処理されるかの候補モデルとして評価する。 これらのモデルは、しばしば明示的な言語的監督なしで訓練されるが、そのような監督なしで言語構造を学ぶことが示されており(manning et al., 2020)、そのような認知過程のモデリングにおける記号的言語理論の関連性に疑問を投げかける可能性がある(warstadt and bowman, 2020)。 2つのfMRIデータセットで、言語モデルが脳の記録とよく一致しているかどうかを評価します。 依存関係からの構造化や最小限の再帰セマンティックアノテーションを用いることで、データセットの1つに対してアライメントが大幅に改善される。 別のデータセットでは、より複雑な結果が得られます。 これらの結果を広範囲に分析する。 提案手法は,脳内の意味の組成に関するより標的的な仮説の評価を可能にし,神経科学者が行う可能性のある科学的推論の範囲を広げ,計算神経科学と言語学の交差する新たな機会を開放する。

Neuroscientists evaluate deep neural networks for natural language processing as possible candidate models for how language is processed in the brain. These models are often trained without explicit linguistic supervision, but have been shown to learn some linguistic structure in the absence of such supervision (Manning et al., 2020), potentially questioning the relevance of symbolic linguistic theories in modeling such cognitive processes (Warstadt and Bowman, 2020). We evaluate across two fMRI datasets whether language models align better with brain recordings, if their attention is biased by annotations from syntactic or semantic formalisms. Using structure from dependency or minimal recursion semantic annotations, we find alignments improve significantly for one of the datasets. For another dataset, we see more mixed results. We present an extensive analysis of these results. Our proposed approach enables the evaluation of more targeted hypotheses about the composition of meaning in the brain, expanding the range of possible scientific inferences a neuroscientist could make, and opens up new opportunities for cross-pollination between computational neuroscience and linguistics.
翻訳日:2021-02-01 12:59:30 公開日:2021-01-29
# 低ランク予測

Low Rank Forecasting ( http://arxiv.org/abs/2101.12414v1 )

ライセンス: Link先を確認
Shane Barratt, Yining Dong, Stephen Boyd(参考訳) ベクトル時系列の将来について,過去の値を用いて複数の値を予測する問題を考える。 この問題、およびワンステップ予測のような関連するものは、非常に長い歴史を持ち、ベクトル自己回帰モデル、状態空間法、マルチタスク回帰などを含む、そのための多くのよく知られた方法があります。 我々の焦点は、予測を2つのステップに分割する低ランクの予測器である。これは、過去を仮定して潜在状態と解釈できるベクトルを推定し、潜在状態の推定を仮定して時系列の将来の値を推定する。 予測整合性の概念を導入する。これは,異なるタイミングで同じ値の推定値が一貫したことを意味する。 予測問題を一般的な形で定式化し、線形予測器に注目し、凸最適化により解くことができる定式化を提案します。 本稿では,非線形予測,データ重み付け,補助データの導入,目的語の追加など,多くの拡張とバリエーションについて述べる。 いくつかの例を例に紹介する。

We consider the problem of forecasting multiple values of the future of a vector time series, using some past values. This problem, and related ones such as one-step-ahead prediction, have a very long history, and there are a number of well-known methods for it, including vector auto-regressive models, state-space methods, multi-task regression, and others. Our focus is on low rank forecasters, which break forecasting up into two steps: estimating a vector that can be interpreted as a latent state, given the past, and then estimating the future values of the time series, given the latent state estimate. We introduce the concept of forecast consistency, which means that the estimates of the same value made at different times are consistent. We formulate the forecasting problem in general form, and focus on linear forecasters, for which we propose a formulation that can be solved via convex optimization. We describe a number of extensions and variations, including nonlinear forecasters, data weighting, the inclusion of auxiliary data, and additional objective terms. We illustrate our methods with several examples.
翻訳日:2021-02-01 12:58:47 公開日:2021-01-29
# 凸最適化による共分散予測

Covariance Prediction via Convex Optimization ( http://arxiv.org/abs/2101.12416v1 )

ライセンス: Link先を確認
Shane Barratt and Stephen Boyd(参考訳) 我々は、別の特徴ベクトルに基づいて、ゼロ平均ガウスベクトルの共分散を予測する問題を考える。 一般化線形モデル、すなわち特徴のアフィン関数の形式を持つ共分散予測子を、ベクトルを対称正有限行列に写す逆リンク関数として記述する。 log-likelihoodは予測パラメータの凹関数であるため、予測パラメータの適合には凸最適化が伴う。 このような予測器を他のものと組み合わせたり、あるいは性能を改善するために再帰的に適用することができる。

We consider the problem of predicting the covariance of a zero mean Gaussian vector, based on another feature vector. We describe a covariance predictor that has the form of a generalized linear model, i.e., an affine function of the features followed by an inverse link function that maps vectors to symmetric positive definite matrices. The log-likelihood is a concave function of the predictor parameters, so fitting the predictor involves convex optimization. Such predictors can be combined with others, or recursively applied to improve performance.
翻訳日:2021-02-01 12:58:10 公開日:2021-01-29
# MRIにおけるマルチモーダル脳腫瘍セグメンテーションのためのマルチThreshold Attention U-Net(MTAU)モデル

Multi-Threshold Attention U-Net (MTAU) based Model for Multimodal Brain Tumor Segmentation in MRI scans ( http://arxiv.org/abs/2101.12404v1 )

ライセンス: Link先を確認
Navchetan Awasthi, Rohit Pardasani and Swati Gupta(参考訳) グリオーマは最も頻度の高い脳腫瘍の1つで、中等度と低等級のグリオーマに分類される。 腫瘍中心、増強腫瘍等のようなさまざまな地域のセグメンテーション。 重症度と予後を決定する上で重要な役割を果たす。 本研究では、MRI(MRI)における腫瘍の様々な領域の同定のための注意U-Netに基づくマルチスレッショルドモデルを開発した。 マルチパスセグメンテーションを提案し,関心領域の異なる3つのモデルを構築した。 提案モデルでは, 訓練データセットにおいて, 腫瘍, 全腫瘍, 腫瘍コアをそれぞれ0.59, 0.72, 0.61で向上させることができた。 同じモデルは、検証データセットでは平均サイス係数 0.57, 0.73, 0.61 であり、テストデータセットでは 0.59, 0.72, 0.57 である。

Gliomas are one of the most frequent brain tumors and are classified into high grade and low grade gliomas. The segmentation of various regions such as tumor core, enhancing tumor etc. plays an important role in determining severity and prognosis. Here, we have developed a multi-threshold model based on attention U-Net for identification of various regions of the tumor in magnetic resonance imaging (MRI). We propose a multi-path segmentation and built three separate models for the different regions of interest. The proposed model achieved mean Dice Coefficient of 0.59, 0.72, and 0.61 for enhancing tumor, whole tumor and tumor core respectively on the training dataset. The same model gave mean Dice Coefficient of 0.57, 0.73, and 0.61 on the validation dataset and 0.59, 0.72, and 0.57 on the test dataset.
翻訳日:2021-02-01 12:57:41 公開日:2021-01-29
# RGB-D定常物体検出のための自己監督表現学習

Self-Supervised Representation Learning for RGB-D Salient Object Detection ( http://arxiv.org/abs/2101.12482v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Xiang Ruan(参考訳) 既存の CNN ベースの RGB-D Salient Object Detection (SOD) ネットワークは、全て ImageNet で事前トレーニングされ、優れた初期化を提供するのに役立つ階層機能を学ぶ必要がある。 しかし、大規模なデータセットの収集とアノテーションは時間がかかり、高価です。 本論文では,Self-Supervised Representation Learning (SSL) を用いて,クロスモーダルオートエンコーダと深度コントール推定の2つのプリテキストタスクを設計する。 我々のプレテキストタスクは、事前トレーニングを行うために少数のラベル付きRGB-Dデータセットのみを必要とするため、ネットワークがリッチなセマンティックコンテキストをキャプチャし、2つのモード間のギャップを減らし、ダウンストリームタスクに効果的な初期化を提供する。 また、RGB-D SODにおけるクロスモーダル融合の固有の問題として、単一の特徴融合をマルチパス融合に分割し、一貫性と差分情報の適切な認識を実現するマルチパス融合(MPF)モジュールを提案する。 MPFモジュールは汎用的で、クロスモーダルおよびクロスレベルな特徴融合に適している。 6つのベンチマークRGB-D SODデータセットに関する広範な実験、RGB-Dデータセットで事前トレーニングされたモデル(アノテーションなしで6,335$)は、ImageNetで事前トレーニングされた最先端のRGB-Dメソッド(画像レベルのアノテーションで1,280,000$)に対して有利に実行できます。

Existing CNNs-Based RGB-D Salient Object Detection (SOD) networks are all required to be pre-trained on the ImageNet to learn the hierarchy features which can help to provide a good initialization. However, the collection and annotation of large-scale datasets are time-consuming and expensive. In this paper, we utilize Self-Supervised Representation Learning (SSL) to design two pretext tasks: the cross-modal auto-encoder and the depth-contour estimation. Our pretext tasks require only a few and unlabeled RGB-D datasets to perform pre-training, which make the network capture rich semantic contexts as well as reduce the gap between two modalities, thereby providing an effective initialization for the downstream task. In addition, for the inherent problem of cross-modal fusion in RGB-D SOD, we propose a multi-path fusion (MPF) module that splits a single feature fusion into multi-path fusion to achieve an adequate perception of consistent and differential information. The MPF module is general and suitable for both cross-modal and cross-level feature fusion. Extensive experiments on six benchmark RGB-D SOD datasets, our model pre-trained on the RGB-D dataset ($6,335$ without any annotations) can perform favorably against most state-of-the-art RGB-D methods pre-trained on ImageNet ($1,280,000$ with image-level annotations).
翻訳日:2021-02-01 12:57:06 公開日:2021-01-29
# 個人再識別における非監視ドメイン適応のための補完的擬似ラベル

Complementary Pseudo Labels For Unsupervised Domain Adaptation On Person Re-identification ( http://arxiv.org/abs/2101.12521v1 )

ライセンス: Link先を確認
Hao Feng, Minghao Chen, Jinming Hu, Dong Shen, Haifeng Liu, Deng Cai(参考訳) 近年、教師付き人物再識別(re-ID)モデルの研究が増えている。 しかし、ソースドメインでトレーニングされたこれらのモデルは、見当たらないドメインでテストする場合、常に劇的なパフォーマンス低下に苦しむ。 既存の手法は、この問題を軽減するために擬似ラベルを使用するのが主な方法である。 最も成功したアプローチの1つは、各ラベルのない画像の隣人を予測し、モデルをトレーニングするためにそれらを使用します。 予測された隣人は信頼できるが、彼らは常に堅い正のサンプルを見逃すため、モデルがラベルなし領域の重要な識別情報を発見できない可能性がある。 本稿では,これらの低リコール近傍擬似ラベルを補完するために,高精度な隣接擬似ラベルと高リコールグループ擬似ラベルを用いて,より優れた特徴埋め込みを学ぶための共同学習フレームワークを提案する。 グループ擬似ラベルは、異なるサンプルの隣人をグループに推移的にマージして高いリコールを達成することによって生成される。 しかし、合併操作は、不完全な隣接予測のためにグループ内のサブグループを引き起こす可能性がある。 グループ擬似ラベルを適切に活用するために,類似度集約損失を用いて,入力サンプルを最も類似した埋め込みへ引き出すことにより,サブグループの影響を緩和する。 3つの大規模データセットに関する広範な実験は、監視されていないドメイン適応再ID設定の下で最新のパフォーマンスを達成できることを示しています。

In recent years, supervised person re-identification (re-ID) models have received increasing studies. However, these models trained on the source domain always suffer dramatic performance drop when tested on an unseen domain. Existing methods are primary to use pseudo labels to alleviate this problem. One of the most successful approaches predicts neighbors of each unlabeled image and then uses them to train the model. Although the predicted neighbors are credible, they always miss some hard positive samples, which may hinder the model from discovering important discriminative information of the unlabeled domain. In this paper, to complement these low recall neighbor pseudo labels, we propose a joint learning framework to learn better feature embeddings via high precision neighbor pseudo labels and high recall group pseudo labels. The group pseudo labels are generated by transitively merging neighbors of different samples into a group to achieve higher recall. However, the merging operation may cause subgroups in the group due to imperfect neighbor predictions. To utilize these group pseudo labels properly, we propose using a similarity-aggregating loss to mitigate the influence of these subgroups by pulling the input sample towards the most similar embeddings. Extensive experiments on three large-scale datasets demonstrate that our method can achieve state-of-the-art performance under the unsupervised domain adaptation re-ID setting.
翻訳日:2021-02-01 12:56:22 公開日:2021-01-29
# 道路物体検出のための少数ショット学習

Few-Shot Learning for Road Object Detection ( http://arxiv.org/abs/2101.12543v1 )

ライセンス: Link先を確認
Anay Majee and Kshitij Agrawal and Anbumani Subramanian(参考訳) 少ないショット学習は、ディープラーニングの進化に高い関心を持つ問題である。 本研究では,実世界のクラス不均衡シナリオにおいて,少数ショット物体検出(fsod)の問題を考える。 実験では,インド運転データセット(india driving dataset, idd)を用いて,画像データセットに未使用の道路オブジェクトのクラスを格納し,少数ショット学習に適したセットアップを提供する。 i)道路画像の文脈で学習するモデルの能力を評価するIDDから分離する代表(同じドメイン)と、(ii)現実世界のオープンセット設定に類似したより少ないオブジェクトサンプルを持つオブジェクトクラスという2つの実験設定で、メトリクス学習とメタラーニングベースのFSODメソッドの両方を評価します。 i)11.2 mAP ポイントと (ii) 1.0 mAP ポイントのオープン・セットにより, メトリック・ラーニング法が新規クラスにおけるメタ・ラーニングを上回ることを実証した。 また、実世界のオープンデータセットにおけるオブジェクトクラスの拡張は、数ショットの学習研究に豊かな基盤を提供することを示す。

Few-shot learning is a problem of high interest in the evolution of deep learning. In this work, we consider the problem of few-shot object detection (FSOD) in a real-world, class-imbalanced scenario. For our experiments, we utilize the India Driving Dataset (IDD), as it includes a class of less-occurring road objects in the image dataset and hence provides a setup suitable for few-shot learning. We evaluate both metric-learning and meta-learning based FSOD methods, in two experimental settings: (i) representative (same-domain) splits from IDD, that evaluates the ability of a model to learn in the context of road images, and (ii) object classes with less-occurring object samples, similar to the open-set setting in real-world. From our experiments, we demonstrate that the metric-learning method outperforms meta-learning on the novel classes by (i) 11.2 mAP points on the same domain, and (ii) 1.0 mAP point on the open-set. We also show that our extension of object classes in a real-world open dataset offers a rich ground for few-shot learning studies.
翻訳日:2021-02-01 12:55:40 公開日:2021-01-29
# ニューラルインシシシト表現の一般化に向けて

Towards Generalising Neural Implicit Representations ( http://arxiv.org/abs/2101.12690v1 )

ライセンス: Link先を確認
Theo W. Costain, Victor Adrian Prisacariu(参考訳) ニューラルな暗黙表現は、従来のフォーマットと比較して、3Dデータを効率的に保存する上で大幅に改善されている。 しかし、既存の作業の焦点は、主に保管とその後の再建である。 本研究は, 従来のタスクと並んで, 従来のタスクに比較して, 従来のタスクに対して改善された結果を提供しつつ, 単一タスクのトレーニングと同等の品質の再構築を許容する, より一般的なエンコーディングを実現できることを論じるものである。 再構成,分類,セグメンテーションに関するマルチタスク実験を通じて,提案手法は,タスクごとに高品質な結果をもたらす機能豊富なエンコーディングを学習する。 またセグメンテーションタスクを再構築し、暗黙の表現コンテキストに対するより代表的な課題を創出する。

Neural implicit representations have shown substantial improvements in efficiently storing 3D data, when compared to conventional formats. However, the focus of existing work has mainly been on storage and subsequent reconstruction. In this work, we argue that training neural representations for both reconstruction tasks, alongside conventional tasks, can produce more general encodings that admit equal quality reconstructions to single task training, whilst providing improved results on conventional tasks when compared to single task encodings. Through multi-task experiments on reconstruction, classification, and segmentation our approach learns feature rich encodings that produce high quality results for each task. We also reformulate the segmentation task, creating a more representative challenge for implicit representation contexts.
翻訳日:2021-02-01 12:54:59 公開日:2021-01-29
# 誰のための公平? テキスト要約における読者の公平性認識の理解

Fairness for Whom? Understanding the Reader's Perception of Fairness in Text Summarization ( http://arxiv.org/abs/2101.12406v1 )

ライセンス: Link先を確認
Anurag Shandilya, Abhisek Dash, Abhijnan Chakraborty, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) ユーザが生成するテキスト情報の増加に伴い、近年、広範囲なコンテンツの概要を提供するための要約アルゴリズムの利用が増加している。 これらのアルゴリズムを評価するための伝統的なメトリクス(例) ROUGEスコア)は、アルゴリズムの要約と人間生成の要約を一致させることに頼っている。 しかし、テキストの内容が異質である場合、例えば、異なる社会的に有能なグループから来る場合、既存の要約アルゴリズムのほとんどは、元のデータにおける分布と非常に異なる社会集団を表すことが示されている。 このような悪影響を軽減するため、公正保存要約アルゴリズムも提案されている。 これらの研究のすべては、内容の作家の視点から公正の規範的な概念を検討し、根底にある公平性の概念に対する読者の認識を無視しています。 このギャップを埋めるため,本研究では,フェアネス概念と読者がテキスト要約でどのように認識するかを考察する。 実験により,読者の公平感は文脈に敏感な場合が多いことを示した。 さらに、標準的なROUGE評価指標は、要約の知覚的(不公平)性を定量化できない。 そこで本研究では,テキスト要約における知覚バイアスを定量化するための,ループ内人間メトリックとグラフベースの自動手法を提案する。 我々は,不均質な社会-政治的マイクロブログデータセットのいくつかの要約(un)を定量化し,その有用性を示す。

With the surge in user-generated textual information, there has been a recent increase in the use of summarization algorithms for providing an overview of the extensive content. Traditional metrics for evaluation of these algorithms (e.g. ROUGE scores) rely on matching algorithmic summaries to human-generated ones. However, it has been shown that when the textual contents are heterogeneous, e.g., when they come from different socially salient groups, most existing summarization algorithms represent the social groups very differently compared to their distribution in the original data. To mitigate such adverse impacts, some fairness-preserving summarization algorithms have also been proposed. All of these studies have considered normative notions of fairness from the perspective of writers of the contents, neglecting the readers' perceptions of the underlying fairness notions. To bridge this gap, in this work, we study the interplay between the fairness notions and how readers perceive them in textual summaries. Through our experiments, we show that reader's perception of fairness is often context-sensitive. Moreover, standard ROUGE evaluation metrics are unable to quantify the perceived (un)fairness of the summaries. To this end, we propose a human-in-the-loop metric and an automated graph-based methodology to quantify the perceived bias in textual summaries. We demonstrate their utility by quantifying the (un)fairness of several summaries of heterogeneous socio-political microblog datasets.
翻訳日:2021-02-01 12:54:26 公開日:2021-01-29
# nlpbk at vlsp-2020 shared task: compose transformer pretrained models for reliable intelligence identification on social network

NLPBK at VLSP-2020 shared task: Compose transformer pretrained models for Reliable Intelligence Identification on Social network ( http://arxiv.org/abs/2101.12672v1 )

ライセンス: Link先を確認
Thanh Chinh Nguyen, Van Nha Nguyen(参考訳) 本論文では,ベトナムのSNS問題に対する信頼性情報同定による適応のためのトランスベースプリトレーニングモデルのチューニング手法について述べる。 我々はまた、コメント数、いいねの数、SNS文書の画像など、いくつかのメタデータ機能とbert-baseプリトレーニングモデルを組み合わせたモデルを提案し、VLSP共有タスクの結果を改善するために...ベトナムのSNS上の信頼性インテリジェンス識別。 適切なトレーニング手法により,本モデルはパブリックテストセットで0.9392 ROC-AUCを達成でき,最終バージョンはプライベートテストセットでトップ2 ROC-AUC (0.9513) に収まる。

This paper describes our method for tuning a transformer-based pretrained model, to adaptation with Reliable Intelligence Identification on Vietnamese SNSs problem. We also proposed a model that combines bert-base pretrained models with some metadata features, such as the number of comments, number of likes, images of SNS documents,... to improved results for VLSP shared task: Reliable Intelligence Identification on Vietnamese SNSs. With appropriate training techniques, our model is able to achieve 0.9392 ROC-AUC on public test set and the final version settles at top 2 ROC-AUC (0.9513) on private test set.
翻訳日:2021-02-01 12:53:45 公開日:2021-01-29
# N-grams ベイズ微分プライバシー

N-grams Bayesian Differential Privacy ( http://arxiv.org/abs/2101.12736v1 )

ライセンス: Link先を確認
Osman Ramadan, James Withers, Douglas Orr(参考訳) 異なるプライバシーは、k匿名性のようなプライバシー緩和技術とは対照的に、強力なプライバシー保証として機械学習で人気を得ています。 しかし、n-gramに差分プライバシーを適用すると、大きな語彙のために派生言語モデルの実用性が著しく低下する。 ベイズ方式では,プライバシ損失指標のエプシロンに厳密な制約を与えるために,公開データを事前設定として使用する差分プライバシー機構を提案する。 まず、カウントをログスペースに変換し、公共およびプライベートデータの分布をガウスとして近似します。 その後、後方分布を評価し、ソフトマックスを適用して確率分布を生成する。 この技術は、これまでのエプシロンのメカニズムと比較して最大85%のKL発散を0.1に減少させる。 我々は、n-gram言語モデリングタスクにおけるk-匿名性と比較し、大きな語彙サイズで競合性能を提供すると同時に、優れたプライバシー保護を提供することを示す。

Differential privacy has gained popularity in machine learning as a strong privacy guarantee, in contrast to privacy mitigation techniques such as k-anonymity. However, applying differential privacy to n-gram counts significantly degrades the utility of derived language models due to their large vocabularies. We propose a differential privacy mechanism that uses public data as a prior in a Bayesian setup to provide tighter bounds on the privacy loss metric epsilon, and thus better privacy-utility trade-offs. It first transforms the counts to log space, approximating the distribution of the public and private data as Gaussian. The posterior distribution is then evaluated and softmax is applied to produce a probability distribution. This technique achieves up to 85% reduction in KL divergence compared to previously known mechanisms at epsilon equals 0.1. We compare our mechanism to k-anonymity in a n-gram language modelling task and show that it offers competitive performance at large vocabulary sizes, while also providing superior privacy protection.
翻訳日:2021-02-01 12:53:10 公開日:2021-01-29
# コミュニティ検出のためのサブハイパーグラフモデルにおける厳密な回復の情報理論的限界

Information Theoretic Limits of Exact Recovery in Sub-hypergraph Models for Community Detection ( http://arxiv.org/abs/2101.12369v1 )

ライセンス: Link先を確認
Jiajun Liang, Chuyang Ke and Jean Honorio(参考訳) 本稿では,地域検出のためのサブハイパーグラフモデルにおける情報理論的境界について検討する。 我々は、$m-$uniform sub-hypergraph stochastic block model (m-$shsbm)と呼ばれる一般モデルを定義する。 $m-$ShSBMの下では、ファノの不等式を用いてモデルパラメータの領域を特定する。 また,最大類似度推定(MLE)アルゴリズムが,高い確率でコミュニティを正確に回復することに成功した地域を特定する。 我々の境界は密接であり, 植込み型ハイパーグラフ確率ブロックモデル, 植込み型高密度サブハイパーグラフモデル, 植込み型マルチパート型ハイパーグラフモデルなど, 様々なモデルにおけるコミュニティ検出問題と関連している。

In this paper, we study the information theoretic bounds for exact recovery in sub-hypergraph models for community detection. We define a general model called the $m-$uniform sub-hypergraph stochastic block model ($m-$ShSBM). Under the $m-$ShSBM, we use Fano's inequality to identify the region of model parameters where any algorithm fails to exactly recover the planted communities with a large probability. We also identify the region where a Maximum Likelihood Estimation (MLE) algorithm succeeds to exactly recover the communities with high probability. Our bounds are tight and pertain to the community detection problems in various models such as the planted hypergraph stochastic block model, the planted densest sub-hypergraph model, and the planted multipartite hypergraph model.
翻訳日:2021-02-01 12:52:32 公開日:2021-01-29
# SVMの総安定性とSVMの局所化

Total Stability of SVMs and Localized SVMs ( http://arxiv.org/abs/2101.12678v1 )

ライセンス: Link先を確認
Hannes K\"ohler, Andreas Christmann(参考訳) サポートベクトルマシン(SVM)のような正規化されたカーネルベースのメソッドは、通常、基礎となる確率測度$\mathrm{P}$(アプリケーションにおける経験的測度$\mathrm{D}_n$)と正規化パラメータ$\lambda$とカーネル$k$に依存する。 古典的な統計的ロバスト性は、$\mathrm{P}$の小さな摂動の影響しか考慮しないが、本論文では、三重項$(\mathrm{P},\lambda,k)$,それぞれ$(\mathrm{D}_n,\lambda_n,k)$の同時小変動が、結果として生じる予測子に与える影響について検討する。 文献からの既存の結果はかなり一般化され、改善されます。 一般のSVMが超線形計算要求に悩まされるようなビッグデータにも適用できるようにするため,我々の結果が局所学習の文脈にどのように移行できるかを示す。 ここでは、例えば $\mathrm{P}$ のそれぞれ $\mathrm{D}_n$ の変化から生じる可能性のある適用地域化におけるわずかな変動の効果も考慮される。

Regularized kernel-based methods such as support vector machines (SVMs) typically depend on the underlying probability measure $\mathrm{P}$ (respectively an empirical measure $\mathrm{D}_n$ in applications) as well as on the regularization parameter $\lambda$ and the kernel $k$. Whereas classical statistical robustness only considers the effect of small perturbations in $\mathrm{P}$, the present paper investigates the influence of simultaneous slight variations in the whole triple $(\mathrm{P},\lambda,k)$, respectively $(\mathrm{D}_n,\lambda_n,k)$, on the resulting predictor. Existing results from the literature are considerably generalized and improved. In order to also make them applicable to big data, where regular SVMs suffer from their super-linear computational requirements, we show how our results can be transferred to the context of localized learning. Here, the effect of slight variations in the applied regionalization, which might for example stem from changes in $\mathrm{P}$ respectively $\mathrm{D}_n$, is considered as well.
翻訳日:2021-02-01 12:51:57 公開日:2021-01-29
# 公平な機械学習の伝統的な仮定を超えて

Beyond traditional assumptions in fair machine learning ( http://arxiv.org/abs/2101.12476v1 )

ライセンス: Link先を確認
Niki Kilbertus(参考訳) この論文は、結果的な意思決定における公平性に対する従来の機械学習アプローチの基礎となる共通の仮定を精査する。 実世界のアプリケーションにおけるこれらの仮定の有効性に挑戦した後、違反した場合に前進する方法を提案する。 まず,観測データの統計的特性に基づいたグループフェアネス基準が,基本的に制限されていることを示す。 この制限を因果的観点から再検討し、より汎用的な概念的枠組み、因果公平性基準、そしてそれらを達成するための最初のアルゴリズムを開発します。 また,因果グラフの誤特定に対して,因果的公平なアルゴリズムがどの程度敏感であるかを分析するツールを提供する。 第2に,センシティブなデータが実際に容易に利用できるという仮定を克服する。 この目的のために、ユーザが機密データや意思決定者に対して、モデルを公開することなく、公正な決定アルゴリズムを訓練、検証、競合するためのセキュアなマルチパーティ計算に基づくプロトコルを考案しました。 最後に、ある決定が下されたときにのみ結果ラベルが観察されることも少なくありません。 予測モデルをトレーニングから直接学習へ移行し、ラベルを常に記録できるという従来の仮定を緩和することを提案する。 この論文の主な貢献は、公正な機械学習の研究を現実世界の応用に近づけるための理論的に実証され実用的な方法の開発である。

This thesis scrutinizes common assumptions underlying traditional machine learning approaches to fairness in consequential decision making. After challenging the validity of these assumptions in real-world applications, we propose ways to move forward when they are violated. First, we show that group fairness criteria purely based on statistical properties of observed data are fundamentally limited. Revisiting this limitation from a causal viewpoint we develop a more versatile conceptual framework, causal fairness criteria, and first algorithms to achieve them. We also provide tools to analyze how sensitive a believed-to-be causally fair algorithm is to misspecifications of the causal graph. Second, we overcome the assumption that sensitive data is readily available in practice. To this end we devise protocols based on secure multi-party computation to train, validate, and contest fair decision algorithms without requiring users to disclose their sensitive data or decision makers to disclose their models. Finally, we also accommodate the fact that outcome labels are often only observed when a certain decision has been made. We suggest a paradigm shift away from training predictive models towards directly learning decisions to relax the traditional assumption that labels can always be recorded. The main contribution of this thesis is the development of theoretically substantiated and practically feasible methods to move research on fair machine learning closer to real-world applications.
翻訳日:2021-02-01 12:51:11 公開日:2021-01-29
# ケースベース医療画像検索のための深トリプレットハッシングネットワーク

Deep Triplet Hashing Network for Case-based Medical Image Retrieval ( http://arxiv.org/abs/2101.12346v1 )

ライセンス: Link先を確認
Jiansheng Fang, Huazhu Fu, Jiang Liu(参考訳) 大規模画像検索における最も効率的な近接探索手法としてディープハッシュ法が示されている。 しかし,既存の深層ハッシュ手法は,症例ベース画像検索において,小標本ランキング性能に乏しい。 返されるクエリ結果のトップランクのイメージは、クエリイメージとは異なるクラスである可能性がある。 このランキング問題は、ハッシュ空間における分類、関心領域(ROI)、および小さなサンプル情報損失によって引き起こされる。 ランキング問題に対処するため,アテンションベースのTriplet Hashing(ATH)ネットワークと呼ばれるエンドツーエンドのフレームワークを提案し,分類,ROI,小サンプル情報を保存する低次元ハッシュコードを学ぶ。 我々は、ROI情報にフォーカスするために、ATHのネットワーク構造に空間アテンションモジュールを埋め込む。 空間アテンテンションモジュールは、チャンネル軸に沿って最大プール、要素方向最大、要素方向平均演算を利用して特徴マップの空間情報を集約する。 三重項クロスエントロピー損失は、画像の分類情報と画像間の類似性をハッシュコードにマップするのに役立ちます。 2つのケースベースの医療データセットに関する広範囲な実験により,提案するathは,最先端のディープハッシュ法に比べて検索性能が向上し,小規模サンプルのランキング性能が向上することを示した。 他の損失方法と比較して、三重項クロスエントロピー損失は分類性能とハッシュコード識別性を高めることができる

Deep hashing methods have been shown to be the most efficient approximate nearest neighbor search techniques for large-scale image retrieval. However, existing deep hashing methods have a poor small-sample ranking performance for case-based medical image retrieval. The top-ranked images in the returned query results may be as a different class than the query image. This ranking problem is caused by classification, regions of interest (ROI), and small-sample information loss in the hashing space. To address the ranking problem, we propose an end-to-end framework, called Attention-based Triplet Hashing (ATH) network, to learn low-dimensional hash codes that preserve the classification, ROI, and small-sample information. We embed a spatial-attention module into the network structure of our ATH to focus on ROI information. The spatial-attention module aggregates the spatial information of feature maps by utilizing max-pooling, element-wise maximum, and element-wise mean operations jointly along the channel axis. The triplet cross-entropy loss can help to map the classification information of images and similarity between images into the hash codes. Extensive experiments on two case-based medical datasets demonstrate that our proposed ATH can further improve the retrieval performance compared to the state-of-the-art deep hashing methods and boost the ranking performance for small samples. Compared to the other loss methods, the triplet cross-entropy loss can enhance the classification performance and hash code-discriminability
翻訳日:2021-02-01 12:50:29 公開日:2021-01-29
# 病理画像解析のためのペトリディッシュ

A Petri Dish for Histopathology Image Analysis ( http://arxiv.org/abs/2101.12355v1 )

ライセンス: Link先を確認
Jerry Wei and Arief Suriawinata and Bing Ren and Xiaoying Liu and Mikhail Lisovsky and Louis Vaickus and Charles Brown and Michael Baker and Naofumi Tomita and Lorenzo Torresani and Jason Wei and Saeed Hassanpour(参考訳) ディープラーニングの台頭に伴い、病理学者が顕微鏡で手作業で検査する生検や切除標本の性質を調べる分野である組織病理学的画像解析にニューラルネットワークを使用することへの関心が高まっています。 しかし、組織病理学的画像解析では、限られたデータ、コストのかかるアノテーション、高解像度および可変サイズの画像の処理などの課題は、参入障壁が高く、モデル設計を迅速に繰り返すことが困難になります。 科学史を通じて、多くの重要な研究の方向性は、大規模なアプリケーションで検証される探索的なアイデアを効率的に評価するためにペトリ皿として小規模の実験的なセットアップを利用しました。 例えば、ショウジョウバエは遺伝学で、MNISTはコンピュータビジョンでよく知られるペトリ料理である。 本稿では,組織病理画像解析のための類似ペトリディッシュであるミニマリスト組織病理画像解析データセット(MHIST)について紹介する。 MHISTは、大腸ポリープの3,152の固定サイズの画像のバイナリ分類データセットであり、それぞれ7人のボード認定消化器病理学者とアノテーションー合意レベルの過半数によって決定される金標準ラベルを有する。 MHISTは400MB未満のディスク空間を占めており、ResNet-18ベースラインはNVIDIA RTX 3090の3.5GBメモリを使用して6分でMHISTに収束するように訓練することができる。 例えば、MHISTを使ってデータセットのサイズ、ネットワーク深度、転送学習、モデルパフォーマンスに影響するハイディグリーメントの例など、自然な質問を研究しています。 MHISTの導入により、現在の組織病理画像研究者の作業を容易にするだけでなく、組織病理画像解析を一般的なコンピュータビジョンコミュニティにとってよりアクセスしやすくすることを願っています。 私たちのデータセットはhttps://bmirds.github.io/MHISTで入手できます。

With the rise of deep learning, there has been increased interest in using neural networks for histopathology image analysis, a field that investigates the properties of biopsy or resected specimens that are traditionally manually examined under a microscope by pathologists. In histopathology image analysis, however, challenges such as limited data, costly annotation, and processing high-resolution and variable-size images create a high barrier of entry and make it difficult to quickly iterate over model designs. Throughout scientific history, many significant research directions have leveraged small-scale experimental setups as petri dishes to efficiently evaluate exploratory ideas, which are then validated in large-scale applications. For instance, the Drosophila fruit fly in genetics and MNIST in computer vision are well-known petri dishes. In this paper, we introduce a minimalist histopathology image analysis dataset (MHIST), an analogous petri dish for histopathology image analysis. MHIST is a binary classification dataset of 3,152 fixed-size images of colorectal polyps, each with a gold-standard label determined by the majority vote of seven board-certified gastrointestinal pathologists and annotator agreement level. MHIST occupies less than 400 MB of disk space, and a ResNet-18 baseline can be trained to convergence on MHIST in just 6 minutes using 3.5 GB of memory on a NVIDIA RTX 3090. As example use cases, we use MHIST to study natural questions such as how dataset size, network depth, transfer learning, and high-disagreement examples affect model performance. By introducing MHIST, we hope to not only help facilitate the work of current histopathology imaging researchers, but also make histopathology image analysis more accessible to the general computer vision community. Our dataset is available at https://bmirds.github.io/MHIST.
翻訳日:2021-02-01 12:49:44 公開日:2021-01-29
# ビデオに基づく集団推定のための不確かさマッチング付き時空間拡張畳み込み

Spatiotemporal Dilated Convolution with Uncertain Matching for Video-based Crowd Estimation ( http://arxiv.org/abs/2101.12439v1 )

ライセンス: Link先を確認
Yu-Jen Ma, Hong-Han Shuai, and Wen-Huang Cheng(参考訳) 本論文では,3D畳み込みの分解と3D時空間拡張密度畳み込みを含み,Conv3D層に起因するモデルサイズの急速な成長を緩和する映像に基づく群集カウント問題に対処するための,新しいテンポテンポラル畳み込みネットワーク(STDNet)を提案する。 さらに,拡張畳み込みはマルチスケールな特徴を抽出し,拡張畳み込みとチャネルアテンションブロックを組み合わせることで特徴表現を向上させる。 特にビデオでは、群衆のラベル付けの困難さから生じるエラーのため、不正確で標準に一貫性のないラベルはモデルの収束不良につながる可能性がある。 この問題に対処するため,我々はさらに,オリジナルの画素損失を改善する新しいパッチワイズレグレッション損失(prl)を提案する。 3つのビデオベースのベンチマーク、すなわちUCSD、Malma、WorldExpo'10データセットの実験結果は、STDNetが画像とビデオの両方の最先端の方法よりも優れていることを示している。 ソースコードは \url{https://github.com/stdnet/stdnet} でリリースされる。

In this paper, we propose a novel SpatioTemporal convolutional Dense Network (STDNet) to address the video-based crowd counting problem, which contains the decomposition of 3D convolution and the 3D spatiotemporal dilated dense convolution to alleviate the rapid growth of the model size caused by the Conv3D layer. Moreover, since the dilated convolution extracts the multiscale features, we combine the dilated convolution with the channel attention block to enhance the feature representations. Due to the error that occurs from the difficulty of labeling crowds, especially for videos, imprecise or standard-inconsistent labels may lead to poor convergence for the model. To address this issue, we further propose a new patch-wise regression loss (PRL) to improve the original pixel-wise loss. Experimental results on three video-based benchmarks, i.e., the UCSD, Mall and WorldExpo'10 datasets, show that STDNet outperforms both image- and video-based state-of-the-art methods. The source codes are released at \url{https://github.com/STDNet/STDNet}.
翻訳日:2021-02-01 12:48:52 公開日:2021-01-29
# 単一画像参照のためのフィードバックによるロバスト表現学習

Robust Representation Learning with Feedback for Single Image Deraining ( http://arxiv.org/abs/2101.12463v1 )

ライセンス: Link先を確認
Chenghao Chen and Hao Li(参考訳) 送出網は条件発生器として解釈できる。 レーダリングネットワークによって生成される画像劣化は、条件として機能する欠陥のある埋め込み特徴によって引き起こされる。 既存の画像参照手法は通常、不確実性に起因するモデルエラーを無視し、品質を低下させ、品質の低い機能をモデルに直接組み込む。 対照的に、低品質の機能を潜伏する高品質な機能に置き換える。 自動制御分野における閉ループフィードバックの精神を借用し、潜在的な高品質な特徴を得る。 モデルエラーに対処するために,新しい誤り検出法と特徴補償法を提案する。 ベンチマークデータセットと特定の実データセットに関する大規模な実験は、最近の最先端手法よりも提案手法の利点を実証している。

A deraining network may be interpreted as a condition generator. Image degradation generated by the deraining network can be attributed to defective embedding features that serve as conditions. Existing image deraining methods usually ignore uncertainty-caused model errors that lower embedding quality and embed low-quality features into the model directly. In contrast, we replace low-quality features by latent high-quality features. The spirit of closed-loop feedback in the automatic control field is borrowed to obtain latent high-quality features. A new method for error detection and feature compensation is proposed to address model errors. Extensive experiments on benchmark datasets as well as specific real datasets demonstrate the advantage of the proposed method over recent state-of-the-art methods.
翻訳日:2021-02-01 12:48:10 公開日:2021-01-29
# 冠動脈疾患における血管造影ビデオシーケンスの自動ディープラーニング解析

Automated Deep Learning Analysis of Angiography Video Sequences for Coronary Artery Disease ( http://arxiv.org/abs/2101.12505v1 )

ライセンス: Link先を確認
Chengyang Zhou, Thao Vy Dinh, Heyi Kong, Jonathan Yap, Khung Keong Yeo, Hwee Kuan Lee, Kaicheng Liang(参考訳) 冠動脈閉塞 (狭窄) の評価は現在, 医師による冠動脈造影ビデオの視覚的評価により行われている。 手間がかかり、オブザーバ間のバリエーションに影響を受けやすい。 以前の研究はこのプロセスを自動化しようとしたが、アンギオグラムのエンドツーエンド分析のための統合アルゴリズムのスイートを実証した例はほとんどない。 深層学習に基づく自動解析パイプラインを報告し, 冠動脈造影を迅速かつ客観的に評価し, 興味ある冠動脈を強調表示し, 潜在的な狭窄を定量化する。 本稿では,キーフレーム抽出,血管分割,狭窄測定からなる3段階自動解析法を提案する。 ResNetやU-Netなどの強力なディープラーニングアプローチと、従来の画像処理と幾何学的分析を組み合わせたものです。 右冠動脈(RCA)の左前方斜め(LAO)のアルゴリズムを第3の心臓組織から得られた匿名化された血管造影を用いて訓練し、そのアルゴリズムを右前方斜め(RAO)の視点に一般化できることをテストしました。 キーフレーム抽出トップ5の精度98.4%,血管分割f1-score0.891,狭窄測定20.7%の誤差率で,従来の作業の全体的な改善を示した。

The evaluation of obstructions (stenosis) in coronary arteries is currently done by a physician's visual assessment of coronary angiography video sequences. It is laborious, and can be susceptible to interobserver variation. Prior studies have attempted to automate this process, but few have demonstrated an integrated suite of algorithms for the end-to-end analysis of angiograms. We report an automated analysis pipeline based on deep learning to rapidly and objectively assess coronary angiograms, highlight coronary vessels of interest, and quantify potential stenosis. We propose a 3-stage automated analysis method consisting of key frame extraction, vessel segmentation, and stenosis measurement. We combined powerful deep learning approaches such as ResNet and U-Net with traditional image processing and geometrical analysis. We trained and tested our algorithms on the Left Anterior Oblique (LAO) view of the right coronary artery (RCA) using anonymized angiograms obtained from a tertiary cardiac institution, then tested the generalizability of our technique to the Right Anterior Oblique (RAO) view. We demonstrated an overall improvement on previous work, with key frame extraction top-5 precision of 98.4%, vessel segmentation F1-Score of 0.891 and stenosis measurement 20.7% Type I Error rate.
翻訳日:2021-02-01 12:47:41 公開日:2021-01-29
# Open World Compositional Zero-Shot Learning

Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2101.12609v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata(参考訳) 構成ゼロショット学習(CZSL)は、訓練中に見えない状態オブジェクトの合成を認識する必要がある。 本研究では,未発見の合成に関する事前知識の存在を仮定する代わりに,探索空間が多数の未発見の合成を含むオープンワールド設定で動作し,その一部は実現不可能である。 この設定では、視覚的特徴と構成的埋め込みの間のコサイン類似性から始めます。 各構成の実行可能性スコアを推定した後、これらのスコアを用いて出力空間を直接マスクするか、トレーニング中の視覚特徴と構成埋め込みのコサイン類似性のマージンとして用いる。 2つの標準CZSLベンチマーク実験により、オープンワールド環境で適用した場合、全ての手法が深刻な性能劣化を被ることが示された。 私たちの単純なczslモデルはクローズド・ワールドのシナリオで最先端のパフォーマンスを達成していますが、実現可能性スコアはオープン・ワールド・セッティングにおける我々のアプローチのパフォーマンスを高めます。

Compositional Zero-Shot learning (CZSL) requires to recognize state-object compositions unseen during training. In this work, instead of assuming the presence of prior knowledge about the unseen compositions, we operate on the open world setting, where the search space includes a large number of unseen compositions some of which might be unfeasible. In this setting, we start from the cosine similarity between visual features and compositional embeddings. After estimating the feasibility score of each composition, we use these scores to either directly mask the output space or as a margin for the cosine similarity between visual features and compositional embeddings during training. Our experiments on two standard CZSL benchmarks show that all the methods suffer severe performance degradation when applied in the open world setting. While our simple CZSL model achieves state-of-the-art performances in the closed world scenario, our feasibility scores boost the performance of our approach in the open world setting, clearly outperforming the previous state of the art.
翻訳日:2021-02-01 12:46:33 公開日:2021-01-29
# 予習と一貫性を備えた驚くほど単純な半教師付きドメイン適応

Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining and Consistency ( http://arxiv.org/abs/2101.12727v1 )

ライセンス: Link先を確認
Samarth Mishra, Kate Saenko, Venkatesh Saligrama(参考訳) ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。 一連の先行作業では、逆のドメインアライメントを使用して、適切なソース分類器がターゲットデータでうまく機能するドメイン不変機能空間を学習しようとする。 しかしこれは、ターゲットドメインのクラスA機能がソースのクラスB機能と一致しているエラーにつながる可能性がある。 ターゲットラベルが複数存在する場合, 自己監督(回転予測による)や整合性正規化といった単純な手法が, 逆アライメントなしに有効であり, 優れたターゲット分類器を学習できることを示した。 当社のPAC(Pretraining and Consistency)アプローチは、この半監視されたドメイン適応タスクの最先端の精度を達成し、複数のデータセットにわたる複数の逆のドメインアライメント方法を超えることができます。 特に、大きな挑戦的なdomainnetベンチマークでは、最近のアプローチを3~5%上回っており、敵のアライメントによるエラーの修正において、これらの単純なテクニックの強みを示している。

Visual domain adaptation involves learning to classify images from a target visual domain using labels available in a different source domain. A range of prior work uses adversarial domain alignment to try and learn a domain invariant feature space, where a good source classifier can perform well on target data. This however, can lead to errors where class A features in the target domain get aligned to class B features in source. We show that in the presence of a few target labels, simple techniques like self-supervision (via rotation prediction) and consistency regularization can be effective without any adversarial alignment to learn a good target classifier. Our Pretraining and Consistency (PAC) approach, can achieve state of the art accuracy on this semi-supervised domain adaptation task, surpassing multiple adversarial domain alignment methods, across multiple datasets. Notably, it outperforms all recent approaches by 3-5% on the large and challenging DomainNet benchmark, showing the strength of these simple techniques in fixing errors made by adversarial alignment.
翻訳日:2021-02-01 12:45:56 公開日:2021-01-29
# ReLU$^k$とコサインネットワークの最適近似速度と計量エントロピー

Optimal Approximation Rates and Metric Entropy of ReLU$^k$ and Cosine Networks ( http://arxiv.org/abs/2101.12365v1 )

ライセンス: Link先を確認
Jonathan W. Siegel, Jinchao Xu(参考訳) 本稿では、近似空間のキャラクタリゼーション、これらの空間の計量エントロピーの決定、ニューラルネットワークの近似率など、ニューラルネットワークの近似理論に関連するいくつかの基本的な問題に対処する。 任意の活性化関数 $\sigma$ に対して、対応する浅層ニューラルネットワークによって効率的に近似できる関数の最大のバナッハ空間は、集合 $\{\pm\sigma(\omega\cdot x + b)\} の閉凸包のゲージによってノルムが与えられる空間であることを示す。 この空間を ReLU$^k$ およびコサイン活性化関数に特徴づけ、特に、結果のゲージ空間が $\sigma=\cos$ のスペクトルバロン空間と等価であり、$\sigma={\rm ReLU}$ のときバロン空間と等価であることを示した。 我々の主な結果は、これらのグエージ空間の単位球の l^2$-metric entropy の正確な漸近性を確立し、その結果、浅い relu$^k$ ネットワークに対する最適近似レートを確立することである。 最も鋭い結果は、k=0$ と $d=2$ の特別な場合のみであり、計量エントロピーは対数因子によって決定されている。 k > 0$ または $d > 2$ の場合、前回の最高値と下限値の間には大きなギャップがある。 これらのギャップを全て閉じて、前述の対数的因子の除去を含むすべての$k \geq 0$と$d\geq 2$に対する計量エントロピーの正確な漸近性を決定する。 最後に、これらの結果を用いて、$\sigma={\rm ReLU}^k$ のとき、$\{\pm\sigma(\omega\cdot x + b)\}$ の凸船体に対してバロンのスペクトル条件がどれだけ失われるかを定量化する。

This article addresses several fundamental issues associated with the approximation theory of neural networks, including the characterization of approximation spaces, the determination of the metric entropy of these spaces, and approximation rates of neural networks. For any activation function $\sigma$, we show that the largest Banach space of functions which can be efficiently approximated by the corresponding shallow neural networks is the space whose norm is given by the gauge of the closed convex hull of the set $\{\pm\sigma(\omega\cdot x + b)\}$. We characterize this space for the ReLU$^k$ and cosine activation functions and, in particular, show that the resulting gauge space is equivalent to the spectral Barron space if $\sigma=\cos$ and is equivalent to the Barron space when $\sigma={\rm ReLU}$. Our main result establishes the precise asymptotics of the $L^2$-metric entropy of the unit ball of these guage spaces and, as a consequence, the optimal approximation rates for shallow ReLU$^k$ networks. The sharpest previous results hold only in the special case that $k=0$ and $d=2$, where the metric entropy has been determined up to logarithmic factors. When $k > 0$ or $d > 2$, there is a significant gap between the previous best upper and lower bounds. We close all of these gaps and determine the precise asymptotics of the metric entropy for all $k \geq 0$ and $d\geq 2$, including removing the logarithmic factors previously mentioned. Finally, we use these results to quantify how much is lost by Barron's spectral condition relative to the convex hull of $\{\pm\sigma(\omega\cdot x + b)\}$ when $\sigma={\rm ReLU}^k$.
翻訳日:2021-02-01 12:45:16 公開日:2021-01-29
# subgraph appointment: ネットワークにおけるsubgraph検索の例によるクエリ

Subgraph nomination: Query by Example Subgraph Retrieval in Networks ( http://arxiv.org/abs/2101.12430v1 )

ライセンス: Link先を確認
Al-Fahad M. Al-Qadhi, Carey E. Priebe, Hayden S. Helm, Vince Lyzinski(参考訳) 本稿では,興味あるサブグラフを用いてネットワークに類似した興味深いサブグラフを問い合わせるサブグラフ指名推論タスクについて紹介する。 このタイプの問題は、例えば、社会および生物学的/接続性ネットワークにおけるユーザー推奨システムおよび構造検索タスクに関連する現実世界の問題に何度も現れます。 我々は,subgraph指名パイプラインにおけるユーザ・イン・ザ・ループの概念に着目し,subgraph指名フレームワークを正式に定義する。 この設定では、ユーザーは検索タスクに組み込むことができる追加後光監督を提供することができます。 検索タスクの導入と形式化後、実データ例とシミュレーションデータ例の両方において、ユーザ・スーパービジョンがパフォーマンスに与える影響について検討する。

This paper introduces the subgraph nomination inference task, in which example subgraphs of interest are used to query a network for similarly interesting subgraphs. This type of problem appears time and again in real world problems connected to, for example, user recommendation systems and structural retrieval tasks in social and biological/connectomic networks. We formally define the subgraph nomination framework with an emphasis on the notion of a user-in-the-loop in the subgraph nomination pipeline. In this setting, a user can provide additional post-nomination light supervision that can be incorporated into the retrieval task. After introducing and formalizing the retrieval task, we examine the nuanced effect that user-supervision can have on performance, both analytically and across real and simulated data examples.
翻訳日:2021-02-01 12:44:18 公開日:2021-01-29
# 歴史的都市地図のセマンティックセグメンテーションのためのニューラルネットワーク:文化横断性能と比喩的多様性の影響

Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity ( http://arxiv.org/abs/2101.12478v1 )

ライセンス: Link先を確認
R\'emi Petitpierre (Ecole polytechnique f\'ed\'erale de Lausanne, EPFL, Switzerland)(参考訳) 本研究では, 柔軟性と性能の面で, 歴史都市地図の新しいセマンティックセグメンテーションモデルを提案する。 自動地図処理の研究は主に均質なコーパスや個々の地図に焦点が当てられ、柔軟性のないアルゴリズムに繋がる。 近年、畳み込みニューラルネットワークは、より汎用的なツールの開発に新たな視点を開いている。 パリを中心とする2つの新しい地図コーパスと、世界中の都市を集結する第2の地図コーパスに基づいて、大規模な定量的分析を可能にする従来のコンピュータビジョンアルゴリズムに基づくフィギュレーションの運用方法を提案する。 第二段階として,ニューラルネットワークに基づく意味セグメンテーションモデルを提案し,いくつかの改良を行った。 最後に,マップフィギュレーションがセグメンテーション性能に与える影響を分析し,ニューラルネットワークの表現柔軟性を改善するための今後の方法を評価する。 結論として、これらのネットワークは、非常に大きな比喩的多様性のマップデータを効率よく意味的にセグメント化できることを示す。

In this work, we present a new semantic segmentation model for historical city maps that surpasses the state of the art in terms of flexibility and performance. Research in automatic map processing is largely focused on homogeneous corpora or even individual maps, leading to inflexible algorithms. Recently, convolutional neural networks have opened new perspectives for the development of more generic tools. Based on two new maps corpora, the first one centered on Paris and the second one gathering cities from all over the world, we propose a method for operationalizing the figuration based on traditional computer vision algorithms that allows large-scale quantitative analysis. In a second step, we propose a semantic segmentation model based on neural networks and implement several improvements. Finally, we analyze the impact of map figuration on segmentation performance and evaluate future ways to improve the representational flexibility of neural networks. To conclude, we show that these networks are able to semantically segment map data of a very large figurative diversity with efficiency.
翻訳日:2021-02-01 12:43:45 公開日:2021-01-29
# 学習性能向上のための多項軌道予測

Polynomial Trajectory Predictions for Improved Learning Performance ( http://arxiv.org/abs/2101.12616v1 )

ライセンス: Link先を確認
Ido Freeman, Kun Zhao, Anton Kummert(参考訳) 自動車アプリケーションにおけるアクティブセーフティシステムの需要の高まりは、信頼性の高い短期から中期の軌道予測の必要性を強調しています。 道路利用者の展開経路を予測すれば、全体の安全性を高めることができる。 本研究では,時間関数として自然な形状の軌道を予測することにより,運動理解のための人工ニューラルネットワークの訓練を提案する。 多項式係数の予測により精度が向上し、一般化が向上する。

The rising demand for Active Safety systems in automotive applications stresses the need for a reliable short to mid-term trajectory prediction. Anticipating the unfolding path of road users, one can act to increase the overall safety. In this work, we propose to train artificial neural networks for movement understanding by predicting trajectories in their natural form, as a function of time. Predicting polynomial coefficients allows us to increased accuracy and improve generalisation.
翻訳日:2021-02-01 12:43:05 公開日:2021-01-29
# 風洞下でのMAVの学習型対モデルフリー適応制御

Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust ( http://arxiv.org/abs/2101.12501v1 )

ライセンス: Link先を確認
Thomas Chaffre, Julien Moras, Adrien Chan-Hon-Tong, Julien Marzat, Karl Sammut, Gilles Le Chenadec, Benoit Clement(参考訳) 未知の様々な条件下でのナビゲーション問題は、制御分野で最も重要な、よく研究された問題の一つです。 古典的なモデルに基づく適応制御法は、植物や環境の便利なモデルが提供される場合にのみ適用できる。 最近のモデルフリー適応制御法は、センサフィードバックから直接プラントやプロセスの性質を学習することで、この依存性を取り除くことを目的としている。 これらの手法を改良する試みは以前からあったが、いずれのパラダイムにもとづく制御システムにおいて、現実的な不確実性に対処できるかどうかについては未解決のままである。 本研究では,ソフトアクタ-クリティックアルゴリズムに基づく深層強化学習フレームワークを用いて,完全な状態フィードバック制御系からなる,概念的に単純な学習ベースアプローチを提案する。 リアルなシミュレーションでは、同じ深層強化学習フレームワークを使用して、風力ガストの下でのマイクロ空中車両の制御を行うモデルフリーのコントローラと比較します。 この結果は,現代の力学系における学習に基づく適応制御手法の大きな可能性を示している。

Navigation problems under unknown varying conditions are among the most important and well-studied problems in the control field. Classic model-based adaptive control methods can be applied only when a convenient model of the plant or environment is provided. Recent model-free adaptive control methods aim at removing this dependency by learning the physical characteristics of the plant and/or process directly from sensor feedback. Although there have been prior attempts at improving these techniques, it remains an open question as to whether it is possible to cope with real-world uncertainties in a control system that is fully based on either paradigm. We propose a conceptually simple learning-based approach composed of a full state feedback controller, tuned robustly by a deep reinforcement learning framework based on the Soft Actor-Critic algorithm. We compare it, in realistic simulations, to a model-free controller that uses the same deep reinforcement learning framework for the control of a micro aerial vehicle under wind gust. The results indicate the great potential of learning-based adaptive control methods in modern dynamical systems.
翻訳日:2021-02-01 12:42:38 公開日:2021-01-29
# 分布近似のための深層生成ネットワークの容量について

On the capacity of deep generative networks for approximating distributions ( http://arxiv.org/abs/2101.12353v1 )

ライセンス: Link先を確認
Yunfei Yang, Zhen Li, Yang Wang(参考訳) 確率分布を近似する深層生成ネットワークの有効性と効率について検討した。 ニューラルネットワークは、Wasserstein距離における高次元ターゲット分布に任意に近い分布に一次元ソース分布を変換できることを証明している。 近似誤差の上限は、ニューラルネットワークの幅と深さの点で得られる。 近似誤差は、最も線形に周囲の次元に成長し、近似順序は、ターゲット分布の本質的な次元にのみ依存することを示した。 逆に、$f$-divergences が分布の指標として使われる場合、近似特性は異なる。 我々は,目標分布を$f$-divergencesで近似するために,ソース分布の次元が対象分布の内在次元よりも小さくならないことを証明した。 したがって、$f$-divergences はサンプルを生成するための分布の指標としてwaserstein距離よりも不十分である。

We study the efficacy and efficiency of deep generative networks for approximating probability distributions. We prove that neural networks can transform a one-dimensional source distribution to a distribution that is arbitrarily close to a high-dimensional target distribution in Wasserstein distances. Upper bounds of the approximation error are obtained in terms of neural networks' width and depth. It is shown that the approximation error grows at most linearly on the ambient dimension and that the approximation order only depends on the intrinsic dimension of the target distribution. On the contrary, when $f$-divergences are used as metrics of distributions, the approximation property is different. We prove that in order to approximate the target distribution in $f$-divergences, the dimension of the source distribution cannot be smaller than the intrinsic dimension of the target distribution. Therefore, $f$-divergences are less adequate than Waserstein distances as metrics of distributions for generating samples.
翻訳日:2021-02-01 12:42:02 公開日:2021-01-29
# (参考訳) Efficient-CapsNet:セルフアテンションルーティングを備えたカプセルネットワーク

Efficient-CapsNet: Capsule Network with Self-Attention Routing ( http://arxiv.org/abs/2101.12491v1 )

ライセンス: CC BY-SA 4.0
Vittorio Mazzia, Francesco Salvetti, Marcello Chiaberge(参考訳) アーキテクチャ設計戦略に支援されたディープ畳み込みニューラルネットワークは、オブジェクト変換を埋め込むために、多数の機能マップを持つデータ拡張技術とレイヤを広範囲に活用する。 これは非常に非効率であり、大きなデータセットの場合、特徴検出器の大規模な冗長性を意味する。 カプセルネットワークはまだ初期段階にあるが、現在の畳み込みネットワークを拡張し、より効率的に機能アフィン変換をエンコードするプロセスで人工視覚を付与する、有望なソリューションとなっている。 実際、適切に動作するカプセルネットワークは、新しい視点に一般化する本質的な能力により、かなり少ないパラメータ数で理論的により高い結果を得るべきである。 しかし、この点にはほとんど注意が払われていない。 本論文では,カプセルネットワークの効率性を検討し,その容量を極端に160Kパラメータの極限アーキテクチャに押し上げることにより,提案されたアーキテクチャが,元のCapsNetパラメータのわずか2%で3つの異なるデータセットにおける最先端の結果を達成できることを証明した。 さらに, カプセル数の減少に容易に対処できる新しい非イテレーティブな並列化可能なルーティングアルゴリズムを動的ルーティングに置き換えた。 他のカプセル実装との広範な実験は、私たちの方法論の有効性とカプセルネットワークが、より一般化しやすい視覚表現を効率的に埋め込む能力を示しています。

Deep convolutional neural networks, assisted by architectural design strategies, make extensive use of data augmentation techniques and layers with a high number of feature maps to embed object transformations. That is highly inefficient and for large datasets implies a massive redundancy of features detectors. Even though capsules networks are still in their infancy, they constitute a promising solution to extend current convolutional networks and endow artificial visual perception with a process to encode more efficiently all feature affine transformations. Indeed, a properly working capsule network should theoretically achieve higher results with a considerably lower number of parameters count due to intrinsic capability to generalize to novel viewpoints. Nevertheless, little attention has been given to this relevant aspect. In this paper, we investigate the efficiency of capsule networks and, pushing their capacity to the limits with an extreme architecture with barely 160K parameters, we prove that the proposed architecture is still able to achieve state-of-the-art results on three different datasets with only 2% of the original CapsNet parameters. Moreover, we replace dynamic routing with a novel non-iterative, highly parallelizable routing algorithm that can easily cope with a reduced number of capsules. Extensive experimentation with other capsule implementations has proved the effectiveness of our methodology and the capability of capsule networks to efficiently embed visual representations more prone to generalization.
翻訳日:2021-02-01 12:41:17 公開日:2021-01-29