このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200725となっている論文です。

PDF登録状況(公開日: 20200725)

TitleAuthorsAbstract論文公表日・翻訳日
# スマートフォンセンサを用いたエピデミック接触追跡

Epidemic contact tracing with smartphone sensors ( http://arxiv.org/abs/2006.00046v2 )

ライセンス: Link先を確認
Khuong An Nguyen, Zhiyuan Luo, Chris Watkins(参考訳) 接触追跡は疫病対策の有効な方法として広く考えられている。 しかし、テクノロジーベースの接触追跡の課題の1つは偽陽性の数が多ければ多いことであり、大衆の信頼と効率を疑問視している。 そこで本稿では,wi-fiと音波を相対距離推定に利用し,環境マッチングのための空気圧と磁場に加えて,スマートフォンを用いた新しい実用的な接触追跡手法を提案する。 そこで本研究では,スマートフォンのセンサを6つ組み合わせたモデルを提案する。 我々は,様々な現実環境でのアプローチを実証し,最大95%の偽陽性率,およびbluetoothのみのシステムよりも62%高い精度を示した。 我々の知る限り、この論文は接触追跡のためのスマートフォンセンサーの組み合わせを初めて提案した研究の1つである。

Contact tracing is widely considered as an effective procedure in the fight against epidemic diseases. However, one of the challenges for technology based contact tracing is the high number of false positives, questioning its trust-worthiness and efficiency amongst the wider population for mass adoption. To this end, this paper proposes a novel, yet practical smartphone-based contact tracing approach, employing WiFi and acoustic sound for relative distance estimate, in addition to the air pressure and the magnetic field for ambient environment matching. We present a model combining 6 smartphone sensors, prioritising some of them when certain conditions are met. We empirically verified our approach in various realistic environments to demonstrate an achievement of up to 95% fewer false positives, and 62% more accurate than Bluetooth-only system. To the best of our knowledge, this paper was one of the first work to propose a combination of smartphone sensors for contact tracing.
翻訳日:2023-05-18 00:30:56 公開日:2020-07-25
# Google/Apple Exposure Notification Bluetooth APIにロケーションとグローバルコンテキストを追加

Adding Location and Global Context to the Google/Apple Exposure Notification Bluetooth API ( http://arxiv.org/abs/2007.02317v3 )

ライセンス: Link先を確認
Ramesh Raskar, Abhishek Singh, Sam Zimmerman, Shrikant Kanaparti(参考訳) 接触追跡はユーザのコンテキストを強く理解する必要があり、他の感覚データとの位置情報は感染の発生のコンテキストを提供する。 bluetooth技術は、出会いの近接的な側面について良い洞察を与えるが、それに関連する位置コンテキストは提供せず、より良い決定を下すのに役立つ。 本論文で提示されたアイデアを用いて、偽陽性と偽陰性の問題にある程度対処できるこの貴重な情報を得ることができる。 これらすべてが、完全なユーザのプライバシーを維持しながら、Google/Apple Exposure Notification (GAEN)仕様の範囲内にある。 2人のユーザー間でコンテキストを伝達する方法は4つある。 このような2つの方法は、アプリ内のロケーション履歴を明かすことなく、プライベートなロケーションログを可能にする。 他の2つは暗号化方式である。 最初の暗号化方法はAppleのFindMyプロトコルの変種で、近くのAppleデバイスが失われたAppleデバイスのGPS位置をキャプチャすることを可能にする。 第2の暗号化は、既存のGAENプロトコルの小さな変更であり、グローバルなコンテキストが、公開時にのみ、健全な電話で利用できるようになる。 位置情報のコンテキストをどう使うかを決め、本格的な接触追跡と公衆衛生ソリューションを構築するのが、Public Healthのスマートフォンアプリの役割だ。 最後に、これらの各コンテキスト伝搬手法の利点と潜在的なプライバシー問題を強調します。

Contact tracing requires a strong understanding of the context of a user, and location with other sensory data could provide a context for any infection encounter. Although Bluetooth technology gives a good insight into the proximity aspect of an encounter, it does not provide any location context related to it which helps to make better decisions. Using the ideas presented in this paper, one shall be able to obtain this valuable information that could address the problem of false-positive and false-negative to a certain extent. All of this within the purview of Google/Apple Exposure Notification (GAEN) specification, while preserving complete user privacy. There are four ways of propagating context between any two users. Two such methods allow private location logging, without revealing the location history within an app. The other two are encryption-based methods. The first encryption method is a variant of Apple's FindMy protocol, that allows nearby Apple devices to capture the GPS location of a lost Apple device. The second encryption is a minor modification of the existing GAEN protocol so that global context is available to a healthy phone only when it is exposed - this is a better option comparatively. It will still be the role of Public Health smartphone app to decide, on how to use the location-time context, to build a full-fledged contact tracing and public health solution. Lastly, we highlight the benefits and potential privacy issues with each of these context propagation methods proposed here.
翻訳日:2023-05-11 22:51:24 公開日:2020-07-25
# コロナ・ワーンアプリ、ドイツで公式のCOVID-19露光通知アプリを開始

Corona-Warn-App: Tracing the Start of the Official COVID-19 Exposure Notification App for Germany ( http://arxiv.org/abs/2008.07370v1 )

ライセンス: Link先を確認
Jens Helge Reelfs and Oliver Hohlfeld and Ingmar Poese(参考訳) 2020年6月16日、ドイツはsars-cov-2(coronavirus)感染チェーンの追跡を支援する、スマートフォンの接触追跡アプリ「corona-warn-app」をローンチした。 集中型サーバは、sars-cov-2感染したユーザのキーのリストを1日1回だけ配布するためにのみ使用される。 しかし、その成功は採用次第である。 このポスターでは、ホストインフラストラクチャに直接キャプチャされたNetflowトレースを使用して、アプリの早期採用を特徴付ける。 アプリは初日にドイツ全土からトラフィックを発生させた。 さらに、局地的なcovid-19の流行は、顕著なトラフィック増加を起こさないことも観察する。

On June 16, 2020, Germany launched an open-source smartphone contact tracing app ("Corona-Warn-App") to help tracing SARS-CoV-2 (coronavirus) infection chains. It uses a decentralized, privacy-preserving design based on the Exposure Notification APIs in which a centralized server is only used to distribute a list of keys of SARS-CoV-2 infected users that is fetched by the app once per day. Its success, however, depends on its adoption. In this poster, we characterize the early adoption of the app using Netflow traces captured directly at its hosting infrastructure. We show that the app generated traffic from allover Germany---already on the first day. We further observe that local COVID-19 outbreaks do not result in noticeable traffic increases.
翻訳日:2023-05-08 06:31:52 公開日:2020-07-25
# 高利得パラメトリックダウンコンバージョンのスペクトルと統計特性

Spectral and statistical properties of high-gain parametric down-conversion ( http://arxiv.org/abs/2007.12999v1 )

ライセンス: Link先を確認
Kirill Spasibko(参考訳) パラメトリックダウンコンバージョン(PDC)は、相関した光子対が生成される低利得(自発性)レジームでよく知られている。 SPDCは様々な量子状態がSPDCを介して生成されるため、量子光学において非常に重要な役割を果たす。 高利得の場合、PDCは数百mWの平均出力を持つ明るい状態を生成する。 このような状態の場合、非線形光学相互作用や光-物質相互作用はより効率的になる。 マクロ的に明るくても、生成した状態は非古典的特性を維持し、例えば、電場四重項のゆらぎはショットノイズレベル以下である。 高利得pdcは、spdcと同じアプリケーションで使用できるだけでなく、新しいアプリケーションを提供することもできる。 これとは別に、高利得PDCは多くの顕著なスペクトル特性と統計特性があり、この研究の焦点となっている。 説明は、正規および異常な群速度分散範囲におけるPDC生成から始まる。 高利得pdcのスペクトルとモード含量を考慮するとともに、パラメトリックゲインによる変化を示す。 そして、PDC相関から生じる干渉効果、すなわち、香港・奥羽・マンデル干渉のマクロ的類似から生じる干渉効果が現れる。 さらに, 空間的および時間的ウォークオフマッチングが, 巨大狭帯域ツインビームの生成に有効であることを示す。 最後に、高利得PDCの統計特性を概説するとともに、多光子効果への利用を実証する。 PDCの光子数変動は正規化相関関数と確率分布によって研究される。 これらのゆらぎは多光子効果の生成効率を桁違いに向上させ、重み付き光子数の確率分布によって説明される驚くほど変動する光を生み出す。

Parametric down-conversion (PDC) is mostly known in the low-gain (spontaneous) regime, in which the correlated photon pairs are produced. Spontaneous PDC (SPDC) plays a very important role for quantum optics as a variety of quantum states is produced via SPDC. In the high-gain case PDC leads to generation of bright states having up to hundreds mW mean power. With such states almost any nonlinear optical interaction or light-matter interaction becomes more efficient. Even being macroscopically bright, the produced states maintain nonclassical properties as, for example, the fluctuations of electric field quadratures are squeezed below the shot-noise level. The high-gain PDC could be used not only in the same applications as SPDC, it also can provide new ones. Apart from that the high-gain PDC has many remarkable spectral and statistical properties, which are in the focus of this work. The description starts from the PDC generation in normal and anomalous group velocity dispersion ranges. The spectrum and mode content of high-gain PDC is considered as well as their change with the parametric gain are demonstrated. Then, there are the interference effects emerging from the PDC correlations presented, namely the macroscopic analogue of the Hong-Ou-Mandel interference. In addition, it is shown how spatial and temporal walk-off matching could be used for the generation of giant narrowband twin beams. Finally, the statistical properties of high-gain PDC are reviewed as well as their use for multiphoton effects is demonstrated. Photon-number fluctuations of PDC are studied via normalized correlation functions and probability distributions. These fluctuations enhance the generation efficiency for multiphoton effects by orders of magnitude and lead to tremendously fluctuating light described by heavy-tailed photon-number probability distributions.
翻訳日:2023-05-08 06:31:41 公開日:2020-07-25
# 相関位相減衰と振幅減衰ノイズチャネルによる2つの結合核スピンのデコヒーレンスモデルへのリンドブラジアンアプローチ

Using a Lindbladian approach to model decoherence in two coupled nuclear spins via correlated phase-damping and amplitude damping noise channels ( http://arxiv.org/abs/2007.12972v1 )

ライセンス: Link先を確認
Harpreet Singh and Arvind and Kavita Dorai(参考訳) 本研究では、2つの結合核スピン系に存在する異なる秩序のコヒーレンスの緩和ダイナミクスについて検討した。 マルコフ緩和のリンドブラッドマスター方程式を考慮し,このような系に存在する固有雑音に対して,従来設計したモデルを用いた。 いくつかの2スピン系でゼロ,シングル,ダブルの量子コヒーレンスを実験的に生成し,完全状態トモグラフィーと計算状態の忠実度を行った。 これらの系におけるゼロおよびダブル量子コヒーレンスの崩壊を実験的に測定した。 実験データは、主雑音チャネルを、両スピンに独立に作用する一般化振幅減衰チャネルと共に、両スピンに同時に作用する相関位相減衰チャネルと考えるモデルによく適合する。 多重量子コヒーレンスの微分緩和は、両方のスピンに同時に作用する相関位相減衰チャネルの作用によって説明できる。

In this work, we studied the relaxation dynamics of coherences of different order present in a system of two coupled nuclear spins. We used a previously designed model for intrinsic noise present in such systems which considers the Lindblad master equation for Markovian relaxation. We experimentally created zero-, single- and double- quantum coherences in several two-spin systems and performed a complete state tomography and computed state fidelity. We experimentally measured the decay of zero- and double- quantum coherences in these systems. The experimental data fitted well to a model that considers the main noise channels to be a correlated phase damping channel acting simultaneously on both spins in conjunction with a generalized amplitude damping channel acting independently on both spins. The differential relaxation of multiple-quantum coherences can be ascribed to the action of a correlated phase damping channel acting simultaneously on both the spins.
翻訳日:2023-05-08 06:31:13 公開日:2020-07-25
# 量子フィッシャー情報に基づく真正三部絡み検出

Quantum Fisher information-based detection of genuine tripartite entanglement ( http://arxiv.org/abs/2007.12954v1 )

ライセンス: Link先を確認
Long-Mei Yang, Bao-Zhi Sun, Bin Chen, Shao-Ming Fei, Zhi-Xi Wang(参考訳) 遺伝的多部絡み合いは量子情報処理において重要な役割を果たす。 真のマルチパーティ・エンタングルメントの検出は、量子エンタングルメントの理論において、長い間難しい問題であった。 本稿では, 量子フィッシャー情報に基づく任意の3次元三部体状態の真の三部体絡み検出基準を提案する。 この基準は, 真の三部体絡みの検出において, 詳細な例により有効であることを示す。

Genuine multipartite entanglement plays important roles in quantum information processing. The detection of genuine multipartite entanglement has been long time a challenging problem in the theory of quantum entanglement. We propose a criterion for detecting genuine tripartite entanglement of arbitrary dimensional tripartite states based on quantum Fisher information. We show that this criterion is more effective for some states in detecting genuine tripartite entanglement by detailed example.
翻訳日:2023-05-08 06:31:02 公開日:2020-07-25
# ネットワークにおける量子非局所性は、ソース間の任意のレベルの独立で証明できる。

Quantum nonlocality in networks can be demonstrated with an arbitrarily small level of independence between the sources ( http://arxiv.org/abs/2007.12950v1 )

ライセンス: Link先を確認
Ivan \v{S}upi\'c, Jean-Daniel Bancal, Nicolas Brunner(参考訳) 量子非局所性は、全てのパーティが単一の測定しかできない場合、すなわち入力を受け取らない場合でもネットワークで観測できる。 これまでのところ、この効果はネットワーク内のすべてのソースが互いに完全に独立しているという仮定の下で実証されている。 ここでは、この独立の前提がどの程度緩和できるかを調査する。 質問を形式化した後、入力のない三角ネットワークでは、ソース間の独立性が任意に小さいと仮定しても、量子非局所性が観察できることを示した。 つまり、量子予測は3つの情報源が完全に相関しない限り、局所モデルでは再現できない。

Quantum nonlocality can be observed in networks even in the case where every party can only perform a single measurement, i.e. does not receive any input. So far, this effect has been demonstrated under the assumption that all sources in the network are fully independent from each other. Here we investigate to what extent this independence assumption can be relaxed. After formalizing the question, we show that, in the triangle network without inputs, quantum nonlocality can be observed, even when assuming only an arbitrarily small level of independence between the sources. This means that quantum predictions cannot be reproduced by a local model unless the three sources can be perfectly correlated.
翻訳日:2023-05-08 06:30:56 公開日:2020-07-25
# 離散ヒルベルト空間, 誕生規則, 量子重力

Discrete Hilbert Space, the Born Rule, and Quantum Gravity ( http://arxiv.org/abs/2007.12938v1 )

ライセンス: Link先を確認
Stephen D.H. Hsu(参考訳) 量子重力効果は、プランク長さの最小長(時空間隔)を示唆する。 これは、ヒルベルト空間自体が連続ではなく離散的であることを示唆する。 一つの意味するところは、いくつかの非常に小さなしきい値以下のノルムを持つ量子状態は存在しないということである。 エベレットが「マーベリック枝」と呼ぶものを排除することは、無崩壊量子力学におけるボルン則の出現に必要である。 これを量子重力の文脈で議論し、離散モデル(単純あるいは格子量子重力など)が、最小ノルムを持つ離散ヒルベルト空間を実際に示唆していることを示す。 これらの考察は、量子重力によって生成されたデコヒーレントな歴史(時空幾何学と物質場)で見られる極度の微粒化と関係している。

Quantum gravitational effects suggest a minimal length, or spacetime interval, of order the Planck length. This in turn suggests that Hilbert space itself may be discrete rather than continuous. One implication is that quantum states with norm below some very small threshold do not exist. The exclusion of what Everett referred to as maverick branches is necessary for the emergence of the Born Rule in no collapse quantum mechanics. We discuss this in the context of quantum gravity, showing that discrete models (such as simplicial or lattice quantum gravity) indeed suggest a discrete Hilbert space with minimum norm. These considerations are related to the ultimate level of fine-graining found in decoherent histories (of spacetime geometry plus matter fields) produced by quantum gravity.
翻訳日:2023-05-08 06:30:45 公開日:2020-07-25
# qma用マルチセオリーム型指定検証器nizk

Multi-theorem (Malicious) Designated-Verifier NIZK for QMA ( http://arxiv.org/abs/2007.12923v1 )

ライセンス: Link先を確認
Omri Shmueli(参考訳) マルチセオラムセキュリティを備えたQMAのための非対話型ゼロ知識引数システムを提案する。 我々のプロトコル設定は、さらに改良され、悪意のある指定検証器(MDV-NIZK)モデル(Quach, Rothblum, and Wichs, EUROCRYPT 2019)で構築される。 プロトコルのセキュリティはLearning with Errors Assumptionの下で確立されます。 我々の主な技術的貢献は、NPのNIZKを用いて、任意のシグマプロトコルを再利用可能なMDV-NIZKプロトコルにコンパイルする一般的な変換を示すことである。 我々の技術は古典的だが量子プロトコルに向いており、QMAのための再利用可能なMDV-NIZKの構築を可能にしている。

We present the first non-interactive zero-knowledge argument system for QMA with multi-theorem security. Our protocol setup constitutes an additional improvement and is constructed in the malicious designated-verifier (MDV-NIZK) model (Quach, Rothblum, and Wichs, EUROCRYPT 2019), where the setup consists of a trusted part that includes only a common uniformly random string and an untrusted part of classical public and secret verification keys, which even if sampled maliciously by the verifier, the zero knowledge property still holds. The security of our protocol is established under the Learning with Errors Assumption. Our main technical contribution is showing a general transformation that compiles any sigma protocol into a reusable MDV-NIZK protocol, using NIZK for NP. Our technique is classical but works for quantum protocols and allows the construction of a reusable MDV-NIZK for QMA.
翻訳日:2023-05-08 06:30:26 公開日:2020-07-25
# フォトニック結晶導波路における光と力学のカップリング

Coupling of Light and Mechanics in a Photonic Crystal Waveguide ( http://arxiv.org/abs/2007.12900v1 )

ライセンス: Link先を確認
J.-B. B\'eguin (1), Z. Qin (1 and 2), X. Luan (1), H. J. Kimble (1) ((1) Norman Bridge Laboratory of Physics MC12-33, California Institute of Technology, Pasadena, CA 91125, USA, (2) State Key Laboratory of Quantum Optics and Quantum Optics Devices, Institute of Opto-Electronics, Shanxi University, Taiyuan 030006, China)(参考訳) フォトニック結晶導波路(PCW)の熱駆動横振動の観測を報告する。 PCWは2つの平行なナノビームで構成され、ビーム間に240nmの真空ギャップがある。 pcwの誘導モード(gm)で伝搬する弱光プローブの位相へのビーム運動の伝達と振幅変調を誘電体帯域エッジからの距離及び近傍のプローブ周波数に対して、モデルを開発し、検証する。 我々のPCWは、近接場原子トラップのために設計されているので、PCWの表面近傍の光学的原子トラップに対する熱運動の有害な影響を評価する基礎となる。 長期の目標は、振動の個々のフォノンとPCWのGMで伝播する単一光子の強い結合を達成し、原子、光子、フォノンの量子レベルでのオプトメカニクスを可能にすることである。 ここで報告された実験とモデルは、標準量子限界(SQL)での機械的な動きの検知を含む、そのような目標を評価する基盤を提供する。

Observations of thermally driven transverse vibration of a photonic crystal waveguide (PCW) are reported. The PCW consists of two parallel nanobeams with a 240 nm vacuum gap between the beams. Models are developed and validated for the transduction of beam motion to phase and amplitude modulation of a weak optical probe propagating in a guided mode (GM) of the PCW for probe frequencies far from and near to the dielectric band edge. Since our PCW has been designed for near-field atom trapping, this research provides a foundation for evaluating possible deleterious effects of thermal motion on optical atomic traps near the surfaces of PCWs. Longer term goals are to achieve strong atom-mediated links between individual phonons of vibration and single photons propagating in the GMs of the PCW, thereby enabling opto-mechanics at the quantum level with atoms, photons, and phonons. The experiments and models reported here provide a basis for assessing such goals, including sensing mechanical motion at the Standard Quantum Limit (SQL).
翻訳日:2023-05-08 06:29:51 公開日:2020-07-25
# 可視化の利点を推定するための有界測度

A Bounded Measure for Estimating the Benefit of Visualization ( http://arxiv.org/abs/2002.05282v2 )

ライセンス: Link先を確認
Min Chen, Mateu Sbert, Alfie Abdul-Rahman, and Deborah Silver(参考訳) 情報理論は、可視化プロセスのコスト便益を分析するのに使うことができる。 しかし、現在の利益の尺度には、推定が容易でも直感的に解釈できない境界のない項が含まれている。 本研究では,非有界項を有界項に置き換え,既存のコスト便益尺度の改訂を提案する。 本稿では,Jenson-Shannon発散と本研究の一環として定式化された新しい発散測度を含む有界測度について検討する。 我々は、視覚分析を用いてマルチ基準比較をサポートし、より優れた数学的特性を持つ選択肢に探索を絞り込む。 2つの可視化ケーススタディにこれらの残りの選択肢を適用して実シナリオでの使用をインスタンス化する一方、収集された実世界のデータは、可視化の利点を推定するために使用できる有界測度の選択をさらに通知する。

Information theory can be used to analyze the cost-benefit of visualization processes. However, the current measure of benefit contains an unbounded term that is neither easy to estimate nor intuitive to interpret. In this work, we propose to revise the existing cost-benefit measure by replacing the unbounded term with a bounded one. We examine a number of bounded measures that include the Jenson-Shannon divergence and a new divergence measure formulated as part of this work. We use visual analysis to support the multi-criteria comparison, narrowing the search down to those options with better mathematical properties. We apply those remaining options to two visualization case studies to instantiate their uses in practical scenarios, while the collected real world data further informs the selection of a bounded measure, which can be used to estimate the benefit of visualization.
翻訳日:2023-01-01 20:30:55 公開日:2020-07-25
# 異常パターン検出による対向音例の同定

Identifying Audio Adversarial Examples via Anomalous Pattern Detection ( http://arxiv.org/abs/2002.05463v2 )

ライセンス: Link先を確認
Victor Akinwande, Celia Cintas, Skyler Speakman, Srihari Sridharan(参考訳) ディープニューラルネットワークに基づくオーディオ処理モデルは、対向オーディオ波形が良性サンプルと99.9%類似している場合でも、対向攻撃の影響を受けやすい。 DNNに基づく音声認識システムの広範な応用を考えると、敵のサンプルの存在を検出することは実用性が高い。 これらのモデルのアクティベーション空間に異常パターン検出技術を適用することで、オーディオ処理システムに対する最新かつ現在最先端の攻撃のうち2つが、一部のノードにおいて、予測されたより高いアクティベーションを系統的に導き、良質なサンプルの性能劣化を伴わずに最大0.98のAUCを検出できることを示す。

Audio processing models based on deep neural networks are susceptible to adversarial attacks even when the adversarial audio waveform is 99.9% similar to a benign sample. Given the wide application of DNN-based audio recognition systems, detecting the presence of adversarial examples is of high practical relevance. By applying anomalous pattern detection techniques in the activation space of these models, we show that 2 of the recent and current state-of-the-art adversarial attacks on audio processing systems systematically lead to higher-than-expected activation at some subset of nodes and we can detect these with up to an AUC of 0.98 with no degradation in performance on benign samples.
翻訳日:2023-01-01 13:12:41 公開日:2020-07-25
# 会員推測攻撃のデータとモデル依存性

Data and Model Dependencies of Membership Inference Attack ( http://arxiv.org/abs/2002.06856v5 )

ライセンス: Link先を確認
Shakila Mahjabin Tonni, Dinusha Vatsalan, Farhad Farokhi, Dali Kaafar, Zhigang Lu and Gioacchino Tangari(参考訳) 機械学習(ML)モデルは、MLモデルの予測出力を観察して、ターゲットデータセット内の所定のデータポイントのメンバシップを推測するメンバーシップ推論攻撃(MIA)に対して脆弱であることが示されている。 MIAの成功の鍵となる要因はまだ完全には分かっていないが、L2正規化 \cite{10shokri2017membership} やドロップアウト層 \cite{salem2018ml} のような既存の防御メカニズムは、モデルの過度な適合性のみを考慮している。 本稿では,データとMLモデル特性がMIAに対するML手法の脆弱性に与える影響を実証的に分析する。 この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。 特に,シャドウデータセットのサイズ,クラスと特徴のバランス,対象データセットのエントロピー,トレーニングモデルのコンフィギュレーションと公平性が,最も影響のある要因であることを示す。 これらの実験結果から,モデルオーバーフィッティングとともに,複数の特性が協調してmiaの成功に寄与することが示唆された。 実験結果に基づき,これらのデータとモデル特性を正規化剤として利用し,mlモデルからmiaを保護する。 提案する防御機構は,mlモデル予測ユーティリティを犠牲にすることなく,最大25\%のmia精度を低減できることを示した。

Machine learning (ML) models have been shown to be vulnerable to Membership Inference Attacks (MIA), which infer the membership of a given data point in the target dataset by observing the prediction output of the ML model. While the key factors for the success of MIA have not yet been fully understood, existing defense mechanisms such as using L2 regularization \cite{10shokri2017membership} and dropout layers \cite{salem2018ml} take only the model's overfitting property into consideration. In this paper, we provide an empirical analysis of the impact of both the data and ML model properties on the vulnerability of ML techniques to MIA. Our results reveal the relationship between MIA accuracy and properties of the dataset and training model in use. In particular, we show that the size of shadow dataset, the class and feature balance and the entropy of the target dataset, the configurations and fairness of the training model are the most influential factors. Based on those experimental findings, we conclude that along with model overfitting, multiple properties jointly contribute to MIA success instead of any single property. Building on our experimental findings, we propose using those data and model properties as regularizers to protect ML models against MIA. Our results show that the proposed defense mechanisms can reduce the MIA accuracy by up to 25\% without sacrificing the ML model prediction utility.
翻訳日:2022-12-31 11:58:31 公開日:2020-07-25
# ニューラルプログラム合成のための進化による合成データセットの作成

Creating Synthetic Datasets via Evolution for Neural Program Synthesis ( http://arxiv.org/abs/2003.10485v2 )

ライセンス: Link先を確認
Alexander Suh and Yuval Timen(参考訳) プログラム合成は、与えられた仕様に準拠したプログラムを自動的に生成するタスクである。 プログラムを特定する自然な方法は、望ましい入出力動作の例を提供することであり、現在のプログラム合成アプローチの多くは、ランダムに生成された入出力例をトレーニングした後、印象的な結果を得た。 しかし、最近の研究により、これらのアプローチのいくつかは、ランダムに生成された例とは異なるデータ分布に一般化していないことが判明した。 この問題は最先端のアプローチにも当てはまり、この問題に対処する現在の手法では不十分であることを示す。 次に,合成データ分布のバイアスを制御するための新しい逆アプローチを提案し,現在のアプローチよりも優れていることを示す。

Program synthesis is the task of automatically generating a program consistent with a given specification. A natural way to specify programs is to provide examples of desired input-output behavior, and many current program synthesis approaches have achieved impressive results after training on randomly generated input-output examples. However, recent work has discovered that some of these approaches generalize poorly to data distributions different from that of the randomly generated examples. We show that this problem applies to other state-of-the-art approaches as well and that current methods to counteract this problem are insufficient. We then propose a new, adversarial approach to control the bias of synthetic data distributions and show that it outperforms current approaches.
翻訳日:2022-12-20 23:41:15 公開日:2020-07-25
# Local Search - ニューラルネットワーク検索の強力なベースライン

Local Search is a Remarkably Strong Baseline for Neural Architecture Search ( http://arxiv.org/abs/2004.08996v3 )

ライセンス: Link先を確認
T. Den Ottelander, A. Dushatskiy, M. Virgolin, P. A. N. Bosman(参考訳) ニューラルネットワーク設計の自動化であるニューラルアーキテクチャサーチ(NAS)は、近年、ますます複雑な検索アルゴリズムが提案され、大きな人気を集めている。 しかし、単純なベースラインとの堅実な比較は、しばしば欠落している。 同時に、最近の振り返り研究により、多くの新しいアルゴリズムがランダム検索(RS)に匹敵しないことがわかった。 本研究では,NASのための簡単な局所探索(LS)アルゴリズムを初めて検討する。 我々はネットワークの精度とネットワークの複雑さを2つの目的として、多目的nasの定式化を特に考慮している。 提案したLSアルゴリズムは、RSと2つの進化的アルゴリズム(EA)と比較される。 再現性を向上するために,CIFAR-10とCIFAR-100という2つの画像分類タスクに対して200Kのネットワーク評価を含む,MacroNAS-C10とMacroNAS-C100というベンチマークデータセットを作成し,リリースする。 我々のベンチマークは既存のベンチマークを補完するように設計されており、特に多目的探索に適している。 さらに、より大きなアーキテクチャ空間を持つ問題のバージョンも検討しています。 検討されたアルゴリズムが検索空間を根本的に異なる方法で探索していることを発見し、示す一方で、LSはRSを著しく上回り、最先端のEAと同等の性能を発揮することも見出した。 このことは、LSがNASの新しいNASアルゴリズムをベンチマークすべきNASの真の競合ベースラインであることを示す強力な証拠となると信じている。

Neural Architecture Search (NAS), i.e., the automation of neural network design, has gained much popularity in recent years with increasingly complex search algorithms being proposed. Yet, solid comparisons with simple baselines are often missing. At the same time, recent retrospective studies have found many new algorithms to be no better than random search (RS). In this work we consider, for the first time, a simple Local Search (LS) algorithm for NAS. We particularly consider a multi-objective NAS formulation, with network accuracy and network complexity as two objectives, as understanding the trade-off between these two objectives is arguably the most interesting aspect of NAS. The proposed LS algorithm is compared with RS and two evolutionary algorithms (EAs), as these are often heralded as being ideal for multi-objective optimization. To promote reproducibility, we create and release two benchmark datasets, named MacroNAS-C10 and MacroNAS-C100, containing 200K saved network evaluations for two established image classification tasks, CIFAR-10 and CIFAR-100. Our benchmarks are designed to be complementary to existing benchmarks, especially in that they are better suited for multi-objective search. We additionally consider a version of the problem with a much larger architecture space. While we find and show that the considered algorithms explore the search space in fundamentally different ways, we also find that LS substantially outperforms RS and even performs nearly as good as state-of-the-art EAs. We believe that this provides strong evidence that LS is truly a competitive baseline for NAS against which new NAS algorithms should be benchmarked.
翻訳日:2022-12-11 18:12:09 公開日:2020-07-25
# 半内積空間における一般化不変性に対する凸表現学習

Convex Representation Learning for Generalized Invariance in Semi-Inner-Product Space ( http://arxiv.org/abs/2004.12209v3 )

ライセンス: Link先を確認
Yingyi Ma, Vignesh Ganapathiraman, Yaoliang Yu, Xinhua Zhang(参考訳) 不変性(一般感覚で定義される)は表現学習の最も効果的な先駆者の一つである。 パラメトリックモデルの直接分解は、少数の不変量に対してのみ実現可能であるが、正規化アプローチは、一般性の改善にもかかわらず、非凸最適化をもたらす。 本研究では,半ノルムとしてモデル化できる様々な一般化不変量に対する凸表現学習アルゴリズムを開発した。 半インナー積空間におけるカーネル表現子に対する新しいユークリッド埋め込みを導入し、近似境界を確立する。 これにより、不変表現は、実験で確認されたように効率的かつ効果的に学習でき、正確な予測が可能となる。

Invariance (defined in a general sense) has been one of the most effective priors for representation learning. Direct factorization of parametric models is feasible only for a small range of invariances, while regularization approaches, despite improved generality, lead to nonconvex optimization. In this work, we develop a convex representation learning algorithm for a variety of generalized invariances that can be modeled as semi-norms. Novel Euclidean embeddings are introduced for kernel representers in a semi-inner-product space, and approximation bounds are established. This allows invariant representations to be learned efficiently and effectively as confirmed in our experiments, along with accurate predictions.
翻訳日:2022-12-09 21:27:07 公開日:2020-07-25
# 損失マスキングを用いた教師学習フレームワークを用いた大規模音響イベント認識における欠落ラベルの対応

Addressing Missing Labels in Large-Scale Sound Event Recognition Using a Teacher-Student Framework With Loss Masking ( http://arxiv.org/abs/2005.00878v2 )

ライセンス: Link先を確認
Eduardo Fonseca, Shawn Hershey, Manoj Plakal, Daniel P. W. Ellis, Aren Jansen, R. Channing Moore, Xavier Serra(参考訳) 音響イベント認識におけるラベルノイズの研究は、最近大規模でノイズの多いデータセットの出現で注目を集めている。 この研究は、ラベルの欠落、大きなオーディオデータセットの大きな弱点の1つ、そしてオーディオセットの最も顕著な問題の1つに対処する。 そこで本研究では,損失マスキングを用いた教師学習フレームワークをベースとした簡易かつモデルに依存しない手法を提案し,まず最も重要なラベル候補を識別し,学習過程においてその貢献を無視する。 学習ラベルセットの簡易最適化により,追加計算をすることなく認識性能が向上することがわかった。 改善の大部分は、欠落しているラベルのごく一部を無視することによるものです。 また、ラベルの欠落によるダメージは、トレーニングセットが小さくなるにつれて大きくなるが、大量のオーディオでトレーニングしても観察可能であることも示している。 これらの洞察は他の大規模データセットに一般化できると考えています。

The study of label noise in sound event recognition has recently gained attention with the advent of larger and noisier datasets. This work addresses the problem of missing labels, one of the big weaknesses of large audio datasets, and one of the most conspicuous issues for AudioSet. We propose a simple and model-agnostic method based on a teacher-student framework with loss masking to first identify the most critical missing label candidates, and then ignore their contribution during the learning process. We find that a simple optimisation of the training label set improves recognition performance without additional computation. We discover that most of the improvement comes from ignoring a critical tiny portion of the missing labels. We also show that the damage done by missing labels is larger as the training set gets smaller, yet it can still be observed even when training with massive amounts of audio. We believe these insights can generalize to other large-scale datasets.
翻訳日:2022-12-07 13:09:49 公開日:2020-07-25
# 不確実性と時間制約下における動的マルチロボットタスク割当

Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints ( http://arxiv.org/abs/2005.13109v3 )

ライセンス: Link先を確認
Shushman Choudhury, Jayesh K. Gupta, Mykel J. Kochenderfer, Dorsa Sadigh, Jeannette Bohg(参考訳) 時間窓制約やタスク完了の不確実性の下で,タスクを複数のエージェントに動的に割り当てる問題を考える。 我々の目標は、運用の地平線の終わりに失敗するタスクの数を最小化することである。 本稿では,不確実性とマルチエージェント協調下での逐次的意思決定の重要な計算課題を分離し,それらを階層的に扱うマルチロボット割当アルゴリズムを提案する。 下層は木探索を伴う動的プログラミングを用いて個々のエージェントのポリシーを計算し、上層は有効なマルチエージェント割り当てを得るための個々のプランの競合を解決する。 我々のアルゴリズムであるScoBA(Stochastic Conflict-Based Allocation)は、いくつかの合理的な仮定の下で予測と完了が最適である。 実際、scobaは計画と実行をオンラインでインターリーブできるほど計算効率が良い。 タスク完了の基準として、SCoBAは一貫して多くのベースラインメソッドを上回り、完全なルックアヘッドを持つオラクルに対して強力な競争性能を示す。 また、タスク数やエージェント数にもうまく対応している。 我々は,複数アームコンベヤベルトピック・アンド・プレースと複数ドローン配送ディスパッチの2つの異なる領域において,幅広いシミュレーション結果の検証を行った。

We consider the problem of dynamically allocating tasks to multiple agents under time window constraints and task completion uncertainty. Our objective is to minimize the number of unsuccessful tasks at the end of the operation horizon. We present a multi-robot allocation algorithm that decouples the key computational challenges of sequential decision-making under uncertainty and multi-agent coordination and addresses them in a hierarchical manner. The lower layer computes policies for individual agents using dynamic programming with tree search, and the upper layer resolves conflicts in individual plans to obtain a valid multi-agent allocation. Our algorithm, Stochastic Conflict-Based Allocation (SCoBA), is optimal in expectation and complete under some reasonable assumptions. In practice, SCoBA is computationally efficient enough to interleave planning and execution online. On the metric of successful task completion, SCoBA consistently outperforms a number of baseline methods and shows strong competitive performance against an oracle with complete lookahead. It also scales well with the number of tasks and agents. We validate our results over a wide range of simulations on two distinct domains: multi-arm conveyor belt pick-and-place and multi-drone delivery dispatch in a city.
翻訳日:2022-11-28 09:36:06 公開日:2020-07-25
# あなたはマスクをかぶっていますか。 周期一貫性GANによる音声からのマスク検出の改善

Are you wearing a mask? Improving mask detection from speech using augmentation by cycle-consistent GANs ( http://arxiv.org/abs/2006.10147v2 )

ライセンス: Link先を確認
Nicolae-C\u{a}t\u{a}lin Ristea, Radu Tudor Ionescu(参考訳) スピーチからマスクを着用しているかどうかを判断するタスクは、法医学調査、外科医間のコミュニケーション、新型コロナウイルスなどの感染症から身を守る人たちのモデリングに有用である。 本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。 私たちのアプローチは (i)二クラス間(仮面付き及び無マスク型)の非対訳にサイクル・コンシスタンシー損失を伴う生成的反逆ネットワーク(gans)を訓練すること。 二 サイクル一貫性GANを用いて新たな訓練発話を生成し、各翻訳発話に反対ラベルを割り当てる。 オリジナルおよび翻訳された発話は、様々な深さのresnetニューラルネットワークのセットに入力として提供されるスペクトログラムに変換される。 ネットワークはSVM(Support Vector Machines)分類器を介してアンサンブルに結合される。 このシステムでは、InterSPEECH 2020 Computational Paralinguistics ChallengeのMask Sub-Challenge(MSC)に参加し、主催者の提案するベースラインを2.8%上回った。 データ拡張技術は、プライベートテストセットのパフォーマンスを0.9%向上させた。 さらに,我々のデータ拡張手法は,他のベースラインおよび最先端の強化手法よりも優れた結果が得られることを示す。

The task of detecting whether a person wears a face mask from speech is useful in modelling speech in forensic investigations, communication between surgeons or people protecting themselves against infectious diseases such as COVID-19. In this paper, we propose a novel data augmentation approach for mask detection from speech. Our approach is based on (i) training Generative Adversarial Networks (GANs) with cycle-consistency loss to translate unpaired utterances between two classes (with mask and without mask), and on (ii) generating new training utterances using the cycle-consistent GANs, assigning opposite labels to each translated utterance. Original and translated utterances are converted into spectrograms which are provided as input to a set of ResNet neural networks with various depths. The networks are combined into an ensemble through a Support Vector Machines (SVM) classifier. With this system, we participated in the Mask Sub-Challenge (MSC) of the INTERSPEECH 2020 Computational Paralinguistics Challenge, surpassing the baseline proposed by the organizers by 2.8%. Our data augmentation technique provided a performance boost of 0.9% on the private test set. Furthermore, we show that our data augmentation approach yields better results than other baseline and state-of-the-art augmentation methods.
翻訳日:2022-11-19 21:28:36 公開日:2020-07-25
# ランドマークガイダンス 独立時空間チャネル注意と相補的文脈情報に基づく表情認識

Landmark Guidance Independent Spatio-channel Attention and Complementary Context Information based Facial Expression Recognition ( http://arxiv.org/abs/2007.10298v2 )

ライセンス: Link先を確認
Darshan Gera and S Balasubramanian(参考訳) 現実のシナリオで表情を認識する最近のトレンドは、注意に基づく畳み込みニューラルネットワーク(cnns)をローカルに展開して、顔領域の重要性を示し、パフォーマンス向上のためにグローバルな顔特徴や/またはその他の補完的なコンテキスト情報と組み合わせることである。 しかし、咬合やポーズの変化が存在する場合、異なるチャンネルは異なる応答を示し、さらに、チャンネルの応答強度は空間的な場所によって異なる。 また、現代の表情認識(fer)アーキテクチャは注意を引くためにランドマーク検出器のような外部ソースに依存する。 ランドマーク検出器の故障はFERにカスケード効果をもたらす。 さらに、補完的な文脈情報を計算するために入力される特徴の関連性に重点を置いていない。 本研究では, 上記の観測を生かして, ランドマーク検出器から情報を求めることなく, 空間的位置当たりのチャネル当たりの局所的および大域的注意を新しいスペースチャネルアテンションネット (SCAN) を通じて獲得する FER のエンドツーエンドアーキテクチャを提案する。 SCANは補完的コンテキスト情報(CCI)ブランチによって補完される。 さらに、効率的なチャネルアテンション(ECA)を用いて、CCIに入力される特徴の関連性も考慮する。 提案するアーキテクチャによって学習される表現は、オクルージョンやポーズの変化に対して頑健である。 提案モデルのロバスト性と優れた性能は,in-labおよびin-the-wildデータセット(affectnet, ferplus, raf-db, fed-ro, sfew, ck+, oulu-casia, jaffe)と,covid-19シナリオにおけるマスクドフェイスに似た2つの顔マスクデータセットで実証されている。 コードはhttps://github.com/1980x/SCAN-CCI-FERで公開されている。

A recent trend to recognize facial expressions in the real-world scenario is to deploy attention based convolutional neural networks (CNNs) locally to signify the importance of facial regions and, combine it with global facial features and/or other complementary context information for performance gain. However, in the presence of occlusions and pose variations, different channels respond differently, and further that the response intensity of a channel differ across spatial locations. Also, modern facial expression recognition(FER) architectures rely on external sources like landmark detectors for defining attention. Failure of landmark detector will have a cascading effect on FER. Additionally, there is no emphasis laid on the relevance of features that are input to compute complementary context information. Leveraging on the aforementioned observations, an end-to-end architecture for FER is proposed in this work that obtains both local and global attention per channel per spatial location through a novel spatio-channel attention net (SCAN), without seeking any information from the landmark detectors. SCAN is complemented by a complementary context information (CCI) branch. Further, using efficient channel attention (ECA), the relevance of features input to CCI is also attended to. The representation learnt by the proposed architecture is robust to occlusions and pose variations. Robustness and superior performance of the proposed model is demonstrated on both in-lab and in-the-wild datasets (AffectNet, FERPlus, RAF-DB, FED-RO, SFEW, CK+, Oulu-CASIA and JAFFE) along with a couple of constructed face mask datasets resembling masked faces in COVID-19 scenario. Codes are publicly available at https://github.com/1980x/SCAN-CCI-FER
翻訳日:2022-11-08 14:06:18 公開日:2020-07-25
# 強化学習におけるラグランジュ双対性

Lagrangian Duality in Reinforcement Learning ( http://arxiv.org/abs/2007.09998v3 )

ライセンス: Link先を確認
Pranay Pasula(参考訳) 双対性は、機械学習の教師あり学習など特定の分野で広く使われているが、強化学習(RL)など、他の分野ではあまり研究されていない。 本稿では,リヒャルト・ベルマン(Richard Bellman)の値反復のような分野を先導した分野から,TRPO,A3C,GAILといった過去数年間に実施された分野まで,多種多様なRL作業に双対性がどのように関与しているかを示す。 強化学習において、特に値反復や動的プログラミングが用いられる場合や、初等または二次近似が初期の難解な問題を扱いやすい凸プログラムに変換する場合において、双対性は珍しくないことが示されている。

Although duality is used extensively in certain fields, such as supervised learning in machine learning, it has been much less explored in others, such as reinforcement learning (RL). In this paper, we show how duality is involved in a variety of RL work, from that which spearheaded the field, such as Richard Bellman's value iteration, to that which was done within just the past few years yet has already had significant impact, such as TRPO, A3C, and GAIL. We show that duality is not uncommon in reinforcement learning, especially when value iteration, or dynamic programming, is used or when first or second order approximations are made to transform initially intractable problems into tractable convex programs.
翻訳日:2022-11-08 10:11:44 公開日:2020-07-25
# TSIT:画像間翻訳のためのシンプルでヴァーサタイルなフレームワーク

TSIT: A Simple and Versatile Framework for Image-to-Image Translation ( http://arxiv.org/abs/2007.12072v2 )

ライセンス: Link先を確認
Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, Chen Change Loy(参考訳) 画像間翻訳のためのシンプルで多用途なフレームワークを提案する。 我々は,正規化層の重要性を把握し,新たに提案された特徴変換を粗大に表現した2ストリーム生成モデルを提案する。 これにより、マルチスケールな意味構造情報とスタイル表現をネットワークによって効果的にキャプチャ・融合することができ、教師なし設定と教師なし設定の両方で様々なタスクにスケールできる。 追加の制約(例えば、サイクル整合性)は不要で、非常にクリーンで単純なメソッドに寄与する。 任意のスタイル制御によるマルチモーダル画像合成が可能となる。 体系的な研究では,提案手法と最先端タスク固有ベースラインを比較し,知覚的品質と定量的評価の両方においてその効果を検証した。

We introduce a simple and versatile framework for image-to-image translation. We unearth the importance of normalization layers, and provide a carefully designed two-stream generative model with newly proposed feature transformations in a coarse-to-fine fashion. This allows multi-scale semantic structure information and style representation to be effectively captured and fused by the network, permitting our method to scale to various tasks in both unsupervised and supervised settings. No additional constraints (e.g., cycle consistency) are needed, contributing to a very clean and simple method. Multi-modal image synthesis with arbitrary style control is made possible. A systematic study compares the proposed method with several state-of-the-art task-specific baselines, verifying its effectiveness in both perceptual quality and quantitative evaluations.
翻訳日:2022-11-07 12:20:43 公開日:2020-07-25
# 変分データ同化モデルの学習と解法

Learning Variational Data Assimilation Models and Solvers ( http://arxiv.org/abs/2007.12941v1 )

ライセンス: Link先を確認
Ronan Fablet, Bertrand Chapron, Lucas. Drumetz, Etienne Memin, Olivier Pannekoucke, Francois Rousseau(参考訳) 本稿では,学習の観点からの変動データ同化について述べる。 データ同化(data assimilation)は、いくつかの状態の時間発展を再構築することを目的としている。 ディープラーニングフレームワークに組み込まれた自動微分ツールを用いて,データ同化のためのエンドツーエンドニューラルネットワークアーキテクチャを導入する。 ニューラルネットワークとして実装された変分モデルと勾配に基づく解法という,2つの重要なコンポーネントで構成されている。 提案するエンドツーエンド学習アーキテクチャの重要な特徴は、教師なし戦略と教師なし戦略の両方を用いてNNモデルをトレーニングできることである。 Lorenz-63 と Lorenz-96 の数値実験では、復元性能と最適化複雑性の両面から、古典的な勾配に基づく変動コストの最小化を報告している。 興味深いことに、真の Lorenz-63 と Lorenz-96 ODE 表現から発行される変分モデルが、最高の再構成性能に繋がらないことも示している。 これらの結果は、地球科学における同化モデルの仕様化に向けた新たな研究の道を開くかもしれない。

This paper addresses variational data assimilation from a learning point of view. Data assimilation aims to reconstruct the time evolution of some state given a series of observations, possibly noisy and irregularly-sampled. Using automatic differentiation tools embedded in deep learning frameworks, we introduce end-to-end neural network architectures for data assimilation. It comprises two key components: a variational model and a gradient-based solver both implemented as neural networks. A key feature of the proposed end-to-end learning architecture is that we may train the NN models using both supervised and unsupervised strategies. Our numerical experiments on Lorenz-63 and Lorenz-96 systems report significant gain w.r.t. a classic gradient-based minimization of the variational cost both in terms of reconstruction performance and optimization complexity. Intriguingly, we also show that the variational models issued from the true Lorenz-63 and Lorenz-96 ODE representations may not lead to the best reconstruction performance. We believe these results may open new research avenues for the specification of assimilation models in geoscience.
翻訳日:2022-11-07 01:30:41 公開日:2020-07-25
# プロトタイプネットワークを用いたFew-Shotキーワードスポッティング

Few-Shot Keyword Spotting With Prototypical Networks ( http://arxiv.org/abs/2007.14463v1 )

ライセンス: Link先を確認
Archit Parnami, Minwoo Lee(参考訳) 特定のコマンドやキーワードを認識するキーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。 キーワードの集合を認識するために、最近のディープラーニングベースのアプローチのほとんどは、多数のサンプルでトレーニングされたニューラルネットワークを使用して、事前に定義されたキーワードを識別する。 これにより、新しいユーザ定義キーワードの認識が制限される。 そこで、まずこの問題を数発のキーワードスポッティングとして定式化し、計量学習を用いてアプローチする。 この研究を可能にするために、Few-shot Google Speech Commandsデータセットを合成および公開する。 次に,プロトタイプネットワーク上の時間的および拡張的畳み込みを用いた数ショットキーワードスポッティング問題の解を提案する。 比較実験により,少数のサンプルを用いて新しいキーワードのキーワードスポッティングを示す。

Recognizing a particular command or a keyword, keyword spotting has been widely used in many voice interfaces such as Amazon's Alexa and Google Home. In order to recognize a set of keywords, most of the recent deep learning based approaches use a neural network trained with a large number of samples to identify certain pre-defined keywords. This restricts the system from recognizing new, user-defined keywords. Therefore, we first formulate this problem as a few-shot keyword spotting and approach it using metric learning. To enable this research, we also synthesize and publish a Few-shot Google Speech Commands dataset. We then propose a solution to the few-shot keyword spotting problem using temporal and dilated convolutions on prototypical networks. Our comparative experimental results demonstrate keyword spotting of new keywords using just a small number of samples.
翻訳日:2022-11-07 01:30:24 公開日:2020-07-25
# DNNに基づくビジュアル分析のための事前処理と推論の協調最適化

Jointly Optimizing Preprocessing and Inference for DNN-based Visual Analytics ( http://arxiv.org/abs/2007.13005v1 )

ライセンス: Link先を確認
Daniel Kang, Ankit Mathur, Teja Veeramacheneni, Peter Bailis, Matei Zaharia(参考訳) ディープニューラルネットワーク(DNN)は、大規模なコーパスを問合せするための人気が高まっているが、その重要なランタイムは依然として研究の活発な領域である。 その結果、ユーザーは精度と速度をトレードオフできるようになり、コスト削減のためのシステムと最適化が提案された。 本研究では,現代のアクセラレータ上での視覚分析システムにおけるエンドツーエンドDNNの実行について検討する。 新たな測定研究を通じて,データの前処理(デコード,リサイズなど)が,現代のハードウェア上の多くのビジュアル分析システムにおいてボトルネックとなることを示した。 プリプロセッシングのボトルネックに対処するために、エンド・ツー・エンドの視覚分析システムに2つの最適化を導入する。 まず,既存の低解像度の視覚データを用いて,精度とスループットのトレードオフを実現する新しい手法を提案する。 次に,効率的なビジュアルDNN推論のためのランタイムエンジンを開発する。 このランタイムエンジン a) 推論のための効率的なパイプライン前処理およびdnn実行 b)cpu又はgpu上の前処理操作をハードウェア及び入力認識方式で配置すること。 c) 高スループット実行のためのメモリとスレッディングを効率的に管理する。 これらの最適化を新しいシステムであるSmolに実装し、8つのビジュアルデータセット上でSmolを評価する。 この最適化により,近年のビジュアル分析よりも,エンドツーエンドのスループットを最大5.9倍の精度で向上できることを示す。

While deep neural networks (DNNs) are an increasingly popular way to query large corpora of data, their significant runtime remains an active area of research. As a result, researchers have proposed systems and optimizations to reduce these costs by allowing users to trade off accuracy and speed. In this work, we examine end-to-end DNN execution in visual analytics systems on modern accelerators. Through a novel measurement study, we show that the preprocessing of data (e.g., decoding, resizing) can be the bottleneck in many visual analytics systems on modern hardware. To address the bottleneck of preprocessing, we introduce two optimizations for end-to-end visual analytics systems. First, we introduce novel methods of achieving accuracy and throughput trade-offs by using natively present, low-resolution visual data. Second, we develop a runtime engine for efficient visual DNN inference. This runtime engine a) efficiently pipelines preprocessing and DNN execution for inference, b) places preprocessing operations on the CPU or GPU in a hardware- and input-aware manner, and c) efficiently manages memory and threading for high throughput execution. We implement these optimizations in a novel system, Smol, and evaluate Smol on eight visual datasets. We show that its optimizations can achieve up to 5.9x end-to-end throughput improvements at a fixed accuracy over recent work in visual analytics.
翻訳日:2022-11-07 01:28:42 公開日:2020-07-25
# ディープラーニングにおける強化スケーリングの事例--ハイブリッド並列学習による大規模3次元CNNの訓練

The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs with Hybrid Parallelism ( http://arxiv.org/abs/2007.12856v1 )

ライセンス: Link先を確認
Yosuke Oyama, Naoya Maruyama, Nikoli Dryden, Erin McCarthy, Peter Harrington, Jan Balewski, Satoshi Matsuoka, Peter Nugent, Brian Van Essen(参考訳) 大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。 深層学習に基づく新しい科学ワークフローでは、大規模で高次元のサンプルを用いたモデルトレーニングがしばしば必要となる。 我々は、計算とi/oの両方を含むエンドツーエンドのトレーニングパイプライン全体にハイブリッド並列性を適用することで、これらの課題を解決する。 我々のハイブリッド並列アルゴリズムは、空間領域に1つのサンプルを分割する空間並列性で標準的なデータ並列性を拡張し、メモリ容量がより大きいミニバッチ次元を超えて強力なスケーリングを実現する。 提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。 我々の総合的なパフォーマンス調査によると、2KのGPUを使用して両方のネットワークで優れた弱さと強力なスケーリングを実現することができる。 さらに,従来よりもはるかに大きなサンプルを用いたコスモフローのトレーニングを可能にし,予測精度の桁違いな改善を実現する。

We present scalable hybrid-parallel algorithms for training large-scale 3D convolutional neural networks. Deep learning-based emerging scientific workflows often require model training with large, high-dimensional samples, which can make training much more costly and even infeasible due to excessive memory usage. We solve these challenges by extensively applying hybrid parallelism throughout the end-to-end training pipeline, including both computations and I/O. Our hybrid-parallel algorithm extends the standard data parallelism with spatial parallelism, which partitions a single sample in the spatial domain, realizing strong scaling beyond the mini-batch dimension with a larger aggregated memory capacity. We evaluate our proposed training algorithms with two challenging 3D CNNs, CosmoFlow and 3D U-Net. Our comprehensive performance studies show that good weak and strong scaling can be achieved for both networks using up 2K GPUs. More importantly, we enable training of CosmoFlow with much larger samples than previously possible, realizing an order-of-magnitude improvement in prediction accuracy.
翻訳日:2022-11-07 01:28:23 公開日:2020-07-25
# マルチヘッド注意による臨床ノートからアウトカム固有の問題リストを動的に抽出する

Dynamically Extracting Outcome-Specific Problem Lists from Clinical Notes with Guided Multi-Headed Attention ( http://arxiv.org/abs/2008.01197v1 )

ライセンス: Link先を確認
Justin Lovelace, Nathan C. Hurley, Adrian D. Haimovich, Bobak J. Mortazavi(参考訳) 問題リストは、臨床医に患者の医療上の問題の適切な要約を提供することを目的としており、多くの電子医療記録システムに埋め込まれている。 その重要性にもかかわらず、問題リストはしばしば解決されたか、現在無関係な条件で散らばっている。 本研究では,臨床ノートから診断・治療情報を抽出し,抽出した医療問題を患者結果の予測に利用する新しいエンドツーエンドフレームワークを開発する。 この枠組みは、ドメイン内で使用される既存のモデルよりも高性能で解釈可能であり、バウンスバック再生のau-roc 0.710と、icu放電後に生じる病院内死亡の0.869である。 我々は,寛解率と死亡率の両方のリスク因子を特定し,その定量的重要性とともに臨床上の問題を呈する動的問題リストの開発に,我々の枠組みが有効であることを示す。 我々は, 医療専門家と質的ユーザ調査を行い, 提案フレームワークが作成するリストを好意的に捉え, 強力なベースラインよりも効果的な臨床判断支援ツールであることを示す。

Problem lists are intended to provide clinicians with a relevant summary of patient medical issues and are embedded in many electronic health record systems. Despite their importance, problem lists are often cluttered with resolved or currently irrelevant conditions. In this work, we develop a novel end-to-end framework that first extracts diagnosis and procedure information from clinical notes and subsequently uses the extracted medical problems to predict patient outcomes. This framework is both more performant and more interpretable than existing models used within the domain, achieving an AU-ROC of 0.710 for bounceback readmission and 0.869 for in-hospital mortality occurring after ICU discharge. We identify risk factors for both readmission and mortality outcomes and demonstrate that our framework can be used to develop dynamic problem lists that present clinical problems along with their quantitative importance. We conduct a qualitative user study with medical experts and demonstrate that they view the lists produced by our framework favorably and find them to be a more effective clinical decision support tool than a strong baseline.
翻訳日:2022-11-07 01:27:20 公開日:2020-07-25
# DD-CNN:低複雑さ音響シーン分類のための奥行き畳み込みニューラルネットワーク

DD-CNN: Depthwise Disout Convolutional Neural Network for Low-complexity Acoustic Scene Classification ( http://arxiv.org/abs/2007.12864v1 )

ライセンス: Link先を確認
Jingqiao Zhao, Zhen-Hua Feng, Qiuqiang Kong, Xiaoning Song, Xiao-Jun Wu(参考訳) 本稿では,都市音響シーンの検出と分類のためのDepthwise Disout Convolutional Neural Network (DD-CNN)を提案する。 具体的には,ネットワークの入力に対する音響信号の特徴表現としてlog-melを用いる。 提案するdd-cnnでは,ネットワークの複雑さを軽減するために奥行き分離可能な畳み込みが用いられる。 さらに、SpecAugmentとDisoutはさらなるパフォーマンス向上に使用される。 実験の結果,DD-CNNは音声断片から識別音響特性を学習し,ネットワークの複雑さを効果的に低減できることがわかった。 DD-CNNはDCASE2020 Challengeの低複雑さ音響シーン分類タスクに利用され,92.04%の精度で検証を行った。

This paper presents a Depthwise Disout Convolutional Neural Network (DD-CNN) for the detection and classification of urban acoustic scenes. Specifically, we use log-mel as feature representations of acoustic signals for the inputs of our network. In the proposed DD-CNN, depthwise separable convolution is used to reduce the network complexity. Besides, SpecAugment and Disout are used for further performance boosting. Experimental results demonstrate that our DD-CNN can learn discriminative acoustic characteristics from audio fragments and effectively reduce the network complexity. Our DD-CNN was used for the low-complexity acoustic scene classification task of the DCASE2020 Challenge, which achieves 92.04% accuracy on the validation set.
翻訳日:2022-11-07 01:27:02 公開日:2020-07-25
# マルコフ決定過程とマルチアクションレスバンドのシミュレーションに基づくアルゴリズム

Simulation Based Algorithms for Markov Decision Processes and Multi-Action Restless Bandits ( http://arxiv.org/abs/2007.12933v1 )

ライセンス: Link先を確認
Rahul Meshram and Kesav Kaza(参考訳) 我々は,多次元マルコフ決定過程を検討し,長期割引報酬最適化問題を定式化する。 シミュレーションに基づく2つのアルゴリズム-Monte Carloのロールアウトポリシーと並列ロールアウトポリシーについて検討し、これらのポリシーの様々な特性について論じる。 次に、多次元状態空間と多動作帯域モデルを備えたレスレスマルチアームバンド(RMAB)を考える。 標準的なRMABは各腕に対して2つのアクションからなるが、RMABでは各腕に対して2つのアクションがある。 RMABの一般的なアプローチはWhittle Indexベースのヒューリスティックポリシーである。 インデックスビリティは、インデックスベースのポリシーを使用するための重要な要件である。 これに基づいてRMABはインデクサブルまたは非インデクサブルバンディットに分類される。 私たちの関心は、インデックス付きおよび非インデックス型のrestless banditに対するモンテカルロロールアウトポリシーの研究にあります。 まず、標準のインデックス可能なrmab(two-action model)を分析し、インデックスベースのポリシーアプローチについて論じる。 モンテカルロロールアウトポリシを用いた近似インデックス計算アルゴリズムを提案する。 このアルゴリズムの収束は、2時間スケール確率近似スキームを用いて示される。 その後、インデクサブルRMABの分析を行い、インデクサブルポリシーのアプローチについて議論する。 また,モンテカルロのロールアウトポリシを用いて,標準およびマルチアクションバンディットの非インデクサブルRMABについても検討した。

We consider multi-dimensional Markov decision processes and formulate a long term discounted reward optimization problem. Two simulation based algorithms---Monte Carlo rollout policy and parallel rollout policy are studied, and various properties for these policies are discussed. We next consider a restless multi-armed bandit (RMAB) with multi-dimensional state space and multi-actions bandit model. A standard RMAB consists of two actions for each arms whereas in multi-actions RMAB, there are more that two actions for each arms. A popular approach for RMAB is Whittle index based heuristic policy. Indexability is an important requirement to use index based policy. Based on this, an RMAB is classified into indexable or non-indexable bandits. Our interest is in the study of Monte-Carlo rollout policy for both indexable and non-indexable restless bandits. We first analyze a standard indexable RMAB (two-action model) and discuss an index based policy approach. We present approximate index computation algorithm using Monte-Carlo rollout policy. This algorithm's convergence is shown using two-timescale stochastic approximation scheme. Later, we analyze multi-actions indexable RMAB, and discuss the index based policy approach. We also study non-indexable RMAB for both standard and multi-actions bandits using Monte-Carlo rollout policy.
翻訳日:2022-11-07 01:26:30 公開日:2020-07-25
# 潜在変動予測可能性を持つ不連続表現の学習

Learning Disentangled Representations with Latent Variation Predictability ( http://arxiv.org/abs/2007.12885v1 )

ライセンス: Link先を確認
Xinqi Zhu and Chang Xu and Dacheng Tao(参考訳) 潜在トラバーサル(英: latent traversal)は、不連続な潜在表現を視覚化する一般的なアプローチである。 潜在表現の1つの単位に多くのバリエーションが与えられると、データの変動の1つの要因が変化し、他の要素が修正されることが期待される。 しかし、この印象的な実験的観察は、非絡み合い表現を学習する目的関数に明示的に符号化されることは滅多にない。 本稿では,潜在不連続表現の変動予測可能性を定義する。 一つの次元で異なる潜在符号によって生成される画像対を考えると、表現がうまく絡み合っている場合、この変化次元はこれらの画像対と密接に相関する。 逆生成過程において、潜在変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を促進する。 さらに,潜在表現の絡み合いを測るために,基礎的構造的要因に依存しない評価指標を開発した。 提案した変動予測性は,潜在表現の絡み合いを高めるために,VAEおよびGANフレームワークに適用可能な一般的な制約である。 実験により,提案した変動予測性は,既存の実測値とよく相関し,提案アルゴリズムは非絡み合い学習に有効であることが示された。

Latent traversal is a popular approach to visualize the disentangled latent representations. Given a bunch of variations in a single unit of the latent representation, it is expected that there is a change in a single factor of variation of the data while others are fixed. However, this impressive experimental observation is rarely explicitly encoded in the objective function of learning disentangled representations. This paper defines the variation predictability of latent disentangled representations. Given image pairs generated by latent codes varying in a single dimension, this varied dimension could be closely correlated with these image pairs if the representation is well disentangled. Within an adversarial generation process, we encourage variation predictability by maximizing the mutual information between latent variations and corresponding image pairs. We further develop an evaluation metric that does not rely on the ground-truth generative factors to measure the disentanglement of latent representations. The proposed variation predictability is a general constraint that is applicable to the VAE and GAN frameworks for boosting disentanglement of latent representations. Experiments show that the proposed variation predictability correlates well with existing ground-truth-required metrics and the proposed algorithm is effective for disentanglement learning.
翻訳日:2022-11-07 01:20:06 公開日:2020-07-25
# 時間モデリングのための近似バイリニアモジュール

Approximated Bilinear Modules for Temporal Modeling ( http://arxiv.org/abs/2007.12887v1 )

ライセンス: Link先を確認
Xinqi Zhu and Chang Xu and Langwen Hui and Cewu Lu and Dacheng Tao(参考訳) ビデオの時間的特性を2つ強調する。 1. 時間的手がかりはきめ細かい; 2. 時間モデリングには推論が必要である。 両問題を同時に解決するために,近似双線型加群 (abms) を時間モデルに適用する。 2層MLPは双線形演算の制約近似と見なすことができ、したがって既存のCNNで事前訓練されたパラメータを再利用しながら深いABMを構築するのに使うことができる。 高性能から高効率まで,複数のabm変種と実装を調査した。 具体的には,CNNの2層サブネットを補助分岐を追加することで,時間的双線形加群に変換する方法を示す。 さらに,スニペットサンプリングとシフト推論を導入し,スパースフレーム映像分類性能を向上させる。 提案手法の有効性を示すため,広範囲にわたるアブレーション研究を行った。 我々のモデルは、Kineetics事前トレーニングなしで、Something v1とv2データセットの最先端の手法よりも優れており、他のYouTubeのようなアクション認識データセットと競合する。 私たちのコードはhttps://github.com/zhuxinqimac/abm-pytorchで利用可能です。

We consider two less-emphasized temporal properties of video: 1. Temporal cues are fine-grained; 2. Temporal modeling needs reasoning. To tackle both problems at once, we exploit approximated bilinear modules (ABMs) for temporal modeling. There are two main points making the modules effective: two-layer MLPs can be seen as a constraint approximation of bilinear operations, thus can be used to construct deep ABMs in existing CNNs while reusing pretrained parameters; frame features can be divided into static and dynamic parts because of visual repetition in adjacent frames, which enables temporal modeling to be more efficient. Multiple ABM variants and implementations are investigated, from high performance to high efficiency. Specifically, we show how two-layer subnets in CNNs can be converted to temporal bilinear modules by adding an auxiliary-branch. Besides, we introduce snippet sampling and shifting inference to boost sparse-frame video classification performance. Extensive ablation studies are conducted to show the effectiveness of proposed techniques. Our models can outperform most state-of-the-art methods on Something-Something v1 and v2 datasets without Kinetics pretraining, and are also competitive on other YouTube-like action recognition datasets. Our code is available on https://github.com/zhuxinqimac/abm-pytorch.
翻訳日:2022-11-07 01:19:47 公開日:2020-07-25
# GP-Aligner:最適化グループ潜在記述子に基づく教師なしグループワイド点集合登録

GP-Aligner: Unsupervised Non-rigid Groupwise Point Set Registration Based On Optimized Group Latent Descriptor ( http://arxiv.org/abs/2007.12979v1 )

ライセンス: Link先を確認
Lingjing Wang, Xiang Li, Yi Fang(参考訳) 本稿では,GP-Alignerという新しい手法を提案する。 従来の非学習手法と比較して,提案手法はディープニューラルネットワークのパワーを活用して,多数の高度に変形した3次元形状と優れた性能を効果的に学習することで,競争上の優位性を得る。 形式的特徴量とその相関関係を明示的特徴符号化ネットワークを用いて抽出する学習ベース手法と異なり,モデルフリーな学習可能な潜在記述子を用いてグループ関係を特徴付ける。 より具体的には、ある群に対して、まず最初に最適化可能な群潜在記述子(GLD)を定義して、点集合の群の間のグルオプワイズ関係を特徴づける。 各GLDはガウス分布からランダムに初期化され、群内の関連する点集合の各点の座標と連結される。 ニューラルネットワークベースのデコーダはさらに、形状の入力群から形状の整列群への所望の変換としてコヒーレントドリフトを予測するために構成される。 最適化プロセス中、GP-Alignerは、教師なしのグループワイドアライメント損失の最小化に向けて、デコーダネットワークの全GLDと重みパラメータを共同で更新する。 最適化後、各群に対して、我々のモデルは、目標として1つを指定せずに、中央の共通位置(形状)に設定された各点をコヒーレントに駆動する。 GP-Alignerは、ネットワークトレーニングのための大規模なトレーニングデータを必要としない。 GP-Alignerは,グループ単位の集合登録のための最先端手法と比較して,精度と計算効率の向上を示す。 さらに、GP-Alignerは現実世界の3D形状の多数のグループを整列させる際に非常に効率がよい。

In this paper, we propose a novel method named GP-Aligner to deal with the problem of non-rigid groupwise point set registration. Compared to previous non-learning approaches, our proposed method gains competitive advantages by leveraging the power of deep neural networks to effectively and efficiently learn to align a large number of highly deformed 3D shapes with superior performance. Unlike most learning-based methods that use an explicit feature encoding network to extract the per-shape features and their correlations, our model leverages a model-free learnable latent descriptor to characterize the group relationship. More specifically, for a given group we first define an optimizable Group Latent Descriptor (GLD) to characterize the gruopwise relationship among a group of point sets. Each GLD is randomly initialized from a Gaussian distribution and then concatenated with the coordinates of each point of the associated point sets in the group. A neural network-based decoder is further constructed to predict the coherent drifts as the desired transformation from input groups of shapes to aligned groups of shapes. During the optimization process, GP-Aligner jointly updates all GLDs and weight parameters of the decoder network towards the minimization of an unsupervised groupwise alignment loss. After optimization, for each group our model coherently drives each point set towards a middle, common position (shape) without specifying one as the target. GP-Aligner does not require large-scale training data for network training and it can directly align groups of point sets in a one-stage optimization process. GP-Aligner shows both accuracy and computational efficiency improvement in comparison with state-of-the-art methods for groupwise point set registration. Moreover, GP-Aligner is shown great efficiency in aligning a large number of groups of real-world 3D shapes.
翻訳日:2022-11-07 01:19:27 公開日:2020-07-25
# フレーム映像の3次元可視化に向けて

Towards 3D Visualization of Video from Frames ( http://arxiv.org/abs/2007.14465v1 )

ライセンス: Link先を確認
Slimane Larabi(参考訳) 映像を3dで見るために,連続するフレームから3dシーンを再構築する方法を理論的に解説する。 これを実現するために、3次元の剛体物体の移動に関連する特徴をフレームで抽出しマッチングする。 移動物体の3d構造の3d位置決めには、移動物体の方向に対応するフレームで算出された消滅点を用いる。 最初の実験を行い、得られた結果を提示し、公開する。 彼らは我々の方法の実現可能性を示した。 本論文は,非剛体物体と移動カメラの場合に考慮し,この手法を改良するための今後の研究によってまとめる。

We explain theoretically how to reconstruct the 3D scene from successive frames in order to see the video in 3D. To do this, features, associated to moving rigid objects in 3D, are extracted in frames and matched. The vanishing point computed in frame corresponding to the direction of moving object is used for 3D positioning of the 3D structure of the moving object. First experiments are conducted and the obtained results are shown and publicly available. They demonstrate the feasibility of our method. We conclude this paper by future works in order to improve this method tacking into account non-rigid objects and the case of moving camera.
翻訳日:2022-11-07 01:18:58 公開日:2020-07-25
# 心理計測自然言語処理のためのテストベッドの構築

Constructing a Testbed for Psychometric Natural Language Processing ( http://arxiv.org/abs/2007.12969v1 )

ライセンス: Link先を確認
Ahmed Abbasi, David G. Dobolyi, Richard G. Netemeyer(参考訳) 能力、態度、知覚、信念の心理測定は、健康、セキュリティ、電子商取引、金融など、さまざまな文脈におけるユーザーの行動を理解するために不可欠である。 伝統的に、心理測定次元はサーベイベースで測定され、収集されてきた。 ユーザ生成テキストからそのような構造を推測すると、タイムリーで控えめな、コレクションと分析の機会が得られる。 本稿では,心理計測自然言語処理(nlp)のためのコーパスの構築に向けた取り組みについて述べる。 本稿では,調査に基づく回答項目にユーザテキストをアライメントするための多段階プロセスについて検討し,調査に基づく心理計測指標と8,500以上の回答者によるユーザ生成テキストを包含するテストベッドの概要を示す。 本稿では,ユーザの調査回答ラベルを分類・予測するためのテキストの利用に関する予備的な結果を報告する。 また,研究の意義と今後のnlp研究におけるテストベッドについても考察した。

Psychometric measures of ability, attitudes, perceptions, and beliefs are crucial for understanding user behaviors in various contexts including health, security, e-commerce, and finance. Traditionally, psychometric dimensions have been measured and collected using survey-based methods. Inferring such constructs from user-generated text could afford opportunities for timely, unobtrusive, collection and analysis. In this paper, we describe our efforts to construct a corpus for psychometric natural language processing (NLP). We discuss our multi-step process to align user text with their survey-based response items and provide an overview of the resulting testbed which encompasses survey-based psychometric measures and accompanying user-generated text from over 8,500 respondents. We report preliminary results on the use of the text to categorize/predict users' survey response labels. We also discuss the important implications of our work and resulting testbed for future psychometric NLP research.
翻訳日:2022-11-07 01:18:50 公開日:2020-07-25
# モデルレス強化学習を用いた自動データベースインデックス作成

Automated Database Indexing using Model-free Reinforcement Learning ( http://arxiv.org/abs/2007.14244v1 )

ライセンス: Link先を確認
Gabriel Paludo Licks and Felipe Meneguzzi(参考訳) 効率的なクエリのためのデータベースの設定は複雑な作業であり、しばしばデータベース管理者によって実行される。 データベースアクセスを本当に最適化するインデックスを構築するという問題を解決するには、かなりの量のデータベースとドメインの知識が必要です。 データベースの生涯を通してデータをインデックス化することでクエリを最適化する強化学習を用いて,データベースの自動インデックス化の問題を解決するアーキテクチャを開発した。 実験評価では,強化学習や遺伝的アルゴリズム,ほぼ最適なインデックス構成の維持,大規模データベースへの効率的なスケーリングなど,関連する作業と比較して優れた性能を示す。

Configuring databases for efficient querying is a complex task, often carried out by a database administrator. Solving the problem of building indexes that truly optimize database access requires a substantial amount of database and domain knowledge, the lack of which often results in wasted space and memory for irrelevant indexes, possibly jeopardizing database performance for querying and certainly degrading performance for updating. We develop an architecture to solve the problem of automatically indexing a database by using reinforcement learning to optimize queries by indexing data throughout the lifetime of a database. In our experimental evaluation, our architecture shows superior performance compared to related work on reinforcement learning and genetic algorithms, maintaining near-optimal index configurations and efficiently scaling to large databases.
翻訳日:2022-11-07 01:18:12 公開日:2020-07-25
# CTボリュームの肺がんリスク予測のための3次元ニューラルネットワーク

3D Neural Network for Lung Cancer Risk Prediction on CT Volumes ( http://arxiv.org/abs/2007.12898v1 )

ライセンス: Link先を確認
Daniel Korat(参考訳) 2018年時点で推定16万人が死亡しており、アメリカ合衆国では肺がんが最も多い死因である。 肺癌のctスクリーニングは死亡率を最大40%削減することが示されており、現在は米国スクリーニングガイドラインに含まれている。 肺がん検診における誤診率の低減は, 診断ミスによる臨床的, 財政的コストが高いため重要である。 放射線診断基準は使用されていないが, 総合的な画像所見の持続的変化と不完全性は, 現在の方法の限界として残されている。 これらの制限は、より高度なシステムがパフォーマンスと読み出し間の一貫性を改善する機会を示唆している。 本稿では,肺癌リスク予測のための最先端のディープラーニングアルゴリズムを再現する。 本モデルは肺ct検査から悪性度確率とリスクバケット分類を予測する。 これにより、検査対象患者のリスク分類が可能になり、最も適切な監視と管理を示唆する。 ソリューションの精度,一貫性,完全自動化の両立により,高効率な検診が可能となり,肺癌検診の実施が促進される可能性がある。

With an estimated 160,000 deaths in 2018, lung cancer is the most common cause of cancer death in the United States. Lung cancer CT screening has been shown to reduce mortality by up to 40% and is now included in US screening guidelines. Reducing the high error rates in lung cancer screening is imperative because of the high clinical and financial costs caused by diagnosis mistakes. Despite the use of standards for radiological diagnosis, persistent inter-grader variability and incomplete characterization of comprehensive imaging findings remain as limitations of current methods. These limitations suggest opportunities for more sophisticated systems to improve performance and inter-reader consistency. In this report, we reproduce a state-of-the-art deep learning algorithm for lung cancer risk prediction. Our model predicts malignancy probability and risk bucket classification from lung CT studies. This allows for risk categorization of patients being screened and suggests the most appropriate surveillance and management. Combining our solution high accuracy, consistency and fully automated nature, our approach may enable highly efficient screening procedures and accelerate the adoption of lung cancer screening.
翻訳日:2022-11-07 01:17:11 公開日:2020-07-25
# Bollyrics: ロマンティックヒンディー語の自動歌詞生成装置

Bollyrics: Automatic Lyrics Generator for Romanised Hindi ( http://arxiv.org/abs/2007.12916v1 )

ライセンス: Link先を確認
Naman Jain, Ankush Chauhan, Atharva Chewale, Ojas Mithbavkar, Ujjaval Shah, Mayank Singh(参考訳) 歌詞は複雑なリズミカルなパターンで創造的な方法で意味のある物語を伝える。 研究者は英語と中国語の詩や歌の歌詞の作成と分析に成功している。 しかし、ヒンディー語のデータセットを探索する作業はない。 世界中のヒンディー語歌の人気と、ヒンディー文字の曖昧さを鑑みて、我々は、ヒンディー語歌の自動歌詞生成装置であるボリュリクスを提案する。 ヒンディー語におけるモデル学習前後の韻律パターンを捉えるための簡単な手法を提案する。 データセットとコードはhttps://github.com/lingo-iitgn/bollyricsで公開されている。

Song lyrics convey a meaningful story in a creative manner with complex rhythmic patterns. Researchers have been successful in generating and analyisng lyrics for poetry and songs in English and Chinese. But there are no works which explore the Hindi language datasets. Given the popularity of Hindi songs across the world and the ambiguous nature of romanized Hindi script, we propose Bollyrics, an automatic lyric generator for romanized Hindi songs. We propose simple techniques to capture rhyming patterns before and during the model training process in Hindi language. The dataset and codes are available publicly at https://github.com/lingo-iitgn/Bollyrics.
翻訳日:2022-11-07 01:11:11 公開日:2020-07-25
# duluth at semeval-2020 task 12: offensive tweet identification in english with logistic regression

Duluth at SemEval-2020 Task 12: Offensive Tweet Identification in English with Logistic Regression ( http://arxiv.org/abs/2007.12946v1 )

ライセンス: Link先を確認
Ted Pedersen(参考訳) 本稿では,SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020)に参加したDuluthシステムについて述べる。 私たちは3つの英語の仕事に参加した。 我々のシステムはロジスティック回帰を用いた単純な機械学習ベースラインを提供する。 タスクオーガナイザが利用可能な遠方の教師付きトレーニングデータに基づいてモデルをトレーニングし、他のリソースを使用しませんでした。 その結果,第85タスクA,第43タスクB,第39タスクC,第24タスクA,第79タスクB,第43タスクB,第39タスクC,第24タスクAにおいて,結果の質的分析を行い,ゴールド標準データのクラスラベルがややうるさいことがわかった。 上位階級のシステムにおける極めて高い精度(>90%)は、トレーニングデータを非常によく学習する手法を反映するが、英語で攻撃的な言語を特定するタスクには一般化しない、という仮説を立てる。 この分析には、軽度に再現されたにもかかわらず、いまだに攻撃的なツイートの例が含まれている。

This paper describes the Duluth systems that participated in SemEval--2020 Task 12, Multilingual Offensive Language Identification in Social Media (OffensEval--2020). We participated in the three English language tasks. Our systems provide a simple Machine Learning baseline using logistic regression. We trained our models on the distantly supervised training data made available by the task organizers and used no other resources. As might be expected we did not rank highly in the comparative evaluation: 79th of 85 in Task A, 34th of 43 in Task B, and 24th of 39 in Task C. We carried out a qualitative analysis of our results and found that the class labels in the gold standard data are somewhat noisy. We hypothesize that the extremely high accuracy (> 90%) of the top ranked systems may reflect methods that learn the training data very well but may not generalize to the task of identifying offensive language in English. This analysis includes examples of tweets that despite being mildly redacted are still offensive.
翻訳日:2022-11-07 01:11:00 公開日:2020-07-25
# SemEval-2019 Task 6: 攻撃的なつぶやきを識別し分類するための語彙的アプローチ

Duluth at SemEval-2019 Task 6: Lexical Approaches to Identify and Categorize Offensive Tweets ( http://arxiv.org/abs/2007.12949v1 )

ライセンス: Link先を確認
Ted Pedersen(参考訳) 本稿では,SemEval-2019 Task 6, Identification and Categorizing Offensive Language in Social Media (OffensEval)に参加したDuluthシステムについて述べる。 これらのシステムのほとんどは、手動でラベル付けされたトレーニングデータに見られる語彙的特徴から分類器を構築する従来の機械学習アプローチを採用していた。 しかし、ツイートを攻撃的(あるいは非)に分類する最も成功したシステムは、ルールベースのブラックリストアプローチであり、また、2つの異なるが関連するSemEvalタスクのトレーニングデータを組み合わせる実験も行った。 比較評価の中間に位置する3つのオフセンバルタスクのベストシステムは,aタスク103の57位,bタスク75の39位,cタスク65の44位である。

This paper describes the Duluth systems that participated in SemEval--2019 Task 6, Identifying and Categorizing Offensive Language in Social Media (OffensEval). For the most part these systems took traditional Machine Learning approaches that built classifiers from lexical features found in manually labeled training data. However, our most successful system for classifying a tweet as offensive (or not) was a rule-based black--list approach, and we also experimented with combining the training data from two different but related SemEval tasks. Our best systems in each of the three OffensEval tasks placed in the middle of the comparative evaluation, ranking 57th of 103 in task A, 39th of 75 in task B, and 44th of 65 in task C.
翻訳日:2022-11-07 01:10:39 公開日:2020-07-25
# 信念ネットワークにおける情報融合

Information Fusion on Belief Networks ( http://arxiv.org/abs/2007.12989v1 )

ライセンス: Link先を確認
Shawn C. Eastwood and Svetlana N. Yanushkevich(参考訳) 本稿では,複数の観測や不確実性のモデルを単一結果モデルに「融合」する過程に着目する。 融合に対する既存の多くのアプローチは「信念の強さ」のような主観的な量を使い、これらの量をヒューリスティックなアルゴリズムで処理する。 本稿では,主観的な「信念の強さ」とは対照的に,客観的に測定できる量を好む。 本稿では, 確率分布, さらに重要なことは, 確率分布の集合を「クレダル集合」と呼ぶ構造に着目する。 この論文の新たな側面は、特定の種類のクレダル集合、すなわち確率区間分布とデンプスター・シェーファーモデルを使用する融合モデルの分類である。 情報融合アルゴリズムの客観的要件が提示され,本論文で提示されたすべてのモデルによって満足できる。 デンプスターの組合せ規則はこの要件を満たさないことが示されている。 本稿では,提案する核融合手法の計算課題についても検討する。

This paper will focus on the process of 'fusing' several observations or models of uncertainty into a single resultant model. Many existing approaches to fusion use subjective quantities such as 'strengths of belief' and process these quantities with heuristic algorithms. This paper argues in favor of quantities that can be objectively measured, as opposed to the subjective 'strength of belief' values. This paper will focus on probability distributions, and more importantly, structures that denote sets of probability distributions known as 'credal sets'. The novel aspect of this paper will be a taxonomy of models of fusion that use specific types of credal sets, namely probability interval distributions and Dempster-Shafer models. An objective requirement for information fusion algorithms is provided, and is satisfied by all models of fusion presented in this paper. Dempster's rule of combination is shown to not satisfy this requirement. This paper will also assess the computational challenges involved for the proposed fusion approaches.
翻訳日:2022-11-07 01:09:54 公開日:2020-07-25
# 雪環境における自律走行車へのセマンティクスセグメンテーションの適用

Applying Semantic Segmentation to Autonomous Cars in the Snowy Environment ( http://arxiv.org/abs/2007.12869v1 )

ライセンス: Link先を確認
Zhaoyu Pan, Takanori Emaru, Ankit Ravankar, Yukinori Kobayashi(参考訳) 本稿では,自動運転技術のバックボーンを形成する雪環境における環境認識に焦点を当てた。 目的のために、車両が自律走行している間にオブジェクトを分類するためにセマンティックセグメンテーションが使用される。 我々は,完全畳み込みネットワーク(fcn)を自身のデータセット上でトレーニングし,実験結果を示す。 最後に、結果は分析して結論付けます。 データベースは依然として最適化が必要であり、より良い結果を得るために望ましいアルゴリズムを提案するべきであると結論付けることができる。

This paper mainly focuses on environment perception in snowy situations which forms the backbone of the autonomous driving technology. For the purpose, semantic segmentation is employed to classify the objects while the vehicle is driven autonomously. We train the Fully Convolutional Networks (FCN) on our own dataset and present the experimental results. Finally, the outcomes are analyzed to give a conclusion. It can be concluded that the database still needs to be optimized and a favorable algorithm should be proposed to get better results.
翻訳日:2022-11-07 01:08:26 公開日:2020-07-25
# COVID-19などの感染症に対する経時的検査のための部分観察型MDPアプローチ

A Partially Observable MDP Approach for Sequential Testing for Infectious Diseases such as COVID-19 ( http://arxiv.org/abs/2007.13023v1 )

ライセンス: Link先を確認
Rahul Singh, Fang Liu, and Ness B. Shroff(参考訳) 新型コロナウイルス(COVID-19)の流行は、私たちの日常生活のあらゆる側面に影響を及ぼす主要な国際危機として展開している。 効果的な検査は、感染した個人を隔離し、新型コロナウイルスの感染拡大を減らし、無数の命を救い、安全かつ安全に経済を再開するのに役立つ。 優れた検査戦略の開発は、誰をテストするかを決定するために、感染した患者の位置に関する情報を医療提供者に提供する接触追跡によって大いに助けられる。 検査、治療、トレース、テスト」戦略は、症状のある個人を検査することから始まり、患者記憶、アプリ、wi-fi、gpsなどの組み合わせでポジティブに検査された個人の接触を追跡し、接触をテストし、この手順を繰り返す。 問題は、このような戦略が自発的であり、テストリソースを効率的に使用しないことです。 これは特に新型コロナウイルス(covid-19)の場合で、感染症の数日後に症状が現れる可能性がある(または全くない場合、多くのcovid-19キャリアが漸近的であるが、ウイルスが拡散している可能性があるという証拠がある)。 このような欲望の戦略は、将来ウイルスが休眠し、炎上する可能性がある人口圏を見逃す。 本稿では,様々な接触追跡ツールを用いて得られたソーシャルコンタクトグラフを用いて,課題への入力を行うための制約付き逐次学習ベースのリソース割り当て問題として,テスト問題をキャストできることを示す。 そして、感染した個体数を最小化する効率的な学習戦略を開発する。 これらの戦略はポリシーイテレーションとルックアヘッドルールに基づいている。 我々は、基本性能境界を調査し、我々のソリューションが入力グラフやテスト自体のエラーに対して堅牢であることを確認する。

The outbreak of the novel coronavirus (COVID-19) is unfolding as a major international crisis whose influence extends to every aspect of our daily lives. Effective testing allows infected individuals to be quarantined, thus reducing the spread of COVID-19, saving countless lives, and helping to restart the economy safely and securely. Developing a good testing strategy can be greatly aided by contact tracing that provides health care providers information about the whereabouts of infected patients in order to determine whom to test. Countries that have been more successful in corralling the virus typically use a ``test, treat, trace, test'' strategy that begins with testing individuals with symptoms, traces contacts of positively tested individuals via a combinations of patient memory, apps, WiFi, GPS, etc., followed by testing their contacts, and repeating this procedure. The problem is that such strategies are myopic and do not efficiently use the testing resources. This is especially the case with COVID-19, where symptoms may show up several days after the infection (or not at all, there is evidence to suggest that many COVID-19 carriers are asymptotic, but may spread the virus). Such greedy strategies, miss out population areas where the virus may be dormant and flare up in the future. In this paper, we show that the testing problem can be cast as a sequential learning-based resource allocation problem with constraints, where the input to the problem is provided by a time-varying social contact graph obtained through various contact tracing tools. We then develop efficient learning strategies that minimize the number of infected individuals. These strategies are based on policy iteration and look-ahead rules. We investigate fundamental performance bounds, and ensure that our solution is robust to errors in the input graph as well as in the tests themselves.
翻訳日:2022-11-07 01:02:03 公開日:2020-07-25
# autoclip: ソース分離ネットワークのための適応勾配クリッピング

AutoClip: Adaptive Gradient Clipping for Source Separation Networks ( http://arxiv.org/abs/2007.14469v1 )

ライセンス: Link先を確認
Prem Seetharaman, Gordon Wichern, Bryan Pardo, Jonathan Le Roux(参考訳) 勾配のクリッピングは、勾配降下を改善するための既知のアプローチであるが、クリッピングしきい値ハイパーパラメータのハンドセレクションを必要とする。 本稿では,学習中に観測された勾配ノルムの履歴に基づいて,勾配クリッピングしきい値を自動的に適応的に選択する手法であるautoclipを提案する。 実験の結果,autoclipの適用により,音源分離ネットワークの一般化性能が向上した。 AutoClipでトレーニングされた分離ネットワークのトレーニングダイナミクスを観察すると、AutoClipは損失ランドスケープのよりスムーズな部分に最適化を誘導することを示している。 AutoClipは実装が非常に簡単で、複数のドメインにわたるさまざまなアプリケーションに簡単に統合できます。

Clipping the gradient is a known approach to improving gradient descent, but requires hand selection of a clipping threshold hyperparameter. We present AutoClip, a simple method for automatically and adaptively choosing a gradient clipping threshold, based on the history of gradient norms observed during training. Experimental results show that applying AutoClip results in improved generalization performance for audio source separation networks. Observation of the training dynamics of a separation network trained with and without AutoClip show that AutoClip guides optimization into smoother parts of the loss landscape. AutoClip is very simple to implement and can be integrated readily into a variety of applications across multiple domains.
翻訳日:2022-11-07 01:01:32 公開日:2020-07-25
# マーチャントトランザクション予測のためのマルチストリームRNN

Multi-stream RNN for Merchant Transaction Prediction ( http://arxiv.org/abs/2008.01670v1 )

ライセンス: Link先を確認
Zhongfang Zhuang, Chin-Chia Michael Yeh, Liang Wang, Wei Zhang, Junpeng Wang(参考訳) 近年,デジタル決済システムは人々の生活様式を大きく変えている。 支払い処理システムの整合性の監視と保証において、新たな課題が浮上した。 重要な課題は、各商人の将来の取引統計を予測することである。 これらの予測は、不正検出からレコメンデーションまで、他のタスクを操縦するために使用できる。 この問題は、多変量時系列だけでなく、将来への多段階の予測が必要であるため、難しい。 本稿では,これらの要求に合わせたマルチステップ商取引予測のためのマルチストリームrnnモデルを提案する。 提案するマルチストリームRNNはトランザクションデータを異なる粒度で要約し,将来,複数のステップの予測を行う。 実験の結果,提案手法は既存の最先端手法よりも優れていることがわかった。

Recently, digital payment systems have significantly changed people's lifestyles. New challenges have surfaced in monitoring and guaranteeing the integrity of payment processing systems. One important task is to predict the future transaction statistics of each merchant. These predictions can thus be used to steer other tasks, ranging from fraud detection to recommendation. This problem is challenging as we need to predict not only multivariate time series but also multi-steps into the future. In this work, we propose a multi-stream RNN model for multi-step merchant transaction predictions tailored to these requirements. The proposed multi-stream RNN summarizes transaction data in different granularity and makes predictions for multiple steps in the future. Our extensive experimental results have demonstrated that the proposed model is capable of outperforming existing state-of-the-art methods.
翻訳日:2022-11-07 01:01:20 公開日:2020-07-25
# クラウドソーシング3Dマッピング:多視点幾何学と自己監督型学習の併用

Crowdsourced 3D Mapping: A Combined Multi-View Geometry and Self-Supervised Learning Approach ( http://arxiv.org/abs/2007.12918v1 )

ライセンス: Link先を確認
Hemang Chawla, Matti Jukola, Terence Brouns, Elahe Arani, and Bahram Zonooz(参考訳) クラウドソーシングされたビジュアルデータを効率的に利用する能力は、大規模なダイナミックマッピングと自動運転の領域に大きな可能性をもたらす。 しかし、クラウドソーシングされた3Dマッピングの最先端手法は、カメラ固有の知識を前提としている。 本研究では,単眼カラーカメラとgpsのみを用いて,交通標識などの意味的に有意義なランドマークの3次元位置を推定する枠組みを提案する。 本研究では,多視点幾何と深層学習に基づく自己校正,奥行き,自我運動推定を交通標識位置推定に活用し,その強みの組み合わせが地図のカバレッジ向上に重要であることを示す。 そこで我々は,KITTIをベースとした3次元交通標識位置決めデータセットを構築し,利用可能とする。 提案するフレームワークを用いて,本データセット上で平均1回平均相対測位精度と絶対測位精度をそれぞれ39cmと1.26mとした。

The ability to efficiently utilize crowdsourced visual data carries immense potential for the domains of large scale dynamic mapping and autonomous driving. However, state-of-the-art methods for crowdsourced 3D mapping assume prior knowledge of camera intrinsics. In this work, we propose a framework that estimates the 3D positions of semantically meaningful landmarks such as traffic signs without assuming known camera intrinsics, using only monocular color camera and GPS. We utilize multi-view geometry as well as deep learning based self-calibration, depth, and ego-motion estimation for traffic sign positioning, and show that combining their strengths is important for increasing the map coverage. To facilitate research on this task, we construct and make available a KITTI based 3D traffic sign ground truth positioning dataset. Using our proposed framework, we achieve an average single-journey relative and absolute positioning accuracy of 39cm and 1.26m respectively, on this dataset.
翻訳日:2022-11-07 01:00:50 公開日:2020-07-25
# 肝全スライディング画像における分節癌領域に対するディープラーニングに基づくマルチスケールアプローチ

A deep learning based multiscale approach to segment cancer area in liver whole slide image ( http://arxiv.org/abs/2007.12935v1 )

ライセンス: Link先を確認
Yanbo Feng, Adel Hafiane, H\'el\`ene Laurent(参考訳) 本稿では,全スライド画像(wsi)における肝癌分画の問題について述べる。 本稿では,癌領域分割のためのエンドツーエンドのディープニューラルネットワークアルゴリズムに基づくマルチスケール画像処理手法を提案する。 組織像の7レベルのガウスピラミッド像は,異なるスケールでテクスチャ情報を提供するために構築された。 本研究では、トレーニング手順の原画像レベルを用いて、いくつかのニューラルアーキテクチャを比較した。 提案手法は,7段階の様々な解像度(ピラミダルサブサムリング)に適用したu-netに基づく。 異なるレベルの予測は投票機構を通じて結合される。 最終セグメンテーション結果は、原画像レベルで生成される。 部分色正規化法と重み付き重み付け法を前処理と予測に別々に適用した。 その結果,提案手法の有効性が,最新技術と比較して高い評価を得た。

This paper addresses the problem of liver cancer segmentation in Whole Slide Image (WSI). We propose a multi-scale image processing method based on automatic end-to-end deep neural network algorithm for segmentation of cancer area. A seven-levels gaussian pyramid representation of the histopathological image was built to provide the texture information in different scales. In this work, several neural architectures were compared using the original image level for the training procedure. The proposed method is based on U-Net applied to seven levels of various resolutions (pyramidal subsumpling). The predictions in different levels are combined through a voting mechanism. The final segmentation result is generated at the original image level. Partial color normalization and weighted overlapping method were applied in preprocessing and prediction separately. The results show the effectiveness of the proposed multi-scales approach achieving better scores compared to the state-of-the-art.
翻訳日:2022-11-07 01:00:32 公開日:2020-07-25
# HATNet:乳腺生検画像診断のためのエンドツーエンドのホロスティック注意ネットワーク

HATNet: An End-to-End Holistic Attention Network for Diagnosis of Breast Biopsy Images ( http://arxiv.org/abs/2007.13007v1 )

ライセンス: Link先を確認
Sachin Mehta, Ximing Lu, Donald Weaver, Joann G. Elmore, Hannaneh Hajishirzi, Linda Shapiro(参考訳) ギガピクセルサイズの病理像を分類するためのエンドツーエンドネットワークの訓練は、計算的に難解である。 ほとんどのアプローチはパッチベースで、最初にローカル表現(パッチ単位で)を学習し、これらのローカル表現を組み合わせてイメージレベルの意思決定を行う。 しかし、大きな組織構造をパッチに分割すると、これらのネットワークで利用可能なコンテキストが制限され、臨床に関係のある構造から表現を学ぶ能力が低下する可能性がある。 本稿では,乳房生検像を分類する新しい注意型ネットワークである総観的注意ネットワーク(hatnet)を提案する。 病理組織像分類パイプラインを合理化し,ギガピクセルサイズの画像からエンドツーエンドで表現を学習する方法を示す。 HATNetは、back-of-wordsアプローチを拡張し、自己注意を使ってグローバル情報をエンコードし、明示的な監督なしに臨床的に関連する組織構造から表現を学習する。 組織レベルのセグメンテーションマスクの形で監視を行う、以前のベストネットワークy-netを8%上回っている。 そこで本研究では,HATNetが臨床関連構造から表現を学習し,ヒト病理医の分類精度を比較検討した。 我々のソースコードは \url{https://github.com/sacmehta/HATNet} で入手できる。

Training end-to-end networks for classifying gigapixel size histopathological images is computationally intractable. Most approaches are patch-based and first learn local representations (patch-wise) before combining these local representations to produce image-level decisions. However, dividing large tissue structures into patches limits the context available to these networks, which may reduce their ability to learn representations from clinically relevant structures. In this paper, we introduce a novel attention-based network, the Holistic ATtention Network (HATNet) to classify breast biopsy images. We streamline the histopathological image classification pipeline and show how to learn representations from gigapixel size images end-to-end. HATNet extends the bag-of-words approach and uses self-attention to encode global information, allowing it to learn representations from clinically relevant tissue structures without any explicit supervision. It outperforms the previous best network Y-Net, which uses supervision in the form of tissue-level segmentation masks, by 8%. Importantly, our analysis reveals that HATNet learns representations from clinically relevant structures, and it matches the classification accuracy of human pathologists for this challenging test set. Our source code is available at \url{https://github.com/sacmehta/HATNet}
翻訳日:2022-11-07 01:00:22 公開日:2020-07-25
# スタイルは特徴の分布である

Style is a Distribution of Features ( http://arxiv.org/abs/2007.13010v1 )

ライセンス: Link先を確認
Eddie Huang, Sahil Gupta(参考訳) ニューラルスタイル転送(NST)は、畳み込みニューラルネットワーク(CNN)を用いて、ある画像の内容を他の画像のスタイルとマージする強力な画像生成技術である。 現代のNSTの手法では、CNNの特徴の1階または2階の統計を使い、比較的計算コストの少ない転送を実現している。 しかし、これらの手法はcnnの機能からスタイルを完全に抽出することはできない。 本稿では,特徴の分布間のワッサースタイン距離としてスタイル損失を再定義することにより,特徴からスタイルを完全抽出する新しいスタイル伝達アルゴリズムを提案する。 そこで我々は,スタイル転送品質の新しい標準を設定した。 さらに、NSTの2つの重要な解釈を述べる。 1つ目は、Li et al. による再演であり、スタイルは単に特徴の分布であると述べている。 第二に、NSTはGAN(Generative Adversarial Network)問題の一種である。

Neural style transfer (NST) is a powerful image generation technique that uses a convolutional neural network (CNN) to merge the content of one image with the style of another. Contemporary methods of NST use first or second order statistics of the CNN's features to achieve transfers with relatively little computational cost. However, these methods cannot fully extract the style from the CNN's features. We present a new algorithm for style transfer that fully extracts the style from the features by redefining the style loss as the Wasserstein distance between the distribution of features. Thus, we set a new standard in style transfer quality. In addition, we state two important interpretations of NST. The first is a re-emphasis from Li et al., which states that style is simply the distribution of features. The second states that NST is a type of generative adversarial network (GAN) problem.
翻訳日:2022-11-07 00:59:59 公開日:2020-07-25
# グラフガンマ過程一般化線形力学系

Graph Gamma Process Generalized Linear Dynamical Systems ( http://arxiv.org/abs/2007.12852v1 )

ライセンス: Link先を確認
Rahi Kalantari and Mingyuan Zhou(参考訳) 実数値多変量時系列をモデル化するためにグラフガンマ過程(GGP)線形力学系を導入する。 時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の集合に分解するために用いられる。 各サブシーケンスにおいて、異なるデータ次元はしばしば類似した時間パターンを共有するが、異なる大きさを示すため、全てのサブシーケンスの重ね合わせによって異なるデータ次元での多様な振る舞いを示すことができる。 我々はさらに、ガウス観測層を負二項分布に置き換え、多変量時系列をモデル化することで、提案モデルを一般化する。 提案された ggp から生成される無限次元有向スパースランダムグラフは、可算無限個のノードの同じ集合を共有する可算無限の2次隣接行列の論理あるいは演算をとることによって構成される。 これらの隣接行列はそれぞれ、その活性化強度を示す重みに関連付けられ、同じノード群に属するノードの有限部分集合の間に有限個のエッジを配置する。 非零度ノード数が有限である生成ランダムグラフを用いて、(一般化された)線形力学系の潜在状態遷移行列のスパーシティパターンと次元の両方を定義する。 全体活性化強度に対する各ノードコミュニティの活性化強度を用いて、多変量サブシーケンスを抽出し、対応するコミュニティが取得したデータパターンを明らかにする。 合成および実世界の時系列において、ランダムに初期化される非パラメトリックベイズ力学モデルは、様々なベースラインモデルと比較して一貫して良好な予測性能を示し、解釈可能な潜在状態遷移パターンを明らかにし、時系列をはっきりと振る舞うサブシーケンスに分解する。

We introduce graph gamma process (GGP) linear dynamical systems to model real-valued multivariate time series. For temporal pattern discovery, the latent representation under the model is used to decompose the time series into a parsimonious set of multivariate sub-sequences. In each sub-sequence, different data dimensions often share similar temporal patterns but may exhibit distinct magnitudes, and hence allowing the superposition of all sub-sequences to exhibit diverse behaviors at different data dimensions. We further generalize the proposed model by replacing the Gaussian observation layer with the negative binomial distribution to model multivariate count time series. Generated from the proposed GGP is an infinite dimensional directed sparse random graph, which is constructed by taking the logical OR operation of countably infinite binary adjacency matrices that share the same set of countably infinite nodes. Each of these adjacency matrices is associated with a weight to indicate its activation strength, and places a finite number of edges between a finite subset of nodes belonging to the same node community. We use the generated random graph, whose number of nonzero-degree nodes is finite, to define both the sparsity pattern and dimension of the latent state transition matrix of a (generalized) linear dynamical system. The activation strength of each node community relative to the overall activation strength is used to extract a multivariate sub-sequence, revealing the data pattern captured by the corresponding community. On both synthetic and real-world time series, the proposed nonparametric Bayesian dynamic models, which are initialized at random, consistently exhibit good predictive performance in comparison to a variety of baseline models, revealing interpretable latent state transition patterns and decomposing the time series into distinctly behaved sub-sequences.
翻訳日:2022-11-07 00:59:46 公開日:2020-07-25
# NoPropaganda at SemEval-2020 Task 11: A Borrowed Approach to Sequence Tagging and Text Classification

NoPropaganda at SemEval-2020 Task 11: A Borrowed Approach to Sequence Tagging and Text Classification ( http://arxiv.org/abs/2007.12913v1 )

ライセンス: Link先を確認
Ilya Dimov, Vladislav Korzun and Ivan Smurov(参考訳) 本稿では,SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articlesについて述べる。 簡単なLSTMベースラインから始まり、自動回帰変換器デコーダに移行し、最初のサブタスクで長い連続プロパガンダ幅を予測する。 また,上述のスパンをプロパガンダ技術分類の第2サブタスクのための特別なトークンで包含して関係抽出するアプローチも採用する。 我々のモデルでは、f-scoreは44.6%、マイクロ平均f-scoreは58.2%である。

This paper describes our contribution to SemEval-2020 Task 11: Detection Of Propaganda Techniques In News Articles. We start with simple LSTM baselines and move to an autoregressive transformer decoder to predict long continuous propaganda spans for the first subtask. We also adopt an approach from relation extraction by enveloping spans mentioned above with special tokens for the second subtask of propaganda technique classification. Our models report an F-score of 44.6% and a micro-averaged F-score of 58.2% for those tasks accordingly.
翻訳日:2022-11-07 00:59:17 公開日:2020-07-25
# MRGAN:非教師付き部品アンタングルを用いた多回転3次元形状生成

MRGAN: Multi-Rooted 3D Shape Generation with Unsupervised Part Disentanglement ( http://arxiv.org/abs/2007.12944v1 )

ライセンス: Link先を確認
Rinon Gal, Amit Bermano, Hao Zhang, Daniel Cohen-Or(参考訳) 本稿では, MRGANを提案する。MRGANは, パートベース形状の監視を伴わずに, 対角3次元点雲形状を生成するマルチルート対向ネットワークである。 ネットワークは木構造グラフ畳み込み層の複数の枝を融合し、木根で学習可能な一定の入力を持つ点雲を生成する。 各ブランチは、異なる形状部を成長させることを学び、部分レベルでの形状生成を制御する。 このネットワークは, 異なる枝を分離し, 絡み合いを容易にするルート混合訓練戦略と, 部分絡み合いと形状意味論を念頭に置いて設計された損失項の2つの主成分を用いて, 意味的部分の絡み合い生成を奨励する。 これらのうち、新しい凸性損失は、セマンティックな部分が多いため、より凸性のある部分の生成にインセンティブを与える。 さらに、根投下損失は、各根種が単一の部分であることをさらに保証し、点生成枝の変性または過剰成長を防止する。 我々は,ネットワークの性能を複数の3次元形状クラスで評価し,従来の研究とベースラインアプローチとを質的,定量的に比較した。 形状モデリングの2つの応用により, 分割された形状を入力として受け取らずに, 部分混合と個々の部分変動の制御性を示す。

We present MRGAN, a multi-rooted adversarial network which generates part-disentangled 3D point-cloud shapes without part-based shape supervision. The network fuses multiple branches of tree-structured graph convolution layers which produce point clouds, with learnable constant inputs at the tree roots. Each branch learns to grow a different shape part, offering control over the shape generation at the part level. Our network encourages disentangled generation of semantic parts via two key ingredients: a root-mixing training strategy which helps decorrelate the different branches to facilitate disentanglement, and a set of loss terms designed with part disentanglement and shape semantics in mind. Of these, a novel convexity loss incentivizes the generation of parts that are more convex, as semantic parts tend to be. In addition, a root-dropping loss further ensures that each root seeds a single part, preventing the degeneration or over-growth of the point-producing branches. We evaluate the performance of our network on a number of 3D shape classes, and offer qualitative and quantitative comparisons to previous works and baseline approaches. We demonstrate the controllability offered by our part-disentangled generation through two applications for shape modeling: part mixing and individual part variation, without receiving segmented shapes as input.
翻訳日:2022-11-07 00:53:54 公開日:2020-07-25
# 単語埋め込みを用いたtwitter感情分類におけるテキスト処理ステップの影響

Effect of Text Processing Steps on Twitter Sentiment Classification using Word Embedding ( http://arxiv.org/abs/2007.13027v1 )

ライセンス: Link先を確認
Manar D. Samad, Nalin D. Khounviengxay, Megan A. Witherow(参考訳) 原文の処理はテキスト分類と感情分析において重要な第一歩である。 しかし、テキスト処理のステップは、ドメイン、アプリケーション、コンテキストを最適化することなく、オフザシェルフルーチンとプレビルドワード辞書を使用して実行されることが多い。 本稿では,特定のテキストドメイン (twitter) とアプリケーション (sentiment classification) に対する7つのテキスト処理シナリオの効果について検討する。 スキップグラムベースの単語埋め込みは、従来の文献コーパスでは利用できないためにしばしば削除されるTwitterの口語、絵文字、ハッシュタグキーワードを含むように開発されている。 我々の実験は2つの一般的なテキスト処理ステップの感情分類に負の効果を示す。 1) 単語の削除と停止 2)個々のツイートを表す単語ベクトルの平均化。 新しい効果的なステップ 1)非ASCII絵文字文字を含む。 2)単語埋め込みによる単語重要度の測定 3)単語ベクトルをツイート埋め込みに集約する、 4) 感情分類パイプラインを最適化するために線形分離可能な特徴空間の開発が提案されている。 テキスト処理の最良の組み合わせは、3つの感情ラベルを持つ14,640ツイートの分類において、曲線(AUC)の88.4(+/-0.4)の最高平均領域を得る。 コンテキスト駆動の単語埋め込みからの単語選択は、ツイートの中で最も重要な単語が最大精度の98%以上を占めることを明らかにする。 その結果,既成語辞書ではなく,ツイート分類において重要な単語をデータ駆動で選択する手法が示された。 提案するツイート埋め込みは堅牢であり、いくつかのテキスト処理ステップの必要性を緩和する。

Processing of raw text is the crucial first step in text classification and sentiment analysis. However, text processing steps are often performed using off-the-shelf routines and pre-built word dictionaries without optimizing for domain, application, and context. This paper investigates the effect of seven text processing scenarios on a particular text domain (Twitter) and application (sentiment classification). Skip gram-based word embeddings are developed to include Twitter colloquial words, emojis, and hashtag keywords that are often removed for being unavailable in conventional literature corpora. Our experiments reveal negative effects on sentiment classification of two common text processing steps: 1) stop word removal and 2) averaging of word vectors to represent individual tweets. New effective steps for 1) including non-ASCII emoji characters, 2) measuring word importance from word embedding, 3) aggregating word vectors into a tweet embedding, and 4) developing linearly separable feature space have been proposed to optimize the sentiment classification pipeline. The best combination of text processing steps yields the highest average area under the curve (AUC) of 88.4 (+/-0.4) in classifying 14,640 tweets with three sentiment labels. Word selection from context-driven word embedding reveals that only the ten most important words in Tweets cumulatively yield over 98% of the maximum accuracy. Results demonstrate a means for data-driven selection of important words in tweet classification as opposed to using pre-built word dictionaries. The proposed tweet embedding is robust to and alleviates the need for several text processing steps.
翻訳日:2022-11-07 00:53:09 公開日:2020-07-25
# ボルツマンマシンからニューラルネットワークまで 再び

From Boltzmann Machines to Neural Networks and Back Again ( http://arxiv.org/abs/2007.12815v1 )

ライセンス: Link先を確認
Surbhi Goel, Adam Klivans, Frederic Koehler(参考訳) グラフィカルモデルは高次元データをモデリングするための強力なツールであるが、潜在変数の存在下でグラフィカルなモデルを学習することは困難である。 この研究において、最もよく研究されている潜在変数モデルのクラスであるRestricted Boltzmann Machinesを学習するための新しい結果を与える。 その結果,2層ニューラルネットワークの学習に対する新たな接続として,$\ell_{\infty}$ の有界入力が得られた。 RBMとフィードフォワードネットワークの接続を利用して、基礎となるグラフィカルモデルから導出される分布仮定と未知の関数クラスのアーキテクチャを結合するニューラルネットワーク学習の、$supervised~RBMs$[Hinton, 2012]の理論的研究を開始する。 次に, 分布的仮定を伴わずに, 関連するネットワークのクラスに対して可能なものよりも, 実行時に優れた教師付きrbmsの自然なクラスを学習するためのアルゴリズムを与える。

Graphical models are powerful tools for modeling high-dimensional data, but learning graphical models in the presence of latent variables is well-known to be difficult. In this work we give new results for learning Restricted Boltzmann Machines, probably the most well-studied class of latent variable models. Our results are based on new connections to learning two-layer neural networks under $\ell_{\infty}$ bounded input; for both problems, we give nearly optimal results under the conjectured hardness of sparse parity with noise. Using the connection between RBMs and feedforward networks, we also initiate the theoretical study of $supervised~RBMs$ [Hinton, 2012], a version of neural-network learning that couples distributional assumptions induced from the underlying graphical model with the architecture of the unknown function class. We then give an algorithm for learning a natural class of supervised RBMs with better runtime than what is possible for its related class of networks without distributional assumptions.
翻訳日:2022-11-07 00:52:46 公開日:2020-07-25
# モド・デ・モド・エレスの解釈論 : m'ethodes et application \`a l'assurance

Interpretabilit\'e des mod\`eles : \'etat des lieux des m\'ethodes et application \`a l'assurance ( http://arxiv.org/abs/2007.12919v1 )

ライセンス: Link先を確認
Dimitri Delcaillau, Antoine Ly, Franck Vermet, Aliz\'e Papp(参考訳) 2018年5月以降、GDPR(General Data Protection Regulation)は産業に対する新たな義務を導入している。 法的枠組みを設定することで、特に個人データの使用に強い透明性を課す。 したがって、人々は自分のデータの使用について知らされ、それの使用に同意しなければならない。 データは多くのモデルの原材料であり、今日ではデジタルサービスの品質と性能を向上させることができる。 データの使用に関する透明性は、異なるモデルを通じてその使用を十分に理解する必要がある。 たとえ効率的であっても、モデルの使用には、データの変換(モデルの上流と下流)のプロセスのあらゆるレベルでの理解が伴わなければならないため、個々のデータとアルゴリズムが後者の分析に基づいて行うことができる選択との関係を定義することができる。 (例えば、1つの商品又は1つのプロモーションオファーの推薦、又はそのリスクを代表する保険率) モデル利用者は、モデルが差別されないようにし、その結果を説明することもできなければならない。 予測アルゴリズムのパネルの拡大 — 計算能力の進化によって可能になった — によって、科学者はモデルの使用に警戒し、そこから引き出された決定をよりよく理解するための新しいツールを検討することになる。 最近、コミュニティは特に、過去3年間、出版物の顕著な強化により、モデルの透明性に活発に取り組んできた。 より複雑なアルゴリズム(\textit{deep learning}、Xgboostなど)が頻繁に使われるようになる。 ) 魅力的なパフォーマンスを示すことは、間違いなくこの関心の原因の1つです。 本稿では,保険状況においてモデルとその利用を解釈する方法のインベントリを紹介する。

Since May 2018, the General Data Protection Regulation (GDPR) has introduced new obligations to industries. By setting a legal framework, it notably imposes strong transparency on the use of personal data. Thus, people must be informed of the use of their data and must consent the usage of it. Data is the raw material of many models which today make it possible to increase the quality and performance of digital services. Transparency on the use of data also requires a good understanding of its use through different models. The use of models, even if efficient, must be accompanied by an understanding at all levels of the process that transform data (upstream and downstream of a model), thus making it possible to define the relationships between the individual's data and the choice that an algorithm could make based on the analysis of the latter. (For example, the recommendation of one product or one promotional offer or an insurance rate representative of the risk.) Models users must ensure that models do not discriminate against and that it is also possible to explain its result. The widening of the panel of predictive algorithms - made possible by the evolution of computing capacities -- leads scientists to be vigilant about the use of models and to consider new tools to better understand the decisions deduced from them . Recently, the community has been particularly active on model transparency with a marked intensification of publications over the past three years. The increasingly frequent use of more complex algorithms (\textit{deep learning}, Xgboost, etc.) presenting attractive performances is undoubtedly one of the causes of this interest. This article thus presents an inventory of methods of interpreting models and their uses in an insurance context.
翻訳日:2022-11-07 00:51:32 公開日:2020-07-25
# SOTERIA: プライベート推論のための効率的なニューラルネットワークの探索

SOTERIA: In Search of Efficient Neural Networks for Private Inference ( http://arxiv.org/abs/2007.12934v1 )

ライセンス: Link先を確認
Anshul Aggarwal, Trevor E. Carlson, Reza Shokri, Shruti Tople(参考訳) クラウドサーバがトレーニングされたモデルをホストし、ユーザに予測(参照)サービスを提供する、ml-as-a-serviceが人気を集めている。 この設定では、ユーザの入力クエリと、サーバのモデルパラメータの両方の機密性を、控えめな計算と通信オーバーヘッドで保護することを目的としています。 従来のソリューションは主に、既知の固定モデルアーキテクチャに対して効率良くするための微調整の暗号手法を提案する。 このアプローチの欠点は、モデル自体が既存の効率的な暗号計算で動くように設計されていないことである。 学習中に選択されるモデルのネットワークアーキテクチャ、内部関数、パラメータが、推論中における暗号手法の計算と通信のオーバーヘッドに大きく影響することを観察する。 そこで本研究では,個人推論に効率的なモデルアーキテクチャを構築するための訓練手法であるSOTERIAを提案する。 我々は、モデルの精度と暗号プリミティブを用いた安全な推論のオーバーヘッドを最適化する2つの目的を持つニューラルネットワーク探索アルゴリズムを用いる。 トレーニング中にモデルを変更する柔軟性を考えると、プライベートな計算にも効率的である正確なモデルを見つけることができる。 我々は、表現性や効率性から、ガーブロード回路を基礎となる暗号プリミティブとして選択するが、このアプローチはハイブリッドなマルチパーティ計算設定にまで拡張できる。 我々は,MNISTおよびCIFAR10データセット上でSoTERIAを実験的に評価し,先行研究と比較した。 以上の結果から,ソテリアは性能と精度のバランスに有効であることが確認された。

ML-as-a-service is gaining popularity where a cloud server hosts a trained model and offers prediction (inference) service to users. In this setting, our objective is to protect the confidentiality of both the users' input queries as well as the model parameters at the server, with modest computation and communication overhead. Prior solutions primarily propose fine-tuning cryptographic methods to make them efficient for known fixed model architectures. The drawback with this line of approach is that the model itself is never designed to operate with existing efficient cryptographic computations. We observe that the network architecture, internal functions, and parameters of a model, which are all chosen during training, significantly influence the computation and communication overhead of a cryptographic method, during inference. Based on this observation, we propose SOTERIA -- a training method to construct model architectures that are by-design efficient for private inference. We use neural architecture search algorithms with the dual objective of optimizing the accuracy of the model and the overhead of using cryptographic primitives for secure inference. Given the flexibility of modifying a model during training, we find accurate models that are also efficient for private computation. We select garbled circuits as our underlying cryptographic primitive, due to their expressiveness and efficiency, but this approach can be extended to hybrid multi-party computation settings. We empirically evaluate SOTERIA on MNIST and CIFAR10 datasets, to compare with the prior work. Our results confirm that SOTERIA is indeed effective in balancing performance and accuracy.
翻訳日:2022-11-07 00:51:08 公開日:2020-07-25
# 音声表現学習のための補助変数を持つ非線形ISA

Nonlinear ISA with Auxiliary Variables for Learning Speech Representations ( http://arxiv.org/abs/2007.12948v1 )

ライセンス: Link先を確認
Amrith Setlur, Barnabas Poczos, Alan W Black(参考訳) 本稿では,補助変数の存在下での非線形独立部分空間解析(isa)の理論的枠組みを導入することにより,非線形独立成分分析(ica)に関する最近の研究を展開する。 対数メル分光法のような高次元音響特性は、話者特性や音韻的内容などの個々の多変量源上での非線形変換の表面レベル表現とみなすことができる。 エネルギーベースモデルの仮定の下では、非線形ISA理論を用いて、部分空間が独立であり、元の非定常多変量源と高い相関を持つ教師なし音声表現を学習するアルゴリズムを提案する。 補助変数を持つ非線形ICAが、これらの高次元部分空間の識別可能性に十分な条件を提供しながら、部分空間の一般識別モデルにどのように拡張できるかを示す。 提案手法は汎用的であり,独立した高次音声信号を理論的に捕捉できる部分空間を用いて音声表現を学習するための標準的な教師なし手法と統合することができる。 話者検証および音素認識タスクにおいて経験的な結果を示すことにより,自動回帰予測復号(APC)モデルと統合した場合のアルゴリズムの利得を評価する。

This paper extends recent work on nonlinear Independent Component Analysis (ICA) by introducing a theoretical framework for nonlinear Independent Subspace Analysis (ISA) in the presence of auxiliary variables. Observed high dimensional acoustic features like log Mel spectrograms can be considered as surface level manifestations of nonlinear transformations over individual multivariate sources of information like speaker characteristics, phonological content etc. Under assumptions of energy based models we use the theory of nonlinear ISA to propose an algorithm that learns unsupervised speech representations whose subspaces are independent and potentially highly correlated with the original non-stationary multivariate sources. We show how nonlinear ICA with auxiliary variables can be extended to a generic identifiable model for subspaces as well while also providing sufficient conditions for the identifiability of these high dimensional subspaces. Our proposed methodology is generic and can be integrated with standard unsupervised approaches to learn speech representations with subspaces that can theoretically capture independent higher order speech signals. We evaluate the gains of our algorithm when integrated with the Autoregressive Predictive Decoding (APC) model by showing empirical results on the speaker verification and phoneme recognition tasks.
翻訳日:2022-11-07 00:50:43 公開日:2020-07-25
# 確率的再帰勾配を用いた深部Q-Learningのばらつき低減

Variance Reduction for Deep Q-Learning using Stochastic Recursive Gradient ( http://arxiv.org/abs/2007.12817v1 )

ライセンス: Link先を確認
Haonan Jia, Xiao Zhang, Jun Xu, Wei Zeng, Hao Jiang, Xiaohui Yan, Ji-Rong Wen(参考訳) 深層q学習アルゴリズムは、過度なばらつきを伴う勾配推定に苦しむことが多く、不安定なトレーニングとサンプリング効率が低下する。 svrg のような確率的分散還元勾配法は, 推定分散の低減に応用されている(zhao et al. 2019)。 しかし、強化学習のオンラインインスタンス生成の性質から、深層Q-ラーニングにSVRGを直接適用することは、アンカーポイントの不正確な推定の問題に直面しており、SVRGの可能性は劇的に制限されている。 この問題に対処し, SARAH (Nguyen et al. 2017) にインスパイアされた本論文では, SRG-DQN と呼ばれる新しいアルゴリズムの実現により, 深部Q-ラーニングにおける確率的勾配推定を更新するための再帰的フレームワークを提案する。 SVRGベースのアルゴリズムとは異なり、SRG-DQNは確率勾配推定の再帰的な更新を設計する。 パラメータ更新は過去の確率的勾配情報を用いて累積方向に沿って行われるため、アンカーとしての全勾配の推定を取り除くことができる。 さらに、SRG-DQNはトレーニングプロセスをさらに加速するAdamプロセスを含んでいる。 強化学習タスクの理論的解析と実験結果から,提案するsrg-dqnアルゴリズムの有効性と有効性が示された。

Deep Q-learning algorithms often suffer from poor gradient estimations with an excessive variance, resulting in unstable training and poor sampling efficiency. Stochastic variance-reduced gradient methods such as SVRG have been applied to reduce the estimation variance (Zhao et al. 2019). However, due to the online instance generation nature of reinforcement learning, directly applying SVRG to deep Q-learning is facing the problem of the inaccurate estimation of the anchor points, which dramatically limits the potentials of SVRG. To address this issue and inspired by the recursive gradient variance reduction algorithm SARAH (Nguyen et al. 2017), this paper proposes to introduce the recursive framework for updating the stochastic gradient estimates in deep Q-learning, achieving a novel algorithm called SRG-DQN. Unlike the SVRG-based algorithms, SRG-DQN designs a recursive update of the stochastic gradient estimate. The parameter update is along an accumulated direction using the past stochastic gradient information, and therefore can get rid of the estimation of the full gradients as the anchors. Additionally, SRG-DQN involves the Adam process for further accelerating the training process. Theoretical analysis and the experimental results on well-known reinforcement learning tasks demonstrate the efficiency and effectiveness of the proposed SRG-DQN algorithm.
翻訳日:2022-11-07 00:44:54 公開日:2020-07-25
# emアルゴリズムにおける公正結婚原理と初期化写像

Fair Marriage Principle and Initialization Map for the EM Algorithm ( http://arxiv.org/abs/2007.12845v1 )

ライセンス: Link先を確認
Chenguang Lu(参考訳) EMアルゴリズムの一般的な収束理論は、観測された不完全データ対数対数対数対数対数対数と完全データ対数対数Qが正の相関関係にあり、Qを最大化することでLを最大化することができることを説明している。 1) 一般的な収束理論は間違っている。 2) 局所極大Qは収束速度に影響を与えるが、大域収束をブロックすることはできない。 3) 結婚競争と同様に,二成分間の不公平競争は,世界的な収束速度を大幅に減少させる可能性がある。 4) サンプルが小さすぎて不公平な競争が存在するため,局所収束が存在する。 5)Channel Matching (CM) EMアルゴリズムと呼ばれる改良されたEMアルゴリズムは,グローバル収束を加速することができる。 本稿では,DAEMアルゴリズムの著者らによって研究された二元ガウス混合の例として,二つの手段を2つの軸とする初期化写像を提案する。 このマップは、収束速度がどれくらい速く、なぜいくつかの領域の点が初期点として適さないかを示すことができる。 2次元の例は、大きなサンプルや公正な初期化が大域収束を避けることができることを示している。 より複雑な混合モデルでは、フェア結婚の原則を初期化の特定の方法に変換するためにさらなる研究が必要である。

The popular convergence theory of the EM algorithm explains that the observed incomplete data log-likelihood L and the complete data log-likelihood Q are positively correlated, and we can maximize L by maximizing Q. The Deterministic Annealing EM (DAEM) algorithm was hence proposed for avoiding locally maximal Q. This paper provides different conclusions: 1) The popular convergence theory is wrong; 2) The locally maximal Q can affect the convergent speed, but cannot block the global convergence; 3) Like marriage competition, unfair competition between two components may vastly decrease the globally convergent speed; 4) Local convergence exists because the sample is too small, and unfair competition exists; 5) An improved EM algorithm, called the Channel Matching (CM) EM algorithm, can accelerate the global convergence. This paper provides an initialization map with two means as two axes for the example of a binary Gaussian mixture studied by the authors of DAEM algorithm. This map can tell how fast the convergent speeds are for different initial means and why points in some areas are not suitable as initial points. A two-dimensional example indicates that the big sample or the fair initialization can avoid global convergence. For more complicated mixture models, we need further study to convert the fair marriage principle to specific methods for the initializations.
翻訳日:2022-11-07 00:44:31 公開日:2020-07-25
# ディープカーネル生存解析と主観的生存時間予測区間

Deep Kernel Survival Analysis and Subject-Specific Survival Time Prediction Intervals ( http://arxiv.org/abs/2007.12975v1 )

ライセンス: Link先を確認
George H. Chen(参考訳) 核生存率解析法は、どの訓練対象が試験対象と最も近いかの情報を用いて、被験者固有の生存曲線と時間を予測する。 最も類似した訓練対象は、予測証拠として機能する可能性がある。 2つの主題がどの程度類似しているかは、カーネル関数によって与えられる。 本稿では,カーネルサバイバル分析に使用するカーネル関数を学習する,最初のニューラルネットワークフレームワークを提案する。 また,テスト対象に類似した個人に対して統計的に有効である生存時間推定の予測間隔を構築するためにカーネル関数を利用する方法を示す。 これらの予測間隔は、ニューラルネットワークの学習フレームワークやランダムサバイバルフォレストを使って学んだような、任意のカーネル関数を使用することができます。 我々の実験では、神経核生存推定器は、既存の様々な生存分析法と競合しており、予測間隔は、カーネルを使用しない推定器であっても、異なる方法の不確実性を比較するのに役立つことが示されている。 特に、これらの予測区間幅はサバイバル解析法の新たな性能指標として使用できる。

Kernel survival analysis methods predict subject-specific survival curves and times using information about which training subjects are most similar to a test subject. These most similar training subjects could serve as forecast evidence. How similar any two subjects are is given by the kernel function. In this paper, we present the first neural network framework that learns which kernel functions to use in kernel survival analysis. We also show how to use kernel functions to construct prediction intervals of survival time estimates that are statistically valid for individuals similar to a test subject. These prediction intervals can use any kernel function, such as ones learned using our neural kernel learning framework or using random survival forests. Our experiments show that our neural kernel survival estimators are competitive with a variety of existing survival analysis methods, and that our prediction intervals can help compare different methods' uncertainties, even for estimators that do not use kernels. In particular, these prediction interval widths can be used as a new performance metric for survival analysis methods.
翻訳日:2022-11-07 00:43:14 公開日:2020-07-25
# 機械学習とディープニューラルネットワークを用いた心疾患診断への新しいアプローチ

A Novel Approach to the Diagnosis of Heart Disease using Machine Learning and Deep Neural Networks ( http://arxiv.org/abs/2007.12998v1 )

ライセンス: Link先を確認
Sahithi Ankireddy(参考訳) 心臓病は世界中で主要な死因である。 現在、33%の患者は誤診されており、心筋梗塞の約半数は危険と予測されていない人々である。 人工知能の使用は、エラーの可能性を減少させ、早期の診断につながる可能性がある。 本研究の目的は、機械学習(ML)とディープニューラルネットワーク(DNN)アルゴリズムを用いた心臓疾患診断のためのアプリケーションを開発することである。 データセットはクリーブランドクリニック財団から提供され、モデルはグリッドサーチアルゴリズムを含む様々な最適化とハイパーパラメトリゼーション技術に基づいて構築された。 このアプリケーションは、Frask上で動作し、DNNを使用してBootstrapを利用するように開発され、Random Forest MLモデルよりも92%の精度で実行された。

Heart disease is the leading cause of death worldwide. Currently, 33% of cases are misdiagnosed, and approximately half of myocardial infarctions occur in people who are not predicted to be at risk. The use of Artificial Intelligence could reduce the chance of error, leading to possible earlier diagnoses, which could be the difference between life and death for some. The objective of this project was to develop an application for assisted heart disease diagnosis using Machine Learning (ML) and Deep Neural Network (DNN) algorithms. The dataset was provided from the Cleveland Clinic Foundation, and the models were built based on various optimization and hyper parametrization techniques including a Grid Search algorithm. The application, running on Flask, and utilizing Bootstrap was developed using the DNN, as it performed higher than the Random Forest ML model with a total accuracy rate of 92%.
翻訳日:2022-11-07 00:42:56 公開日:2020-07-25
# 動的グラフにおける属性構造共進化の学習

Learning Attribute-Structure Co-Evolutions in Dynamic Graphs ( http://arxiv.org/abs/2007.13004v1 )

ライセンス: Link先を確認
Daheng Wang, Zhihan Zhang, Yihong Ma, Tong Zhao, Tianwen Jiang, Nitesh V. Chawla, Meng Jiang(参考訳) ほとんどのグラフニューラルネットワークモデルは、予測分析のために静的帰属グラフにノードの埋め込みを学ぶ。 近年,ノードの時間的近接を学習する試みが試みられている。 実動的属性グラフは、ノード属性とグラフ構造の複雑な共進化を示す。 ノード属性の変化とリンクの誕生と死を予測するためのノード埋め込みの学習は、未解決の問題である。 本稿では,動的帰結グラフ列をモデル化するための新しいフレームワークcoevognnを提案する。 シーケンスを通じて生成を埋め込むことで、現在のグラフに対する以前のグラフの影響を保ちます。 進化における長距離依存をモデル化する時間的自己着脱機構を持つ。 さらに、CoEvoGNNは2つの動的タスク、属性推論とリンク予測を併用してモデルパラメータを最適化する。 したがって、モデルは属性変化とリンク形成の共進化パターンをキャプチャできる。 このフレームワークは,任意のグラフニューラルネットワークに適応できるため,CoEvoGCN,CoEvoGAT,CoEvoSAGEの3つの手法を実装し,検討した。 実験では、動的なソーシャルグラフと財務グラフの個人属性と対人関係のスナップショット全体を予測する上で、フレームワーク(とその方法)は強力なベースラインを上回ります。

Most graph neural network models learn embeddings of nodes in static attributed graphs for predictive analysis. Recent attempts have been made to learn temporal proximity of the nodes. We find that real dynamic attributed graphs exhibit complex co-evolution of node attributes and graph structure. Learning node embeddings for forecasting change of node attributes and birth and death of links over time remains an open problem. In this work, we present a novel framework called CoEvoGNN for modeling dynamic attributed graph sequence. It preserves the impact of earlier graphs on the current graph by embedding generation through the sequence. It has a temporal self-attention mechanism to model long-range dependencies in the evolution. Moreover, CoEvoGNN optimizes model parameters jointly on two dynamic tasks, attribute inference and link prediction over time. So the model can capture the co-evolutionary patterns of attribute change and link formation. This framework can adapt to any graph neural algorithms so we implemented and investigated three methods based on it: CoEvoGCN, CoEvoGAT, and CoEvoSAGE. Experiments demonstrate the framework (and its methods) outperform strong baselines on predicting an entire unseen graph snapshot of personal attributes and interpersonal links in dynamic social graphs and financial graphs.
翻訳日:2022-11-07 00:42:42 公開日:2020-07-25
# 組込みインテリジェンスのための多センサ表現のフェデレーション自己監督学習

Federated Self-Supervised Learning of Multi-Sensor Representations for Embedded Intelligence ( http://arxiv.org/abs/2007.13018v1 )

ライセンス: Link先を確認
Aaqib Saeed, Flora D. Salim, Tanir Ozcelebi, and Johan Lukkien(参考訳) スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、プライバシ、帯域幅の制限、アノテーションの禁止コストによる教師付きモデル学習のための集中リポジトリに蓄積できない豊富なデータを生成する。 フェデレーション学習は、分散データからモデルを学習するための説得力のあるフレームワークを提供するが、従来はラベル付きサンプルの可用性を前提としていた。 そこで本研究では,ウェーブレット変換に基づく自己教師あり方式である \textit{scalogram-signal correspondence learning} を提案し,脳波,血圧パルス,加速度計,wifiチャネル状態情報などのラベル付センサ入力から有用な表現を学習する。 補助タスクでは、信号の任意の対とその補完的視点(すなわちウェーブレット変換によって生成されたスカルグラム)が、コントラスト目標を最適化することによって互いに一致するかどうかを判断するために、深い時間的ニューラルネットワークが必要である。 さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。 本研究では,事前学習されたネットワーク上での線形分類器の訓練,低データ環境における有用性,トランスファー学習,クロスバリデーションを用いて,ラベルなし入力コレクションから学習した表現の有効性を示す。 提案手法は,完全教師付きネットワークによる競合性能を達成し,中央およびフェデレーションの文脈において,自動エンコーダによる事前学習よりも優れる。 特に、自己教師付き学習を活用することで必要なラベル付きデータの量を減らすため、半教師付き設定での一般化を改善する。

Smartphones, wearables, and Internet of Things (IoT) devices produce a wealth of data that cannot be accumulated in a centralized repository for learning supervised models due to privacy, bandwidth limitations, and the prohibitive cost of annotations. Federated learning provides a compelling framework for learning models from decentralized data, but conventionally, it assumes the availability of labeled samples, whereas on-device data are generally either unlabeled or cannot be annotated readily through user interaction. To address these issues, we propose a self-supervised approach termed \textit{scalogram-signal correspondence learning} based on wavelet transform to learn useful representations from unlabeled sensor inputs, such as electroencephalography, blood volume pulse, accelerometer, and WiFi channel state information. Our auxiliary task requires a deep temporal neural network to determine if a given pair of a signal and its complementary viewpoint (i.e., a scalogram generated with a wavelet transform) align with each other or not through optimizing a contrastive objective. We extensively assess the quality of learned features with our multi-view strategy on diverse public datasets, achieving strong performance in all domains. We demonstrate the effectiveness of representations learned from an unlabeled input collection on downstream tasks with training a linear classifier over pretrained network, usefulness in low-data regime, transfer learning, and cross-validation. Our methodology achieves competitive performance with fully-supervised networks, and it outperforms pre-training with autoencoders in both central and federated contexts. Notably, it improves the generalization in a semi-supervised setting as it reduces the volume of labeled data required through leveraging self-supervised learning.
翻訳日:2022-11-07 00:42:24 公開日:2020-07-25
# 季節性多変量時系列異常検出におけるロバスト性の改善

Improving Robustness on Seasonality-Heavy Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2007.14254v1 )

ライセンス: Link先を確認
Farzaneh Khoshnevisan, Zhewen Fan, Vitor R. Carvalho(参考訳) 時系列データ上のロバスト異常検出(AD)は多くの複雑なシステムを監視する重要なコンポーネントである。 これらのシステムは典型的には高次元の時系列を生成するが、これは非常にうるさい、季節的、相互関連がある。 本稿では,これらのデータの課題のいくつかを考察し,季節的および汚染されたデータに対するロバスト性の向上に向けた新たなアプローチを提案する。 特に,畳み込みLSTM層の導入によるGANの最近の進歩を延長し,様々な環境における優れた性能を実現するため,ロバスト季節多変量生成適応ネットワーク(RSM-GAN)を提案する。 我々は,このモデルが複雑な季節性パターンに対してより強固な行動を示すだけでなく,データ汚染に対する耐性が増大することを示す広範な実験を行う。 既存の古典的・深層学習型広告モデルと比較し,このアーキテクチャは偽陽性率が最も低く,実世界および合成データでは30%,16%の精度向上が期待できることを示した。

Robust Anomaly Detection (AD) on time series data is a key component for monitoring many complex modern systems. These systems typically generate high-dimensional time series that can be highly noisy, seasonal, and inter-correlated. This paper explores some of the challenges in such data, and proposes a new approach that makes inroads towards increased robustness on seasonal and contaminated data, while providing a better root cause identification of anomalies. In particular, we propose the use of Robust Seasonal Multivariate Generative Adversarial Network (RSM-GAN) that extends recent advancements in GAN with the adoption of convolutional-LSTM layers and attention mechanisms to produce excellent performance on various settings. We conduct extensive experiments in which not only do this model displays more robust behavior on complex seasonality patterns, but also shows increased resistance to training data contamination. We compare it with existing classical and deep-learning AD models, and show that this architecture is associated with the lowest false positive rate and improves precision by 30% and 16% in real-world and synthetic data, respectively.
翻訳日:2022-11-07 00:41:52 公開日:2020-07-25
# 連続領域適応のための勾配正規化コントラスト学習

Gradient Regularized Contrastive Learning for Continual Domain Adaptation ( http://arxiv.org/abs/2007.12942v1 )

ライセンス: Link先を確認
Peng Su, Shixiang Tang, Peng Gao, Di Qiu, Ni Zhao, Xiaogang Wang(参考訳) 人間は学習経験を生かして環境変化に迅速に適応することができる。 しかし、動的環境への適応能力の低下は、aiモデルにとって大きな課題である。 この問題をより深く理解するために,モデルがラベル付きソースドメインとラベル付き対象ドメインのシーケンスで示される連続的ドメイン適応の問題について検討する。 この問題にはドメインシフトと破滅的な忘れという2つの大きな障害がある。 本研究では,上記の障害を解決するために,勾配正規化コントラスト学習を提案する。 本手法のコアとなるのは,(1) 学習特徴の識別力を維持するソースドメインにおける教師付きトレーニング損失を増大させることなく,対照的な学習損失の勾配を強制すること,(2) 学習対象ドメインにおける分類損失を増大させないために,新たなドメイン上での勾配更新を規則化すること,そして,モデルが来るべきターゲットドメインに適応し,事前観測されたドメインのパフォーマンスを保ちながら適応できるようにすることである。 したがって,ラベル付きソースドメインとラベル付き対象ドメインを併用することで,意味論的判別とドメイン不変性の両方を共同学習することができる。 Digits、DomainNet、Office-Caltechベンチマークの実験は、最先端技術と比較して、我々のアプローチの強いパフォーマンスを示している。

Human beings can quickly adapt to environmental changes by leveraging learning experience. However, the poor ability of adapting to dynamic environments remains a major challenge for AI models. To better understand this issue, we study the problem of continual domain adaptation, where the model is presented with a labeled source domain and a sequence of unlabeled target domains. There are two major obstacles in this problem: domain shifts and catastrophic forgetting. In this work, we propose Gradient Regularized Contrastive Learning to solve the above obstacles. At the core of our method, gradient regularization plays two key roles: (1) enforces the gradient of contrastive loss not to increase the supervised training loss on the source domain, which maintains the discriminative power of learned features; (2) regularizes the gradient update on the new domain not to increase the classification loss on the old target domains, which enables the model to adapt to an in-coming target domain while preserving the performance of previously observed domains. Hence our method can jointly learn both semantically discriminative and domain-invariant features with labeled source domain and unlabeled target domains. The experiments on Digits, DomainNet and Office-Caltech benchmarks demonstrate the strong performance of our approach when compared to the state-of-the-art.
翻訳日:2022-11-07 00:41:25 公開日:2020-07-25
# Creative Machine Learning (GDCML) によるゲームデザインに向けて

Towards Game Design via Creative Machine Learning (GDCML) ( http://arxiv.org/abs/2008.13548v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) 近年、機械学習(ML)システムはクリエイティブなタスクの実行にますます応用されている。 このような創造的なMLアプローチは、画像や音楽の生成やスタイル転送といった用途に視覚芸術や音楽の領域で広く利用されている。 しかし、ゲームコンテンツを生成するMLベースの手法が出現しても、ゲームデザインの分野では、同様の創造的ML技術が広く採用されていない。 本稿では,ゲーム用コンテンツ設計におけるこのような創造的手法の活用と再利用を論じ,創造的ML(GDCML)によるゲームデザインのアプローチとして言及する。 我々は、GDCMLを可能にする既存のシステムを強調し、サンプルアプリケーションと提案システムを介して、クリエイティブMLがいかに新しいシステムに通知できるかを説明する。

In recent years, machine learning (ML) systems have been increasingly applied for performing creative tasks. Such creative ML approaches have seen wide use in the domains of visual art and music for applications such as image and music generation and style transfer. However, similar creative ML techniques have not been as widely adopted in the domain of game design despite the emergence of ML-based methods for generating game content. In this paper, we argue for leveraging and repurposing such creative techniques for designing content for games, referring to these as approaches for Game Design via Creative ML (GDCML). We highlight existing systems that enable GDCML and illustrate how creative ML can inform new systems via example applications and a proposed system.
翻訳日:2022-11-07 00:34:36 公開日:2020-07-25
# 多視点サブスペースクラスタリングのための特徴量重み付けとロバル構造学習

Joint Featurewise Weighting and Lobal Structure Learning for Multi-view Subspace Clustering ( http://arxiv.org/abs/2007.12829v1 )

ライセンス: Link先を確認
Shi-Xun Lina, Guo Zhongb, Ting Shu(参考訳) マルチビュークラスタリングは複数の機能セットを統合し、データの異なる側面を明らかにし、クラスタリング性能を改善するために相互に補完情報を提供する。 元のデータがしばしばノイズを含み、非常に冗長であるため、複数のビューにわたる補完情報を効果的に活用することは依然として困難である。 さらに、既存のマルチビュークラスタリング手法は、各ビューの局所構造を無視しながら、すべてのビューの一貫性を探求することのみを目的としている。 しかし、異なる視点が同じクラスター構造を許容しながら異なる幾何学的構造を示すため、それぞれの視点の局所構造を考慮に入れる必要がある。 そこで本研究では,異なる特徴量に対する重み付けと,ビュー固有の自己表現特徴空間におけるデータの局所情報取得を同時に行うマルチビューサブスペースクラスタリング手法を提案する。 特に、異なるビュー間の一貫性を保証するために、共通のクラスタ構造正規化が採用されている。 拡張ラグランジアン乗算器に基づく効率的なアルゴリズムも開発し、関連する最適化問題を解く。 いくつかのベンチマークデータセットで行った実験により,提案手法が最先端の性能を実現することが示された。 私たちはMatlabのコードをhttps://github.com/Ekin102003/JFLMSCで提供します。

Multi-view clustering integrates multiple feature sets, which reveal distinct aspects of the data and provide complementary information to each other, to improve the clustering performance. It remains challenging to effectively exploit complementary information across multiple views since the original data often contain noise and are highly redundant. Moreover, most existing multi-view clustering methods only aim to explore the consistency of all views while ignoring the local structure of each view. However, it is necessary to take the local structure of each view into consideration, because different views would present different geometric structures while admitting the same cluster structure. To address the above issues, we propose a novel multi-view subspace clustering method via simultaneously assigning weights for different features and capturing local information of data in view-specific self-representation feature spaces. Especially, a common cluster structure regularization is adopted to guarantee consistency among different views. An efficient algorithm based on an augmented Lagrangian multiplier is also developed to solve the associated optimization problem. Experiments conducted on several benchmark datasets demonstrate that the proposed method achieves state-of-the-art performance. We provide the Matlab code on https://github.com/Ekin102003/JFLMSC.
翻訳日:2022-11-07 00:34:25 公開日:2020-07-25
# 離散潜在表現によるモーダル不確かさ推定

Modal Uncertainty Estimation via Discrete Latent Representation ( http://arxiv.org/abs/2007.12858v1 )

ライセンス: Link先を確認
Di Qiu, Lok Ming Lui(参考訳) 現実世界の重要な問題の多くは、ユニークな解決策を持っていません。 したがって、機械学習モデルでは、有意義な確率測度で異なる可算解を提案できることが重要である。 本研究では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習する深層学習フレームワークを提案する。 我々は1対1のマッピングを離散的潜在変数の集合を通して生成し、それぞれが対応する入出力関係のタイプを説明する潜在モード仮説を表すので、このフレームワークを「モード不確実性推定」と呼んでいる。 したがって、潜在表現の離散的性質により、出力の条件確率分布を非常に効果的に推定することができる。 離散潜在空間とその不確実性推定は共に訓練中に学習される。 我々は,現在の条件付き生成モデルにおけるマルチモーダル後方崩壊問題を通じて離散的潜在空間の利用を動機付け,理論的な背景を発達させ,合成的および現実的なタスクの両方においてこの手法を広範囲に検証する。 本フレームワークは,現在の最先端手法よりも精度の高い不確実性推定を行い,実用上有用であることを示す。

Many important problems in the real world don't have unique solutions. It is thus important for machine learning models to be capable of proposing different plausible solutions with meaningful probability measures. In this work we introduce such a deep learning framework that learns the one-to-many mappings between the inputs and outputs, together with faithful uncertainty measures. We call our framework {\it modal uncertainty estimation} since we model the one-to-many mappings to be generated through a set of discrete latent variables, each representing a latent mode hypothesis that explains the corresponding type of input-output relationship. The discrete nature of the latent representations thus allows us to estimate for any input the conditional probability distribution of the outputs very effectively. Both the discrete latent space and its uncertainty estimation are jointly learned during training. We motivate our use of discrete latent space through the multi-modal posterior collapse problem in current conditional generative models, then develop the theoretical background, and extensively validate our method on both synthetic and realistic tasks. Our framework demonstrates significantly more accurate uncertainty estimation than the current state-of-the-art methods, and is informative and convenient for practical use.
翻訳日:2022-11-07 00:34:09 公開日:2020-07-25
# Insightful Assistant: 産業会話エージェントの強化のためのAI互換操作グラフ表現

Insightful Assistant: AI-compatible Operation Graph Representations for Enhancing Industrial Conversational Agents ( http://arxiv.org/abs/2007.12929v1 )

ライセンス: Link先を確認
Bekir Bayrak, Florian Giger, Christian Meurisch(参考訳) 音声制御アシスタントの進歩は、消費者市場への道を開いた。 プロフェッショナルや産業用途では、データの複雑さ、AIベースの操作の可能性、要求により、このようなアシスタントの能力は制限されすぎ、あるいは実装に時間がかかりすぎる。 これらの欠点を鑑みて,本論文では,検出意図から生じる新たな操作グラフ表現に基づくパイプライン概念であるInsightful Assistantを提案する。 定義済みのセマンティックアノテート(実行可能)関数セットを使用して、オペレーショングラフの各ノードは、実行のために関数に割り当てられる。 このような機能は基本的な操作以外に、人工知能(AI)ベースの操作(例えば異常検出)を含むことができる。 その結果は型に従ってユーザに可視化され、ユーザの好みを自動的に抽出する。 さらに、産業データセットのために、4つの異なるバリエーションが期待される869のリクエストをクラウドソースで収集しました。 このデータセットにおける概念実証プロトタイプの評価は、異なる変種による単純な(複雑な)要求検出に最大95.0% (74.5%)、データ/ユーザ適応視覚化に最大95.4%の精度を実現している。

Advances in voice-controlled assistants paved the way into the consumer market. For professional or industrial use, the capabilities of such assistants are too limited or too time-consuming to implement due to the higher complexity of data, possible AI-based operations, and requests. In the light of these deficits, this paper presents Insightful Assistant---a pipeline concept based on a novel operation graph representation resulting from the intents detected. Using a predefined set of semantically annotated (executable) functions, each node of the operation graph is assigned to a function for execution. Besides basic operations, such functions can contain artificial intelligence (AI) based operations (e.g., anomaly detection). The result is then visualized to the user according to type and extracted user preferences in an automated way. We further collected a unique crowd-sourced set of 869 requests, each with four different variants expected visualization, for an industrial dataset. The evaluation of our proof-of-concept prototype on this dataset shows its feasibility: it achieves an accuracy of up to 95.0% (74.5%) for simple (complex) request detection with different variants and a top3-accuracy up to 95.4% for data-/user-adaptive visualization.
翻訳日:2022-11-07 00:32:47 公開日:2020-07-25