このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200203)

# 近接量子アルゴリズムのための連続した2ビットゲートのデモ

Demonstrating a Continuous Set of Two-qubit Gates for Near-term Quantum Algorithms ( http://arxiv.org/abs/2001.08343v2 )

ライセンス: Link先を確認
B. Foxen, C. Neill, A. Dunsworth, P. Roushan, B. Chiaro, A. Megrant, J. Kelly, Zijun Chen, K. Satzinger, R. Barends, F. Arute, K. Arya, R. Babbush, D. Bacon, J.C. Bardin, S. Boixo, D. Buell, B. Burkett, Yu Chen, R. Collins, E. Farhi, A. Fowler, C. Gidney, M. Giustina, R. Graff, M. Harrigan, T. Huang, S.V. Isakov, E. Jeffrey, Z. Jiang, D. Kafri, K. Kechedzhi, P. Klimov, A. Korotkov, F. Kostritsa, D. Landhuis, E. Lucero, J. McClean, M. McEwen, X. Mi, M. Mohseni, J.Y. Mutus, O. Naaman, M. Neeley, M. Niu, A. Petukhov, C. Quintana, N. Rubin, D. Sank, V. Smelyanskiy, A. Vainsencher, T.C. White, Z. Yao, P. Yeh, A. Zalcman, H. Neven, and John M. Martinis(参考訳) 量子アルゴリズムは、機械学習、物質科学、化学における計算問題の劇的なスピードアップを提供する。 しかし、これらのアルゴリズムの短期的な実現には、既存のノイズ量子ハードウェアが提供する有限資源に適合するように、高度に最適化する必要がある。 本稿では,gmon qubitsの強い調整可能な結合を生かして,標準分解と比較して回路深度を3倍低減できる連続的な2量子ビットゲート集合を示す。 任意のスワップ角を得るためのiSWAPライクなゲート,$\theta$,および任意の条件相を生成するCPHASEゲート,$\phi$の2つのゲートファミリを実装している。 これらのゲートの1つを用いて、励起保存部分空間内で任意の2量子ビットゲートを実行し、いわゆるフェルミオンシミュレーション(fsim)ゲート集合の完全な実装を可能にする。 我々は、iswap様およびcphaseゲートファミリーと、fsim($\theta$,$\phi$)パラメータ空間全体に均等に広がる他の525のfsimゲートの忠実さをベンチマークし、純度制限された平均2量子ビットのpauliエラーをfsimゲート当たり3.8 \times 10^{-3}$とする。

Quantum algorithms offer a dramatic speedup for computational problems in machine learning, material science, and chemistry. However, any near-term realizations of these algorithms will need to be heavily optimized to fit within the finite resources offered by existing noisy quantum hardware. Here, taking advantage of the strong adjustable coupling of gmon qubits, we demonstrate a continuous two-qubit gate set that can provide a 3x reduction in circuit depth as compared to a standard decomposition. We implement two gate families: an iSWAP-like gate to attain an arbitrary swap angle, $\theta$, and a CPHASE gate that generates an arbitrary conditional phase, $\phi$. Using one of each of these gates, we can perform an arbitrary two-qubit gate within the excitation-preserving subspace allowing for a complete implementation of the so-called Fermionic Simulation, or fSim, gate set. We benchmark the fidelity of the iSWAP-like and CPHASE gate families as well as 525 other fSim gates spread evenly across the entire fSim($\theta$, $\phi$) parameter space achieving purity-limited average two-qubit Pauli error of $3.8 \times 10^{-3}$ per fSim gate.
翻訳日:2023-06-06 05:12:21 公開日:2020-02-03
# ダイヤモンド中の窒素空孔(NV-)中心を有するアンビル細胞の局所圧力環境の探索

Probing local pressure environment in anvil cells with nitrogen vacancy (NV-) centers in diamond ( http://arxiv.org/abs/2002.00549v1 )

ライセンス: Link先を確認
Kin On Ho, Man Yin Leung, Yaxin Jiang, Kin Pong Ao, Wei Zhang, King Yau Yip, Yiu Yung Pang, King Cho Wong, Swee K. Goh, Sen Yang(参考訳) 重要な発見は高圧下での物質の研究を通じてしばしば行われた。 圧力環境の条件は実験結果の解釈に重要である。 圧力セル内部の様々な制限のため、圧力分布などの圧力環境に関する詳細な情報を得るのは難しい。 ここでは, ダイヤモンド粒子をセンサとするNV中心の異なる実験条件下での圧力媒質内部の圧力分布について検討する。 これらの研究は, 空間分解能, 広い温度, 圧力作業範囲, 既存の圧力セル設計と新しい手法との整合性を示すだけでなく, 圧力分布が様々な要因に敏感であることから, これらのセンサを用いた測定の有用性を示す。 この方法と結果は流体力学における材料研究や相転移など多くの分野に有用である。

Important discoveries have frequently been made through the studies of matter under high pressure. The conditions of the pressure environment are important for the interpretation of the experimental results. Due to various restrictions inside the pressure cell, detailed information relevant to the pressure environment, such as the pressure distribution, can be hard to obtain experimentally. Here we present the study of pressure distributions inside the pressure medium under different experimental conditions with NV centers in diamond particles as the sensor. These studies not only show a good spatial resolution, wide temperature and pressure working ranges, compatibility of the existing pressure cell design with the new method, but also demonstrate the usefulness to measure with these sensors as the pressure distribution is sensitive to various factors. The method and the results will benefit many disciplines such as material research and phase transitions in fluid dynamics.
翻訳日:2023-06-04 20:49:39 公開日:2020-02-03
# 食品推薦者の倫理

Ethics of Food Recommender Applications ( http://arxiv.org/abs/2002.05679v1 )

ライセンス: Link先を確認
Daniel Karpati, Amro Najjar, Diego Agustin Ambrossio(参考訳) 近年の食品レコメンデーター・アプリケーションの人気は、これらの応用に依存する倫理的、社会的、法的意味に関連するいくつかの問題を提起している。 本稿では、関連する倫理的問題を評価するために、ai\&ethicsコミュニティ全体の新しい原則に依拠し、それらに特有なコンテキストを定義します。 欧州市場における人気食品推薦システム(henceforth f-rs)は、パーソナライズされたf-rsとはみなされないため、この機能の欠如が焦点倫理的な懸念の関連性をいかに変化させるかを示す。 我々は、主要な課題を特定し、明確な倫理的議題を説明するためのスキームを提案する。 また、すべての利害関係者に長期的な利益をもたらすためには、マルチステークホルダーのアプローチが不可欠であることを議論する。 f-rsの倫理的デシデラタ点を8つ提案した後、ケーススタディを行い、提案するデシデラタ点に基づいて評価する。

The recent unprecedented popularity of food recommender applications has raised several issues related to the ethical, societal and legal implications of relying on these applications. In this paper, in order to assess the relevant ethical issues, we rely on the emerging principles across the AI\&Ethics community and define them tailored context specifically. Considering the popular Food Recommender Systems (henceforth F-RS) in the European market cannot be regarded as personalised F-RS, we show how merely this lack of feature shifts the relevance of the focal ethical concerns. We identify the major challenges and propose a scheme for how explicit ethical agendas should be explained. We also argue how a multi-stakeholder approach is indispensable to ensure producing long-term benefits for all stakeholders. After proposing eight ethical desiderata points for F-RS, we present a case-study and assess it based on our proposed desiderata points.
翻訳日:2023-06-04 20:43:23 公開日:2020-02-03
# ダブルウェルにおける超低温ボソンのスペクトル構造と多体ダイナミクス

Spectral Structure and Many-Body Dynamics of Ultracold Bosons in a Double-Well ( http://arxiv.org/abs/2002.00973v1 )

ライセンス: Link先を確認
Frank Sch\"afer, Miguel A. Bastarrachea-Magnani, Axel U. J. Lode, Laurent de Forges de Parny, and Andreas Buchleitner(参考訳) 1次元ダブルウェルに閉じ込められた2および3つの反発的に相互作用するボソンのスペクトル構造と多体動特性について, 可変バリア高さ, 粒子間相互作用強度, 初期条件について検討した。 多粒子ハミルトニアンの正確な対角化により、我々は、時間に依存しないポテンシャルにおいて、単一粒子の基底状態または鞍点エネルギーで打ち上げられた粒子の動的挙動を特に探究する。 我々は, 単一粒子のフォン・ノイマンエントロピーの時間発展を通じて, ポテンシャル障壁の有限時間切換え下でのダイアバティックから準断熱的進化へのクロスオーバーを特徴付けることにより, これらの結果を補う。 これは、粒子数を増大させるために、結果を外挿することのできる、区別不可能な粒子(\textsc{Mctdh-x})に対する多重構成時間依存Hartree法(英語版)の助けを借りて達成される。

We examine the spectral structure and many-body dynamics of two and three repulsively interacting bosons trapped in a one-dimensional double-well, for variable barrier height, inter-particle interaction strength, and initial conditions. By exact diagonalization of the many-particle Hamiltonian, we specifically explore the dynamical behaviour of the particles launched either at the single particle ground state or saddle point energy, in a time-independent potential. We complement these results by a characterisation of the cross-over from diabatic to quasi-adiabatic evolution under finite-time switching of the potential barrier, via the associated time-evolution of a single particle's von Neumann entropy. This is achieved with the help of the multiconfigurational time-dependent Hartree method for indistinguishable particles (\textsc{Mctdh-x}) -- which also allows us to extrapolate our results for increasing particle numbers.
翻訳日:2023-06-04 20:42:44 公開日:2020-02-03
# エルゴード状態のランダム性を探る:エルゴード相と多体局在相における極値統計

Probing the randomness of ergodic states: extreme-value statistics in the ergodic and many-body-localized phases ( http://arxiv.org/abs/2002.00682v1 )

ライセンス: Link先を確認
Rajarshi Pal and Arul Lakshminarayan(参考訳) 多体局在遷移を有する乱れたスピン鎖の絡み合いスペクトルの極値統計について検討した。 金属相またはエルゴード相の固有状態はランダムな状態として振る舞うことが期待され、したがって、還元密度行列の固有値(一般にエンタングルメントスペクトルと呼ばれる)は、トレース正規化ウィッシュアートアンサンブルの固有値統計に従うことが期待される。 特に、固有値の密度は普遍的なマルテンコ・パストゥル分布に従わなければならない。 半埋積セクターで保存された総S_z$の混乱したXXZと、この保存を破るモデルの両方において、尾部の偏差が見いだされる。 偏差の感度測度は最大固有値によって提供され、適切なシフトとスケーリングの後にウィッシュアートアンサンブルが普遍的トレイシー・ウィドム分布に従う。 金属相では、固有ベクトルの還元密度行列の最大固有値が、フィッシャー・ティペット・グンベル分布に接する一般化された極値統計に従うことにより、固有値間の相関がウィッシュアートアンサンブルよりもずっと弱いことが示されている。 固有状態の高エントロピーと正規化参加比を条件付き分布で表し、条件エンタングルメントスペクトルが依然として一般化された極値分布に従うことを示す。 深い局所化フェーズでは、最大値と2番目に大きい固有値の適切にスケールされた関数において、重いテール分布とl\'evy安定法則を見つける。 スケーリングは、弱結合カオス系の最近開発された摂動理論によって動機付けられた。

The extreme-value statistics of the entanglement spectrum in disordered spin chains possessing a many-body localization transition is examined. It is expected that eigenstates in the metallic or ergodic phase, behave as random states and hence the eigenvalues of the reduced density matrix, commonly referred to as the entanglement spectrum, are expected to follow the eigenvalue statistics of a trace normalized Wishart ensemble. In particular, the density of eigenvalues is supposed to follow the universal Marchenko-Pastur distribution. We find deviations in the tails both for the disordered XXZ with total $S_z$ conserved in the half-filled sector as well as in a model that breaks this conservation. A sensitive measure of deviations is provided by the largest eigenvalue, which in the case of the Wishart ensemble after appropriate shift and scaling follows the universal Tracy-Widom distribution. We show that for the models considered, in the metallic phase, the largest eigenvalue of the reduced density matrix of eigenvector, instead follows the generalized extreme-value statistics bordering on the Fisher-Tipett-Gumbel distribution indicating that the correlations between eigenvalues are much weaker compared to the Wishart ensemble. We show by means of distributions conditional on the high entropy and normalized participation ratio of eigenstates that the conditional entanglement spectrum still follows generalized extreme value distribution. In the deeply localized phase we find heavy tailed distributions and L\'evy stable laws in an appropriately scaled function of the largest and second largest eigenvalues. The scaling is motivated by a recently developed perturbation theory of weakly coupled chaotic systems.
翻訳日:2023-06-04 20:40:37 公開日:2020-02-03
# 多視点残差学習を用いた適応ROIを用いた肺結節分節の検討

Volumetric Lung Nodule Segmentation using Adaptive ROI with Multi-View Residual Learning ( http://arxiv.org/abs/1912.13335v2 )

ライセンス: Link先を確認
Muhammad Usman, Byoung-Dai Lee, Shi Sub Byon, Sung Hyun Kim, and Byung-ilLee(参考訳) 肺結節の正確な定量化は肺癌の早期診断に大いに役立ち、患者の生存可能性を高めることができる。 ノジュールのセグメンテーション技術はいくつか提案されているが、既存の技術はすべて放射線科医の3次元利子容積(voi)の入力または使用に依存しており、与えられたvoi内にノジュールボクセルが存在するかを調べるのみである。 このようなアプローチは、与えられた VOI の外にある結節の存在を調べる解を抑え、またVOI への冗長構造も含み、不正確な結節分割につながる可能性がある。 本研究では,ct肺スキャンにおける結節の3次元分割のための新しい半自動的アプローチを提案する。 提案手法は2つの段階に分けられるが,第1段階では根粒を含む2次元roiを入力とし,新しい適応roi戦略を用いて軸軸に沿ってパッチワイズ調査を行う。 適応型ROIアルゴリズムにより、周辺スライスに対するROIを動的に選択し、深い残留U-Netアーキテクチャを用いて結節の存在を調べることができる。 第1段階は、VOIを抽出するためにさらに利用される結節の初期推定を提供する。 第2段階では、抽出されたvoiが2つの異なるネットワークでコロナおよび矢状軸に沿ってさらに調査され、最終的に推定されたマスクは全てコンセンサスモジュールに供給され、結節の体積分節が生成される。 提案されたアプローチは、最大の公開データセットであるlidcデータセットで厳格に評価されている。 その結果,従来の技術と比較して,アプローチは極めて堅牢で正確であることが示唆された。

Accurate quantification of pulmonary nodules can greatly assist the early diagnosis of lung cancer, which can enhance patient survival possibilities. A number of nodule segmentation techniques have been proposed, however, all of the existing techniques rely on radiologist 3-D volume of interest (VOI) input or use the constant region of interest (ROI) and only investigate the presence of nodule voxels within the given VOI. Such approaches restrain the solutions to investigate the nodule presence outside the given VOI and also include the redundant structures into VOI, which may lead to inaccurate nodule segmentation. In this work, a novel semi-automated approach for 3-D segmentation of nodule in volumetric computerized tomography (CT) lung scans has been proposed. The proposed technique can be segregated into two stages, at the first stage, it takes a 2-D ROI containing the nodule as input and it performs patch-wise investigation along the axial axis with a novel adaptive ROI strategy. The adaptive ROI algorithm enables the solution to dynamically select the ROI for the surrounding slices to investigate the presence of nodule using deep residual U-Net architecture. The first stage provides the initial estimation of nodule which is further utilized to extract the VOI. At the second stage, the extracted VOI is further investigated along the coronal and sagittal axis with two different networks and finally, all the estimated masks are fed into the consensus module to produce the final volumetric segmentation of nodule. The proposed approach has been rigorously evaluated on the LIDC dataset, which is the largest publicly available dataset. The result suggests that the approach is significantly robust and accurate as compared to the previous state of the art techniques.
翻訳日:2023-01-16 20:16:41 公開日:2020-02-03
# 置換不変トレーニングを用いた事実認識文分割と再現

Fact-aware Sentence Split and Rephrase with Permutation Invariant Training ( http://arxiv.org/abs/2001.11383v2 )

ライセンス: Link先を確認
Yinuo Guo, Tao Ge, Furu Wei(参考訳) Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。 従来の研究では、並列文ペアからseq2seq学習によってこの問題に対処し、複雑な文を入力とし、一連の単純な文を順次生成する。 しかし、従来のseq2seq学習では、(1)長文に記載された事実を考慮せず、結果として生成された単純な文は、元の文で事実を見逃したり、不正確な表現をしたりする。 2) 生成すべき単純文の順序分散は,長文から派生した簡約文が任意の順序にあるため,訓練中にSeq2seqモデルを混乱させる可能性がある。 この課題を克服するために,まず,モデルが長文から事実を学習できるファクトアウェア文エンコーディングを提案し,文分割の精度を向上させるとともに,seq2seq学習における順序分散の効果を緩和するために置換不変トレーニングを導入する。 WebSplit-v1.0ベンチマークデータセットの実験により、我々のアプローチは、以前のセq2seq学習アプローチよりもパフォーマンスを大幅に改善できることが示された。 さらに,oie-benchmark に対する外在的評価は,前処理による長文分割が OpenIE の性能向上に有効であることを示す観察によって,我々のアプローチの有効性を検証している。

Sentence Split and Rephrase aims to break down a complex sentence into several simple sentences with its meaning preserved. Previous studies tend to address the issue by seq2seq learning from parallel sentence pairs, which takes a complex sentence as input and sequentially generates a series of simple sentences. However, the conventional seq2seq learning has two limitations for this task: (1) it does not take into account the facts stated in the long sentence; As a result, the generated simple sentences may miss or inaccurately state the facts in the original sentence. (2) The order variance of the simple sentences to be generated may confuse the seq2seq model during training because the simple sentences derived from the long source sentence could be in any order. To overcome the challenges, we first propose the Fact-aware Sentence Encoding, which enables the model to learn facts from the long sentence and thus improves the precision of sentence split; then we introduce Permutation Invariant Training to alleviate the effects of order variance in seq2seq learning for this task. Experiments on the WebSplit-v1.0 benchmark dataset show that our approaches can largely improve the performance over the previous seq2seq learning approaches. Moreover, an extrinsic evaluation on oie-benchmark verifies the effectiveness of our approaches by an observation that splitting long sentences with our state-of-the-art model as preprocessing is helpful for improving OpenIE performance.
翻訳日:2023-01-11 00:11:28 公開日:2020-02-03
# 決定木のブーストおよび微分的プライベートアンサンブル

Boosted and Differentially Private Ensembles of Decision Trees ( http://arxiv.org/abs/2001.09384v2 )

ライセンス: Link先を確認
Richard Nock and Wilko Henecka(参考訳) 決定木分類法(DT)は国際競争で非常に人気があるが、我々の知る限り、現在無作為林がDPの段階で優位に立つまで、これらの分類法を「textit{ also} differential private(DP)」にする方法については、公式には知られていない。 当社の論文は、DTのプライバシ対ブースト・ピクチャー・ピクチャーズ・ピクチャーズが顕著かつ一般的な技術的トレードオフを伴っているという証明から始まります。 DT誘導アルゴリズムは基本的に反復的であり、分割ノードに対する実用性に対するノイズのバランスをとるために損失を選択または調整する非自明な選択を意味する。 これに対処するために、我々は、m$\alpha$-lossと呼ばれる新しいパラメータ化された適切な損失を作成します。 次に、DT誘導時のトレードオフを適応的に調整し、使用したプライバシー予算を抑えつつ、高い確率で制限深度ノードの収束を促進できる方法として、textit{objective calibration}を導入する。 19のuciドメインに関する広範囲な実験により、dpフリー設定でも客観的なキャリブレーションは高い競合性を示す。 私たちのアプローチは、ランダムな森林、特に高いdpレジーム(英語版)(\varepsilon \leq 0.1$)、ブースターされたアンサンブル(英語版)でさえも、10倍の樹木を含むランダムな森林を大きく上回る傾向にあります。

Boosted ensemble of decision tree (DT) classifiers are extremely popular in international competitions, yet to our knowledge nothing is formally known on how to make them \textit{also} differential private (DP), up to the point that random forests currently reign supreme in the DP stage. Our paper starts with the proof that the privacy vs boosting picture for DT involves a notable and general technical tradeoff: the sensitivity tends to increase with the boosting rate of the loss, for any proper loss. DT induction algorithms being fundamentally iterative, our finding implies non-trivial choices to select or tune the loss to balance noise against utility to split nodes. To address this, we craft a new parametererized proper loss, called the M$\alpha$-loss, which, as we show, allows to finely tune the tradeoff in the complete spectrum of sensitivity vs boosting guarantees. We then introduce \textit{objective calibration} as a method to adaptively tune the tradeoff during DT induction to limit the privacy budget spent while formally being able to keep boosting-compliant convergence on limited-depth nodes with high probability. Extensive experiments on 19 UCI domains reveal that objective calibration is highly competitive, even in the DP-free setting. Our approach tends to very significantly beat random forests, in particular on high DP regimes ($\varepsilon \leq 0.1$) and even with boosted ensembles containing ten times less trees, which could be crucial to keep a key feature of DT models under differential privacy: interpretability.
翻訳日:2023-01-06 19:18:09 公開日:2020-02-03
# 最後のフロンティア:宇宙の深層学習

The Final Frontier: Deep Learning in Space ( http://arxiv.org/abs/2001.10362v2 )

ライセンス: Link先を確認
Vivek Kothari, Edgar Liberis, Nicholas D. Lane(参考訳) 機械学習、特にディープラーニングは、宇宙アプリケーションで活用されつつあり、多くの地上問題における画期的な成功を反映している。 人工衛星のような宇宙機器の配備は、モジュラー衛星や商業宇宙打ち上げの開発により、小規模事業者にとってよりアクセスしやすくなり、この領域のさらなる成長を促している。 高度な計算インテリジェンスを提供するディープラーニングの能力は、宇宙機器上の様々なタスクを容易にし、運用コストを削減できる魅力的な選択肢である。 本研究では,モバイルおよび組み込み機械学習の開発方向の1つとして,空間における深層学習を同定する。 衛星画像などの空間データに機械学習の様々な応用を照合し、通信コストの低減やナビゲーションの容易化など、デバイス上のディープラーニングが宇宙船の運用を有意義に改善する方法について述べる。 衛星の計算プラットフォームを詳述し、組込みシステムと平行に描画し、資源制約環境のためのディープラーニングの研究を行っている。

Machine learning, particularly deep learning, is being increasing utilised in space applications, mirroring the groundbreaking success in many earthbound problems. Deploying a space device, e.g. a satellite, is becoming more accessible to small actors due to the development of modular satellites and commercial space launches, which fuels further growth of this area. Deep learning's ability to deliver sophisticated computational intelligence makes it an attractive option to facilitate various tasks on space devices and reduce operational costs. In this work, we identify deep learning in space as one of development directions for mobile and embedded machine learning. We collate various applications of machine learning to space data, such as satellite imaging, and describe how on-device deep learning can meaningfully improve the operation of a spacecraft, such as by reducing communication costs or facilitating navigation. We detail and contextualise compute platform of satellites and draw parallels with embedded systems and current research in deep learning for resource-constrained environments.
翻訳日:2023-01-06 08:34:44 公開日:2020-02-03
# 逆像-周波数変換による非教師なし画素レベル道路欠陥検出

Unsupervised Pixel-level Road Defect Detection via Adversarial Image-to-Frequency Transform ( http://arxiv.org/abs/2001.11175v2 )

ライセンス: Link先を確認
Jongmin Yu, Duyong Kim, Younkwan Lee, and Moongu Jeon(参考訳) 過去数年間、コンピュータビジョンとディープラーニングに関する様々な研究の進歩により、道路欠陥検出の性能が著しく向上した。 大規模で十分な注釈付きデータセットは道路舗装欠陥の検出性能をある程度向上させるが、様々な道路状況や欠陥パターンを考慮したデータセットの構築が困難であるため、実際の道路状況に確実に対応可能なモデルを得ることは依然として困難である。 そこで本稿では,AIFT(Adversarial Image-to-Frequency Transform)を用いた道路欠陥検出手法を提案する。 AIFTは、欠陥検出モデルの導出において、教師なしの方法と敵対的な学習を採用するため、道路舗装欠陥に対するアノテーションは不要である。 GAPs384データセット、Cracktree200データセット、CRACK500データセット、CFDデータセットを用いてAIFTの効率を評価する。 実験の結果,提案手法は様々な道路検出を検知し,既存の最先端手法よりも優れていることがわかった。

In the past few years, the performance of road defect detection has been remarkably improved thanks to advancements on various studies on computer vision and deep learning. Although a large-scale and well-annotated datasets enhance the performance of detecting road pavement defects to some extent, it is still challengeable to derive a model which can perform reliably for various road conditions in practice, because it is intractable to construct a dataset considering diverse road conditions and defect patterns. To end this, we propose an unsupervised approach to detecting road defects, using Adversarial Image-to-Frequency Transform (AIFT). AIFT adopts the unsupervised manner and adversarial learning in deriving the defect detection model, so AIFT does not need annotations for road pavement defects. We evaluate the efficiency of AIFT using GAPs384 dataset, Cracktree200 dataset, CRACK500 dataset, and CFD dataset. The experimental results demonstrate that the proposed approach detects various road detects, and it outperforms existing state-of-the-art approaches.
翻訳日:2023-01-05 12:03:19 公開日:2020-02-03
# 敵対的インクリメンタル学習

Adversarial Incremental Learning ( http://arxiv.org/abs/2001.11152v2 )

ライセンス: Link先を確認
Ankur Singh(参考訳) ディープラーニングは、さまざまなタスクで非常にうまく機能するが、それでもなお、破滅的な忘れ込みに悩まされている。ニューラルネットワークは、以前のデータが利用できない新しいタスクを学ぶ際に、学習した情報を忘れる傾向にある。 以前のインクリメンタル学習の方法は、古いデータセットの一部を使うか、例示を生成するか、メモリネットワークを使うかのどちらかでこの問題に取り組む。 これらの手法は優れた結果を示すが、例示や生成はメモリと計算の要求を増加させる。 これらの問題を解決するために,新しいタスクのトレーニング中に古いデータを全く利用しない逆判別器に基づく手法を提案する。 特に,クラスベースの逐次的なデータ提供を行う画像分類において,クラスインクリメンタル学習の問題に対処する。 この問題に対して、ネットワークは従来のクロスエントロピー損失と共に対向損失を用いて訓練される。 クロスエントロピー損失は、ネットワークが新しいクラスを徐々に学習するのに役立つ一方、敵対的損失は既存のクラスに関する情報を保存するのに役立つ。 このアプローチを用いることで、CIFAR-100, SVHN, MNISTデータセット上で、他の最先端メソッドよりも優れたパフォーマンスが得られる。

Although deep learning performs really well in a wide variety of tasks, it still suffers from catastrophic forgetting -- the tendency of neural networks to forget previously learned information upon learning new tasks where previous data is not available. Earlier methods of incremental learning tackle this problem by either using a part of the old dataset, by generating exemplars or by using memory networks. Although, these methods have shown good results but using exemplars or generating them, increases memory and computation requirements. To solve these problems we propose an adversarial discriminator based method that does not make use of old data at all while training on new tasks. We particularly tackle the class incremental learning problem in image classification, where data is provided in a class-based sequential manner. For this problem, the network is trained using an adversarial loss along with the traditional cross-entropy loss. The cross-entropy loss helps the network progressively learn new classes while the adversarial loss helps in preserving information about the existing classes. Using this approach, we are able to outperform other state-of-the-art methods on CIFAR-100, SVHN, and MNIST datasets.
翻訳日:2023-01-05 11:44:07 公開日:2020-02-03
# AVATAR -- 代理モデルを用いた機械学習パイプライン評価

AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model ( http://arxiv.org/abs/2001.11158v2 )

ライセンス: Link先を確認
Tien-Dung Nguyen, Tomasz Maszczyk, Katarzyna Musial, Marc-Andre Z\"oller, Bogdan Gabrys(参考訳) 自動MLパイプライン合成と最適化において,機械学習パイプラインの評価が不可欠である。 Auto-Weka、Auto-Sklearn、TPOTで実装されたベイジアンベースおよび遺伝的ベース最適化のような以前の手法では、パイプラインの実行によってパイプラインを評価する。 したがって、これらの手法のパイプライン構成と最適化には膨大な時間を要するため、予測モデルを改善するために複雑なパイプラインを探索することができない。 この研究課題をさらに探究するため,我々は,生成されたパイプラインの多くが無効であることを示す実験を行った。 そこで本稿では,サロゲートモデル(AVATAR)を用いてMLパイプラインの有効性を評価する手法を提案する。 AVATARは、無効なパイプラインを迅速に無視することで、自動MLパイプライン合成と最適化を高速化する。 実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。

The evaluation of machine learning (ML) pipelines is essential during automatic ML pipeline composition and optimisation. The previous methods such as Bayesian-based and genetic-based optimisation, which are implemented in Auto-Weka, Auto-sklearn and TPOT, evaluate pipelines by executing them. Therefore, the pipeline composition and optimisation of these methods requires a tremendous amount of time that prevents them from exploring complex pipelines to find better predictive models. To further explore this research challenge, we have conducted experiments showing that many of the generated pipelines are invalid, and it is unnecessary to execute them to find out whether they are good pipelines. To address this issue, we propose a novel method to evaluate the validity of ML pipelines using a surrogate model (AVATAR). The AVATAR enables to accelerate automatic ML pipeline composition and optimisation by quickly ignoring invalid pipelines. Our experiments show that the AVATAR is more efficient in evaluating complex pipelines in comparison with the traditional evaluation approaches requiring their execution.
翻訳日:2023-01-05 11:35:51 公開日:2020-02-03
# AU-AIR:低高度交通監視のための多モード無人航空機データセット

AU-AIR: A Multi-modal Unmanned Aerial Vehicle Dataset for Low Altitude Traffic Surveillance ( http://arxiv.org/abs/2001.11737v2 )

ライセンス: Link先を確認
Ilker Bozcan and Erdal Kayacan(参考訳) カメラを搭載した無人航空機(UAV)は、空中(バードビュー)画像を撮影する利点がある。 航空画像データの可用性と最近のオブジェクト検出アルゴリズムの進歩により、コンピュータビジョンコミュニティは航空画像のオブジェクト検出タスクに集中するようになった。 この結果、オブジェクトアノテーションによる視覚データを含むいくつかの航空データセットが導入された。 UAVはこれらのデータセットのフライングカメラとしてのみ使用され、飛行に関するさまざまなデータタイプ(例えば、時間、位置、内部センサー)を捨てる。 本研究では,実環境下で収集したマルチモーダルセンサデータ(視覚,時間,位置,高度,IMU,速度)を用いた多目的航空データセット(AU-AIR)を提案する。 AU-AIRデータセットは、記録されたRGBビデオから抽出されたフレーム(すなわち、トラフィック関連オブジェクトカテゴリのバウンディングボックスアノテーション)のメタデータを含む。 さらに,物体検出タスクの文脈における自然画像と空中画像の違いを強調した。 この目的のために、UAV搭載コンピュータを用いたリアルタイム物体検出に適用可能なモバイルオブジェクト検出器(YOLOv3-TinyやMobileNetv2-SSDLiteを含む)をAU-AIRデータセット上でトレーニングし、テストする。 私たちのデータセットは記録データの種類が多様であるため、コンピュータビジョンとロボット工学のギャップを埋めるのに役立ちます。 データセットはhttps://bozcani.github.io/auairdatasetで利用可能である。

Unmanned aerial vehicles (UAVs) with mounted cameras have the advantage of capturing aerial (bird-view) images. The availability of aerial visual data and the recent advances in object detection algorithms led the computer vision community to focus on object detection tasks on aerial images. As a result of this, several aerial datasets have been introduced, including visual data with object annotations. UAVs are used solely as flying-cameras in these datasets, discarding different data types regarding the flight (e.g., time, location, internal sensors). In this work, we propose a multi-purpose aerial dataset (AU-AIR) that has multi-modal sensor data (i.e., visual, time, location, altitude, IMU, velocity) collected in real-world outdoor environments. The AU-AIR dataset includes meta-data for extracted frames (i.e., bounding box annotations for traffic-related object category) from recorded RGB videos. Moreover, we emphasize the differences between natural and aerial images in the context of object detection task. For this end, we train and test mobile object detectors (including YOLOv3-Tiny and MobileNetv2-SSDLite) on the AU-AIR dataset, which are applicable for real-time object detection using on-board computers with UAVs. Since our dataset has diversity in recorded data types, it contributes to filling the gap between computer vision and robotics. The dataset is available at https://bozcani.github.io/auairdataset.
翻訳日:2023-01-05 06:57:18 公開日:2020-02-03
# 両眼同時交渉のための深層強化学習アプローチ

A Deep Reinforcement Learning Approach to Concurrent Bilateral Negotiation ( http://arxiv.org/abs/2001.11785v2 )

ライセンス: Link先を確認
Pallavi Bagga, Nicola Paoletti, Bedour Alrayes, Kostas Stathis(参考訳) 本稿では,未知および動的電子市場において,エージェントが同時交渉の際の交渉方法を学ぶことのできる,新たな交渉モデルを提案する。 エージェントは、モデルフリーの強化学習を備えたアクタ-クリティックアーキテクチャを使用して、ディープニューラルネットワークとして表現された戦略を学ぶ。 我々は,合成市場データからの監督により戦略を事前学習し,交渉中に学習に必要な探索時間を短縮する。 その結果、事前プログラミングを必要とせず、異なる電子市場設定に適応できる並行交渉のための自動エージェントを構築することができる。 実験により, 深層強化学習型エージェントは, 電子市場における一対多の同時交渉において, 既知の2つの交渉戦略より優れていることが示された。

We present a novel negotiation model that allows an agent to learn how to negotiate during concurrent bilateral negotiations in unknown and dynamic e-markets. The agent uses an actor-critic architecture with model-free reinforcement learning to learn a strategy expressed as a deep neural network. We pre-train the strategy by supervision from synthetic market data, thereby decreasing the exploration time required for learning during negotiation. As a result, we can build automated agents for concurrent negotiations that can adapt to different e-market settings without the need to be pre-programmed. Our experimental evaluation shows that our deep reinforcement learning-based agents outperform two existing well-known negotiation strategies in one-to-many concurrent bilateral negotiations for a range of e-market settings.
翻訳日:2023-01-05 06:46:41 公開日:2020-02-03
# 脳波を用いた脳-コンピュータインタフェースのためのシームズニューラルネットワーク

Siamese Neural Networks for EEG-based Brain-computer Interfaces ( http://arxiv.org/abs/2002.00904v1 )

ライセンス: Link先を確認
Soroosh Shahtalebi, Amir Asif, Arash Mohammadi(参考訳) マルチモーダル信号とその外界イベントへのリアルタイムフィードバックを同時に処理する人間の脳の想像不能な能力に動機づけられ、脳-コンピュータインタフェース(bci)と呼ばれる人間の脳とコンピュータの間のコミュニケーションブリッジを確立することへの関心が高まっている。 この目的のために、脳波(EEG)による脳の電気活動のモニタリングが、BCIシステムの主要な選択肢となっている。 異なるメンタルタスクのための脳信号の基礎的および特定の特徴を発見するために、統計学的およびデータ駆動技術に基づいて、かなりの数の研究が開発されている。 しかしながら、実用的なbciシステムや商用bciシステムの開発における大きなボトルネックは、分類のためのメンタルタスク数の増加によるパフォーマンスの制限である。 本稿では,多クラス問題に対して簡便にマージ・スケールアップ可能な,シアムニューラルネットに基づく新しい脳波処理・特徴抽出パラダイムを提案する。 siamese networkのアイデアは、コントラスト損失関数に基づいた二重入力ニューラルネットワークをトレーニングすることであり、2つの入力eeg試行が同じクラスであるかどうかを検証する機能を提供する。 本研究では、畳み込みニューラルネットワーク(CNN)に基づいて開発され、2つの入力の類似性に関するバイナリ出力を提供するシームズアーキテクチャとOVRおよびOVO技術を組み合わせて、マルチクラス問題にスケールアップする。 このアーキテクチャの有効性は,BCIコンペティションIV-2aの4クラスモータ画像(MI)データセットで評価され,その性能はそれと比較して有望であることが示唆された。

Motivated by the inconceivable capability of the human brain in simultaneously processing multi-modal signals and its real-time feedback to the outer world events, there has been a surge of interest in establishing a communication bridge between the human brain and a computer, which are referred to as Brain-computer Interfaces (BCI). To this aim, monitoring the electrical activity of brain through Electroencephalogram (EEG) has emerged as the prime choice for BCI systems. To discover the underlying and specific features of brain signals for different mental tasks, a considerable number of research works are developed based on statistical and data-driven techniques. However, a major bottleneck in the development of practical and commercial BCI systems is their limited performance when the number of mental tasks for classification is increased. In this work, we propose a new EEG processing and feature extraction paradigm based on Siamese neural networks, which can be conveniently merged and scaled up for multi-class problems. The idea of Siamese networks is to train a double-input neural network based on a contrastive loss-function, which provides the capability of verifying if two input EEG trials are from the same class or not. In this work, a Siamese architecture, which is developed based on Convolutional Neural Networks (CNN) and provides a binary output on the similarity of two inputs, is combined with OVR and OVO techniques to scale up for multi-class problems. The efficacy of this architecture is evaluated on a 4-class Motor Imagery (MI) dataset from BCI Competition IV-2a and the results suggest a promising performance compared to its counterparts.
翻訳日:2023-01-04 09:35:11 公開日:2020-02-03
# 可変星分類のためのスケーラブルなエンドツーエンドリカレントニューラルネットワーク

Scalable End-to-end Recurrent Neural Network for Variable star classification ( http://arxiv.org/abs/2002.00994v1 )

ライセンス: Link先を確認
Ignacio Becker, Karim Pichara, M\'arcio Catelan, Pavlos Protopapas, Carlos Aguirre, Fatemeh Nikzat(参考訳) 過去10年間、機械学習技術を用いて変光星の自動分類を行うためにかなりの努力が払われてきた。 伝統的に、光曲線は多くのアルゴリズムの入力として使われるディスクリプタや特徴のベクトルとして表現される。 いくつかの機能は計算コストが高く、素早く更新できないため、LSSTのような大規模なデータセットには適用できない。 従来、光曲線に対する教師なし特徴抽出アルゴリズムの開発が行われていたが、そのコストは依然として高いままである。 本研究では,光曲線の表現を自動的に学習し,正確な自動分類を可能にするエンドツーエンドアルゴリズムを提案する。 本研究では,反復型ニューラルネットワークに基づく一連のディープラーニングアーキテクチャを調査し,自動分類シナリオでテストする。 提案手法では,データ前処理の最小化,新しい観測および光曲線の計算コストの低減,大規模データセットへのスケールアップが可能となる。 各光曲線を,要素が時間と大きさの差であり,出力が分類確率である入力行列表現に変換する。 本手法をOGLE-III, Gaia, WISEの3つの調査で検証した。 私たちは、主要なクラスで約$95\%$、サブクラスで$75\%$というアキュラシーを得た。 我々はこの結果をランダムフォレスト分類器と比較し、高速でスケーラブルな競争精度を得る。 解析の結果,本手法の計算複雑性は光曲線サイズとともに線形に増大し,従来の手法のコストは$n\log{(n)}$で増加することがわかった。

During the last decade, considerable effort has been made to perform automatic classification of variable stars using machine learning techniques. Traditionally, light curves are represented as a vector of descriptors or features used as input for many algorithms. Some features are computationally expensive, cannot be updated quickly and hence for large datasets such as the LSST cannot be applied. Previous work has been done to develop alternative unsupervised feature extraction algorithms for light curves, but the cost of doing so still remains high. In this work, we propose an end-to-end algorithm that automatically learns the representation of light curves that allows an accurate automatic classification. We study a series of deep learning architectures based on Recurrent Neural Networks and test them in automated classification scenarios. Our method uses minimal data preprocessing, can be updated with a low computational cost for new observations and light curves, and can scale up to massive datasets. We transform each light curve into an input matrix representation whose elements are the differences in time and magnitude, and the outputs are classification probabilities. We test our method in three surveys: OGLE-III, Gaia and WISE. We obtain accuracies of about $95\%$ in the main classes and $75\%$ in the majority of subclasses. We compare our results with the Random Forest classifier and obtain competitive accuracies while being faster and scalable. The analysis shows that the computational complexity of our approach grows up linearly with the light curve size, while the traditional approach cost grows as $N\log{(N)}$.
翻訳日:2023-01-04 09:34:42 公開日:2020-02-03
# 収束を保証した微分プライベートk-meansクラスタリング

Differentially Private k-Means Clustering with Guaranteed Convergence ( http://arxiv.org/abs/2002.01043v1 )

ライセンス: Link先を確認
Zhigang Lu, Hong Shen(参考訳) 反復的なクラスタリングアルゴリズムは、データの背後にある洞察を学ぶのに役立つ。 残念ながら、これは敵が背景知識を持つ個人のプライバシーを推測することを可能にする可能性がある。 最悪の場合、敵は任意の反復のセントロイドと n 個の項目の n-1 の情報を知っている。 このような推論攻撃に対して個人のプライバシを保護するために、反復クラスタリングアルゴリズムの差分プライバシー(DP)の保護がインタラクティブな環境で広く研究されている。 しかしながら、既存のインタラクティブな微分プライベートクラスタリングアルゴリズムは、非収束問題、すなわち、これらのアルゴリズムは、事前定義されたイテレーション数なしでは終了できない。 この問題は、差分プライベートアルゴリズムのクラスタリング品質と効率に大きな影響を及ぼす。 この問題を解決するために,本研究では,ある領域にDPノイズを注入することにより収束性を確保するために,中心体の動きの方向を反復的に制御する対話的設定において,新たな差分プライベートクラスタリングフレームワークを提案する。 期待された場合、我々のフレームワークの下のアルゴリズムは、ロイドのアルゴリズムの少なくとも2倍のイテレーションで収束する。 我々は,実世界のデータセットを用いて実験を行い,このアルゴリズムが,同一のDP要件を満たすために,コンバージェンスとクラスタリング品質を保証し,対話型微分プライベートクラスタリングアルゴリズムの最先端性を上回ることを示す。

Iterative clustering algorithms help us to learn the insights behind the data. Unfortunately, this may allow adversaries to infer the privacy of individuals with some background knowledge. In the worst case, the adversaries know the centroids of an arbitrary iteration and the information of n-1 out of n items. To protect individual privacy against such an inference attack, preserving differential privacy (DP) for the iterative clustering algorithms has been extensively studied in the interactive settings. However, existing interactive differentially private clustering algorithms suffer from a non-convergence problem, i.e., these algorithms may not terminate without a predefined number of iterations. This problem severely impacts the clustering quality and the efficiency of a differentially private algorithm. To resolve this problem, in this paper, we propose a novel differentially private clustering framework in the interactive settings which controls the orientation of the movement of the centroids over the iterations to ensure the convergence by injecting DP noise in a selected area. We prove that, in the expected case, algorithm under our framework converges in at most twice the iterations of Lloyd's algorithm. We perform experimental evaluations on real-world datasets to show that our algorithm outperforms the state-of-the-art of the interactive differentially private clustering algorithms with guaranteed convergence and better clustering quality to meet the same DP requirement.
翻訳日:2023-01-04 09:33:57 公開日:2020-02-03
# 2次元ケプストラム特徴抽出とマルチクラス分類法による医用ストリップ識別

Medicine Strip Identification using 2-D Cepstral Feature Extraction and Multiclass Classification Methods ( http://arxiv.org/abs/2003.00810v1 )

ライセンス: Link先を確認
Anirudh Itagi, Ritam Sil, Saurav Mohapatra, Subham Rout, Bharath K P, Karthik R, Rajesh Kumar Muthu(参考訳) 医療の誤分類は患者の健康に有害であり、その患者が視覚障害者であったり、単に医薬帯の色、形、種類を認識していなかったりする。 本稿では,k-nearest neighbor (knn) と support vector machine (svm) と logistic regression (lr) を用いた分類を行い,画像の2次元ケプストラム解析による医用ストリップの同定法を提案する。 抽出された2-Dケプストラーの特徴は、医薬ストリップと非常に異なるため、非常に正確である。 また,CGPF(Color Gradient and Pill shape Feature)抽出手法を提案し,BRISK(Binary Robust Invariant Scalable Keypoints)アルゴリズムについても検討した。 上記のアルゴリズムを実装し,その識別結果を比較した。

Misclassification of medicine is perilous to the health of a patient, more so if the said patient is visually impaired or simply did not recognize the color, shape or type of medicine strip. This paper proposes a method for identification of medicine strips by 2-D cepstral analysis of their images followed by performing classification that has been done using the K-Nearest Neighbor (KNN), Support Vector Machine (SVM) and Logistic Regression (LR) Classifiers. The 2-D cepstral features extracted are extremely distinct to a medicine strip and consequently make identifying them exceptionally accurate. This paper also proposes the Color Gradient and Pill shape Feature (CGPF) extraction procedure and discusses the Binary Robust Invariant Scalable Keypoints (BRISK) algorithm as well. The mentioned algorithms were implemented and their identification results have been compared.
翻訳日:2023-01-04 09:33:34 公開日:2020-02-03
# 薬物設計のための永続スペクトルベース機械学習(PerSpect ML)

Persistent spectral based machine learning (PerSpect ML) for drug design ( http://arxiv.org/abs/2002.00582v1 )

ライセンス: Link先を確認
Zhenyu Meng, Kelin Xia(参考訳) 本稿では,薬物設計のための永続スペクトルベース機械学習(PerSpect ML)モデルを提案する。 スペクトルグラフ理論、スペクトル単純複素理論、スペクトルハイパーグラフ理論に基づいて、永続スペクトルグラフ、永続スペクトル単純複素グラフ、永続スペクトルハイパーグラフを含む永続スペクトルモデルを提案する。 従来の全てのスペクトルモデルとは異なり、永続ホモロジーで提案されている濾過プロセスを導入し、マルチスケールスペクトルモデルを生成する。 より具体的には、濾過過程から、一連の入れ子化された位相表現 i,e。 グラフ、単体錯体、ハイパーグラフを体系的に生成でき、そのスペクトル情報を得ることができる。 永続スペクトル変数は、フィルタ値上のスペクトル変数の関数として定義される。 数学的には、永続的多重性(ゼロ固有値の)は、正確には持続的ベッチ数(またはベッチ曲線)である。 11の持続的スペクトル変数を検討し,タンパク質結合親和性予測における機械学習モデルの特徴として用いる。 pdbbind-2007, pdbbind-2013, pdbbind-2016, pdbbind-2016の3つのデータベースでモデルをテストする。 これらのデータベースに対する私たちの結果は、知る限り、既存のすべてのモデルよりも優れています。 これは、分子データ分析と薬物設計におけるPerSpect MLの大きな力を示しています。

In this paper, we propose persistent spectral based machine learning (PerSpect ML) models for drug design. Persistent spectral models, including persistent spectral graph, persistent spectral simplicial complex and persistent spectral hypergraph, are proposed based on spectral graph theory, spectral simplicial complex theory and spectral hypergraph theory, respectively. Different from all previous spectral models, a filtration process, as proposed in persistent homology, is introduced to generate multiscale spectral models. More specifically, from the filtration process, a series of nested topological representations, i,e., graphs, simplicial complexes, and hypergraphs, can be systematically generated and their spectral information can be obtained. Persistent spectral variables are defined as the function of spectral variables over the filtration value. Mathematically, persistent multiplicity (of zero eigenvalues) is exactly the persistent Betti number (or Betti curve). We consider 11 persistent spectral variables and use them as the feature for machine learning models in protein-ligand binding affinity prediction. We systematically test our models on three most commonly-used databases, including PDBbind-2007, PDBbind-2013 and PDBbind-2016. Our results, for all these databases, are better than all existing models, as far as we know. This demonstrates the great power of our PerSpect ML in molecular data analysis and drug design.
翻訳日:2023-01-04 09:32:57 公開日:2020-02-03
# pix2pix-based stain-to-stain translation : 病理組織像解析におけるロバストな染色正規化の解法

Pix2Pix-based Stain-to-Stain Translation: A Solution for Robust Stain Normalization in Histopathology Images Analysis ( http://arxiv.org/abs/2002.00647v1 )

ライセンス: Link先を確認
Pegah Salehi, Abdolah Chalechale(参考訳) がんの診断は主に、組織スライスの形態と細胞の空間配置を調べることによって、病理学者の視覚的な分析によって行われる。 標本の顕微鏡画像が染色されていなければ、無色でテクスチャに見えます。 したがって、化学染色はコントラストを作り、特定の組織成分を特定するのに役立つ。 化学薬品、スキャナー、切削厚み、および実験室のプロトコルの違いによる組織形成の間、類似した組織は通常、外観が著しく変化する。 この染色の多様性は、病理学者間の解釈上の相違に加えて、自動分析のための堅牢で柔軟なシステムを設計する上での大きな課題の1つである。 染色色の変化に対処するため,染色の標準化方法がいくつか提案されている。 提案法では,ヘマトキシリンとエオシン(h&e)の染色組織像の正規化を染色し,特定の色分布だけでなく,それに対応する組織病理学的パターンの保存も行う。 我々は,条件付きジェネレータ対向ネットワーク (cGAN) を用いたピクス2ピクセルフレームワークに基づく翻訳処理を行う。 提案手法は, 数学的, 実験的にも優れた結果を示した。 ソースコードを公開しました。

The diagnosis of cancer is mainly performed by visual analysis of the pathologists, through examining the morphology of the tissue slices and the spatial arrangement of the cells. If the microscopic image of a specimen is not stained, it will look colorless and textured. Therefore, chemical staining is required to create contrast and help identify specific tissue components. During tissue preparation due to differences in chemicals, scanners, cutting thicknesses, and laboratory protocols, similar tissues are usually varied significantly in appearance. This diversity in staining, in addition to Interpretive disparity among pathologists more is one of the main challenges in designing robust and flexible systems for automated analysis. To address the staining color variations, several methods for normalizing stain have been proposed. In our proposed method, a Stain-to-Stain Translation (STST) approach is used to stain normalization for Hematoxylin and Eosin (H&E) stained histopathology images, which learns not only the specific color distribution but also the preserves corresponding histopathological pattern. We perform the process of translation based on the pix2pix framework, which uses the conditional generator adversarial networks (cGANs). Our approach showed excellent results, both mathematically and experimentally against the state of the art methods. We have made the source code publicly available.
翻訳日:2023-01-04 09:24:42 公開日:2020-02-03
# Lemma Flow Diagramによるエージェントベース証明設計

Agent-Based Proof Design via Lemma Flow Diagram ( http://arxiv.org/abs/2002.00666v1 )

ライセンス: Link先を確認
Keehang Kwon and Daeseong Kang(参考訳) 本稿では, エージェントによる証明設計と実装のアプローチについて論じ, LFD(it Lemma Flow Diagram) と呼ぶ。 このアプローチは$shared$ cutsのマルチカットルールに基づいている。 このアプローチはモジュール化されており、使いやすく、読みやすく、自動化できます。 そこで我々はlfdを,数理教育で普及している「フロー証明」の代替案と考える。 いくつか例を挙げる。

We discuss an agent-based approach to proof design and implementation, which we call {\it Lemma Flow Diagram} (LFD). This approach is based on the multicut rule with $shared$ cuts. This approach is modular and easy to use, read and automate. Thus, we consider LFD an appealing alternative to `flow proof' which is popular in mathematical education. Some examples are provided.
翻訳日:2023-01-04 09:24:21 公開日:2020-02-03
# ニューラルネットワークによる到着推定の多角化

Multiple Angles of Arrival Estimation using Neural Networks ( http://arxiv.org/abs/2002.00541v1 )

ライセンス: Link先を確認
Jianyuan Yu(参考訳) MUSIC(Multiple SIgnal Classification)とESPRIT(Rournal via rotational invariance)による信号パラメータの推定は、一様線形配列(ULA)または一様円配列(UCA)の到着推定(DoA)の超分解能方向において広く用いられている。 しかし、音源信号数が増加すると問題が発生し、ピークを見つける際に音楽は計算の複雑さに苦しむ一方、エスプリットは配列幾何のオフセットに頑健ではない。 したがって、ニューラルネットワークは潜在的な解決策となる。 本稿では,受信データから抽出された相関行列に基づいて,方位角と標高角を推定するニューラルネットワークを提案する。 また、複数の信号ケースを推定するためにシリアルスキームを列挙する。 その結果、ニューラルネットワークは低snr下で正確な推定を達成でき、複数の信号を扱うことができる。

MUltiple SIgnal Classification (MUSIC) and Estimation of signal parameters via rotational via rotational invariance (ESPRIT) has been widely used in super resolution direction of arrival estimation (DoA) in both Uniform Linear Arrays (ULA) or Uniform Circular Arrays (UCA). However, problems become challenging when the number of source signal increase, MUSIC suffer from computation complexity when finding the peaks, while ESPRIT may not robust to array geometry offset. Therefore, Neural Network become a potential solution. In this paper, we propose a neural network to estimate the azimuth and elevation angles, based on the correlated matrix extracted from received data. Also, a serial scheme is listed to estimate multiple signals cases. The result shows the neural network can achieve an accurate estimation under low SNR and deal with multiple signals.
翻訳日:2023-01-04 09:23:48 公開日:2020-02-03
# 階層的スパース符号化におけるトップダウン接続の効果

Effect of top-down connections in Hierarchical Sparse Coding ( http://arxiv.org/abs/2002.00892v1 )

ライセンス: Link先を確認
Victor Boutin, Angelo Franciosini, Franck Ruffier, Laurent Perrinet(参考訳) 階層スパース符号化(HSC)は画像などの多次元構造データを効率的に表現する強力なモデルである。 この計算学的に難しい問題を解決する最も単純な解決策は、それを独立した層毎のサブプロブレムに分解することである。 しかし、神経科学的証拠は、予測符号化(pc)理論のようにこれらのサブプロブレムを相互に接続することを示唆する。 本研究では、この層間フィードバック接続の影響を評価するために、2層スパース予測符号化(2L-SPC)と呼ばれる新しいモデルを導入する。 特に、2L-SPCは、独立したLasso層からなる階層型Lasso(Hi-La)ネットワークと比較される。 2L-SPCと2層Hi-Laネットワークは4つの異なるデータベース上でトレーニングされ、各レイヤに異なる空間パラメータを持つ。 まず,2l-spcが生成する予測誤差は,層間の予測誤差を伝達するフィードバック機構により低下することを示した。 第二に、2l-spcの推論段階はhi-laモデルよりも収束が早いことを示す。 第3に,2L-SPCは学習過程を加速することを示した。 最後に、それらのアクティベーション確率によって支持される両モデルの辞書の質的解析により、2L-SPC特徴がより汎用的で情報的であることが示される。

Hierarchical Sparse Coding (HSC) is a powerful model to efficiently represent multi-dimensional, structured data such as images. The simplest solution to solve this computationally hard problem is to decompose it into independent layer-wise subproblems. However, neuroscientific evidence would suggest inter-connecting these subproblems as in the Predictive Coding (PC) theory, which adds top-down connections between consecutive layers. In this study, a new model called 2-Layers Sparse Predictive Coding (2L-SPC) is introduced to assess the impact of this inter-layer feedback connection. In particular, the 2L-SPC is compared with a Hierarchical Lasso (Hi-La) network made out of a sequence of independent Lasso layers. The 2L-SPC and the 2-layers Hi-La networks are trained on 4 different databases and with different sparsity parameters on each layer. First, we show that the overall prediction error generated by 2L-SPC is lower thanks to the feedback mechanism as it transfers prediction error between layers. Second, we demonstrate that the inference stage of the 2L-SPC is faster to converge than for the Hi-La model. Third, we show that the 2L-SPC also accelerates the learning process. Finally, the qualitative analysis of both models dictionaries, supported by their activation probability, show that the 2L-SPC features are more generic and informative.
翻訳日:2023-01-04 09:17:16 公開日:2020-02-03
# EGO-CH:エゴセントリックビジョンを用いた訪問行動のデータセットと基本課題

EGO-CH: Dataset and Fundamental Tasks for Visitors BehavioralUnderstanding using Egocentric Vision ( http://arxiv.org/abs/2002.00899v1 )

ライセンス: Link先を確認
Francesco Ragusa, Antonino Furnari, Sebastiano Battiato, Giovanni Signorello, Giovanni Maria Farinella(参考訳) ウェアラブルデバイスで文化施設の訪問者を乗せることで、その嗜好に関する情報を容易に収集し、拡張現実で文化品の作出を改善することができる。 さらに、エゴセントリックビデオはコンピュータビジョンと機械学習を使って処理でき、訪問者の行動を自動的に分析することができる。 推測された情報は、訪問者を支援するためにオンラインとサイトの管理者をサポートするオフラインの両方に使用できる。 このような技術が文化遺産にもたらすポジティブな影響にもかかわらず、この問題を研究するのに適した公開データセットが限られているため、現在その話題は未定である。 本稿では,文化遺産におけるビジターの行動理解のためのエゴセントリックビデオの最初のデータセットであるEGO-Cultural Heritage(EGO-CH)を提案する。 データセットは2つの文化サイトから収集され、70ドルの被験者によって27ドル以上のビデオが取得され、ラベルは26ドルの環境と200ドル以上の異なる関心ポイントで提供される。 60ドルのビデオからなるデータセットの大規模なサブセットは、実際のビジターによる調査に関連付けられている。 そこで本研究では,来訪者の行動を理解し,データセットのベースライン結果を報告するのに役立つ4ドルの課題(部屋ベースのローカライズ,興味/オブジェクト認識,オブジェクト検索,サーベイ予測)を提案する。

Equipping visitors of a cultural site with a wearable device allows to easily collect information about their preferences which can be exploited to improve the fruition of cultural goods with augmented reality. Moreover, egocentric video can be processed using computer vision and machine learning to enable an automated analysis of visitors' behavior. The inferred information can be used both online to assist the visitor and offline to support the manager of the site. Despite the positive impact such technologies can have in cultural heritage, the topic is currently understudied due to the limited number of public datasets suitable to study the considered problems. To address this issue, in this paper we propose EGOcentric-Cultural Heritage (EGO-CH), the first dataset of egocentric videos for visitors' behavior understanding in cultural sites. The dataset has been collected in two cultural sites and includes more than $27$ hours of video acquired by $70$ subjects, with labels for $26$ environments and over $200$ different Points of Interest. A large subset of the dataset, consisting of $60$ videos, is associated with surveys filled out by real visitors. To encourage research on the topic, we propose $4$ challenging tasks (room-based localization, point of interest/object recognition, object retrieval and survey prediction) useful to understand visitors' behavior and report baseline results on the dataset.
翻訳日:2023-01-04 09:16:53 公開日:2020-02-03
# 局所的位相制約を持つ効率的な2次元ニューロン境界セグメンテーション

Efficient 2D neuron boundary segmentation with local topological constraints ( http://arxiv.org/abs/2002.01036v1 )

ライセンス: Link先を確認
Thanuja D. Ambegoda and Matthew Cook(参考訳) ニューロン膜を2次元電子顕微鏡像で分割する方法を提案する。 このセグメンテーションタスクは、脳のシナプス回路の再構築作業のボトルネックとなっている。 よくある問題は、ぼやけた膜断片を細胞内部として誤分類することであり、2つの隣接したニューロン切断部をぼやけた膜領域を介して1つに融合させる。 人間のアノテータは、膜の連続性を考慮して、空隙補完を暗黙的に行うことで、そのようなエラーを容易に回避できる。 これらの人的戦略からインスピレーションを得て、局所的なトポロジ的制約のあるグラフ上のエッジラベル問題としてセグメンテーションタスクを定式化する。 我々は、膜連続性、すなわちギャップの欠如を強制する整数線形プログラム(ILP)を導出する。 ILPのコスト関数は、データから導出される先行膜確率からのセグメンテーションの画素単位のずれである。 ランダムな森林分類器と畳み込みニューラルネットワークを用いて得られた膜確率マップに基づいて, ニューロン境界セグメンテーションの精度を, 様々な標準セグメンテーション手法と比較して改善する。 本手法はギャップ補完に成功し,トポロジ的誤差が少なくなった。 この方法は、既知の位相制約のある他の画像分割パイプラインに組み込むこともできる。

We present a method for segmenting neuron membranes in 2D electron microscopy imagery. This segmentation task has been a bottleneck to reconstruction efforts of the brain's synaptic circuits. One common problem is the misclassification of blurry membrane fragments as cell interior, which leads to merging of two adjacent neuron sections into one via the blurry membrane region. Human annotators can easily avoid such errors by implicitly performing gap completion, taking into account the continuity of membranes. Drawing inspiration from these human strategies, we formulate the segmentation task as an edge labeling problem on a graph with local topological constraints. We derive an integer linear program (ILP) that enforces membrane continuity, i.e. the absence of gaps. The cost function of the ILP is the pixel-wise deviation of the segmentation from a priori membrane probabilities derived from the data. Based on membrane probability maps obtained using random forest classifiers and convolutional neural networks, our method improves the neuron boundary segmentation accuracy compared to a variety of standard segmentation approaches. Our method successfully performs gap completion and leads to fewer topological errors. The method could potentially also be incorporated into other image segmentation pipelines with known topological constraints.
翻訳日:2023-01-04 09:15:49 公開日:2020-02-03
# iart:情報検索会話システムにおけるトランスフォーマーを用いた意図認識応答ランキング

IART: Intent-aware Response Ranking with Transformers in Information-seeking Conversation Systems ( http://arxiv.org/abs/2002.00571v1 )

ライセンス: Link先を確認
Liu Yang, Minghui Qiu, Chen Qu, Cen Chen, Jiafeng Guo, Yongfeng Zhang, W. Bruce Croft, Haiqing Chen(参考訳) AppleSiri、Google Assistant、Amazon Alexa、Microsoft Cortanaといったパーソナルアシスタントシステムは、ますます広く使われている。 情報探索会話におけるユーザ意図の解明,潜在的な回答,ユーザフィードバックなどの理解は,適切な回答を得る上で重要である。 本稿では,情報探索会話におけるユーザ意図パターンを分析し,意図認識型ニューラルレスポンスランキングモデル"IART"を提案する。 IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。 会話履歴理解の向上を目的として,会話文脈における発話の重み付け方式を重要視するために,意図認識型発話注意を取り入れた。 標準ベンチマークと商用データの両方を含む3つの情報参照会話データセットを用いて広範な実験を行う。 提案モデルでは, 様々な指標に対して, ベースライン法をすべて上回っている。 また,学習者意図のケーススタディと分析を行い,その結果の解釈を提供するための情報探索会話における応答ランキングに与える影響について検討した。

Personal assistant systems, such as Apple Siri, Google Assistant, Amazon Alexa, and Microsoft Cortana, are becoming ever more widely used. Understanding user intent such as clarification questions, potential answers and user feedback in information-seeking conversations is critical for retrieving good responses. In this paper, we analyze user intent patterns in information-seeking conversations and propose an intent-aware neural response ranking model "IART", which refers to "Intent-Aware Ranking with Transformers". IART is built on top of the integration of user intent modeling and language representation learning with the Transformer architecture, which relies entirely on a self-attention mechanism instead of recurrent nets. It incorporates intent-aware utterance attention to derive an importance weighting scheme of utterances in conversation context with the aim of better conversation history understanding. We conduct extensive experiments with three information-seeking conversation data sets including both standard benchmarks and commercial data. Our proposed model outperforms all baseline methods with respect to a variety of metrics. We also perform case studies and analysis of learned user intent and its impact on response ranking in information-seeking conversations to provide interpretation of results.
翻訳日:2023-01-04 09:15:10 公開日:2020-02-03
# カプセルニューラルネットワークによるフェイクニュースの検出

Detecting Fake News with Capsule Neural Networks ( http://arxiv.org/abs/2002.01030v1 )

ライセンス: Link先を確認
Mohammad Hadi Goldani, Saeedeh Momtazi, Reza Safabakhsh(参考訳) 近年、ソーシャルメディアではフェイクニュースが劇的に増えている。 これにより、効果的な偽ニュース検出アルゴリズムの必要性が高まった。 カプセルニューラルネットワークはコンピュータビジョンで成功しており、自然言語処理(NLP)での使用に注目されている。 本稿では,疑似ニュース検出タスクにおけるカプセルニューラルネットワークの利用を目的とした。 異なる長さのニュースアイテムに異なる埋め込みモデルを使用します。 静的な単語埋め込みは短いニュース記事に使用されるが、トレーニングフェーズにおける漸進的なアップトレーニングと更新を可能にする非静的な単語埋め込みは中程度の長さや大きなニュース文に使用される。 さらに,特徴抽出にn-gramの異なるレベルを適用する。 提案するアーキテクチャは,ISOTとLIARという,この分野で最近よく知られた2つのデータセットで評価されている。 その結果、パフォーマンスが向上し、ISOTが7.8%、バリデーションセットが3.1%、LIARデータセットのテストセットが1%向上した。

Fake news is dramatically increased in social media in recent years. This has prompted the need for effective fake news detection algorithms. Capsule neural networks have been successful in computer vision and are receiving attention for use in Natural Language Processing (NLP). This paper aims to use capsule neural networks in the fake news detection task. We use different embedding models for news items of different lengths. Static word embedding is used for short news items, whereas non-static word embeddings that allow incremental up-training and updating in the training phase are used for medium length or large news statements. Moreover, we apply different levels of n-grams for feature extraction. Our proposed architectures are evaluated on two recent well-known datasets in the field, namely ISOT and LIAR. The results show encouraging performance, outperforming the state-of-the-art methods by 7.8% on ISOT and 3.1% on the validation set, and 1% on the test set of the LIAR dataset.
翻訳日:2023-01-04 09:14:35 公開日:2020-02-03
# CryptoSPN:プライバシ保護のSum-Product Network推論

CryptoSPN: Privacy-preserving Sum-Product Network Inference ( http://arxiv.org/abs/2002.00801v1 )

ライセンス: Link先を確認
Amos Treiber and Alejandro Molina and Christian Weinert and Thomas Schneider and Kristian Kersting(参考訳) AIアルゴリズム、特に機械学習(ML)技術は、個人の生活にとってますます重要になっているが、欧州GDPR(GDPR)など、さまざまなプライバシー問題を引き起こしている。 暗号化技術を使うことで、サーバは入力データとモデル予測について何も学習せず、クライアントはmlモデルについて何も学習しない(知的所有権と見なされ、機密データのトレースを含む可能性がある)、機密性の高いクライアントデータに対して、リモートで推論タスクを実行することができる。 このようなプライバシー保護ソリューションは比較的効率的だが、主にニューラルネットワークを対象としており、予測精度を低下させ、ネットワークのトポロジーを明らかにする。 さらに、プロトタイプ実装はMLフレームワークに十分に統合されておらず、広範な暗号知識を必要とするため、既存のソリューションはML専門家に容易にアクセスできない。 本稿では,要約型ネットワーク(SPN)のプライバシ保護のためのフレームワークであるCryptoSPNを提案する。 SPNは、線形時間における正確な推論クエリの範囲を許容する、抽出可能な確率的グラフィカルモデルである。 具体的には,セキュアなマルチパーティ計算(SMPC)によるSPN推論を,機密性のあるクライアントを隠蔽しながら精度を低下させることなく効率的に行う方法について述べる。 ファンデーションの次は、CryptoSPNは既存のSPNを簡単にプライバシー保護実行ファイルに変換するツールを含んでいる。 実験の結果,CryptoSPNは中規模のSPNに対して数秒の順序で高い効率と精度の推論を行うことがわかった。

AI algorithms, and machine learning (ML) techniques in particular, are increasingly important to individuals' lives, but have caused a range of privacy concerns addressed by, e.g., the European GDPR. Using cryptographic techniques, it is possible to perform inference tasks remotely on sensitive client data in a privacy-preserving way: the server learns nothing about the input data and the model predictions, while the client learns nothing about the ML model (which is often considered intellectual property and might contain traces of sensitive data). While such privacy-preserving solutions are relatively efficient, they are mostly targeted at neural networks, can degrade the predictive accuracy, and usually reveal the network's topology. Furthermore, existing solutions are not readily accessible to ML experts, as prototype implementations are not well-integrated into ML frameworks and require extensive cryptographic knowledge. In this paper, we present CryptoSPN, a framework for privacy-preserving inference of sum-product networks (SPNs). SPNs are a tractable probabilistic graphical model that allows a range of exact inference queries in linear time. Specifically, we show how to efficiently perform SPN inference via secure multi-party computation (SMPC) without accuracy degradation while hiding sensitive client and training information with provable security guarantees. Next to foundations, CryptoSPN encompasses tools to easily transform existing SPNs into privacy-preserving executables. Our empirical results demonstrate that CryptoSPN achieves highly efficient and accurate inference in the order of seconds for medium-sized SPNs.
翻訳日:2023-01-04 09:13:53 公開日:2020-02-03
# 前向きサイクル適応を用いた教師なし領域適応オブジェクト検出

Unsupervised Domain Adaptive Object Detection using Forward-Backward Cyclic Adaptation ( http://arxiv.org/abs/2002.00575v1 )

ライセンス: Link先を確認
Siqi Yang, Lin Wu, Arnold Wiliem and Brian C. Lovell(参考訳) 本稿では,フォワード・バック・サイクリック(FBC)トレーニングによる物体検出のための教師なし領域適応手法を提案する。 近年, 対角訓練に基づく領域適応法は, 限界特徴分布アライメントによる領域差最小化に有効であることが示された。 しかし、限界特徴分布のアライメントは、クラス条件分布のアライメントを保証するものではない。 この制限は、画像分類タスクに比べて、ドメインの不一致としてオブジェクト検出器を適用する場合、例えば、1つの画像にさまざまなオブジェクトが存在し、画像内のコンテンツの大部分が背景である場合、より顕著である。 これにより、勾配アライメントを通してカテゴリレベルのセマンティクスのドメイン不変性を学ぶことができる。 直観的には、2つの領域の勾配が同じ方向を向いた場合、1つの領域の学習は別の領域の勾配を改善することができる。 勾配アライメントを実現するために,後方ホッピングによるソースからターゲットへの適応と,前方通過によるターゲットからソースへの適応を反復的に計算するフォワード・バック・サイクル適応を提案する。 さらに, 包括的色彩/テクスチャ適応のための低レベル特徴を, 対角訓練により調整する。 しかし、検出器は両方の領域でよく機能するが、ターゲット領域には理想的ではない。 このように、各サイクルにおいて、ソースドメインの最大エントロピー正規化によって、信頼度の高いソース固有の学習とターゲットドメインの最小エントロピー正規化をペナルティ化し、ターゲット固有の学習をトリガーする。 トレーニングプロセスの理論的解析を行い,クロスドメインオブジェクト検出データセットに対する広範な実験により,最先端技術に対するアプローチの優位性が示された。

We present a novel approach to perform the unsupervised domain adaptation for object detection through forward-backward cyclic (FBC) training. Recent adversarial training based domain adaptation methods have shown their effectiveness on minimizing domain discrepancy via marginal feature distributions alignment. However, aligning the marginal feature distributions does not guarantee the alignment of class conditional distributions. This limitation is more evident when adapting object detectors as the domain discrepancy is larger compared to the image classification task, e.g. various number of objects exist in one image and the majority of content in an image is the background. This motivates us to learn domain invariance for category level semantics via gradient alignment. Intuitively, if the gradients of two domains point in similar directions, then the learning of one domain can improve that of another domain. To achieve gradient alignment, we propose Forward-Backward Cyclic Adaptation, which iteratively computes adaptation from source to target via backward hopping and from target to source via forward passing. In addition, we align low-level features for adapting holistic color/texture via adversarial training. However, the detector performs well on both domains is not ideal for target domain. As such, in each cycle, domain diversity is enforced by maximum entropy regularization on the source domain to penalize confident source-specific learning and minimum entropy regularization on target domain to intrigue target-specific learning. Theoretical analysis of the training process is provided, and extensive experiments on challenging cross-domain object detection datasets have shown the superiority of our approach over the state-of-the-art.
翻訳日:2023-01-04 09:07:10 公開日:2020-02-03
# カスタムセンサによるトップビューグリッドマップからの単段物体検出

Single-Stage Object Detection from Top-View Grid Maps on Custom Sensor Setups ( http://arxiv.org/abs/2002.00667v1 )

ライセンス: Link先を確認
Sascha Wirges and Shuxiao Ding and Christoph Stiller(参考訳) 本稿では,自動走行シナリオにおけるトップビューグリッドマップ上の単段物体検出のための教師なし領域適応手法を提案する。 当社の目標は、カスタムセンサーデータとセットアップから生成されたグリッドマップ上で、堅牢なオブジェクト検出器をトレーニングすることだ。 まず、retinanetに基づくグリッドマップのための単一ステージオブジェクト検出器を紹介する。 次に、異なる特徴ピラミッドレベルで画像レベルのドメイン分類器とインスタンスレベルのドメイン分類器でモデルを拡張する。 これにより、ラベルのないドメインに対して堅牢なオブジェクト検出器をトレーニングすることができます。 提案手法をnuScenesおよびKITTIベンチマークを用いて定量的に評価し,実験車両が記録した未ラベル測定に対する定性的領域適応結果を示す。 提案手法を適用すれば,未ラベル領域のオブジェクト検出精度を向上させることができることを示す。

We present our approach to unsupervised domain adaptation for single-stage object detectors on top-view grid maps in automated driving scenarios. Our goal is to train a robust object detector on grid maps generated from custom sensor data and setups. We first introduce a single-stage object detector for grid maps based on RetinaNet. We then extend our model by image- and instance-level domain classifiers at different feature pyramid levels which are trained in an adversarial manner. This allows us to train robust object detectors for unlabeled domains. We evaluate our approach quantitatively on the nuScenes and KITTI benchmarks and present qualitative domain adaptation results for unlabeled measurements recorded by our experimental vehicle. Our results demonstrate that object detection accuracy for unlabeled domains can be improved by applying our domain adaptation strategy.
翻訳日:2023-01-04 09:06:40 公開日:2020-02-03
# 新しい増分的クロスモーダルハッシュ法

A Novel Incremental Cross-Modal Hashing Approach ( http://arxiv.org/abs/2002.00677v1 )

ライセンス: Link先を確認
Devraj Mandal, Soma Biswas(参考訳) クロスモーダル検索は、あるモダリティから関連するアイテムを検索し、別のモダリティから検索クエリを提供する。 データをバイナリビットとして表現するハッシュ技術は、ストレージの容易さ、高速計算、高精度さによって特に重要になっている。 現実世界では、データカテゴリの数は継続的に増え続けており、この動的なシナリオを処理できるアルゴリズムが必要である。 本研究では,新しいカテゴリの入力データに適応可能な「icmh」と呼ばれる新しい増分的クロスモーダルハッシュアルゴリズムを提案する。 提案手法は,ハッシュコードを学習し,ハッシュ関数を訓練する2つの段階からなる。 各段階では、新しい入力データ、すなわち破滅的な忘れ忘れを避けるために、古いデータを忘れないように、"exemplars"と呼ばれる少数の古いカテゴリデータを使用する。 第1段階では、exemplars用のハッシュコードを使用し、同時に、既存のデータとの意味関係を維持するように、新しいデータのためのハッシュコードを算出する。 第2段階では,ハッシュ関数を効果的に学習するために,非深層アーキテクチャと深層アーキテクチャの両方を提案する。 様々なクロスモーダルデータセットに対する大規模な実験と最先端のクロスモーダルアルゴリズムとの比較は、我々のアプローチの有用性を示している。

Cross-modal retrieval deals with retrieving relevant items from one modality, when provided with a search query from another modality. Hashing techniques, where the data is represented as binary bits have specifically gained importance due to the ease of storage, fast computations and high accuracy. In real world, the number of data categories is continuously increasing, which requires algorithms capable of handling this dynamic scenario. In this work, we propose a novel incremental cross-modal hashing algorithm termed "iCMH", which can adapt itself to handle incoming data of new categories. The proposed approach consists of two sequential stages, namely, learning the hash codes and training the hash functions. At every stage, a small amount of old category data termed "exemplars" is is used so as not to forget the old data while trying to learn for the new incoming data, i.e. to avoid catastrophic forgetting. In the first stage, the hash codes for the exemplars is used, and simultaneously, hash codes for the new data is computed such that it maintains the semantic relations with the existing data. For the second stage, we propose both a non-deep and deep architectures to learn the hash functions effectively. Extensive experiments across a variety of cross-modal datasets and comparisons with state-of-the-art cross-modal algorithms shows the usefulness of our approach.
翻訳日:2023-01-04 09:06:29 公開日:2020-02-03
# hide-and-tell: ビジュアルストーリーテリングのための写真ストリームブリッジの学習

Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling ( http://arxiv.org/abs/2002.00774v1 )

ライセンス: Link先を確認
Yunjae Jung, Dahun Kim, Sanghyun Woo, Kyungsu Kim, Sungjin Kim, In So Kweon(参考訳) ビジュアルストーリーテリングは、写真ストリームに基づいた短編ストーリーを作成するタスクである。 既存のビジュアルキャプションとは異なり、ストーリーテリングは事実記述だけでなく、人間のようなナレーションや意味論も含んでいる。 しかし、VISTデータセットは1ストーリーあたりの写真の小さな数だけで構成されている。 したがって、視覚的なストーリーテリングの主な課題は、物語と想像的なストーリーとの視覚的ギャップを埋めることである。 本稿では,視覚的なギャップを橋渡しするストーリーラインを明示的に学習することを提案する。 トレーニング中、1つ以上の写真が入力スタックからランダムに削除され、欠落した写真であっても、ネットワークをトレーニングして完全な可読なストーリーを生成する。 さらに,写真ストリーム間の非局所的関係を学習し,従来のRNNモデルの改良と改良を目的とした隠れ星モデルを提案する。 実験では,提案手法とネットワーク設計が,実際にストーリーテリングに有効であること,および,従来の最先端手法よりも優れた自動計測手法であることを示す。 最後に、視覚的ギャップを越えてストーリーラインを補間する学習能力を質的に示す。

Visual storytelling is a task of creating a short story based on photo streams. Unlike existing visual captioning, storytelling aims to contain not only factual descriptions, but also human-like narration and semantics. However, the VIST dataset consists only of a small, fixed number of photos per story. Therefore, the main challenge of visual storytelling is to fill in the visual gap between photos with narrative and imaginative story. In this paper, we propose to explicitly learn to imagine a storyline that bridges the visual gap. During training, one or more photos is randomly omitted from the input stack, and we train the network to produce a full plausible story even with missing photo(s). Furthermore, we propose for visual storytelling a hide-and-tell model, which is designed to learn non-local relations across the photo streams and to refine and improve conventional RNN-based models. In experiments, we show that our scheme of hide-and-tell, and the network design are indeed effective at storytelling, and that our model outperforms previous state-of-the-art methods in automatic metrics. Finally, we qualitatively show the learned ability to interpolate storyline over visual gaps.
翻訳日:2023-01-04 09:05:52 公開日:2020-02-03
# Syn2Real: 教師なしドメイン適応による偽分類

Syn2Real: Forgery Classification via Unsupervised Domain Adaptation ( http://arxiv.org/abs/2002.00807v1 )

ライセンス: Link先を確認
Akash Kumar, Arnav Bhavasar(参考訳) 近年、画像処理やコンピュータビジョン技術といった現代的なツールのおかげで、画像操作がますますアクセスしやすくなり、自然に見えてくるようになっている。 偽造画像の識別作業は非常に困難になっている。 様々な種類の偽造物の中で、この改ざんを検出するのが困難であるため、コピー・モーブ偽造事件が増加している。 このような問題を解決するために、公開データセットは不十分である。 本稿では,ディープセマンティック画像インペインティングとコピーモーブ偽造アルゴリズムを用いた合成偽造データセットの作成を提案する。 しかし、これらのデータセットでトレーニングされたモデルは、より現実的なデータでテストすると、パフォーマンスが大幅に低下する。 この問題を軽減するため,我々は合成したデータセットから特徴空間をマッピングすることにより,教師なしドメイン適応ネットワークを用いて新たなドメインにおけるコピーモブ偽造の検出を行う。 さらに,CASIAとCoMoFoDデータセットのF1スコアを80.3%,78.8%に改善した。 当社のアプローチは,データの分類が不可能な場合に有効である。

In recent years, image manipulation is becoming increasingly more accessible, yielding more natural-looking images, owing to the modern tools in image processing and computer vision techniques. The task of the identification of forged images has become very challenging. Amongst different types of forgeries, the cases of Copy-Move forgery are increasing manifold, due to the difficulties involved to detect this tampering. To tackle such problems, publicly available datasets are insufficient. In this paper, we propose to create a synthetic forged dataset using deep semantic image inpainting and copy-move forgery algorithm. However, models trained on these datasets have a significant drop in performance when tested on more realistic data. To alleviate this problem, we use unsupervised domain adaptation networks to detect copy-move forgery in new domains by mapping the feature space from our synthetically generated dataset. Furthermore, we improvised the F1 score on CASIA and CoMoFoD dataset to 80.3% and 78.8%, respectively. Our approach can be helpful in those cases where the classification of data is unavailable.
翻訳日:2023-01-04 09:05:12 公開日:2020-02-03
# 自由ハンドスケッチのための自己教師付き表現学習

Deep Self-Supervised Representation Learning for Free-Hand Sketch ( http://arxiv.org/abs/2002.00867v1 )

ライセンス: Link先を確認
Peng Xu, Zeyu Song, Qiyue Yin, Yi-Zhe Song, Liang Wang(参考訳) 本稿では,自由ハンドスケッチに対する自己教師あり表現学習の課題として,初めて取り組んだ。 これは重要なことで、sketchコミュニティが直面する共通の問題 -- 注釈付き監督データを得るのが困難である -- に対処している。 この問題は、スケッチが非常に抽象的で、異なる描画スタイルの対象となるため、写真に適した既存のソリューションが適さないという点で非常に難しい。 自己教師型学習パラダイムの成功の鍵は、スケッチ特有の設計にある。 (i)異なる描画スタイルを模倣するスケッチ用に特別に設計されたプレテキストタスクのセットを提案する。 (ii)スケッチの逐次ストローク性に対応するために,スケッチ特徴学習のためのデュアルブランチアーキテクチャにおけるテキスト畳み込みネットワーク(tcn)の使用をさらに活用する。 百万規模のスケッチデータセット上での2つのスケッチ関連アプリケーション(検索と認識)によるスケッチ特化設計の優位性を実証し、提案手法が最先端の教師なし表現学習法より優れており、教師付き表現学習による性能ギャップを著しく狭めていることを示す。

In this paper, we tackle for the first time, the problem of self-supervised representation learning for free-hand sketches. This importantly addresses a common problem faced by the sketch community -- that annotated supervisory data are difficult to obtain. This problem is very challenging in that sketches are highly abstract and subject to different drawing styles, making existing solutions tailored for photos unsuitable. Key for the success of our self-supervised learning paradigm lies with our sketch-specific designs: (i) we propose a set of pretext tasks specifically designed for sketches that mimic different drawing styles, and (ii) we further exploit the use of a textual convolution network (TCN) in a dual-branch architecture for sketch feature learning, as means to accommodate the sequential stroke nature of sketches. We demonstrate the superiority of our sketch-specific designs through two sketch-related applications (retrieval and recognition) on a million-scale sketch dataset, and show that the proposed approach outperforms the state-of-the-art unsupervised representation learning methods, and significantly narrows the performance gap between with supervised representation learning.
翻訳日:2023-01-04 09:04:55 公開日:2020-02-03
# Stan:乳房超音波画像分割のための小型腫瘍認識ネットワーク

Stan: Small tumor-aware network for breast ultrasound image segmentation ( http://arxiv.org/abs/2002.01034v1 )

ライセンス: Link先を確認
Bryar Shareef, Min Xian, Aleksandar Vakanski(参考訳) 乳腺腫瘍セグメンテーションは正確な腫瘍境界を提供し、がんのさらなる定量化に向けた重要なステップとなる。 深層学習に基づくアプローチが提案され、有望な成果を上げているが、既存のアプローチでは小さな乳腺腫瘍を検出するのが困難である。 コンピュータ支援診断システム(CAD)を用いた早期がんの発見には,小腫瘍の検出能力が特に重要である。 本稿では,小腫瘍認識ネットワーク(Small tumor-Aware Network,STAN)と呼ばれる新しいディープラーニングアーキテクチャを提案する。 新しいアーキテクチャは、リッチコンテキスト情報と高解像度画像機能の両方を統合している。 2つの乳房超音波データセットを用いて,7つの定量的指標を用いて提案手法を検証した。 提案手法は, 乳腺腫瘍の分節化における最先端のアプローチよりも優れていた。 索引

Breast tumor segmentation provides accurate tumor boundary, and serves as a key step toward further cancer quantification. Although deep learning-based approaches have been proposed and achieved promising results, existing approaches have difficulty in detecting small breast tumors. The capacity to detecting small tumors is particularly important in finding early stage cancers using computer-aided diagnosis (CAD) systems. In this paper, we propose a novel deep learning architecture called Small Tumor-Aware Network (STAN), to improve the performance of segmenting tumors with different size. The new architecture integrates both rich context information and high-resolution image features. We validate the proposed approach using seven quantitative metrics on two public breast ultrasound datasets. The proposed approach outperformed the state-of-the-art approaches in segmenting small breast tumors. Index
翻訳日:2023-01-04 08:58:23 公開日:2020-02-03
# ビジュアルコンテンツから感情や感情を導き出す:災害分析のユースケース

Deriving Emotions and Sentiments from Visual Content: A Disaster Analysis Use Case ( http://arxiv.org/abs/2002.03773v1 )

ライセンス: Link先を確認
Kashif Ahmad, Syed Zohaib, Nicola Conci and Ala Al-Fuqaha(参考訳) 感覚分析は、消費者からフィードバックを得られるように、エンティティ、オブジェクト、製品、サービスに対する人の認識、意見、感情を抽出し、表現することを目的としている。 ソーシャルネットワークの人気が高まり, 感情や表現, 意見をテキスト, ビジュアルコンテンツ, 音声コンテンツで共有する傾向が, 感情分析における新たな機会と課題を開きつつある。 テキストストリームの感情分析は文献で広く研究されているが、画像やビデオの感情分析は比較的新しい。 本稿では、視覚的感情分析を紹介し、本研究領域における機会と課題に焦点を当て、テキスト的感情分析と対比する。 また,データ収集,アノテーション,モデル選択,実装,評価から,視覚的感情分析のさまざまな側面をカバーする,災害関連画像の深い視覚的感情分析をユースケースとして提案する。 このような厳密な分析が将来の研究の基盤となると信じている。

Sentiment analysis aims to extract and express a person's perception, opinions and emotions towards an entity, object, product and a service, enabling businesses to obtain feedback from the consumers. The increasing popularity of the social networks and users' tendency towards sharing their feelings, expressions and opinions in text, visual and audio content has opened new opportunities and challenges in sentiment analysis. While sentiment analysis of text streams has been widely explored in the literature, sentiment analysis of images and videos is relatively new. This article introduces visual sentiment analysis and contrasts it with textual sentiment analysis with emphasis on the opportunities and challenges in this nascent research area. We also propose a deep visual sentiment analyzer for disaster-related images as a use-case, covering different aspects of visual sentiment analysis starting from data collection, annotation, model selection, implementation and evaluations. We believe such rigorous analysis will provide a baseline for future research in the domain.
翻訳日:2023-01-04 08:57:50 公開日:2020-02-03
# 非正曲率測地空間における指数重み付き平均予測器

The exponentially weighted average forecaster in geodesic spaces of non-positive curvature ( http://arxiv.org/abs/2002.00852v1 )

ライセンス: Link先を確認
Quentin Paris(参考訳) 本稿では,アレクサンドロフの意味での非正曲率をもつ測地空間における結果に対する専門家のアドバイスを用いて予測の問題を扱う。 幾何学的考察、特にバリー中心の概念により、古典的指数関数的に重み付けされた平均予測器の定義と解析に拡張する。 この設定にオンラインの原則をバッチ変換にも適用します。 本稿では,これらの結果の集約の文脈における応用と,バリセンター推定の問題について論じる。

This paper addresses the problem of prediction with expert advice for outcomes in a geodesic space with non-positive curvature in the sense of Alexandrov. Via geometric considerations, and in particular the notion of barycenters, we extend to this setting the definition and analysis of the classical exponentially weighted average forecaster. We also adapt the principle of online to batch conversion to this setting. We shortly discuss the application of these results in the context of aggregation and for the problem of barycenter estimation.
翻訳日:2023-01-04 08:57:34 公開日:2020-02-03
# 医療回答検索のための文脈化文書表現の学習

Learning Contextualized Document Representations for Healthcare Answer Retrieval ( http://arxiv.org/abs/2002.00835v1 )

ライセンス: Link先を確認
Sebastian Arnold, Betty van Aken, Paul Grundmann, Felix A. Gers, Alexander L\"oser(参考訳) 本稿では,長期医療文書からの効率的な回答検索のための分散文書表現であるContentual Discourse Vectors (CDV)を提案する。 このアプローチは、自由テキストと医学的分類のエンティティとアスペクトの構造化クエリタプルに基づいています。 本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。 文レベルの近接探索を用いて,短いレイテンシでクエリを解決するために,連続表現を用いる。 患者と医療従事者の双方に対処し、ウェブから9つの英国公衆衛生資源からコヒーレントな回答パスを取得するためにCDVモデルを適用した。 すべてのアプリケーションシナリオにエンドツーエンドのトレーニングデータがないため、Wikipediaから自己教師付きデータでモデルをトレーニングします。 我々の一般化モデルは、医療パスランキングにおける最先端のベースラインを著しく上回り、追加の微調整なしに異種領域に適応できることを示す。

We present Contextual Discourse Vectors (CDV), a distributed document representation for efficient answer retrieval from long healthcare documents. Our approach is based on structured query tuples of entities and aspects from free text and medical taxonomies. Our model leverages a dual encoder architecture with hierarchical LSTM layers and multi-task training to encode the position of clinical entities and aspects alongside the document discourse. We use our continuous representations to resolve queries with short latency using approximate nearest neighbor search on sentence level. We apply the CDV model for retrieving coherent answer passages from nine English public health resources from the Web, addressing both patients and medical professionals. Because there is no end-to-end training data available for all application scenarios, we train our model with self-supervised data from Wikipedia. We show that our generalized model significantly outperforms several state-of-the-art baselines for healthcare passage ranking and is able to adapt to heterogeneous domains without additional fine-tuning.
翻訳日:2023-01-04 08:57:07 公開日:2020-02-03
# ドローン群制御のための脳-コンピュータインタフェースに向けて

Towards Brain-Computer Interfaces for Drone Swarm Control ( http://arxiv.org/abs/2002.00519v1 )

ライセンス: Link先を確認
Ji-Hoon Jeong, Dae-Hyeok Lee, Hyung-Ju Ahn, and Seong-Whan Lee(参考訳) 非侵襲的脳コンピューターインタフェース(bci)は、ユーザの意図を理解するために脳信号をデコードする。 ドローン制御の需要が増大するにつれて、BCIベースのドローン制御システムに対する最近の進歩が進展している。 特に、脳信号に基づくドローン群制御は、軍事サービスや産業災害などの様々な産業を提供する可能性がある。 本稿では,視覚画像パラダイムを用いた様々なシナリオのためのブレイン・スワーミング・インタフェースシステムのプロトタイプを提案する。 我々は、ドローン群制御シミュレータ環境下で脳信号を取得する実験環境を設計した。 システムを通して4つの異なるシナリオについて脳波(eeg)信号を収集した。 7名の被験者が実験に参加し,基本機械学習アルゴリズムを用いて分類性能を評価した。 総平均分類精度は確率レベルの精度よりも高い。 これにより、高レベルタスクを行うためのEEG信号に基づいて、ドローン群制御システムの実現可能性を確認することができる。

Noninvasive brain-computer interface (BCI) decodes brain signals to understand user intention. Recent advances have been developed for the BCI-based drone control system as the demand for drone control increases. Especially, drone swarm control based on brain signals could provide various industries such as military service or industry disaster. This paper presents a prototype of a brain swarm interface system for a variety of scenarios using a visual imagery paradigm. We designed the experimental environment that could acquire brain signals under a drone swarm control simulator environment. Through the system, we collected the electroencephalogram (EEG) signals with respect to four different scenarios. Seven subjects participated in our experiment and evaluated classification performances using the basic machine learning algorithm. The grand average classification accuracy is higher than the chance level accuracy. Hence, we could confirm the feasibility of the drone swarm control system based on EEG signals for performing high-level tasks.
翻訳日:2023-01-04 08:56:50 公開日:2020-02-03
# 4端子mtjデバイスによるcmosフリー多層セプトロン

CMOS-Free Multilayer Perceptron Enabled by Four-Terminal MTJ Device ( http://arxiv.org/abs/2002.00862v1 )

ライセンス: Link先を確認
Wesley H. Brigner, Naimul Hassan, Xuan Hu, Christopher H. Bennett, Felipe Garcia-Sanchez, Matthew J. Marinella, Jean Anne C. Incorvia, Joseph S. Friedman(参考訳) ニューロモルフィックコンピューティングは、非構造化情報を処理するアプリケーションに対して、従来のシステムよりも革命的な改善を約束する。 この可能性を十分に実現するために、ニューロモルフィックシステムは出現するナノデバイスの生体模倣的挙動を利用する必要がある。 特に例外的な機会は、スピントロニクスデバイスの非揮発性とアナログ能力によって提供される。 これまでにニューロンやシナプスをエミュレートするスピントロニクスデバイスが提案されているが、多層スピントロニクスパーセプトロンクロスバーを実装するには相補的金属酸化物半導体(CMOS)デバイスが必要である。 この研究は、純粋にスピントロニクス多層パーセプトロンを可能にする新しいスピントロニクスニューロンを提案し、CMOS回路の必要性を排除し、製造を単純化する。

Neuromorphic computing promises revolutionary improvements over conventional systems for applications that process unstructured information. To fully realize this potential, neuromorphic systems should exploit the biomimetic behavior of emerging nanodevices. In particular, exceptional opportunities are provided by the non-volatility and analog capabilities of spintronic devices. While spintronic devices have previously been proposed that emulate neurons and synapses, complementary metal-oxide-semiconductor (CMOS) devices are required to implement multilayer spintronic perceptron crossbars. This work therefore proposes a new spintronic neuron that enables purely spintronic multilayer perceptrons, eliminating the need for CMOS circuitry and simplifying fabrication.
翻訳日:2023-01-04 08:56:40 公開日:2020-02-03
# 星間天体の空間観測・追跡システムの設計

The Design of a Space-based Observation and Tracking System for Interstellar Objects ( http://arxiv.org/abs/2002.00984v1 )

ライセンス: Link先を確認
Ravi teja Nallapu, Yinan Xu, Abraham Marquez, Tristan Schuler and Jekan Thangavelautham(参考訳) 最近の恒星間天体である1I/Oumuamuaと2I/Borisovの観測により、惑星科学と惑星防衛の新しい機会が開かれた。 太陽系の外で最初に確認された天体は、どこから来たのか、どうやってここへ来たのか、そして何で構成されているのかなど、多くの起源に関する疑問がある。 また、このような星間天体が地球に衝突の危険性がある場合、特に認識する必要がある。 特に、近日点の後に検出されたオウムアムアの場合、約0.2auで地球に通過し、地球に対する速度は60km/sと推定されている。 このような高速物体との衝突は、地球全土に壊滅的な危険をもたらす可能性がある。 このような課題は、これらの恒星間ビジターを研究するための検出と探査システムの重要性を強調している。 検出システムは、ゼニスポインティング望遠鏡による宇宙船のコンステレーションを含むことができる。 事象が検出されると、地球から宇宙船群を配置して訪問者を通り抜けることができる。 フライバイは興味のある近接操作を実行するように設計できる。 本研究の目的は,IDEAS(Integrated Design Engineering & Automation of Swarms)アーキテクチャを通じて,これらのSwarmミッションを設計するアルゴリズムを開発することである。 具体的には、地球ベースの検出星座と、ランデブー中に訪問者の詳細な表面地図を生成する宇宙船群を、ヘリオセントリックなクルーズ軌道と共に設計する自動アルゴリズムを開発した。

The recent observation of interstellar objects, 1I/Oumuamua and 2I/Borisov cross the solar system opened new opportunities for planetary science and planetary defense. As the first confirmed objects originating outside of the solar system, there are myriads of origin questions to explore and discuss, including where they came from, how did they get here and what are they composed of. Besides, there is a need to be cognizant especially if such interstellar objects pass by the Earth of potential dangers of impact. Specifically, in the case of Oumuamua, which was detected after its perihelion, passed by the Earth at around 0.2 AU, with an estimated excess speed of 60 km/s relative to the Earth. Without enough forewarning time, a collision with such high-speed objects can pose a catastrophic danger to all life Earth. Such challenges underscore the importance of detection and exploration systems to study these interstellar visitors. The detection system can include a spacecraft constellation with zenith-pointing telescope spacecraft. After an event is detected, a spacecraft swarm can be deployed from Earth to flyby past the visitor. The flyby can then be designed to perform a proximity operation of interest. This work aims to develop algorithms to design these swarm missions through the IDEAS (Integrated Design Engineering & Automation of Swarms) architecture. Specifically, we develop automated algorithms to design an Earth-based detection constellation and a spacecraft swarm that generates detailed surface maps of the visitor during the rendezvous, along with their heliocentric cruise trajectories.
翻訳日:2023-01-04 08:56:27 公開日:2020-02-03
# 量子化ニューラルネットワークの自動プルーニング

Automatic Pruning for Quantized Neural Networks ( http://arxiv.org/abs/2002.00523v1 )

ライセンス: Link先を確認
Luis Guerra, Bohan Zhuang, Ian Reid, Tom Drummond(参考訳) ニューラルネットワークの量子化とプルーニングは、これらのモデルの計算複雑性とメモリフットプリントを減らすために一般的に使用される2つのテクニックである。 しかし、既存のプルーニング戦略の多くは全精度で動作し、量子化後の離散パラメータ分布に直接適用することはできない。 対照的に,これら2つの手法の組み合わせにより,さらなるネットワーク圧縮を実現する。 特に,冗長な低精度フィルタを選択するための効果的なプルーニング戦略を提案する。 さらに,ベイズ最適化を利用して各層の刈り取り比を効率的に決定する。 我々は CIFAR-10 と ImageNet で様々なアーキテクチャと精度で広範な実験を行った。 特に、ImageNet上のResNet-18では、バイナリニューラルネットワーク量子化によるモデルサイズの26.12%を経験し、2.47MB、2.36MBの2ビットDoReFa-Netで、トップ1の分類精度は47.32%に達した。

Neural network quantization and pruning are two techniques commonly used to reduce the computational complexity and memory footprint of these models for deployment. However, most existing pruning strategies operate on full-precision and cannot be directly applied to discrete parameter distributions after quantization. In contrast, we study a combination of these two techniques to achieve further network compression. In particular, we propose an effective pruning strategy for selecting redundant low-precision filters. Furthermore, we leverage Bayesian optimization to efficiently determine the pruning ratio for each layer. We conduct extensive experiments on CIFAR-10 and ImageNet with various architectures and precisions. In particular, for ResNet-18 on ImageNet, we prune 26.12% of the model size with Binarized Neural Network quantization, achieving a top-1 classification accuracy of 47.32% in a model of 2.47 MB and 59.30% with a 2-bit DoReFa-Net in 4.36 MB.
翻訳日:2023-01-04 08:56:03 公開日:2020-02-03
# 利益志向型営業予測:ビジネスから見た予測手法の比較

Profit-oriented sales forecasting: a comparison of forecasting techniques from a business perspective ( http://arxiv.org/abs/2002.00949v1 )

ライセンス: Link先を確認
Tine Van Calster, Filip Van den Bossche, Bart Baesens, Wilfried Lemahieu(参考訳) データを予測するのに最適なテクニックを選択することは、どんな予測アプリケーションでも発生する問題です。 数十年にわたる研究の結果、統計学、計量学、機械学習(ML)に由来する膨大な量の予測手法が生まれ、予測演習において非常に困難で精巧な選択をもたらす。 本稿では,コカ・コーラ社の産業界データと公開データセットの両方からなる35シリーズの多種多様な技術を比較し,高い戦術的販売予測を実現することを目的とする。 しかし,本論文では,予測結果の正確性にのみ注目するのではなく,モデル構築と評価プロセスの両方において手法が生み出す期待利益を考慮し,新規かつ完全に自動化した利益駆動アプローチを提案する。 この目的のために使用される期待利益関数は、予測精度とビジネスの専門知識を組み合わせることで、どんな状況にも容易に理解し、適応できる。 さらに, 戦術的販売予測において, どのようなモデルが最適かを確認するために, ml技術の付加価値, 外部要因の包含, 季節モデルの利用について検討した。 本研究は, 季節時系列モデルが他の手法より一貫して優れており, 利益主導型アプローチは異なる予測モデルを選択することに繋がることを示した。

Choosing the technique that is the best at forecasting your data, is a problem that arises in any forecasting application. Decades of research have resulted into an enormous amount of forecasting methods that stem from statistics, econometrics and machine learning (ML), which leads to a very difficult and elaborate choice to make in any forecasting exercise. This paper aims to facilitate this process for high-level tactical sales forecasts by comparing a large array of techniques for 35 times series that consist of both industry data from the Coca-Cola Company and publicly available datasets. However, instead of solely focusing on the accuracy of the resulting forecasts, this paper introduces a novel and completely automated profit-driven approach that takes into account the expected profit that a technique can create during both the model building and evaluation process. The expected profit function that is used for this purpose, is easy to understand and adaptable to any situation by combining forecasting accuracy with business expertise. Furthermore, we examine the added value of ML techniques, the inclusion of external factors and the use of seasonal models in order to ascertain which type of model works best in tactical sales forecasting. Our findings show that simple seasonal time series models consistently outperform other methodologies and that the profit-driven approach can lead to selecting a different forecasting model.
翻訳日:2023-01-04 08:49:38 公開日:2020-02-03
# 病理組織像における核分割のための屈曲損失正規化ネットワーク

Bending Loss Regularized Network for Nuclei Segmentation in Histopathology Images ( http://arxiv.org/abs/2002.01020v1 )

ライセンス: Link先を確認
Haotian Wang, Min Xian, Aleksandar Vakanski(参考訳) 重なり合う核の分離は病理組織学的画像解析において大きな課題である。 最近発表されたアプローチは、公開データセットの全体的なパフォーマンスを期待できるが、セグメント化重畳された核の性能は限られている。 そこで本研究では,核分割のための曲げ損失正規化ネットワークを提案する。 提案した曲げ損失は、大きな曲率を持つ輪郭点に対する高い罰則を定義し、小さな曲率を持つ輪郭点に小さな罰則を適用する。 曲げ損失の最小化は、複数の核を含む輪郭の発生を避けることができる。 提案手法は,5つの定量的指標を用いてMoNuSegデータセット上で検証する。 Aggregate Jaccard Index, Dice, Recognition Quality, Pan-optic Qualityという,6つの最先端のアプローチよりも優れています。

Separating overlapped nuclei is a major challenge in histopathology image analysis. Recently published approaches have achieved promising overall performance on public datasets; however, their performance in segmenting overlapped nuclei are limited. To address the issue, we propose the bending loss regularized network for nuclei segmentation. The proposed bending loss defines high penalties to contour points with large curvatures, and applies small penalties to contour points with small curvature. Minimizing the bending loss can avoid generating contours that encompass multiple nuclei. The proposed approach is validated on the MoNuSeg dataset using five quantitative metrics. It outperforms six state-of-the-art approaches on the following metrics: Aggregate Jaccard Index, Dice, Recognition Quality, and Pan-optic Quality.
翻訳日:2023-01-04 08:49:16 公開日:2020-02-03
# PDE-NetGen 1.0:物理プロセスのシンボルPDE表現からトレーニング可能なニューラルネットワーク表現へ

PDE-NetGen 1.0: from symbolic PDE representations of physical processes to trainable neural network representations ( http://arxiv.org/abs/2002.01029v1 )

ライセンス: Link先を確認
Olivier Pannekoucke and Ronan Fablet(参考訳) ブリッジング物理と深層学習はトピックの課題である。 ディープラーニングフレームワークは物理科学の道を開くが、物理的に一貫性のあるディープニューラルネットワークアーキテクチャの設計はオープンな問題である。 物理インフォームドNNの精神において、PDE-NetGenパッケージは、PDEとして与えられる物理方程式を自動的にニューラルネットワークアーキテクチャに翻訳する新しい手段を提供する。 PDE-NetGenはシンボル計算とニューラルネットワークジェネレータを組み合わせる。 後に、NNベースのPDEソルバの実装をKerasを使って利用した。 PDE-NetGenは物理インフォームドNNアーキテクチャを生成するためのプラグイン・アンド・プレイツールである。 それらは計算効率が良くコンパクトな表現を提供し、他の随伴導出、モデルキャリブレーション、予測、データ同化、不確実性定量化を含む様々な問題に対処する。 図示として、ワークフローはまず2次元拡散方程式に対して提示され、次にデータ駆動および物理インフォームドによるバーガース方程式の不確実性力学の同定に適用される。

Bridging physics and deep learning is a topical challenge. While deep learning frameworks open avenues in physical science, the design of physically-consistent deep neural network architectures is an open issue. In the spirit of physics-informed NNs, PDE-NetGen package provides new means to automatically translate physical equations, given as PDEs, into neural network architectures. PDE-NetGen combines symbolic calculus and a neural network generator. The later exploits NN-based implementations of PDE solvers using Keras. With some knowledge of a problem, PDE-NetGen is a plug-and-play tool to generate physics-informed NN architectures. They provide computationally-efficient yet compact representations to address a variety of issues, including among others adjoint derivation, model calibration, forecasting, data assimilation as well as uncertainty quantification. As an illustration, the workflow is first presented for the 2D diffusion equation, then applied to the data-driven and physics-informed identification of uncertainty dynamics for the Burgers equation.
翻訳日:2023-01-04 08:49:02 公開日:2020-02-03
# メッセージパッシングアルゴリズムのダイナミクスを理解する:自由確率ヒューリスティックス

Understanding the dynamics of message passing algorithms: a free probability heuristics ( http://arxiv.org/abs/2002.02533v1 )

ライセンス: Link先を確認
Manfred Opper and Burak \c{C}akmak(参考訳) 我々はランダム行列理論の自由性仮定を用いて、大系の極限に密結合行列を持つ確率的モデルに対する推論アルゴリズムの動的挙動を解析する。 玩具イジングモデルでは,有効記憶の消失特性やアルゴリズムの解析収束率など,これまでの結果を復元することができる。

We use freeness assumptions of random matrix theory to analyze the dynamical behavior of inference algorithms for probabilistic models with dense coupling matrices in the limit of large systems. For a toy Ising model, we are able to recover previous results such as the property of vanishing effective memories and the analytical convergence rate of the algorithm.
翻訳日:2023-01-04 08:48:01 公開日:2020-02-03
# 車両可視光通信のための機械学習によるチャネルモデリング

Machine Learning Based Channel Modeling for Vehicular Visible Light Communication ( http://arxiv.org/abs/2002.03774v1 )

ライセンス: Link先を確認
Bugra Turan and Sinem Coleri(参考訳) 光無線通信(owc)伝搬チャネル特性は、車両可視光通信(vvlc)システムの設計と性能解析において重要な役割を果たす。 決定論的および確率的手法に基づく現在のOWCチャネルモデルでは、移動性誘導環境光、光乱流、路面反射の影響に対応できない。 そこで,環境光,光乱流,路面反射効果に加えて,車間距離や形状を考慮した代替機械学習(ml)方式を提案し,高精度なvvlcチャネル損失とチャネル周波数応答(cfr)を得る。 この研究は、マルチ層パーセプトロンフィードフォワードニューラルネットワーク(MLP)、ラジアル基底関数ニューラルネットワーク(RBF-NN)、ランダムフォレストアンサンブル学習アルゴリズムによるMLベースのVVLCチャネルモデルフレームワークの合成を実証する。 実際の道路計測によって収集された予測器と応答変数は、様々な条件で提案されたモデルの訓練と検証に使用される。 また、チャネル損失とcfrにおける異なる予測変数の重要性を評価し、測定されたvvlcチャネルの特徴の正規化の重要性について述べる。 RBF-NN, Random Forest および MLP に基づくモデルでは, 3.53 dB, 3.81 dB, 3.95 dB のルート平均二乗誤差 (RMSE) を, 7 dB RMSE の適合曲線に基づく VVLC チャネルモデルと比較すると, より正確なチャネル損失推定が可能である。 さらに、RBF-NNとMLPモデルは、それぞれ3.78dBと3.60dBのRMSEを持つ距離、周囲光、受信傾斜角予測変数に関してVVLC CFRを予測する。

Optical Wireless Communication (OWC) propagation channel characterization plays a key role on the design and performance analysis of Vehicular Visible Light Communication (VVLC) systems. Current OWC channel models based on deterministic and stochastic methods, fail to address mobility induced ambient light, optical turbulence and road reflection effects on channel characterization. Therefore, alternative machine learning (ML) based schemes, considering ambient light, optical turbulence, road reflection effects in addition to intervehicular distance and geometry, are proposed to obtain accurate VVLC channel loss and channel frequency response (CFR). This work demonstrates synthesis of ML based VVLC channel model frameworks through multi layer perceptron feed-forward neural network (MLP), radial basis function neural network (RBF-NN) and Random Forest ensemble learning algorithms. Predictor and response variables, collected through practical road measurements, are employed to train and validate proposed models for various conditions. Additionally, the importance of different predictor variables on channel loss and CFR is assessed, normalized importance of features for measured VVLC channel is introduced. We show that RBF-NN, Random Forest and MLP based models yield more accurate channel loss estimations with 3.53 dB, 3.81 dB, 3.95 dB root mean square error (RMSE), respectively, when compared to fitting curve based VVLC channel model with 7 dB RMSE. Moreover, RBF-NN and MLP models are demonstrated to predict VVLC CFR with respect to distance, ambient light and receiver inclination angle predictor variables with 3.78 dB and 3.60 dB RMSE respectively.
翻訳日:2023-01-04 08:47:56 公開日:2020-02-03
# DWM: 畳み込み高速化のための分解可能なWinograd法

DWM: A Decomposable Winograd Method for Convolution Acceleration ( http://arxiv.org/abs/2002.00552v1 )

ライセンス: Link先を確認
Di Huang, Xishan Zhang, Rui Zhang, Tian Zhi, Deyuan He, Jiaming Guo, Chang Liu, Qi Guo, Zidong Du, Shaoli Liu, Tianshi Chen, Yunji Chen(参考訳) Winogradの最小フィルタリングアルゴリズムは畳み込みニューラルネットワーク(CNN)において、高速な処理のための乗算数を減らすために広く使われている。 しかし、カーネルサイズが3x3、ストライドが1の畳み込みにのみ有効であり、フロップが著しく増加し、カーネルサイズが3x3より大きい場合の精度問題や、ストライドが1よりも大きい場合の畳み込みに失敗するためである。 本稿では,従来のWinogradの最小フィルタリングアルゴリズムを広義かつ一般的な畳み込みに制限する,Decomposable Winograd Method (DWM)を提案する。 DWMは、さらにWinograd法を適用するためにストライドを1として複数の小さなカーネルに大小または大小のストライドを分解し、数値精度を維持しながら乗算数を削減できる。 これにより、CNNのカーネルサイズとストライド値の高速探索が可能となり、パフォーマンスと精度が向上し、新たなCNNの可能性がもたらされる。 元のWinogradと比較して、提案したDWMは数値精度に影響を与えることなく、 ~2のスピードアップで全ての種類の畳み込みをサポートすることができる。

Winograd's minimal filtering algorithm has been widely used in Convolutional Neural Networks (CNNs) to reduce the number of multiplications for faster processing. However, it is only effective on convolutions with kernel size as 3x3 and stride as 1, because it suffers from significantly increased FLOPs and numerical accuracy problem for kernel size larger than 3x3 and fails on convolution with stride larger than 1. In this paper, we propose a novel Decomposable Winograd Method (DWM), which breaks through the limitation of original Winograd's minimal filtering algorithm to a wide and general convolutions. DWM decomposes kernels with large size or large stride to several small kernels with stride as 1 for further applying Winograd method, so that DWM can reduce the number of multiplications while keeping the numerical accuracy. It enables the fast exploring of larger kernel size and larger stride value in CNNs for high performance and accuracy and even the potential for new CNNs. Comparing against the original Winograd, the proposed DWM is able to support all kinds of convolutions with a speedup of ~2, without affecting the numerical accuracy.
翻訳日:2023-01-04 08:47:06 公開日:2020-02-03
# ウェーブレット変換と転送学習による胸部疾患の分類

Classification of Chest Diseases using Wavelet Transforms and Transfer Learning ( http://arxiv.org/abs/2002.00625v1 )

ライセンス: Link先を確認
Ahmed Rasheed, Muhammad Shahzad Younis, Muhammad Bilal, and Maha Rasheed(参考訳) 胸部X線スキャンは、放射線医が初期において多くの胸部関連疾患を診断するために最もよく用いられるモダリティである。 提案システムは, 放射線科医が, 検診で発見される疾患をより効率的に判断する上で有効である。 本システムでは,特徴強調のための画像処理技術と疾患の分類のための深層学習を組み合わせた。 我々は、ChestX-ray14データベースを使用して、その中の14のラベル付き疾患に対して、ディープラーニングモデルをトレーニングしました。 本研究は,ウェーブレット変換を前処理として用いた結果の有意な改善を示す。

Chest X-ray scan is a most often used modality by radiologists to diagnose many chest related diseases in their initial stages. The proposed system aids the radiologists in making decision about the diseases found in the scans more efficiently. Our system combines the techniques of image processing for feature enhancement and deep learning for classification among diseases. We have used the ChestX-ray14 database in order to train our deep learning model on the 14 different labeled diseases found in it. The proposed research shows the significant improvement in the results by using wavelet transforms as pre-processing technique.
翻訳日:2023-01-04 08:46:42 公開日:2020-02-03
# 1次元畳み込みニューラルネットワークを用いた時系列心電図信号から抽出した特徴量を用いた閉塞型睡眠時無呼吸の検出

Detection of Obstructive Sleep Apnoea Using Features Extracted from Segmented Time-Series ECG Signals Using a One Dimensional Convolutional Neural Network ( http://arxiv.org/abs/2002.00833v1 )

ライセンス: Link先を確認
Steven Thompson, Paul Fergus, Carl Chalmers, and Denis Reilly(参考訳) 本研究では1次元畳み込みニューラルネットワーク(1DCNN)モデルを用いて,単一チャネル心電図(ECG)信号から得られた閉塞性睡眠時無呼吸症(OSA)を自動的に検出する。 このシステムは、OSA患者の診断を支援する臨床実践のメカニズムを提供する。 1DCNNの最先端技術を用いて、モデルを畳み込み、最大プーリング層と、隠れた層とSoftMax出力からなる完全に接続された多層パーセプトロン(MLP)を用いて構築する。 1DCNNは、MLPのトレーニングに使用される特徴を抽出する。 モデルは、設定されたウィンドウサイズの5つのユニークなデータセットにグループ化されたセグメント化されたECG信号を使用して訓練される。 35のECG信号記録が、70の夜間ECG記録を含む注釈付きデータベースから選択された。 (グループa = a01 から a20 へ、グループb = b01 から b05 へ(モデレート)、グループc = c01 から c10 へ(通常)。 Apnoeaの合計6514分が記録された。 w=500(感度09705、特異度09725、f1スコア0.09717、kappaスコア0.09430、ログロス00836、rocauc 0.9945)を用いて、提案モデルがトレーニングと検証の両方において高い分類結果を達成することを示す標準メトリクス群を用いて評価を行う。 これは、モデルが高い精度でApnoeaの存在を識別できることを示している。

The study in this paper presents a one-dimensional convolutional neural network (1DCNN) model, designed for the automated detection of obstructive Sleep Apnoea (OSA) captured from single-channel electrocardiogram (ECG) signals. The system provides mechanisms in clinical practice that help diagnose patients suffering with OSA. Using the state-of-the-art in 1DCNNs, a model is constructed using convolutional, max pooling layers and a fully connected Multilayer Perceptron (MLP) consisting of a hidden layer and SoftMax output for classification. The 1DCNN extracts prominent features, which are used to train an MLP. The model is trained using segmented ECG signals grouped into 5 unique datasets of set window sizes. 35 ECG signal recordings were selected from an annotated database containing 70 night-time ECG recordings. (Group A = a01 to a20 (Apnoea breathing), Group B = b01 to b05 (moderate), and Group C = c01 to c10 (normal). A total of 6514 minutes of Apnoea was recorded. Evaluation of the model is performed using a set of standard metrics which show the proposed model achieves high classification results in both training and validation using our windowing strategy, particularly W=500 (Sensitivity 0.9705, Specificity 0.9725, F1 Score 0.9717, Kappa Score 0.9430, Log Loss 0.0836, ROCAUC 0.9945). This demonstrates the model can identify the presence of Apnoea with a high degree of accuracy.
翻訳日:2023-01-04 08:39:17 公開日:2020-02-03
# MRAMに基づくディープリーフネットワークのプロセス変動解析のためのモジュールシミュレーションフレームワーク

Modular Simulation Framework for Process Variation Analysis of MRAM-based Deep Belief Networks ( http://arxiv.org/abs/2002.00897v1 )

ライセンス: Link先を確認
Paul Wood, Hossein Pourmeidani, and Ronald F. DeMara(参考訳) 制限ボルツマンマシン(RBM)における機械学習操作をコンパクトかつ効率的に実現する手段として、MRAMベースのpビットニューロモルフィックコンピューティング装置が注目されている。 RBM抵抗性クロスバーアレイに埋め込まれると、pビットベースのニューロンは調節可能なシグモダル活性化機能を実現する。 活性化の確率性はMRAM装置のエネルギー障壁に依存するため、シグモイド関数の電圧依存性挙動に対するプロセス変動の影響を評価することが不可欠である。 その他の影響要因は、デバイスとネットワークパラメータの多目的最適化を容易にするシミュレーション環境を必要とする電力消費の様々なエネルギー障壁から生じる。 ここで、トランスポート可能なPythonスクリプトを開発し、機械学習アプリケーションの正確性に基づいてデバイス次元の変化による出力変動を分析する。 MNISTデータセットを用いたRBM回路の評価では、結果として生じるエネルギー対精度のトレードオフの観点から、デバイス製造の変形に対する影響と限界を明らかにし、その結果のシミュレーションフレームワークはCreative Commonsライセンスを通じて利用可能である。

Magnetic Random-Access Memory (MRAM) based p-bit neuromorphic computing devices are garnering increasing interest as a means to compactly and efficiently realize machine learning operations in Restricted Boltzmann Machines (RBMs). When embedded within an RBM resistive crossbar array, the p-bit based neuron realizes a tunable sigmoidal activation function. Since the stochasticity of activation is dependent on the energy barrier of the MRAM device, it is essential to assess the impact of process variation on the voltage-dependent behavior of the sigmoid function. Other influential performance factors arise from varying energy barriers on power consumption requiring a simulation environment to facilitate the multi-objective optimization of device and network parameters. Herein, transportable Python scripts are developed to analyze the output variation under changes in device dimensions on the accuracy of machine learning applications. Evaluation with RBM circuits using the MNIST dataset reveal impacts and limits for processing variation of device fabrication in terms of the resulting energy vs. accuracy tradeoffs, and the resulting simulation framework is available via a Creative Commons license.
翻訳日:2023-01-04 08:38:31 公開日:2020-02-03
# 抵抗性RAMベース二元化ニューラルネットワークのビット誤り耐性について

Towards Explainable Bit Error Tolerance of Resistive RAM-Based Binarized Neural Networks ( http://arxiv.org/abs/2002.00909v1 )

ライセンス: Link先を確認
Sebastian Buschj\"ager, Jian-Jia Chen, Kuan-Hsun Chen, Mario G\"unzel, Christian Hakert, Katharina Morik, Rodion Novkin, Lukas Pfahler, Mikail Yayla(参考訳) 抵抗性RAM(RRAM)のような不揮発性メモリは、特にエッジ上の低消費電力の機械学習モデルにおいて、エネルギー効率が向上するストレージである。 しかし、rramのビット誤り率は、ウルトラ低消費電力設定では最大3.3%であり、多くのユースケースにおいて不可欠である可能性があると報告されている。 ニューラルネットワーク(NN)のリソース効率のよい亜種であるバイナリニューラルネットワーク(BNN)は、精度を損なわずに一定のエラーを許容し、計算やストレージに低いリソースを要求する。 BNNのビットエラー耐性(BET)は、Hirtzlinらによって提案されたように、トレーニング中にウェイトサインを反転させることで達成できるが、特に完全連結ニューラルネットワーク(FCNN)では大きな欠点がある。 また,BETの基本原理は検討されていない。 本研究では,BNNのBETのトレーニングを改善し,その特性を説明することを目的とする。 我々は,BNNがビット誤り率に適応しない重み付けフリップトレーニングを改善するために,ストレートスルー勾配近似を提案する。 得られたロバスト性を説明するために,障害注入なしでBETを測定するための指標を定義した。 測定値を評価し,全てのfcnnにおける誤差率の精度と相関があることを見いだした。 最後に、この計量に関して最適化する新しい正則化器の影響を、精度とBETの設定可能なトレードオフを提供することを目的として検討する。

Non-volatile memory, such as resistive RAM (RRAM), is an emerging energy-efficient storage, especially for low-power machine learning models on the edge. It is reported, however, that the bit error rate of RRAMs can be up to 3.3% in the ultra low-power setting, which might be crucial for many use cases. Binary neural networks (BNNs), a resource efficient variant of neural networks (NNs), can tolerate a certain percentage of errors without a loss in accuracy and demand lower resources in computation and storage. The bit error tolerance (BET) in BNNs can be achieved by flipping the weight signs during training, as proposed by Hirtzlin et al., but their method has a significant drawback, especially for fully connected neural networks (FCNN): The FCNNs overfit to the error rate used in training, which leads to low accuracy under lower error rates. In addition, the underlying principles of BET are not investigated. In this work, we improve the training for BET of BNNs and aim to explain this property. We propose straight-through gradient approximation to improve the weight-sign-flip training, by which BNNs adapt less to the bit error rates. To explain the achieved robustness, we define a metric that aims to measure BET without fault injection. We evaluate the metric and find that it correlates with accuracy over error rate for all FCNNs tested. Finally, we explore the influence of a novel regularizer that optimizes with respect to this metric, with the aim of providing a configurable trade-off in accuracy and BET.
翻訳日:2023-01-04 08:38:13 公開日:2020-02-03
# 単段階学習のためのレギュレータ

Regularizers for Single-step Adversarial Training ( http://arxiv.org/abs/2002.00614v1 )

ライセンス: Link先を確認
B.S. Vivek, R. Venkatesh Babu(参考訳) 過去10年間の進歩により、機械学習モデルはコンピュータビジョンの幅広いタスクで印象的なパフォーマンスを達成できるようになった。 しかし、多くの研究がこれらのモデルが敵対的なサンプルに感受性があることを証明している。 このような敵の攻撃から守るために、敵の訓練手順が提案されている。 adversarial training methodは、adversarial sampleを伴うミニバッチを増強し、通常、single-step (non-iterative) メソッドは、これらのadversarial sampleを生成するために使用される。 しかし、単段階逆行訓練を用いて訓練されたモデルは、モデルが単に堅牢であるように見える縮退ミニマに収束する。 これらのモデルの擬似ロバスト性は勾配マスキング効果によるものである。 多段階の逆行訓練は、頑健なモデルを学ぶのに役立つが、逆行サンプルの生成に反復的手法を用いるため、スケールが困難である。 これらの問題に対処するために,我々は,単段逆学習法を用いて頑健なモデルを学ぶための3種類の正規化器を提案する。 提案する正則化器は,ロバストモデルと擬似ロバストモデルとを区別する特性を活用することで,勾配マスキングの効果を緩和する。 提案する正規化器を用いてトレーニングしたモデルの性能は、計算コストの高いマルチステップ・アドバーサリー・トレーニング法でトレーニングされたモデルと同等である。

The progress in the last decade has enabled machine learning models to achieve impressive performance across a wide range of tasks in Computer Vision. However, a plethora of works have demonstrated the susceptibility of these models to adversarial samples. Adversarial training procedure has been proposed to defend against such adversarial attacks. Adversarial training methods augment mini-batches with adversarial samples, and typically single-step (non-iterative) methods are used for generating these adversarial samples. However, models trained using single-step adversarial training converge to degenerative minima where the model merely appears to be robust. The pseudo robustness of these models is due to the gradient masking effect. Although multi-step adversarial training helps to learn robust models, they are hard to scale due to the use of iterative methods for generating adversarial samples. To address these issues, we propose three different types of regularizers that help to learn robust models using single-step adversarial training methods. The proposed regularizers mitigate the effect of gradient masking by harnessing on properties that differentiate a robust model from that of a pseudo robust model. Performance of models trained using the proposed regularizers is on par with models trained using computationally expensive multi-step adversarial training methods.
翻訳日:2023-01-04 08:31:36 公開日:2020-02-03
# 深部アーチティパル解析による極端表現の学習

Learning Extremal Representations with Deep Archetypal Analysis ( http://arxiv.org/abs/2002.00815v1 )

ライセンス: Link先を確認
Sebastian Mathias Keller, Maxim Samarin, Fabricio Arend Torres, Mario Wieser, Volker Roth(参考訳) アーチタイプは極端の意味での典型的な人口代表であり、典型性は特徴や特徴の最も極端な表現であると理解されている。 線型特徴空間において、アーチタイプは、すべてのデータポイントをアーチタイプの凸混合として表現できるデータ凸包を近似する。 しかし、特定の機能空間において意味のあるアーチタイプを特定できるとは限らない。 適切な特徴空間を学習し、適切なアーチタイプを特定することは同時にこの問題に対処する。 本稿ではニューラルネットワークによってパラメータ化された線形アーチタイプモデルの生成的定式化を提案する。 距離依存的アーキタイプ損失を導入することにより、線形アーキタイプモデルを変分オートエンコーダの潜在空間に統合することができ、未知アーキタイプに対する最適な表現をエンドツーエンドに学習することができる。 線形アーチティパル解析を深部変分情報ボトルネックとして再構成することで、訓練中に任意の複雑な側情報を組み込むことができる。 さらに、改良されたディリクレ分布に基づく別の前者を提案する。 提案手法の現実的適用性は,女性表情の古型を探索し,これらの表情のマルチレータベース感情スコアを側面情報として用いた。 2つ目の応用は、小さな有機分子の化学空間の探索である。 この実験では、側情報を交換するが、同じ分子の集合を保持することが示されている。 g. サイド情報として、バンドギャップエネルギーの代わりに各分子の熱容量を使用すると、異なるアーチタイプが識別される。 応用として、これらの学習された化学空間の表現は、デ・ノボ分子設計の出発点を明確にする可能性がある。

Archetypes are typical population representatives in an extremal sense, where typicality is understood as the most extreme manifestation of a trait or feature. In linear feature space, archetypes approximate the data convex hull allowing all data points to be expressed as convex mixtures of archetypes. However, it might not always be possible to identify meaningful archetypes in a given feature space. Learning an appropriate feature space and identifying suitable archetypes simultaneously addresses this problem. This paper introduces a generative formulation of the linear archetype model, parameterized by neural networks. By introducing the distance-dependent archetype loss, the linear archetype model can be integrated into the latent space of a variational autoencoder, and an optimal representation with respect to the unknown archetypes can be learned end-to-end. The reformulation of linear Archetypal Analysis as deep variational information bottleneck, allows the incorporation of arbitrarily complex side information during training. Furthermore, an alternative prior, based on a modified Dirichlet distribution, is proposed. The real-world applicability of the proposed method is demonstrated by exploring archetypes of female facial expressions while using multi-rater based emotion scores of these expressions as side information. A second application illustrates the exploration of the chemical space of small organic molecules. In this experiment, it is demonstrated that exchanging the side information but keeping the same set of molecules, e. g. using as side information the heat capacity of each molecule instead of the band gap energy, will result in the identification of different archetypes. As an application, these learned representations of chemical space might reveal distinct starting points for de novo molecular design.
翻訳日:2023-01-04 08:31:16 公開日:2020-02-03
# ファジィ論理を用いた生成モデルの評価改善

Improving the Evaluation of Generative Models with Fuzzy Logic ( http://arxiv.org/abs/2002.03772v1 )

ライセンス: Link先を確認
Julian Niedermeier, Gon\c{c}alo Mordido, Christoph Meinel(参考訳) 現在の人工知能システムを評価するための客観的かつ解釈可能なメトリクスは、そのシステムの現状を分析するだけでなく、将来の進捗を客観的に測定する上でも非常に重要である。 本研究では,画像生成タスクの評価に焦点をあてる。 ファジィトポロジー・インパクト(fti)と呼ばれる,ファジィトポロジー表現とファジィ論理を組み合わせた画像集合の品質と多様性を決定する新しい手法を提案する。 現在の評価方法と比較すると、ftiはノイズに対する感度、モード降下、モード発明を評価する複数の実験において、より良くより安定した性能を示す。

Objective and interpretable metrics to evaluate current artificial intelligent systems are of great importance, not only to analyze the current state of such systems but also to objectively measure progress in the future. In this work, we focus on the evaluation of image generation tasks. We propose a novel approach, called Fuzzy Topology Impact (FTI), that determines both the quality and diversity of an image set using topology representations combined with fuzzy logic. When compared to current evaluation methods, FTI shows better and more stable performance on multiple experiments evaluating the sensitivity to noise, mode dropping and mode inventing.
翻訳日:2023-01-04 08:30:18 公開日:2020-02-03
# 双方向長期記憶ニューラルネットワークと単語埋め込みを用いたTwitterボット検出

Twitter Bot Detection Using Bidirectional Long Short-term Memory Neural Networks and Word Embeddings ( http://arxiv.org/abs/2002.01336v1 )

ライセンス: Link先を確認
Feng Wei and Uyen Trang Nguyen(参考訳) Twitterは、オンラインソーシャルネットワーキングとマイクロブログの二重の役割を担うウェブアプリケーションである。 twitterの人気とオープン構造は、ボットとして知られる多数の自動化プログラムを惹きつけている。 正規のボットは大量の良質なコンテキストコンテンツ、すなわちニュースを配信しフィードを更新するツイートを生成し、悪意のあるボットはスパムや悪意のあるコンテンツを拡散する。 本稿では,Twitter上での人間とスパムボットのアカウントの分類に焦点をあて,リカレントニューラルネットワーク,特に双方向長短記憶(BiLSTM)を用いて,ツイート間の特徴を効率的に把握する。 私たちの知識を最大限に活用するために、私たちの研究は、Twitterのボットと人間のアカウントを区別するために単語埋め込みによるリカレントニューラルネットワークを開発した最初のものです。 さらに、我々のモデルは手作りの機能を必要としない。 予備的なシミュレーション結果は大いに励まされる。 cresci-2017データセットの実験は、既存の最先端のボット検出システムと比較して、我々のアプローチが競合性能を達成できることを示しています。

Twitter is a web application playing dual roles of online social networking and micro-blogging. The popularity and open structure of Twitter have attracted a large number of automated programs, known as bots. Legitimate bots generate a large amount of benign contextual content, i.e., tweets delivering news and updating feeds, while malicious bots spread spam or malicious contents. To assist human users in identifying who they are interacting with, this paper focuses on the classification of human and spambot accounts on Twitter, by employing recurrent neural networks, specifically bidirectional Long Short-term Memory (BiLSTM), to efficiently capture features across tweets. To the best of our knowledge, our work is the first that develops a recurrent neural model with word embeddings to distinguish Twitter bots from human accounts, that requires no prior knowledge or assumption about users' profiles, friendship networks, or historical behavior on the target account. Moreover, our model does not require any handcrafted features. The preliminary simulation results are very encouraging. Experiments on the cresci-2017 dataset show that our approach can achieve competitive performance compared with existing state-of-the-art bot detection systems.
翻訳日:2023-01-04 08:29:49 公開日:2020-02-03
# ハイブリッド階層分類を用いたSMSからのオンデバイス情報抽出

On-Device Information Extraction from SMS using Hybrid Hierarchical Classification ( http://arxiv.org/abs/2002.02755v1 )

ライセンス: Link先を確認
Shubham Vatsal, Naresh Purre, Sukumar Moharana, Gopi Ramena, Debi Prasanna Mohanty(参考訳) SMSの受信箱の切断は、オンラインログイン、トランザクション、プロモーションが複数のSMSを生成するデジタル世界で現在ユーザーが直面している深刻な問題の1つだ。 この問題は、ユーザーがメッセージの検索やナビゲートを効率的に行うのを防ぐだけでなく、提供コードや支払いリマインダーなど、対応するsmsに関連する情報を失うことが多い。 本稿では,SMSから適切な情報を整理して抽出し,さらに直感的なテンプレートで表示する,ユニークなアーキテクチャを提案する。 提案アーキテクチャでは,Hybrid Hierarchical Long Short Term Memory (LSTM)-Convolutional Neural Network (CNN) を用いてSMSを複数のクラスに分類し,その後に分類されたメッセージから関連情報を抽出するエンティティパーサのセットを用いる。 そのプリプロセッシング技術を用いたアーキテクチャは、smsデータで観測される膨大なバリエーションを考慮に入れるだけでなく、推測のタイミングとサイズの観点から、デバイス上の機能(携帯電話)の効率性も考慮に入れている。

Cluttering of SMS inbox is one of the serious problems that users today face in the digital world where every online login, transaction, along with promotions generate multiple SMS. This problem not only prevents users from searching and navigating messages efficiently but often results in users missing out the relevant information associated with the corresponding SMS like offer codes, payment reminders etc. In this paper, we propose a unique architecture to organize and extract the appropriate information from SMS and further display it in an intuitive template. In the proposed architecture, we use a Hybrid Hierarchical Long Short Term Memory (LSTM)-Convolutional Neural Network (CNN) to categorize SMS into multiple classes followed by a set of entity parsers used to extract the relevant information from the classified message. The architecture using its preprocessing techniques not only takes into account the enormous variations observed in SMS data but also makes it efficient for its on-device (mobile phone) functionalities in terms of inference timing and size.
翻訳日:2023-01-04 08:29:29 公開日:2020-02-03
# 欲しがるチケット仮説の証明:プルーニングは必要なだけ

Proving the Lottery Ticket Hypothesis: Pruning is All You Need ( http://arxiv.org/abs/2002.00585v1 )

ライセンス: Link先を確認
Eran Malach, Gilad Yehudai, Shai Shalev-Shwartz, Ohad Shamir(参考訳) 抽選券仮説 (Frankle and Carbin, 2018) は、ランダムに初期化されたネットワークには、独立した訓練を受けた場合、元のネットワークのパフォーマンスと競合する小さなサブネットワークが含まれていると述べている。 さらに強い仮説(Ramanujan et al., 2019で予想されたように)を証明し、全ての有界分布と有界重みを持つ全ての対象ネットワークに対して、ランダム重みを持つ十分に過パラメータ化されたニューラルネットワークは、さらにトレーニングすることなく、ターゲットネットワークとほぼ同じ精度のサブネットワークを含んでいることを示した。

The lottery ticket hypothesis (Frankle and Carbin, 2018), states that a randomly-initialized network contains a small subnetwork such that, when trained in isolation, can compete with the performance of the original network. We prove an even stronger hypothesis (as was also conjectured in Ramanujan et al., 2019), showing that for every bounded distribution and every target network with bounded weights, a sufficiently over-parameterized neural network with random weights contains a subnetwork with roughly the same accuracy as the target network, without any further training.
翻訳日:2023-01-04 08:22:30 公開日:2020-02-03
# ノイズ類似データと異種データからの学習

Learning from Noisy Similar and Dissimilar Data ( http://arxiv.org/abs/2002.00995v1 )

ライセンス: Link先を確認
Soham Dan, Han Bao, Masashi Sugiyama(参考訳) 分類に機械学習が広く使われるようになると、標準ラベル付きデータを得るのが難しいタスクに弱い種類の監視を使用できることがますます重要になる。 例えば、類似(S)ペア(2つの例が同じクラスに属している場合)と類似(D)ペア(2つの例が異なるクラスに属している場合)という形式である。 この種の監視は、プライバシーに敏感なドメインでは現実的です。 近年,この問題が注目されているが,クラウドソース化において非常に一般的なラベルノイズの下で,このような監視からどのように学習するかは定かではない。 本稿では、このギャップを埋めて、ノイズSとDラベル付きデータから分類器を学習する方法を示す。 2つの現実的なノイズモデルの下でこの問題を詳細に検討し,ノイズs-dデータから学習するための2つのアルゴリズムを提案する。 また、このような相互監督データからの学習と、通常のクラスラベルデータからの学習との間に重要な関連性を示す。 最後に,合成データと実世界のデータセットについて実験を行い,ノイズ除去アルゴリズムがノイズブラインベースラインを上回ることを示す。

With the widespread use of machine learning for classification, it becomes increasingly important to be able to use weaker kinds of supervision for tasks in which it is hard to obtain standard labeled data. One such kind of supervision is provided pairwise---in the form of Similar (S) pairs (if two examples belong to the same class) and Dissimilar (D) pairs (if two examples belong to different classes). This kind of supervision is realistic in privacy-sensitive domains. Although this problem has been looked at recently, it is unclear how to learn from such supervision under label noise, which is very common when the supervision is crowd-sourced. In this paper, we close this gap and demonstrate how to learn a classifier from noisy S and D labeled data. We perform a detailed investigation of this problem under two realistic noise models and propose two algorithms to learn from noisy S-D data. We also show important connections between learning from such pairwise supervision data and learning from ordinary class-labeled data. Finally, we perform experiments on synthetic and real world datasets and show our noise-informed algorithms outperform noise-blind baselines in learning from noisy pairwise data.
翻訳日:2023-01-04 08:20:43 公開日:2020-02-03
# 非逆生成ネットワークによる新規検出

Novelty Detection via Non-Adversarial Generative Network ( http://arxiv.org/abs/2002.00522v1 )

ライセンス: Link先を確認
Chengwei Chen and Wang Yuan and Yuan Xie and Yanyun Qu and Yiqing Tao and Haichuan Song and Lizhuang Ma(参考訳) 1クラスの新規性検出は、クエリ例がトレーニング例(ターゲットクラス)と異なるかどうかを決定するプロセスである。 従来の戦略のほとんどは、GAN(Generative Adversarial Network)手法を用いて、ターゲットサンプルの実際の特性を学習しようとするものである。 しかし、モード崩壊や勾配の消失といった不安定な問題に悩まされ、GANの訓練プロセスは依然として困難である。 本稿では,非逆生成ネットワークを採用することで,従来のエンコーダ・デコーダ方式に代えて,新しいデコーダ・エンコーダフレームワークを提案する。 非敵対的な枠組みの下では、潜時空間と画像再構成空間が共同最適化され、超高速収束と低い訓練損失を伴うより安定した訓練プロセスが実現される。 cycleganにインスパイアされた推論の間、画像再構成を行うための新しいテストスキームをデザインしました。 実験により,我々のモデルは最先端のノベルティ検出器よりも明らかな優位性を示し,データセットの最先端の結果が得られた。

One-class novelty detection is the process of determining if a query example differs from the training examples (the target class). Most of previous strategies attempt to learn the real characteristics of target sample by using generative adversarial networks (GANs) methods. However, the training process of GANs remains challenging, suffering from instability issues such as mode collapse and vanishing gradients. In this paper, by adopting non-adversarial generative networks, a novel decoder-encoder framework is proposed for novelty detection task, insteading of classical encoder-decoder style. Under the non-adversarial framework, both latent space and image reconstruction space are jointly optimized, leading to a more stable training process with super fast convergence and lower training losses. During inference, inspired by cycleGAN, we design a new testing scheme to conduct image reconstruction, which is the reverse way of training sequence. Experiments show that our model has the clear superiority over cutting-edge novelty detectors and achieves the state-of-the-art results on the datasets.
翻訳日:2023-01-04 08:20:21 公開日:2020-02-03
# マルチタスク学習畳み込みネットワークを用いた野生における顔の認識

Facial Affect Recognition in the Wild Using Multi-Task Learning Convolutional Network ( http://arxiv.org/abs/2002.00606v1 )

ライセンス: Link先を確認
Zihang Zhang, Jianping Gu(参考訳) 本稿では,FG2020における影響行動分析に提案するニューラルネットワークに基づくマルチタスク効果ネット(MTANet)を提案する。 この方法はマルチタスクネットワークであり、SE-ResNetモジュールに基づいている。 マルチタスク学習を利用することで、原子価と覚醒、アクションユニット、および7つの基本的な感情の3つの定量的感情モデルの推定と認識が可能となる。 MTANetは、価値と覚醒値に対して0.28と0.34の一致相関係数(CCC)、AUの検出とカテゴリー感情分類のために0.427と0.32のF1スコアを達成する。

This paper presents a neural network based method Multi-Task Affect Net(MTANet) submitted to the Affective Behavior Analysis in-the-Wild Challenge in FG2020. This method is a multi-task network and based on SE-ResNet modules. By utilizing multi-task learning, this network can estimate and recognize three quantified affective models: valence and arousal, action units, and seven basic emotions simultaneously. MTANet achieve Concordance Correlation Coefficient(CCC) rates of 0.28 and 0.34 for valence and arousal, F1-score of 0.427 and 0.32 for AUs detection and categorical emotion classification.
翻訳日:2023-01-04 08:20:02 公開日:2020-02-03
# 放射線科医の診断戦略の違いを学習するニューラルネットワークモデル : 磁気共鳴血管造影画像シリーズにおける動脈瘤状態分類曲線下領域の改善

A neural network model that learns differences in diagnosis strategies among radiologists has an improved area under the curve for aneurysm status classification in magnetic resonance angiography image series ( http://arxiv.org/abs/2002.01891v1 )

ライセンス: Link先を確認
Yasuhiko Tachibana, Masataka Nishimori, Naoyuki Kitamura, Kensuke Umehara, Junko Ota, Takayuki Obata, and Tatsuya Higashi(参考訳) 目的:磁気共鳴血管造影画像における動脈瘤の分類精度を高めるために,放射線科医の異なる診断戦略を学習できるニューラルネットワークモデルを構築すること。 2017年11月から2019年1月までに記録された3423個の飛行時脳磁気共鳴血管造影画像(対象:男性1843(平均年齢50.2歳/平均11.7歳)、女性1580(50.8歳/平均11.3歳)。 画像は、確立された深層学習に基づくコンピュータ支援診断(cad)システムによって支援された4人の放射線科医のうちの1人によって、動脈瘤の診断のために独立に読み出された。 構築したニューラルネットは, 画像系列毎にCADシステムにより提案される大動脈瘤関連領域を0から5に分類し, 付加する大動脈瘤領域を放射線科医が追加し, この分類を注視した放射線科医の判断と比較した。 画像系列は8:2の比率でトレーニングデータとテストデータにランダムに割り当てられた。 画像データのみを入力として受け入れる制御モデルと、注釈付けされた放射線技師が誰であるかを付加的に受け入れる提案モデルとで、分類の精度を受信者動作特性解析により比較した。 デロン試験は曲線下の面積を比較するために用いられた(P < 0.05)。 結果: 曲線下の面積は, 制御モデル (0.793) よりも提案モデル (0.845) の方が大きく, 差は有意 (p < 0.0001) であった。 結論: 提案モデルは, 放射線科医の診断戦略を学習することにより, 分類精度を向上した。

Purpose: To construct a neural network model that can learn the different diagnosing strategies of radiologists to better classify aneurysm status in magnetic resonance angiography images. Materials and methods: This retrospective study included 3423 time-of-flight brain magnetic resonance angiography image series (subjects: male 1843 [mean age, 50.2 +/- 11.7 years], female 1580 [50.8 +/- 11.3 years]) recorded from November 2017 through January 2019. The image series were read independently for aneurysm status by one of four board-certified radiologists, who were assisted by an established deep learning-based computer-assisted diagnosis (CAD) system. The constructed neural networks were trained to classify the aneurysm status of zero to five aneurysm-suspicious areas suggested by the CAD system for each image series, and any additional aneurysm areas added by the radiologists, and this classification was compared with the judgment of the annotating radiologist. Image series were randomly allocated to training and testing data in an 8:2 ratio. The accuracy of the classification was compared by receiver operating characteristic analysis between the control model that accepted only image data as input and the proposed model that additionally accepted the information of who the annotating radiologist was. The DeLong test was used to compare areas under the curves (P < 0.05 was considered significant). Results: The area under the curve was larger in the proposed model (0.845) than in the control model (0.793), and the difference was significant (P < 0.0001). Conclusion: The proposed model improved classification accuracy by learning the diagnosis strategies of individual annotating radiologists.
翻訳日:2023-01-04 08:13:37 公開日:2020-02-03
# 視線追跡データに基づくシステム1とシステム2の相互作用解析のためのエンドツーエンドモデル

End-to-End Models for the Analysis of System 1 and System 2 Interactions based on Eye-Tracking Data ( http://arxiv.org/abs/2002.11192v1 )

ライセンス: Link先を確認
Alessandro Rossi, Sara Ermini, Dario Bernabini, Dario Zanca, Marino Todisco, Alessandro Genovese, and Antonio Rizzo(参考訳) 双対認知系を仮定する理論は保たれているが、2つのシステム間の相互作用や衝突イベントを理解し識別するには、定量的な確認が必要である。 目の動きは個々の注意負荷の最も直接的なマーカーであり、情報の重要なプロキシとして機能する。 本研究では,眼球運動に関連するデータの収集と処理を通じて,二つのシステム間で異なるタスクと潜在的な衝突イベントを識別するために,よく知られたstroopテストの修正ビジュアルバージョン内で計算手法を提案する。 統計的分析により、選択された変数は、異なるシナリオにおける注意負荷の変動を特徴付けることができる。 さらに,機械学習の手法により,異なるタスクを高い分類精度で識別し,視線ダイナミクスをより深く調べることができることを示す。

While theories postulating a dual cognitive system take hold, quantitative confirmations are still needed to understand and identify interactions between the two systems or conflict events. Eye movements are among the most direct markers of the individual attentive load and may serve as an important proxy of information. In this work we propose a computational method, within a modified visual version of the well-known Stroop test, for the identification of different tasks and potential conflicts events between the two systems through the collection and processing of data related to eye movements. A statistical analysis shows that the selected variables can characterize the variation of attentive load within different scenarios. Moreover, we show that Machine Learning techniques allow to distinguish between different tasks with a good classification accuracy and to investigate more in depth the gaze dynamics.
翻訳日:2023-01-04 08:12:40 公開日:2020-02-03
# 胸部x線写真における標的解剖学的構造と咬合の分離

Separation of target anatomical structure and occlusions in chest radiographs ( http://arxiv.org/abs/2002.00751v1 )

ライセンス: Link先を確認
Johannes Hofmanninger, Sebastian Roehrich, Helmut Prosch and Georg Langs(参考訳) 胸部X線写真は通常、スクリーニングと診断のために低コストで検査される。 しかし、ラジオグラフは3d構造の2次元表現であり、視覚検査や自動画像分析を妨げている。 そこで本研究では,肺パレンキマなどの画像情報を保持しつつ,X線写真からの望ましくない視覚構造を抑えるための完全畳み込みネットワークを提案する。 提案アルゴリズムは高分解能CTスキャンから再構成されたラジオグラフィーと地上データを生成する。 その結果,分類タスクに無関係な視覚的変化の除去は,限られた訓練データしか利用できない場合に,分類器の性能を向上させることがわかった。 医用画像では地中傷の頻度が低いため,特に関連性が高い。

Chest radiographs are commonly performed low-cost exams for screening and diagnosis. However, radiographs are 2D representations of 3D structures causing considerable clutter impeding visual inspection and automated image analysis. Here, we propose a Fully Convolutional Network to suppress, for a specific task, undesired visual structure from radiographs while retaining the relevant image information such as lung-parenchyma. The proposed algorithm creates reconstructed radiographs and ground-truth data from high resolution CT-scans. Results show that removing visual variation that is irrelevant for a classification task improves the performance of a classifier when only limited training data are available. This is particularly relevant because a low number of ground-truth cases is common in medical imaging.
翻訳日:2023-01-04 08:12:03 公開日:2020-02-03
# 事前学習ニューラルネットワークにおけるニューラルネットワーク接続重みの指数的離散化

Exponential discretization of weights of neural network connections in pre-trained neural networks ( http://arxiv.org/abs/2002.00623v1 )

ライセンス: Link先を確認
Magomed Yu. Malsagov, Emil M. Khayrov, Maria M. Pushkareva, Iakov M. Karandashev(参考訳) ランダムアクセスメモリ(RAM)の要求を減らし、認識アルゴリズムの高速化を図るため、トレーニングニューラルネットワークにおける重み付き離散化問題を考える。 指数的離散化は、ビット数が1または2以下である場合に同じ精度を達成できるため、線形離散化よりも好ましいことを示す。 ニューラルネットワークVGG-16の品質は、3ビット指数的離散化の場合、すでに満足している(トップ5精度69%)。 ResNet50ニューラルネットワークは、4ビットでトップ5の精度84%を示している。 他のニューラルネットワークは5ビットでかなりよく動作する(Xception、Inception-v3、MobileNet-v2のトップ5はそれぞれ87%、90%、そして77%)。 ビット数が少ないと、精度は急速に低下する。

To reduce random access memory (RAM) requirements and to increase speed of recognition algorithms we consider a weight discretization problem for trained neural networks. We show that an exponential discretization is preferable to a linear discretization since it allows one to achieve the same accuracy when the number of bits is 1 or 2 less. The quality of the neural network VGG-16 is already satisfactory (top5 accuracy 69%) in the case of 3 bit exponential discretization. The ResNet50 neural network shows top5 accuracy 84% at 4 bits. Other neural networks perform fairly well at 5 bits (top5 accuracies of Xception, Inception-v3, and MobileNet-v2 top5 were 87%, 90%, and 77%, respectively). At less number of bits, the accuracy decreases rapidly.
翻訳日:2023-01-04 08:11:52 公開日:2020-02-03
# WiSM: Windowsing Surrogate Model for Evaluation of Curvature-Constrained Tours with Dubins Vehicle

WiSM: Windowing Surrogate Model for Evaluation of Curvature-Constrained Tours with Dubins vehicle ( http://arxiv.org/abs/2002.00811v1 )

ライセンス: Link先を確認
Jan Drchal and Jan Faigl and Petr V\'a\v{n}a(参考訳) Dubins Tours は、最適化ルーティング問題の変種である Dubins Traveling Salesman Problem (DTSP) の解であり、経路が前方にしか移動せず、旋回半径が制限された Dubins vehicle に対して可能となるような、曲率に制約のある最短経路を決定する。 dtspはnp-hard combinatorial optimization(np-hard combinatorial optimization)を組み合わせることで、通常のtspのように、位置への訪問の最適なシーケンスを決定する。 提案手法であるWindowing Surrogate Model (WiSM) を用いて,Dubinsツアーの行程を接続する最適なDubinsパスの長さを推定する。 この推定は,スライディングウインドウ手法とキャッシュを用いたDTSPの大規模インスタンスに対して一般化された,小型のDubinsツアーの最適に近い解を用いて訓練された回帰モデルによって高速化される。 報告された結果から,提案したWiSMは比較的単純な進化的アルゴリズムをDTSPの高品質な解に高速に収束させることができることがわかった。 位置が増加するにつれて、我々のアルゴリズムは他の最先端のDTSP解法よりも大幅にスケールすることを示す。

Dubins tours represent a solution of the Dubins Traveling Salesman Problem (DTSP) that is a variant of the optimization routing problem to determine a curvature-constrained shortest path to visit a set of locations such that the path is feasible for Dubins vehicle, which moves only forward and has a limited turning radius. The DTSP combines the NP-hard combinatorial optimization to determine the optimal sequence of visits to the locations, as in the regular TSP, with the continuous optimization of the heading angles at the locations, where the optimal heading values depend on the sequence of visits and vice versa. We address the computationally challenging DTSP by fast evaluation of the sequence of visits by the proposed Windowing Surrogate Model (WiSM) which estimates the length of the optimal Dubins path connecting a sequence of locations in a Dubins tour. The estimation is sped up by a regression model trained using close to optimum solutions of small Dubins tours that are generalized for large-scale instances of the addressed DTSP utilizing the sliding window technique and a cache for already computed results. The reported results support that the proposed WiSM enables a fast convergence of a relatively simple evolutionary algorithm to high-quality solutions of the DTSP. We show that with an increasing number of locations, our algorithm scales significantly better than other state-of-the-art DTSP solvers.
翻訳日:2023-01-04 08:11:38 公開日:2020-02-03
# CoTK: テキスト生成の高速化と公正な評価のためのオープンソースツールキット

CoTK: An Open-Source Toolkit for Fast Development and Fair Evaluation of Text Generation ( http://arxiv.org/abs/2002.00583v1 )

ライセンス: Link先を確認
Fei Huang, Dazhen Wan, Zhihong Shao, Pei Ke, Jian Guan, Yilin Niu, Xiaoyan Zhu, Minlie Huang(参考訳) テキスト生成評価では、一貫性のない実験的な設定やメートル法の実装など、多くの実用的な問題はしばしば無視されるが、不公平な評価と意図できない結論につながる。 本稿では,テキスト生成の高速開発と公平な評価を支援するオープンソースツールキットであるcotkを提案する。 モデル開発において、CoTKはデータ処理、メートル法の実装、再生といった面倒な問題を扱うのに役立ちます。 開発手順を標準化し、ヒューマンエラーを低減し、一貫性のない実験的な設定につながる可能性がある。 モデル評価において、CoTKは様々な実験環境にまたがる多くの一般的なメトリクスとベンチマークモデルの実装を提供する。 ユニークな特徴として、CoTKはいつ、どのメトリックを正確に比較できないかを示すことができる。 cotkをモデルの開発と評価、特に実験的な設定で使用するのが便利であることを示す。

In text generation evaluation, many practical issues, such as inconsistent experimental settings and metric implementations, are often ignored but lead to unfair evaluation and untenable conclusions. We present CoTK, an open-source toolkit aiming to support fast development and fair evaluation of text generation. In model development, CoTK helps handle the cumbersome issues, such as data processing, metric implementation, and reproduction. It standardizes the development steps and reduces human errors which may lead to inconsistent experimental settings. In model evaluation, CoTK provides implementation for many commonly used metrics and benchmark models across different experimental settings. As a unique feature, CoTK can signify when and which metric cannot be fairly compared. We demonstrate that it is convenient to use CoTK for model development and evaluation, particularly across different experimental settings.
翻訳日:2023-01-04 08:10:54 公開日:2020-02-03
# バイオメトリックスと顔鑑識アルゴリズムにおける説明可能なaiの4つの原則

Four Principles of Explainable AI as Applied to Biometrics and Facial Forensic Algorithms ( http://arxiv.org/abs/2002.01014v1 )

ライセンス: Link先を確認
P. Jonathon Phillips and Mark Przybocki(参考訳) 伝統的に、顔認識と生体認証技術の研究者は正確なアルゴリズムの開発に注力してきた。 この技術を運用システムに統合することで、エンジニアや科学者は、これらのシステムは社会的な規範に合っているのだろうか? この調査のルーツは人工知能(AI)システムの「信頼」にある。 本稿では、顔認識とバイオメトリックスに説明可能なAIを適用することに集中し、顔認識とバイオメトリックスに説明可能なAIの4つの原則を示す。 この原則は$\it{four}$のケーススタディで示されており、説明を生み出すアルゴリズムの開発における課題と課題を示している。

Traditionally, researchers in automatic face recognition and biometric technologies have focused on developing accurate algorithms. With this technology being integrated into operational systems, engineers and scientists are being asked, do these systems meet societal norms? The origin of this line of inquiry is `trust' of artificial intelligence (AI) systems. In this paper, we concentrate on adapting explainable AI to face recognition and biometrics, and we present four principles of explainable AI to face recognition and biometrics. The principles are illustrated by $\it{four}$ case studies, which show the challenges and issues in developing algorithms that can produce explanations.
翻訳日:2023-01-04 08:10:41 公開日:2020-02-03
# torch-struct: 深層構造予測ライブラリ

Torch-Struct: Deep Structured Prediction Library ( http://arxiv.org/abs/2002.00876v1 )

ライセンス: Link先を確認
Alexander M. Rush(参考訳) NLPの構造化予測に関する文献では、シーケンス、セグメンテーション、アライメント、ツリー上の分布とアルゴリズムの豊富なコレクションが記述されているが、これらのアルゴリズムはディープラーニングフレームワークでは利用が難しい。 我々は,ベクトル化・自己微分型フレームワークを活用した構造化予測ライブラリであるtorch-structを紹介する。 Torch-Structには、任意のディープラーニングモデルに接続するシンプルで柔軟な分散ベースのAPIを通じてアクセスされる、確率的な構造の広範なコレクションが含まれている。 このライブラリは、バッチでベクタ化された操作を利用し、自動微分を利用して可読性、高速、そしてテスト可能なコードを生成する。 内部的には、クロスアルゴリズム効率を提供するために、多くの汎用最適化も含んでいます。 実験では、高速なベースラインよりも大きなパフォーマンス向上を示し、ケーススタディはライブラリの利点を示している。 Torch-Structはhttps://github.com/harvardnlp/pytorch-structで入手できる。

The literature on structured prediction for NLP describes a rich collection of distributions and algorithms over sequences, segmentations, alignments, and trees; however, these algorithms are difficult to utilize in deep learning frameworks. We introduce Torch-Struct, a library for structured prediction designed to take advantage of and integrate with vectorized, auto-differentiation based frameworks. Torch-Struct includes a broad collection of probabilistic structures accessed through a simple and flexible distribution-based API that connects to any deep learning model. The library utilizes batched, vectorized operations and exploits auto-differentiation to produce readable, fast, and testable code. Internally, we also include a number of general-purpose optimizations to provide cross-algorithm efficiency. Experiments show significant performance gains over fast baselines and case-studies demonstrate the benefits of the library. Torch-Struct is available at https://github.com/harvardnlp/pytorch-struct.
翻訳日:2023-01-04 08:04:32 公開日:2020-02-03
# 決定木の集合構築のための進化的アルゴリズム

Evolutionary algorithms for constructing an ensemble of decision trees ( http://arxiv.org/abs/2002.00721v1 )

ライセンス: Link先を確認
Evgeny Dolotov and Nikolai Zolotykh(参考訳) ほとんどの決定木誘導アルゴリズムは、木の成長のための欲張りなトップダウン再帰的分割戦略に基づいている。 本稿では,進化的アルゴリズムに基づく決定木とそのアンサンブルの誘導法を提案する。 提案手法の主な違いは,決定木の実値ベクトル表現を用いることで,多数の最適化アルゴリズムを利用できるとともに,局所最適化を回避するために木全体やアンサンブルを最適化することができる。 差分進化と進化戦略は強化学習問題に優れた結果をもたらすため、最適化アルゴリズムとして選択された。 本手法の予測性能は,いくつかの公開UCIデータセットを用いて検証し,提案手法は古典的手法よりも優れた品質を示す。

Most decision tree induction algorithms are based on a greedy top-down recursive partitioning strategy for tree growth. In this paper, we propose several methods for induction of decision trees and their ensembles based on evolutionary algorithms. The main difference of our approach is using real-valued vector representation of decision tree that allows to use a large number of different optimization algorithms, as well as optimize the whole tree or ensemble for avoiding local optima. Differential evolution and evolution strategies were chosen as optimization algorithms, as they have good results in reinforcement learning problems. We test the predictive performance of this methods using several public UCI data sets, and the proposed methods show better quality than classical methods.
翻訳日:2023-01-04 08:04:18 公開日:2020-02-03
# テンソルトレインネットワークに基づくマルチチャンネル音声強調のためのテンソル-ベクトル回帰

Tensor-to-Vector Regression for Multi-channel Speech Enhancement based on Tensor-Train Network ( http://arxiv.org/abs/2002.00544v1 )

ライセンス: Link先を確認
Jun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 本稿では,入力サイズの爆発と隠れ層サイズ拡大の問題に対処するため,マルチチャネル音声強調のためのテンソル-ベクトル回帰手法を提案する。 キーとなる考え方は、従来のディープニューラルネットワーク(DNN)ベースのベクトル-ベクトル回帰の定式化を、テンソル-トレインネットワーク(TTN)フレームワークで行うことである。 ttnは、完全に接続された隠れ層を持つ深層モデルのコンパクトな表現のための最近登場したソリューションである。 したがって、TTNはDNNの表現力を維持するが、訓練可能なパラメータの量ははるかに少ない。 さらに、TTNは設計による多次元テンソル入力を処理でき、多チャンネル音声強調における所望の設定と正確に一致する。 まず、DNNからTTNベースの回帰への理論的拡張を提案する。 次に, TTN は DNN に匹敵する音声強調品質を実現することができるが, 単一のシナリオでは, パラメータが 2700 万から 500 万に減少するなど, パラメータがはるかに少ない。 TTNはまた、トレーニング可能なパラメータの数をわずかに増やすことで、DNN上のPSSQを2.86から2.96に改善した。 最後に、8チャンネル条件では3.12のPSSQがTTNの2000万のパラメータを使用して達成され、6800万のパラメータを持つDNNは3.06のPSSQしか達成できない。 我々の実装はオンラインhttps://github.com/uwjunqi/Tensor-Train-Neural-Network.comで利用可能です。

We propose a tensor-to-vector regression approach to multi-channel speech enhancement in order to address the issue of input size explosion and hidden-layer size expansion. The key idea is to cast the conventional deep neural network (DNN) based vector-to-vector regression formulation under a tensor-train network (TTN) framework. TTN is a recently emerged solution for compact representation of deep models with fully connected hidden layers. Thus TTN maintains DNN's expressive power yet involves a much smaller amount of trainable parameters. Furthermore, TTN can handle a multi-dimensional tensor input by design, which exactly matches the desired setting in multi-channel speech enhancement. We first provide a theoretical extension from DNN to TTN based regression. Next, we show that TTN can attain speech enhancement quality comparable with that for DNN but with much fewer parameters, e.g., a reduction from 27 million to only 5 million parameters is observed in a single-channel scenario. TTN also improves PESQ over DNN from 2.86 to 2.96 by slightly increasing the number of trainable parameters. Finally, in 8-channel conditions, a PESQ of 3.12 is achieved using 20 million parameters for TTN, whereas a DNN with 68 million parameters can only attain a PESQ of 3.06. Our implementation is available online https://github.com/uwjunqi/Tensor-Train-Neural-Network.
翻訳日:2023-01-04 08:04:07 公開日:2020-02-03
# FAE:フェアネスを意識したアンサンブルフレームワーク

FAE: A Fairness-Aware Ensemble Framework ( http://arxiv.org/abs/2002.00695v1 )

ライセンス: Link先を確認
Vasileios Iosifidis, Besnik Fetahu, Eirini Ntoutsi(参考訳) ビッグデータと機械学習(ML)アルゴリズムに基づく自動意思決定は、性別、人種、性的指向など、個人データに基づいて定義された特定の保護されたグループに対する差別的な決定をもたらす可能性がある。 ビッグデータのパターンを見つけるために設計されたそのようなアルゴリズムは、トレーニングデータのエンコードされた社会バイアスを拾うだけでなく、さらに悪いことに、これらのバイアスを強化し、より厳格な差別をもたらすかもしれない。 これまでに提案されたフェアネスを意識した機械学習アプローチの大半は、機械学習プロセスの事前、内、または後処理ステップ、すなわち入力データ、学習アルゴリズムまたは派生モデルのみに焦点を当てている。 しかしながら、公平性問題はmlプロセスの単一のステップに分離することはできない。 むしろ、差別はしばしばビッグデータとアルゴリズムの複雑な相互作用の結果であり、それゆえより全体論的アプローチが必要である。 提案するFAE(Fairness-Aware Ensemble)フレームワークは、データ分析プロセスの前処理と後処理の両方において、フェアネスに関連する介入を組み合わせる。 事前処理では,保護群(グループ不均衡)とクラス不均衡の問題に,バランスの取れたトレーニングサンプルを生成して対処する。 後処理のステップでは、決定境界を公平な方向にシフトさせることにより、クラスオーバーラップの問題に取り組む。

Automated decision making based on big data and machine learning (ML) algorithms can result in discriminatory decisions against certain protected groups defined upon personal data like gender, race, sexual orientation etc. Such algorithms designed to discover patterns in big data might not only pick up any encoded societal biases in the training data, but even worse, they might reinforce such biases resulting in more severe discrimination. The majority of thus far proposed fairness-aware machine learning approaches focus solely on the pre-, in- or post-processing steps of the machine learning process, that is, input data, learning algorithms or derived models, respectively. However, the fairness problem cannot be isolated to a single step of the ML process. Rather, discrimination is often a result of complex interactions between big data and algorithms, and therefore, a more holistic approach is required. The proposed FAE (Fairness-Aware Ensemble) framework combines fairness-related interventions at both pre- and postprocessing steps of the data analysis process. In the preprocessing step, we tackle the problems of under-representation of the protected group (group imbalance) and of class-imbalance by generating balanced training samples. In the post-processing step, we tackle the problem of class overlapping by shifting the decision boundary in the direction of fairness.
翻訳日:2023-01-04 08:03:29 公開日:2020-02-03
# 指導的学習としてのメタラーニングの再考

Revisiting Meta-Learning as Supervised Learning ( http://arxiv.org/abs/2002.00573v1 )

ライセンス: Link先を確認
Wei-Lun Chao, Han-Jia Ye, De-Chuan Zhan, Mark Campbell, Kilian Q. Weinberger(参考訳) 近年、メタラーニングに関する新しい出版物やアプローチが数多く登場している。 このコミュニティ全体の熱意は素晴らしい洞察を生み出していますが、一見さまざまなフレームワークを生み出しています。 本稿では,メタラーニングと従来の教師あり学習の関連性を再考し,強化することで,原則的,統一的な枠組みを提供することを目的とする。 タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。 この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。 例えば、一般化特性をよりよく理解し、モデルアンサンブル、事前トレーニング、合同トレーニング、データ拡張、さらには最寄りのnearne basedメソッドといったよく理解されたテクニックを容易に転送することができる。 メタラーニングの文脈において,これらの手法を直感的に例示し,わずかな学習でモデル性能が大幅に向上することを示す。

Recent years have witnessed an abundance of new publications and approaches on meta-learning. This community-wide enthusiasm has sparked great insights but has also created a plethora of seemingly different frameworks, which can be hard to compare and evaluate. In this paper, we aim to provide a principled, unifying framework by revisiting and strengthening the connection between meta-learning and traditional supervised learning. By treating pairs of task-specific data sets and target models as (feature, label) samples, we can reduce many meta-learning algorithms to instances of supervised learning. This view not only unifies meta-learning into an intuitive and practical framework but also allows us to transfer insights from supervised learning directly to improve meta-learning. For example, we obtain a better understanding of generalization properties, and we can readily transfer well-understood techniques, such as model ensemble, pre-training, joint training, data augmentation, and even nearest neighbor based methods. We provide an intuitive analogy of these methods in the context of meta-learning and show that they give rise to significant improvements in model performance on few-shot learning.
翻訳日:2023-01-04 08:02:34 公開日:2020-02-03
# 放射能データ:トレーニングによる追跡

Radioactive data: tracing through training ( http://arxiv.org/abs/2002.00937v1 )

ライセンス: Link先を確認
Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, Herv\'e J\'egou(参考訳) 特定のイメージデータセットがモデルのトレーニングに使用されたかどうかを知りたいのです。 我々は,このデータセットに対して,トレーニングしたモデルに識別可能なマークが付くように,認識不能な変更を行う新しい手法であるemph{radioactive data}を提案する。 マークは、異なるアーキテクチャや最適化メソッドのような強いバリエーションに堅牢である。 訓練されたモデルにより, 放射能データの利用を検知し, 信頼性(p値)のレベルを提供する。 標準アーキテクチャ (resnet-18, vgg-16, densenet-121) を用いた大規模ベンチマーク (imagenet) 実験では, モデルに使用したデータの1%のみが放射性である場合でも, 高い信頼性 (p<10^-4) で放射性データの利用を検出できることを示した。 本手法は,データ拡張とディープネットワーク最適化の確率性に頑健である。 その結果、データ中毒やバックドア法よりもはるかに高い信号対雑音比が得られる。

We want to detect whether a particular image dataset has been used to train a model. We propose a new technique, \emph{radioactive data}, that makes imperceptible changes to this dataset such that any model trained on it will bear an identifiable mark. The mark is robust to strong variations such as different architectures or optimization methods. Given a trained model, our technique detects the use of radioactive data and provides a level of confidence (p-value). Our experiments on large-scale benchmarks (Imagenet), using standard architectures (Resnet-18, VGG-16, Densenet-121) and training procedures, show that we can detect usage of radioactive data with high confidence (p<10^-4) even when only 1% of the data used to trained our model is radioactive. Our method is robust to data augmentation and the stochasticity of deep network optimization. As a result, it offers a much higher signal-to-noise ratio than data poisoning and backdoor methods.
翻訳日:2023-01-04 08:02:16 公開日:2020-02-03