このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200126となっている論文です。

PDF登録状況(公開日: 20200126)

TitleAuthorsAbstract論文公表日・翻訳日
# ウィキペディアの引用によるエンゲージメントの定量化

Quantifying Engagement with Citations on Wikipedia ( http://arxiv.org/abs/2001.08614v2 )

ライセンス: Link先を確認
Tiziano Piccardi, Miriam Redi, Giovanni Colavizza, Robert West(参考訳) wikipediaは誰でも編集できる無料のオンライン百科事典で、ウェブで最も訪問者の多いサイトの一つであり、多くのユーザーにとって共通の情報源である。 百科事典として、ウィキペディアはオリジナル情報の源ではなく、二次的情報源への入り口として考えられている: wikipediaのガイドラインによると、事実は、そのトピックに関する完全な見解を反映した信頼できる情報源によって裏付けられなければならない。 引用はWikipediaの核心にあるが、ユーザーとの対話についてはほとんど知られていない。 このギャップを埋めるために,1か月間,英語wikipediaの記事から参考文献へのリンクへのすべてのインタラクションをログするクライアントサイドインスツルメンテーションを構築し,ウィキペディアにおける引用との対話に関する最初の分析を行った。 300ページビューの約1つが参照クリック(全体の0.29%、デスクトップ0.56%、モバイル0.13%)となる。 参照クリックに関連する要因の一致した観察研究により、クリックがより短いページや低い品質のページでより頻繁に発生することが明らかとなり、ウィキペディア自体が利用者が求めている情報を含まない場合に、参照がより一般的に参照されることが示唆された。 また,近年のライフイベント(出産,死亡,婚姻など)に関するコンテンツやオープンアクセスソース,参考資料が特に人気であることも確認した。 総合すると、信頼性が低下し、ソースの帰属がより不可欠であるグローバル情報経済におけるwikipediaの役割をより深く理解するための扉を開くことになる。

Wikipedia, the free online encyclopedia that anyone can edit, is one of the most visited sites on the Web and a common source of information for many users. As an encyclopedia, Wikipedia is not a source of original information, but was conceived as a gateway to secondary sources: according to Wikipedia's guidelines, facts must be backed up by reliable sources that reflect the full spectrum of views on the topic. Although citations lie at the very heart of Wikipedia, little is known about how users interact with them. To close this gap, we built client-side instrumentation for logging all interactions with links leading from English Wikipedia articles to cited references during one month, and conducted the first analysis of readers' interaction with citations on Wikipedia. We find that overall engagement with citations is low: about one in 300 page views results in a reference click (0.29% overall; 0.56% on desktop; 0.13% on mobile). Matched observational studies of the factors associated with reference clicking reveal that clicks occur more frequently on shorter pages and on pages of lower quality, suggesting that references are consulted more commonly when Wikipedia itself does not contain the information sought by the user. Moreover, we observe that recent content, open access sources and references about life events (births, deaths, marriages, etc) are particularly popular. Taken together, our findings open the door to a deeper understanding of Wikipedia's role in a global information economy where reliability is ever less certain, and source attribution ever more vital.
翻訳日:2023-06-06 04:58:16 公開日:2020-01-26
# アンサンブル密度汎関数理論における密度駆動相関:原子の単純な励起からの考察

Density driven correlations in ensemble density functional theory: insights from simple excitations in atoms ( http://arxiv.org/abs/2001.09429v1 )

ライセンス: Link先を確認
Tim Gould and Stefano Pittalis(参考訳) エンサンブル密度汎関数理論は、通常のコーン・シャム機械を基底状態と励起状態を含む量子状態アンサンブルに拡張する。 著者らによる最近の研究(Phys. Lett. 119, 243001 (2017); 123, 016401 (2019))は、ハーツリー交換エネルギーと相関エネルギーの両方がアンサンブルの異常な特徴を達成できることを示した。 密度駆動(dd)相関は、コーン・シャム・アンサンブルの純状態密度が必ずしも相互作用する純状態の密度を再現しないという事実を考慮し、そのような特徴の1つである。ここでは原子(特に$s$-$p$と$s$-$s$遷移)を研究し、dd相関の大きさと挙動が関連する状態の軌道角運動量の変化によって大きく変化することを示した。 このような推定は、関連する厳密な条件から構築されたdd相関の近似と弱相関系に対する妥当な仮定によって得られる。

Ensemble density functional theory extends the usual Kohn-Sham machinery to quantum state ensembles involving ground- and excited states. Recent work by the authors [Phys. Rev. Lett. 119, 243001 (2017); 123, 016401 (2019)] has shown that both the Hartree-exchange and correlation energies can attain unusual features in ensembles. Density-driven(DD) correlations -- which account for the fact that pure-state densities in Kohn-Sham ensembles do not necessarily reproduce those of interacting pure states -- are one such feature. Here we study atoms (specifically $S$--$P$ and $S$--$S$ transitions) and show that the magnitude and behaviour of DD correlations can vary greatly with the variation of the orbital angular momentum of the involved states. Such estimations are obtained through an approximation for DD correlations built from relevant exact conditions Kohn-Sham inversion, and plausible assumptions for weakly correlated systems.
翻訳日:2023-06-05 23:27:49 公開日:2020-01-26
# $\mathcal{PT}$-Supersymmetric Square Well and Barrier

$\mathcal{PT}$-Supersymmetric Square Well and Barrier ( http://arxiv.org/abs/2001.09418v1 )

ライセンス: Link先を確認
Taha Koohrokhi(参考訳) パリティ時間 (\mathcal{pt}$) 対称ポテンシャルは、正方形井戸と障壁に対する非エルミート超対称量子力学によって導かれる。 これらの$\mathcal{PT}$-supersymmetric square well and barrier。 パートナーには複雑なパートナーがいる。 パートナーは真のエネルギーでアイソスペクトラルです。 $\mathcal{PT}$-対称性は境界状態に対してのみ破られる。

The Parity-Time ($\mathcal{PT}$) symmetric potentials are derived by non-Hermitian supersymmetric quantum mechanics for square well and barrier. These $\mathcal{PT}$-supersymmetric square well and barrier. The partners have complex partners. The partners are isospectral with real energies. $\mathcal{PT}$-symmetry is only unbroken for the bound states.
翻訳日:2023-06-05 23:27:27 公開日:2020-01-26
# 符号付きグラフにおける偏光探索:局所スペクトルアプローチ

Searching for polarization in signed graphs: a local spectral approach ( http://arxiv.org/abs/2001.09410v1 )

ライセンス: Link先を確認
Han Xiao, Bruno Ordozgoiti, Aristides Gionis(参考訳) サイン付きグラフは、ポジティブ(親しみやすい)かネガティブ(敵対的な)のいずれかの相互作用をモデル化するために使われてきた。 このモデルは、社会における民主的熟考の過程に有害な、ソーシャルネットワークにおける分極やその他の関連する現象を研究するために使われてきた。 このアプリケーション領域における興味深い、そして難しいタスクは、署名付きグラフで偏極化されたコミュニティを検出することである。 このタスクには様々な方法が提案されている。 しかし、既存のアプローチはグローバルに最適な解を見つけることを目指している。 代わりに,我々は,入力として提供される種ノードの小さなセットに関連する分極化されたコミュニティを見つけることに関心を持っている。 シードノードは2つのセットで構成され、これは偏光構造の両側を構成する。 本稿では,符号付きグラフにおける局所偏極群を局所偏極固有問題として求める。 ラプラシア行列の最小固有値に付随する固有ベクトルを制約付き最適化問題の解として見ることにより、局所情報を追加の制約として組み込むことができる。 さらに、局所バイアスベクトルは、符号付きグラフ上のチーガー定数の局所類似性に関して近似保証を持つコミュニティを見つけるために使用できることを示した。 入力グラフのスパーシティを活用することで、分極されたコミュニティの指標ベクトルをグラフサイズに線形な時間に求めることができる。 実世界のネットワークに関する実験は,提案アルゴリズムの有効性を検証し,この半教師付き手法による局所構造探索に有用であることを示す。

Signed graphs have been used to model interactions in social net-works, which can be either positive (friendly) or negative (antagonistic). The model has been used to study polarization and other related phenomena in social networks, which can be harmful to the process of democratic deliberation in our society. An interesting and challenging task in this application domain is to detect polarized communities in signed graphs. A number of different methods have been proposed for this task. However, existing approaches aim at finding globally optimal solutions. Instead, in this paper we are interested in finding polarized communities that are related to a small set of seed nodes provided as input. Seed nodes may consist of two sets, which constitute the two sides of a polarized structure. In this paper we formulate the problem of finding local polarized communities in signed graphs as a locally-biased eigen-problem. By viewing the eigenvector associated with the smallest eigenvalue of the Laplacian matrix as the solution of a constrained optimization problem, we are able to incorporate the local information as an additional constraint. In addition, we show that the locally-biased vector can be used to find communities with approximation guarantee with respect to a local analogue of the Cheeger constant on signed graphs. By exploiting the sparsity in the input graph, an indicator vector for the polarized communities can be found in time linear to the graph size. Our experiments on real-world networks validate the proposed algorithm and demonstrate its usefulness in finding local structures in this semi-supervised manner.
翻訳日:2023-06-05 23:27:21 公開日:2020-01-26
# 光子状態の確率表現とトモグラフィー

Probability representation of photon states and tomography ( http://arxiv.org/abs/2001.10361v1 )

ライセンス: Link先を確認
Vladimir N. Chernega, Olga V. Man'ko, Vladimir I. Man'ko(参考訳) 本稿では,量子力学のトモグラフィ的確率表現について概説する。 量子状態と量子可観測物の定式化は、標準確率分布と古典的な確率変数の定式化を用いた。 確率表現における光子のコヒーレントおよび数状態について検討し、確率分布の方程式の形で進化方程式とエネルギースペクトルを求める。

We give a review of the tomographic probability representation of quantum mechanics. We present the formalism of quantum states and quantum observables using the formalism of standard probability distributions and classical-like random variables. We study the coherent and number states of photons in the probability representation and obtain the evolution equation and energy spectra in the form of equations for probability distributions.
翻訳日:2023-06-05 21:47:04 公開日:2020-01-26
# 非拡張可能な最大絡み合いベースから相互に偏りのないベースを構築する

Constructing mutually unbiased bases from unextendible maximally entangled bases ( http://arxiv.org/abs/2001.09515v1 )

ライセンス: Link先を確認
Hui Zhao, Lin Zhang, Shao-Ming Fei, Naihuan Jing(参考訳) 我々は,すべての基底が最大に絡み合った無バイアス基底(MUB)について検討する。 まず、C^2 \otimes C^4$ で MUB のペアを構築する必要十分条件を示す。 この条件に基づき、MUBを構築するための解析的かつ必要な条件が与えられる。 さらに、いくつかの詳細な例を$c^2 \otimes c^4$ で示す。 結果は$C^2 \otimes C^d$$(d\geq 3)$に一般化され、$C^2 \otimes C^8$の具体例が与えられる。

We study mutually unbiased bases (MUBs) in which all the bases are unextendible maximally entangled ones. We first present a necessary and sufficient condition of constructing a pair of MUBs in $C^2 \otimes C^4$. Based on this condition, an analytical and necessary condition for constructing MUBs is given. Moreover we illustrate our approach by some detailed examples in $C^2 \otimes C^4$. The results are generalized to $C^2 \otimes C^d$ $(d\geq 3)$ and a concrete example in $C^2 \otimes C^8$ is given.
翻訳日:2023-06-05 21:46:58 公開日:2020-01-26
# 核融合分裂における物質波干渉の質量角相関

Matter-wave interference originates mass-angle correlation in fusion-fission ( http://arxiv.org/abs/2001.09511v1 )

ライセンス: Link先を確認
Oleksandr Gorbachenko, Sergiy Kun(参考訳) 分裂片の質量-角相関は準分裂の顕在化と解釈されている。 この効果は、核融合過程における物質-波干渉を示す全スピンの異なる核融合分裂振幅の相関から生じる可能性がある。 これは、完全核融合準バリア反応$^{16}$O+$^{238}$Uにおける質量-角相関でよく知られたパズルを解く。 我々の発見は超重元素の生産断面積のより信頼性の高い予測に重要である。 物質波干渉はまた、準フィッションにおけるコヒーレントに回転する双核の時間方向局在への量子古典的遷移を引き起こす。

Mass-angle correlation of fission fragments has been understood as manifestation of quasifission. We show that this is not so: the effect can originate from correlation between fusion-fission amplitudes with different total spins signifying matter-wave interference in compound nucleus processes. This resolves the well-known puzzle with the mass-angle correlation in the complete fusion sub-barrier reaction $^{16}$O+$^{238}$U. Our finding is important for more reliable predictions of production cross sections for superheavy elements. Matter-wave interference also produces quantum-classical transition to the time-orientation localization of the coherently rotating dinucleus in quasifission.
翻訳日:2023-06-05 21:46:46 公開日:2020-01-26
# 電子健康記録の二次利用の可能性と課題

Secondary Use of Electronic Health Record: Opportunities and Challenges ( http://arxiv.org/abs/2001.09479v1 )

ライセンス: Link先を確認
Shahid Munir Shah, Rizwan Ahmed Khan(参考訳) 現在の技術時代において、医療提供者は毎日大量の臨床データを生成する。 生成された臨床データは病院の中央データリポジトリとして電子健康記録(ehr)形式でデジタル保存される。 EHRに含まれるデータは、患者のプライマリケアだけでなく、臨床研究、自動疾患監視、品質向上のための臨床監査など様々な二次的な目的にも使用される。 EHRデータを同意なしに二次目的または場合によっては同意なしに使用すると、個人のプライバシー上の問題が発生する。 第二に、EHRデータは、有線または無線ネットワークを介して、さまざまな地理的サイトの政府機関を含む様々な利害関係者にもアクセス可能である。 複数の機関にまたがるEHRの共有は、サイバー攻撃に脆弱であり、特定の地域法によって管理されている組織とデータが共有されるため、厳格なプライバシー法を実装するのを難しくする。 個人のプライバシーは、EHRに含まれる機密性の高い個人情報がリークされたり、公開されたりする際に深刻な影響を受ける可能性がある。 データ漏洩は財政的損失を招き、個人の健康状態が公に暴露された場合、社会的ボイコットに遭遇する可能性がある。 このような脅威から患者の個人情報を保護するために、GDPR、HIPAA、MHRなどのプライバシー規制がある。 しかし、機械学習、データ分析、ハッキングにおける最先端技術は、個人のプライバシを完全に保護することがさらに困難になっている。 本稿では,これらの二次的使用が患者のプライバシに与える影響を強調するために,ehrの各種二次的使用について体系的に検討した。 第2に、GDPRを批判的に分析し、技術利用のエスカレートとEHRの異なる二次利用を考慮し、改善の可能性を強調した。

In present technological era, healthcare providers generate huge amount of clinical data on daily basis. Generated clinical data is stored digitally in the form of Electronic Health Records (EHR) as a central data repository of hospitals. Data contained in EHR is not only used for the patients' primary care but also for various secondary purposes such as clinical research, automated disease surveillance and clinical audits for quality enhancement. Using EHR data for secondary purposes without consent or in some cases even with consent creates privacy issues for individuals. Secondly, EHR data is also made accessible to various stake holders including different government agencies at various geographical sites through wired or wireless networks. Sharing of EHR across multiples agencies makes it vulnerable to cyber attacks and also makes it difficult to implement strict privacy laws as in some cases data is shared with organization that is governed by specific regional law. Privacy of an individual could be severely affected when their sensitive private information contained in EHR is leaked or exposed to public. Data leak can cause financial losses or an individuals may encounter social boycott if their medical condition is exposed in public. To protect patients personal data from such threats, there exists different privacy regulations such as GDPR, HIPAA and MHR. However, continually evolving state-of-the-art techniques in machine learning, data analytics and hacking are making it even more difficult to completely protect individual's / patient's privacy. In this article, we have systematically examined various secondary uses of EHR with the aim to highlight how these secondary uses effect patients' privacy. Secondly, we have critically analyzed GDPR and highlighted possible areas of improvement, considering escalating use of technology and different secondary uses of EHR.
翻訳日:2023-06-05 21:45:53 公開日:2020-01-26
# ソーシャルウェブにおける情報の信頼性--文脈・アプローチ・オープン・イシュー

Information Credibility in the Social Web: Contexts, Approaches, and Open Issues ( http://arxiv.org/abs/2001.09473v1 )

ライセンス: Link先を確認
Gabriella Pasi and Marco Viviani(参考訳) ソーシャルウェブのシナリオでは、大量のユーザー生成コンテンツ(ugc)がソーシャルメディアを通じて拡散され、伝統的な信頼できる仲介者はほとんどいない。 したがって、誤った情報に遭遇するリスクは無視できない。 そのため,オンライン情報の信頼性評価とマイニングが,近年の基本的な研究課題となっている。 信頼性(せいりょう、英: Cliability)とは、認知能力と偽情報とを区別できるわけではない個人によって認識される品質である。 そのため,近年,ソーシャルメディアの信頼性を自動評価する手法がいくつか提案されている。 それらの多くは、データ駆動モデル、すなわち、誤情報を特定するために機械学習技術を採用しているが、最近では、信頼性の伝播に焦点を当てたグラフベースのアプローチや、セマンティックWeb技術を利用した知識ベースのアプローチも出現している。 情報信頼性の評価が検討されている3つの主な文脈について考察する。 (i)レビューサイトにおける意見スパムの検出 (ii)マイクロブログにおける偽ニュースの検出 (iii)オンライン健康関連情報の信頼性評価 本稿では、上記の文脈で共有されるソーシャルウェブにおける情報信頼性の評価に関連する主な課題について論じる。 これらの課題に対処するために近年提案されているアプローチと方法論の簡潔な調査も紹介する。

In the Social Web scenario, large amounts of User-Generated Content (UGC) are diffused through social media often without almost any form of traditional trusted intermediaries. Therefore, the risk of running into misinformation is not negligible. For this reason, assessing and mining the credibility of online information constitutes nowadays a fundamental research issue. Credibility, also referred as believability, is a quality perceived by individuals, who are not always able to discern, with their own cognitive capacities, genuine information from fake one. Hence, in the last years, several approaches have been proposed to automatically assess credibility in social media. Many of them are based on data-driven models, i.e., they employ machine learning techniques to identify misinformation, but recently also model-driven approaches are emerging, as well as graph-based approaches focusing on credibility propagation, and knowledge-based ones exploiting Semantic Web technologies. Three of the main contexts in which the assessment of information credibility has been investigated concern: (i) the detection of opinion spam in review sites, (ii) the detection of fake news in microblogging, and (iii) the credibility assessment of online health-related information. In this article, the main issues connected to the evaluation of information credibility in the Social Web, which are shared by the above-mentioned contexts, are discussed. A concise survey of the approaches and methodologies that have been proposed in recent years to address these issues is also presented.
翻訳日:2023-06-05 21:45:00 公開日:2020-01-26
# Block the Blocker: Anti Ad-Blockingの効果に関する研究

Block the blocker: Studying the effects of Anti Ad-blocking ( http://arxiv.org/abs/2001.09434v1 )

ライセンス: Link先を確認
Rohit Gupta and Rohit Panda(参考訳) 広告はウェブサイトやオンラインビジネスに膨大な収入をもたらしている。 広告ブロッカーとトラッカーのブロックプログラムはここ数年で勢いを増し、プライバシーの懸念やオンラインのユーザー体験の改善など、大きな議論が続いている。 許容広告プログラムとアンチ広告ブロッカーは、近年、広告ブロッカーと闘う主要な要素だ。 本稿では,世界,ドイツ,ダッチ地域,ニュースカテゴリーにおけるトップwebサイトの長さデータ収集について考察する。 機能ベースのA/Bテストメトリクスを生成し、それらを分類器評価し、その結果を分析します。 また,広告ブロッカーがドイツにおける経済・法律・倫理的利用にどのような影響を及ぼすか,また近年のGDPRの変化とともに,アクセプタブル広告プログラムやホワイトリストに注目する。

Advertisements generate huge chunks of revenues for websites and online businesses. Ad-blocker and tracker blocking programs have gained momentum in the last few years with massive debates raging on privacy concerns and improving user experience online. Acceptable Ads programme and Anti Ad-blockers are primary elements emerging in recent years that combat ad-blockers. In this paper, we discuss at length data collection of top websites in the world, Germany, DACH region and news category. We generate feature based A/B testing metrics and employ classifier evaluations on them along with then analysing the result. Our paper also discusses how Anti Ad-blockers impact the economic, legal and ethical usage in Germany along with the recent changes in GDPR while taking a look at Acceptable ads programme and Whitelisting.
翻訳日:2023-06-05 21:44:25 公開日:2020-01-26
# 量子重力の因果的離散場理論

Causal discrete field theory for quantum gravity ( http://arxiv.org/abs/2001.10819v1 )

ライセンス: Link先を確認
K. V. Bayandin(参考訳) 因果的に構造化された離散場の理論は、伝播則を持つ自己相似グラフの有向エッジ上の整数値について研究し、グラフの頂点付近の整数値と辺方向の有効な組み合わせの集合として定義する。 伝播規則の選択により、与えられた自己相似グラフの理論の無限可算な変種が存在するが、これらのモデルのいくつかは無限可算なパターンの集合を生成することができる。 この理論は因果性、離散性、局所性、決定性の最小の仮定と等方性、CPT不変性、電荷保存の基本的な対称性をとる。 これは、セルオートマトン、因果集合、ループ量子重力、因果力学三角測量の要素を組み合わせて、プランクスケールでの量子重力を記述するのに優れた候補となる。 重力と膨張する閉宇宙を記述するために、時空と計量の自己整合生成に加えて、この理論は量子力学の多世界解釈を可能にする。 また、決定論的伝播を持つ定常宇宙に対するヒルベルト空間のユニタリ進化への到達方法を示す。

The proposed theory of causally structured discrete fields studies integer values on directed edges of a self-similar graph with a propagation rule, which we define as a set of valid combinations of integer values and edge directions around any vertex of the graph. There is an infinite countable number of variants of the theory for a given self-similar graph depending on the choice of propagation rules, some of these models can generate infinite uncountable sets of patterns. This theory takes minimum assumptions of causality, discreteness, locality, and determinism, as well as fundamental symmetries of isotropy, CPT invariance, and charge conservation. It combines the elements of cellular automata, causal sets, loop quantum gravity, and causal dynamical triangulations to become an excellent candidate to describe quantum gravity at the Planck scale. In addition to the self-consistent generation of spacetime and metrics to describe gravity and an expanding closed Universe, the theory allows for the many-worlds interpretation of quantum mechanics. We also demonstrate how to get to unitary evolution in Hilbert space for a stationary Universe with deterministic propagation.
翻訳日:2023-06-05 21:35:45 公開日:2020-01-26
# 量子確率規則を導出するための示唆的な方法

A Suggestive Way of Deriving the Quantum Probability Rule ( http://arxiv.org/abs/2001.10364v1 )

ライセンス: Link先を確認
Roderick Sutherland(参考訳) すべての量子力学的確率の慣れ親しんだ「モジュラー二乗」形式は、利用可能な最終状態に関する同じ事前確率の仮定から導かれる。

The familiar "modulus squared" form of all quantum mechanical probabilities is derived from an assumption of equal a priori probabilities concerning the final states available.
翻訳日:2023-06-05 21:35:25 公開日:2020-01-26
# 糖尿病網膜症診断のポイント・オブ・ケア : スタンドアロン・モバイル・アプローチ

Point-of-Care Diabetic Retinopathy Diagnosis: A Standalone Mobile Application Approach ( http://arxiv.org/abs/2002.04066v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos(参考訳) ディープラーニングの研究とアプリケーションは過去10年間で急速に成長しているが、医療アプリケーションや遠隔地の人々へのリーチ性には限界がある。 医療データ分類や予測にディープラーニングを組み込むことの課題の1つは、医療業界における注釈付きトレーニングデータの不足である。 医療データ共有 プライバシの問題や患者人口の制限は、医療におけるデータ不足のトレーニングの理由として挙げられる。 医療における深層学習の活用手法が提案され,本論文に導入されている。 糖尿病網膜症の伝統的な診断は、予防可能な失明の治療施設を提供するために、専門の眼科医と高価な画像装置を必要とする。 医療サービス不足の遠隔地に住む糖尿病患者や眼科医は通常、糖尿病網膜症の定期的な診断に失敗し、視力喪失や障害のリスクに直面している。 深層学習とモバイルアプリケーション開発がこの論文に統合され、糖尿病網膜症のポイント・オブ・ケア・スマートフォンによる診断が容易になった。 医療センターの不足や眼科医の育成といった課題を解決するため、インターネット接続のない非専門家が運用できるようにスタンドアロンの診断サービスを構築した。 このアプローチは、医療画像分類の他の領域に移すことができる。

Although deep learning research and applications have grown rapidly over the past decade, it has shown limitation in healthcare applications and its reachability to people in remote areas. One of the challenges of incorporating deep learning in medical data classification or prediction is the shortage of annotated training data in the healthcare industry. Medical data sharing privacy issues and limited patient population size can be stated as some of the reasons for training data insufficiency in healthcare. Methods to exploit deep learning applications in healthcare have been proposed and implemented in this dissertation. Traditional diagnosis of diabetic retinopathy requires trained ophthalmologists and expensive imaging equipment to reach healthcare centres in order to provide facilities for treatment of preventable blindness. Diabetic people residing in remote areas with shortage of healthcare services and ophthalmologists usually fail to get periodical diagnosis of diabetic retinopathy thereby facing the probability of vision loss or impairment. Deep learning and mobile application development have been integrated in this dissertation to provide an easy to use point-of-care smartphone based diagnosis of diabetic retinopathy. In order to solve the challenge of shortage of healthcare centres and trained ophthalmologists, the standalone diagnostic service was built so as to be operated by a non-expert without an internet connection. This approach could be transferred to other areas of medical image classification.
翻訳日:2023-01-06 19:44:21 公開日:2020-01-26
# トレリス符号化量子化を用いた深層学習に基づく画像圧縮

Deep Learning-based Image Compression with Trellis Coded Quantization ( http://arxiv.org/abs/2001.09417v1 )

ライセンス: Link先を確認
Binglin Li, Mohammad Akbari, Jie Liang, Yang Wang(参考訳) 近年,一様スカラー量子化器 (SQ) をエンコーダとデコーダの機能マップに適用する深層学習アーキテクチャに基づく画像圧縮モデルの開発が盛んに行われている。 本稿では,トレリス符号化量子化器(TCQ)をディープラーニングに基づく画像圧縮フレームワークに組み込むことを提案する。 トレーニング中のバック伝搬を可能にするソフト・ツー・ハード戦略が適用される。 本稿では,3つのサブネットワーク(エンコーダ,デコーダ,エントロピー推定)からなる単純な画像圧縮モデルを構築し,すべてのコンポーネントをエンドツーエンドに最適化する。 我々は2つの高解像度画像データセットを実験し、両モデルとも低ビットレートで優れた性能が得られることを示す。 また,提案したベースラインモデルに基づいて,TCQとSQの比較を行い,TCQの利点を示す。

Recently many works attempt to develop image compression models based on deep learning architectures, where the uniform scalar quantizer (SQ) is commonly applied to the feature maps between the encoder and decoder. In this paper, we propose to incorporate trellis coded quantizer (TCQ) into a deep learning based image compression framework. A soft-to-hard strategy is applied to allow for back propagation during training. We develop a simple image compression model that consists of three subnetworks (encoder, decoder and entropy estimation), and optimize all of the components in an end-to-end manner. We experiment on two high resolution image datasets and both show that our model can achieve superior performance at low bit rates. We also show the comparisons between TCQ and SQ based on our proposed baseline model and demonstrate the advantage of TCQ.
翻訳日:2023-01-06 19:44:01 公開日:2020-01-26
# 複数偽陰性アノテーションに対するロバスト性学習脳転移セグメンテーションネットワーク

Brain Metastasis Segmentation Network Trained with Robustness to Annotations with Multiple False Negatives ( http://arxiv.org/abs/2001.09501v1 )

ライセンス: Link先を確認
Darvin Yi, Endre Gr{\o}vik, Michael Iv, Elizabeth Tong, Greg Zaharchuk, Daniel Rubin(参考訳) 深層学習は医療画像解析に不可欠なツールであることが証明されている。 しかし、正確なラベル付き入力データの必要性は、専門家による時間的かつ労働集約的なアノテーションを必要とすることが多いため、ディープラーニングの使用には大きな制限がある。 この課題に対する1つの解決策は、粗いラベルまたはノイズラベルの使用を可能にし、より効率的でスケーラブルな画像のラベル付けを可能にすることである。 本研究では,対象アノテーションにおける非自明な偽負率の存在を仮定したエントロピー正規化に基づくロブサイド損失関数を開発する。 注記された脳転移巣のデータセットから,(1)無作為に病変を検閲し,(2)最小の病変を体系的に検閲することにより,偽陰性なデータをシミュレートする。 後者は、より大きな病変よりも小さな病変に気づくのが難しいため、真の医師誤差をモデル化する。 擬似偽陰性率を最大50%とした場合であっても、我々の損失関数をランダムに検閲したデータに適用すると、標準損失関数の10%に過ぎず、トレーニングデータのベースラインの97%で最大感度が保たれる。 サイズベースの検閲では、現在の標準の17%から、lopsidedのブートストラップ損失の88%にパフォーマンスが回復します。 私たちの作業は、より効率的なユーザーインターフェースとアノテーションのためのツールを作成する他のアプローチと並行して、画像ラベリングプロセスのより効率的なスケーリングを可能にします。

Deep learning has proven to be an essential tool for medical image analysis. However, the need for accurately labeled input data, often requiring time- and labor-intensive annotation by experts, is a major limitation to the use of deep learning. One solution to this challenge is to allow for use of coarse or noisy labels, which could permit more efficient and scalable labeling of images. In this work, we develop a lopsided loss function based on entropy regularization that assumes the existence of a nontrivial false negative rate in the target annotations. Starting with a carefully annotated brain metastasis lesion dataset, we simulate data with false negatives by (1) randomly censoring the annotated lesions and (2) systematically censoring the smallest lesions. The latter better models true physician error because smaller lesions are harder to notice than the larger ones. Even with a simulated false negative rate as high as 50%, applying our loss function to randomly censored data preserves maximum sensitivity at 97% of the baseline with uncensored training data, compared to just 10% for a standard loss function. For the size-based censorship, performance is restored from 17% with the current standard to 88% with our lopsided bootstrap loss. Our work will enable more efficient scaling of the image labeling process, in parallel with other approaches on creating more efficient user interfaces and tools for annotation.
翻訳日:2023-01-06 19:43:46 公開日:2020-01-26
# シミュレーションデータを使って 気候変動のイメージを

Using Simulated Data to Generate Images of Climate Change ( http://arxiv.org/abs/2001.09531v1 )

ライセンス: Link先を確認
Gautier Cosne, Adrien Juraver, M\'elisande Teng, Victor Schmidt, Vahe Vardanyan, Alexandra Luccioni and Yoshua Bengio(参考訳) ドメイン適応タスクで使用されるGANは、現実的かつパーソナライズされたイメージを生成し、その識別可能な特性を維持しながら入力画像を変換する能力を持つ。 しかし、多くの場合、高品質な画像を生成するために大量のトレーニングデータを必要とするため、データへのアクセスが制限された場合のユーザビリティが制限される。 本稿では,MUNIT アーキテクチャが実施する領域適応タスクを改善するために,シミュレーションされた3次元環境からの画像を使用することの可能性について検討する。

Generative adversarial networks (GANs) used in domain adaptation tasks have the ability to generate images that are both realistic and personalized, transforming an input image while maintaining its identifiable characteristics. However, they often require a large quantity of training data to produce high-quality images in a robust way, which limits their usability in cases when access to data is limited. In our paper, we explore the potential of using images from a simulated 3D environment to improve a domain adaptation task carried out by the MUNIT architecture, aiming to use the resulting images to raise awareness of the potential future impacts of climate change.
翻訳日:2023-01-06 19:43:22 公開日:2020-01-26
# ディープニューラルネットワークのノイズロバスト性の解析

Analyzing the Noise Robustness of Deep Neural Networks ( http://arxiv.org/abs/2001.09395v1 )

ライセンス: Link先を確認
Kelei Cao, Mengchen Liu, Hang Su, Jing Wu, Jun Zhu, Shixia Liu(参考訳) 通常の例に小さいが意図的に知覚できない摂動を加えることで生成された逆例は、深層ニューラルネットワーク(DNN)を誤認して誤った予測を行う。 敵の攻撃と防御の両方について多くの研究が行われてきたが、敵の事例の詳細な理解はいまだに不足している。 この問題に対処するため,本研究では,逆行例の誤分類の理由を説明するビジュアル解析手法を提案する。 鍵となるのは、逆例と通常の例の両方のデータパスの比較と分析である。 データパス(英: datapath)は、重要なニューロン群である。 データパス抽出をサブセット選択問題として定式化し、ニューラルネットワークの構築とトレーニングにより解決する。 データフローのネットワークレベルでの可視化、特徴マップのレイヤーレベルの可視化、学習された特徴のニューロンレベルでの可視化からなるマルチレベル可視化は、逆行例と正規例のデータパスが予測プロセスにおいてどのように分岐しマージするかを調べるのに役立つように設計されている。 敵の事例の誤分類を説明するための方法の可能性を実証するために,定量的評価とケーススタディを行った。

Adversarial examples, generated by adding small but intentionally imperceptible perturbations to normal examples, can mislead deep neural networks (DNNs) to make incorrect predictions. Although much work has been done on both adversarial attack and defense, a fine-grained understanding of adversarial examples is still lacking. To address this issue, we present a visual analysis method to explain why adversarial examples are misclassified. The key is to compare and analyze the datapaths of both the adversarial and normal examples. A datapath is a group of critical neurons along with their connections. We formulate the datapath extraction as a subset selection problem and solve it by constructing and training a neural network. A multi-level visualization consisting of a network-level visualization of data flows, a layer-level visualization of feature maps, and a neuron-level visualization of learned features, has been designed to help investigate how datapaths of adversarial and normal examples diverge and merge in the prediction process. A quantitative evaluation and a case study were conducted to demonstrate the promise of our method to explain the misclassification of adversarial examples.
翻訳日:2023-01-06 19:42:38 公開日:2020-01-26
# 脳波フィンガープリント:パワースペクトルの周期的成分に基づく被験者特異的署名

EEG fingerprinting: subject specific signature based on the aperiodic component of power spectrum ( http://arxiv.org/abs/2001.09424v1 )

ライセンス: Link先を確認
Matteo Demuru and Matteo Fraschini(参考訳) ここ数年、個人の変動が活性化パターンや脳とのつながりに与えた影響に対する関心が高まっている。 個人変動の実践的意味は、グループレベルと主観レベルの両方の研究の基本的な関連性である。 脳波計(eeg: electroencephalogram)は、脳に関する幅広い特徴を調べるための最もよく使われる記録技術の一つである。 本研究では,脳波パワースペクトルから抽出した非常に単純かつ容易に解釈可能な特徴集合に対する個人変動の影響を推定することを目的とする。 特に,特定シナリオにおいて,脳波パワースペクトルの非周期(1/f背景)成分が大きな脳波データセットから被験者を正確に識別できるかを検討した。 本研究の結果から,脳波信号の周期成分は強い主観特性によって特徴づけられ,その特徴は異なる実験条件(目開眼,目閉眼)で一致し,周波数帯域よりも優れていた。 これらの結果から, 脳波信号の周期成分から抽出される単純な特徴(傾斜とオフセット)は個々の特徴に敏感であり, 単一対象レベルでの推論や特徴付けに有効であることが示唆された。

During the last few years, there has been growing interest in the effects induced by individual variability on activation patterns and brain connectivity. The practical implications of individual variability is of basic relevance for both group level and subject level studies. The Electroencephalogram (EEG), still represents one of the most used recording techniques to investigate a wide range of brain related features. In this work, we aim to estimate the effect of individual variability on a set of very simple and easily interpretable features extracted from the EEG power spectra. In particular, in an identification scenario, we investigated how the aperiodic (1/f background) component of the EEG power spectra can accurately identify subjects from a large EEG dataset. The results of this study show that the aperiodic component of the EEG signal is characterized by strong subject-specific properties, that this feature is consistent across different experimental conditions (eyes-open and eyes-closed) and outperforms the canonically-defined frequency bands. These findings suggest that the simple features (slope and offset) extracted from the aperiodic component of the EEG signal are sensitive to individual traits and may help to characterize and make inferences at single subject level.
翻訳日:2023-01-06 19:42:17 公開日:2020-01-26
# ストリーミングパフォーマンスデータのレビューのためのビジュアル分析フレームワーク

A Visual Analytics Framework for Reviewing Streaming Performance Data ( http://arxiv.org/abs/2001.09399v1 )

ライセンス: Link先を確認
Suraj P. Kesavan, Takanori Fujiwara, Jianping Kelvin Li, Caitlin Ross, Misbah Mubarak, Christopher D. Carothers, Robert B. Ross, Kwan-Liu Ma(参考訳) 極大規模並列コンピューティングシステムの性能の理解とチューニングには、大量のパフォーマンスログデータにオフラインアルゴリズムを適用する計算コストのため、ストリーミングアプローチが必要である。 大規模なストリーミングデータの分析は、データ受信率とデータ理解時間の制限により、重要な変更やパターンを欠くことなく十分なデータ検査が困難になるため、難しい。 ストリーミングデータ解析をサポートするために,データ管理,分析,インタラクティブ可視化という3つのモジュールからなるビジュアル分析フレームワークを提案する。 データ管理モジュールは、ストリーミングデータ処理技術を使用して監視システムから様々なコンピューティングおよび通信性能メトリクスを収集し、他の2つのモジュールにデータを供給する。 分析モジュールは、必要なレイテンシで重要な変更やパターンを自動的に識別する。 特に,計算コストの制御だけでなく,分析結果の重要側面をよりよく追従するためのオンライン・プログレッシブ分析手法を提案する。 最後に、インタラクティブな可視化モジュールは、継続的にキャプチャされたパフォーマンスデータの変化とパターンの一貫性のあるビューを提供する。 並列離散イベントシミュレーションの性能解析の多面的ケーススタディを通じて、ボトルネックの特定とアウトリーチの特定にフレームワークの有効性を実証する。

Understanding and tuning the performance of extreme-scale parallel computing systems demands a streaming approach due to the computational cost of applying offline algorithms to vast amounts of performance log data. Analyzing large streaming data is challenging because the rate of receiving data and limited time to comprehend data make it difficult for the analysts to sufficiently examine the data without missing important changes or patterns. To support streaming data analysis, we introduce a visual analytic framework comprising of three modules: data management, analysis, and interactive visualization. The data management module collects various computing and communication performance metrics from the monitored system using streaming data processing techniques and feeds the data to the other two modules. The analysis module automatically identifies important changes and patterns at the required latency. In particular, we introduce a set of online and progressive analysis methods for not only controlling the computational costs but also helping analysts better follow the critical aspects of the analysis results. Finally, the interactive visualization module provides the analysts with a coherent view of the changes and patterns in the continuously captured performance data. Through a multi-faceted case study on performance analysis of parallel discrete-event simulation, we demonstrate the effectiveness of our framework for identifying bottlenecks and locating outliers.
翻訳日:2023-01-06 19:41:59 公開日:2020-01-26
# 2年代合成と推定技術の概要

An Overview of Two Age Synthesis and Estimation Techniques ( http://arxiv.org/abs/2002.03750v1 )

ライセンス: Link先を確認
Milad Taleby Ahvanooey, Qianmu Li(参考訳) 年齢推定は、人物の顔画像を分析し、その年齢を年測定値に基づいて推定するデジタル顔画像から人間の年齢を予測する手法である。 近年,コンピュータビジョンや顔認証システムにおいて,知的年齢推定や年齢合成が特に注目されている。 年齢合成は、顔のイメージを審美的に再現し、人の顔に自然な老化効果を与えるように定義される。 年齢推定は、顔の年齢グループ(年齢範囲)または正確な年齢(年齢)で自動的に顔画像を表示するように定義されている。 本稿では,既存のモデル,一般的な技術,システム性能,顔画像に基づく年齢合成と推定に関する技術的課題について概説する。 このレビューの主な目標は、体系的な議論で容易に理解し、将来的な方向性を提供することです。

Age estimation is a technique for predicting human ages from digital facial images, which analyzes a person's face image and estimates his/her age based on the year measure. Nowadays, intelligent age estimation and age synthesis have become particularly prevalent research topics in computer vision and face verification systems. Age synthesis is defined to render a facial image aesthetically with rejuvenating and natural aging effects on the person's face. Age estimation is defined to label a facial image automatically with the age group (year range) or the exact age (year) of the person's face. In this case study, we overview the existing models, popular techniques, system performances, and technical challenges related to the facial image-based age synthesis and estimation topics. The main goal of this review is to provide an easy understanding and promising future directions with systematic discussions.
翻訳日:2023-01-06 19:36:11 公開日:2020-01-26
# 有限格子整形によるシーンテキスト認識

Scene Text Recognition With Finer Grid Rectification ( http://arxiv.org/abs/2001.09389v1 )

ライセンス: Link先を確認
Gang Wang(参考訳) 不規則なスタイルと様々な歪みのため、シーンテキスト認識は難しい問題である。 本稿では,細粒度整流モジュールと双方向注意認識ネットワーク(firbarn)からなるエンドツーエンド学習モデルを提案する。 整流モジュールは、歪んだ入力画像を整流するためにより微細なグリッドを採用し、双方向デコーダは、2つの分離された層ではなく1つの復号層だけを含む。 Firbarnは、シーンテキストイメージと対応する単語ラベルのみを必要とする、弱い教師付き方法でトレーニングすることができる。 フレキシブルな修正と新しい双方向デコーダにより、標準ベンチマークでの広範な評価の結果、特に不規則なデータセットにおいて、Firbarnは以前の研究よりも優れていた。

Scene Text Recognition is a challenging problem because of irregular styles and various distortions. This paper proposed an end-to-end trainable model consists of a finer rectification module and a bidirectional attentional recognition network(Firbarn). The rectification module adopts finer grid to rectify the distorted input image and the bidirectional decoder contains only one decoding layer instead of two separated one. Firbarn can be trained in a weak supervised way, only requiring the scene text images and the corresponding word labels. With the flexible rectification and the novel bidirectional decoder, the results of extensive evaluation on the standard benchmarks show Firbarn outperforms previous works, especially on irregular datasets.
翻訳日:2023-01-06 19:35:58 公開日:2020-01-26
# カリキュラム視聴覚学習

Curriculum Audiovisual Learning ( http://arxiv.org/abs/2001.09414v1 )

ライセンス: Link先を確認
Di Hu, Zheng Wang, Haoyi Xiong, Dong Wang, Feiping Nie, Dejing Dou(参考訳) 特にアノテートされたトレーニングデータがない場合は、複雑なオーディオヴィジュアルシーンで音とプロデューサーを関連付けることは難しい作業です。 本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出器として導入するフレキシブルな音響視覚モデルを提案する。 視覚的学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しいカリキュラム学習戦略を提案する。 このような順序付けられた学習手順は、簡単な訓練と迅速な収束の利点をモデルに与えることを示す。 一方,音声視覚モデルでは,効果的な一モーダル表現とクロスモーダルアライメント性能が得られる。 さらに,音像定位と分離作業によく訓練されたモデルを配置する。 提案手法は,外部の視覚監視を必要とせず,音の分離において同等の性能を示す。 ビデオデモはhttps://youtu.be/kuClfGG0cFU.com/。

Associating sound and its producer in complex audiovisual scene is a challenging task, especially when we are lack of annotated training data. In this paper, we present a flexible audiovisual model that introduces a soft-clustering module as the audio and visual content detector, and regards the pervasive property of audiovisual concurrency as the latent supervision for inferring the correlation among detected contents. To ease the difficulty of audiovisual learning, we propose a novel curriculum learning strategy that trains the model from simple to complex scene. We show that such ordered learning procedure rewards the model the merits of easy training and fast convergence. Meanwhile, our audiovisual model can also provide effective unimodal representation and cross-modal alignment performance. We further deploy the well-trained model into practical audiovisual sound localization and separation task. We show that our localization model significantly outperforms existing methods, based on which we show comparable performance in sound separation without referring external visual supervision. Our video demo can be found at https://youtu.be/kuClfGG0cFU.
翻訳日:2023-01-06 19:35:46 公開日:2020-01-26
# 画像・映像からのポーズ・容姿・背景の教師なし乱れ

Unsupervised Disentanglement of Pose, Appearance and Background from Images and Videos ( http://arxiv.org/abs/2001.09518v1 )

ライセンス: Link先を確認
Aysegul Dundar, Kevin J. Shih, Animesh Garg, Robert Pottorf, Andrew Tao, Bryan Catanzaro(参考訳) 教師なしのランドマーク学習は、高価な入力キーポイントレベルのアノテーションを使わずに意味キーポイントのような表現を学習するタスクである。 一般的なアプローチは、イメージをポーズと外観データストリームに分解し、分解されたコンポーネントからイメージを再構成することである。 ポーズ表現は、入力画像の再構成を容易にするために、一貫した密集したランドマークの集合をキャプチャする必要がある。 最終的に私たちは、学習したランドマークが、前景の関心の対象に焦点を合わせることを望んでいます。 しかし、画像全体の再構築作業は、背景をモデル化するためにランドマークを割り当てるようにモデルを強制する。 本研究は, 再建作業を異なる前景と背景の復元に分解し, 未管理のランドマークに前景のみを調和させる効果について検討する。 提案する因子化は,前景の関心対象に着目したランドマークに結果をもたらすことを実証した。 さらに、背景レンダリングパイプラインは、ポーズや外観をモデル化するために不適切なランドマークを必要としないため、レンダリングされた背景品質も改善されている。 本稿では,この改善をビデオ予測タスクの文脈で示す。

Unsupervised landmark learning is the task of learning semantic keypoint-like representations without the use of expensive input keypoint-level annotations. A popular approach is to factorize an image into a pose and appearance data stream, then to reconstruct the image from the factorized components. The pose representation should capture a set of consistent and tightly localized landmarks in order to facilitate reconstruction of the input image. Ultimately, we wish for our learned landmarks to focus on the foreground object of interest. However, the reconstruction task of the entire image forces the model to allocate landmarks to model the background. This work explores the effects of factorizing the reconstruction task into separate foreground and background reconstructions, conditioning only the foreground reconstruction on the unsupervised landmarks. Our experiments demonstrate that the proposed factorization results in landmarks that are focused on the foreground object of interest. Furthermore, the rendered background quality is also improved, as the background rendering pipeline no longer requires the ill-suited landmarks to model its pose and appearance. We demonstrate this improvement in the context of the video-prediction task.
翻訳日:2023-01-06 19:35:15 公開日:2020-01-26
# 注意モデルとデータ平衡を用いた効果的な自動画像アノテーションモデル

An Effective Automatic Image Annotation Model Via Attention Model and Data Equilibrium ( http://arxiv.org/abs/2001.10590v1 )

ライセンス: Link先を確認
Amir Vatani, Milad Taleby Ahvanooey, Mostafa Rahimi(参考訳) 現在、膨大な数の画像が利用可能である。 しかし,コンピュータビジョンシステムでは,一般ユーザに必要な画像の検索が困難な課題である。 過去20年間で、伝統的にコンテンツに基づく画像検索に焦点をあてた画像の自動アノテーションの性能向上のために、多くの研究が導入された。 近年の研究では、コンテンツに基づく画像検索と人間の理解可能な画像意味学の間に意味的ギャップがあることが示されている。 その結果、この分野における既存の研究は、低レベルの画像特徴と高レベルの意味論の間の意味的ギャップを橋渡ししている。 意味的ギャップを埋める従来の方法は、機械学習技術を用いて意味的特徴を抽出する自動画像アノテーション(AIA)によって行われる。 本稿では,ディープラーニング特徴抽出法に基づく新しいAIAモデルを提案する。 提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。 まず,双本木継続ウェーブレット変換(dt-cwt),特異値分解,色トン分布,ディープニューラルネットワークに基づいて,高レベルと低レベルの特徴を自動的に抽出する。 さらに、タグ生成器は、新しい対数エントロピーオートエンコーダ(LEAE)による注釈付きキーワードの辞書のバランスをとり、単語埋め込みによってこれらのキーワードを記述する。 最後に、アノテータは、画像の特定の特徴の重要度を得るために、長期記憶(LSTM)ネットワークに基づいて動作する。 2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルと比較して性能基準で優位であることが確認された。

Nowadays, a huge number of images are available. However, retrieving a required image for an ordinary user is a challenging task in computer vision systems. During the past two decades, many types of research have been introduced to improve the performance of the automatic annotation of images, which are traditionally focused on content-based image retrieval. Although, recent research demonstrates that there is a semantic gap between content-based image retrieval and image semantics understandable by humans. As a result, existing research in this area has caused to bridge the semantic gap between low-level image features and high-level semantics. The conventional method of bridging the semantic gap is through the automatic image annotation (AIA) that extracts semantic features using machine learning techniques. In this paper, we propose a novel AIA model based on the deep learning feature extraction method. The proposed model has three phases, including a feature extractor, a tag generator, and an image annotator. First, the proposed model extracts automatically the high and low-level features based on dual-tree continues wavelet transform (DT-CWT), singular value decomposition, distribution of color ton, and the deep neural network. Moreover, the tag generator balances the dictionary of the annotated keywords by a new log-entropy auto-encoder (LEAE) and then describes these keywords by word embedding. Finally, the annotator works based on the long-short-term memory (LSTM) network in order to obtain the importance degree of specific features of the image. The experiments conducted on two benchmark datasets confirm that the superiority of the proposed model compared to the previous models in terms of performance criteria.
翻訳日:2023-01-06 19:34:24 公開日:2020-01-26
# 相互運用性発見のための自動化アプローチ

An Automated Approach for the Discovery of Interoperability ( http://arxiv.org/abs/2001.10585v1 )

ライセンス: Link先を確認
Duygu Sap and Daniel P. Szabo(参考訳) 本稿では,CADモデルのほぼ不変な形状特性に基づいて,CADシステムの相互運用性を検証し,発見する自動化手法を提案する。 さらに,標準フォーマットでのモデル交換は形状特性の保存を保証しないことを示した。 本分析は, 形状特性の導出と, 与えられたcadモデルのプロキシモデルの構築に, クエリを活用することに基づく。 プロパティ計算やプロキシモデル構築に必要な情報に対応するテンプレートファイルを生成し,DTestと呼ばれる相互運用性検出プログラムを実装し,相互運用性テストを実行する。 本手法は, CAD-to-CAE および/またはCAD-to-CAM の相互運用において, プロパティチェックのセットを変更し, CAE や CAM アプリケーションで発生する可能性のある追加要件を提供することにより, 相互運用試験に拡張可能であると仮定する。

In this article, we present an automated approach that would test for and discover the interoperability of CAD systems based on the approximately-invariant shape properties of their models. We further show that exchanging models in standard format does not guarantee the preservation of shape properties. Our analysis is based on utilizing queries in deriving the shape properties and constructing the proxy models of the given CAD models [1]. We generate template files to accommodate the information necessary for the property computations and proxy model constructions, and implement an interoperability discovery program called DTest to execute the interoperability testing. We posit that our method could be extended to interoperability testing on CAD-to-CAE and/or CAD-to-CAM interactions by modifying the set of property checks and providing the additional requirements that may emerge in CAE or CAM applications.
翻訳日:2023-01-06 19:33:44 公開日:2020-01-26
# Reproducibility Challenge NeurIPS 2019 Report on "Competitive Gradient Descent" に参加して

Reproducibility Challenge NeurIPS 2019 Report on "Competitive Gradient Descent" ( http://arxiv.org/abs/2001.10820v1 )

ライセンス: Link先を確認
Gopi Kishan(参考訳) これは、Competitive Gradient Descent (Schafer et al., 2019)という論文で、NeirrIPS 2019の再現性の課題に関するレポートである。 本稿では,競合する2プレーヤゲームのナッシュ平衡の数値計算のための新しいアルゴリズムを提案する。 交互勾配降下に見られる振動と発散の挙動を避ける。 本報告の目的は、NeurIPS 2019 Reproducibility Challengeの枠組みの中で、(Schaferらによる)作業の再現性について批判的に検証することである。 本報告で再現した実験は,本研究の結果を裏付けるものである。 さらに、このプロジェクトは提案されたCGDアルゴリズムのPython(Pytorchベース)実装を提供しており、以下の公開gitリポジトリで見ることができる。

This is a report for reproducibility challenge of NeurlIPS 2019 on the paper Competitive Gradient Descent (Schafer et al., 2019). The paper introduces a novel algorithm for the numerical computation of Nash equilibria of competitive two-player games. It avoids oscillatory and divergent behaviours seen in alternating gradient descent. The purpose of this report is to critically examine the reproducibility of the work by (Schafer et al., 2019), within the framework of the NeurIPS 2019 Reproducibility Challenge. The experiments replicated in this report confirms the results of the original study. Moreover, this project offers a Python (Pytorch based) implementation of the proposed CGD algorithm which can be found at the following public git repository: (https://github.com/GopiKishan14/Reproducibility_Challenge_NeurIPS_2019)
翻訳日:2023-01-06 19:27:17 公開日:2020-01-26
# AIによるGUI攻撃とその防御方法

AI-Powered GUI Attack and Its Defensive Methods ( http://arxiv.org/abs/2001.09388v1 )

ライセンス: Link先を確認
Ning Yu, Zachary Tuttle, Carl Jake Thurnau, Emmanuel Mireku(参考訳) 1970年代に最初のGUIプロトタイプが発明されて以来、GUIシステムは様々なパーソナルコンピュータシステムやサーバプラットフォームにデプロイされてきた。 近年、人工知能(AI)技術の発展に伴い、GUIシステムに対する潜在的な脅威としてAIを利用した悪意のあるマルウェアが出現している。 本稿では,GUIシステムを対象としたAIベースのサイバーセキュリティ攻撃について検討する。 1)AIベースのオブジェクト認識技術を用いて,既存のGUIシステムを攻撃するマルウェアを設計する。 (2)その防御方法は、知的gui攻撃からの脅威を軽減するための敵の例やその他の方法を生成して発見する。 その結果、現在のAI技術に基づいて、汎用的なGUIアタックを簡単な方法で実装、実行できることが示され、その対策は一時的ではあるが、これまでのGUIアタックの脅威を軽減する効果があることがわかった。

Since the first Graphical User Interface (GUI) prototype was invented in the 1970s, GUI systems have been deployed into various personal computer systems and server platforms. Recently, with the development of artificial intelligence (AI) technology, malicious malware powered by AI is emerging as a potential threat to GUI systems. This type of AI-based cybersecurity attack, targeting at GUI systems, is explored in this paper. It is twofold: (1) A malware is designed to attack the existing GUI system by using AI-based object recognition techniques. (2) Its defensive methods are discovered by generating adversarial examples and other methods to alleviate the threats from the intelligent GUI attack. The results have shown that a generic GUI attack can be implemented and performed in a simple way based on current AI techniques and its countermeasures are temporary but effective to mitigate the threats of GUI attack so far.
翻訳日:2023-01-06 19:27:05 公開日:2020-01-26
# グラディエント型対向攻撃の不確かさに対するアンサンブルノイズシミュレーション

Ensemble Noise Simulation to Handle Uncertainty about Gradient-based Adversarial Attacks ( http://arxiv.org/abs/2001.09486v1 )

ライセンス: Link先を確認
Rehana Mahfuz, Rajeev Sahay, Aly El Gamal(参考訳) ニューラルネットワークに対するグラディエントベースの敵攻撃は、攻撃アルゴリズムが勾配に依存する方法、攻撃を作るのに使用されるネットワークアーキテクチャ、あるいはその両方を変えることで、さまざまな方法で作成することができる。 最近の研究は、攻撃者の行動に不確実性がない場合(すなわち、攻撃者は特定のネットワークアーキテクチャを使って特定の攻撃を発生させることが期待される)に分類器を守ることに重点を置いている。 しかし、攻撃者が一定の方法で振る舞うことが保証されていない場合、その文献は戦略的な防御を考案する方法が欠けている。 このギャップを、様々な分類器の勾配に基づく様々な攻撃アルゴリズムを用いて、攻撃者のうるさい摂動をシミュレートすることで埋める。 我々は,シミュレーションノイズで訓練されたDAEディフェンスを用いて,前処理による解析を行う。 我々は,不確実性に対処する努力を行わない状況に対して,本提案したアンサンブル訓練防御を用いて,攻撃後の精度を大幅に改善することを示した。

Gradient-based adversarial attacks on neural networks can be crafted in a variety of ways by varying either how the attack algorithm relies on the gradient, the network architecture used for crafting the attack, or both. Most recent work has focused on defending classifiers in a case where there is no uncertainty about the attacker's behavior (i.e., the attacker is expected to generate a specific attack using a specific network architecture). However, if the attacker is not guaranteed to behave in a certain way, the literature lacks methods in devising a strategic defense. We fill this gap by simulating the attacker's noisy perturbation using a variety of attack algorithms based on gradients of various classifiers. We perform our analysis using a pre-processing Denoising Autoencoder (DAE) defense that is trained with the simulated noise. We demonstrate significant improvements in post-attack accuracy, using our proposed ensemble-trained defense, compared to a situation where no effort is made to handle uncertainty.
翻訳日:2023-01-06 19:26:49 公開日:2020-01-26
# 画像計測による確率的物体モデル学習のための進行成長型アンビエントGAN

Progressively-Growing AmbientGANs For Learning Stochastic Object Models From Imaging Measurements ( http://arxiv.org/abs/2001.09523v1 )

ライセンス: Link先を確認
Weimin Zhou, Sayantan Bhadra, Frank J. Brooks, Hua Li, Mark A. Anastasio(参考訳) 医用画像システムの客観的最適化には、被写体から被写体への可変性を含む、測定データ中のすべてのランダム性源の完全なキャラクタリゼーションが必要である。 これは、対象のクラスにおける変数を記述する確率的オブジェクトモデル(SOM)を確立することで達成できる。 generative adversarial networks (gans) は、トレーニングデータのアンサンブル内で可変性を記述する生成モデルを学ぶという大きな約束を持っているため、somを確立する上で潜在的に有用である。 しかし、医用イメージングシステムは、物体特性のノイズや間接的な表現を示す画像計測を記録できるため、GANを直接適用して、被像物の確率的モデルを構築することはできない。 この問題に対処するため、AmbientGANという拡張GANアーキテクチャが開発され、ノイズや間接測定データからSOMを確立する。 しかし、敵の訓練は不安定であるため、アンビエントGANの適用性は潜在的に制限される可能性がある。 本研究では,雑音および間接的な画像計測からsomを確立するためのアンビエントガン(proagan)のトレーニングを安定化するために,新たなトレーニング戦略を提案する。 理想化磁気共鳴(MR)イメージングシステムと臨床MR脳画像について考察する。 提案手法は,ProAGAN生成した合成画像と真の物体特性を示す画像を用いて,信号検出性能を比較して評価する。

The objective optimization of medical imaging systems requires full characterization of all sources of randomness in the measured data, which includes the variability within the ensemble of objects to-be-imaged. This can be accomplished by establishing a stochastic object model (SOM) that describes the variability in the class of objects to-be-imaged. Generative adversarial networks (GANs) can be potentially useful to establish SOMs because they hold great promise to learn generative models that describe the variability within an ensemble of training data. However, because medical imaging systems record imaging measurements that are noisy and indirect representations of object properties, GANs cannot be directly applied to establish stochastic models of objects to-be-imaged. To address this issue, an augmented GAN architecture named AmbientGAN was developed to establish SOMs from noisy and indirect measurement data. However, because the adversarial training can be unstable, the applicability of the AmbientGAN can be potentially limited. In this work, we propose a novel training strategy---Progressive Growing of AmbientGANs (ProAGAN)---to stabilize the training of AmbientGANs for establishing SOMs from noisy and indirect imaging measurements. An idealized magnetic resonance (MR) imaging system and clinical MR brain images are considered. The proposed methodology is evaluated by comparing signal detection performance computed by use of ProAGAN-generated synthetic images and images that depict the true object properties.
翻訳日:2023-01-06 19:26:31 公開日:2020-01-26
# カスケード畳み込みおよび逆向きディープネットワークを用いた腹部マルチオルガンセグメンテーション

Abdominal multi-organ segmentation with cascaded convolutional and adversarial deep networks ( http://arxiv.org/abs/2001.09521v1 )

ライセンス: Link先を確認
Pierre-Henri Conze, Ali Emre Kavur, Emilie Cornec-Le Gall, Naciye Sinem Gezer, Yannick Le Meur, M. Alper Selver and Fran\c{c}ois Rousseau(参考訳) 目的 : 腹部解剖検査はコンピュータ診断から画像ガイド下手術まで多くの応用に不可欠である。 本稿では,深層学習を用いた腹部CTおよびMR画像からの完全自動多臓器分割について述べる。 方法: 提案モデルでは, 標準条件生成型逆ネットワークを拡張する。 現実的な臓器記述を生成するためにモデルを強制する判別器に加えて、部分的に事前訓練された畳み込みエンコーダ-デコーダをジェネレータとして組み込む。 大量の非医療画像からのエンコーダの微調整により、データの不足が軽減される。 ネットワークはエンドツーエンドでトレーニングされ、auto-contextを使って同時にマルチレベルセグメンテーションが改善される。 結果: 健常な肝臓, 腎臓, 脾臓の分節化にともなうパイプラインは, 最先端のエンコーダデコーダ・デコーダ・スキームより優れた結果が得られた。 続いて,ieee international symposium on biomedical imaging 2019(ieee international symposium on biomedical imaging 2019)と共同で開催された健康的腹部臓器分画(chaos)チャレンジにおいて,肝ct,肝mr,多臓器mr分画の3つのコンペティションカテゴリーの1位となった。 結語: 逐次畳み込みと逆向きのネットワークを組み合わせることで, 深層学習パイプラインの複数の腹部臓器の自動配置能力が向上し, 汎化能力も向上した。 意義 : 包括的評価は, 腹部画像の解釈と臨床的意思決定を支援するために, より良い指導が可能であることを示唆している。

Objective : Abdominal anatomy segmentation is crucial for numerous applications from computer-assisted diagnosis to image-guided surgery. In this context, we address fully-automated multi-organ segmentation from abdominal CT and MR images using deep learning. Methods: The proposed model extends standard conditional generative adversarial networks. Additionally to the discriminator which enforces the model to create realistic organ delineations, it embeds cascaded partially pre-trained convolutional encoder-decoders as generator. Encoder fine-tuning from a large amount of non-medical images alleviates data scarcity limitations. The network is trained end-to-end to benefit from simultaneous multi-level segmentation refinements using auto-context. Results : Employed for healthy liver, kidneys and spleen segmentation, our pipeline provides promising results by outperforming state-of-the-art encoder-decoder schemes. Followed for the Combined Healthy Abdominal Organ Segmentation (CHAOS) challenge organized in conjunction with the IEEE International Symposium on Biomedical Imaging 2019, it gave us the first rank for three competition categories: liver CT, liver MR and multi-organ MR segmentation. Conclusion : Combining cascaded convolutional and adversarial networks strengthens the ability of deep learning pipelines to automatically delineate multiple abdominal organs, with good generalization capability. Significance : The comprehensive evaluation provided suggests that better guidance could be achieved to help clinicians in abdominal image interpretation and clinical decision making.
翻訳日:2023-01-06 19:26:08 公開日:2020-01-26
# 深層強化学習による感情と知識に基づくアルゴリズム取引

Sentiment and Knowledge Based Algorithmic Trading with Deep Reinforcement Learning ( http://arxiv.org/abs/2001.09403v1 )

ライセンス: Link先を確認
Abhishek Nan, Anandh Perumal, Osmar R. Zaiane(参考訳) アルゴリズム取引は、その性質上、現実の世界にはあまりにも多くの変数があり、自動化された株式取引のための信頼性のあるアルゴリズムを持つことはほぼ不可能である。 市場の上昇と下落を左右する物理的および生理学的要因を考慮した信頼できるラベル付きデータの欠如は、信頼できる予測のための教師付き学習の試みを妨げている。 取引の良質な方針を学ぶために,従来の時系列株価データを用いた強化学習とニュースヘッドライン感情を組み合わせたアプローチを定式化し,暗黙的な関係に関するニュースを活用すべくナレッジグラフを活用する。

Algorithmic trading, due to its inherent nature, is a difficult problem to tackle; there are too many variables involved in the real world which make it almost impossible to have reliable algorithms for automated stock trading. The lack of reliable labelled data that considers physical and physiological factors that dictate the ups and downs of the market, has hindered the supervised learning attempts for dependable predictions. To learn a good policy for trading, we formulate an approach using reinforcement learning which uses traditional time series stock price data and combines it with news headline sentiments, while leveraging knowledge graphs for exploiting news about implicit relationships.
翻訳日:2023-01-06 19:24:46 公開日:2020-01-26
# TaxoExpan: グラフニューラルネットワークによる自己教師型分類の拡張

TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced Graph Neural Network ( http://arxiv.org/abs/2001.09522v1 )

ライセンス: Link先を確認
Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han(参考訳) 分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。 例えば、オンライン小売業者(AmazonやeBayなど)は製品レコメンデーションに分類学を使用し、Web検索エンジン(GoogleやBingなど)は分類学を利用してクエリ理解を強化する。 手動または半自動で分類法を構築するための多大な努力がなされている。 しかし、Webコンテンツの急増に伴い、既存の分類体系は時代遅れになり、新たな知識の獲得に失敗する。 したがって、多くの応用において、既存の分類学の動的拡張は非常に要求される。 本稿では,新しい概念を加えることで,既存の分類をどう拡張するかを検討する。 そこで我々は,既存の分類学から<query concept, anchor concept>ペアを自動生成する,TaxoExpanという新しい自己教師型フレームワークを提案する。 このような自己超越データを用いてTaxoExpanは、クエリの概念がアンカーの概念の直接的な仮説であるかどうかを予測するモデルを学ぶ。 我々は,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置エンハンスグラフニューラルネットワーク,(2)学習モデルを自己スーパービジョンデータにおけるラベルノイズに無感化させるノイズロバスト訓練目的の2つの革新的手法を開発した。 異なる領域の3つの大規模データセットに対する大規模な実験は、分類学の拡張のためのTaxoExpanの有効性と効率を実証している。

Taxonomies consist of machine-interpretable semantics and provide valuable knowledge for many web applications. For example, online retailers (e.g., Amazon and eBay) use taxonomies for product recommendation, and web search engines (e.g., Google and Bing) leverage taxonomies to enhance query understanding. Enormous efforts have been made on constructing taxonomies either manually or semi-automatically. However, with the fast-growing volume of web content, existing taxonomies will become outdated and fail to capture emerging knowledge. Therefore, in many applications, dynamic expansions of an existing taxonomy are in great demand. In this paper, we study how to expand an existing taxonomy by adding a set of new concepts. We propose a novel self-supervised framework, named TaxoExpan, which automatically generates a set of <query concept, anchor concept> pairs from the existing taxonomy as training data. Using such self-supervision data, TaxoExpan learns a model to predict whether a query concept is the direct hyponym of an anchor concept. We develop two innovative techniques in TaxoExpan: (1) a position-enhanced graph neural network that encodes the local structure of an anchor concept in the existing taxonomy, and (2) a noise-robust training objective that enables the learned model to be insensitive to the label noise in the self-supervision data. Extensive experiments on three large-scale datasets from different domains demonstrate both the effectiveness and the efficiency of TaxoExpan for taxonomy expansion.
翻訳日:2023-01-06 19:19:10 公開日:2020-01-26
# 制約付き上部信頼強化学習

Constrained Upper Confidence Reinforcement Learning ( http://arxiv.org/abs/2001.09377v1 )

ライセンス: Link先を確認
Liyuan Zheng, Lillian J. Ratliff(参考訳) 制約付きマルコフ決定プロセスは、補助的なコスト制約を満たす政策を意思決定者が選択しなければならない確率的決定問題のクラスである。 本稿では、報酬関数とコスト関数によって記述される制約が未定だが、遷移カーネルが知られているような設定に対する高信頼強化学習を拡張する。 このような設定は、未知の、潜在的に安全でない環境の探索を含む多くのアプリケーションによって動機付けられている。 アルゴリズムc-ucrlを提示し,確率1~\delta$の学習でも制約を満たしながら,報酬に対してo(t^{\frac{3}{4}}\sqrt{\log(t/\delta)})$)のサブ線形後悔を達成することを示す。 例を挙げる。

Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/\delta)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-\delta$. Illustrative examples are provided.
翻訳日:2023-01-06 19:18:45 公開日:2020-01-26
# litemort:適応的コンパクト分布に基づくメモリ効率のよい勾配ブースティングツリーシステム

LiteMORT: A memory efficient gradient boosting tree system on adaptive compact distributions ( http://arxiv.org/abs/2001.09419v1 )

ライセンス: Link先を確認
Yingshi Chen(参考訳) グラディエント強化決定木(GBDT)は多くの商用および学術データアプリケーションの主要なアルゴリズムである。 本稿では,このアルゴリズム,特にヒストグラム手法の深い解析を行い,コンパクトサポートによる再帰分布の基盤とした。 我々は3つの新しい修正を提示する。 1)メモリ使用量を減らすための共有メモリ技術。 多くの場合、データソース自体だけで、追加のメモリは必要ありません。 2)「マージオーバーフロー問題」の合併を示唆する。 マージオーバーフロー(merge overflow)とは、いくつかの小さなデータセットを巨大なデータセットにマージすることを意味する。 暗黙のマージによって、GBDTモデルをトレーニングするためには、オリジナルの小さなデータセットが必要です。 3) ヒストグラムビンの適応リサイズアルゴリズムにより精度を向上する。 2つの大きなKaggleコンペティションの実験で、我々の手法が検証された。 メモリ使用量はlightgbmよりはるかに少なく、精度も高い。 我々はこれらのアルゴリズムをオープンソースパッケージ LiteMORT で実装した。 ソースコードはhttps://github.com/closest-git/LiteMORTで入手できる。

Gradient boosted decision trees (GBDT) is the leading algorithm for many commercial and academic data applications. We give a deep analysis of this algorithm, especially the histogram technique, which is a basis for the regulized distribution with compact support. We present three new modifications. 1) Share memory technique to reduce memory usage. In many cases, it only need the data source itself and no extra memory. 2) Implicit merging for "merge overflow problem"."merge overflow" means that merge some small datasets to huge datasets, which are too huge to be solved. By implicit merging, we just need the original small datasets to train the GBDT model. 3) Adaptive resize algorithm of histogram bins to improve accuracy. Experiments on two large Kaggle competitions verified our methods. They use much less memory than LightGBM and have higher accuracy. We have implemented these algorithms in an open-source package LiteMORT. The source codes are available at https://github.com/closest-git/LiteMORT
翻訳日:2023-01-06 19:17:03 公開日:2020-01-26
# 説明可能な人工知能と機械学習:現実に根ざした視点

Explainable Artificial Intelligence and Machine Learning: A reality rooted perspective ( http://arxiv.org/abs/2001.09464v1 )

ライセンス: Link先を確認
Frank Emmert-Streib, Olli Yli-Harja, and Matthias Dehmer(参考訳) 私たちは、技術進歩の結果として、ほぼすべての科学分野で生成されたビッグデータの可用性に慣れています。 しかし、そのようなデータの解析には大きな課題がある。 これらのうちの1つは、人工知能(AI)や機械学習手法の説明可能性に関するものである。 現在、これらの手法の多くは動作機構に関して不透明であり、そのためブラックボックスモデルと呼ばれており、特に深層学習法が顕著である。 しかし、これは健康科学や刑事司法を含む多くの分野において深刻な問題となり、説明可能なaiを支持する議論が進められている。 本稿では、説明可能なAIを本来あるべきものであると仮定するのではなく、説明可能なAIが何であるかを議論する。 違いは、我々は希望的な思考ではなく、物理学を超えた科学的理論に関連する現実的性質を提示していることである。

We are used to the availability of big data generated in nearly all fields of science as a consequence of technological progress. However, the analysis of such data possess vast challenges. One of these relates to the explainability of artificial intelligence (AI) or machine learning methods. Currently, many of such methods are non-transparent with respect to their working mechanism and for this reason are called black box models, most notably deep learning methods. However, it has been realized that this constitutes severe problems for a number of fields including the health sciences and criminal justice and arguments have been brought forward in favor of an explainable AI. In this paper, we do not assume the usual perspective presenting explainable AI as it should be, but rather we provide a discussion what explainable AI can be. The difference is that we do not present wishful thinking but reality grounded properties in relation to a scientific theory beyond physics.
翻訳日:2023-01-06 19:10:05 公開日:2020-01-26
# 行列値未知の多層ネットワークにおける推論

Inference in Multi-Layer Networks with Matrix-Valued Unknowns ( http://arxiv.org/abs/2001.09396v1 )

ライセンス: Link先を確認
Parthe Pandit, Mojtaba Sahraee-Ardakan, Sundeep Rangan, Philip Schniter, Alyson K. Fletcher(参考訳) 確率的多層ニューラルネットワークの入力変数と隠れ変数を出力の観測から推定する問題を考察する。 各層に隠された変数は行列として表される。 この問題は、深層生成先行モデルによる信号回復、マルチタスクと混合回帰、および2層ニューラルネットワークのある種のクラス学習に適用される。 近年開発されたMulti-Layer Vector Approximate Message Passing (ML-VAMP) アルゴリズムを拡張して,MAPおよびMMSE推論の統一近似アルゴリズムを提案する。 提案したMulti-Layer Matrix VAMP (ML-Mat-VAMP) アルゴリズムの性能は、未知量の次元の$N\times d$が$d$で$N\rightarrow\infty$となるようなランダムな大システム制限下で正確に予測できることが示されている。 2層ニューラルネットワーク学習問題では、このスケーリングは入力特徴数とトレーニングサンプル数が無限大になるが、隠れノード数が固定されている場合に対応する。 この分析は、学習のパラメータとテストエラーの正確な予測を可能にする。

We consider the problem of inferring the input and hidden variables of a stochastic multi-layer neural network from an observation of the output. The hidden variables in each layer are represented as matrices. This problem applies to signal recovery via deep generative prior models, multi-task and mixed regression and learning certain classes of two-layer neural networks. A unified approximation algorithm for both MAP and MMSE inference is proposed by extending a recently-developed Multi-Layer Vector Approximate Message Passing (ML-VAMP) algorithm to handle matrix-valued unknowns. It is shown that the performance of the proposed Multi-Layer Matrix VAMP (ML-Mat-VAMP) algorithm can be exactly predicted in a certain random large-system limit, where the dimensions $N\times d$ of the unknown quantities grow as $N\rightarrow\infty$ with $d$ fixed. In the two-layer neural-network learning problem, this scaling corresponds to the case where the number of input features and training samples grow to infinity but the number of hidden nodes stays fixed. The analysis enables a precise prediction of the parameter and test error of the learning.
翻訳日:2023-01-06 19:09:40 公開日:2020-01-26
# 生成逆数ネットワークを用いた理想オブザーバのマルコフ連鎖モンテカルロ近似

Markov-Chain Monte Carlo Approximation of the Ideal Observer using Generative Adversarial Networks ( http://arxiv.org/abs/2001.09526v1 )

ライセンス: Link先を確認
Weimin Zhou, Mark A. Anastasio(参考訳) 医用イメージングシステムを信号検出タスクに最適化する際には,Ideal Observer (IO) の性能が提唱されている。 しかし、IOテスト統計学の分析計算は一般に難解である。 IOテスト統計を近似するために,マルコフ-チェインモンテカルロ法(MCMC)を用いたサンプリング法を開発した。 しかし、MCMC技術の現在の応用は、ラムピーオブジェクトモデルやバイナリテクスチャモデルなど、いくつかのオブジェクトモデルに限られており、MCMCメソッドが他のより洗練されたオブジェクトモデルでどのように実装できるかは定かではない。 GAN(Generative Adversarial Network)を用いた深層学習手法は,画像データから確率的オブジェクトモデル(SOM)を学習する大きな可能性を秘めている。 本研究では,GANを用いて学習したSOMにMCMC技術を適用し,IOを近似する手法について述べる。 提案手法は,GANを用いて学習可能な任意のオブジェクトモデルを用いて適用することができるため,IO性能を近似するためのMCMC技術の適用範囲が拡張される。 本研究では,SKE(Signal-known-exactly)とSKS(Signal-known-statistically)の両方のバイナリ信号検出タスクを検討する。 提案手法で計算したio性能を従来のmcmc法で計算したio性能と比較した。 提案手法の利点について考察する。

The Ideal Observer (IO) performance has been advocated when optimizing medical imaging systems for signal detection tasks. However, analytical computation of the IO test statistic is generally intractable. To approximate the IO test statistic, sampling-based methods that employ Markov-Chain Monte Carlo (MCMC) techniques have been developed. However, current applications of MCMC techniques have been limited to several object models such as a lumpy object model and a binary texture model, and it remains unclear how MCMC methods can be implemented with other more sophisticated object models. Deep learning methods that employ generative adversarial networks (GANs) hold great promise to learn stochastic object models (SOMs) from image data. In this study, we described a method to approximate the IO by applying MCMC techniques to SOMs learned by use of GANs. The proposed method can be employed with arbitrary object models that can be learned by use of GANs, thereby the domain of applicability of MCMC techniques for approximating the IO performance is extended. In this study, both signal-known-exactly (SKE) and signal-known-statistically (SKS) binary signal detection tasks are considered. The IO performance computed by the proposed method is compared to that computed by the conventional MCMC method. The advantages of the proposed method are discussed.
翻訳日:2023-01-06 19:09:21 公開日:2020-01-26
# 話者検証と音声トリガー検出のためのマルチタスク学習

Multi-task Learning for Speaker Verification and Voice Trigger Detection ( http://arxiv.org/abs/2001.10816v1 )

ライセンス: Link先を確認
Siddharth Sigtia, Erik Marchi, Sachin Kajarekar, Devang Naik, John Bridle(参考訳) 音声の自動書き起こしと話者認識は通常、相互依存であっても別個のタスクとして扱われる。 本研究では,一つのネットワーク上で協調してタスクを遂行する訓練について検討する。 教師付きマルチタスク学習装置でネットワークを訓練し、ネットワークの音声書き起こし分岐を訓練して音声接続性時間分類(CTC)損失を最小限に抑えるとともに、ネットワークの話者認識分岐を訓練し、入力シーケンスを正しい話者ラベルにラベル付けする。 本稿では,各タスクに対するラベル付きトレーニングデータ数千時間を用いて,モデルをトレーニングする大規模実証研究を行う。 話者認証タスクでは話者認識部が評価される一方、音声トリガ検出タスクではネットワークの音声書き起こし部が評価される。 その結果、ネットワークは、各タスクのベースラインモデルと同等以上の精度を、独立モデルと同一数のパラメータで生成しながら、学習した表現に両方の音素的なemph{and}話者情報をエンコードできることを示した。

Automatic speech transcription and speaker recognition are usually treated as separate tasks even though they are interdependent. In this study, we investigate training a single network to perform both tasks jointly. We train the network in a supervised multi-task learning setup, where the speech transcription branch of the network is trained to minimise a phonetic connectionist temporal classification (CTC) loss while the speaker recognition branch of the network is trained to label the input sequence with the correct label for the speaker. We present a large-scale empirical study where the model is trained using several thousand hours of labelled training data for each task. We evaluate the speech transcription branch of the network on a voice trigger detection task while the speaker recognition branch is evaluated on a speaker verification task. Results demonstrate that the network is able to encode both phonetic \emph{and} speaker information in its learnt representations while yielding accuracies at least as good as the baseline models for each task, with the same number of parameters as the independent models.
翻訳日:2023-01-06 19:08:18 公開日:2020-01-26