このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200910となっている論文です。

PDF登録状況(公開日: 20200910)

TitleAuthorsAbstract論文公表日・翻訳日
# カピツァ・ディラック効果におけるスピン依存二光子ブラッグ散乱

Spin-dependent two-photon Bragg scattering in the Kapitza-Dirac effect ( http://arxiv.org/abs/2001.10177v2 )

ライセンス: Link先を確認
Sven Ahrens and Zhenfeng Liang and Tilen Cadez and Baifei Shen(参考訳) 2光子相互作用のみに基づくスピン依存kapitza-dirac散乱の可能性を示す。 相互作用スキームはコンプトン散乱過程から着想を得ており、定常光波中の電子回折過程のスピン力学に対する数学的対応を明示的に示す。 スピン効果は、任意の低磁場振幅のブラッグ散乱装置に既に存在し、利用可能なX線自由電子レーザー施設における現実的な実験装置における回折数率を推定した。

We present the possibility of spin-dependent Kapitza-Dirac scattering based on a two-photon interaction only. The interaction scheme is inspired from a Compton scattering process, for which we explicitly show the mathematical correspondence to the spin-dynamics of an electron diffraction process in a standing light wave. The spin effect has the advantage that it already appears in a Bragg scattering setup with arbitrary low field amplitudes, for which we have estimated the diffraction count rate in a realistic experimental setup at available X-ray free-electron laser facilities.
翻訳日:2023-06-05 09:12:49 公開日:2020-09-10
# 局所操作と古典的通信によるフェルミオン状態判別

Fermionic state discrimination by local operations and classical communication ( http://arxiv.org/abs/2002.10197v2 )

ライセンス: Link先を確認
Matteo Lugli and Paolo Perinotti and Alessandro Tosini(参考訳) フェミオン系の2つのバイパーティイト純状態間の局所的操作と古典的コミュニケーション(LOCC)の識別の問題を考える。 フェルミオン系では、量子系とは対照的に、LOCC測定により理想的な状態判別性能を達成することは一般的に不可能である。 一方,最大エンタングル状態の2つのフェルミオンモードからなるアシラリー系は,LOCC測定による理想的な性能を達成するのに十分な追加資源であることを示す。 理想的な結果の安定性は、2つの状態の準備の確率が乱れ、識別誤差の厳密な境界が導出されるときに研究される。

We consider the problem of local operations and classical communication (LOCC) discrimination between two bipartite pure states of fermionic systems. We show that, contrary to the case of quantum systems, for fermionic systems it is generally not possible to achieve the ideal state discrimination performances through LOCC measurements. On the other hand, we show that an ancillary system made of two fermionic modes in a maximally entangled state is a sufficient additional resource to attain the ideal performances via LOCC measurements. The stability of the ideal results is studied when the probability of preparation of the two states is perturbed, and a tight bound on the discrimination error is derived.
翻訳日:2023-06-02 05:17:02 公開日:2020-09-10
# 任意に高損失チャネル間のボソニック量子通信

Bosonic quantum communication across arbitrarily high loss channels ( http://arxiv.org/abs/2003.08895v2 )

ライセンス: Link先を確認
Ludovico Lami, Martin B. Plenio, Vittorio Giovannetti, and Alexander S. Holevo(参考訳) 一般減衰器 $\phi_{\lambda, \sigma}$ は、伝送率 $\lambda$ のビームスプリッターにおいて、入力と固定環境状態 $\sigma$ を組み合わせることによって作用するボソニック量子チャネルである。 もし$\sigma$ が熱状態であれば、チャネルは熱減衰器であり、その量子容量は$\lambda\leq 1/2$ で消滅する。 これらの物体の量子容量を一般の$\sigma$で調べ、予期せぬ結果をいくつも証明した。 特に、$\lambda>0$ の任意の値に対して、$\Phi_{\lambda,\sigma(\lambda)}$ の量子容量が普遍定数 $c>0$ よりも大きいような、適切な単一モード状態 $\sigma(\lambda)$ が存在することを示す。 我々の結果は、チャネルの入力でエネルギー制約を固定しても成り立ち、環境状態が適切に制御されている場合、任意に低い透過率の極限でも一定の速度で量子通信が可能であることを示唆する。 また、$\sigma$という状態の例として、$\phi_{\lambda,\sigma}$の量子容量は$\lambda$では単調ではない。 これらの結果は、一般的な減衰器が自然モデルを提供する集積光回路を横断する通信線の研究に意味を持つ可能性がある。

A general attenuator $\Phi_{\lambda, \sigma}$ is a bosonic quantum channel that acts by combining the input with a fixed environment state $\sigma$ in a beam splitter of transmissivity $\lambda$. If $\sigma$ is a thermal state the resulting channel is a thermal attenuator, whose quantum capacity vanishes for $\lambda\leq 1/2$. We study the quantum capacity of these objects for generic $\sigma$, proving a number of unexpected results. Most notably, we show that for any arbitrary value of $\lambda>0$ there exists a suitable single-mode state $\sigma(\lambda)$ such that the quantum capacity of $\Phi_{\lambda,\sigma(\lambda)}$ is larger than a universal constant $c>0$. Our result holds even when we fix an energy constraint at the input of the channel, and implies that quantum communication at a constant rate is possible even in the limit of arbitrarily low transmissivity, provided that the environment state is appropriately controlled. We also find examples of states $\sigma$ such that the quantum capacity of $\Phi_{\lambda,\sigma}$ is not monotonic in $\lambda$. These findings may have implications for the study of communication lines running across integrated optical circuits, of which general attenuators provide natural models.
翻訳日:2023-05-28 17:50:30 公開日:2020-09-10
# 非エルミート位相絶縁体における実スペクトル

Real spectra in non-Hermitian topological insulators ( http://arxiv.org/abs/2004.01886v2 )

ライセンス: Link先を確認
Kohei Kawabata, Masatoshi Sato(参考訳) 位相絶縁体におけるバルクまたはエッジのスペクトルはしばしば非ヘルミティシティによって複雑にされる。 ここでは、非エルミート位相絶縁体においても、対称性保護がバルクおよびエッジの両方に対して完全に実スペクトルを可能にすることを示す。 特に,擬似半減期とクラマーズ・デジェネシーの組み合わせにより,非エルミート皮膚効果のない完全な実スペクトルを示す。 この保護は非空間的基本対称性に依存し、障害に対する安定性を持つ。 例示として,ベルネヴィグ・ヒュース・ジャング模型の非エルミート拡大について検討する。 ヘリカルエッジ状態は、非正方性が一意な非エルミート的特徴であるため、振動力学を示す。

Spectra of bulk or edges in topological insulators are often made complex by non-Hermiticity. Here, we show that symmetry protection enables entirely real spectra for both bulk and edges even in non-Hermitian topological insulators. In particular, we demonstrate entirely real spectra without non-Hermitian skin effects due to a combination of pseudo-Hermiticity and Kramers degeneracy. This protection relies on nonspatial fundamental symmetry and has stability against disorder. As an illustrative example, we investigate a non-Hermitian extension of the Bernevig-Hughes-Zhang model. The helical edge states exhibit oscillatory dynamics due to their nonorthogonality as a unique non-Hermitian feature.
翻訳日:2023-05-26 11:00:24 公開日:2020-09-10
# 非マルコフ量子力学:拡張相関射影超作用素

Non-Markovian quantum dynamics: Extended correlated projection superoperators ( http://arxiv.org/abs/2006.00470v2 )

ライセンス: Link先を確認
Zhiqiang Huang(参考訳) 相関射影超作用素法は、開量子系において相関が強い非マルコフ効果をもたらす方法をよりよく理解する。 彼らのスーパーオペレータは初期状態とは独立しており、場合によっては適さない。 これを改善するために,相関投影スーパーオペレータ技術を使う前に複合システムを拡張する新しい手法を開発した。 このアプローチでは、異なる初期状態に対して異なるスーパー演算子を選択することができる。 これらの手法を簡単なモデルに適用し、一般的なアプローチを説明する。 モデルのフルシュル・"{o} ディンガー方程式の数値シミュレーションにより、この手法のパワーと効率が明らかになる。

The correlated projection superoperator techniques provide a better understanding about how correlations lead to strong non-Markovian effects in open quantum systems. Their superoperators are independent of initial state, which may not be suitable for some cases. To improve this, we develop a new approach, that is extending the composite system before use the correlated projection superoperator techniques. Such approach allows choosing different superoperators for different initial states. We apply these techniques to a simple model to illustrate the general approach. The numerical simulations of the full Schr\"{o}dinger equation of the model reveal the power and efficiency of the method.
翻訳日:2023-05-17 20:32:58 公開日:2020-09-10
# 回路ベース量子コンピュータを用いたブラインド量子計算

Blind Quantum Computation Using a Circuit-Based Quantum Computer ( http://arxiv.org/abs/2006.06255v3 )

ライセンス: Link先を確認
Yuichi Sano(参考訳) 一般の人が汎用量子コンピュータを使用する場合、そのコストのためにいくつかのベースに存在する量子クラウドサーバの形で存在すると仮定される。 このクラウドサーバでは、プライバシが重要な問題であり、各ユーザが計算の詳細を公開せずにサーバを使用できるように、盲目的の量子計算プロトコルが必要である。 また,従来の計算では量子計算が検証できないため,サーバがユーザが指示した計算を実行しているかどうかを確認することも重要である。 本稿では,トラップ量子ビットを用いた計算を検証しながら,量子ワンタイムパッドによる暗号とT字ゲートの盲点化を実現するプロトコルを提案する。

When a universal quantum computer is used by the public, it is assumed that it will be in the form of a quantum cloud server that exists in a few bases due to its cost. In this cloud server, privacy will be a crucial issue, and a blind quantum computation protocol will be necessary so that each user can use the server without the details of the calculations being revealed. It is also important to be able to verify that the server is performing calculations as instructed by the user, since quantum calculations cannot be verified by classical computation. In this paper, we put forward a protocol that achieves blindness using the quantum one-time pad for encryption and a T-like gate, and while verifying computation using trap qubits.
翻訳日:2023-05-16 00:48:56 公開日:2020-09-10
# アンドレフ反射鏡としてのブラックホール

Black holes as Andreev reflecting mirrors ( http://arxiv.org/abs/2007.09467v2 )

ライセンス: Link先を確認
Sreenath K. Manikandan and Andrew N. Jordan(参考訳) 我々は、ブラックホール事象地平線の量子情報パラドックスを解決するアンドレフ反射として、ホーキング放射の微視的量子記述を提案する。 The detailed microscopic analysis presented here reveals how a black hole, treated as an Andreev reflecting mirror, provides a manifestly unitary description of an evaporating black hole, expanding our previous analysis presented in [PRD 96, 124011 (2017), PRD 98, 124043 (2018)]; In our analogy, a black hole resolves the information paradox by accepting particles -- pairing them with the infalling Hawking quanta into a Bardeen-Cooper-Schrieffer (BCS) like quantum ground state -- while Andreev reflecting the quantum information as encoded in outgoing Hawking radiation. このアプローチは、ホロウィッツとマルダセナによるブラックホール最終状態提案(JHEP 02, 008 (2004)))を超えて、ブラックホール最終状態提案の重要な欠点を回避するために必要な顕微鏡的詳細を提供する。 我々はまた、現在のハミルトンの記述を一般化し、アンドレフ反射を通してアインシュタイン・ローゼン橋で可能な量子情報の明らかな損失に類似させる。

We propose a microscopic quantum description for Hawking radiation as Andreev reflections, which resolves the quantum information paradox at black hole event horizons. The detailed microscopic analysis presented here reveals how a black hole, treated as an Andreev reflecting mirror, provides a manifestly unitary description of an evaporating black hole, expanding our previous analysis presented in [PRD 96, 124011 (2017), PRD 98, 124043 (2018)]; In our analogy, a black hole resolves the information paradox by accepting particles -- pairing them with the infalling Hawking quanta into a Bardeen-Cooper-Schrieffer (BCS) like quantum ground state -- while Andreev reflecting the quantum information as encoded in outgoing Hawking radiation. The present approach goes beyond the black hole final state proposal by Horowitz and Maldacena [JHEP 02, 008 (2004)], by providing necessary microscopic details which allows us to circumvent important shortcomings of the black hole final state proposal. We also generalize the present Hamiltonian description to make an analogy to the apparent loss of quantum information possible in an Einstein-Rosen bridge, via crossed Andreev reflections.
翻訳日:2023-05-09 03:06:20 公開日:2020-09-10
# オンライン健康コミュニティにおける患者と介護者の相互サポート関係のパターン

Patterns of Patient and Caregiver Mutual Support Connections in an Online Health Community ( http://arxiv.org/abs/2007.16172v3 )

ライセンス: Link先を確認
Zachary Levonian, Marco Dow, Drew Erikson, Sourojit Ghosh, Hannah Miller Hillberg, Saumik Narayanan, Loren Terveen, Svetlana Yarosh(参考訳) オンラインヘルスコミュニティは、特に、同様の体験を持つ仲間を見つけることができるため、ユーザへのサポートの恩恵を約束する。 相互に支援的な相互接続を構築することは、オンライン健康コミュニティを使用する上で重要なモチベーションである。 しかし、コミュニティにおけるユーザの役割は、ピア接続の形成に影響を与える可能性がある。 本研究では,患者と非専門職介護者の2つの構造的健康役割の相互接続パターンについて検討した。 ピアの発見が明示的にサポートされていないオンラインヘルスコミュニティにおけるユーザの行動について検討する。 このコンテキストにより、ソーシャルネットワーク分析手法を用いて、そのようなコネクションの成長を探索し、ユーザのピア通信嗜好を特定することができる。 その結果、同一役割を持つ2人の著者と、より広いコミュニケーションネットワーク内で親密な関係にある2人の著者の間で開始の可能性が高まることがわかった。 著者が同じ役割を持つ場合、関係性はより形成され、よりインタラクティブになる。 本結果は,ピアツーピアレコメンデーションシステムなど,ピアコミュニケーションをサポートするシステムの設計に影響を及ぼす。

Online health communities offer the promise of support benefits to users, in particular because these communities enable users to find peers with similar experiences. Building mutually supportive connections between peers is a key motivation for using online health communities. However, a user's role in a community may influence the formation of peer connections. In this work, we study patterns of peer connections between two structural health roles: patient and non-professional caregiver. We examine user behavior in an online health community where finding peers is not explicitly supported. This context lets us use social network analysis methods to explore the growth of such connections in the wild and identify users' peer communication preferences. We investigated how connections between peers were initiated, finding that initiations are more likely between two authors who have the same role and who are close within the broader communication network. Relationships are also more likely to form and be more interactive when authors have the same role. Our results have implications for the design of systems supporting peer communication, e.g. peer-to-peer recommendation systems.
翻訳日:2023-05-07 12:33:25 公開日:2020-09-10
# 高次元量子システムのための高精度適応量子トモグラフィ

High-accuracy adaptive quantum tomography for high-dimensional quantum systems ( http://arxiv.org/abs/2009.04791v1 )

ライセンス: Link先を確認
L. Pereira, D. Mart\'inez, G. Ca\~nas, E. S. G\'omez, S. P. Walborn, G. Lima and A. Delgado(参考訳) d$-次元量子状態の推定精度は、gil-massarバウンドによって制限される。 適応型標準量子トモグラフィーを用いて、qubit$d=2$のシナリオで飽和させることができる。 しかし、高次元では、これはそうではなく、適応量子トモグラフィーで達成できる精度は、$d$の増加とともに急速に悪化する。 さらに、Gill-Massar境界が任意の$d$に対して到達できるかどうかは不明である。 この限界を克服するために,任意の有限次元のギル・マッサール境界の半分以上の精度を特徴とする適応トモグラフィ法を提案する。 これにより、量子状態推定に新たな実現可能な精度限界が与えられる。 10次元量子システムの状態を推定することにより,この手法の高精度性を示す。 高次元の量子情報処理が可能な新しい技術が出現すると、状態再構成が量子デバイスの適切な動作を証明する重要なツールとなるため、我々の成果は極めて重要となる。

The accuracy of estimating $d$-dimensional quantum states is limited by the Gill-Massar bound. It can be saturated in the qubit ($d=2$) scenario using adaptive standard quantum tomography. In higher dimensions, however, this is not the case and the accuracy achievable with adaptive quantum tomography quickly deteriorates with increasing $d$. Moreover, it is not known whether or not the Gill-Massar bound can be reached for an arbitrary $d$. To overcome this limitation, we introduce an adaptive tomographic method that is characterized by a precision that is better than half that of the Gill-Massar bound for any finite dimension. This provides a new achievable accuracy limit for quantum state estimation. We demonstrate the high-accuracy of our method by estimating the state of 10-dimensional quantum systems. With the advent of new technologies capable of high-dimensional quantum information processing, our results become critically relevant as state reconstruction is an essential tool for certifying the proper operation of quantum devices.
翻訳日:2023-05-03 00:57:52 公開日:2020-09-10
# シーケンシャルシードによる時間ネットワークの効果的な拡散

Effective Influence Spreading in Temporal Networks with Sequential Seeding ( http://arxiv.org/abs/2009.04769v1 )

ライセンス: Link先を確認
Rados{\l}aw Michalski, Jaros{\l}aw Jankowski, Piotr Br\'odka(参考訳) ネットワークへの影響力の拡散は、多くのアプリケーション分野において非常に重要なトピックである。 例えば、カバー範囲を最大化し、マーケティングキャンペーン初期化の予算を制限し、社会的影響の可能性を活用したいと思います。 10年以上前に、同様の課題に取り組むために、研究者は影響の最大化問題を調査し始めた。 ネットワークに広がる影響を最大化するために、最初に活性化されたシードノードの最適なセットを見つけることが課題である。 典型的アプローチでは,すべての種子を単一段階,プロセスの開始時に活性化するが,本研究では,シーケンシャルシードに基づく時間的ネットワークにおける種子活性化の新しいアプローチを紹介し,評価する。 同時に全てのノードを活性化させる代わりに、この方法は種子の活性化を分配し、より高い範囲の影響が広がる。 実ネットワークとランダムネットワークを用いて行った実験の結果,提案手法は71%の症例で1段階の播種を平均6%近く上回ることがわかった。 時間的ネットワークが動的プロセスのモデル化に適した選択であることを知り、実世界のケースに時間的シーケンシャルシードを適用することを奨励するものであり、特に本研究で導入された種活性化戦略を用いて、より洗練された種選択戦略を実装できることを知ることができる。

The spread of influence in networks is a topic of great importance in many application areas. For instance, one would like to maximise the coverage, limiting the budget for marketing campaign initialisation and use the potential of social influence. To tackle this and similar challenges, more than a decade ago, researchers started to investigate the influence maximisation problem. The challenge is to find the best set of initially activated seed nodes in order to maximise the influence spread in networks. In typical approach we will activate all seeds in single stage, at the beginning of the process, while in this work we introduce and evaluate a new approach for seeds activation in temporal networks based on sequential seeding. Instead of activating all nodes at the same time, this method distributes the activations of seeds, leading to higher ranges of influence spread. The results of experiments performed using real and randomised networks demonstrate that the proposed method outperforms single stage seeding in 71% of cases by nearly 6% on average. Knowing that temporal networks are an adequate choice for modelling dynamic processes, the results of this work can be interpreted as encouraging to apply temporal sequential seeding for real world cases, especially knowing that more sophisticated seed selection strategies can be implemented by using the seed activation strategy introduced in this work.
翻訳日:2023-05-03 00:57:19 公開日:2020-09-10
# ポスト量子暗号を用いた量子鍵分布の実験的認証

Experimental Authentication of Quantum Key Distribution with Post-quantum Cryptography ( http://arxiv.org/abs/2009.04662v1 )

ライセンス: Link先を確認
Wang Liu-Jun, Zhang Kai-Yi, Wang Jia-Yong, Cheng Jie, Yang Yong-Hua, Tang Shi-Biao, Yan Di, Tang Yan-Lin, Liu Zhen, Yu Yu, Zhang Qiang, Pan Jian-Wei(参考訳) 量子鍵分布(QKD)は、量子コンピュータの時代においても理論的に安全な鍵交換を提供する。 しかし、QKDは古典的なチャネルの認証を必要とし、現在の方法は対称鍵の事前共有である。 n$ユーザからなるQKDネットワークでは、ペアの相互接続を実現するために、$C_n^2 = n(n-1)/2$の対称鍵対が必要となる。 対照的に、成熟した公開鍵インフラストラクチャ(PKI)と量子耐性セキュリティを備えたポスト量子暗号(PQC)の助けにより、各ユーザは、QKDの効率的かつセキュアな認証を実現するために、認証機関(CA)からデジタル証明書を申請するだけでよい。 分散鍵の長期的なセキュリティを実現するためには、pqcアルゴリズムの短期的セキュリティを仮定するだけでよい。 そこで我々は,QKD認証におけるPQCアルゴリズムの有効性,効率,安定性を実験的に検証し,新規ユーザがQKDネットワークに参加する際の利点を実証した。 PQC認証を使用することで、すべての信頼できるリレーではなく、CAが安全であると信じるだけで済むのです。 QKDとPQC認証を組み合わせることで、量子セーフ通信の応用可能性を大幅に促進し、拡張する。

Quantum key distribution (QKD) can provide information theoretically secure key exchange even in the era of quantum computer. However, QKD requires the classical channel to be authenticated, and the current method is pre-sharing symmetric keys. For a QKD network of $n$ users, this method requires $C_n^2 = n(n-1)/2$ pairs of symmetric keys to realize pairwise interconnection. In contrast, with the help of mature public key infrastructure (PKI) and post-quantum cryptography (PQC) with quantum resistant security, each user only needs to apply for a digital certificate from certificate authority (CA) to achieve efficient and secure authentication for QKD. We only need to assume the short-term security of the PQC algorithm to achieve the long-term security of the distributed keys. Here, we experimentally verified the feasibility, efficiency and stability of the PQC algorithm in QKD authentication, and demonstrated the advantages when new users join the QKD network. Using PQC authentication we only need to believe the CA is safe, rather than all trusted relays. QKD combined with PQC authentication will greatly promote and extend the application prospects of quantum safe communication.
翻訳日:2023-05-03 00:56:10 公開日:2020-09-10
# 分割関数零点による量子コンピュータの多体熱力学

Many Body Thermodynamics on Quantum Computers via Partition Function Zeros ( http://arxiv.org/abs/2009.04648v1 )

ライセンス: Link先を確認
Akhil Francis, D. Zhu, C. Huerta Alderete, Sonika Johri, Xiao Xiao, J.K. Freericks, C. Monroe, N. M. Linke, A.F. Kemper(参考訳) 相互作用量子系は、新しい秩序相への相転移を含む複雑な現象を示す。 臨界現象の普遍的な性質は、その記述を遷移温度と臨界指数のみを決定することに還元する。 新たな普遍性クラスにおけるシステムに対するこれらの結果の数値計算は、臨界点付近の資源増加を必要とする臨界減速のために複雑である。 別のアプローチは複素平面上で解析的に計算を継続し、その零点を通して分割関数を決定する。 ここでは, xxzモデルをプロトタイプとして, 雑音下中間スケールのイオン量子コンピュータ上でこの解析をスケーラブルに行う方法を示す。 異方性の関数としてのXY様挙動からIsing様挙動への移行について述べる。 量子コンピュータはまだ熱力学の限界までスケールできないが、我々の研究はハードウェアが改良され、他の方法では解決できないシステムにとって重要な現象が決定できる経路を提供する。

Interacting quantum systems illustrate complex phenomena including phase transitions to novel ordered phases. The universal nature of critical phenomena reduces their description to determining only the transition temperature and the critical exponents. Numerically calculating these results for systems in new universality classes is complicated due to critical slowing down, requiring increasing resources near the critical point. An alternative approach analytically continues the calculation onto the complex plane and determines the partition function via its zeros. Here we show how to robustly perform this analysis on noisy intermediate scale trapped ion quantum computers in a scalable manner, using the XXZ model as a prototype. We illustrate the transition from XY-like behavior to Ising-like behavior as a function of the anisotropy. While quantum computers cannot yet scale to the thermodynamic limit, our work provides a pathway to do so as hardware improves, allowing the determination of critical phenomena for systems that cannot be solved otherwise.
翻訳日:2023-05-03 00:55:47 公開日:2020-09-10
# 局所ハミルトニアンに対するスペクトルチャーノフ境界の短い証明

Short proof of a spectral Chernoff bound for local Hamiltonians ( http://arxiv.org/abs/2009.04993v1 )

ライセンス: Link先を確認
Nilin Abrahamsen(参考訳) ワイルの不等式に基づくk$局所ハミルトニアンのスペクトルに対するチャーンオフ境界の簡単な証明を与える。 スペクトルの$\epsilon(n)$-th quantile を定数相対誤差まで推定する複雑さにより、次の二分法が示される: $\epsilon(n)=d^{-n}$ 問題はnp-hardかつおそらくqma-hardであるが、問題は $\epsilon(n)=a^{-n}$ に対して自明であるような定数 $a>1$ が存在する。 一般化問題に対するクワハラとサイトーによる関連するチャーノフ境界(Phys. '20)もまたそのような二分法を確立するのに十分であり、その証明は \emph{cluster expansion} の注意深い解析に依存している。

We give a simple proof of a Chernoff bound for the spectrum of a $k$-local Hamiltonian based on Weyl's inequalities. The complexity of estimating the spectrum's $\epsilon(n)$-th quantile up to constant relative error thus exhibits the following dichotomy: For $\epsilon(n)=d^{-n}$ the problem is NP-hard and maybe even QMA-hard, yet there exists constant $a>1$ such that the problem is trivial for $\epsilon(n)=a^{-n}$. We note that a related Chernoff bound due to Kuwahara and Saito (Ann. Phys. '20) for a generalized problem is also sufficient to establish such a dichotomy, its proof relying on a careful analysis of the \emph{cluster expansion}.
翻訳日:2023-05-03 00:49:00 公開日:2020-09-10
# gocoronago: 接触者追跡を尊重するプライバシ

GoCoronaGo: Privacy Respecting Contact Tracing for COVID-19 Management ( http://arxiv.org/abs/2009.04916v1 )

ライセンス: Link先を確認
Yogesh Simmhan, Tarun Rambha, Aakash Khochare, Shriram Ramesh, Animesh Baranawal, John Varghese George, Rahul Atul Bhope, Amrita Namtirtha, Amritha Sundararajan, Sharath Suresh Bhargav, Nihar Thakkar, Raj Kiran(参考訳) 新型コロナウイルスのパンデミックは、新型コロナウイルスの感染拡大を管理する上で、世界規模で大きな課題となっている。 緩和の鍵となる柱は接触追跡であり、テストと隔離を補完する。 スマートフォンで使用可能なbluetooth技術を用いたコンタクトトレース用デジタルアプリは世界中で普及している。 本稿では,このようなデジタル・コンタクト・トレーシングの様々な機能と,コミュニティの安全と個人のプライバシとの関連について論じる。 さらに、私たちが開発したGoCoronaGoの機関間接触追跡アプリと、意識的かつ時には反抗的な設計選択について述べます。 アプリ、バックエンドプラットフォーム、アナリティクスの詳細な概要と、バンガロールのインド科学研究所キャンパスで1000人以上のユーザにデプロイした初期の経験を紹介します。 また、デジタルコンタクトの追跡と分析のための研究の機会とオープンな課題を強調します。

The COVID-19 pandemic is imposing enormous global challenges in managing the spread of the virus. A key pillar to mitigation is contact tracing, which complements testing and isolation. Digital apps for contact tracing using Bluetooth technology available in smartphones have gained prevalence globally. In this article, we discuss various capabilities of such digital contact tracing, and its implication on community safety and individual privacy, among others. We further describe the GoCoronaGo institutional contact tracing app that we have developed, and the conscious and sometimes contrarian design choices we have made. We offer a detailed overview of the app, backend platform and analytics, and our early experiences with deploying the app to over 1000 users within the Indian Institute of Science campus in Bangalore. We also highlight research opportunities and open challenges for digital contact tracing and analytics over temporal networks constructed from them.
翻訳日:2023-05-03 00:47:03 公開日:2020-09-10
# 物質波の時空間イメージング, 倍率, 時間反転

Space-time imaging, magnification and time reversal of matter waves ( http://arxiv.org/abs/2009.05078v1 )

ライセンス: Link先を確認
Brian H. Kolner(参考訳) 荷電粒子の波動関数の二次位相変調を生成することに基づく物質波動関数のイメージングシステムを提案する。 この変調は、低波電磁構造に付随する高調波ベクトルとスカラー電位の極端に波束を共伝播させることによって行われる。 時間依存のschr\"odinger方程式に対する解の特性である適切な分散とのこの相互作用を前後することで、系は拡大(すなわち、空間と時間スケールを伸長または圧縮)し、任意の量子波動関数を時間反転することができる。

An imaging system is proposed for matter-wave functions that is based on producing a quadratic phase modulation on the wavefunction of a charged particle, analogous to that produced by a space or time lens. The modulation is produced by co-propagating the wavepacket within an extremum of the harmonic vector and scalar potentials associated with a slow-wave electromagnetic structure. By preceding and following this interaction with appropriate dispersion, characteristic of a solution to the time-dependent Schr\"odinger equation, a system results that is capable of magnifying (i.e., stretching or compressing the space- and time-scales) and time-reversing an arbitrary quantum wavefunction.
翻訳日:2023-05-03 00:39:25 公開日:2020-09-10
# 量子スピンと集団動力学の観点から見た同一状態からの異なる臨界挙動

Distinct Critical Behaviors from the Same State in Quantum Spin and Population Dynamics Perspectives ( http://arxiv.org/abs/2009.05064v1 )

ライセンス: Link先を確認
C. L. Baldwin, S. Shivam, S. L. Sondhi, M. Kardar(参考訳) 逆磁場スピン系の基底状態と進化するウイルス集団の後期分布の間には深い関係があり、単純なモデルではどちらも同じ行列の主固有ベクトルから得られる。 しかし、そのベクトルは量子スピンモデルにおける波動関数振幅であり、一方で人口モデルにおける確率そのものである。 スピン系において不連続な相転移は, 個体群の観点から見ると連続的に進行し, 連続的な相転移は新たな臨界指数によって支配される。 両ケースを包含するより一般的なモデルのクラスを導入し、それは正確に平均場極限で解くことができる。 パワーロー相互作用を持つ多くの1次元鎖に対しても数値的な結果が示される。 量子統計力学のよく研究されているスピンモデルは、集団力学モデルとして扱われるときに予期せぬ新しい物理学と洞察を含み、さらなる研究の動機となる。

There is a deep connection between the ground states of transverse-field spin systems and the late-time distributions of evolving viral populations -- within simple models, both are obtained from the principal eigenvector of the same matrix. However, that vector is the wavefunction amplitude in the quantum spin model, whereas it is the probability itself in the population model. We show that this seemingly minor difference has significant consequences: phase transitions which are discontinuous in the spin system become continuous when viewed through the population perspective, and transitions which are continuous become governed by new critical exponents. We introduce a more general class of models which encompasses both cases, and that can be solved exactly in a mean-field limit. Numerical results are also presented for a number of one-dimensional chains with power-law interactions. We see that well-worn spin models of quantum statistical mechanics can contain unexpected new physics and insights when treated as population-dynamical models and beyond, motivating further studies.
翻訳日:2023-05-03 00:38:54 公開日:2020-09-10
# 加速情報の隠蔽が可能である

The concealment of accelerated information is possible ( http://arxiv.org/abs/2009.05026v1 )

ライセンス: Link先を確認
A.G. Abdelwahab, Nasser Metwally, M.H. Mahran, A-S F Obada(参考訳) 最小数の量子ビットを用いて加速された2量子ビット系をマスキングする可能性について論じる。 この情報は、絡み合った局所状態または生成物非局所分離状態のいずれかにマスキングされることが示されている。 これらの状態の分割がマスキング条件を満たすことを検証する。 非局所分離分割が存在するため、量子データ隠れスキームの一種であると考えることができる。 マスクされた絡み合った状態に符号化されたローカル/非ローカル情報は、加速度過程のデコヒーレンスに対して堅牢である。 初期絡み値が増加するにつれて、エンタングル/分離マスク状態による加速度パラメータの推定が可能となる。 マスキングプロセスの効率は、加速状態とそのサブシステムの忠実度を定量化することによって検証される。 仮面状態の忠実度は小さい初期加速度で最大であり、最小忠実度は 96\%$ 以上であることが示された。

The possibility of masking an accelerated two-qubit system by using a minimum number of qubits is discussed. It is shown that, the information may be masked in either entangled local states or product non-local separable states. We examine that each partition of these states satisfies the masking conditions. Due to the presence of non-local separable partition, one may consider that it is a type of quantum data hiding scheme. The local /non-local information encoded in the masked entangled state is robust against the decoherence of the acceleration process. The possibility of estimating the acceleration parameter via the entangled/separable masked state increases as the initial entanglement value increases. The efficiency of the masking process is examined by quantifying the fidelity of the accelerated state and its subsystems. It is shown that, the fidelity of the masked state is maximum at small initial acceleration, while the minimum fidelity is more than $96\%$.
翻訳日:2023-05-03 00:37:24 公開日:2020-09-10
# vqeにおけるアンサッツ深さ低減のためのqubitsの相関型置換

Correlation-Informed Permutation of Qubits for Reducing Ansatz Depth in VQE ( http://arxiv.org/abs/2009.04996v1 )

ライセンス: Link先を確認
Nikolay V. Tkachenko, James Sud, Yu Zhang, Sergei Tretiak, Petr M. Anisimov, Andrew T. Arrasmith, Patrick J. Coles, Lukasz Cincio, Pavel A. Dub(参考訳) 変分量子固有ソルバ(varuational quantum eigensolver, vqe)は、短期ゲート型量子コンピュータにおける分子の電子構造問題を解決する方法である。 しかし,回路の深さは問題の大きさに応じて大きく増加することが期待される。 深さの増大は結果の精度を低下させ、トレーニング容易性を低下させる。 本研究では,ansatz回路の深さを減少させる新しい手法を提案する。 我々のアプローチはPermVQEと呼ばれ、基底状態における長距離相関を最小化する量子ハミルトニアンを解くためにキュービットを置換するVQEにさらなる最適化ループを追加する。 置換の選択は、スピン軌道中の電子間の相互作用の尺度である相互情報に基づいている。 強く相互作用するスピン軌道を量子チップ上の近位量子ビットに符号化すると、基底状態を作るのに必要な回路深さが自然に減少する。 代表的な分子系, LiH, H$_2$, (H$_2$)$_2$, H$_4$, H$_3^+$ に対して, 絡み合った量子ビットを近接に配置する線形量子ビット接続は, 与えられた固有値-固有ベクトルの精度に到達するために必要なより浅い深さ回路をもたらすことを示す。 このアプローチは任意の量子ビット接続に拡張でき、vqeで所望の精度に達するのに必要な深さを大幅に削減できる。 さらに,本手法は,VQE以外の変分量子アルゴリズムにも適用可能である。

The Variational Quantum Eigensolver (VQE) is a method of choice to solve the electronic structure problem for molecules on near-term gate-based quantum computers. However, the circuit depth is expected to grow significantly with problem size. Increased depth can both degrade the accuracy of the results and reduce trainability. In this work, we propose a novel approach to reduce ansatz circuit depth. Our approach, called PermVQE, adds an additional optimization loop to VQE that permutes qubits in order to solve for the qubit Hamiltonian that minimizes long-range correlations in the ground state. The choice of permutations is based on mutual information, which is a measure of interaction between electrons in spin-orbitals. Encoding strongly interacting spin-orbitals into proximal qubits on a quantum chip naturally reduces the circuit depth needed to prepare the ground state. For representative molecular systems, LiH, H$_2$, (H$_2$)$_2$, H$_4$, and H$_3^+$, we demonstrate for linear qubit connectivity that placing entangled qubits in close proximity leads to shallower depth circuits required to reach a given eigenvalue-eigenvector accuracy. This approach can be extended to any qubit connectivity and can significantly reduce the depth required to reach a desired accuracy in VQE. Moreover, our approach can be applied to other variational quantum algorithms beyond VQE.
翻訳日:2023-05-03 00:36:29 公開日:2020-09-10
# ai政策における計測: 機会と課題

Measurement in AI Policy: Opportunities and Challenges ( http://arxiv.org/abs/2009.09071v1 )

ライセンス: Link先を確認
Saurabh Mishra, Jack Clark, C. Raymond Perrault(参考訳) 人工知能が我々の世界に影響を与えるにつれて、その技術的進歩と社会的影響を評価することが重要になる。 本稿は、2019年秋にスタンフォード大学で行われたワークショップに基づいて、AIシステムの測定における問題と機会とその影響について調査する。 我々は、AIの進歩と影響を測ることに固有の6つの要約課題を特定し、40以上のプレゼンテーションと関連するワークショップの議論を要約する。 これがこの重要な分野の研究課題を刺激できることを願っています。

As artificial intelligence increasingly influences our world, it becomes crucial to assess its technical progress and societal impact. This paper surveys problems and opportunities in the measurement of AI systems and their impact, based on a workshop held at Stanford University in the fall of 2019. We identify six summary challenges inherent to measuring the progress and impact of AI, and summarize over 40 presentations and associated discussions from the workshop. We hope this can inspire research agendas in this crucial area.
翻訳日:2023-05-03 00:29:44 公開日:2020-09-10
# 量子アニール上でのNP-ハード問題を解く分解アルゴリズム

Decomposition algorithms for solving NP-hard problems on a quantum annealer ( http://arxiv.org/abs/2009.06726v1 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo Djidjev(参考訳) 最大傾きや最小頂点被覆問題のようなNPハード問題、21個のNPハード問題の2つは、計算化学、生化学、コンピュータネットワークセキュリティにいくつかの応用がある。 断熱量子アニーラは、その問題をハードウェアに埋め込むことができるため、そのようなnpハード最適化問題の最適値を求めることができる。 しかし、アニーラーのハードウェア接続構造に一定の制限があるため、これはしばしば不可能である。 本稿では,頂点の最適集合を特定することを目的としたNPハードグラフ問題に対する分解アルゴリズムの一般的な枠組みについて検討する。 我々のジェネリックアルゴリズムは、生成したサブプロブレムが量子アニーラーハードウェアに埋め込まれるまで、再帰的にインスタンスを分割することを可能にする。 本手法は, 最大斜めおよび最小頂点被覆問題に適用し, 再帰分解を高速化するいくつかのプルーニングおよび還元手法を提案する。 両アルゴリズムの性能は詳細なシミュレーション研究で評価される。

NP-hard problems such as the maximum clique or minimum vertex cover problems, two of Karp's 21 NP-hard problems, have several applications in computational chemistry, biochemistry and computer network security. Adiabatic quantum annealers can search for the optimum value of such NP-hard optimization problems, given the problem can be embedded on their hardware. However, this is often not possible due to certain limitations of the hardware connectivity structure of the annealer. This paper studies a general framework for a decomposition algorithm for NP-hard graph problems aiming to identify an optimal set of vertices. Our generic algorithm allows us to recursively divide an instance until the generated subproblems can be embedded on the quantum annealer hardware and subsequently solved. The framework is applied to the maximum clique and minimum vertex cover problems, and we propose several pruning and reduction techniques to speed up the recursive decomposition. The performance of both algorithms is assessed in a detailed simulation study.
翻訳日:2023-05-03 00:29:36 公開日:2020-09-10
# Bluetoothによる近接性、マルチホップ分析、双方向信頼:エピデミクスなど

Bluetooth based Proximity, Multi-hop Analysis and Bi-directional Trust: Epidemics and More ( http://arxiv.org/abs/2009.06468v1 )

ライセンス: Link先を確認
Ramesh Raskar and Sai Sri Sathya(参考訳) 本稿では,Bluetoothおよび類似の無線通信技術上に,メッシュネットワークを形成するための信頼層を提案する。 プロトコルとしてのこのレイヤは、モバイルデバイスのネットワークにまたがる複数のホップにおけるメッセージの近接および双方向転送に基づく信頼スコアの計算を可能にする。 感染拡大を追跡するために開発されている多数のBluetoothおよびGPSベースのモバイルアプリケーションにおいて、コンタクトトレーシングの改善、プライバシーの向上、機密データ共有の検証を通じて、これらの信頼スコアを決定するための要因とアプローチを説明し、その適用を強調する。

In this paper, we propose a trust layer on top of Bluetooth and similar wireless communication technologies that can form mesh networks. This layer as a protocol enables computing trust scores based on proximity and bi-directional transfer of messages in multiple hops across a network of mobile devices. We describe factors and an approach for determining these trust scores and highlight its applications during epidemics such as COVID-19 through improved contact-tracing, better privacy and verification for sensitive data sharing in the numerous Bluetooth and GPS based mobile applications that are being developed to track the spread.
翻訳日:2023-05-03 00:29:21 公開日:2020-09-10
# 多様な外観をもつ政治ミームジャンルの自動発見

Automatic Discovery of Political Meme Genres with Diverse Appearances ( http://arxiv.org/abs/2001.06122v2 )

ライセンス: Link先を確認
William Theisen, Joel Brogan, Pamela Bilo Thomas, Daniel Moreira, Pascal Phoa, Tim Weninger, Walter Scheirer(参考訳) 人間のコミュニケーションの形式は静的ではない。テクノロジーの進歩により、情報伝達の方法が進化することを期待している。 この現象の例として、画像ベースのミームがあり、過去10年間に政治メッセージの主流として登場してきた。 もともとソーシャルメディアでジョークを広めるために使われたが、今やミームは世界の出来事に対する大衆の認識に大きな影響を与えている。 自動ミーム分析における重要な課題は、画像の外観が異なる場合、単一のジャンル内からミームをマッチングする戦略を開発することである。 このようなバリエーションは、特に模倣を示すミームで一般的である。 例えば、有権者が共通の手振りをして候補者への支持を示す場合。 本稿では,多様な外見の政治的ジャンルを発見するために,スケーラブルな自動視覚認識パイプラインを提案する。 このパイプラインは、ソーシャルネットワークからミーム画像を取り込み、ローカルな特徴を抽出するためにコンピュータビジョンベースの技術を適用し、データベースに新しいイメージをインデックスし、ミームを関連するジャンルに整理することができる。 このアプローチを検証するために、私たちは、twitterとinstagramから収集された200万以上の画像の新しいデータセットを使用して、2019年のインドネシア大統領選挙に関する大規模なケーススタディを行っています。 提案手法は, 視覚的に多様な画像が共通なスタイル的要素を共有し, セマンティック分析やコンテンツ属性のさらなる研究に向けての道のりをたどることが示唆された。

Forms of human communication are not static -- we expect some evolution in the way information is conveyed over time because of advances in technology. One example of this phenomenon is the image-based meme, which has emerged as a dominant form of political messaging in the past decade. While originally used to spread jokes on social media, memes are now having an outsized impact on public perception of world events. A significant challenge in automatic meme analysis has been the development of a strategy to match memes from within a single genre when the appearances of the images vary. Such variation is especially common in memes exhibiting mimicry. For example, when voters perform a common hand gesture to signal their support for a candidate. In this paper we introduce a scalable automated visual recognition pipeline for discovering political meme genres of diverse appearance. This pipeline can ingest meme images from a social network, apply computer vision-based techniques to extract local features and index new images into a database, and then organize the memes into related genres. To validate this approach, we perform a large case study on the 2019 Indonesian Presidential Election using a new dataset of over two million images collected from Twitter and Instagram. Results show that this approach can discover new meme genres with visually diverse images that share common stylistic elements, paving the way forward for further work in semantic analysis and content attribution.
翻訳日:2023-01-10 12:55:46 公開日:2020-09-10
# 点雲からの曲率正規化表面再構成

Curvature Regularized Surface Reconstruction from Point Cloud ( http://arxiv.org/abs/2001.07884v2 )

ライセンス: Link先を確認
Yuchen He, Sung Ha Kang, Hao Liu(参考訳) 曲率制約を伴って暗黙的表面を点雲データから再構成する変動関数と高速アルゴリズムを提案する。 最小化関数は、点雲と平均曲率項との距離関数のバランスをとる。 点位置のみを使用し、各点における局所正規あるいは曲率推定は行わない。 曲率制約の追加により、計算は特に困難になる。 計算効率を向上させるために,新しい演算子分割方式を用いて問題を解く。 従来の高階PDEを半単純法で解いた疎結合PDEシステムに置き換える。 拡張ラグランジアン法によるアプローチについても論じる。 提案手法は雑音に対するロバスト性を示し,曲率制約のないモデルと比較して凹凸特性と鋭角を回復する。 2次元および3次元のデータセットにおける数値実験を行い,そのモデルの有効性を検証した。

We propose a variational functional and fast algorithms to reconstruct implicit surface from point cloud data with a curvature constraint. The minimizing functional balances the distance function from the point cloud and the mean curvature term. Only the point location is used, without any local normal or curvature estimation at each point. With the added curvature constraint, the computation becomes particularly challenging. To enhance the computational efficiency, we solve the problem by a novel operator splitting scheme. It replaces the original high-order PDEs by a decoupled PDE system, which is solved by a semi-implicit method. We also discuss approach using an augmented Lagrangian method. The proposed method shows robustness against noise, and recovers concave features and sharp corners better compared to models without curvature constraint. Numerical experiments in two and three dimensional data sets, noisy and sparse data are presented to validate the model.
翻訳日:2023-01-07 18:59:06 公開日:2020-09-10
# 最適Thresholdingによるチャネルプルーニング

Channel Pruning via Optimal Thresholding ( http://arxiv.org/abs/2003.04566v5 )

ライセンス: Link先を確認
Yun Ye, Ganmei You, Jong-Kae Fwu, Xia Zhu, Qing Yang and Yuan Zhu(参考訳) 構造的プルーニング、特にチャネルプルーニングは、計算コストの低減と既製のハードウェアデバイスとの互換性のために広く使われている。 既存の作業の中で、重みは通常、事前定義されたグローバルしきい値または事前定義されたメトリックから計算されたしきい値を使用して取り除かれる。 事前定義されたグローバルしきい値に基づく設計は、異なる層と重みの分布のばらつきを無視するので、オーバープルーニングやアンダープルーニングによる準最適性能をもたらすことがある。 本稿では,無視可能なチャネルから最適に分離する層依存しきい値を持つpruneチャネルに対して,簡易かつ効果的な最適しきい値(ot)法を提案する。 OTを用いることで、ほとんどの無視または重要でないチャネルを切断し、性能劣化を最小限に抑えながら高い疎性を実現する。 ほとんどの重要な重みが保存されるため、プルーニングされたモデルはより微調整され、ごくわずかなイテレーションで素早く収束することができる。 提案手法は,特に高レベルの最先端設計と比較して,優れた性能を示す。 CIFAR-100では、OTを用いて微調整されたDenseNet-121が1.46e8のFLOPと0.71Mのパラメータで75.99%の精度を達成した。

Structured pruning, especially channel pruning is widely used for the reduced computational cost and the compatibility with off-the-shelf hardware devices. Among existing works, weights are typically removed using a predefined global threshold, or a threshold computed from a predefined metric. The predefined global threshold based designs ignore the variation among different layers and weights distribution, therefore, they may often result in sub-optimal performance caused by over-pruning or under-pruning. In this paper, we present a simple yet effective method, termed Optimal Thresholding (OT), to prune channels with layer dependent thresholds that optimally separate important from negligible channels. By using OT, most negligible or unimportant channels are pruned to achieve high sparsity while minimizing performance degradation. Since most important weights are preserved, the pruned model can be further fine-tuned and quickly converge with very few iterations. Our method demonstrates superior performance, especially when compared to the state-of-the-art designs at high levels of sparsity. On CIFAR-100, a pruned and fine-tuned DenseNet-121 by using OT achieves 75.99% accuracy with only 1.46e8 FLOPs and 0.71M parameters.
翻訳日:2022-12-24 21:12:35 公開日:2020-09-10
# NPENAS: ニューラルネットワーク検索のための神経予測器ガイド進化

NPENAS: Neural Predictor Guided Evolution for Neural Architecture Search ( http://arxiv.org/abs/2003.12857v3 )

ライセンス: Link先を確認
Chen Wei, Chuang Niu, Yiping Tang, Yue Wang, Haihong Hu, Jimin Liang(参考訳) neural architecture search (nas) は、ニューラルネットワークを自動的に設計する有望な方法である。 NASは、事前定義された検索空間を探索し、最小の探索コストで優れたパフォーマンスアーキテクチャを見つけるための探索戦略を採用している。 ベイズ最適化と進化的アルゴリズムはよく使われる2つの探索戦略であるが、それらは計算コストが高く、実現に難しかった。 本稿では,NAS (NPENAS) の探索能力を向上し,2種類のニューラル予測器を設計するためのニューラル予測器進化アルゴリズムを提案する。 第1の予測器はベイズ最適化から定義され,グラフに基づく不確実性推定ネットワークを,実装が容易で計算効率の良いサロゲートモデルとして提案する。 第2の予測器はグラフベースのニューラルネットワークで、入力されたニューラルネットワークの性能予測を直接出力する。 2つの神経予測器を用いたNPENASはそれぞれNPENAS−BOとNPENAS−NPと表記される。 さらに,既存のサンプリング手法の欠点を克服するために,新しいランダムなアーキテクチャサンプリング手法を提案する。 大規模な実験は、NPENASの優位性を示す。 NPENAS-BOはNASBench-201で,NPENAS-NPはNASBench-101で,NPENAS-NPはDARTSでそれぞれ最先端性能を達成した。

Neural architecture search (NAS) is a promising method for automatically design neural architectures. NAS adopts a search strategy to explore the predefined search space to find outstanding performance architecture with the minimum searching costs. Bayesian optimization and evolutionary algorithms are two commonly used search strategies, but they suffer from computationally expensive, challenge to implement or inefficient exploration ability. In this paper, we propose a neural predictor guided evolutionary algorithm to enhance the exploration ability of EA for NAS (NPENAS) and design two kinds of neural predictors. The first predictor is defined from Bayesian optimization and we propose a graph-based uncertainty estimation network as a surrogate model that is easy to implement and computationally efficient. The second predictor is a graph-based neural network that directly outputs the performance prediction of the input neural architecture. The NPENAS using the two neural predictors are denoted as NPENAS-BO and NPENAS-NP respectively. In addition, we introduce a new random architecture sampling method to overcome the drawbacks of the existing sampling method. Extensive experiments demonstrate the superiority of NPENAS. Quantitative results on three NAS search spaces indicate that both NPENAS-BO and NPENAS-NP outperform most existing NAS algorithms, with NPENAS-BO achieving state-of-the-art performance on NASBench-201 and NPENAS-NP on NASBench-101 and DARTS, respectively.
翻訳日:2022-12-18 23:21:32 公開日:2020-09-10
# ハンド・オブジェクト間インタラクションによる3次元手ポーズ推定のための非知覚視点・調音・形状・物体の一般化

Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and Objects for 3D Hand Pose Estimation under Hand-Object Interaction ( http://arxiv.org/abs/2003.13764v2 )

ライセンス: Link先を確認
Anil Armagan, Guillermo Garcia-Hernando, Seungryul Baek, Shreyas Hampali, Mahdi Rad, Zhaohui Zhang, Shipeng Xie, MingXiu Chen, Boshen Zhang, Fu Xiong, Yang Xiao, Zhiguo Cao, Junsong Yuan, Pengfei Ren, Weiting Huang, Haifeng Sun, Marek Hr\'uz, Jakub Kanis, Zden\v{e}k Kr\v{n}oul, Qingfu Wan, Shile Li, Linlin Yang, Dongheui Lee, Angela Yao, Weiguo Zhou, Sijia Mei, Yunhui Liu, Adrian Spurr, Umar Iqbal, Pavlo Molchanov, Philippe Weinzaepfel, Romain Br\'egier, Gr\'egory Rogez, Vincent Lepetit, Tae-Kyun Kim(参考訳) 本研究では,手動3次元手動ポーズ推定の課題において,手動のシナリオと手動物体の相互作用において,異なるタイプのアプローチがいかに一般化するかを検討する。 本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。 残念ながら、手ポーズの空間は高次元であるため、大規模なトレーニングデータセットの収集に最近取り組んでいるにもかかわらず、本質的に全空間を密にカバーすることは不可能である。 RGB画像は照明条件や色によっても異なるため、手と物体や入力が深度画像ではなくRGBである場合、このサンプリング問題はさらに深刻である。 これらの課題に対処するため,我々は,現在の3次元ポーズ推定器(HPE)の能力を評価するために,公開課題(HANDS'19)を設計した。 より正確には、hands'19は (a)被写体の有無にかかわらず、3次元手振り推定における深度及び色調の影響を評価すること b) 一般化能力を評価するために,w.r.t.の4つの主要な軸:形状,調音,視点及び対象 (c) 現在のデータセットのギャップを埋めるための合成ハンドモデルの使用を検討する。 この課題により、ベースライン、特に外挿作業において、全体の精度が27mmから13mmの平均ジョイントエラーに劇的に向上した。 データ前処理、アンサンブルアプローチ、パラメトリック3dハンドモデル(mano)、異なるhpeメソッド/バックボーンの使用などの影響について分析を行った。

We study how well different types of approaches generalise in the task of 3D hand pose estimation under single hand scenarios and hand-object interaction. We show that the accuracy of state-of-the-art methods can drop, and that they fail mostly on poses absent from the training set. Unfortunately, since the space of hand poses is highly dimensional, it is inherently not feasible to cover the whole space densely, despite recent efforts in collecting large-scale training datasets. This sampling problem is even more severe when hands are interacting with objects and/or inputs are RGB rather than depth images, as RGB images also vary with lighting conditions and colors. To address these issues, we designed a public challenge (HANDS'19) to evaluate the abilities of current 3D hand pose estimators (HPEs) to interpolate and extrapolate the poses of a training set. More exactly, HANDS'19 is designed (a) to evaluate the influence of both depth and color modalities on 3D hand pose estimation, under the presence or absence of objects; (b) to assess the generalisation abilities w.r.t. four main axes: shapes, articulations, viewpoints, and objects; (c) to explore the use of a synthetic hand model to fill the gaps of current datasets. Through the challenge, the overall accuracy has dramatically improved over the baseline, especially on extrapolation tasks, from 27mm to 13mm mean joint error. Our analyses highlight the impacts of: Data pre-processing, ensemble approaches, the use of a parametric 3D hand model (MANO), and different HPE methods/backbones.
翻訳日:2022-12-18 08:14:00 公開日:2020-09-10
# 重み付き有向ネットワークのモチーフに基づくスペクトルクラスタリング

Motif-Based Spectral Clustering of Weighted Directed Networks ( http://arxiv.org/abs/2004.01293v2 )

ライセンス: Link先を確認
William George Underwood, Andrew Elliott, Mihai Cucuringu(参考訳) クラスタリングは、様々な分野の応用において、ネットワーク分析に不可欠な技術である。 スペクトルクラスタリングは一般的かつ効果的な手法であるが、高次構造を考慮せず、有向ネットワークでは性能が低下する。 一つのアプローチは、モチーフ隣接行列を用いて高次構造を捕捉し、クラスタ化することである。 しかし、現在の定式化ではエッジウェイトが考慮されていないため、研究中のネットワークの重要なコンポーネントである重みが制限されている。 モチーフに基づく重み付きスペクトルクラスタリング手法の探索により,これらの欠点に対処する。 重み付きネットワーク上での隣接行列をモチーフにするための新しい,計算に有用な行列式を提案し,三つのノード上のアンカー付きあるいは非アンカー付きモチーフに対して効率的なアルゴリズムを構築するのに使用できる。 非常にスパースな方法では、提案手法は100万のノードと数千万のエッジを持つグラフを処理できる。 さらに,2部ネットワークをクラスタリングするためのモチーフベースアプローチの構築に,このフレームワークを活用した。 総合的な実験結果を提供し 実証し (i)我々のアプローチのスケーラビリティ。 (ii) 合成例における高次クラスタリングの利点 (iii)様々な実世界のデータセットにおける我々の手法の有効性について、文献から得られたいくつかの手法と比較する。 モチーフベースのスペクトルクラスタリングは、拡張性と実装が容易な有向重み付きネットワークの解析に有用なツールである、と結論付けている。

Clustering is an essential technique for network analysis, with applications in a diverse range of fields. Although spectral clustering is a popular and effective method, it fails to consider higher-order structure and can perform poorly on directed networks. One approach is to capture and cluster higher-order structures using motif adjacency matrices. However, current formulations fail to take edge weights into account, and thus are somewhat limited when weight is a key component of the network under study. We address these shortcomings by exploring motif-based weighted spectral clustering methods. We present new and computationally useful matrix formulae for motif adjacency matrices on weighted networks, which can be used to construct efficient algorithms for any anchored or non-anchored motif on three nodes. In a very sparse regime, our proposed method can handle graphs with a million nodes and tens of millions of edges. We further use our framework to construct a motif-based approach for clustering bipartite networks. We provide comprehensive experimental results, demonstrating (i) the scalability of our approach, (ii) advantages of higher-order clustering on synthetic examples, and (iii) the effectiveness of our techniques on a variety of real world data sets; and compare against several techniques from the literature. We conclude that motif-based spectral clustering is a valuable tool for analysis of directed and bipartite weighted networks, which is also scalable and easy to implement.
翻訳日:2022-12-17 10:05:46 公開日:2020-09-10
# DiVA:Deep Metric Learningのための多様な視覚的特徴集約

DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning ( http://arxiv.org/abs/2004.13458v4 )

ライセンス: Link先を確認
Timo Milbich, Karsten Roth, Homanga Bharadhwaj, Samarth Sinha, Yoshua Bengio, Bj\"orn Ommer, and Joseph Paul Cohen(参考訳) 視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。 ディープラーニング(DML)は、トレーニングデータから同一分散テスト分布への一般化だけでなく、特に未知のテストクラスへの変換といった類似性を学習するための強力なフレームワークである。 しかし、その一般的な学習パラダイムは、クラス差別的教師付きトレーニングであり、通常、トレーニングクラスを分離する専門的な表現となる。 しかし、効果的な一般化のためには、そのような画像表現は多様なデータ特性を捉える必要がある。 そこで本研究では,標準DML設定のトレーニングサンプルとラベルのみを用いて,概念的に異なるデータ関係を目標とした複数の補完学習タスクを提案し,研究する。 タスクの同時最適化を通じて、トレーニング信号を集約する単一モデルを学び、複数の確立されたDMLベンチマークデータセット上で、強力な一般化と最先端のパフォーマンスをもたらす。

Visual Similarity plays an important role in many computer vision applications. Deep metric learning (DML) is a powerful framework for learning such similarities which not only generalize from training data to identically distributed test distributions, but in particular also translate to unknown test classes. However, its prevailing learning paradigm is class-discriminative supervised training, which typically results in representations specialized in separating training classes. For effective generalization, however, such an image representation needs to capture a diverse range of data characteristics. To this end, we propose and study multiple complementary learning tasks, targeting conceptually different data relationships by only resorting to the available training samples and labels of a standard DML setting. Through simultaneous optimization of our tasks we learn a single model to aggregate their training signals, resulting in strong generalization and state-of-the-art performance on multiple established DML benchmark datasets.
翻訳日:2022-12-08 23:28:17 公開日:2020-09-10
# キーターンにおける知識のある対話読解

Knowledgeable Dialogue Reading Comprehension on Key Turns ( http://arxiv.org/abs/2004.13988v2 )

ライセンス: Link先を確認
Junlong Li, Zhuosheng Zhang, Hai Zhao(参考訳) MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。 本研究は,多段対話である対話型mrcに注目した。 これは2つの課題に悩まされ、答えの選択決定は、最近有効なコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。 この研究は、重要なターンを抽出し、文脈の表現を強化するために外部知識を活用することによって、これらの2つの課題に取り組む最初の試みである。 本稿では,質問に対する各ターンの関連性を計算し,キーターンを選択する。 また、知識グラフにおける文脈と質問に関する用語を外部知識として抽出する。 元の文脈、質問、外部知識は事前訓練された言語モデルとエンコードされ、言語表現とキーターンは、その答えを予測する意志設計のメカニズムと組み合わせられる。 DREAMデータセットによる実験結果から,提案モデルがベースラインの大幅な改善を実現することが示された。

Multi-choice machine reading comprehension (MRC) requires models to choose the correct answer from candidate options given a passage and a question. Our research focuses dialogue-based MRC, where the passages are multi-turn dialogues. It suffers from two challenges, the answer selection decision is made without support of latently helpful commonsense, and the multi-turn context may hide considerable irrelevant information. This work thus makes the first attempt to tackle those two challenges by extracting substantially important turns and utilizing external knowledge to enhance the representation of context. In this paper, the relevance of each turn to the question are calculated to choose key turns. Besides, terms related to the context and the question in a knowledge graph are extracted as external knowledge. The original context, question and external knowledge are encoded with the pre-trained language model, then the language representation and key turns are combined together with a will-designed mechanism to predict the answer. Experimental results on a DREAM dataset show that our proposed model achieves great improvements on baselines.
翻訳日:2022-12-08 13:33:32 公開日:2020-09-10
# BERTを用いた側情報を用いた遠距離スーパービジョンニューラルリレーション抽出

Distantly-Supervised Neural Relation Extraction with Side Information using BERT ( http://arxiv.org/abs/2004.14443v3 )

ライセンス: Link先を確認
Johny Moreira, Chaina Oliveira, David Mac\^edo, Cleber Zanchettin, Luciano Barbosa(参考訳) 関係抽出(Relation extract、RE)は、文内のエンティティ間の関係を分類する。 関係抽出器を開発するための最近のパラダイムは、テキストコーパスと知識ベース(kb)をアライメントすることで、新しいデータセットを自動的に作成できる遠方監督(ds)である。 KBは時にREタスクに追加情報を提供することもある。 この戦略を採用する方法の1つにRESIDEモデルがあり、KBの側情報を用いた遠隔教師付きニューラルネットワーク抽出を提案する。 本稿では,この手法が最先端のベースラインより優れていることを考慮し,追加の側情報を用いたRESIDE関連手法を提案するが,BERT埋め込みによる文エンコーディングは簡単である。 実験を通じて,Google Distant Supervision と Riedel のデータセットにおいて,BGWA と RESIDE のベースライン手法に関する提案手法の有効性を示す。 不均衡データセットのため、曲線の下の領域は減少するが、p@nの結果は、文のエンコーディングとしてbertを使用することで、ベースラインメソッドのパフォーマンスが向上することを示している。

Relation extraction (RE) consists in categorizing the relationship between entities in a sentence. A recent paradigm to develop relation extractors is Distant Supervision (DS), which allows the automatic creation of new datasets by taking an alignment between a text corpus and a Knowledge Base (KB). KBs can sometimes also provide additional information to the RE task. One of the methods that adopt this strategy is the RESIDE model, which proposes a distantly-supervised neural relation extraction using side information from KBs. Considering that this method outperformed state-of-the-art baselines, in this paper, we propose a related approach to RESIDE also using additional side information, but simplifying the sentence encoding with BERT embeddings. Through experiments, we show the effectiveness of the proposed method in Google Distant Supervision and Riedel datasets concerning the BGWA and RESIDE baseline methods. Although Area Under the Curve is decreased because of unbalanced datasets, P@N results have shown that the use of BERT as sentence encoding allows superior performance to baseline methods.
翻訳日:2022-12-08 13:17:50 公開日:2020-09-10
# 言語モデルを導入してブランクに埋め込む

Enabling Language Models to Fill in the Blanks ( http://arxiv.org/abs/2005.05339v2 )

ライセンス: Link先を確認
Chris Donahue, Mina Lee, Percy Liang(参考訳) 文書中の任意の位置におけるテキストの欠落スパンを予測するタスクである,テキストインフィルディングに対する単純なアプローチを提案する。 インフィルは、特に補助ツールを書くためにリッチな機能を実現できるが、言語モデリングにもっと注意が向けられている。 本稿では,言語モデル(LM)の能力を,より一般的な埋め込み作業にまで拡張することを目的とする。 この目的のために,人工的にマスクされたテキストとマスクされたテキストの結合を含むシーケンス上で,市販のlmsを訓練(あるいは微調整)する。 言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。 さらに,人間は,短編の領域における機械生成のアプローチによって埋め込まれた文の識別が困難であることを示す。

We present a simple approach for text infilling, the task of predicting missing spans of text at any position in a document. While infilling could enable rich functionality especially for writing assistance tools, more attention has been devoted to language modeling---a special case of infilling where text is predicted at the end of a document. In this paper, we aim to extend the capabilities of language models (LMs) to the more general task of infilling. To this end, we train (or fine-tune) off-the-shelf LMs on sequences containing the concatenation of artificially-masked text and the text which was masked. We show that this approach, which we call infilling by language modeling, can enable LMs to infill entire sentences effectively on three different domains: short stories, scientific abstracts, and lyrics. Furthermore, we show that humans have difficulty identifying sentences infilled by our approach as machine-generated in the domain of short stories.
翻訳日:2022-12-04 19:17:02 公開日:2020-09-10
# カーネルによるペアワイズ学習によるディープラーニングのモジュール化

Modularizing Deep Learning via Pairwise Learning With Kernels ( http://arxiv.org/abs/2005.05541v2 )

ライセンス: Link先を確認
Shiyu Duan, Shujian Yu, Jose Principe(参考訳) 従来の階層の概念を再定義することにより、有限幅で完全に訓練可能なディープニューラルネットワークを特徴空間に積み重ねた線形モデルとして表現し、カーネルマシンの解釈をもたらす。 この構成に基づき,モジュール間バックプロパゲーションを必要としない分類のための最適モジュール学習フレームワークを提案する。 このモジュラーアプローチは、ディープラーニングのラベル要件に新たな洞察をもたらします。 一方、出力モジュールをトレーニングする場合、完全な監督を必要とするが、ResNet-18バックボーンを使用してCIFAR-10上で94.88%の精度を達成するために、10個のランダムに選択されたラベル付きサンプル(各クラスから1つ)を必要とするため、高いラベル効率を達成する。 さらに、モジュラートレーニングは、完全にモジュール化されたディープラーニングワークフローを可能にし、パイプラインの設計と実装を簡素化し、モデルの保守性と再利用性を改善する。 このようなモジュール化ワークフローの利点を示すために,本研究では,事前学習されたモジュールの再利用性やタスク転送性を評価するための簡易かつ信頼性の高い手法について述べる。 計算オーバーヘッドは実質的になく、CIFAR-10から15のバイナリ分類タスクのタスク空間構造を正確に記述した。

By redefining the conventional notions of layers, we present an alternative view on finitely wide, fully trainable deep neural networks as stacked linear models in feature spaces, leading to a kernel machine interpretation. Based on this construction, we then propose a provably optimal modular learning framework for classification that does not require between-module backpropagation. This modular approach brings new insights into the label requirement of deep learning: It leverages only implicit pairwise labels (weak supervision) when learning the hidden modules. When training the output module, on the other hand, it requires full supervision but achieves high label efficiency, needing as few as 10 randomly selected labeled examples (one from each class) to achieve 94.88% accuracy on CIFAR-10 using a ResNet-18 backbone. Moreover, modular training enables fully modularized deep learning workflows, which then simplify the design and implementation of pipelines and improve the maintainability and reusability of models. To showcase the advantages of such a modularized workflow, we describe a simple yet reliable method for estimating reusability of pre-trained modules as well as task transferability in a transfer learning setting. At practically no computation overhead, it precisely described the task space structure of 15 binary classification tasks from CIFAR-10.
翻訳日:2022-12-03 18:13:51 公開日:2020-09-10
# 単語外語彙検索のためのサブワードRNNLM近似

Subword RNNLM Approximations for Out-Of-Vocabulary Keyword Search ( http://arxiv.org/abs/2005.13827v2 )

ライセンス: Link先を確認
Mittul Singh, Sami Virpioja, Peter Smit, Mikko Kurimo(参考訳) 音声キーワード検索では、このクエリは音声認識システムの訓練時に観察されない語彙外単語(OOV)を含むことができる。 サブワード言語モデル(LM)をファーストパス認識で使用することで、OOVワードを認識できるが、サブワードのn-gram LMでさえデータ間隔に悩まされる。 リカレントニューラルネットワーク(RNN) LMは、スパーシリティ問題を緩和するが、ファーストパス認識には適さない。 この問題を解決する方法の1つは、n-gramモデルのバックオフによるRNNLMの近似である。 本稿では,従来のn-gramモデルとRNNLM近似を補間してOOV認識を改善することを提案する。 さらに, 単語単位に適した新しいrnnlm近似法を開発し, 長スパン近似を含む可変次 n-gram を生成し, トレーニングコーパスでは当初観測されなかった n-gram も考慮した。 これらのモデルをoov上で評価するために,アラビア語とフィンランド語のキーワード検索タスクをoov単語のみに設定した。 これらのタスクにおいて、ベースライン RNNLM 近似と従来の LM の補間は、単一文字サブワードの最大項重み値において従来の LM よりも優れている。 さらに,ベースライン近似を提案手法に置き換えることで,複数文字と単一文字のサブワードで最高の性能が得られる。

In spoken Keyword Search, the query may contain out-of-vocabulary (OOV) words not observed when training the speech recognition system. Using subword language models (LMs) in the first-pass recognition makes it possible to recognize the OOV words, but even the subword n-gram LMs suffer from data sparsity. Recurrent Neural Network (RNN) LMs alleviate the sparsity problems but are not suitable for first-pass recognition as such. One way to solve this is to approximate the RNNLMs by back-off n-gram models. In this paper, we propose to interpolate the conventional n-gram models and the RNNLM approximation for better OOV recognition. Furthermore, we develop a new RNNLM approximation method suitable for subword units: It produces variable-order n-grams to include long-span approximations and considers also n-grams that were not originally observed in the training corpus. To evaluate these models on OOVs, we setup Arabic and Finnish Keyword Search tasks concentrating only on OOV words. On these tasks, interpolating the baseline RNNLM approximation and a conventional LM outperforms the conventional LM in terms of the Maximum Term Weighted Value for single-character subwords. Moreover, replacing the baseline approximation with the proposed method achieves the best performance on both multi- and single-character subwords.
翻訳日:2022-11-27 05:47:57 公開日:2020-09-10
# リコメンダシステムのための微分可能なニューラル入力探索

Differentiable Neural Input Search for Recommender Systems ( http://arxiv.org/abs/2006.04466v2 )

ライセンス: Link先を確認
Weiyu Cheng, Yanyan Shen, Linpeng Huang(参考訳) 潜在因子モデルは最先端のレコメンデータシステムの駆動力であり、生の入力特徴を密接な埋め込みにベクトル化する重要な知見である。 異なる特徴埋め込みの次元は、しばしば経験的に同じ値に設定されるため、潜在因子モデルの予測性能が制限される。 既存の研究は、複合特徴埋め込み次元を探索するためのヒューリスティックあるいは強化学習に基づく手法を提案している。 効率性に関して、これらの手法は通常、制限された候補次元の集合から埋め込み次元を選択する。 しかし、この制限は次元選択の柔軟性を損なうことになり、検索結果の最適でない性能につながる。 本稿では,連続緩和と微分可能最適化により,より柔軟な空間における混合特徴埋め込み次元を探索する手法である微分可能ニューラルネットワーク入力探索(dnis)を提案する。 重要なアイデアは、各埋め込み次元の重要度を制御するソフト選択層を導入し、モデルの検証性能に応じてこの層を最適化することだ。 DNISはモデルに依存しないため、既存の潜在因子モデルとシームレスに統合して推奨することができる。 レーティング予測,CTR(Click-Through-Rate)予測,トップk項目推奨の3つの公開実世界のデータセット上で,潜在因子モデルの様々なアーキテクチャを用いて実験を行った。 提案手法は, 埋込パラメータが少なく, 時間コストも少ない既存のニューラルネットワーク探索手法と比較して, 最高の予測性能が得られることを示す。

Latent factor models are the driving forces of the state-of-the-art recommender systems, with an important insight of vectorizing raw input features into dense embeddings. The dimensions of different feature embeddings are often set to a same value empirically, which limits the predictive performance of latent factor models. Existing works have proposed heuristic or reinforcement learning-based methods to search for mixed feature embedding dimensions. For efficiency concern, these methods typically choose embedding dimensions from a restricted set of candidate dimensions. However, this restriction will hurt the flexibility of dimension selection, leading to suboptimal performance of search results. In this paper, we propose Differentiable Neural Input Search (DNIS), a method that searches for mixed feature embedding dimensions in a more flexible space through continuous relaxation and differentiable optimization. The key idea is to introduce a soft selection layer that controls the significance of each embedding dimension, and optimize this layer according to model's validation performance. DNIS is model-agnostic and thus can be seamlessly incorporated with existing latent factor models for recommendation. We conduct experiments with various architectures of latent factor models on three public real-world datasets for rating prediction, Click-Through-Rate (CTR) prediction, and top-k item recommendation. The results demonstrate that our method achieves the best predictive performance compared with existing neural input search approaches with fewer embedding parameters and less time cost.
翻訳日:2022-11-24 02:37:04 公開日:2020-09-10
# 候補親集合のプルーニングによる高次元ベイズネットワーク構造の近似学習

Approximate learning of high dimensional Bayesian network structures via pruning of Candidate Parent Sets ( http://arxiv.org/abs/2006.04753v2 )

ライセンス: Link先を確認
Zhigao Guo and Anthony C. Constantinou(参考訳) ベイズネットワーク(bn)構造を学ぶスコアベースのアルゴリズムは、近似学習の異なるレベルから正確な学習まで幅広い解を提供する。 正確な学習は一般的に適度または高い複雑性のネットワークに適用できないため、近似解が存在する。 一般に、近似解は速度の精度を犠牲にし、その目的は精度の損失を最小化し、速度の利得を最大化することである。 いくつかの近似アルゴリズムは数千の変数を扱うように最適化されているが、これらのアルゴリズムはそのような高次元構造を学べない可能性がある。 最も効率的なスコアベースアルゴリズムのいくつかは、構造学習問題を候補親集合の組合せ最適化として位置づけている。 本稿では,高次元問題を対象とした親集合のサイズ決定戦略について検討する。 以上の結果から,プルーニングのレベルの違いがモデルフィッティングの精度の低下に対して学習速度にどのように影響するかを示し,高い複雑性問題に対する近似解を生成するためには,アグレッシブプルーニングが必要であることを示した。

Score-based algorithms that learn Bayesian Network (BN) structures provide solutions ranging from different levels of approximate learning to exact learning. Approximate solutions exist because exact learning is generally not applicable to networks of moderate or higher complexity. In general, approximate solutions tend to sacrifice accuracy for speed, where the aim is to minimise the loss in accuracy and maximise the gain in speed. While some approximate algorithms are optimised to handle thousands of variables, these algorithms may still be unable to learn such high dimensional structures. Some of the most efficient score-based algorithms cast the structure learning problem as a combinatorial optimisation of candidate parent sets. This paper explores a strategy towards pruning the size of candidate parent sets, aimed at high dimensionality problems. The results illustrate how different levels of pruning affect the learning speed relative to the loss in accuracy in terms of model fitting, and show that aggressive pruning may be required to produce approximate solutions for high complexity problems.
翻訳日:2022-11-24 01:16:05 公開日:2020-09-10
# bootstrap your own latent: 自己教師付き学習への新しいアプローチ

Bootstrap your own latent: A new approach to self-supervised Learning ( http://arxiv.org/abs/2006.07733v3 )

ライセンス: Link先を確認
Jean-Bastien Grill, Florian Strub, Florent Altch\'e, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, R\'emi Munos, Michal Valko(参考訳) 自己教師付き画像表現学習の新しいアプローチであるbootstrap your own latent (byol)を導入する。 BYOLはオンラインとターゲットネットワークと呼ばれる2つのニューラルネットワークに依存し、互いに対話し、学習する。 画像の拡張ビューから、オンラインネットワークを訓練し、異なる拡張ビューの下で同じ画像のターゲットネットワーク表現を予測する。 同時に、ターゲットネットワークをオンラインネットワークの遅い平均値で更新する。 最先端の技法は負の対に依存するが、byolはそれらなしで新しい状態の芸術を実現する。 byolは、resnet-50アーキテクチャによる線形評価とより大きなresnetによる79.6\%$を使用して、imagenetで74.3\%$ top-1分類精度に達した。 BYOLは、転送と半教師付きベンチマークの両方において、現在の最先端技術よりも同等以上のパフォーマンスを示す。 実装と事前トレーニングされたモデルはgithubで提供されている。

We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches $74.3\%$ top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and $79.6\%$ with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub.
翻訳日:2022-11-21 20:23:23 公開日:2020-09-10
# 分離可能なデータに対する勾配法

Gradient Methods Never Overfit On Separable Data ( http://arxiv.org/abs/2007.00028v2 )

ライセンス: Link先を確認
Ohad Shamir(参考訳) 最近の一連の研究は、線形予測器を分離可能なデータよりも訓練するとき、勾配法と指数関数的尾尾損失を用いて、予測器は漸近的に最大マージン予測器に収束することを示した。 その結果、予測器は漸近的に過度に適合しない。 しかし、これはオーバーフィッティングが非漸近的に起こるかどうかという問題には対処しない。 In this paper, we formally show that standard gradient methods (in particular, gradient flow, gradient descent and stochastic gradient descent) never overfit on separable data: If we run these methods for $T$ iterations on a dataset of size $m$, both the empirical risk and the generalization error decrease at an essentially optimal rate of $\tilde{\mathcal{O}}(1/\gamma^2 T)$ up till $T\approx m$, at which point the generalization error remains fixed at an essentially optimal level of $\tilde{\mathcal{O}}(1/\gamma^2 m)$ regardless of how large $T$ is. その過程で,データセット上のマージン違反数に対する非漸近的境界を示し,その厳密性を証明する。

A line of recent works established that when training linear predictors over separable data, using gradient methods and exponentially-tailed losses, the predictors asymptotically converge in direction to the max-margin predictor. As a consequence, the predictors asymptotically do not overfit. However, this does not address the question of whether overfitting might occur non-asymptotically, after some bounded number of iterations. In this paper, we formally show that standard gradient methods (in particular, gradient flow, gradient descent and stochastic gradient descent) never overfit on separable data: If we run these methods for $T$ iterations on a dataset of size $m$, both the empirical risk and the generalization error decrease at an essentially optimal rate of $\tilde{\mathcal{O}}(1/\gamma^2 T)$ up till $T\approx m$, at which point the generalization error remains fixed at an essentially optimal level of $\tilde{\mathcal{O}}(1/\gamma^2 m)$ regardless of how large $T$ is. Along the way, we present non-asymptotic bounds on the number of margin violations over the dataset, and prove their tightness.
翻訳日:2022-11-15 04:53:11 公開日:2020-09-10
# ロボット手術におけるグラフ構造表現による学習と推論

Learning and Reasoning with the Graph Structure Representation in Robotic Surgery ( http://arxiv.org/abs/2007.03357v3 )

ライセンス: Link先を確認
Mobarakol Islam, Lalithkumar Seenivasan, Lim Chwee Ming, Hongliang Ren(参考訳) 複雑な手術環境におけるグラフ表現の推論と空間推論の学習は,ロボット手術における外科的シーン理解において重要な役割を果たす。 そこで我々は,ロボット支援手術において,シーングラフを作成し,機器と手術領域(ROI)間の外科的相互作用を予測する手法を開発した。 我々は注意リンク関数を設計し、手術的相互作用を認識するためにグラフ解析ネットワークと統合する。 各ノードに対応するノードの特徴を埋め込むため、SageConvをさらにネットワークに組み込む。 シーングラフの生成とアクティブエッジ分類は、主に複雑な画像表現からのノードとエッジの特徴の埋め込みや特徴抽出に依存する。 本稿では,重み付き損失を緩和するラベルを用いた特徴抽出手法を実証的に示す。 ハードラベルを平滑にすることで、モデルの過信予測を回避でき、最後尾層で学習した特徴表現を強化することができる。 グラフシーンラベルを得るために,ロボットシーンセグメンテーションチャレンジ2018データセットのバウンディングボックスと計器-ROI相互作用を,ロボット手術の経験豊富な臨床専門家とアノテートし,提案事項を評価する。

Learning to infer graph representations and performing spatial reasoning in a complex surgical environment can play a vital role in surgical scene understanding in robotic surgery. For this purpose, we develop an approach to generate the scene graph and predict surgical interactions between instruments and surgical region of interest (ROI) during robot-assisted surgery. We design an attention link function and integrate with a graph parsing network to recognize the surgical interactions. To embed each node with corresponding neighbouring node features, we further incorporate SageConv into the network. The scene graph generation and active edge classification mostly depend on the embedding or feature extraction of node and edge features from complex image representation. Here, we empirically demonstrate the feature extraction methods by employing label smoothing weighted loss. Smoothing the hard label can avoid the over-confident prediction of the model and enhances the feature representation learned by the penultimate layer. To obtain the graph scene label, we annotate the bounding box and the instrument-ROI interactions on the robotic scene segmentation challenge 2018 dataset with an experienced clinical expert in robotic surgery and employ it to evaluate our propositions.
翻訳日:2022-11-12 20:16:39 公開日:2020-09-10
# 都市全体の配車需要予測のための深層多視点時空間グラフニューラルネットワーク

Deep Multi-View Spatiotemporal Virtual Graph Neural Network for Significant Citywide Ride-hailing Demand Prediction ( http://arxiv.org/abs/2007.15189v5 )

ライセンス: Link先を確認
Guangyin Jin, Zhexu Xi, Hengyu Sha, Yanghe Feng, Jincai Huang(参考訳) 都市における配車需要予測は、インテリジェントな交通システム構築において不可欠だが困難な課題である。 予測可能な配車需要は、より合理的な車両スケジューリングとオンライン配車プラットフォームディスパッチを促進する。 従来の外部構造データを持たない深層学習手法は,CNNとRNNのハイブリッドモデルを用いて,豊富なピクセルレベルのラベル付きデータをメッシュ化することで実現可能だ。 これらの制約に対処するために,重要な需要領域に焦点を当てた新しい仮想グラフモデリング手法と,空間ダイナミクスと時間的長期依存の学習能力を強化するための新しい深層多視点時空間仮想グラフニューラルネットワーク(dmvst-vgnn)を提案する。 具体的には、dmvst-vgnnは、1次元畳み込みニューラルネットワーク、多グラフ注意ニューラルネットワーク、トランスフォーマーレイヤの構造を統合しており、それぞれ、短期的時間ダイナミクスビュー、空間ダイナミクスビュー、長期的時間ダイナミクスビューに対応している。 本稿では,ニューヨーク市の2つの大規模データセットについて,細粒度予測場面で実験を行った。 また, 都市全体の配車需要予測において, DMVST-VGNNフレームワークの有効性と優位性を示した。

Urban ride-hailing demand prediction is a crucial but challenging task for intelligent transportation system construction. Predictable ride-hailing demand can facilitate more reasonable vehicle scheduling and online car-hailing platform dispatch. Conventional deep learning methods with no external structured data can be accomplished via hybrid models of CNNs and RNNs by meshing plentiful pixel-level labeled data, but spatial data sparsity and limited learning capabilities on temporal long-term dependencies are still two striking bottlenecks. To address these limitations, we propose a new virtual graph modeling method to focus on significant demand regions and a novel Deep Multi-View Spatiotemporal Virtual Graph Neural Network (DMVST-VGNN) to strengthen learning capabilities of spatial dynamics and temporal long-term dependencies. Specifically, DMVST-VGNN integrates the structures of 1D Convolutional Neural Network, Multi Graph Attention Neural Network and Transformer layer, which correspond to short-term temporal dynamics view, spatial dynamics view and long-term temporal dynamics view respectively. In this paper, experiments are conducted on two large-scale New York City datasets in fine-grained prediction scenes. And the experimental results demonstrate effectiveness and superiority of DMVST-VGNN framework in significant citywide ride-hailing demand prediction.
翻訳日:2022-11-05 13:12:39 公開日:2020-09-10
# 大規模光度バンドル調整

Large Scale Photometric Bundle Adjustment ( http://arxiv.org/abs/2008.11762v2 )

ライセンス: Link先を確認
Oliver J. Woodford, Edward Rosten(参考訳) 直接手法は視覚計測とSLAMを約束しており、特徴に基づく手法よりも精度と堅牢性が高い。 しかし、インターネット画像からのオフラインの3次元再構成は、密度幾何やカメラパラメーターに対するジョイントなフォトメトリック最適化の恩恵を受けていない。 明るさのコンテンシーの欠如や膨大なデータ量といった問題は、この課題をより困難なものにします。 本研究は、局所的な照明変化に不変な測光コストを用いて、数百万のシーンポイントと数百のカメラポーズとインテラルを共同で最適化する枠組みを提案する。 大規模タンク・アンド・テンプルスベンチマークでは,特徴量に基づくバンドル調整よりも提案するメートル法再建精度の向上が示されている。 我々はさらに,インターネット写真収集における質的再構成の改善を実証し,照明やカメラ内在性の多様性に挑戦する。

Direct methods have shown promise on visual odometry and SLAM, leading to greater accuracy and robustness over feature-based methods. However, offline 3-d reconstruction from internet images has not yet benefited from a joint, photometric optimization over dense geometry and camera parameters. Issues such as the lack of brightness constancy, and the sheer volume of data, make this a more challenging task. This work presents a framework for jointly optimizing millions of scene points and hundreds of camera poses and intrinsics, using a photometric cost that is invariant to local lighting changes. The improvement in metric reconstruction accuracy that it confers over feature-based bundle adjustment is demonstrated on the large-scale Tanks & Temples benchmark. We further demonstrate qualitative reconstruction improvements on an internet photo collection, with challenging diversity in lighting and camera intrinsics.
翻訳日:2022-10-24 21:56:45 公開日:2020-09-10
# Bayesian Perceptron:完全なベイズニューラルネットワークを目指して

Bayesian Perceptron: Towards fully Bayesian Neural Networks ( http://arxiv.org/abs/2009.01730v2 )

ライセンス: Link先を確認
Marco F. Huber(参考訳) ニューラルネットワーク(NN)は、機械学習のデファクトスタンダードになっている。 多くのアプリケーションで非常に非線形な変換を学ぶことができる。 しかし、NNは通常、対応する不確実性を体系的に定量化せずに点推定のみを提供する。 本稿では, 完全ベイズ型nnsに対する新しいアプローチを提案し, パーセプトロンの訓練と予測をベイズ型推論フレームワーク内でクローズド形式で行う。 パーセプトロンの重みと予測はガウス確率変数と見なされる。 シグモイドやReLUのような一般的に用いられる活性化機能に対して、パーセプトロンの出力を予測し、重量を学習するための解析式を提供する。 このアプローチは計算コストの高い勾配計算を必要とせず、さらに逐次学習を可能にする。

Artificial neural networks (NNs) have become the de facto standard in machine learning. They allow learning highly nonlinear transformations in a plethora of applications. However, NNs usually only provide point estimates without systematically quantifying corresponding uncertainties. In this paper a novel approach towards fully Bayesian NNs is proposed, where training and predictions of a perceptron are performed within the Bayesian inference framework in closed-form. The weights and the predictions of the perceptron are considered Gaussian random variables. Analytical expressions for predicting the perceptron's output and for learning the weights are provided for commonly used activation functions like sigmoid or ReLU. This approach requires no computationally expensive gradient calculations and further allows sequential learning.
翻訳日:2022-10-22 07:07:08 公開日:2020-09-10
# 自然言語クエリによるビデオモーメント検索

Video Moment Retrieval via Natural Language Queries ( http://arxiv.org/abs/2009.02406v2 )

ライセンス: Link先を確認
Xinli Yu, Mohsen Malmir, Cynthia He, Yue Liu, Rex Wu(参考訳) 本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。この手法は,R@1メトリクス上での技量(SOTA)の状態を達成し,高いIoUメトリック(R@1,IoU=0.7)でSOTAを超える。 まず,マルチヘッド型自己アテンション機構と,ビデオ/クエリインタラクションと長距離クエリ依存性をビデオコンテキストからキャプチャするクロスアテンション方式を提案する。 注意に基づく手法は任意の位置におけるフレーム間相互作用やクエリ間相互作用を発達させ、マルチヘッド設定は複雑な依存関係を十分に理解することを保証する。 私たちのモデルはシンプルなアーキテクチャで、.NETを維持しながらより高速なトレーニングと推論を可能にします。 第2に,モーメントセグメンテーションタスク,開始/終了分布予測,開始/終了位置回帰タスクからなる複数のタスクトレーニング目標を使用することを提案する。 そこで本研究では,アノテータの不一致やモーメントセグメンテーションタスクとの共同学習により,開始/終了予測がノイズであることを確認した。 第3に,推論時間を犠牲にしてよりよい性能を実現するための早期融合手法を提案する。 しかし,モデルには効率的なトレーニングと推論を可能にする単純なアーキテクチャがあるため,推論時間は問題にならない。

In this paper, we propose a novel method for video moment retrieval (VMR) that achieves state of the arts (SOTA) performance on R@1 metrics and surpassing the SOTA on the high IoU metric (R@1, IoU=0.7). First, we propose to use a multi-head self-attention mechanism, and further a cross-attention scheme to capture video/query interaction and long-range query dependencies from video context. The attention-based methods can develop frame-to-query interaction and query-to-frame interaction at arbitrary positions and the multi-head setting ensures the sufficient understanding of complicated dependencies. Our model has a simple architecture, which enables faster training and inference while maintaining . Second, We also propose to use multiple task training objective consists of moment segmentation task, start/end distribution prediction and start/end location regression task. We have verified that start/end prediction are noisy due to annotator disagreement and joint training with moment segmentation task can provide richer information since frames inside the target clip are also utilized as positive training examples. Third, we propose to use an early fusion approach, which achieves better performance at the cost of inference time. However, the inference time will not be a problem for our model since our model has a simple architecture which enables efficient training and inference.
翻訳日:2022-10-22 01:34:48 公開日:2020-09-10
# CRBMによる欠測データによる海上交通量推定の改善

Improving Maritime Traffic Emission Estimations on Missing Data with CRBMs ( http://arxiv.org/abs/2009.03001v2 )

ライセンス: Link先を確認
Alberto Gutierrez-Torre, Josep Ll. Berral, David Buchaca, Marc Guevara, Albert Soret, David Carrera(参考訳) 海上交通の排出は、沿岸都市の空気質に大きな影響を与えるため、政府にとって大きな関心事である。 船舶は自動識別システム(AIS)を用いて、他の特徴のうちの位置と速度を連続的に報告するので、エンジンデータと組み合わせた場合、このデータは排出を推定するのに適している。 しかし、重要な船体の特徴はしばしば不正確または欠落している。 バルセロナ・スーパーコンピュータセンターのCALIOPEのような最先端の複合システムは、空気品質のモデル化に使われている。 これらのシステムは、汚染の位置を非常に正確に決定できるため、aisベースの排出モデルから恩恵を受けることができる。 残念ながら、これらのモデルは欠落または破損したデータに敏感であるため、推定精度を大幅に改善するためにデータキュレーション技術が必要である。 本研究では,条件付き制限ボルツマンマシン (crbms) と,エミッションモデルに渡されるデータの品質向上のための機械学習手法を用いて船舶データを処理する手法を提案する。 その結果、欠落データをカバーするために提案するデフォルトメソッドを改善できることがわかった。 その結果,本手法を用いることで,検出不能な放出を検出する精度が向上した。 特にスペイン港湾公社が提供するaisデータの実際のデータセットを用いて、この手法により、バルセロナで週に152トンの汚染物質を表わす追加排出量の45%を検出でき、排出モデリングを強化する可能性のある新機能を提案していると推定した。

Maritime traffic emissions are a major concern to governments as they heavily impact the Air Quality in coastal cities. Ships use the Automatic Identification System (AIS) to continuously report position and speed among other features, and therefore this data is suitable to be used to estimate emissions, if it is combined with engine data. However, important ship features are often inaccurate or missing. State-of-the-art complex systems, like CALIOPE at the Barcelona Supercomputing Center, are used to model Air Quality. These systems can benefit from AIS based emission models as they are very precise in positioning the pollution. Unfortunately, these models are sensitive to missing or corrupted data, and therefore they need data curation techniques to significantly improve the estimation accuracy. In this work, we propose a methodology for treating ship data using Conditional Restricted Boltzmann Machines (CRBMs) plus machine learning methods to improve the quality of data passed to emission models. Results show that we can improve the default methods proposed to cover missing data. In our results, we observed that using our method the models boosted their accuracy to detect otherwise undetectable emissions. In particular, we used a real data-set of AIS data, provided by the Spanish Port Authority, to estimate that thanks to our method, the model was able to detect 45% of additional emissions, of additional emissions, representing 152 tonnes of pollutants per week in Barcelona and propose new features that may enhance emission modeling.
翻訳日:2022-10-21 02:12:45 公開日:2020-09-10
# unsupervised disentanglement による教師なし部分発見

Unsupervised Part Discovery by Unsupervised Disentanglement ( http://arxiv.org/abs/2009.04264v2 )

ライセンス: Link先を確認
Sandro Braun, Patrick Esser, Bj\"orn Ommer(参考訳) 我々は,音節オブジェクトの部分分割を監督せずに発見する問題に対処する。 キーポイントとは対照的に、部分セグメンテーションは個々のピクセルのレベルにおける部分局在に関する情報を提供する。 ロケーションとセマンティクスの両方をキャプチャすることは、教師付き学習アプローチの魅力的なターゲットである。 しかし、大規模なアノテーションコストは、教師付きアルゴリズムのスケーラビリティを人間以外のオブジェクトカテゴリに制限する。 教師なしのアプローチは、もっと多くのデータを低コストで使用できる可能性がある。 既存の教師なしのアプローチのほとんどは、最終的な表現を監督して洗練される抽象表現を学ぶことに焦点を当てている。 提案手法では,物体の形状と外観を表す2つの不整形表現と部分分割のための潜在変数からなる生成モデルを利用する。 訓練されたモデルは、単一の画像から意味部分のセグメンテーションマップを推論する。 実験では,従来の最先端手法と比較し,セグメンテーション精度と形状整合性の有意な向上を観察した。 我々の研究は、監督なしに意味的部分のセグメンテーションを発見できる可能性を示している。

We address the problem of discovering part segmentations of articulated objects without supervision. In contrast to keypoints, part segmentations provide information about part localizations on the level of individual pixels. Capturing both locations and semantics, they are an attractive target for supervised learning approaches. However, large annotation costs limit the scalability of supervised algorithms to other object categories than humans. Unsupervised approaches potentially allow to use much more data at a lower cost. Most existing unsupervised approaches focus on learning abstract representations to be refined with supervision into the final representation. Our approach leverages a generative model consisting of two disentangled representations for an object's shape and appearance and a latent variable for the part segmentation. From a single image, the trained model infers a semantic part segmentation map. In experiments, we compare our approach to previous state-of-the-art approaches and observe significant gains in segmentation accuracy and shape consistency. Our work demonstrates the feasibility to discover semantic part segmentations without supervision.
翻訳日:2022-10-20 11:37:59 公開日:2020-09-10
# AWS DeepLens上でのクラウドベースのスケーラブルトランスファー学習を実現するリアルタイム植物健康評価

Real-time Plant Health Assessment Via Implementing Cloud-based Scalable Transfer Learning On AWS DeepLens ( http://arxiv.org/abs/2009.04110v2 )

ライセンス: Link先を確認
Asim Khan, Umair Nawaz, Anwaar Ulhaq and Randall W. Robinson(参考訳) 農業分野では、植物種の品質と生産に影響を及ぼし、どの国の経済にも影響を及ぼすため、植物葉病のコントロールが不可欠である。 したがって、早期の植物葉病の自動同定と分類は、経済的損失を低減し、種を保全するために不可欠である。 従来,植物葉病の検出・分類を行うため,様々な機械学習モデルが提案されてきたが,ハードウェアの不適合性,スケーラビリティの制限,実用利用における非効率性などにより,ユーザビリティに欠けていた。 提案したDeepLens Classification and Detection Model (DCDM) アプローチは,AWS SageMaker上のスケーラブルなトランスファー学習を通じて,果物(アップ,ブドウ,桃,イチゴ)および野菜(ポテト,トマト)の葉疾患の自動検出と分類を導入し,リアルタイムの実用性のためにAWS DeepLensにインポートすることで,このような制約に対処する。 クラウド統合は、我々のアプローチにスケーラビリティとユビキタスアクセスを提供します。 果実や野菜の健康・不健康な葉の広範な画像データセットに関する実験では,植物葉病のリアルタイム診断で98.78%の精度を示した。 深層学習モデルの訓練に4万枚の画像を使用し、1万枚の画像で評価した。 aws deeplensを使って病気の診断と分類のための画像をテストするプロセスは平均0.349秒で、ユーザーは1秒足らずで病気の情報を提供する。

In the Agriculture sector, control of plant leaf diseases is crucial as it influences the quality and production of plant species with an impact on the economy of any country. Therefore, automated identification and classification of plant leaf disease at an early stage is essential to reduce economic loss and to conserve the specific species. Previously, to detect and classify plant leaf disease, various Machine Learning models have been proposed; however, they lack usability due to hardware incompatibility, limited scalability and inefficiency in practical usage. Our proposed DeepLens Classification and Detection Model (DCDM) approach deal with such limitations by introducing automated detection and classification of the leaf diseases in fruits (apple, grapes, peach and strawberry) and vegetables (potato and tomato) via scalable transfer learning on AWS SageMaker and importing it on AWS DeepLens for real-time practical usability. Cloud integration provides scalability and ubiquitous access to our approach. Our experiments on extensive image data set of healthy and unhealthy leaves of fruits and vegetables showed an accuracy of 98.78% with a real-time diagnosis of plant leaves diseases. We used forty thousand images for the training of deep learning model and then evaluated it on ten thousand images. The process of testing an image for disease diagnosis and classification using AWS DeepLens on average took 0.349s, providing disease information to the user in less than a second.
翻訳日:2022-10-20 09:13:58 公開日:2020-09-10
# TRIER:脳波記録からのロバストかつ解釈可能な睡眠段階同定のためのテンプレートガイドニューラルネットワーク

TRIER: Template-Guided Neural Networks for Robust and Interpretable Sleep Stage Identification from EEG Recordings ( http://arxiv.org/abs/2009.05407v1 )

ライセンス: Link先を確認
Taeheon Lee, Jeonghwan Hwang, Honggu Lee(参考訳) ニューラルネットワークはトレーニング中にしばしば準最適表現を取得し、ロバスト性や分類性能を低下させる。 これは、生体医学領域にディープラーニングを適用する際の深刻な問題であり、モデルが不規則性やデータ不足の影響を受けやすいためである。 本研究では,睡眠ステージングタスクにおいて,この課題に対処する事前学習手法を提案する。 経験医が睡眠状態に特徴的な波形やテンプレートパターンの存在から分類するために用いた従来の手法に着想を得て,コサイン類似性に基づく畳み込みニューラルネットワークを導入し,トレーニングデータから代表波形を抽出する。 その後、これらの機能はテンプレートパターンに基づいた表現を構築するモデルを導く。 その結果,(1)分類性能が著しく向上し,(2)いくつかの面でのロバスト性が向上するため,テンプレートパターンによるニューラルネットワーク誘導は睡眠ステージングに有効な手法であることがわかった。 最後に、モデル上での解釈は、トレーニングされた専門家が活用した注目すべき特徴が、提案手法の予測中に正しく対処されていることを示した。

Neural networks often obtain sub-optimal representations during training, which degrade robustness as well as classification performances. This is a severe problem in applying deep learning to bio-medical domains, since models are vulnerable to being harmed by irregularities and scarcities in data. In this study, we propose a pre-training technique that handles this challenge in sleep staging tasks. Inspired by conventional methods that experienced physicians have used to classify sleep states from the existence of characteristic waveform shapes, or template patterns, our method introduces a cosine similarity based convolutional neural network to extract representative waveforms from training data. Afterwards, these features guide a model to construct representations based on template patterns. Through extensive experiments, we demonstrated that guiding a neural network with template patterns is an effective approach for sleep staging, since (1) classification performances are significantly enhanced and (2) robustness in several aspects are improved. Last but not least, interpretations on models showed that notable features exploited by trained experts are correctly addressed during prediction in the proposed method.
翻訳日:2022-10-20 04:21:41 公開日:2020-09-10
# 俺のためにムニストをやれ! 深層学習ブラックボックス分類器のデバッグにおけるポストホック・事例ベース説明・誤り率の影響に関するユーザ研究

Play MNIST For Me! User Studies on the Effects of Post-Hoc, Example-Based Explanations & Error Rates on Debugging a Deep Learning, Black-Box Classifier ( http://arxiv.org/abs/2009.06349v1 )

ライセンス: Link先を確認
Courtney Ford and Eoin M. Kenny and Mark T. Keane(参考訳) 本報告では, ブラックボックス分類器の誤認識に対する実例と誤り率の影響に関する2つの実験 (N=349) を報告する。 どちらの実験も、ANN CBR双対システムからケースベースの説明が与えられると、より正しく分類されていると認識されることを示している。 また、エラー率が4%を超えると、人々は分類器を信頼しなくなり、正確ではなく、合理的で、信頼性が低いとみなす。 これらの結果がXAIに与える影響について論じる。

This paper reports two experiments (N=349) on the impact of post hoc explanations by example and error rates on peoples perceptions of a black box classifier. Both experiments show that when people are given case based explanations, from an implemented ANN CBR twin system, they perceive miss classifications to be more correct. They also show that as error rates increase above 4%, people trust the classifier less and view it as being less correct, less reasonable and less trustworthy. The implications of these results for XAI are discussed.
翻訳日:2022-10-20 04:21:24 公開日:2020-09-10
# 多変量時系列における双方向LSTMを用いた新型コロナウイルスの予測

Predicting COVID-19 cases using Bidirectional LSTM on multivariate time series ( http://arxiv.org/abs/2009.12325v1 )

ライセンス: Link先を確認
Ahmed Ben Said, Abdelkarim Erradi, Hussein Aly, Abdelmonem Mohamed(参考訳) 背景:covid-19パンデミックの感染拡大を防ぐために適切な判断を下す政策立案者を支援するために,感染伝播の正確な予測が極めて重要である。 材料と方法:多変量時系列に適用したBidirectional Long Short-Term Memory (Bi-LSTM) ネットワークを用いて,COVID-19感染者の累積数を予測するための深層学習手法を提案する。 他の予測手法とは異なり、提案手法は、k平均クラスタリングアルゴリズムを用いて、人口統計学的および社会経済的な側面を持つ国と健康セクター指標を第一にグループ化する。 ロックダウン対策に関するデータに富んだクラスタ化された各国の累積ケースデータを双方向LSTMに供給し、予測モデルをトレーニングする。 結果: カタールで発生した疾患について検討し,提案手法の有効性を検証する。 複数の評価指標を用いた定量的評価は,提案手法が最先端予測手法より優れていることを示す。 結論:ロックダウン対策に加え、複数の国のデータを利用することで、毎日の累積感染者の予測の精度が向上する。

Background: To assist policy makers in taking adequate decisions to stop the spread of COVID-19 pandemic, accurate forecasting of the disease propagation is of paramount importance. Materials and Methods: This paper presents a deep learning approach to forecast the cumulative number of COVID-19 cases using Bidirectional Long Short-Term Memory (Bi-LSTM) network applied to multivariate time series. Unlike other forecasting techniques, our proposed approach first groups the countries having similar demographic and socioeconomic aspects and health sector indicators using K-Means clustering algorithm. The cumulative cases data for each clustered countries enriched with data related to the lockdown measures are fed to the Bidirectional LSTM to train the forecasting model. Results: We validate the effectiveness of the proposed approach by studying the disease outbreak in Qatar. Quantitative evaluation, using multiple evaluation metrics, shows that the proposed technique outperforms state-of-art forecasting approaches. Conclusion: Using data of multiple countries in addition to lockdown measures improve accuracy of the forecast of daily cumulative COVID-19 cases.
翻訳日:2022-10-20 04:20:41 公開日:2020-09-10
# アマゾン熱帯雨林におけるマルチモーダルノイズセグメンテーションによる火傷跡の同定

Multimodal Noisy Segmentation based fragmented burn scars identification in Amazon Rainforest ( http://arxiv.org/abs/2009.04634v1 )

ライセンス: Link先を確認
Satyam Mohla, Sidharth Mohla, Anupam Guha and Biplab Banerjee(参考訳) 熱帯雨林における森林火災による火傷跡の検出は,災害管理や生態学研究において重要である。 耕作可能な景観と多様な収穫パターンの断片化された性質は、しばしば火傷跡の正確なマッピングを妨げている。 リモートセンシングとマルチモーダルデータの可用性の最近の進歩は、このマッピング問題に対して有効な解決策を提供する。 しかし,ランドパターンの類似性,バーンマークの断片的な特徴,ノイズデータセットの部分的にラベル付けが難しいため,バーンマークをセグメント化する作業は困難である。 この作業では、マルチモーダルリモートセンシングイメージから燃焼パターを抽出できる畳み込みベースのネットワークであるAmazonNETを紹介します。 ネットワークは、よく知られたエンコーダデコーダタイプのアーキテクチャであり、生体医学的セグメンテーションでよく使われるスキップ接続を持つ。 提案フレームワークは、Amazoniaから新たに弱ラベル付きノイズデータセットをトレーニングすることで、スタックされたRGB-NIRチャネルを使用して、牧草地から燃え尽き症候群を分離する。 本モデルでは, 部分的ラベル付き火傷跡を正しく同定し, 誤ラベル付きサンプルを拒絶し, 深層学習に基づくセグメンテーションモデルをマルチモーダル火傷識別に有効活用する手法の1つとして, 優れた性能を示す。

Detection of burn marks due to wildfires in inaccessible rain forests is important for various disaster management and ecological studies. The fragmented nature of arable landscapes and diverse cropping patterns often thwart the precise mapping of burn scars. Recent advances in remote-sensing and availability of multimodal data offer a viable solution to this mapping problem. However, the task to segment burn marks is difficult because of its indistinguishably with similar looking land patterns, severe fragmented nature of burn marks and partially labelled noisy datasets. In this work we present AmazonNET -- a convolutional based network that allows extracting of burn patters from multimodal remote sensing images. The network consists of UNet: a well-known encoder decoder type of architecture with skip connections commonly used in biomedical segmentation. The proposed framework utilises stacked RGB-NIR channels to segment burn scars from the pastures by training on a new weakly labelled noisy dataset from Amazonia. Our model illustrates superior performance by correctly identifying partially labelled burn scars and rejecting incorrectly labelled samples, demonstrating our approach as one of the first to effectively utilise deep learning based segmentation models in multimodal burn scar identification.
翻訳日:2022-10-20 04:20:25 公開日:2020-09-10
# 2つのUAVからの分散可変ベースラインステレオSLAM

Distributed Variable-Baseline Stereo SLAM from two UAVs ( http://arxiv.org/abs/2009.04801v1 )

ライセンス: Link先を確認
Marco Karrer and Margarita Chli(参考訳) VIOは、特にGPSのような絶対位置測定がなければ、ロボットのナビゲーションの自動化を制御および支援するために広く使われ、研究されてきた。 しかし、高高度飛行の場合のように、現場の観測可能なランドマークがロボットのセンサースイートから遠く離れている場合、推定値の忠実さと測定スケールの可観測性はこれらの方法で大幅に低下する。 この問題に対処するために,本論文では,単眼カメラ1台とIMU1台を装備した2台のUAVを用いて,UWBモジュールを用いた視線重なりと相対距離の測定を行い,協調型VIOを実現する。 特に,2つのUAVからのベースラインの調整が可能な仮想ステレオカメラリグの形成を可能にする,新しい分散融合方式を提案する。 エージェントを自律的に制御するために,各エージェントが独自のローカルマップを保持し,11msの平均ポーズ推定レイテンシを達成し,コンセンサスに基づく最適化によってエージェントの見積の整合性を確保する分散協調推定方式を提案する。 実写シミュレーションの徹底的な評価を行ない,高度160mまでの高高度飛行におけるアプローチの有効性を実証した。 最後に,目標とする固定ベースラインに対してオンザフライのベースラインを積極的に調整することで,実験の誤差を2倍に低減できるという利点を示す。

VIO has been widely used and researched to control and aid the automation of navigation of robots especially in the absence of absolute position measurements, such as GPS. However, when observable landmarks in the scene lie far away from the robot's sensor suite, as it is the case at high altitude flights, the fidelity of estimates and the observability of the metric scale degrades greatly for these methods. Aiming to tackle this issue, in this article, we employ two UAVs equipped with one monocular camera and one IMU each, to exploit their view overlap and relative distance measurements between them using UWB modules onboard to enable collaborative VIO. In particular, we propose a novel, distributed fusion scheme enabling the formation of a virtual stereo camera rig with adjustable baseline from the two UAVs. In order to control the \gls{uav} agents autonomously, we propose a decentralized collaborative estimation scheme, where each agent hold its own local map, achieving an average pose estimation latency of 11ms, while ensuring consistency of the agents' estimates via consensus based optimization. Following a thorough evaluation on photorealistic simulations, we demonstrate the effectiveness of the approach at high altitude flights of up to 160m, going significantly beyond the capabilities of state-of-the-art VIO methods. Finally, we show the advantage of actively adjusting the baseline on-the-fly over a fixed, target baseline, reducing the error in our experiments by a factor of two.
翻訳日:2022-10-20 04:20:05 公開日:2020-09-10
# 位相サンプリングプロファイロメトリー

Phase Sampling Profilometry ( http://arxiv.org/abs/2009.05406v1 )

ライセンス: Link先を確認
Zhenzhou Wang(参考訳) 構造化光3D表面イメージング(Structured Light 3D Surface Imaging)は、構造化光パターンを用いて物体の深度マップを測定する技術である。 設計されているすべての光パターンのうち、位相パターンは高解像度で高精度であるため最も人気がある。 したがって、位相測定プロフォリメトリー(PMP)は構造光技術の主流となっている。 本稿では,位相サンプリング・プロファイロメトリ(PSP)の概念を導入し,一パターン画像のみを用いて空間周波数領域における位相を曖昧に計算する。 したがって、pspは移動物体の3d形状を単発でロバストに測定することができる。

Structured light 3D surface imaging is a school of techniques in which structured light patterns are used for measuring the depth map of the object. Among all the designed structured light patterns, phase pattern has become most popular because of its high resolution and high accuracy. Accordingly, phase measuring profolimetry (PMP) has become the mainstream of structured light technology. In this letter, we introduce the concept of phase sampling profilometry (PSP) that calculates the phase unambiguously in the spatial-frequency domain with only one pattern image. Therefore, PSP is capable of measuring the 3D shapes of the moving objects robustly with single-shot.
翻訳日:2022-10-20 04:19:21 公開日:2020-09-10
# 組織における公平な機械学習のためのフレームワーク

A Framework for Fairer Machine Learning in Organizations ( http://arxiv.org/abs/2009.04661v1 )

ライセンス: Link先を確認
Lily Morse, Mike H.M. Teodorescu, Yazeed Awwad, Gerald Kane(参考訳) 特に雇用、住宅、貸出、入場などの社会経済的重要性の結果における人間の意思決定プロセスが自動化されている場合、組織による機械学習ツールの採用が不公平なリスクを伴っている。 我々は、不公平な機械学習のソースを明らかにし、公平性基準をレビューし、もし実装すれば、組織は不公平な機械学習モデルの実装を回避できるだけでなく、アルゴリズムがより多くのデータで学び、時間が経つにつれて不公平になるという共通の状況を避けることができるフレームワークを提供する。 組織による機械学習実装における行動倫理の問題は、倫理、機械学習、管理という3つの文献に分散しているため、文献で完全には扱われていない。 さらに、機械学習における公平性基準間のトレードオフは、組織に関するものではありません。 組織における公正なアルゴリズムの選択と実装のための組織的枠組みを導入することで研究を進める。

With the increase in adoption of machine learning tools by organizations risks of unfairness abound, especially when human decision processes in outcomes of socio-economic importance such as hiring, housing, lending, and admissions are automated. We reveal sources of unfair machine learning, review fairness criteria, and provide a framework which, if implemented, would enable an organization to both avoid implementing an unfair machine learning model, but also to avoid the common situation that as an algorithm learns with more data it can become unfair over time. Issues of behavioral ethics in machine learning implementations by organizations have not been thoroughly addressed in the literature, because many of the necessary concepts are dispersed across three literatures: ethics, machine learning, and management. Further, tradeoffs between fairness criteria in machine learning have not been addressed with regards to organizations. We advance the research by introducing an organizing framework for selecting and implementing fair algorithms in organizations.
翻訳日:2022-10-20 04:13:23 公開日:2020-09-10
# バイアスランダムウォークを用いたリコメンダーシステムにおける評価予測のためのトラストウォーカーの提示:H-インデックス中心性,項目の類似性,友人性の影響

Presentation a Trust Walker for rating prediction in Recommender System with Biased Random Walk: Effects of H-index Centrality, Similarity in Items and Friends ( http://arxiv.org/abs/2009.04825v1 )

ライセンス: Link先を確認
Saman Forouzandeh, Mehrdad Rostami, Kamal Berahmand(参考訳) オンラインソーシャルネットワーク利用者の意思決定プロセスや適切な項目の選択を支援するため,レコメンダシステムの利用が劇的に増加している。 一方,多数の異なる項目があるため,利用者は広い範囲の項目を評価できないため,通常,ユーザのために作成されたマトリックスには散乱問題が存在する。 この問題を解決するために,信頼ベースのレコメンダシステムを適用し,ユーザの希望する項目のスコアを予測する。 信頼を定義するための様々な基準が検討されており、ユーザ間の信頼度は通常これらの基準に基づいて計算される。 この点において、ソーシャルネットワークにおける利用者数の多さから、全利用者の信頼度を得ることはできない。 また、この問題を解決するために、研究者はランダムウォークアルゴリズムの異なるモードを使用して、一部のユーザーをランダムに訪問し、行動を研究し、それらの間の信頼度を得る。 本研究では,対象ユーザが評価していない項目のスコアを予測し,その項目が見つからなかった場合,その項目に依存する項目を利用者に提示する信頼ベースの推薦システムを提案する。 信頼ネットワークにおいて、ノード間のエッジを重み付けて信頼度を判定し、バイアスドランダムウォーク(brw)アルゴリズムを用いてノード間を移動させる信頼ウォークを開発した。 エッジの重みはランダムなステップの選択に有効である。 本手法の実装と評価は,Epinions,Flixster,FilmTrustという3つのデータセットを用いて行われ,提案手法の高効率性を示す。

The use of recommender systems has increased dramatically to assist online social network users in the decision-making process and selecting appropriate items. On the other hand, due to many different items, users cannot score a wide range of them, and usually, there is a scattering problem for the matrix created for users. To solve the problem, the trust-based recommender systems are applied to predict the score of the desired item for the user. Various criteria have been considered to define trust, and the degree of trust between users is usually calculated based on these criteria. In this regard, it is impossible to obtain the degree of trust for all users because of the large number of them in social networks. Also, for this problem, researchers use different modes of the Random Walk algorithm to randomly visit some users, study their behavior, and gain the degree of trust between them. In the present study, a trust-based recommender system is presented that predicts the score of items that the target user has not rated, and if the item is not found, it offers the user the items dependent on that item that are also part of the user's interests. In a trusted network, by weighting the edges between the nodes, the degree of trust is determined, and a TrustWalker is developed, which uses the Biased Random Walk (BRW) algorithm to move between the nodes. The weight of the edges is effective in the selection of random steps. The implementation and evaluation of the present research method have been carried out on three datasets named Epinions, Flixster, and FilmTrust; the results reveal the high efficiency of the proposed method.
翻訳日:2022-10-20 04:13:08 公開日:2020-09-10
# 大規模グラフ埋め込みのための粗さの理解

Understanding Coarsening for Embedding Large-Scale Graphs ( http://arxiv.org/abs/2009.04925v1 )

ライセンス: Link先を確認
Taha Atahan Akyildiz, Amro Alabsi Aljundi, Kamer Kaya(参考訳) 現在のデータの大部分は、ソーシャルネットワークやweb接続など、グラフでモデル化することができます。 機械学習(ml)アルゴリズムによるグラフの適切な分析は、多くの研究や産業分野に広範囲にわたる洞察をもたらす可能性がある。 しかし、グラフデータの不規則構造は、リンク予測、ノード分類、異常検出などのグラフ上でMLタスクを実行する障害を構成する。 グラフ埋め込みは、グラフをd次元空間内のベクトルの集合として表現する計算集約的なプロセスであり、その結果、MLタスクに導出可能である。 分散アルゴリズム、加速器、前処理技術の使用など、グラフ埋め込みのパフォーマンスを改善するための多くのアプローチが文献に提案されている。 グラフ粗化(Graph coarsening)は、前処理ステップと見なすことができ、より小さいグラフを持つ与えられた大きなグラフの構造近似である。 文献が示すように、粗粒化を施すと埋込コストが大幅に減少する。 本研究では, 粗大化品質が埋込み性能に与える影響を, 速度と精度の両方で徹底的に解析する。 最先端の高速グラフ埋め込みツールを用いた実験では,粗い決定と埋め込み品質の間には相互作用があることが示されている。

A significant portion of the data today, e.g, social networks, web connections, etc., can be modeled by graphs. A proper analysis of graphs with Machine Learning (ML) algorithms has the potential to yield far-reaching insights into many areas of research and industry. However, the irregular structure of graph data constitutes an obstacle for running ML tasks on graphs such as link prediction, node classification, and anomaly detection. Graph embedding is a compute-intensive process of representing graphs as a set of vectors in a d-dimensional space, which in turn makes it amenable to ML tasks. Many approaches have been proposed in the literature to improve the performance of graph embedding, e.g., using distributed algorithms, accelerators, and pre-processing techniques. Graph coarsening, which can be considered a pre-processing step, is a structural approximation of a given, large graph with a smaller one. As the literature suggests, the cost of embedding significantly decreases when coarsening is employed. In this work, we thoroughly analyze the impact of the coarsening quality on the embedding performance both in terms of speed and accuracy. Our experiments with a state-of-the-art, fast graph embedding tool show that there is an interplay between the coarsening decisions taken and the embedding quality.
翻訳日:2022-10-20 04:12:39 公開日:2020-09-10
# 逐次データのための機械学習モデルの実用的な解釈:認知症関連扇動の事例

Actionable Interpretation of Machine Learning Models for Sequential Data: Dementia-related Agitation Use Case ( http://arxiv.org/abs/2009.05097v1 )

ライセンス: Link先を確認
Nutta Homdee, John Lach(参考訳) 機械学習は、データ/パラメータが多次元であり、第一原理に基づく分析には複雑すぎる複雑な学習問題に成功している。 機械学習を利用するいくつかのアプリケーションは、特定の結果(分類、検出など)を理解するだけでなく、その結果に基づいて行動を起こすために、人間の解釈可能性を必要とする。 ブラックボックス機械学習モデルの解釈は研究されているが、最近の研究はモデル性能の検証と改善に焦点を当てている。 本稿では,ブラックボックス機械学習モデルの動作可能な解釈について述べる。 提案手法は,ユーザの意思決定支援や行動支援に有効な手段の抽出に重点を置いている。 アクション可能な解釈は、ほとんどの伝統的なブラックボックス機械学習モデルで実装できる。 既に訓練済みのモデル、トレーニングデータ、およびデータ処理技術を使用して、モデル結果とその時系列入力から実行可能なアイテムを抽出する。 行動可能な解釈の実装は,認知症関連動揺予測と環境環境というユースケースで示される。 また, 家庭内光レベル低下など, 扇動現象を誘発する動作可能な項目を抽出できることが示唆された。 この動作可能な解釈のユースケースは、認知症介護者が介入し、扇動を防ぐために行動を起こすのに役立つ。

Machine learning has shown successes for complex learning problems in which data/parameters can be multidimensional and too complex for a first-principles based analysis. Some applications that utilize machine learning require human interpretability, not just to understand a particular result (classification, detection, etc.) but also for humans to take action based on that result. Black-box machine learning model interpretation has been studied, but recent work has focused on validation and improving model performance. In this work, an actionable interpretation of black-box machine learning models is presented. The proposed technique focuses on the extraction of actionable measures to help users make a decision or take an action. Actionable interpretation can be implemented in most traditional black-box machine learning models. It uses the already trained model, used training data, and data processing techniques to extract actionable items from the model outcome and its time-series inputs. An implementation of the actionable interpretation is shown with a use case: dementia-related agitation prediction and the ambient environment. It is shown that actionable items can be extracted, such as the decreasing of in-home light level, which is triggering an agitation episode. This use case of actionable interpretation can help dementia caregivers take action to intervene and prevent agitation.
翻訳日:2022-10-20 04:12:03 公開日:2020-09-10
# CasGCN:情報拡散グラフに基づく将来のカスケード成長予測

CasGCN: Predicting future cascade growth based on information diffusion graph ( http://arxiv.org/abs/2009.05152v1 )

ライセンス: Link先を確認
Zhixuan Xu, Minghui Qian, Xiaowei Huang, and Jie Meng(参考訳) 情報カスケードの突然の爆発は、極端な意見、ファッショントレンドの変化、そして制御不能な噂の拡散など、予期せぬ結果をもたらす可能性がある。 将来,特にtwitterやweiboといったソーシャルメディアプラットフォーム上での大規模カスケードにおいて,カスケードのサイズを効果的に予測する方法の重要な問題となっている。 しかし、この挑戦的な予測問題に対処するには既存の手法が不十分である。 従来の手法は手作りの特徴や非現実的な仮定に大きく依存している。 リカレントニューラルネットワークのようなエンドツーエンドのディープラーニングモデルは、グラフィカルな入力を直接扱うのには適しておらず、カスケードグラフに埋め込まれた構造情報を処理できない。 本稿では,カスケード成長予測のための新しいディープラーニングアーキテクチャであるCasGCNを提案し,グラフ畳み込みネットワークを用いてグラフィカルな入力から構造的特徴を抽出し,次にカスケードサイズ予測を行う前に,抽出した特徴と時間的情報の両方に注意機構を適用する。 本研究では,2つの実世界のカスケード成長予測シナリオ(Sina Weiboのリツイート人気とDBLPの学術論文引用)について実験を行い,特にカスケードが大規模である場合に,CasGCNが複数のベースライン手法よりも優れた性能を示すことを示した。

Sudden bursts of information cascades can lead to unexpected consequences such as extreme opinions, changes in fashion trends, and uncontrollable spread of rumors. It has become an important problem on how to effectively predict a cascade' size in the future, especially for large-scale cascades on social media platforms such as Twitter and Weibo. However, existing methods are insufficient in dealing with this challenging prediction problem. Conventional methods heavily rely on either hand crafted features or unrealistic assumptions. End-to-end deep learning models, such as recurrent neural networks, are not suitable to work with graphical inputs directly and cannot handle structural information that is embedded in the cascade graphs. In this paper, we propose a novel deep learning architecture for cascade growth prediction, called CasGCN, which employs the graph convolutional network to extract structural features from a graphical input, followed by the application of the attention mechanism on both the extracted features and the temporal information before conducting cascade size prediction. We conduct experiments on two real-world cascade growth prediction scenarios (i.e., retweet popularity on Sina Weibo and academic paper citations on DBLP), with the experimental results showing that CasGCN enjoys a superior performance over several baseline methods, particularly when the cascades are of large scale.
翻訳日:2022-10-20 04:11:44 公開日:2020-09-10
# 皮膚リンパ腫と食道腫の分類における病理組織学的所見のセマンティックセグメンテーション

Semantic Segmentation of Histopathological Slides for the Classification of Cutaneous Lymphoma and Eczema ( http://arxiv.org/abs/2009.05403v1 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Claudio Ferrari, Luis Berenguer Todo Bom, Michaela Beer, Werner Kempf, Luis Haug(参考訳) 真菌症性真菌症(mycosis fungoides, mf)は稀に生命を脅かす恐れのある皮膚疾患であり、初期および組織学的には非常に一般的な皮膚疾患であるeczemaによく似ている。 生存率を高めるためには、早期に適切な治療を行う必要がある。 この目的のために、専門家にとって重要なステップは、患者の皮膚組織の病理組織スライド(ガラススライド)または全スライド画像(wsi)の評価である。 我々は,病理医の意思決定プロセスに2倍の価値をもたらす深層学習支援診断ツールを提案する。 まず,本アルゴリズムは,WSIを正確な診断に関連のある領域に正確に分割し,平均IoUが69%,マシューズ相関スコアが83%となる。 さらに、我々のモデルは参照データセット上の最先端技術と競合していることも示しています。 第2に、セグメンテーションマップと原画像を用いて、患者がMFまたはEczemaを持っているかどうかを予測することができる。 診断パイプラインのさまざまな段階に適用可能な2つのモデルを作成しました。 分類の結果は、セグメンテーションマップにも基づいているため、入力としてwsiのみを使用するよりもかなり解釈可能である。 我々のセグメンテーションモデルはEU-Netと呼ばれ、Imagenetデータセットで事前トレーニングされたEfficientNet-B7エンコーダで古典的なU-Netを拡張しています。

Mycosis fungoides (MF) is a rare, potentially life threatening skin disease, which in early stages clinically and histologically strongly resembles Eczema, a very common and benign skin condition. In order to increase the survival rate, one needs to provide the appropriate treatment early on. To this end, one crucial step for specialists is the evaluation of histopathological slides (glass slides), or Whole Slide Images (WSI), of the patients' skin tissue. We introduce a deep learning aided diagnostics tool that brings a two-fold value to the decision process of pathologists. First, our algorithm accurately segments WSI into regions that are relevant for an accurate diagnosis, achieving a Mean-IoU of 69% and a Matthews Correlation score of 83% on a novel dataset. Additionally, we also show that our model is competitive with the state of the art on a reference dataset. Second, using the segmentation map and the original image, we are able to predict if a patient has MF or Eczema. We created two models that can be applied in different stages of the diagnostic pipeline, potentially eliminating life-threatening mistakes. The classification outcome is considerably more interpretable than using only the WSI as the input, since it is also based on the segmentation map. Our segmentation model, which we call EU-Net, extends a classical U-Net with an EfficientNet-B7 encoder which was pre-trained on the Imagenet dataset.
翻訳日:2022-10-20 04:11:18 公開日:2020-09-10
# ビジュアルオブジェクト追跡におけるハードオクルージョン

Hard Occlusions in Visual Object Tracking ( http://arxiv.org/abs/2009.04787v1 )

ライセンス: Link先を確認
Thijs P. Kuipers, Devanshu Arya, Deepak K. Gupta(参考訳) 視覚物体追跡はコンピュータビジョンにおいて最も難しい問題の一つであり、照明の変化、速い動き、オクルージョンなど多くの困難な状況に対処する必要がある。 トラッカーは、最近の追跡データセット(例えば、VOT2019、LaSOT)のパフォーマンスに基づいて良いかどうかを評価する。 我々は、最近のデータセットには、ある程度の訓練データに対する大きな帯域幅を提供する大量の注釈付きビデオが含まれているが、閉塞や平面内回転といった難易度シナリオはいまだに不足していると論じる。 トラッカーが現実世界のシナリオに近づき、安全クリティカルなデバイスにデプロイされるためには、まれなハードシナリオにも適切に対処する必要がある。 本稿では,特にハード・オクルージョン・ケースに着目し,最新の最先端トラッカー(SOTA)の性能をベンチマークする。 ハードオクルージョン内の異なるカテゴリを含む小規模データセットを作成し、選択したトラッカーを評価した。 その結果,SOTAトラッカーのハードオクルージョンは依然として非常に難しい問題であることがわかった。 さらに,1つのカテゴリにおけるトップパフォーマンストラッカーが,異なるカテゴリにおいて著しく低下するハードオクルージョンのカテゴリ間で,トラッカー性能が著しく変化することが観察された。 特定のカテゴリによるトラッカー性能の変動は,実世界のシナリオにおけるトラッカー性能を評価するのに,平均的なシングルパフォーマンススコアを用いた共通トラッカーランキングが不十分であることを示している。

Visual object tracking is among the hardest problems in computer vision, as trackers have to deal with many challenging circumstances such as illumination changes, fast motion, occlusion, among others. A tracker is assessed to be good or not based on its performance on the recent tracking datasets, e.g., VOT2019, and LaSOT. We argue that while the recent datasets contain large sets of annotated videos that to some extent provide a large bandwidth for training data, the hard scenarios such as occlusion and in-plane rotation are still underrepresented. For trackers to be brought closer to the real-world scenarios and deployed in safety-critical devices, even the rarest hard scenarios must be properly addressed. In this paper, we particularly focus on hard occlusion cases and benchmark the performance of recent state-of-the-art trackers (SOTA) on them. We created a small-scale dataset containing different categories within hard occlusions, on which the selected trackers are evaluated. Results show that hard occlusions remain a very challenging problem for SOTA trackers. Furthermore, it is observed that tracker performance varies wildly between different categories of hard occlusions, where a top-performing tracker on one category performs significantly worse on a different category. The varying nature of tracker performance based on specific categories suggests that the common tracker rankings using averaged single performance scores are not adequate to gauge tracker performance in real-world scenarios.
翻訳日:2022-10-20 04:05:18 公開日:2020-09-10
# 深層学習を用いたBモード超音波画像からの筋構造自動解析

Fully automated analysis of muscle architecture from B-mode ultrasound images with deep learning ( http://arxiv.org/abs/2009.04790v1 )

ライセンス: Link先を確認
Neil J. Cronin, Taija Finni, Olivier Seynnes(参考訳) Bモード超音波は筋骨格組織を画像化するのに一般的に用いられるが、大きなボトルネックはデータの解釈であり、筋肉の厚み、陰茎角、筋膜長の分析は手動で行うことが多い。 本研究では,筋骨格超音波画像を用いた深部神経回路(U-netをベースとした)の訓練を行った。 次に,新たに取得した画像に対するニューラルネットワークの予測を,手作業による解析と,既存の2つの半自動解析手法(smaとultratrack)による予測と比較した。 gpuでは、新しいアプローチで1つの画像の推論時間は0.7sで、cpuでは4.6sだった。 本手法は表面および深部アポニューロスの位置を検知し,画像毎に複数のファシクル断片を抽出する。 単一画像の場合、この手法は訓練不能な自動化法(SMA、ファシクルの長さの平均差:1.1mm)や人手による分析(平均差:2.1mm)と類似した結果を得た。 方法間差は1$^\circ$以下であり,筋肉厚の平均差は0.2mm以下であった。 同様に、ビデオの場合、Ultratrackと我々の方法で生成された結果の間には強い重なりがあり、平均ICCは0.73であり、分析された試験には数百フレームが含まれていた。 本手法は完全に自動化され,オープンソースであり,単一画像やビデオ,および複数の表面筋から筋長,陰茎角,筋厚を推定できる。 カスタムモデル開発に必要なコードやトレーニングデータもすべて提供しています。

B-mode ultrasound is commonly used to image musculoskeletal tissues, but one major bottleneck is data interpretation, and analyses of muscle thickness, pennation angle and fascicle length are often still performed manually. In this study we trained deep neural networks (based on U-net) to detect muscle fascicles and aponeuroses using a set of labelled musculoskeletal ultrasound images. We then compared neural network predictions on new, unseen images to those obtained via manual analysis and two existing semi/automated analysis approaches (SMA and Ultratrack). With a GPU, inference time for a single image with the new approach was around 0.7s, compared to 4.6s with a CPU. Our method detects the locations of the superficial and deep aponeuroses, as well as multiple fascicle fragments per image. For single images, the method gave similar results to those produced by a non-trainable automated method (SMA; mean difference in fascicle length: 1.1 mm) or human manual analysis (mean difference: 2.1 mm). Between-method differences in pennation angle were within 1$^\circ$, and mean differences in muscle thickness were less than 0.2 mm. Similarly, for videos, there was strong overlap between the results produced with Ultratrack and our method, with a mean ICC of 0.73, despite the fact that the analysed trials included hundreds of frames. Our method is fully automated and open source, and can estimate fascicle length, pennation angle and muscle thickness from single images or videos, as well as from multiple superficial muscles. We also provide all necessary code and training data for custom model development.
翻訳日:2022-10-20 04:04:54 公開日:2020-09-10
# 画像テクスチャ特徴を用いたSAR画像における車両・機器の存在検出

Detecting the Presence of Vehicles and Equipment in SAR Imagery Using Image Texture Features ( http://arxiv.org/abs/2009.04866v1 )

ライセンス: Link先を確認
Michael Harner, Austen Groener, and Mark Pritt(参考訳) 本稿では,低解像度sar画像における人工的,構造的活動のモニタリング手法を提案する。 我々のデータソースは欧州宇宙機関(ESA)のSentinel-l衛星で、12日間のリビジットレートで地球をカバーしています。 解像度の制限にもかかわらず,検出されたSAR画像のテクスチャを解析することにより,事前に定義された位置のアクティビティレベル(車両や機器の存在)をモニタリングすることができる。 探索的データセットを用いて、サポートベクターマシン(SVM)、ランダムなバイナリフォレスト、完全に接続されたニューラルネットワークの分類を訓練した。 分類器の入力特性としてvvとvhの分極チャネルでharalickテクスチャ機能を用いています。 各分類器は2種類の建設現場活動レベルを区別できる有望な結果を示した。 本稿では,石油・ガス破砕井の建設過程をモニタリングするケーススタディについて述べる。

In this work, we present a methodology for monitoring man-made, construction-like activities in low-resolution SAR imagery. Our source of data is the European Space Agency Sentinel-l satellite which provides global coverage at a 12-day revisit rate. Despite limitations in resolution, our methodology enables us to monitor activity levels (i.e. presence of vehicles, equipment) of a pre-defined location by analyzing the texture of detected SAR imagery. Using an exploratory dataset, we trained a support vector machine (SVM), a random binary forest, and a fully-connected neural network for classification. We use Haralick texture features in the VV and VH polarization channels as the input features to our classifiers. Each classifier showed promising results in being able to distinguish between two possible types of construction-site activity levels. This paper documents a case study that is centered around monitoring the construction process for oil and gas fracking wells.
翻訳日:2022-10-20 04:04:25 公開日:2020-09-10
# ディープニューラルネットワークを用いた超音波肝線維化診断

Ultrasound Liver Fibrosis Diagnosis using Multi-indicator guided Deep Neural Networks ( http://arxiv.org/abs/2009.04924v1 )

ライセンス: Link先を確認
Jiali Liu, Wenxuan Wang, Tianyao Guan, Ningbo Zhao, Xiaoguang Han, and Zhen Li(参考訳) B型慢性肝炎患者の経過観察において線維化ステージの正確な解析は極めて重要である。 本稿では,肝線維症自動予測のためのディープラーニングフレームワークを提案する。 従来の研究とは対照的に,複数の超音波画像から得られる情報を利用することができる。 さらに,提案モデルの学習を容易にするための指標誘導学習機構を提案する。 これは臨床診断のワークフローに従い、予測手順を解釈する。 トレーニングを支援するために、229人の患者の超音波ビデオ/画像、指標、ラベルを含むデータセットが適切に収集されている。 実験結果に示すように,提案手法は最先端の性能,具体的には65.6%の精度(過去の最高値よりも20%高い)を達成して有効性を示す。

Accurate analysis of the fibrosis stage plays very important roles in follow-up of patients with chronic hepatitis B infection. In this paper, a deep learning framework is presented for automatically liver fibrosis prediction. On contrary of previous works, our approach can take use of the information provided by multiple ultrasound images. An indicator-guided learning mechanism is further proposed to ease the training of the proposed model. This follows the workflow of clinical diagnosis and make the prediction procedure interpretable. To support the training, a dataset is well-collected which contains the ultrasound videos/images, indicators and labels of 229 patients. As demonstrated in the experimental results, our proposed model shows its effectiveness by achieving the state-of-the-art performance, specifically, the accuracy is 65.6%(20% higher than previous best).
翻訳日:2022-10-20 04:03:42 公開日:2020-09-10
# HSolo:単一アフィン認識通信からのホログラフィー

HSolo: Homography from a single affine aware correspondence ( http://arxiv.org/abs/2009.05004v1 )

ライセンス: Link先を確認
Antonio Gonzales, Cara Monical, Tony Perkins(参考訳) 既存のロバストなホモグラフィー推定アルゴリズムの性能は特徴点対応の不整合率に大きく依存する。 本稿では,特に不純物領域に適したホモグラフィ推定手法を提案する。 SIFT や SURF などのアフィン認識特徴検出器によって生成されたスケールと回転の副生成物を利用して,単一対応対から初期ホモグラフィー推定値を求める。 この推定により、ロバストな推定器で使用するために、対応を不等値な部分集合にフィルタリングすることができる。 特に低収率では,本アルゴリズムは劇的な性能向上をもたらす。

The performance of existing robust homography estimation algorithms is highly dependent on the inlier rate of feature point correspondences. In this paper, we present a novel procedure for homography estimation that is particularly well suited for inlier-poor domains. By utilizing the scale and rotation byproducts created by affine aware feature detectors such as SIFT and SURF, we obtain an initial homography estimate from a single correspondence pair. This estimate allows us to filter the correspondences to an inlier-rich subset for use with a robust estimator. Especially at low inlier rates, our novel algorithm provides dramatic performance improvements.
翻訳日:2022-10-20 04:03:30 公開日:2020-09-10
# ネットワークトラフィック分析に基づくIoTデバイス識別

Network Traffic Analysis based IoT Device Identification ( http://arxiv.org/abs/2009.04682v1 )

ライセンス: Link先を確認
Rajarshi Roy Chowdhury, Sandhya Aneja, Nagender Aneja, Emeroylariffion Abas(参考訳) デバイス識別は、割り当てられたネットワークや他の認証情報を使わずに、インターネット上でデバイスを識別するプロセスである。 IoT(Internet of Things, モノのインターネット)デバイスの急速な普及は、さまざまなデバイス、プロトコル、コントロールインターフェースによって、デバイス識別に新たな課題をもたらしている。 ネットワークでは、従来のIoTデバイスはIPまたはMACアドレスを利用して互いに識別する。 さらに、IoTデバイスは最小限のセキュリティソリューションを備えた低電力デバイスである。 IoTデバイスの問題を緩和するために、デバイス識別のための指紋(DFP)を使用することができる。 dfpは、ネットワーク上の通信に使用される無線信号、ネットワークトラフィック(またはパケット)などの暗黙の識別子を使用してデバイスを特定する。 これらの識別子はデバイスハードウェアやソフトウェア機能と密接に関連している。 本稿では,TCP/IPパケットヘッダ機能を利用して,デバイス由来のネットワークパケットを利用したデバイス指紋を作成する。 デバイス識別に積極的に貢献するパケットからいくつかの特徴を分離する3つのメトリクスのセットを示す。 アプローチを評価するために、公開アクセス可能な2つのデータセットを使用しました。 デバイスジャンル分類の精度は,IoT Sentinelデータセットから個々のデバイスを識別する場合,99.37%,83.35%であった。 しかし、UNSWデータセットのタイプ識別精度は97.78%に達した。

Device identification is the process of identifying a device on Internet without using its assigned network or other credentials. The sharp rise of usage in Internet of Things (IoT) devices has imposed new challenges in device identification due to a wide variety of devices, protocols and control interfaces. In a network, conventional IoT devices identify each other by utilizing IP or MAC addresses, which are prone to spoofing. Moreover, IoT devices are low power devices with minimal embedded security solution. To mitigate the issue in IoT devices, fingerprint (DFP) for device identification can be used. DFP identifies a device by using implicit identifiers, such as network traffic (or packets), radio signal, which a device used for its communication over the network. These identifiers are closely related to the device hardware and software features. In this paper, we exploit TCP/IP packet header features to create a device fingerprint utilizing device originated network packets. We present a set of three metrics which separate some features from a packet which contribute actively for device identification. To evaluate our approach, we used publicly accessible two datasets. We observed the accuracy of device genre classification 99.37% and 83.35% of accuracy in the identification of an individual device from IoT Sentinel dataset. However, using UNSW dataset device type identification accuracy reached up to 97.78%.
翻訳日:2022-10-20 04:03:11 公開日:2020-09-10
# 一段階物体検出用半アンカー検出器

Semi-Anchored Detector for One-Stage Object Detection ( http://arxiv.org/abs/2009.04989v1 )

ライセンス: Link先を確認
Lei Chen, Qi Qian, Hao Li(参考訳) 標準の1段階検出器は、分類と回帰の2つのタスクで構成されている。 様々な形状のアンカーが機能マップの各場所に導入され、マルチスケールオブジェクトの回帰の課題を軽減する。 しかし,アンカーのクラス不均衡問題により分類性能が低下する可能性がある。 近年,位置を直接分類するアンカーフリーアルゴリズムが多数提案されている。 アンカーフリー戦略は、分類タスクの恩恵を受けるが、事前のバウンディングボックスがないため、回帰タスクの最適化につながる可能性がある。 本研究では,セミアンコールフレームワークを提案する。 具体的には,分類の正の位置を特定し,複数のアンカーを回帰の正の位置に関連付ける。 ResNet-101をバックボーンとし、提案された半アンコール検出器はCOCOデータセット上で43.6%のmAPを達成する。

A standard one-stage detector is comprised of two tasks: classification and regression. Anchors of different shapes are introduced for each location in the feature map to mitigate the challenge of regression for multi-scale objects. However, the performance of classification can degrade due to the highly class-imbalanced problem in anchors. Recently, many anchor-free algorithms have been proposed to classify locations directly. The anchor-free strategy benefits the classification task but can lead to sup-optimum for the regression task due to the lack of prior bounding boxes. In this work, we propose a semi-anchored framework. Concretely, we identify positive locations in classification, and associate multiple anchors to the positive locations in regression. With ResNet-101 as the backbone, the proposed semi-anchored detector achieves 43.6% mAP on COCO data set, which demonstrates the state-of-art performance among one-stage detectors.
翻訳日:2022-10-20 03:55:12 公開日:2020-09-10
# 潜在シングルインスタンスマスクからの無提案ボリュームインスタンスセグメンテーション

Proposal-Free Volumetric Instance Segmentation from Latent Single-Instance Masks ( http://arxiv.org/abs/2009.04998v1 )

ライセンス: Link先を確認
Alberto Bailoni, Constantin Pape, Steffen Wolf, Anna Kreshuk, Fred A. Hamprecht(参考訳) 本研究では,画像全体にわたってスライディングウィンドウスタイルで予測される単一インスタンスセグメンテーションマスクをベースとした,新しいプロポーザルフリーなインスタンスセグメンテーション手法を提案する。 関連するアプローチとは対照的に,本手法では,各画素毎に1つのマスクを同時に予測し,画像全体のコンフリクトを解消する。 具体的には、重なり合うマスクからの予測を符号付きグラフのエッジ重みに組み合わせ、次に分割して全ての最終インスタンスを同時に取得する。 その結果、ノイズに強く耐性を持ち、重なり合うマスク間で最もコンセンサスの高い予測を優先するパラメータフリー手法が得られた。 全てのマスクは低次元の潜在表現から復号化され、大容量画像に適用するためにはメモリ節約が厳密に要求される。 本手法は、競合スコアを達成できるCREMI 2016ニューロンセグメンテーションベンチマークで検証する。

This work introduces a new proposal-free instance segmentation method that builds on single-instance segmentation masks predicted across the entire image in a sliding window style. In contrast to related approaches, our method concurrently predicts all masks, one for each pixel, and thus resolves any conflict jointly across the entire image. Specifically, predictions from overlapping masks are combined into edge weights of a signed graph that is subsequently partitioned to obtain all final instances concurrently. The result is a parameter-free method that is strongly robust to noise and prioritizes predictions with the highest consensus across overlapping masks. All masks are decoded from a low dimensional latent representation, which results in great memory savings strictly required for applications to large volumetric images. We test our method on the challenging CREMI 2016 neuron segmentation benchmark where it achieves competitive scores.
翻訳日:2022-10-20 03:54:59 公開日:2020-09-10
# GeoSPARQL+: グラフ、ラスター、ベクトルデータの統合クエリのための構文、セマンティック、システム -- 技術報告

GeoSPARQL+: Syntax, Semantics and System for Integrated Querying of Graph, Raster and Vector Data -- Technical Report ( http://arxiv.org/abs/2009.05032v1 )

ライセンス: Link先を確認
Timo Homburg, Steffen Staab, Daniel Janke(参考訳) 本稿ではセマンティックWebグラフでラスタデータを意味的に表現し,クエリする手法を提案する。 新しいタイプの地理空間データとしてラスタデータをサポートするために,GeoSPARQL語彙とクエリ言語を拡張した。 我々は,新しいフィルタ関数を定義し,実世界のデータセット上でいくつかのユースケースを用いてアプローチを説明する。 最後に,プロトタイプの実装について述べ,提案手法の有効性を検証した。

We introduce an approach to semantically represent and query raster data in a Semantic Web graph. We extend the GeoSPARQL vocabulary and query language to support raster data as a new type of geospatial data. We define new filter functions and illustrate our approach using several use cases on real-world data sets. Finally, we describe a prototypical implementation and validate the feasibility of our approach.
翻訳日:2022-10-20 03:54:43 公開日:2020-09-10
# トランスフォーマー言語モデルを用いた患者コホート検索

Patient Cohort Retrieval using Transformer Language Models ( http://arxiv.org/abs/2009.05121v1 )

ライセンス: Link先を確認
Sarvesh Soni and Kirk Roberts(参考訳) 深層学習に基づく言語モデルを患者コホート検索(CR)の課題に適用し,その有効性を評価する。 CRのタスクは、所定のクエリに基づいて、電子健康記録(EHR)から関連する文書を抽出する必要がある。 近年の文書検索分野における進歩を考えると、crのタスクを文書検索タスクにマッピングし、汎用ドメインタスクに実装した様々な深層ニューラルネットワークモデルを適用する。 本稿では、明示的な機能工学とドメインの専門知識を必要とせず、ニューラルネットワークモデルを用いて患者コホートを検索するためのフレームワークを提案する。 我々のモデルのほとんどは、様々な評価指標でBM25ベースライン法よりも優れています。

We apply deep learning-based language models to the task of patient cohort retrieval (CR) with the aim to assess their efficacy. The task of CR requires the extraction of relevant documents from the electronic health records (EHRs) on the basis of a given query. Given the recent advancements in the field of document retrieval, we map the task of CR to a document retrieval task and apply various deep neural models implemented for the general domain tasks. In this paper, we propose a framework for retrieving patient cohorts using neural language models without the need of explicit feature engineering and domain expertise. We find that a majority of our models outperform the BM25 baseline method on various evaluation metrics.
翻訳日:2022-10-20 03:54:35 公開日:2020-09-10
# web技術におけるレコメンダシステムの利用とコールド状態問題の深い分析

The use of Recommender Systems in web technology and an in-depth analysis of Cold State problem ( http://arxiv.org/abs/2009.04780v1 )

ライセンス: Link先を確認
Denis Selimi, Krenare Pireva Nuci(参考訳) WWW(World Wide Web)では、動的開発とデータの拡散がインターネット上で膨大な量の情報をもたらしているが、ユーザは短時間で関連する情報を見つけることができない。 その結果,ユーザが閲覧活動を通じて容易に出自を見つけるためのレコメンデーションシステム(recommation system)が開発された。 言い換えれば、リコメンダシステムは大量の情報と対話するツールであり、ユーザにとって好まれるアイテムを優先順位付けするためのパーソナライズされたビューを提供する。 彼らは何年にもわたって、機械学習やデータマイニングを含む人工知能技術で発展してきた。 さらに、レコメンデーションシステムは、Amazon.com、Netflix、Booking.comなどのオンラインアプリケーションにパーソナライズされている。 その結果、多くの研究者が、レコメンデーションシステムの到達範囲を、まだ真に解決されていない課題や問題領域に拡張することを促した。主に、新しいユーザーが検索された情報の多くを得られない可能性のある、コールドステート(すなわちコールドスタート)ユーザ問題と呼ばれる新しいユーザへのレコメンデーションを行う場合の問題である。 therfore, 本論文の目的は, このコールドスタート問題に対していくつかの効率のよい手法と課題を加えて対処することであり, 推薦システム全体の状況を特定し, 概観することである。

In the WWW (World Wide Web), dynamic development and spread of data has resulted a tremendous amount of information available on the Internet, yet user is unable to find relevant information in a short span of time. Consequently, a system called recommendation system developed to help users find their infromation with ease through their browsing activities. In other words, recommender systems are tools for interacting with large amount of information that provide personalized view for prioritizing items likely to be of keen for users. They have developed over the years in artificial intelligence techniques that include machine learning and data mining amongst many to mention. Furthermore, the recommendation systems have personalized on an e-commerce, on-line applications such as Amazon.com, Netflix, and Booking.com. As a result, this has inspired many researchers to extend the reach of recommendation systems into new sets of challenges and problem areas that are yet to be truly solved, primarily a problem with the case of making a recommendation to a new user that is called cold-state (i.e. cold-start) user problem where the new user might likely not yield much of information searched. Therfore, the purpose of this paper is to tackle the said cold-start problem with a few effecient methods and challenges, as well as identify and overview the current state of recommendation system as a whole
翻訳日:2022-10-20 03:53:40 公開日:2020-09-10
# 誤用と異常検出における機械学習応用

Machine Learning Applications in Misuse and Anomaly Detection ( http://arxiv.org/abs/2009.06709v1 )

ライセンス: Link先を確認
Jaydip Sen and Sidra Mehtab(参考訳) 機械学習とデータマイニングアルゴリズムは侵入検知システムの設計において重要な役割を果たす。 ネットワークにおける攻撃検知に対する彼らのアプローチに基づいて、侵入検知システムは2つのタイプに大別できる。 誤用検知システムにおいて、ネットワーク内のアクティビティのシーケンスが既知のアタックシグネチャと一致する場合、システム内のアタックを検出する。 一方、異常検出手法では、システム内の異常状態は、システムの状態遷移と正常状態との有意差に基づいて同定される。 本章では, 誤用検出, 異常検出, ハイブリッド検出手法に基づく侵入検知の既存手法について, 包括的考察を行う。 侵入検知アルゴリズムの設計に関する今後の研究の方向性も明らかにされている。

Machine learning and data mining algorithms play important roles in designing intrusion detection systems. Based on their approaches toward the detection of attacks in a network, intrusion detection systems can be broadly categorized into two types. In the misuse detection systems, an attack in a system is detected whenever the sequence of activities in the network matches with a known attack signature. In the anomaly detection approach, on the other hand, anomalous states in a system are identified based on a significant difference in the state transitions of the system from its normal states. This chapter presents a comprehensive discussion on some of the existing schemes of intrusion detection based on misuse detection, anomaly detection and hybrid detection approaches. Some future directions of research in the design of algorithms for intrusion detection are also identified.
翻訳日:2022-10-20 03:53:14 公開日:2020-09-10
# 深層畳み込みニューラルネットワークを用いた非接触リアルタイム視線マッピングシステム

Non-contact Real time Eye Gaze Mapping System Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2009.04645v1 )

ライセンス: Link先を確認
Hoyeon Ahn(参考訳) HCI(Human-Computer Interaction)は、ユーザとコンピュータシステムのインタラクションを研究する分野である。 HCIの開発により、個人や人々のグループは様々なデジタル技術を使って最適なユーザー体験を実現できる。 ヒトの視覚注意と視覚知性は認知科学、心理学、マーケティング情報学と関連しており、hciの様々な応用に用いられる。 視線認識は,人間の基本的な行動の理解を深めることができるため,hci分野と密接に関連している。 ユーザが見つめている領域を検出するGaze Matching法により,信頼性の高い視覚的注意力を得ることができる。 前者は、視線追跡機能を備えた眼鏡形式で、限られた監視領域内で視線追跡を行う眼鏡型装置を装着する。 また、ユーザの姿勢を固定しながら、限られた範囲内の視線推定を行う。 本稿では,従来の方法の物理的限界を克服し,実環境に適用可能な非接触視線マッピングシステムを提案する。 さらに, gist gaze mapping(ggm)データセットを導入し, 注視マッピングを学習し評価するための注視マッピングデータセットを提案する。

Human-Computer Interaction(HCI) is a field that studies interactions between human users and computer systems. With the development of HCI, individuals or groups of people can use various digital technologies to achieve the optimal user experience. Human visual attention and visual intelligence are related to cognitive science, psychology, and marketing informatics, and are used in various applications of HCI. Gaze recognition is closely related to the HCI field because it is meaningful in that it can enhance understanding of basic human behavior. We can obtain reliable visual attention by the Gaze Matching method that finds the area the user is staring at. In the previous methods, the user wears a glasses-type device which in the form of glasses equipped with a gaze tracking function and performs gaze tracking within a limited monitor area. Also, the gaze estimation within a limited range is performed while the user's posture is fixed. We overcome the physical limitations of the previous method in this paper and propose a non-contact gaze mapping system applicable in real-world environments. In addition, we introduce the GIST Gaze Mapping (GGM) dataset, a Gaze mapping dataset created to learn and evaluate gaze mapping.
翻訳日:2022-10-20 03:53:04 公開日:2020-09-10
# cad-pu: ポイントアップサンプリングのための曲率適応型ディープラーニングソリューション

CAD-PU: A Curvature-Adaptive Deep Learning Solution for Point Set Upsampling ( http://arxiv.org/abs/2009.04660v1 )

ライセンス: Link先を確認
Jiehong Lin, Xian Shi, Yuan Gao, Ke Chen, Kui Jia(参考訳) 点集合は、おそらく物体やシーン表面の最も直接的な近似であるが、実際的な獲得は、ノイズ、スパース、そしておそらく不完全な欠点に苦しめられ、高品質の表面回復に使用することが制限される。 ポイントセットアップサンプリングは、その密度と規則性を高め、より良い表面回復を達成することを目的としている。 この問題は、アップサンプリング対象自体が基底面の近似に過ぎないことを考慮すると、非常に不適切かつ困難である。 本研究では,入力点集合と出力点集合の表面近似誤差境界を組み合わせることで,目的に重要な因子を同定する。 アップサンプリング結果における点の固定的な予算が与えられた場合、局所曲率が比較的高い表面領域により多くの点を分散すべきである。 そこで本研究では,曲率適応型機能拡張のモジュールであるcad-pu(curvature-adaptive point set upsampling network)の新たな設計を提案する。 CAD-PUをトレーニングするためには、同じモチベーションに従い、アップサンプリングされた点集合に対する曲面曲率の離散的な概念を近似した幾何学的直感的なサロゲートを提案する。 さらに,提案手法を逆流学習に基づく曲率最小化目標に統合し,cad-puの効果的な学習を実現する。 本研究は,提案手法の有効性と既存手法の利点を示す実験を徹底的に実施する。 実装コードはhttps://github.com/jiehonglin/cad-puで公開しています。

Point set is arguably the most direct approximation of an object or scene surface, yet its practical acquisition often suffers from the shortcoming of being noisy, sparse, and possibly incomplete, which restricts its use for a high-quality surface recovery. Point set upsampling aims to increase its density and regularity such that a better surface recovery could be achieved. The problem is severely ill-posed and challenging, considering that the upsampling target itself is only an approximation of the underlying surface. Motivated to improve the surface approximation via point set upsampling, we identify the factors that are critical to the objective, by pairing the surface approximation error bounds of the input and output point sets. It suggests that given a fixed budget of points in the upsampling result, more points should be distributed onto the surface regions where local curvatures are relatively high. To implement the motivation, we propose a novel design of Curvature-ADaptive Point set Upsampling network (CAD-PU), the core of which is a module of curvature-adaptive feature expansion. To train CAD-PU, we follow the same motivation and propose geometrically intuitive surrogates that approximate discrete notions of surface curvature for the upsampled point set. We further integrate the proposed surrogates into an adversarial learning based curvature minimization objective, which gives a practically effective learning of CAD-PU. We conduct thorough experiments that show the efficacy of our contributions and the advantages of our method over existing ones. Our implementation codes are publicly available at https://github.com/JiehongLin/CAD-PU.
翻訳日:2022-10-20 03:47:26 公開日:2020-09-10
# 仮想画像相関の不確かさ

Virtual Image Correlation uncertainty ( http://arxiv.org/abs/2009.04693v1 )

ライセンス: Link先を確認
M.L.M. Fran\c{c}ois (GeM)(参考訳) 仮想画像相関法は,サブピクセル精度によるシルエット境界の測定に適用する。 これは、関心画像とパラメータ化された曲線に基づく仮想画像との相関からなる。 新たな定式化により, 局所曲率やコントラスト変動に敏感な1dの精度が向上し, 輝度変動によるバイアスの補正が容易であることが判明した。 仮想画像幅の最適値、方法の唯一のパラメータ、および最適な数値設定が確立される。 サブピクセル精度で輪郭を記述するために,ユーザ・センサ曲線の関連性を評価するための推定器を提案する。 無ノイズ画像と無雑音画像の双方における測定不確実性について解析式を定式化し,その予測を数値実験と比較した。

The Virtual Image Correlation method applies for the measurement of silhouettes boundaries with sub-pixel precision. It consists in a correlation between the image of interest and a virtual image based on a parametrized curve. Thanks to a new formulation, it is shown that the method is exact in 1D, insensitive to local curvature and to contrast variation, and that the bias induced by luminance variation can be easily corrected. Optimal value of the virtual image width, the sole parameter of the method, and optimal numerical settings are established. An estimator is proposed to assess the relevance of the user-chosen curve to describe the contour with a sub-pixel precision. Analytical formulas are given for the measurement uncertainty in both cases of noiseless and noisy images and their prediction is successfully compared to numerical tests.
翻訳日:2022-10-20 03:46:58 公開日:2020-09-10
# global-scalable automated target recognition (gatr)

Globally-scalable Automated Target Recognition (GATR) ( http://arxiv.org/abs/2009.04836v1 )

ライセンス: Link先を確認
Gary Chern, Austen Groener, Michael Harner, Tyler Kuhns, Andy Lam, Stephen O'Neill, and Mark Pritt(参考訳) GATR (Globally-Scalable Automated Target Recognition) は、ロッキード・マーティンが衛星画像のリアルタイム物体検出と分類を行うソフトウェアである。 gatrはgpuによるディープラーニングソフトウェアを使用して、大きな地理的領域をすばやく検索する。 単一のGPU上では、16平方km/秒(または10Mpps/秒以上)の速度で画像を処理し、ペンシルベニア州全体のガス破砕井戸を探すのに2時間しかかからない。 探索時間は地理的領域と線形にスケールし、処理速度はGPUの数と線形にスケールする。 GATRはモジュール型のクラウドベースのアーキテクチャで、Maxar GBDXプラットフォームを使用し、サービスとしてATR分析を提供する。 アプリケーションには、広域検索、監視ポートと飛行場のためのウォッチボックス、サイトキャラクタリゼーションが含まれる。 ATRはRetinaNetやFaster R-CNNといったディープラーニングモデルによって実行される。 その結果,航空機の検出と破砕井戸の検出を行い,これまで観測されたことのない地域においても90%以上のリコールが得られた。 GATRは車や船などの新しいターゲットに拡張可能であり、レーダーや赤外線画像も処理できる。

GATR (Globally-scalable Automated Target Recognition) is a Lockheed Martin software system for real-time object detection and classification in satellite imagery on a worldwide basis. GATR uses GPU-accelerated deep learning software to quickly search large geographic regions. On a single GPU it processes imagery at a rate of over 16 square km/sec (or more than 10 Mpixels/sec), and it requires only two hours to search the entire state of Pennsylvania for gas fracking wells. The search time scales linearly with the geographic area, and the processing rate scales linearly with the number of GPUs. GATR has a modular, cloud-based architecture that uses the Maxar GBDX platform and provides an ATR analytic as a service. Applications include broad area search, watch boxes for monitoring ports and airfields, and site characterization. ATR is performed by deep learning models including RetinaNet and Faster R-CNN. Results are presented for the detection of aircraft and fracking wells and show that the recalls exceed 90% even in geographic regions never seen before. GATR is extensible to new targets, such as cars and ships, and it also handles radar and infrared imagery.
翻訳日:2022-10-20 03:45:18 公開日:2020-09-10
# 衛星画像におけるディープラーニング物体検出モデルの比較

A Comparison of Deep Learning Object Detection Models for Satellite Imagery ( http://arxiv.org/abs/2009.04857v1 )

ライセンス: Link先を確認
Austen Groener, Gary Chern, Mark Pritt(参考訳) 本研究では,商用衛星画像における油井,ガス破砕井,小型車の検出作業において,最先端モデルの検出精度と速度を比較した。 複数のモデルが一段階、二段階、多段階の物体検出の手法から研究されている。 フラッキングウェルパッド(50m~250m)の検出において, 単段検出器は予測速度に優れ, 2段検出器と多段検出器の検知性能は一致した。 しかし、小型車を検出するため、二段モデルと多段モデルではある程度の速度で精度が大幅に向上する。 また,スライディングウインドウ物体検出アルゴリズムのタイミング結果を測定し,比較のためのベースラインを提供する。 これらのモデルの一部は、Lockheed Martin Globally-Scalable Automated Target Recognition (GATR)フレームワークに組み込まれている。

In this work, we compare the detection accuracy and speed of several state-of-the-art models for the task of detecting oil and gas fracking wells and small cars in commercial electro-optical satellite imagery. Several models are studied from the single-stage, two-stage, and multi-stage object detection families of techniques. For the detection of fracking well pads (50m - 250m), we find single-stage detectors provide superior prediction speed while also matching detection performance of their two and multi-stage counterparts. However, for detecting small cars, two-stage and multi-stage models provide substantially higher accuracies at the cost of some speed. We also measure timing results of the sliding window object detection algorithm to provide a baseline for comparison. Some of these models have been incorporated into the Lockheed Martin Globally-Scalable Automated Target Recognition (GATR) framework.
翻訳日:2022-10-20 03:44:58 公開日:2020-09-10
# ウェアラブルビデオにおける物体認識性能

Performance of object recognition in wearable videos ( http://arxiv.org/abs/2009.04932v1 )

ライセンス: Link先を確認
Alberto Sabater, Luis Montesano, Ana C. Murillo(参考訳) ウェアラブル技術は、ライフログから健康支援まで、コンピュータービジョンの多くの新しい応用を可能にしている。 それらの多くは、カメラが捉えたシーンに対する興味の要素を認識する必要がある。 本研究は、このタイプのカメラで撮影した映像における物体検出と位置決めの問題について研究する。 ウェアラブル・ビデオは、標準画像や他のタイプのビデオよりも、より品質の低い画像(例えば、焦点の粗い)や、ウェアラブル・レコーディングでよく見られる粗雑で閉塞性が高いため、より難しいシナリオである。 既存の作業では、フォーカスのオブジェクトの検出や、カメラを装着したユーザが操作するオブジェクトの検出に重点を置いている。 このタイプのビデオでは,マーケティング研究などの多くのアプリケーションにおいても,ユーザが注目していないオブジェクトを検出する必要があるため,オブジェクト検出のタスクをより一般的に評価する。 この研究は、ウェアラブルビデオにおける物体検出の特定のケースにおいて、精度と速度の優れたトレードオフを提供する、よく知られているyoloアーキテクチャに関する詳細な研究である。 我々は、パブリックなADLデータセットに焦点をあてるが、補完的な評価のために追加の公開データも活用する。 私たちは、元のアーキテクチャとトレーニング戦略の異なるバリエーションを持つ、徹底した実験セットを実行します。 私たちの実験は、目標の最も有望な方向性に関するいくつかの結論をもたらし、ウェアラブルビデオの検出を改善するためのさらなる研究ステップを示します。

Wearable technologies are enabling plenty of new applications of computer vision, from life logging to health assistance. Many of them are required to recognize the elements of interest in the scene captured by the camera. This work studies the problem of object detection and localization on videos captured by this type of camera. Wearable videos are a much more challenging scenario for object detection than standard images or even another type of videos, due to lower quality images (e.g. poor focus) or high clutter and occlusion common in wearable recordings. Existing work typically focuses on detecting the objects of focus or those being manipulated by the user wearing the camera. We perform a more general evaluation of the task of object detection in this type of video, because numerous applications, such as marketing studies, also need detecting objects which are not in focus by the user. This work presents a thorough study of the well known YOLO architecture, that offers an excellent trade-off between accuracy and speed, for the particular case of object detection in wearable video. We focus our study on the public ADL Dataset, but we also use additional public data for complementary evaluations. We run an exhaustive set of experiments with different variations of the original architecture and its training strategy. Our experiments drive to several conclusions about the most promising directions for our goal and point us to further research steps to improve detection in wearable videos.
翻訳日:2022-10-20 03:44:26 公開日:2020-09-10
# 制御引数フレームワークの制御可能性 -- 拡張バージョン

Possible Controllability of Control Argumentation Frameworks -- Extended Version ( http://arxiv.org/abs/2009.04903v1 )

ライセンス: Link先を確認
Jean-Guy Mailly(参考訳) 最近のControl Argumentation Framework(CAF)はDungのArgumentation Frameworkの一般化であり、不確実性の下での議論のダイナミクスを扱う。 ここでは、CAFの可制御性の概念を定義することにより、このモデルに関する新たな知見を提供する。 我々は、この4つの古典的意味論の推論の新たな形態の複雑さについて研究し、この枠組みによる推論の論理的エンコーディングを提供する。

The recent Control Argumentation Framework (CAF) is a generalization of Dung's Argumentation Framework which handles argumentation dynamics under uncertainty; especially it can be used to model the behavior of an agent which can anticipate future changes in the environment. Here we provide new insights on this model by defining the notion of possible controllability of a CAF. We study the complexity of this new form of reasoning for the four classical semantics, and we provide a logical encoding for reasoning with this framework.
翻訳日:2022-10-20 03:37:52 公開日:2020-09-10
# decoupled と integrated goal vertex order によるマルチゴールマルチエージェントパス探索

Multi-Goal Multi-Agent Path Finding via Decoupled and Integrated Goal Vertex Ordering ( http://arxiv.org/abs/2009.05161v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) 本稿では,標準離散型マルチエージェントパス探索(mapf)問題を一般化したマルチエージェントパス探索(mapf$^{mg}$)を導入する。 mapfのタスクは、開始頂点から1つの個々の目標頂点まで、無指示のグラフでエージェントをナビゲートすることであるが、mapf$^{mg}$は、各エージェントに複数のゴール頂点を割り当て、タスクは、少なくとも1度は各エージェントを訪問することである。 MAPF$^{MG}$を解くには、個々のエージェントの衝突のない経路を見つけるだけでなく、エージェントのゴール頂点の順序を決定することでコストの和のような共通の目的が最適化される。 我々は、MAPF$^{MG}$に対処するために異なるパラダイムを用いる2つの新しいアルゴリズムを提案する:Hachian-CBS (HCBS) と呼ばれるヒューリスティック検索ベースのアルゴリズムと、SMTパラダイムを用いて構築されたコンパイルベースのアルゴリズム、SMT-Hamiltonian-CBS (SMT-HCBS) である。 実験的比較はコンパイルベースのアプローチの限界を示唆する。

We introduce multi-goal multi agent path finding (MAPF$^{MG}$) which generalizes the standard discrete multi-agent path finding (MAPF) problem. While the task in MAPF is to navigate agents in an undirected graph from their starting vertices to one individual goal vertex per agent, MAPF$^{MG}$ assigns each agent multiple goal vertices and the task is to visit each of them at least once. Solving MAPF$^{MG}$ not only requires finding collision free paths for individual agents but also determining the order of visiting agent's goal vertices so that common objectives like the sum-of-costs are optimized. We suggest two novel algorithms using different paradigms to address MAPF$^{MG}$: a heuristic search-based search algorithm called Hamiltonian-CBS (HCBS) and a compilation-based algorithm built using the SMT paradigm, called SMT-Hamiltonian-CBS (SMT-HCBS). Experimental comparison suggests limitations of compilation-based approach.
翻訳日:2022-10-20 03:37:34 公開日:2020-09-10
# quantnet:完全微分可能なフレームワークで学習することで量子化を学ぶ

QuantNet: Learning to Quantize by Learning within Fully Differentiable Framework ( http://arxiv.org/abs/2009.04626v1 )

ライセンス: Link先を確認
Junjie Liu, Dongchao Wen, Deyu Wang, Wei Tao, Tse-Wei Chen, Kinya Osa, and Masami Kato(参考訳) バイナリニューラルネットワーク(BNN)の性能劣化に対する最近の二項化手法の成果にもかかわらず、STE(Straight-Through-Estimator)による勾配ミスマッチは依然として量子化ネットワークを支配している。 本稿では,steや学習可能な勾配推定器を使わずに,微分可能なサブネットワークを用いて全精度重みを直接バイナリ化する,メタベース量子化器quantnetを提案する。 本手法は, 勾配ミスマッチの問題を解決するだけでなく, 配置中の二項化操作による離散化誤差が性能に与える影響を低減する。 一般に、提案アルゴリズムは完全微分可能なフレームワーク内で実装され、任意のビットで一般ネットワーク量子化に拡張することができる。 CIFAR-100とImageNetの定量的実験により、QuantNetは従来の二項化法と比較して顕著な改善を達成し、二項化モデルと完全精度モデルの間の精度のギャップを埋めることを示した。

Despite the achievements of recent binarization methods on reducing the performance degradation of Binary Neural Networks (BNNs), gradient mismatching caused by the Straight-Through-Estimator (STE) still dominates quantized networks. This paper proposes a meta-based quantizer named QuantNet, which utilizes a differentiable sub-network to directly binarize the full-precision weights without resorting to STE and any learnable gradient estimators. Our method not only solves the problem of gradient mismatching, but also reduces the impact of discretization errors, caused by the binarizing operation in the deployment, on performance. Generally, the proposed algorithm is implemented within a fully differentiable framework, and is easily extended to the general network quantization with any bits. The quantitative experiments on CIFAR-100 and ImageNet demonstrate that QuantNet achieves the signifficant improvements comparing with previous binarization methods, and even bridges gaps of accuracies between binarized models and full-precision models.
翻訳日:2022-10-20 03:37:12 公開日:2020-09-10
# 順序制約OCTセグメンテーションのためのアサインメントフロー

Assignment Flow for Order-Constrained OCT Segmentation ( http://arxiv.org/abs/2009.04632v1 )

ライセンス: Link先を確認
D. Sitenko, B. Boll, C. Schn\"orr(参考訳) オプティカルコヒーレンス・トモグラフィー(OCT)は、ヒト網膜組織と血管の大量スキャンにおいて最も一般的に用いられる非侵襲的イメージング法の一つである。 抽出されたOCTボリュームから決定的な情報を解決し、さらなる診断分析に応用するために、網膜層厚の正確な同定は、患者毎に個別に行う必要不可欠な課題である。 しかし,複数のOCTスキャンを連続で手動で検査することは要求時間と時間を要する作業であり,長期の資格取得プロセスが得られ,組織依存スペックルノイズの存在下でしばしば確立される。 そのため, 医用画像処理の分野では, 自動セグメンテーションモデルの解明が重要な課題となっている。 本稿では,任意の距離空間における入力データとして,並列に効率的に計算可能な基本演算を伴う3次元OCT網膜細胞層セグメンテーションに対する,純粋にデータ駆動型 \textit{geometric approach を提案する。 多くの確立された網膜検出法とは対照的に, 提示された定式化は, 以前の形状の使用を回避し, 純粋に幾何学的に網膜の自然秩序を達成する。 これにより、このアプローチは偏りがなく、網膜組織構造の局所解剖学的変化の検出に適している。 提案手法のロバスト性を示すために,正常なヒト網膜の3D OCTボリュームを手動でアノテートしたデータセット上で,2種類の特徴を比較検討した。 計算されたセグメンテーションの品質は、平均絶対誤差とサイス類似度係数の観点で、アートの状態と比較される。 以上の結果から, 疾患網膜の分類に本法を適用する大きな可能性を示し, 網膜細胞層と血管構造の結合セグメント化に関する新たな研究の方向性を示す。

At the present time Optical Coherence Tomography (OCT) is among the most commonly used non-invasive imaging methods for the acquisition of large volumetric scans of human retinal tissues and vasculature. To resolve decisive information from extracted OCT volumes and to make it applicable for further diagnostic analysis, the exact identification of retinal layer thicknesses serves as an essential task be done for each patient separately. However, the manual examination of multiple OCT scans in a row is a demanding and time consuming task, which results in a lengthy qualification process and is frequently confounded in the presence of tissue-dependent speckle noise. Therefore, the elaboration of automated segmentation models has become an important task in the field of medical image processing. We propose a novel, purely data driven \textit{geometric approach to order-constrained 3D OCT retinal cell layer segmentation} which takes as input data in any metric space and comes along with basic operations that can be effectively computed in parallel. As opposed to many established retina detection methods, our presented formulation avoids the use of any shape prior and accomplishes the natural order of the retina in a purely geometric way. This makes the approach unbiased and hence suited for the detection of local anatomical changes of retinal tissue structure. To demonstrate robustness of the proposed approach, we compare two different choices of features on a data set of manually annotated 3D OCT volumes of healthy human retina. The quality of computed segmentations is compared to the state of the art in terms of mean absolute error and the Dice similarity coefficient. The results indicate a great potential for applying our method to the classification of diseased retina and opens a new research direction regarding the joint segmentation of retinal cell layers and blood vessel structures.
翻訳日:2022-10-20 03:36:23 公開日:2020-09-10
# 拡張擬似映像補間

Enhanced Quadratic Video Interpolation ( http://arxiv.org/abs/2009.04642v1 )

ライセンス: Link先を確認
Yihao Liu and Liangbin Xie and Li Siyao and Wenxiu Sun and Yu Qiao and Chao Dong(参考訳) デジタルビデオ産業の繁栄に伴い、コンピュータビジョンのコミュニティではビデオフレームの補間が絶え間なく注目され、新たな産業の興隆となった。 多くの学習に基づく手法が提案され、進歩的な結果が得られた。 このうち,2次ビデオ補間(QVI)と呼ばれる最近のアルゴリズムは,魅力的な性能を発揮する。 高次運動情報(例えば加速度)を利用し、補間流れの推定をうまくモデル化する。 しかし、生成した中間フレームには、特に大きく複雑な動きが発生した場合に、満足のいくゴースト、アーティファクト、不正確な動きが含まれている。 本研究では、3つの面からQVIの性能をさらに向上させ、拡張2次ビデオ補間(EQVI)モデルを提案する。 特に、最小二乗法による修正2次流予測(RQFP)を用いて、より正確に動きを推定する。 画像ピクセルレベルのブレンディングを補完し,高次元特徴空間に文脈情報を用いる残差コンテクスト合成ネットワーク(rcsn)を導入することで,より複雑なシーンや動きパターンの処理を支援する。 さらに,さらなる性能向上のために,学習可能な拡張プロセスとみなすことができる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。 提案されたEQVIモデルは、AIM2020 Video Temporal Super-Resolution Challengeで優勝した。

With the prosperity of digital video industry, video frame interpolation has arisen continuous attention in computer vision community and become a new upsurge in industry. Many learning-based methods have been proposed and achieved progressive results. Among them, a recent algorithm named quadratic video interpolation (QVI) achieves appealing performance. It exploits higher-order motion information (e.g. acceleration) and successfully models the estimation of interpolated flow. However, its produced intermediate frames still contain some unsatisfactory ghosting, artifacts and inaccurate motion, especially when large and complex motion occurs. In this work, we further improve the performance of QVI from three facets and propose an enhanced quadratic video interpolation (EQVI) model. In particular, we adopt a rectified quadratic flow prediction (RQFP) formulation with least squares method to estimate the motion more accurately. Complementary with image pixel-level blending, we introduce a residual contextual synthesis network (RCSN) to employ contextual information in high-dimensional feature space, which could help the model handle more complicated scenes and motion patterns. Moreover, to further boost the performance, we devise a novel multi-scale fusion network (MS-Fusion) which can be regarded as a learnable augmentation process. The proposed EQVI model won the first place in the AIM2020 Video Temporal Super-Resolution Challenge.
翻訳日:2022-10-20 03:35:53 公開日:2020-09-10
# 粒度の大きいオブジェクトセグメンテーションに向けて - 2020年の3D AIチャレンジへの第1の解決 -- インスタンスセグメンテーショントラック

Towards Fine-grained Large Object Segmentation 1st Place Solution to 3D AI Challenge 2020 -- Instance Segmentation Track ( http://arxiv.org/abs/2009.04650v1 )

ライセンス: Link先を確認
Zehui Chen and Qiaofei Li and Feng Zhao(参考訳) このテクニカルレポートでは、3D AI Challenge 2020で、インスタンスセグメンテーショントラックのためのTeam 'FineGrainedSeg'のソリューションを紹介します。 3d未来で非常に大きなオブジェクトを扱うために、我々はpointrendを基本フレームワークとして採用し、htcやsolov2よりもきめ細かいマスクを出力します。 最後の提出は5つのPointRendモデルのアンサンブルで、検証とテストのリーダーボードの両方で1位を獲得します。 コードはhttps://github.com/zehuichen123/3dfuture_ins_segで入手できる。

This technical report introduces our solutions of Team 'FineGrainedSeg' for Instance Segmentation track in 3D AI Challenge 2020. In order to handle extremely large objects in 3D-FUTURE, we adopt PointRend as our basic framework, which outputs more fine-grained masks compared to HTC and SOLOv2. Our final submission is an ensemble of 5 PointRend models, which achieves the 1st place on both validation and test leaderboards. The code is available at https://github.com/zehuichen123/3DFuture_ins_seg.
翻訳日:2022-10-20 03:35:31 公開日:2020-09-10
# tempered mixup によるオープンセット入力のロバスト性の向上

Improved Robustness to Open Set Inputs via Tempered Mixup ( http://arxiv.org/abs/2009.04659v1 )

ライセンス: Link先を確認
Ryne Roady, Tyler L. Hayes, Christopher Kanan(参考訳) 教師付き分類法は、評価データがトレーニングデータと同じ分布から引き出され、すべてのクラスがトレーニングのために存在すると仮定することが多い。 しかし、実世界の分類器は未知のクラスからのサンプルを含むトレーニング分布から遠く離れた入力を処理しなければならない。 オープンセットのロバスト性(open set robustness)とは、それまで見つからなかったカテゴリのサンプルを新規にラベル付けし、信頼性の高い不正確な予測を避ける能力を指す。 既存のアプローチは、新しい推論方法、ユニークなトレーニングアーキテクチャ、あるいはトレーニングデータを追加のバックグラウンドサンプルで補完することに焦点を当てている。 本稿では,既存の畳み込みニューラルネットワークアーキテクチャに簡単に適用可能なシンプルな正規化手法を提案する。 提案手法は,開集合分類ベースラインの最先端化と大規模開集合分類問題への拡張性を実現する。

Supervised classification methods often assume that evaluation data is drawn from the same distribution as training data and that all classes are present for training. However, real-world classifiers must handle inputs that are far from the training distribution including samples from unknown classes. Open set robustness refers to the ability to properly label samples from previously unseen categories as novel and avoid high-confidence, incorrect predictions. Existing approaches have focused on either novel inference methods, unique training architectures, or supplementing the training data with additional background samples. Here, we propose a simple regularization technique easily applied to existing convolutional neural network architectures that improves open set robustness without a background dataset. Our method achieves state-of-the-art results on open set classification baselines and easily scales to large-scale open set classification problems.
翻訳日:2022-10-20 03:35:19 公開日:2020-09-10
# 直接音声翻訳のためのターゲットセグメンテーションについて

On Target Segmentation for Direct Speech Translation ( http://arxiv.org/abs/2009.04707v1 )

ライセンス: Link先を確認
Mattia Antonino Di Gangi and Marco Gaido and Matteo Negri and Marco Turchi(参考訳) 直接音声翻訳の最近の研究は、データ拡張技術とより大きな深層学習モデルによる継続的な改善を示している。 これらの手法は、この新しいアプローチと従来のカスケード手法のギャップを埋めるのに役立っているが、異なる研究の間には多くの矛盾があり、芸術の状態を評価することは困難である。 驚くべきことに、ある議論のポイントはターゲットテキストのセグメンテーションである。 文字レベルのセグメンテーションは、当初オープンな語彙を得るために提案されてきたが、長いシーケンスと長いトレーニング時間をもたらす。 そして、サブワードレベルのセグメンテーションは、ワードレベルのモデルよりも優れたトレーニング時間を短縮する短いシーケンスを生成するため、ニューラルマシン翻訳の最先端技術となった。 このように、文字の初期使用や文字レベルでのより良い結果の主張にもかかわらず、近年の音声翻訳の研究はターゲットサブワードの使用を開始している。 本研究では,8つの言語方向と多言語学習を対象とする3つのベンチマークにおいて,2つの手法の比較を行った。 サブワードレベルのセグメンテーションはすべての設定で好意的に比較され、1から3BLEUポイントの範囲で文字レベルのセグメンテーションを上回っている。

Recent studies on direct speech translation show continuous improvements by means of data augmentation techniques and bigger deep learning models. While these methods are helping to close the gap between this new approach and the more traditional cascaded one, there are many incongruities among different studies that make it difficult to assess the state of the art. Surprisingly, one point of discussion is the segmentation of the target text. Character-level segmentation has been initially proposed to obtain an open vocabulary, but it results on long sequences and long training time. Then, subword-level segmentation became the state of the art in neural machine translation as it produces shorter sequences that reduce the training time, while being superior to word-level models. As such, recent works on speech translation started using target subwords despite the initial use of characters and some recent claims of better results at the character level. In this work, we perform an extensive comparison of the two methods on three benchmarks covering 8 language directions and multilingual training. Subword-level segmentation compares favorably in all settings, outperforming its character-level counterpart in a range of 1 to 3 BLEU points.
翻訳日:2022-10-20 03:29:22 公開日:2020-09-10
# グラブモデルにおける重量関数がコスト関数に及ぼす影響の解析

Analyze the Effects of Weighting Functions on Cost Function in the Glove Model ( http://arxiv.org/abs/2009.04732v1 )

ライセンス: Link先を確認
Trieu Hai Nguyen(参考訳) 大きな語彙サイズとコーパスサイズを扱う場合、トレーニンググローブモデルの実行時間は長く、データのサイズが約500mbの数十時間に及ぶ場合もあります。 その結果、重み付け関数の最適パラメータの探索と選択は、弱いハードウェアに多くの困難をもたらす。 もちろん、最高の結果を得るためには、ベンチマークを何度もテストする必要があります。 この問題を解決するために,パラメータの選択やベンチマーク作成に要する時間を短縮できる重み付け関数を導出する。 また、実験を気にせずに、ほぼ同じ精度を同時に得ることもできる。

When dealing with the large vocabulary size and corpus size, the run-time for training Glove model is long, it can even be up to several dozen hours for data, which is approximately 500MB in size. As a result, finding and selecting the optimal parameters for the weighting function create many difficulties for weak hardware. Of course, to get the best results, we need to test benchmarks many times. In order to solve this problem, we derive a weighting function, which can save time for choosing parameters and making benchmarks. It also allows one to obtain nearly similar accuracy at the same given time without concern for experimentation.
翻訳日:2022-10-20 03:29:04 公開日:2020-09-10
# Grievance Dictionary: 言語使用の脅威を理解する

The Grievance Dictionary: Understanding Threatening Language Use ( http://arxiv.org/abs/2009.04798v1 )

ライセンス: Link先を確認
Isabelle van der Vegt, Maximilian Mozes, Bennett Kleinberg, Paul Gill(参考訳) 本稿では、グリーバンスに満ちた暴力脅威評価の文脈において、言語使用を自動的に理解するために使用できる心理言語辞書「グリーバンス辞書」を紹介する。 本稿では,経験豊富な脅威評価実践者から提案された辞書の開発について述べる。 これらの提案とその後の人的および計算的な単語リストの生成により、2,318人の参加者による20,502単語の注釈付き辞書が作成された。 この辞書は暴力者や非暴力者によって書かれたテキストに適用することで検証され、複数の辞書カテゴリーの人口差の強い証拠が示された。 さらなる分類作業は有望な性能を示したが、将来的な改善は必要である。 最後に,セキュリティ専門家や(違反)研究者によるGreevance Dictionaryの使用に関する指示と提案を行う。

This paper introduces the Grievance Dictionary, a psycholinguistic dictionary which can be used to automatically understand language use in the context of grievance-fuelled violence threat assessment. We describe the development the dictionary, which was informed by suggestions from experienced threat assessment practitioners. These suggestions and subsequent human and computational word list generation resulted in a dictionary of 20,502 words annotated by 2,318 participants. The dictionary was validated by applying it to texts written by violent and non-violent individuals, showing strong evidence for a difference between populations in several dictionary categories. Further classification tasks showed promising performance, but future improvements are still needed. Finally, we provide instructions and suggestions for the use of the Grievance Dictionary by security professionals and (violence) researchers.
翻訳日:2022-10-20 03:28:54 公開日:2020-09-10
# 統計・自然言語ツールキットの複数パスを用いた記述・要約の分類

Classification of descriptions and summary using multiple passes of statistical and natural language toolkits ( http://arxiv.org/abs/2009.04953v1 )

ライセンス: Link先を確認
Saumya Banthia, Anantha Sharma(参考訳) この文書は、その名前に関するエンティティの要約/定義の関連性を確認するために使用できる可能性のあるアプローチを記述します。 この分類器は、エンティティの名前の要約/定義への関連性に焦点を当て、言い換えれば、名前の関連性チェックである。 このアプローチで得られたパーセンテージスコアは、他のメトリクスから得られたスコアを補完して最終分類にたどり着くために、単独で使用することも可能であり、文書の最後には、潜在的な改善点も概説されている。 この文書が客観的スコアの達成に焦点を当てているデータセットは、パッケージ名とその要約(pypi.orgから引用)のリストである。

This document describes a possible approach that can be used to check the relevance of a summary / definition of an entity with respect to its name. This classifier focuses on the relevancy of an entity's name to its summary / definition, in other words, it is a name relevance check. The percentage score obtained from this approach can be used either on its own or used to supplement scores obtained from other metrics to arrive upon a final classification; at the end of the document, potential improvements have also been outlined. The dataset that this document focuses on achieving an objective score is a list of package names and their respective summaries (sourced from pypi.org).
翻訳日:2022-10-20 03:28:43 公開日:2020-09-10
# BERTにおけるジェンダーバイアスの調査

Investigating Gender Bias in BERT ( http://arxiv.org/abs/2009.05021v1 )

ライセンス: Link先を確認
Rishabh Bhardwaj, Navonil Majumder, Soujanya Poria(参考訳) 文脈言語モデル(CLM)は、NLPベンチマークを新たな高さに押し上げた。 テキスト分類などの下流タスクにCLMが提供する単語埋め込みを利用するための新しい規範となっている。 しかし、対処しない限り、CLMはデータセットの中で固有の性別バイアスを学ぶ傾向にある。 その結果、下流のNLPモデルの予測は、"he"を"she"に置き換えたり、性中立的な単語に置き換えたりすることで顕著に異なる。 本稿では,一般的なCLM,すなわちBERTに着目した分析を行う。 感情・感情インテンシティ予測に関連する5つの下流課題における性バイアスの分析を行った。 各タスクに対して、BERTの単語埋め込みを利用した単純な回帰器を訓練する。 次に, エクイティ評価コーパスを用いて, レグレプタのジェンダーバイアスを評価する。 理想的には、特定のデザインから、モデルは入力から性別情報の特徴を捨てるべきである。 しかし,この結果は,性別別単語やフレーズの予測に大きく依存していることが示唆された。 単語埋め込みから性別特化特徴を取り除き,そのようなバイアスを低減できると主張する。 したがって、BERTの各層に対して、主に性別情報を符号化する方向を特定する。 そのような方向によって形成される空間は、単語埋め込みの意味空間におけるジェンダー部分空間と呼ばれる。 本稿では,各BERT層に対する1つの主方向という,きめ細かい性別方向を求めるアルゴリズムを提案する。 これにより、複数の次元のジェンダーサブスペースを実現する必要がなくなり、他の重要な情報が省略されるのを防ぐことができる。 実験により, 下流タスクにおけるBERT誘発バイアスの低減に成功し, 組込み部品の除去に成功した。

Contextual language models (CLMs) have pushed the NLP benchmarks to a new height. It has become a new norm to utilize CLM provided word embeddings in downstream tasks such as text classification. However, unless addressed, CLMs are prone to learn intrinsic gender-bias in the dataset. As a result, predictions of downstream NLP models can vary noticeably by varying gender words, such as replacing "he" to "she", or even gender-neutral words. In this paper, we focus our analysis on a popular CLM, i.e., BERT. We analyse the gender-bias it induces in five downstream tasks related to emotion and sentiment intensity prediction. For each task, we train a simple regressor utilizing BERT's word embeddings. We then evaluate the gender-bias in regressors using an equity evaluation corpus. Ideally and from the specific design, the models should discard gender informative features from the input. However, the results show a significant dependence of the system's predictions on gender-particular words and phrases. We claim that such biases can be reduced by removing genderspecific features from word embedding. Hence, for each layer in BERT, we identify directions that primarily encode gender information. The space formed by such directions is referred to as the gender subspace in the semantic space of word embeddings. We propose an algorithm that finds fine-grained gender directions, i.e., one primary direction for each BERT layer. This obviates the need of realizing gender subspace in multiple dimensions and prevents other crucial information from being omitted. Experiments show that removing embedding components in such directions achieves great success in reducing BERT-induced bias in the downstream tasks.
翻訳日:2022-10-20 03:28:32 公開日:2020-09-10
# 放射線診断におけるRadLex正規化

RadLex Normalization in Radiology Reports ( http://arxiv.org/abs/2009.05128v1 )

ライセンス: Link先を確認
Surabhi Datta, Jordan Godfrey-Stovall, Kirk Roberts(参考訳) 放射線医学報告は、患者の画像研究に関する様々な臨床的重要な情報を抽出するために広く用いられている。 しかしながら、限られた研究は、エンティティを共通の放射線学固有の語彙に標準化することに焦点を当てている。 さらに、RadLexを標準化に活用する研究は行われていない。 本稿では,RadLex 用語に様々な放射性物質を正規化することを目的とする。 3種類のレポートからエンティティをアノテートすることで正規化コーパスを手作業で構築する。 1706件が記載されている。 自動正規化のための事前学習言語モデル(BERT)に基づく深層学習に基づく2つのNLP手法を提案する。 まず, bm25を用いてbert型モデル(リランクとスパン検出器)の候補概念の抽出を行い, 正規化概念の予測を行った。 結果は有望であり、最高の精度(78.44%)はスパン検出器によって得られる。 さらに,コーパス構築に関わる課題を議論し,新しいラドックス用語を提案する。

Radiology reports have been widely used for extraction of various clinically significant information about patients' imaging studies. However, limited research has focused on standardizing the entities to a common radiology-specific vocabulary. Further, no study to date has attempted to leverage RadLex for standardization. In this paper, we aim to normalize a diverse set of radiological entities to RadLex terms. We manually construct a normalization corpus by annotating entities from three types of reports. This contains 1706 entity mentions. We propose two deep learning-based NLP methods based on a pre-trained language model (BERT) for automatic normalization. First, we employ BM25 to retrieve candidate concepts for the BERT-based models (re-ranker and span detector) to predict the normalized concept. The results are promising, with the best accuracy (78.44%) obtained by the span detector. Additionally, we discuss the challenges involved in corpus construction and propose new RadLex terms.
翻訳日:2022-10-20 03:27:45 公開日:2020-09-10
# MedMeshCNN - 医用表面モデルのためのMeshCNNの実装

MedMeshCNN -- Enabling MeshCNN for Medical Surface Models ( http://arxiv.org/abs/2009.04893v1 )

ライセンス: Link先を確認
Lisa Schneider, Annika Niemann, Oliver Beuing, Bernhard Preim and Sylvia Saalfeld(参考訳) 背景と目的: MeshCNNは最近提案されたDeep Learningフレームワークで、不規則で一様でない3Dメッシュ上での直接動作によって注目を集めている。 選択されたベンチマークデータセットでは、分類とセグメンテーションタスクにおける最先端メソッドよりも優れていた。 特に、医療領域は、meshcnnによる処理の恩恵を受ける可能性のある、大量の複雑な3d表面モデルを提供する。 しかしながら、いくつかの制限は、非常に多様な医療表面モデルにおけるmeshcnnの優れた性能を妨げる。 本研究で提案するMedMeshCNNは, 複雑な, 多様な, きめ細かい医療データの拡張である。 方法: medmeshcnn は meshcnn の機能に従い、メモリ効率が大幅に向上し、セグメンテーションプロセス中に患者固有の特性を保持することができる。 さらに、しばしば高度に不均衡なクラス分布を持つ病的構造のセグメンテーションを可能にする。 結果:MedMeshCNNは頭蓋内大動脈瘤とその周囲の血管構造を複雑に区分し,63.24\%の平均断面積に到達した。 病理組織学的動脈瘤は71.4\%のインターセクションで区切られている。 結論: これらの結果は,medmeshcnnがmeshcnnを複雑な細粒度の医療用表面メッシュに適用できることを示した。 MedMeshCNNは病理所見から導かれる不均衡なクラス分布を考慮し, 分節過程において患者固有の特性をほとんど保持する。

Background and objective: MeshCNN is a recently proposed Deep Learning framework that drew attention due to its direct operation on irregular, non-uniform 3D meshes. On selected benchmarking datasets, it outperformed state-of-the-art methods within classification and segmentation tasks. Especially, the medical domain provides a large amount of complex 3D surface models that may benefit from processing with MeshCNN. However, several limitations prevent outstanding performances of MeshCNN on highly diverse medical surface models. Within this work, we propose MedMeshCNN as an expansion for complex, diverse, and fine-grained medical data. Methods: MedMeshCNN follows the functionality of MeshCNN with a significantly increased memory efficiency that allows retaining patient-specific properties during the segmentation process. Furthermore, it enables the segmentation of pathological structures that often come with highly imbalanced class distributions. Results: We tested the performance of MedMeshCNN on a complex part segmentation task of intracranial aneurysms and their surrounding vessel structures and reached a mean Intersection over Union of 63.24\%. The pathological aneurysm is segmented with an Intersection over Union of 71.4\%. Conclusions: These results demonstrate that MedMeshCNN enables the application of MeshCNN on complex, fine-grained medical surface meshes. The imbalanced class distribution deriving from the pathological finding is considered by MedMeshCNN and patient-specific properties are mostly retained during the segmentation process.
翻訳日:2022-10-20 03:20:32 公開日:2020-09-10
# 多施設mr画像におけるホワイトマターハイパーインテンシティセグメンテーションのためのサイクガンによる非教師なし領域適応

Unsupervised Domain Adaptation via CycleGAN for White Matter Hyperintensity Segmentation in Multicenter MR Images ( http://arxiv.org/abs/2009.04985v1 )

ライセンス: Link先を確認
Julian Alberto Palladino, Diego Fernandez Slezak and Enzo Ferrante(参考訳) 磁気共鳴画像における白色物質ハイパーインテンシティの自動セグメンテーションは, 臨床的, 研究的に重要である。 これらの病変の定量化は、脳卒中、認知症、死亡のリスクを予測する指標となる。 過去数年間、バイオメディカルなイメージセグメンテーションに適した畳み込みニューラルネットワーク(CNN)は、このタスクにおけるこれまでのすべての技術より優れている。 しかし、それらは極めてデータ依存であり、トレーニングとテストデータセット間のデータ分散が変わらない場合に限り、優れたパフォーマンスを維持する。 このような分散が変化しても、同じタスクの実行を目標とする場合、ドメイン適応問題(例えば、異なるMRマシンや異なる取得パラメータを使用してトレーニングやテストデータ)が発生する。 本研究では,脳病変を有するマルチセンターMR画像に対して,非教師なし領域適応を行うために,CycleGAN(CycleGAN)を用いた。 異なる医療センターと、ブランド、モデル、構成パラメータの異なるmrマシンによって特徴付けられる領域間での容積mr画像を変換するためのマッピング関数の学習を目標とする。 実験の結果,CycleGANはMR領域間のJensen-Shannon分散を低減し,ラベル付きデータがない領域でのCNNモデルによる自動セグメンテーションを可能にすることがわかった。

Automatic segmentation of white matter hyperintensities in magnetic resonance images is of paramount clinical and research importance. Quantification of these lesions serve as a predictor for risk of stroke, dementia and mortality. During the last years, convolutional neural networks (CNN) specifically tailored for biomedical image segmentation have outperformed all previous techniques in this task. However, they are extremely data-dependent, and maintain a good performance only when data distribution between training and test datasets remains unchanged. When such distribution changes but we still aim at performing the same task, we incur in a domain adaptation problem (e.g. using a different MR machine or different acquisition parameters for training and test data). In this work, we explore the use of cycle-consistent adversarial networks (CycleGAN) to perform unsupervised domain adaptation on multicenter MR images with brain lesions. We aim at learning a mapping function to transform volumetric MR images between domains, which are characterized by different medical centers and MR machines with varying brand, model and configuration parameters. Our experiments show that CycleGAN allows us to reduce the Jensen-Shannon divergence between MR domains, enabling automatic segmentation with CNN models on domains where no labeled data was available.
翻訳日:2022-10-20 03:20:10 公開日:2020-09-10
# アルツハイマー病検出のための3次元畳み込みニューラルネットワークの学習形状の特徴と抽象化

Learning Shape Features and Abstractions in 3D Convolutional Neural Networks for Detecting Alzheimer's Disease ( http://arxiv.org/abs/2009.05023v1 )

ライセンス: Link先を確認
Md Motiur Rahman Sagar, Martin Dyrba(参考訳) ディープニューラルネットワーク - 特に畳み込みニューラルネットワーク(ConvNet)は、画像分類、パターン認識、様々なコンピュータビジョンタスクの最先端技術となっている。 ConvNetは、医療データを分析して疾患を効率的に診断する医療分野において大きな可能性を秘めている。 MRIデータから抽出したConvNetモデルの特徴から,早期診断は進行を予防し,アルツハイマー病の治療に極めて重要である。 優れた性能を提供する能力があるにもかかわらず、モデルの判断の解釈不能は、生命を脅かす可能性のある誤診断につながる可能性がある。 本論文では,アルツハイマー病検出のための3D ConvNets による形状特徴と抽象化について,様々な可視化手法を用いて検討した。 ネットワーク構造, 使用フィルタサイズ, フィルタ形状の変化が全体的な性能にどのように影響するか, モデルの特徴を調べた。 異なるモデルのlrp関連マップにより、脳のどの部分が分類決定により関連があるかが明らかになった。 Activation Maximizationによる学習したフィルタを比較すると、パターンがネットワークの異なる層にどのようにエンコードされたかがわかる。 最後に,畳み込みオートエンコーダからの伝達学習を実施し,入力パッチによるトレーニングサンプル数の増加による低レベルの特徴抽出による学習特徴とモデル性能の向上を確認した。

Deep Neural Networks - especially Convolutional Neural Network (ConvNet) has become the state-of-the-art for image classification, pattern recognition and various computer vision tasks. ConvNet has a huge potential in medical domain for analyzing medical data to diagnose diseases in an efficient way. Based on extracted features by ConvNet model from MRI data, early diagnosis is very crucial for preventing progress and treating the Alzheimer's disease. Despite having the ability to deliver great performance, absence of interpretability of the model's decision can lead to misdiagnosis which can be life threatening. In this thesis, learned shape features and abstractions by 3D ConvNets for detecting Alzheimer's disease were investigated using various visualization techniques. How changes in network structures, used filters sizes and filters shapes affects the overall performance and learned features of the model were also inspected. LRP relevance map of different models revealed which parts of the brain were more relevant for the classification decision. Comparing the learned filters by Activation Maximization showed how patterns were encoded in different layers of the network. Finally, transfer learning from a convolutional autoencoder was implemented to check whether increasing the number of training samples with patches of input to extract the low-level features improves learned features and the model performance.
翻訳日:2022-10-20 03:19:46 公開日:2020-09-10
# 注意型畳み込みネットワークを用いた胸部ct画像からのcovid-19予測

COVID CT-Net: Predicting Covid-19 From Chest CT Images Using Attentional Convolutional Network ( http://arxiv.org/abs/2009.05096v1 )

ライセンス: Link先を確認
Shakib Yazdani, Shervin Minaee, Rahele Kafieh, Narges Saeedizadeh, Milan Sonka(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中で200カ国以上で大流行し、世界中の多くの人々の健康と生活に深刻な影響を与えている。 2020年8月25日現在、2000万人以上が感染し、80万人以上の死者が報告されている。 CT画像は「RT-PCR(reverse transcription polymerase chain reaction)」テストの代替として利用でき、COVID-19を検出することができる。 本研究では,CT画像からCOVID-19を予測するためのディープラーニングフレームワークを開発した。 本稿では,胸部感染部位に焦点をあて,より正確な予測を行うことのできる注意的畳み込みネットワークを提案する。 2000以上のct画像のデータセット上でモデルをトレーニングし,感度,特異性,曲線下領域,精度リコール曲線など,さまざまな一般的な指標を用いてその性能を報告し,非常に有望な結果を得た。 また,複数のテスト画像に対するモデルのアテンションマップの可視化を行い,本モデルが意図した感染域に到達していることを示す。 機械学習モデリングフレームワークの開発に加えて,ボード認証放射線科医の助けを借りて,胸部の強力な感染領域のマニュアルアノテーションも提供し,他の研究者にも公開しています。

The novel corona-virus disease (COVID-19) pandemic has caused a major outbreak in more than 200 countries around the world, leading to a severe impact on the health and life of many people globally. As of Aug 25th of 2020, more than 20 million people are infected, and more than 800,000 death are reported. Computed Tomography (CT) images can be used as a as an alternative to the time-consuming "reverse transcription polymerase chain reaction (RT-PCR)" test, to detect COVID-19. In this work we developed a deep learning framework to predict COVID-19 from CT images. We propose to use an attentional convolution network, which can focus on the infected areas of chest, enabling it to perform a more accurate prediction. We trained our model on a dataset of more than 2000 CT images, and report its performance in terms of various popular metrics, such as sensitivity, specificity, area under the curve, and also precision-recall curve, and achieve very promising results. We also provide a visualization of the attention maps of the model for several test images, and show that our model is attending to the infected regions as intended. In addition to developing a machine learning modeling framework, we also provide the manual annotation of the potentionally infected regions of chest, with the help of a board-certified radiologist, and make that publicly available for other researchers.
翻訳日:2022-10-20 03:19:25 公開日:2020-09-10
# 責任を負う

Prune Responsibly ( http://arxiv.org/abs/2009.09936v1 )

ライセンス: Link先を確認
Michela Paganini(参考訳) 機械学習アプリケーションにおける特定の公正性の定義を無視すると、基礎となるモデルを刈り取ることが影響します。 我々は、ニューラルネットワークのプルーニングに関する実生活工学的な意思決定において、プルーニングプロセスを実行する100万以上の画像分類モデルにおいて、タスクやアーキテクチャ全体にわたって、望ましくないパフォーマンス不均衡の出現と悪化について調査および文書化を行い、透明なレポート、バイアス、公正性、包括的メトリクスの必要性を実証する。 人口を意識したAIモデルの定量的評価を求める中で,我々は,精度と効率のトレードオフが非表現的あるいは非表現的グループに与える影響を歴史的に見落としている,有形アプリケーションドメインとしてニューラルネットワークプルーニングを提案する。 我々は,価値に基づく操作点選択プロセスに公平性を考慮した簡単なParetoベースのフレームワークを提供し,プルーニング手法の選択を再評価する。

Irrespective of the specific definition of fairness in a machine learning application, pruning the underlying model affects it. We investigate and document the emergence and exacerbation of undesirable per-class performance imbalances, across tasks and architectures, for almost one million categories considered across over 100K image classification models that undergo a pruning process.We demonstrate the need for transparent reporting, inclusive of bias, fairness, and inclusion metrics, in real-life engineering decision-making around neural network pruning. In response to the calls for quantitative evaluation of AI models to be population-aware, we present neural network pruning as a tangible application domain where the ways in which accuracy-efficiency trade-offs disproportionately affect underrepresented or outlier groups have historically been overlooked. We provide a simple, Pareto-based framework to insert fairness considerations into value-based operating point selection processes, and to re-evaluate pruning technique choices.
翻訳日:2022-10-20 03:18:24 公開日:2020-09-10
# グラフニューラルネットワークと2階推論によるエンティティ中心特徴の活用による参照解決の改善

Improving Coreference Resolution by Leveraging Entity-Centric Features with Graph Neural Networks and Second-order Inference ( http://arxiv.org/abs/2009.04639v1 )

ライセンス: Link先を確認
Lu Liu, Zhenqiao Song and Xiaoqing Zheng(参考訳) コリファレンス解決における大きな課題の1つは、言及ペアではなく、言及のクラスタ上で定義されたエンティティレベルの機能をどのように利用するかである。 しかし、coreferentの言及は通常、テキスト全体から遠く離れているため、エンティティレベルの機能を組み込むのは非常に困難である。 本稿では,同一の実世界のエンティティを参照するすべての言及にまたがる特徴の共有を奨励することで,エンティティ中心の情報を取得することができるグラフニューラルネットワークベースのコア参照解決手法を提案する。 2つのリンクされた参照が同じエンティティを指し示す可能性があるかをモデル化するエッジを通じて、メンションが相互にリンクされる。 このようなグラフによるモデリングでは、参照間の機能はエンティティ中心の方法でメッセージパッシング操作によって共有できる。 第2次特徴までのグローバル推論アルゴリズムも、最適な参照を一貫性のあるグループに分類するために提案されている。 実験の結果,2次復号アルゴリズム(GNNCR)と組み合わせたグラフニューラルネットワークを用いた手法が,英語のCoNLL-2012 Shared Taskデータセットの最先端性能に近づいた。

One of the major challenges in coreference resolution is how to make use of entity-level features defined over clusters of mentions rather than mention pairs. However, coreferent mentions usually spread far apart in an entire text, which makes it extremely difficult to incorporate entity-level features. We propose a graph neural network-based coreference resolution method that can capture the entity-centric information by encouraging the sharing of features across all mentions that probably refer to the same real-world entity. Mentions are linked to each other via the edges modeling how likely two linked mentions point to the same entity. Modeling by such graphs, the features between mentions can be shared by message passing operations in an entity-centric manner. A global inference algorithm up to second-order features is also presented to optimally cluster mentions into consistent groups. Experimental results show our graph neural network-based method combing with the second-order decoding algorithm (named GNNCR) achieved close to state-of-the-art performance on the English CoNLL-2012 Shared Task dataset.
翻訳日:2022-10-20 03:18:02 公開日:2020-09-10
# 言葉から文への普遍表現の学習

Learning Universal Representations from Word to Sentence ( http://arxiv.org/abs/2009.04656v1 )

ライセンス: Link先を確認
Yian Li, Hai Zhao(参考訳) 言語のための十分に発達したカットエッジ表現学習にもかかわらず、ほとんどの言語表現モデルは、通常特定の言語単位のレベルに焦点を当て、複数の言語オブジェクトの層を統一的に扱う際に大きな不都合を引き起こす。 このように、この研究は普遍的な表現学習、すなわちタスク非依存評価を通じて一様ベクトル空間に異なる言語単位のレベルを埋め込むことを導入し、探求する。 本稿では, 単語, 句, 文の観点から類似データセットを構築し, 複数の表現モデルを用いて学習ベクトル空間の幾何学的性質について検討する。 そして、適切なトレーニング設定に組み込んだ十分に訓練されたトランスフォーマーモデルが、効果的に普遍表現をもたらすことを実証的に検証する。 特に,NLIおよびPPDBデータセット上でのALBERTの微調整は,言語レベルでの類似処理において高い精度を実現する。 保険FAQタスクに関するさらなる実験は、現実の応用における普遍表現モデルの有効性を示す。

Despite the well-developed cut-edge representation learning for language, most language representation models usually focus on specific level of linguistic unit, which cause great inconvenience when being confronted with handling multiple layers of linguistic objects in a unified way. Thus this work introduces and explores the universal representation learning, i.e., embeddings of different levels of linguistic unit in a uniform vector space through a task-independent evaluation. We present our approach of constructing analogy datasets in terms of words, phrases and sentences and experiment with multiple representation models to examine geometric properties of the learned vector space. Then we empirically verify that well pre-trained Transformer models incorporated with appropriate training settings may effectively yield universal representation. Especially, our implementation of fine-tuning ALBERT on NLI and PPDB datasets achieves the highest accuracy on analogy tasks in different language levels. Further experiments on the insurance FAQ task show effectiveness of universal representation models in real-world applications.
翻訳日:2022-10-20 03:17:45 公開日:2020-09-10
# 大規模非線形グランジャー因果関係:短時系列データから有向ネットワークを復元するデータ駆動多変量アプローチ

Large-scale nonlinear Granger causality: A data-driven, multivariate approach to recovering directed networks from short time-series data ( http://arxiv.org/abs/2009.04681v1 )

ライセンス: Link先を確認
Axel Wism\"uller, Adora M. DSouza and Anas Z. Abidin(参考訳) 複雑なシステムに対する洞察を得るためには,観測時系列データから非線形因果関係を推定することが重要である。 特に、わずかな時間的観測で短い記録しか持たない大規模システムにおける相互作用成分間の因果関係を推定することは、重要だが未解決の問題である。 本稿では,高次元時系列記録からシステムコンポーネント間の方向性,非線形,多変量因果関係を推定するための大規模非線形グランガー因果関係(LSNGC)手法を提案する。 限られた観測データからの非線形状態空間変換との相互作用をモデル化することにより、lsNGCは計算的に効率的な構成時間列間の関数的相互依存性に関する明示的な前提のないカジュアルな関係を同定する。 さらに,推論因果関係の統計的意義を明らかにする数学的定式化も提供する。 我々は,2ノードから34ノードのカオス時系列システムにおいて,ネットワーク構造を復元するlsNGCの能力について検討した。 以上の結果から,lsNGCは観測データから有意義な相互作用を捉え,従来の手法に比べて良好に機能することが示唆された。 最後に, 機能的磁気共鳴画像(fMRI)データから得られた比較的短い時間系列のうち, 指向性非線形多変量因果関係を推定することにより, 大規模実世界のシステムにおける因果関係推定へのlsNGCの適用性を実証した。

To gain insight into complex systems it is a key challenge to infer nonlinear causal directional relations from observational time-series data. Specifically, estimating causal relationships between interacting components in large systems with only short recordings over few temporal observations remains an important, yet unresolved problem. Here, we introduce a large-scale Nonlinear Granger Causality (lsNGC) approach for inferring directional, nonlinear, multivariate causal interactions between system components from short high-dimensional time-series recordings. By modeling interactions with nonlinear state-space transformations from limited observational data, lsNGC identifies casual relations with no explicit a priori assumptions on functional interdependence between component time-series in a computationally efficient manner. Additionally, our method provides a mathematical formulation revealing statistical significance of inferred causal relations. We extensively study the ability of lsNGC to recovering network structure from two-node to thirty-four node chaotic time-series systems. Our results suggest that lsNGC captures meaningful interactions from limited observational data, where it performs favorably when compared to traditionally used methods. Finally, we demonstrate the applicability of lsNGC to estimating causality in large, real-world systems by inferring directional nonlinear, multivariate causal relationships among a large number of relatively short time-series acquired from functional Magnetic Resonance Imaging (fMRI) data of the human brain.
翻訳日:2022-10-20 03:12:29 公開日:2020-09-10
# 高次元低サンプルサイズクラス不均衡問題に対する集団構造学習型分類器

Population structure-learned classifier for high-dimension low-sample-size class-imbalanced problem ( http://arxiv.org/abs/2009.04722v1 )

ライセンス: Link先を確認
Liran Shen, Meng Joo Er, Qingbo Yin(参考訳) 高次元低サンプルサイズデータ(HDLSS)の分類は難しい問題であり、ほとんどのアプリケーション分野においてクラス不均衡データを持つことが一般的である。 これを不均衡HDLSS(IHDLSS)と呼ぶ。 近年、分類基準と寛容類似性はHDLSSにとって重要であり、クラス分離性の前提におけるクラス内分散の最大化を強調している。 この考え方に基づき, 集団構造学習型分類器 (psc) と呼ばれる新しい線形二項分類器を提案する。 提案したPSCは,クラス分離性の前提でクラス間散乱行列とクラス内散乱行列の和を最大化し,多数クラスと少数クラスに異なるインターセプト値を割り当てることで,IHDLSSのより優れた一般化性能を得ることができる。 提案手法の特徴は,(1) ihdls上でうまく機能する,(2)高次元行列の逆を低次元空間で解くことができる,(3)各クラスに対するインターセプト項を決定するのに自己適応的である,(4)計算複雑性がsvmと同じであること,である。 1つのシミュレーションデータセットと8つの実世界のベンチマークデータセットで遺伝子解析に関する一連の評価を行う。 IHDLSSの最先端手法よりもPSCの方が優れていることを示す実験結果を得た。

The Classification on high-dimension low-sample-size data (HDLSS) is a challenging problem and it is common to have class-imbalanced data in most application fields. We term this as Imbalanced HDLSS (IHDLSS). Recent theoretical results reveal that the classification criterion and tolerance similarity are crucial to HDLSS, which emphasizes the maximization of within-class variance on the premise of class separability. Based on this idea, a novel linear binary classifier, termed Population Structure-learned Classifier (PSC), is proposed. The proposed PSC can obtain better generalization performance on IHDLSS by maximizing the sum of inter-class scatter matrix and intra-class scatter matrix on the premise of class separability and assigning different intercept values to majority and minority classes. The salient features of the proposed approach are: (1) It works well on IHDLSS; (2) The inverse of high dimensional matrix can be solved in low dimensional space; (3) It is self-adaptive in determining the intercept term for each class; (4) It has the same computational complexity as the SVM. A series of evaluations are conducted on one simulated data set and eight real-world benchmark data sets on IHDLSS on gene analysis. Experimental results demonstrate that the PSC is superior to the state-of-art methods in IHDLSS.
翻訳日:2022-10-20 03:11:59 公開日:2020-09-10
# 野生における深層学習のプライバシ分析:移動学習に対する会員推論攻撃

Privacy Analysis of Deep Learning in the Wild: Membership Inference Attacks against Transfer Learning ( http://arxiv.org/abs/2009.04872v1 )

ライセンス: Link先を確認
Yang Zou, Zhikun Zhang, Michael Backes, Yang Zhang(参考訳) 多くの重要なアプリケーションにコアコンポーネントとしてデプロイされる一方で、機械学習(ml)モデルは、さまざまなセキュリティおよびプライバシ攻撃に対して脆弱である。 このドメインにおける主要なプライバシ攻撃は、メンバーシップ推論であり、敵はターゲットデータサンプルがターゲットMLモデルのトレーニングセットの一部であるかどうかを判断することを目的としている。 これまでのところ、現在のメンバシップ推論攻撃のほとんどは、スクラッチからトレーニングされたMLモデルに対して評価されている。 しかし、現実のMLモデルは、モデル所有者が異なるデータセット、すなわち教師モデルから学習した事前訓練されたモデルを取り、教師モデルにデータで微調整することで生徒モデルを訓練する、移行学習パラダイムに従って訓練されるのが一般的である。 本稿では,転送学習モデルに対するメンバシップ推論攻撃の最初の体系的評価を行う。 シャドーモデルトレーニングの戦略を採用して,メンバシップ推論分類器のトレーニング用データを導出する。 4つの実世界の画像データセットに対する大規模な実験は、メンバーシップ推論が効果的なパフォーマンスを達成することを示す。 例えば、ResNet20から転送されたCIFAR100分類器(Caltech101で事前トレーニングされている)では、会員推定は9,5\%の攻撃AUCを達成する。 さらに,対象モデルのアーキテクチャが不明な場合,メンバーシップ推定が依然として有効であることを示す。 我々の結果は、実際に機械学習モデルから生じるメンバーシップリスクの深刻さを浮き彫りにした。

While being deployed in many critical applications as core components, machine learning (ML) models are vulnerable to various security and privacy attacks. One major privacy attack in this domain is membership inference, where an adversary aims to determine whether a target data sample is part of the training set of a target ML model. So far, most of the current membership inference attacks are evaluated against ML models trained from scratch. However, real-world ML models are typically trained following the transfer learning paradigm, where a model owner takes a pretrained model learned from a different dataset, namely teacher model, and trains her own student model by fine-tuning the teacher model with her own data. In this paper, we perform the first systematic evaluation of membership inference attacks against transfer learning models. We adopt the strategy of shadow model training to derive the data for training our membership inference classifier. Extensive experiments on four real-world image datasets show that membership inference can achieve effective performance. For instance, on the CIFAR100 classifier transferred from ResNet20 (pretrained with Caltech101), our membership inference achieves $95\%$ attack AUC. Moreover, we show that membership inference is still effective when the architecture of target model is unknown. Our results shed light on the severity of membership risks stemming from machine learning models in practice.
翻訳日:2022-10-20 03:11:12 公開日:2020-09-10
# マルコフ決定過程のアクティブメタ学習への応用

A Markov Decision Process Approach to Active Meta Learning ( http://arxiv.org/abs/2009.04950v1 )

ライセンス: Link先を確認
Bingjia Wang, Alec Koppel and Vikram Krishnamurthy(参考訳) 教師付き学習では、データは特定の用途によく調整されたモデルを生成するが、新しい文脈にうまく適応しない特異なタスクに関連付けられていると仮定して、与えられたデータセットに単一の統計モデルを適用する。 対照的に、メタラーニングでは、データは多数のタスクに関連付けられ、より一般化を追求するために、すべてのタスクで同時にうまく機能するモデルを求めます。 メタラーニングにおける1つの課題は、一般的に使われるランダムまたは循環パスデータによって見過ごされるタスクとクラス間の関係をどのように活用するかである。 本研究では,メタトレーニングセットの内部および内部の共変分を識別し,トレーニング対象のサンプルを積極的に選択することを提案する。 具体的には,タスク間の相関をカプセル化する方法に応じて,複数のメタトレーニングセットからサンプルをマルチアームバンディットまたはマルコフ決定プロセス(MDP)として選択する問題を提起した。 我々は,線形計画法によって解決されたuper confidence bound (ucb), gittins index, tabular markov decision problems (mdps) に基づくスケジューリング手法を開発した。 種々の実験状況において, 循環型あるいは循環型サンプリングと比較して, 有効選択スキームのサンプリング複雑性が著しく低下し, 実際に共変量を利用するメリットが示された。

In supervised learning, we fit a single statistical model to a given data set, assuming that the data is associated with a singular task, which yields well-tuned models for specific use, but does not adapt well to new contexts. By contrast, in meta-learning, the data is associated with numerous tasks, and we seek a model that may perform well on all tasks simultaneously, in pursuit of greater generalization. One challenge in meta-learning is how to exploit relationships between tasks and classes, which is overlooked by commonly used random or cyclic passes through data. In this work, we propose actively selecting samples on which to train by discerning covariates inside and between meta-training sets. Specifically, we cast the problem of selecting a sample from a number of meta-training sets as either a multi-armed bandit or a Markov Decision Process (MDP), depending on how one encapsulates correlation across tasks. We develop scheduling schemes based on Upper Confidence Bound (UCB), Gittins Index and tabular Markov Decision Problems (MDPs) solved with linear programming, where the reward is the scaled statistical accuracy to ensure it is a time-invariant function of state and action. Across a variety of experimental contexts, we observe significant reductions in sample complexity of active selection scheme relative to cyclic or i.i.d. sampling, demonstrating the merit of exploiting covariates in practice.
翻訳日:2022-10-20 03:10:48 公開日:2020-09-10
# 偽ユーザーにとってロバストなプロダクトランキングの学習

Learning Product Rankings Robust to Fake Users ( http://arxiv.org/abs/2009.05138v1 )

ライセンス: Link先を確認
Negin Golrezaei, Vahideh Manshadi, Jon Schneider, Shreyas Sekar(参考訳) 多くのオンラインプラットフォームにおいて、顧客の決定は製品ランキングによって大きく影響される。 同時に、これらのプラットフォームは、顧客の行動に対応する同じデータを使用して、これらの製品のランク付けや注文方法を学ぶ。 しかし、基礎となる学習プロセスにおけるこれらの相互作用は、クリックファームの出現によって例示されるように、偽ユーザーを雇って、人工的にポジションを膨らませるインセンティブを売り手に与える可能性がある。 このような不正行為に動機づけられた我々は、互いに区別不能な現実ユーザと偽ユーザとの混在に直面したプラットフォームのランキング問題を研究する。 まず,既存の学習アルゴリズム(フェイクユーザを欠く場合に最適)が,フェイクユーザによる操作下で高度に最適化されたランキングに収束することを示す。 この欠点を克服するために,我々は,2つの情報環境下で効率的な学習アルゴリズムを開発し,第1に,フェイクユーザ数を認識し,第2に,フェイクユーザ数に依存しない。 いずれの環境においても,アルゴリズムが最適ランキングに収束する一方で,上記の不正行為に頑健であることを示すとともに,手法の最悪の性能保証を提示し,既存のアルゴリズムを著しく上回ることを示す。 高いレベルでは、我々の仕事は以下のような堅牢性を保証するために、いくつかの新しいアプローチを採用している。 (i)顧客の行動から推定される製品間の対関係を符号化した製品発注グラフの構築 (2)2段階間の双方向のクロスラーニングで複数のレベルの学習を実施する。

In many online platforms, customers' decisions are substantially influenced by product rankings as most customers only examine a few top-ranked products. Concurrently, such platforms also use the same data corresponding to customers' actions to learn how these products must be ranked or ordered. These interactions in the underlying learning process, however, may incentivize sellers to artificially inflate their position by employing fake users, as exemplified by the emergence of click farms. Motivated by such fraudulent behavior, we study the ranking problem of a platform that faces a mixture of real and fake users who are indistinguishable from one another. We first show that existing learning algorithms---that are optimal in the absence of fake users---may converge to highly sub-optimal rankings under manipulation by fake users. To overcome this deficiency, we develop efficient learning algorithms under two informational environments: in the first setting, the platform is aware of the number of fake users, and in the second setting, it is agnostic to the number of fake users. For both these environments, we prove that our algorithms converge to the optimal ranking, while being robust to the aforementioned fraudulent behavior; we also present worst-case performance guarantees for our methods, and show that they significantly outperform existing algorithms. At a high level, our work employs several novel approaches to guarantee robustness such as: (i) constructing product-ordering graphs that encode the pairwise relationships between products inferred from the customers' actions; and (ii) implementing multiple levels of learning with a judicious amount of bi-directional cross-learning between levels.
翻訳日:2022-10-20 03:10:01 公開日:2020-09-10
# 分布不変回帰計量への第一歩

A First Step Towards Distribution Invariant Regression Metrics ( http://arxiv.org/abs/2009.05176v1 )

ライセンス: Link先を確認
Mario Michael Krell and Bilal Wehbe(参考訳) 回帰評価は数十年にわたって行われてきた。 いくつかのメトリクスはデータのシフトやスケーリングに対して堅牢であると認識されているが、データの異なる分布を考慮すると、異なるデータセットに対する評価間の互換性に大きな影響を及ぼすにもかかわらず、(不均衡の問題)対処がはるかに困難である。 分類では、f測定値や精度などのパフォーマンス指標はクラス分布に大きく依存しており、異なるデータセットと異なる分布の比較は不可能である、と繰り返し述べられている。 回帰にも同じ問題があることが分かる。 ロボットアプリケーションにおける計測パラメータの分布は、例えば、異なる記録セッション間で大きく異なる。 ここでは、すべての関数値に対して等しく機能する回帰アルゴリズムや、高速のような特定の境界領域にフォーカスする回帰アルゴリズムが必要です。 これは評価基準に反映されなければならない。 自動調整されたガウス核密度推定器を用いて,関数値の逆分布を$Y$あるいはサンプル$X$と重み付けすることで,確立された回帰指標の修正を提案する。 従来のメトリクスが正しく振る舞うという再現可能な実験では、合成データやロボットデータについて示していますが、私たちの新しいメトリクスは分布の変化に対する感受性が低いのです。 新しい評価概念により、異なるデータセットと異なるディストリビューション間の結果の比較が可能となる。 さらに、過剰表現されたターゲット値に対する回帰アルゴリズムの過剰適合を明らかにすることができる。 その結果、修正されたメトリクスのため、非適合の回帰アルゴリズムがより選択される可能性が高い。

Regression evaluation has been performed for decades. Some metrics have been identified to be robust against shifting and scaling of the data but considering the different distributions of data is much more difficult to address (imbalance problem) even though it largely impacts the comparability between evaluations on different datasets. In classification, it has been stated repeatedly that performance metrics like the F-Measure and Accuracy are highly dependent on the class distribution and that comparisons between different datasets with different distributions are impossible. We show that the same problem exists in regression. The distribution of odometry parameters in robotic applications can for example largely vary between different recording sessions. Here, we need regression algorithms that either perform equally well for all function values, or that focus on certain boundary regions like high speed. This has to be reflected in the evaluation metric. We propose the modification of established regression metrics by weighting with the inverse distribution of function values $Y$ or the samples $X$ using an automatically tuned Gaussian kernel density estimator. We show on synthetic and robotic data in reproducible experiments that classical metrics behave wrongly, whereas our new metrics are less sensitive to changing distributions, especially when correcting by the marginal distribution in $X$. Our new evaluation concept enables the comparison of results between different datasets with different distributions. Furthermore, it can reveal overfitting of a regression algorithm to overrepresented target values. As an outcome, non-overfitting regression algorithms will be more likely chosen due to our corrected metrics.
翻訳日:2022-10-20 03:09:38 公開日:2020-09-10
# RLCFR: 深層強化学習による対実回帰の最小化

RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning ( http://arxiv.org/abs/2009.06373v1 )

ライセンス: Link先を確認
Huale Li, Xuan Wang, Fengwei Jia, Yifan Li, Yulin Wu, Jiajia Zhang, Shuhan Qi(参考訳) counterfactual regret minimization (cfr) は、2人のプレイヤーが不完全な情報を持つゼロサムゲームの意思決定問題に対処する一般的な方法である。 大規模問題の解決や解の高速化を主な目的とする既存の研究とは異なり, CFR法の一般化能力向上を目的としたRCCFRフレームワークを提案する。 RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。 また、反復的インタラクティブ戦略更新の動的手順をマルコフ決定プロセス(MDP)としてモデル化する。 提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。 さらに、ステップワイズ報酬関数が定式化され、各ステップにおけるイテレーション戦略の良さに比例するアクションポリシーが学習される。 様々なゲームにおける広範囲な実験結果から,本手法の一般化能力は既存手法と比較して著しく向上することが示された。

Counterfactual regret minimization (CFR) is a popular method to deal with decision-making problems of two-player zero-sum games with imperfect information. Unlike existing studies that mostly explore for solving larger scale problems or accelerating solution efficiency, we propose a framework, RLCFR, which aims at improving the generalization ability of the CFR method. In the RLCFR, the game strategy is solved by the CFR in a reinforcement learning framework. And the dynamic procedure of iterative interactive strategy updating is modeled as a Markov decision process (MDP). Our method, RLCFR, then learns a policy to select the appropriate way of regret updating in the process of iteration. In addition, a stepwise reward function is formulated to learn the action policy, which is proportional to how well the iteration strategy is at each step. Extensive experimental results on various games have shown that the generalization ability of our method is significantly improved compared with existing state-of-the-art methods.
翻訳日:2022-10-20 03:09:15 公開日:2020-09-10
# ゲーム用有限群同変ニューラルネットワーク

Finite Group Equivariant Neural Networks for Games ( http://arxiv.org/abs/2009.05027v1 )

ライセンス: Link先を確認
Ois\'in Carroll, Joeran Beel(参考訳) go、チェス、チェッカーといったゲームは、複数の等価なゲーム状態、すなわち対称と反対の動作をすべき複数のボード位置を持つ。 これらの等価性は、代わりに類似した情報を引き起こさなければならず、計算時間を浪費するアートニューラルエージェントの現在の状態によって利用されない。 既存の作業におけるグループ同変CNNは、対称性を利用して学習を改善するネットワークを作成するが、ゲームに必要な移動埋め込みを正しく反映する表現力に欠ける。 有限群ニューラルネットワーク(fgnns, finite group neural network, fgnns, fgnns)を提案する。 FGNNは、チェッカー(ドロート)をプレイするネットワークの性能を向上させることが示されており、他のゲームや学習問題にも容易に適応できる。 さらに、FGNNは既存のネットワークアーキテクチャから作成することができる。 これらは、初めてスキップ接続と任意のレイヤタイプを持つものを含んでいる。 画像セグメンテーションにおいて,同種のU-Net(FGNN-U-Net)が未修正ネットワークより優れていることを示す。

Games such as go, chess and checkers have multiple equivalent game states, i.e. multiple board positions where symmetrical and opposite moves should be made. These equivalences are not exploited by current state of the art neural agents which instead must relearn similar information, thereby wasting computing time. Group equivariant CNNs in existing work create networks which can exploit symmetries to improve learning, however, they lack the expressiveness to correctly reflect the move embeddings necessary for games. We introduce Finite Group Neural Networks (FGNNs), a method for creating agents with an innate understanding of these board positions. FGNNs are shown to improve the performance of networks playing checkers (draughts), and can be easily adapted to other games and learning problems. Additionally, FGNNs can be created from existing network architectures. These include, for the first time, those with skip connections and arbitrary layer types. We demonstrate that an equivariant version of U-Net (FGNN-U-Net) outperforms the unmodified network in image segmentation.
翻訳日:2022-10-20 03:02:53 公開日:2020-09-10
# ディープスイッチング自己回帰因子化:時系列予測への応用

Deep Switching Auto-Regressive Factorization:Application to Time Series Forecasting ( http://arxiv.org/abs/2009.05135v1 )

ライセンス: Link先を確認
Amirreza Farnoosh, Bahar Azari, Sarah Ostadabbas(参考訳) 本稿では,データ内の繰り返しパターンを解き放つ能力を持つ時空間データのための深部生成モデルであるdsarf(deep switching auto-regressive factorization)を導入し,ロバストな短期・長期予測を行う。 他の因子分析法と同様に、DSARFは時間依存重みと空間依存因子の間の積による高次元データを近似する。 これらの重みと因子は、確率的変動推論を用いて推定される低次元潜在変数の言葉で表される。 DSARFは、重み間の非直線的相互依存性を捉えることができ、重みの時間的ダイナミクスを特徴づけることができる、マルコフ事前で支配される深い切替ベクトル自己回帰可能性の観点から重みをパラメータ化する、最先端技術とは異なる。 これにより、拡張可能な柔軟な階層的深層生成因子分析モデルが実現される。 i)プロセスダイナミクスから抽象化された潜在的な解釈可能な状態のコレクションを提供し、 (ii)複雑なマルチリレーショナル設定において、短期および長期のベクトル時系列予測を行う。 気候変動,天気予報,交通,伝染病の拡散,非線形物理システムなど,幅広い応用のシミュレーションデータや実データを含む広範な実験は,最先端の手法と比較して,長期・短期の予測誤差の観点から,DSARFの優れた性能を証明している。

We introduce deep switching auto-regressive factorization (DSARF), a deep generative model for spatio-temporal data with the capability to unravel recurring patterns in the data and perform robust short- and long-term predictions. Similar to other factor analysis methods, DSARF approximates high dimensional data by a product between time dependent weights and spatially dependent factors. These weights and factors are in turn represented in terms of lower dimensional latent variables that are inferred using stochastic variational inference. DSARF is different from the state-of-the-art techniques in that it parameterizes the weights in terms of a deep switching vector auto-regressive likelihood governed with a Markovian prior, which is able to capture the non-linear inter-dependencies among weights to characterize multimodal temporal dynamics. This results in a flexible hierarchical deep generative factor analysis model that can be extended to (i) provide a collection of potentially interpretable states abstracted from the process dynamics, and (ii) perform short- and long-term vector time series prediction in a complex multi-relational setting. Our extensive experiments, which include simulated data and real data from a wide range of applications such as climate change, weather forecasting, traffic, infectious disease spread and nonlinear physical systems attest the superior performance of DSARF in terms of long- and short-term prediction error, when compared with the state-of-the-art methods.
翻訳日:2022-10-20 03:02:34 公開日:2020-09-10
# 畳み込みニューラルネットワークを用いたテキスト非依存ライタ識別

Text-independent writer identification using convolutional neural network ( http://arxiv.org/abs/2009.04877v1 )

ライセンス: Link先を確認
Hung Tuan Nguyen, Cuong Tuan Nguyen, Takeya Ino, Bipin Indurkhya, Masaki Nakagawa(参考訳) ライター識別に対するテキストに依存しないアプローチは、ライターが所定のテキストを書く必要はない。 テキスト非依存のライター識別に関するこれまでの研究は、専門家が設計したライター固有の特徴の同定に基づいている。 しかし、過去10年間で、データから機能を自動的に学習するディープラーニング手法が成功している。 本稿では,特徴の事前識別を必要としないテキスト非依存ライタ識別のためのエンドツーエンドディープラーニング手法を提案する。 まず、畳み込みニューラルネットワーク(cnn)を訓練し、文字画像全体とそのサブ領域における個々の手書きの特徴を表す局所的特徴を抽出する。 トレーニングセットからランダムにサンプリングされた画像タプルを使用してcnnを訓練し、タプルから抽出された画像のローカルな特徴を集約し、グローバルな特徴を形成する。 トレーニング時代ごとに、タプルをランダムにサンプリングするプロセスを繰り返し、テキスト非依存のライター識別のためにcnnをトレーニングするために準備されている多くのトレーニングパターンと等価である。 オフライン手書き文字パターンのJEITA-HPデータベース上で実験を行った。 200文字で精度99.97%の精度で100人の作家を分類した。 100人用50文字、400人用100文字を使用しても、それぞれ92.80%または93.82%の精度を達成した。 オフライン手書き英語テキストのfiremakerおよびiamデータベースについてさらに実験を行った。 1ページあたりの学習のみを用いて91.81%の精度で900人の作家を分類した。 全体としては,手書き英語テキストの手法の有効性を示す手書き特徴とクラスタリングアルゴリズムに基づいて,これまで公表した最高の結果よりも優れた性能を実現した。

The text-independent approach to writer identification does not require the writer to write some predetermined text. Previous research on text-independent writer identification has been based on identifying writer-specific features designed by experts. However, in the last decade, deep learning methods have been successfully applied to learn features from data automatically. We propose here an end-to-end deep-learning method for text-independent writer identification that does not require prior identification of features. A Convolutional Neural Network (CNN) is trained initially to extract local features, which represent characteristics of individual handwriting in the whole character images and their sub-regions. Randomly sampled tuples of images from the training set are used to train the CNN and aggregate the extracted local features of images from the tuples to form global features. For every training epoch, the process of randomly sampling tuples is repeated, which is equivalent to a large number of training patterns being prepared for training the CNN for text-independent writer identification. We conducted experiments on the JEITA-HP database of offline handwritten Japanese character patterns. With 200 characters, our method achieved an accuracy of 99.97% to classify 100 writers. Even when using 50 characters for 100 writers or 100 characters for 400 writers, our method achieved accuracy levels of 92.80% or 93.82%, respectively. We conducted further experiments on the Firemaker and IAM databases of offline handwritten English text. Using only one page per writer to train, our method achieved over 91.81% accuracy to classify 900 writers. Overall, we achieved a better performance than the previously published best result based on handcrafted features and clustering algorithms, which demonstrates the effectiveness of our method for handwritten English text also.
翻訳日:2022-10-20 03:02:07 公開日:2020-09-10
# OrthoReg: Orthonormality Regularization を用いたロバストネットワークプルーニング

OrthoReg: Robust Network Pruning Using Orthonormality Regularization ( http://arxiv.org/abs/2009.05014v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Puja Trivedi, Conrad Hougen, Robert P. Dick, Alfred O. Hero(参考訳) 畳み込みニューラルネットワーク(CNN)におけるネットワークプルーニングは近年広く研究されている。 ネットワークの精度に及ぼすフィルタ群のプルーニングの影響を判定するために、cnnのフィルタが独立していると常に仮定する最先端のプルーニング法がある。 これにより、フィルタ群の重要性を個々のフィルタの重要性の合計として見積もることができる。 しかし、現代のネットワークにおける過度パラメータ化は、この仮定を無効にする高相関フィルタをもたらすため、誤った重要度推定をもたらす。 そこで本研究では,ネットワークフィルタの正規正規化を強制し,フィルタ間相関を低減し,グループ重要度推定の信頼性,効率良く決定し,プルーニングネットワークのトレーナー性の向上,大規模フィルタ群の効率的な同時プルーニングを実現する正則化戦略であるオルソレグを提案する。 VGG-13、MobileNet-V1、ResNet-34の反復的なプルーニングに使用する場合、OrthoRegはCIFAR-100とTiny-ImageNetの5つのベースライン技術よりも一貫して優れている。 最近提案されたearly-birdチケット仮説は、ネットワークがトレーニングの初期段階を刈り取るのに適しており、トレーニング費用を最小限に抑えるために数エポックの後に刈り取ることができると主張している。 コードはhttps://github.com/ekdeepslubana/orthoreg。

Network pruning in Convolutional Neural Networks (CNNs) has been extensively investigated in recent years. To determine the impact of pruning a group of filters on a network's accuracy, state-of-the-art pruning methods consistently assume filters of a CNN are independent. This allows the importance of a group of filters to be estimated as the sum of importances of individual filters. However, overparameterization in modern networks results in highly correlated filters that invalidate this assumption, thereby resulting in incorrect importance estimates. To address this issue, we propose OrthoReg, a principled regularization strategy that enforces orthonormality on a network's filters to reduce inter-filter correlation, thereby allowing reliable, efficient determination of group importance estimates, improved trainability of pruned networks, and efficient, simultaneous pruning of large groups of filters. When used for iterative pruning on VGG-13, MobileNet-V1, and ResNet-34, OrthoReg consistently outperforms five baseline techniques, including the state-of-the-art, on CIFAR-100 and Tiny-ImageNet. For the recently proposed Early-Bird Ticket hypothesis, which claims networks become amenable to pruning early-on in training and can be pruned after a few epochs to minimize training expenditure, we find OrthoReg significantly outperforms prior work. Code available at https://github.com/EkdeepSLubana/OrthoReg.
翻訳日:2022-10-20 03:01:43 公開日:2020-09-10
# 産業プロセス計画問題の解決のための多目的パラメータレス人口ピラミッド

Multi-Objective Parameter-less Population Pyramid for Solving Industrial Process Planning Problems ( http://arxiv.org/abs/2009.08929v1 )

ライセンス: Link先を確認
Michal Witold Przewozniczek, Piotr Dziurzanski, Shuai Zhao, Leandro Soares Indrusiak(参考訳) 進化的手法は、難しい実践的な問題を解決する際に高品質な結果を得るために有効なツールである。 リンク学習は効果を高める可能性がある。 リンク学習を用いた最先端手法の1つはパラメータレス人口ピラミッド(P3)である。 P3は離散領域における単目的問題の解法に特化している。 近年の研究では、P3はいわゆる重複ブロックの問題に対処する上で非常に競争力が高いことが示されている。 本稿では,実践から生まれ,NPハードである多目的産業プロセス計画問題について考察する。 そこで我々は,p3の多目的バージョンを提案する。 広範な研究により,本提案手法は実用的問題と典型的な多目的ベンチマークの競合手法よりも優れていることが示された。

Evolutionary methods are effective tools for obtaining high-quality results when solving hard practical problems. Linkage learning may increase their effectiveness. One of the state-of-the-art methods that employ linkage learning is the Parameter-less Population Pyramid (P3). P3 is dedicated to solving single-objective problems in discrete domains. Recent research shows that P3 is highly competitive when addressing problems with so-called overlapping blocks, which are typical for practical problems. In this paper, we consider a multi-objective industrial process planning problem that arises from practice and is NP-hard. To handle it, we propose a multi-objective version of P3. The extensive research shows that our proposition outperforms the competing methods for the considered practical problem and typical multi-objective benchmarks.
翻訳日:2022-10-20 03:00:46 公開日:2020-09-10
# 強化学習を用いた新型コロナウイルスパンデミックサイクルロックダウン最適化

COVID-19 Pandemic Cyclic Lockdown Optimization Using Reinforcement Learning ( http://arxiv.org/abs/2009.04647v1 )

ライセンス: Link先を確認
Mauricio Arango, Lyudmil Pelov(参考訳) 本研究は、新型コロナウイルスのパンデミックを抑えるために利用可能な方法の1つであるサイクリックロックダウンを最適化するために強化学習(RL)を使用することを検討する。 この問題は、ICUベッドのようなクリティカルリソースの最大使用レベルに対応する基準値を追跡するための最適制御系として構成されている。 しかし、従来の最適制御法の代わりに、RLは最適制御ポリシーを見つけるために用いられる。 RL型オンオフコントローラを用いた最適循環ロックダウンタイミングを計算するためのフレームワークを開発した。 RLベースのコントローラは、拡張SEIR流行モデルとして実装された流行シミュレータと相互作用するRLエージェントとして実装される。 RLエージェントは、RL報酬関数で指定されたゴールが最適化されるように、オープン/ロックダウン決定の最適なシーケンスを生成するポリシー関数を学習する。 1つは公衆衛生の目標、もう1つはicuベッドの閾値を超えるicuベッド使用量のオーバーシュートを最小限に抑えること、もう1つはロックダウンで費やす時間を最小化する社会経済的目標である。 循環的ロックダウンは、ある地域が資源容量制限を超過する危険に迫られたとき、また、拡張的なロックダウンを課すと、影響のある人口を支えるために必要な経済資源が不足し、深刻な社会的経済的影響を引き起こす場合、拡張ロックダウンの一時的な代替手段であると考えられている。

This work examines the use of reinforcement learning (RL) to optimize cyclic lockdowns, which is one of the methods available for control of the COVID-19 pandemic. The problem is structured as an optimal control system for tracking a reference value, corresponding to the maximum usage level of a critical resource, such as ICU beds. However, instead of using conventional optimal control methods, RL is used to find optimal control policies. A framework was developed to calculate optimal cyclic lockdown timings using an RL-based on-off controller. The RL-based controller is implemented as an RL agent that interacts with an epidemic simulator, implemented as an extended SEIR epidemic model. The RL agent learns a policy function that produces an optimal sequence of open/lockdown decisions such that goals specified in the RL reward function are optimized. Two concurrent goals were used: the first one is a public health goal that minimizes overshoots of ICU bed usage above an ICU bed threshold, and the second one is a socio-economic goal that minimizes the time spent under lockdowns. It is assumed that cyclic lockdowns are considered as a temporary alternative to extended lockdowns when a region faces imminent danger of overpassing resource capacity limits and when imposing an extended lockdown would cause severe social and economic consequences due to lack of necessary economic resources to support its affected population during an extended lockdown.
翻訳日:2022-10-20 03:00:36 公開日:2020-09-10
# リカレントニューラルネットワークによる有限状態マシンの計算可能性,学習性,抽出性について

On Computability, Learnability and Extractability of Finite State Machines from Recurrent Neural Networks ( http://arxiv.org/abs/2009.06398v1 )

ライセンス: Link先を確認
Reda Marzouk(参考訳) この研究は、有限状態マシン(FSM)とリカレントニューラルネットワーク(RNN)の間の接続に光を当てることを目的としている。 このマスターの論文における接続は、再帰的なニューラルネットワークからの有限状態機械の抽出可能性、学習可能性の側面、計算的リンクの3つである。 前者に関しては、正規言語を認識できるように訓練されたRNN隠れ状態空間の長期的クラスタリング仮説が検討され、この仮説に対する新たな洞察が深層学習の一般化理論の最近の進歩のレンズを通して提供される。 学習性については、FSMによるRNN近似の問題をより適切に定式化することを目的として、FSMによるRNN近似の問題に適合するアクティブラーニングフレームワークの拡張を提案する。 この枠組みで考えられる2つのシナリオの理論解析を行った。 計算可能性に関しては,言語モデルと異なる種類の重み付き有限状態マシンとして訓練されたRNN間の距離と等価性に関する新たな計算結果が与えられた。

This work aims at shedding some light on connections between finite state machines (FSMs), and recurrent neural networks (RNNs). Examined connections in this master's thesis is threefold: the extractability of finite state machines from recurrent neural networks, learnability aspects and computationnal links. With respect to the former, the long-standing clustering hypothesis of RNN hidden state space when trained to recognize regular languages was explored, and new insights into this hypothesis through the lens of recent advances of the generalization theory of Deep Learning are provided. As for learnability, an extension of the active learning framework better suited to the problem of approximating RNNs with FSMs is proposed, with the aim of better formalizing the problem of RNN approximation by FSMs. Theoretical analysis of two possible scenarions in this framework were performed. With regard to computability, new computational results on the distance and the equivalence problem between RNNs trained as language models and different types of weighted finite state machines were given.
翻訳日:2022-10-20 03:00:10 公開日:2020-09-10
# Graph Convolutional NetworksとTD($\lambda$)を使ってリスクのゲームをする

Using Graph Convolutional Networks and TD($\lambda$) to play the game of Risk ( http://arxiv.org/abs/2009.06355v1 )

ライセンス: Link先を確認
Jamie Carr(参考訳) リスクとは、ランダム性が著しく、ゲームツリーの複雑さが大きい6人のプレイヤーゲームであり、効果的にゲームをプレイするエージェントを作成することの難題である。 従来AIは、エージェントの決定を決定する高レベルの手作り機能の開発に重点を置いていた。 本稿では、時間差強化学習を用いたリスクエージェントD.A.Dを作成し、グラフ畳み込みネットワークを含むディープニューラルネットワークを訓練してプレイヤーの位置を評価する。 これはゲームツリーで最適な動きを選択するために使用される。 これにより、AIへの知識の最小限の手作りが可能になり、入力機能が可能な限り低レベルであることを保証することで、ネットワークがランダムな初期化から始まるネットワークであっても、有用で洗練された機能自体を抽出することができる。 また,探索に必要な攻撃動作を解釈する新しい手法を導入することで,リスクの非決定性の問題に取り組む。 その結果、リスクの亜種であるLux Deluxの5つに対して、AIは35%の時間で勝利した。

Risk is 6 player game with significant randomness and a large game-tree complexity which poses a challenge to creating an agent to play the game effectively. Previous AIs focus on creating high-level handcrafted features determine agent decision making. In this project, I create D.A.D, A Risk agent using temporal difference reinforcement learning to train a Deep Neural Network including a Graph Convolutional Network to evaluate player positions. This is used in a game-tree to select optimal moves. This allows minimal handcrafting of knowledge into the AI, assuring input features are as low-level as possible to allow the network to extract useful and sophisticated features itself, even with the network starting from a random initialisation. I also tackle the issue of non-determinism in Risk by introducing a new method of interpreting attack moves necessary for the search. The result is an AI which wins 35% of the time versus 5 of best inbuilt AIs in Lux Delux, a Risk variant.
翻訳日:2022-10-20 02:53:45 公開日:2020-09-10
# 深層学習における反事実的・半事実的説明の生成について

On Generating Plausible Counterfactual and Semi-Factual Explanations for Deep Learning ( http://arxiv.org/abs/2009.06399v1 )

ライセンス: Link先を確認
Eoin M. Kenny and Mark T. Keane(参考訳) ディープラーニングモデルの予測能力に関して、AIの最近の進歩が、その操作と出力を適切に説明できないために損なわれるのではないか、という懸念が高まっている。 この不適切な反事実的説明に対する反応は、提案された計算心理学的、法的利益により、eXplainable AI(XAI)で非常に人気がある。 対照的に、人間が理性を説明するのによく似ている半事実は、驚くほど注目されていない。 多くの反事実法は画像データではなく表形式を扱うが、その原因の一部は後者の非明な性質のため、良い反事実を定義するのが困難である。 さらに、データ多様体にあるもっともらしい説明を生成することが、ハマーが進行する別の問題である。 本稿では,コンピュータビジョンを行うブラックボックスCNN分類器に対して,有効な対策(および半現実)を生成する新しい手法を提案する。 本手法はPlausIble Exceptionality-based Contrastive Explanations (PIECE) と呼ばれ, 対実的クラス(具体的には対実的クラスを定義する)の観点から, テスト画像におけるすべての例外的特徴を正常に修正する。 2つの制御された実験は、この手法を文献上の他の方法と比較し、PIECEはいくつかの尺度において最も妥当な反事実を生成するだけでなく、最良の半事実も生成することを示した。

There is a growing concern that the recent progress made in AI, especially regarding the predictive competence of deep learning models, will be undermined by a failure to properly explain their operation and outputs. In response to this disquiet counterfactual explanations have become massively popular in eXplainable AI (XAI) due to their proposed computational psychological, and legal benefits. In contrast however, semifactuals, which are a similar way humans commonly explain their reasoning, have surprisingly received no attention. Most counterfactual methods address tabular rather than image data, partly due to the nondiscrete nature of the latter making good counterfactuals difficult to define. Additionally generating plausible looking explanations which lie on the data manifold is another issue which hampers progress. This paper advances a novel method for generating plausible counterfactuals (and semifactuals) for black box CNN classifiers doing computer vision. The present method, called PlausIble Exceptionality-based Contrastive Explanations (PIECE), modifies all exceptional features in a test image to be normal from the perspective of the counterfactual class (hence concretely defining a counterfactual). Two controlled experiments compare this method to others in the literature, showing that PIECE not only generates the most plausible counterfactuals on several measures, but also the best semifactuals.
翻訳日:2022-10-20 02:53:27 公開日:2020-09-10
# Smooth Tiny Clusters を用いたスペクトルクラスタリング

Spectral Clustering with Smooth Tiny Clusters ( http://arxiv.org/abs/2009.04674v1 )

ライセンス: Link先を確認
Hengrui Wang, Yubo Zhang, Mingzhi Chen, Tong Yang(参考訳) スペクトルクラスタリングは、最も顕著なクラスタリングアプローチの1つである。 距離に基づく類似性はスペクトルクラスタリングの最も広く用いられる方法である。 しかし、密度の異なるクラスタでは距離が大きく異なるため、これはマルチスケールデータには適していないことには既に気づいている。 State of the Art(ROSCとCAST)は、オブジェクトの到達可能性の類似性を考慮して、この制限に対処する。 しかし、実世界のシナリオでは、同じクラスタ内のデータがスムーズな方法で存在している傾向があり、以前のアルゴリズムではそれを考慮しない。 そこで本研究では,データのスムーズさを初めて考慮した,新しいクラスタリングアルゴリズムを提案する。 まず、オブジェクトを多数の小さなクラスタに分割します。 私たちのキーとなるアイデアは、スムーズなグラフを構成する小さなクラスタをクラスタ化することです。 理論解析と実験の結果, クラスタリングアルゴリズムは, 最先端技術を大きく上回っていることがわかった。 本稿では,マルチスケールな状況に着目するが,データのスムーズさの考え方はどのクラスタリングアルゴリズムにも確実に拡張できる。

Spectral clustering is one of the most prominent clustering approaches. The distance-based similarity is the most widely used method for spectral clustering. However, people have already noticed that this is not suitable for multi-scale data, as the distance varies a lot for clusters with different densities. State of the art(ROSC and CAST ) addresses this limitation by taking the reachability similarity of objects into account. However, we observe that in real-world scenarios, data in the same cluster tend to present in a smooth manner, and previous algorithms never take this into account. Based on this observation, we propose a novel clustering algorithm, which con-siders the smoothness of data for the first time. We first divide objects into a great many tiny clusters. Our key idea is to cluster tiny clusters, whose centers constitute smooth graphs. Theoretical analysis and experimental results show that our clustering algorithm significantly outperforms state of the art. Although in this paper, we singly focus on multi-scale situations, the idea of data smoothness can certainly be extended to any clustering algorithms
翻訳日:2022-10-20 02:52:40 公開日:2020-09-10
# 自己相関行動を用いた強化学習の枠組み

A framework for reinforcement learning with autocorrelated actions ( http://arxiv.org/abs/2009.04777v1 )

ライセンス: Link先を確認
Marcin Szulc, Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski(参考訳) 本論文の主題は強化学習である。 ここでは、状態と乱数要素に基づくアクションを後続のタイミングで自動相関するポリシーが検討されている。 その結果、エージェントは、時間とともに分散する実験から学び、ポリシー改善のヒントとなる可能性がある。 また、ロボットが振る舞うのを避けるため、ロボット工学など、そのようなポリシーの物理的実装は問題にならない。 これは、ロボットの望ましくない揺れを引き起こす制御に白色ノイズを加えるほとんどのRLアルゴリズムとは対照的である。 上記のポリシーを概ね最適化するアルゴリズムが導入された。 その効率は、他の3つの方法(ppo, sac, acer)に対する4つのシミュレーション学習制御問題(ant, halfcheetah, hopper, walker2d)に対して検証される。 このアルゴリズムは他の3つの問題よりも優れている。

The subject of this paper is reinforcement learning. Policies are considered here that produce actions based on states and random elements autocorrelated in subsequent time instants. Consequently, an agent learns from experiments that are distributed over time and potentially give better clues to policy improvement. Also, physical implementation of such policies, e.g. in robotics, is less problematic, as it avoids making robots shake. This is in opposition to most RL algorithms which add white noise to control causing unwanted shaking of the robots. An algorithm is introduced here that approximately optimizes the aforementioned policy. Its efficiency is verified for four simulated learning control problems (Ant, HalfCheetah, Hopper, and Walker2D) against three other methods (PPO, SAC, ACER). The algorithm outperforms others in three of these problems.
翻訳日:2022-10-20 02:52:11 公開日:2020-09-10
# 逆ロバスト性と解釈性の2次最適化

Second Order Optimization for Adversarial Robustness and Interpretability ( http://arxiv.org/abs/2009.04923v1 )

ライセンス: Link先を確認
Theodoros Tsiligkaridis, Jay Roberts(参考訳) ディープニューラルネットワークは、敵攻撃として知られる小さな摂動によって容易に騙される。 敵対的訓練(adversarial training, at)は、このような攻撃に頑健な特徴を学習することを目的とした技術であり、非常に効果的な防御と広く見なされている。 しかし、ネットワークサイズと入力次元が大きくなると、そのようなトレーニングの計算コストは抑えられる。 頑健性と曲率の関係に着想を得て,逆損失に対する二次近似による一階と二階の情報を取り入れた新しい正規化器を提案する。 最悪の場合の二次損失は反復スキームによって近似される。 本手法では,1回の反復のみを用いることで,先行勾配および曲率正規化スキームよりも強固な頑健性を達成し,勾配難読化を回避し,さらに,atよりも大幅に低いトレーニング時間で強固な頑健性が得られることを示した。 さらに、ネットワークが人間の知覚とよく一致する特徴を学ぶという興味深い側面を保っている。 本手法は,他の幾何学的正規化手法よりも高品質なヒューマンコンタプリタブルな特徴を生成できることを実験的に証明する。 これらの堅牢な特徴は、モデル予測に人間フレンドリな説明を提供するために使用される。

Deep neural networks are easily fooled by small perturbations known as adversarial attacks. Adversarial Training (AT) is a technique aimed at learning features robust to such attacks and is widely regarded as a very effective defense. However, the computational cost of such training can be prohibitive as the network size and input dimensions grow. Inspired by the relationship between robustness and curvature, we propose a novel regularizer which incorporates first and second order information via a quadratic approximation to the adversarial loss. The worst case quadratic loss is approximated via an iterative scheme. It is shown that using only a single iteration in our regularizer achieves stronger robustness than prior gradient and curvature regularization schemes, avoids gradient obfuscation, and, with additional iterations, achieves strong robustness with significantly lower training time than AT. Further, it retains the interesting facet of AT that networks learn features which are well-aligned with human perception. We demonstrate experimentally that our method produces higher quality human-interpretable features than other geometric regularization techniques. These robust features are then used to provide human-friendly explanations to model predictions.
翻訳日:2022-10-20 02:51:09 公開日:2020-09-10
# Emora:あなたを大切にしてくれるソーシャルチャットボット

Emora: An Inquisitive Social Chatbot Who Cares For You ( http://arxiv.org/abs/2009.04617v1 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, Ali Ahmadvand, Ingyu (Jason) Choi, Xiangjue Dong, Ruixiang Qi, Harshita Sahijwani, Sergey Volokhin, Zihan Wang, Zihao Wang, Jinho D. Choi(参考訳) エモリー大学が開発したソーシャルチャットボットのemoraは、人間と人間の会話における経験共有の圧倒的存在についての研究に触発され、その経験に焦点を当てた対話を現在の会話型aiの分野に持ち込もうとしている。 従来の情報共有トピックハンドラのアプローチは、エモラが提供する意見指向の交換に焦点を合わせ、パートナーの生活経験の協調的な理解と学習プロセスからなる対話を支援する新しい会話能力が開発されている。 本稿では,高度に表現力のある自然言語テンプレート,強力な意図分類,オントロジーリソースを活用した対話システムを提案する。

Inspired by studies on the overwhelming presence of experience-sharing in human-human conversations, Emora, the social chatbot developed by Emory University, aims to bring such experience-focused interaction to the current field of conversational AI. The traditional approach of information-sharing topic handlers is balanced with a focus on opinion-oriented exchanges that Emora delivers, and new conversational abilities are developed that support dialogues that consist of a collaborative understanding and learning process of the partner's life experiences. We present a curated dialogue system that leverages highly expressive natural language templates, powerful intent classification, and ontology resources to provide an engaging and interesting conversational experience to every user.
翻訳日:2022-10-20 02:44:21 公開日:2020-09-10
# テキスト生成の現代的方法

Modern Methods for Text Generation ( http://arxiv.org/abs/2009.04968v1 )

ライセンス: Link先を確認
Dimas Munoz Montesinos(参考訳) 合成テキスト生成は困難であり、成功は限られている。 最近、transformersと呼ばれる新しいアーキテクチャにより、機械学習モデルが翻訳や要約といったシーケンシャルなデータを理解することができる。 BERTとGPT-2は、トランスフォーマーをコアに用い、テキスト分類、翻訳、NLIタスクなどのタスクで優れたパフォーマンスを示している。 本稿では,両アルゴリズムを解析し,テキスト生成タスクの出力品質を比較する。

Synthetic text generation is challenging and has limited success. Recently, a new architecture, called Transformers, allow machine learning models to understand better sequential data, such as translation or summarization. BERT and GPT-2, using Transformers in their cores, have shown a great performance in tasks such as text classification, translation and NLI tasks. In this article, we analyse both algorithms and compare their output quality in text generation tasks.
翻訳日:2022-10-20 02:43:05 公開日:2020-09-10
# 対話適応のための事前学習言語モデルのタスク特化目的

Task-specific Objectives of Pre-trained Language Models for Dialogue Adaptation ( http://arxiv.org/abs/2009.04984v1 )

ライセンス: Link先を確認
Junlong Li, Zhuosheng Zhang, Hai Zhao, Xi Zhou, Xiang Zhou(参考訳) 事前訓練された言語モデル(PrLM)は、多くの自然言語処理(NLP)タスクのバックボーンとして広く使われている。 PrLMを利用する一般的なプロセスは、まずタスク非依存のLMトレーニング目標を持つ大規模汎用コーパス上で事前トレーニングを行い、タスク固有のトレーニング目標を持つタスクデータセットを微調整する。 タスクに依存しない方法で事前トレーニングを行うことで、ある程度普遍的な言語表現を学ぶことができるが、一方で重要なタスク固有の特徴を捉えることができない。 これにより、事前トレーニングと微調整の互換性がなくなる。 そこで本研究では,タスク固有の目的を持つドメイン内タスク関連コーパス上で,タスク固有の事前学習を導入する。 この手順は、特定のタスクのモデル理解能力を高めるために、元の2段階の間に置かれる。 本研究では,ダイアログ関連自然言語処理(DrNLP)タスクに着目し,一般のLM事前学習目標によって無視される対話を評価する上で重要な品質に基づいて,対話適応型事前学習対象(DAPO)を設計する。 DAPOを大きなドメイン内対話コーパスに配置したPrLMは、下流のDrNLPタスクのために微調整される。 実験結果から, DAPO を用いたモデルは, 一般的な LM 事前学習目標および下流DrNLP タスクの強いベースラインを超えることがわかった。

Pre-trained Language Models (PrLMs) have been widely used as backbones in lots of Natural Language Processing (NLP) tasks. The common process of utilizing PrLMs is first pre-training on large-scale general corpora with task-independent LM training objectives, then fine-tuning on task datasets with task-specific training objectives. Pre-training in a task-independent way enables the models to learn language representations, which is universal to some extent, but fails to capture crucial task-specific features in the meantime. This will lead to an incompatibility between pre-training and fine-tuning. To address this issue, we introduce task-specific pre-training on in-domain task-related corpora with task-specific objectives. This procedure is placed between the original two stages to enhance the model understanding capacity of specific tasks. In this work, we focus on Dialogue-related Natural Language Processing (DrNLP) tasks and design a Dialogue-Adaptive Pre-training Objective (DAPO) based on some important qualities for assessing dialogues which are usually ignored by general LM pre-training objectives. PrLMs with DAPO on a large in-domain dialogue corpus are then fine-tuned for downstream DrNLP tasks. Experimental results show that models with DAPO surpass those with general LM pre-training objectives and other strong baselines on downstream DrNLP tasks.
翻訳日:2022-10-20 02:42:58 公開日:2020-09-10
# マルチタスク学習を用いたマルチモーダル埋め込みによる感情認識

Multi-modal embeddings using multi-task learning for emotion recognition ( http://arxiv.org/abs/2009.05019v1 )

ライセンス: Link先を確認
Aparna Khare, Srinivas Parthasarathy, Shiva Sundaram(参考訳) word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。 埋め込みは通常、スキップグラムモデルや自然言語生成といった一般的なタスクに基づいて構築されたモデルから抽出される。 本稿では、自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャへその仕事を拡張する。 マルチタスクトレーニングを用いてトレーニングしたトランスモデルのエンコーダを用いて,ネットワーク内の埋め込みを抽出する。 組込み生成フレームワークでは,個人識別と自動音声認識をタスクとして使用する。 感情認識の下流タスクにおける埋め込みをチューニングし,評価し,cmu-moseiデータセット上では,その埋め込みが過去の成果よりも向上することを示す。

General embeddings like word2vec, GloVe and ELMo have shown a lot of success in natural language tasks. The embeddings are typically extracted from models that are built on general tasks such as skip-gram models and natural language generation. In this paper, we extend the work from natural language understanding to multi-modal architectures that use audio, visual and textual information for machine learning tasks. The embeddings in our network are extracted using the encoder of a transformer model trained using multi-task training. We use person identification and automatic speech recognition as the tasks in our embedding generation framework. We tune and evaluate the embeddings on the downstream task of emotion recognition and demonstrate that on the CMU-MOSEI dataset, the embeddings can be used to improve over previous state of the art results.
翻訳日:2022-10-20 02:42:36 公開日:2020-09-10
# トピックモデリングによる非薬剤的介入発見

Non-Pharmaceutical Intervention Discovery with Topic Modeling ( http://arxiv.org/abs/2009.13602v1 )

ライセンス: Link先を確認
Jonathan Smith, Borna Ghotbi, Seungeun Yi, Mahboobeh Parsapoor(参考訳) 我々は、新型コロナウイルスのパンデミックが進行する中で、非薬剤的介入のカテゴリーを発見することを考える。 国内および国際範囲の2つのコーパスのトピックモデリングについて検討する。 これらのモデルは、人間の介入ラベルと比較して既存のカテゴリを発見しながら、人間の労力を減らす。

We consider the task of discovering categories of non-pharmaceutical interventions during the evolving COVID-19 pandemic. We explore topic modeling on two corpora with national and international scope. These models discover existing categories when compared with human intervention labels while reduced human effort needed.
翻訳日:2022-10-20 02:41:49 公開日:2020-09-10
# ディープニューラルネットワークを用いたマルチタスク学習:サーベイ

Multi-Task Learning with Deep Neural Networks: A Survey ( http://arxiv.org/abs/2009.09796v1 )

ライセンス: Link先を確認
Michael Crawshaw(参考訳) マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。 このようなアプローチは、データ効率の向上、共有表現によるオーバーフィッティングの削減、補助情報を活用した高速学習などの利点を提供する。 しかし、複数のタスクの同時学習は、新しい設計と最適化の課題を示し、どのタスクを共同で学ぶべきかを選択することは、それ自体は自明な問題ではない。 本稿では,深層ニューラルネットワークのためのマルチタスク学習手法の概要を,この分野における確立された方向と最新の方向の両方を要約することを目的とした。 我々の議論は,既存の深層MLL手法をアーキテクチャ,最適化手法,タスク関係学習の3つのグループに分割して構成されている。 また、共通マルチタスクベンチマークの概要も提供します。

Multi-task learning (MTL) is a subfield of machine learning in which multiple tasks are simultaneously learned by a shared model. Such approaches offer advantages like improved data efficiency, reduced overfitting through shared representations, and fast learning by leveraging auxiliary information. However, the simultaneous learning of multiple tasks presents new design and optimization challenges, and choosing which tasks should be learned jointly is in itself a non-trivial problem. In this survey, we give an overview of multi-task learning methods for deep neural networks, with the aim of summarizing both the well-established and most recent directions within the field. Our discussion is structured according to a partition of the existing deep MTL techniques into three groups: architectures, optimization methods, and task relationship learning. We also provide a summary of common multi-task benchmarks.
翻訳日:2022-10-20 02:33:18 公開日:2020-09-10
# ieo:ハイパーパラメータチューニングのためのインテリジェント進化最適化

IEO: Intelligent Evolutionary Optimisation for Hyperparameter Tuning ( http://arxiv.org/abs/2009.06390v1 )

ライセンス: Link先を確認
Yuxi Huan, Fan Wu, Michail Basios, Leslie Kanthan, Lingbo Li, Baowen Xu(参考訳) ハイパーパラメータ最適化は最適な機械学習モデルを探す上で重要なプロセスである。 最適パラメータ設定の効率は、特に目的関数の評価に高いコストがかかる場合、最適化プロセスが時間がかかる可能性があるため、最近の研究において大きな関心事となっている。 本稿では,従来の進化アルゴリズムに機械学習手法を適用し,分類問題における機械学習モデルのチューニングの全体的な最適化プロセスを高速化する知的進化最適化アルゴリズムを提案する。 我々の知的進化最適化(ieo)を一連の制御実験で実証し、ハイパーパラメータチューニングにおける従来の進化最適化と比較した。 実験の結果,提案手法は最適化速度を平均で30.40%,最良シナリオでは77.06%向上させることがわかった。

Hyperparameter optimisation is a crucial process in searching the optimal machine learning model. The efficiency of finding the optimal hyperparameter settings has been a big concern in recent researches since the optimisation process could be time-consuming, especially when the objective functions are highly expensive to evaluate. In this paper, we introduce an intelligent evolutionary optimisation algorithm which applies machine learning technique to the traditional evolutionary algorithm to accelerate the overall optimisation process of tuning machine learning models in classification problems. We demonstrate our Intelligent Evolutionary Optimisation (IEO)in a series of controlled experiments, comparing with traditional evolutionary optimisation in hyperparameter tuning. The empirical study shows that our approach accelerates the optimisation speed by 30.40% on average and up to 77.06% in the best scenarios.
翻訳日:2022-10-20 02:33:05 公開日:2020-09-10