このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210514となっている論文です。

PDF登録状況(公開日: 20210514)

TitleAuthorsAbstract論文公表日・翻訳日
# Chi-Squareによる距離相関試験

The Chi-Square Test of Distance Correlation ( http://arxiv.org/abs/1912.12150v5 )

ライセンス: Link先を確認
Cencheng Shen, Sambit Panda, Joshua T. Vogelstein(参考訳) サンプル統計は計算が容易であり、漸近的に 0 に等しいのは独立性があるときと独立性があるときのみであり、十分なサンプルサイズを持つ任意の種類の依存構造を発見するのに理想的な選択である。 距離相関のヌル分布は、基礎となる確率変数と計量選択に依存するため、通常、ヌルを推定し、大量のデータに対して非常にコストがかかるp値を計算するために、置換テストが必要となる。 難易度を克服するため,本稿では距離相関のためのchi-squareテストを提案する。 方法的には、chi-square testは非パラメトリックであり、非常に高速であり、いかなる強い負の型メトリックや特性カーネルを用いてバイアス補正された距離相関に適用できる。 この試験は標準置換試験と同様のテスト能力を示し、Kサンプルと部分試験に使用できる。 理論的には、基礎となるカイ二乗分布が上尾部の制限ヌル分布をよく近似し支配し、チ二乗テストが独立性テストにおいて有効かつ普遍的に整合であることを示し、置換テストに関してテストパワーの不等式を確立する。

Distance correlation has gained much recent attention in the data science community: the sample statistic is straightforward to compute and asymptotically equals zero if and only if independence, making it an ideal choice to discover any type of dependency structure given sufficient sample size. One major bottleneck is the testing process: because the null distribution of distance correlation depends on the underlying random variables and metric choice, it typically requires a permutation test to estimate the null and compute the p-value, which is very costly for large amount of data. To overcome the difficulty, in this paper we propose a chi-square test for distance correlation. Method-wise, the chi-square test is non-parametric, extremely fast, and applicable to bias-corrected distance correlation using any strong negative type metric or characteristic kernel. The test exhibits a similar testing power as the standard permutation test, and can be utilized for K-sample and partial testing. Theory-wise, we show that the underlying chi-square distribution well approximates and dominates the limiting null distribution in upper tail, prove the chi-square test can be valid and universally consistent for testing independence, and establish a testing power inequality with respect to the permutation test.
翻訳日:2023-06-09 23:37:45 公開日:2021-05-14
# マイクロ波状態における双方向被覆量子通信

Two-way covert quantum communication in the microwave regime ( http://arxiv.org/abs/2004.07192v2 )

ライセンス: Link先を確認
R. Di Candia, H. Yi\u{g}itler, G. S. Paraoanu, and R. J\"antti(参考訳) 量子通信は、量子力学法則に基づく暗号化技術を用いて、マクロ距離で情報を交換する問題に対処する。 本稿では,マイクロ波系における後方散乱の概念と隠蔽通信を組み合わせることで,セキュアな量子通信のための新しいパラダイムを開拓する。 我々のプロトコルは、離散位相変調のみを使用するAliceと、低温マイクロ波技術を利用するBobとの通信を可能にする。 量子チャネルの識別と量子距離論の概念を用いて、受信器の性能の最終的な限界を見つけ、量子相関が最大6ドルdBのSNRを強化することを証明した。 これらの境界は、ソースが強く増幅されると量子照明の利点をなくし、低光子数でのみ関連するゲインが可能であることを示す。 本プロトコルは, 通信環境における熱雑音とキャリア信号が区別できない隠れ通信に利用できることを示す。 我々は,サーキットqedプラットフォームにおける実現可能な実験提案により,情報理論的な結果を補完する。 この研究は、一方のパーティの使い捨てパワーが厳しい制約を受けるシナリオにおいて、以前にチャージされていない1ドルから10ドル GHzの周波数範囲でセキュアな量子通信の概念を実装するための決定的なステップとなる。

Quantum communication addresses the problem of exchanging information across macroscopic distances by employing encryption techniques based on quantum mechanical laws. Here, we advance a new paradigm for secure quantum communication by combining backscattering concepts with covert communication in the microwave regime. Our protocol allows communication between Alice, who uses only discrete phase modulations, and Bob, who has access to cryogenic microwave technology. Using notions of quantum channel discrimination and quantum metrology, we find the ultimate bounds for the receiver performance, proving that quantum correlations can enhance the SNR by up to $6$ dB. These bounds rule out any quantum illumination advantage when the source is strongly amplified, and show that a relevant gain is possible only in the low photon-number regime. We show how the protocol can be used for covert communication, where the carrier signal is indistinguishable from the thermal noise in the environment. We complement our information-theoretic results with a feasible experimental proposal in a circuit-QED platform. This work makes a decisive step toward implementing secure quantum communication concepts in the previously uncharted $1$-$10$ GHz frequency range, in the scenario when the disposable power of one party is severely constrained.
翻訳日:2023-05-23 09:08:55 公開日:2021-05-14
# ラッピング人工ゲージ電位によるロバスト・超高速状態形成

Robust and Ultrafast State Preparation by Ramping Artificial Gauge Potentials ( http://arxiv.org/abs/2009.00560v2 )

ライセンス: Link先を確認
Botao Wang, Xiao-Yu Dong, F. Nur \"Unal, Andr\'e Eckardt(参考訳) 超低温原子系における静的人工磁場の実装は、例えば電荷ニュートラル原子で量子ハル物理学をシミュレートするための強力なツールとなっている。 相互作用するボソニックフラックスラダーを最小モデルとして,磁束ランプによる断熱状態形成のためのプロトコルについて検討した。 磁場ではなく光学格子で実験的に設計できる人工ベクトルポテンシャル(ピエルス相の形で)であることを考えると、断熱処理に必要な時間はピエルス相のどのパターンが使用されるかによって劇的に異なることが分かる。 これは、時間依存のピーエルズ相の異なるパターンが全て同じ磁場ランプを生じさせ、通常、ランプの間に異なる人工的な電場をもたらすことを直感的に理解することができる。 驚くべきことに、最適な選択は、ほぼ瞬時に基底状態を作成することができる。 我々は,この観察を,反断熱駆動による断熱のショートカットに関連づける。 原子量子シミュレータにおけるロバスト状態形成の新たな可能性を明らかにする。

The implementation of static artificial magnetic fields in ultracold atomic systems has become a powerful tool, e.g. for simulating quantum-Hall physics with charge-neutral atoms. Taking an interacting bosonic flux ladder as a minimal model, we investigate protocols for adiabatic state preparation via magnetic flux ramps. Considering the fact that it is actually the artificial vector potential (in the form of Peierls phases) that can be experimentally engineered in optical lattices, rather than the magnetic field, we find that the time required for adiabatic state preparation dramatically depends on which pattern of Peierls phases is used. This can be understood intuitively by noting that different patterns of time-dependent Peierls phases that all give rise to the same magnetic field ramp, generally lead to different artificial electric fields during the ramp. Remarkably, we find that an optimal choice allows for preparing the ground state almost instantaneously. We relate this observation to shortcuts to adiabaticity via counterdiabatic driving. Our findings open new possibilities for robust state preparation in atomic quantum simulators.
翻訳日:2023-05-04 03:14:44 公開日:2021-05-14
# カーパラメトリック発振器の定常出力におけるウィグナー負性

Wigner negativity in the steady-state output of a Kerr parametric oscillator ( http://arxiv.org/abs/2009.08168v2 )

ライセンス: Link先を確認
Ingrid Strandberg, G\"oran Johansson, Fernando Quijandr\'ia(参考訳) 連続駆動のリニアパラメトリック発振器からの出力場は、キャビティ内磁場よりもかなり多くのスクイーズを示す可能性がある。 この事実に触発されて,非線形カーパラメトリック発振器の定常出力場の非古典的特徴を時間波パケットモード記述を用いて検討する。 新しい数値法を用いることで、任意のウェーブパケットモードの密度行列にアクセスできる。 顕著なことに、定常キャビティ場は常に正のウィグナー関数によって特徴づけられるが、出力は選択されたモードの性質によってウィグナー負性を示す可能性がある。

The output field from a continuously driven linear parametric oscillator may exhibit considerably more squeezing than the intracavity field. Inspired by this fact, we explore the nonclassical features of the steady-state output field of a driven nonlinear Kerr parametric oscillator using a temporal wave packet mode description. Utilizing a new numerical method, we have access to the density matrix of arbitrary wave packet modes. Remarkably, we find that even though the steady-state cavity field is always characterized by a positive Wigner function, the output may exhibit Wigner negativity, depending on the properties of the selected mode.
翻訳日:2023-05-02 00:25:40 公開日:2021-05-14
# kapitza-diracブロック:非ガウス振動子状態の決定論的準備のための普遍的ツール

Kapitza-Dirac blockade: A universal tool for the deterministic preparation of non-Gaussian oscillator states ( http://arxiv.org/abs/2011.12881v2 )

ライセンス: Link先を確認
Wayne Cheng-Wei Huang, Herman Batelaan, and Markus Arndt(参考訳) 調和振動子は分子物理学、ナノ粒子トラップ、量子情報処理において重要な応用を持つ最も基本的な量子系である。 その等価エネルギー準位間隔はしばしば望ましい特徴であるが、同時に、目標が特定の固有状態を決定論的に定式化することである場合には課題となる。 ここでは,二色レーザー場における遷移振幅の干渉が調和振動子状態(カピツァ・ディラック遮断)の逐次上昇を抑制し,エネルギー固有状態,schr\"{o}dinger catなどの非ガウス状態の選択的励起を実現する方法を示す。 この手法は、高調波発振器をコヒーレントな2レベル系に変換するか、物質波用の大運動量転送ビームスプリッタを構築するために使用できる。 概念の普遍性を説明するために、大きな分子上の単一電子から誘電体ナノ粒子まで、様々な大きさの質量をカバーする実現可能な実験について論じる。

Harmonic oscillators count among the most fundamental quantum systems with important applications in molecular physics, nanoparticle trapping, and quantum information processing. Their equidistant energy level spacing is often a desired feature, but at the same time a challenge if the goal is to deterministically populate specific eigenstates. Here, we show how interference in the transition amplitudes in a bichromatic laser field can suppress the sequential climbing of harmonic oscillator states (Kapitza-Dirac blockade) and achieve selective excitation of energy eigenstates, Schr\"{o}dinger cats and other non-Gaussian states. This technique can transform the harmonic oscillator into a coherent two-level system or be used to build a large-momentum-transfer beam splitter for matter-waves. To illustrate the universality of the concept, we discuss feasible experiments that cover many orders of magnitude in mass, from single electrons over large molecules to dielectric nanoparticles.
翻訳日:2023-04-23 00:46:04 公開日:2021-05-14
# 量子測定のアルゴリズム的内容について

On the Algorithmic Content of Quantum Measurements ( http://arxiv.org/abs/2102.03905v6 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 量子測定をすると、純粋な状態の圧倒的多数は、意味のある情報は生成されない。 これは量子測定の結果の数とは無関係である。 保存の不等式のため、そのようなランダムノイズはコヒーレントなデータには処理できない。

We show that given a quantum measurement, for an overwhelming majority of pure states, no meaningful information is produced. This is independent of the number of outcomes of the quantum measurement. Due to conservation inequalities, such random noise cannot be processed into coherent data.
翻訳日:2023-04-12 07:19:27 公開日:2021-05-14
# 光の多モード多光子サブトラクション熱状態の統計的パラメータ推定

Statistical parameter estimation of multimode multiphoton subtracted thermal states of light ( http://arxiv.org/abs/2102.08350v3 )

ライセンス: Link先を確認
G. V. Avosopiants, B. I. Bantysh, K. G. Katamadze, N. A. Bogdanova, Yu. I. Bogdanov, S. P. Kulik(参考訳) 光の熱状態は量子光学において様々な量子現象の検証に広く使われている。 特に、光子生成および光子消滅操作のキャラクタリゼーションに利用することができる。 この10年間で、多モード量子状態からの光子サブトラクションの問題が非常に重要になった。 そこで本研究では,多モード光子消滅試験に使用できる光多モード多光子サブトラクション熱状態の統計的パラメータ推定手法を提案する。

Thermal states of light are widely used in quantum optics for various quantum phenomena testing. Particularly, they can be utilized for characterization of photon creation and photon annihilation operations. During the last decade the problem of photon subtraction from multimode quantum states become of much significance. Therefore, in this work we present a technique for statistical parameter estimation of multimode multiphoton subtracted thermal states of light, which can be used for multimode photon annihilation test.
翻訳日:2023-04-11 00:13:05 公開日:2021-05-14
# コヒーレント熱マグノン浴における遠方窒素空孔中心の定常的絡み合い

Steady state entanglement of distant nitrogen-vacancy centers in a coherent thermal magnon bath ( http://arxiv.org/abs/2105.00519v2 )

ライセンス: Link先を確認
Kamran Ullah, Emre K\"ose, Mehmet C. Onba\c{s}l{\i}, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 極薄イットリウム鉄ガーネット(YIG)ストリップ上における窒素空孔(NV)中心間の安定状態絡み(SSE)について検討した。 帯上の量子ビット位置に応じて,yig内のスピン波(マグノン浴)の量子度と量子ビットの消耗および消散的相互作用を決定する。 また,マグノンの減弱効果を除去でき,外部磁場を用いて浴槽を多モード変位熱状態に変換することができることを示した。 このような熱浴における量子ビットの絡み合いのダイナミクスをマスター方程式の導出と解法により解析した。 追加の電場は、開放系の力学のマルコフ特性を制御するためにバンドエッジにおけるマグノン分散関係を工学的に設計すると考えられている。 遠方量子ビット系の最適幾何パラメータとYIGストリップを用いてSSEを求める。 さらに, 共有交換マグノン浴が核スピン環境に対するNV中心の局所的脱落と脱コヒーレンスに対して重要なSSEを維持できるパラメータ機構が決定された。 SSEとともに, 定常コヒーレンス(SSC)について検討し, 脱コヒーレンスのない部分空間状態の相互作用, システム形状, 熱浴の変位, およびマグノン帯縁付近でのクビット散逸の増大による絡み合いの急激な発生, 急激な死に伴うSSEの出現の物理的メカニズムを説明する。 入浴コヒーレンスとSSEの非単調な関係が発見され、最大SSEに対する臨界コヒーレンスが決定される。 本研究は,ロバストなsseおよびsscのためのシステム・レザーバ間相互作用に対するシステム幾何,バストスペクトルのバンドエッジ,貯留層コヒーレンスの効率的な利用を明らかにした。

We investigate steady-state entanglement (SSE) between two nitrogen-vacancy (NV) centers in distant nanodiamonds on an ultrathin Yttrium Iron Garnet (YIG) strip. We determine the dephasing and dissipative interactions of the qubits with the quanta of spin waves (magnon bath) in the YIG depending on the qubit positions on the strip. We show that the magnon's dephasing effect can be eliminated, and we can transform the bath into a multimode displaced thermal state using external magnetic fields. Entanglement dynamics of the qubits in such a displaced thermal bath have been analyzed by deriving and solving the master equation. An additional electric field is considered to engineer the magnon dispersion relation at the band edge to control the Markovian character of the open system dynamics. We determine the optimum geometrical parameters of the system of distant qubits and the YIG strip to get SSE. Furthermore, parameter regimes for which the shared displaced magnon bath can sustain significant SSE against the local dephasing and decoherence of NV centers to their nuclear spin environments have been determined. Along with SSE, we investigate the steady-state coherence (SSC) and explain the physical mechanism of how delayed SSE appears following a rapid generation and sudden death of entanglement using the interplay of decoherence-free subspace states, system geometry, displacement of the thermal bath, and enhancement of the qubit dissipation near the magnon band edge. A non-monotonic relation between bath coherence and SSE is found, and critical coherence for maximum SSE is determined. Our results illuminate the efficient use of system geometry, band edge in bath spectrum, and reservoir coherence to engineer system-reservoir interactions for robust SSE and SSC.
翻訳日:2023-04-01 19:50:08 公開日:2021-05-14
# 連続ビーム電子位相変調を可能にする集積フォトニクス

Integrated photonics enables continuous-beam electron phase modulation ( http://arxiv.org/abs/2105.03729v2 )

ライセンス: Link先を確認
J.-W. Henke, A. S. Raja, A. Feist, G. Huang, G. Arend, Y. Yang, J. Kappert, R. N. Wang, M. M\"oller, J. Pan, J. Liu, O. Kfir, C. Ropers, and T. J. Kippenberg(参考訳) 集積フォトニクスを用いてチップ上でレーザー光を調整できることは、原子、閉じ込められたイオン、量子ドット、欠陥中心を含む多様体量子系の基本的な光-物質相互作用を広範囲に制御することができる。 何十年にもわたって高分解能顕微鏡を可能にした自由電子は、レーザーベースの量子操作の対象になりつつある。 自由空間の光励起と強いレーザーパルスを用いることで、自由電子量子ウォーク、アト秒電子パルス、および電磁場のイメージングが観察された。 チップベースのフォトニクスによる電子ビームとの相互作用の強化は、ナノスケールの量子制御とセンシングにユニークな応用を約束するが、まだ電子顕微鏡には入っていない。 ここでは, 連続波レーザー駆動の窒化ケイ素マイクロ共振器を用いた電子ビームのコヒーレント位相変調を実証し, 集積光学と電子顕微鏡を融合した。 高Q因子 (~$10^6$) キャビティ強化と位相整合のために設計された導波路は、前例のない低い数マイクロワットの光学パワーで効率的な電子光散乱をもたらす。 具体的には、空洞結合電力6$\mu$Wで初期電子状態を完全に減少させ、バス導波路でわずか38mWで500光子側バンドを生成する。 さらに、$\mu$eV 電子エネルギーゲイン分光法(EEGS)を実証する。 共振器共振器の同時光学および電子分光により、ファイバー結合型フォトニック構造は入力チャネルと出力チャネルを完全に制御する単一モード電子-光相互作用を持つ。 このアプローチは、強いカップリング、局所量子プローブ、電子-光子の絡み合いなど、自由電子量子光学を探索するための汎用的な枠組みを確立する。 この結果は、自由電子と光を効率的に結合する統合フォトニクスの可能性を強調している。

The ability to tailor laser light on a chip using integrated photonics has allowed for extensive control over fundamental light-matter interactions in manifold quantum systems including atoms, trapped ions, quantum dots, and defect centers. Free electrons, enabling high-resolution microscopy for decades, are increasingly becoming the subject of laser-based quantum manipulation. Using free-space optical excitation and intense laser pulses, this has led to the observation of free-electron quantum walks, attosecond electron pulses, and imaging of electromagnetic fields. Enhancing the interaction with electron beams through chip-based photonics promises unique applications in nanoscale quantum control and sensing, but has yet to enter electron microscopy. Here, we merge integrated photonics with electron microscopy, demonstrating coherent phase modulation of an electron beam using a silicon nitride microresonator driven by a continuous-wave laser. The high-Q factor (~$10^6$) cavity enhancement and a waveguide designed for phase matching lead to efficient electron-light scattering at unprecedentedly low, few-microwatt optical powers. Specifically, we fully deplete the initial electron state at a cavity-coupled power of 6 $\mu$W and create >500 photon sidebands for only 38 mW in the bus waveguide. Moreover, we demonstrate $\mu$eV electron energy gain spectroscopy (EEGS). Providing simultaneous optical and electronic spectroscopy of the resonant cavity, the fiber-coupled photonic structures feature single-mode electron-light interaction with full control over the input and output channels. This approach establishes a versatile framework for exploring free-electron quantum optics, with future developments in strong coupling, local quantum probing, and electron-photon entanglement. Our results highlight the potential of integrated photonics to efficiently interface free electrons and light.
翻訳日:2023-04-01 03:19:08 公開日:2021-05-14
# ソーシャルメディア上でのcovid-19ワクチンのhesitancy: 反ワクチンコンテンツ、ワクチンの誤情報、陰謀の公開twitterデータセットの構築

COVID-19 Vaccine Hesitancy on Social Media: Building a Public Twitter Dataset of Anti-vaccine Content, Vaccine Misinformation and Conspiracies ( http://arxiv.org/abs/2105.05134v2 )

ライセンス: Link先を確認
Goran Muric, Yusong Wu, Emilio Ferrara(参考訳) Falseは、新型コロナウイルスワクチンは予防接種キャンペーンにおける公衆の信頼を損なう可能性があると主張している。 新型コロナウイルス(covid-19)パンデミックの始まりから、さまざまな情報源からの誤報がオンラインで拡散している。 本稿では,強い抗ワクチン姿勢を示すTwitter投稿のデータセットを提示する。 データセットは2つの部分からなる。 a)1.8万ツイート以上のストリーミングキーワード中心のデータ収集 b)1億3500万以上のツイートを持つ歴史的アカウントレベルのコレクション。 前者はTwitterストリーミングAPIを利用して、2020年10月中旬から特定のワクチン関連キーワードをフォローしている。 後者は70kのアカウントの全ての過去のツイートからなり、反ワクチン的な物語の活発な拡散に携わった。 本稿では,時間経過に伴う活動量,地理的分布,話題,ニュースソース,推測されたアカウントの政治的傾倒を示す記述的分析を行った。 このデータセットは、ソーシャルメディア上で反ワクチンの誤情報を研究し、ワクチンのヒューシタンシーをよりよく理解するために使用できる。 Twitterのサービス規約に従って、匿名化されたデータセットは、https://github.com/gmuric/avax-tweets-datasetで公開されています。

False claims about COVID-19 vaccines can undermine public trust in ongoing vaccination campaigns, thus posing a threat to global public health. Misinformation originating from various sources has been spreading online since the beginning of the COVID-19 pandemic. In this paper, we present a dataset of Twitter posts that exhibit a strong anti-vaccine stance. The dataset consists of two parts: a) a streaming keyword-centered data collection with more than 1.8 million tweets, and b) a historical account-level collection with more than 135 million tweets. The former leverages the Twitter streaming API to follow a set of specific vaccine-related keywords starting from mid-October 2020. The latter consists of all historical tweets of 70K accounts that were engaged in the active spreading of anti-vaccine narratives. We present descriptive analyses showing the volume of activity over time, geographical distributions, topics, news sources, and inferred account political leaning. This dataset can be used in studying anti-vaccine misinformation on social media and enable a better understanding of vaccine hesitancy. In compliance with Twitter's Terms of Service, our anonymized dataset is publicly available at: https://github.com/gmuric/avax-tweets-dataset
翻訳日:2023-03-31 20:58:32 公開日:2021-05-14
# 古典的および量子ブラウン運動

Classical and Quantum Brownian Motion ( http://arxiv.org/abs/2105.05646v2 )

ライセンス: Link先を確認
Roumen Tsekov(参考訳) 古典力学のフレームにおいて、一般化ランゲヴィン方程式は、固体の調和浴に結合した任意の機械的部分系に対して導出される。 量子クラインクラマーとsmoluchowski方程式に対して、量子熱浴振動子の効果を考慮した時間作用温度演算子が導入された。 ブラウンエミッターのモデルは理論的に研究され、確率密度に関する関連する進化方程式が導出される。 シュロディンガー方程式は、ターゲットの点粒子と量子力キャリアとの衝突によって説明され、点粒子間の基本的な相互作用を伝達する。 したがって、電子やその他の点粒子は波ではなく、量子力学の波状の章は力担体に由来する。 量子力学における点粒子の下積ブラウン運動を記述するために、確率的ローレンツ・ランゲバン方程式が提唱されている。 ボーム力学の枠組みにおけるブラウン力学を考えると、密度汎関数ボム・ランゲバン方程式が提案され、関連するスモルーフスキ・ボーム方程式が導かれる。 古典的クライン・クラマー方程式の適切な量子化によって非線形マスター方程式が提案される。 完全正準ギブス密度作用素における平衡解はよく知られたカルデイラ・レゲット方程式は単に高温での線形化である。 自由量子ブラウン粒子の場合、それが発見した波束の拡散の新しい法則は、ブラウン運動の古典的なアインシュタインの法則の量子一般化を表している。 古典的環境中を移動する量子粒子の波動関数の崩壊に対して,新しいプロジェクタ演算子が提案されている。 その応用は、散逸性シュロディンガー方程式、および古典力学における散逸性リウヴィル方程式の新しい形式をもたらす。

In the frames of classical mechanics the generalized Langevin equation is derived for an arbitrary mechanical subsystem coupled to the harmonic bath of a solid. A time-acting temperature operator is introduced for the quantum Klein-Kramers and Smoluchowski equations, accounting for the effect of the quantum thermal bath oscillators. The model of Brownian emitters is theoretically studied and the relevant evolutionary equations for the probability density are derived. The Schrodinger equation is explained via collisions of the target point particles with the quantum force carriers, transmitting the fundamental interactions between the point particles. Thus, electrons and other point particles are no waves and the wavy chapter of quantum mechanics originated for the force carriers. A stochastic Lorentz-Langevin equation is proposed to describe the underlaying Brownian-like motion of the point particles in quantum mechanics. Considering the Brownian dynamics in the frames of the Bohmian mechanics, the density functional Bohm-Langevin equation is proposed, and the relevant Smoluchowski-Bohm equation is derived. A nonlinear master equation is proposed by proper quantization of the classical Klein-Kramers equation. Its equilibrium solution in the exact canonical Gibbs density operator, while the well-known Caldeira-Leggett equation is simply a linearization at high temperature. In the case of a free quantum Brownian particles, a new law for the spreading of the wave packet it discovered, which represents the quantum generalization of the classical Einstein law of Brownian motion. A new projector operator is proposed for the collapse of the wave function of a quantum particle moving in a classical environment. Its application results in dissipative Schrodinger equations, as well as in a new form of dissipative Liouville equation in classical mechanics.
翻訳日:2023-03-31 08:53:02 公開日:2021-05-14
# 非平衡ダークスペース相転移

Nonequilibrium dark space phase transition ( http://arxiv.org/abs/2105.06729v1 )

ライセンス: Link先を確認
Federico Carollo and Igor Lesanovsky(参考訳) 暗黒空間相転移の概念は、可逆的な崩壊、相互作用、量子干渉が競合するオープンな多体量子系において起こる。 本研究は, 量子多体モデルに基づいて, 流行拡散のような吸収状態への相転移を特徴とする古典的非平衡過程に着想を得た。 異なる力学経路が量子力学的に干渉する可能性は、古典的でない集団力学挙動をもたらす。 競合する2つの暗黒状態、古典的な吸収状態に対応する自明な状態と、量子コヒーレントである創発的な状態を特定する。 古典系では見当たらない現象論を特徴とするこの暗空間内の非平衡相転移を定めている。 このような創発的な2次元暗黒空間は、例えば量子情報の集団符号化など、技術的応用を見出すことができる。

We introduce the concept of dark space phase transition, which may occur in open many-body quantum systems where irreversible decay, interactions and quantum interference compete. Our study is based on a quantum many-body model, that is inspired by classical nonequilibrium processes which feature phase transitions into an absorbing state, such as epidemic spreading. The possibility for different dynamical paths to interfere quantum mechanically results in collective dynamical behavior without classical counterpart. We identify two competing dark states, a trivial one corresponding to a classical absorbing state and an emergent one which is quantum coherent. We establish a nonequilibrium phase transition within this dark space that features a phenomenology which cannot be encountered in classical systems. Such emergent two-dimensional dark space may find technological applications, e.g. for the collective encoding of a quantum information.
翻訳日:2023-03-31 04:27:07 公開日:2021-05-14
# 大規模教育における学習分析の効果を必死に求める--データ分析と教育・学習の融合

Desperately seeking the impact of learning analytics in education at scale: Marrying data analysis with teaching and learning ( http://arxiv.org/abs/2105.06680v1 )

ライセンス: Link先を確認
Olga Viberg, Ake Gronlund(参考訳) 学習分析(LA)は、学習成果、学習者支援、教育を改善することができると主張している。 しかし、さまざまなオンライン教育や学習プラットフォームからアクセス可能な学生(デジタル)データの増加や、世界中のLAへの関心の高まりに加えて、すでにかなりの研究努力がなされているにもかかわらず、LAの教育環境における効果を示す実践への影響を示す実証的な証拠は依然として少ない。 本章は、理論的・実証的研究の選定に基づき、学生データ収集・活用の可能性と、教育者の日常的な教育実践にデータインフォームド・サポートを提供する上で克服すべき障壁と課題について批判的な議論を行う。 大規模教育における学習改善を目的としたデータ駆動意思決定の効果を高めるためには,教育者のニーズ,教育実践,これらの実践が生み出す文脈,教育のデジタル化過程を促進するための関連知識,戦略,スキルの育成等について,より深く理解する必要がある。

Learning analytics (LA) is argued to be able to improve learning outcomes, learner support and teaching. However, despite an increasingly expanding amount of student (digital) data accessible from various online education and learning platforms and the growing interest in LA worldwide as well as considerable research efforts already made, there is still little empirical evidence of impact on practice that shows the effectiveness of LA in education settings. Based on a selection of theoretical and empirical research, this chapter provides a critical discussion about the possibilities of collecting and using student data as well as barriers and challenges to overcome in providing data-informed support to educators' everyday teaching practices. We argue that in order to increase the impact of data-driven decision-making aimed at students' improved learning in education at scale, we need to better understand educators' needs, their teaching practices and the context in which these practices occur, and how to support them in developing relevant knowledge, strategies and skills to facilitate the data-informed process of digitalization of education.
翻訳日:2023-03-31 04:26:28 公開日:2021-05-14
# 低キャパシティによるより良い伝送:量子チャネル上の損失圧縮

Better transmission with lower capacity: lossy compression over quantum channels ( http://arxiv.org/abs/2105.06617v1 )

ライセンス: Link先を確認
Sristy Agrawal, Rajashik Tarafder, Graeme Smith, Arup Roy, and Manik Banik(参考訳) シャノンのチャネル符号化定理は、古典的なノイズのある通信路を通して信頼できる情報伝達の最大速度を記述する。 情報源符号化定理とともに、古典的体制における損失のないチャネル通信を特徴づける。 圧縮のシナリオは圧縮率と圧縮信号の歪みの間のトレードオフを特徴付けるレート歪み理論によって提供される追加記述を必要とする。 この状況でも、キャパシティはチャネルの有用性を特徴付ける -- キャパシティの大きいチャネルは、キャパシティの少ないチャネルよりも常に優れています。 量子チャネル上で古典的な情報を送信する場合、これはもはや正しくないことを示す。 特に、容量の低いチャネルが一定のレートで使用される場合、高い容量チャネルよりも歪みが少ない量子チャネルのペアを見つける。

Shannon's channel coding theorem describes the maximum possible rate of reliable information transfer through a classical noisy communication channel. It, together with the source coding theorem, characterizes lossless channel communication in the classical regime. Lossy compression scenarios require the additional description provided by rate-distortion theory, which characterizes the trade-off between compression rate and the distortion of the compressed signal. Even in this context, the capacity characterizes the usefulness of a channel -- a channel with more capacity will always outperform a channel with less capacity. We show that this is no longer true when sending classical information over a quantum channel. In particular, we find a pair of quantum channels where the channel with the lower capacity causes less distortion than the higher capacity channel when both are used at a fixed rate.
翻訳日:2023-03-31 04:25:46 公開日:2021-05-14
# 遺伝的アルゴリズムを用いた皮質スパイクニューラルネットワークの多目的最適化

Multi-Objective Optimisation of Cortical Spiking Neural Networks With Genetic Algorithms ( http://arxiv.org/abs/2105.06824v1 )

ライセンス: Link先を確認
James Fitzgerald and KongFatt Wong-Lin(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロンのオール・オ・ノー・スパイキング活動を通じて通信する。 しかし、多くのsnモデルパラメータを観察された神経活動パターン、例えば生物学的実験に適合させることは依然として課題である。 Izhikevichニューロンモデルを用いた特定の効率的なSNNモデルに対する遺伝的アルゴリズム(GA)の最適化は、単一のパラメータと目的に限られていた。 この研究は、非支配的ソートga(nsga-iii)と呼ばれるgaのバージョンを適用し、ネットワーク接続パラメータを探索し、異なるネットワーク接続スパーシティを含む興奮性および抑制性ニューロンタイプの標的射撃率を達成することに焦点を当て、同じsn上で多目的最適化を行うことの可能性を実証した。 我々はNSGA-IIIが様々な発射速度に容易に最適化可能であることを示した。 特に,興奮性神経発射速度が抑制ニューロンのそれと同等であった場合,誤差は小さくなった。 さらに、接続スパーシティを最適化するパラメータと見なす場合、最適解はスパースネットワーク接続が必要となる。 また,抑制ニューロンよりも低い興奮性神経発火率では,一般に誤差が大きいことがわかった。 提案手法は,再帰およびスパースSNNのネットワークパラメータに対する多目的GA最適化の実現の可能性を示すものである。

Spiking neural networks (SNNs) communicate through the all-or-none spiking activity of neurons. However, fitting the large number of SNN model parameters to observed neural activity patterns, for example, in biological experiments, remains a challenge. Previous work using genetic algorithm (GA) optimisation on a specific efficient SNN model, using the Izhikevich neuronal model, was limited to a single parameter and objective. This work applied a version of GA, called non-dominated sorting GA (NSGA-III), to demonstrate the feasibility of performing multi-objective optimisation on the same SNN, focusing on searching network connectivity parameters to achieve target firing rates of excitatory and inhibitory neuronal types, including across different network connectivity sparsity. We showed that NSGA-III could readily optimise for various firing rates. Notably, when the excitatory neural firing rates were higher than or equal to that of inhibitory neurons, the errors were small. Moreover, when connectivity sparsity was considered as a parameter to be optimised, the optimal solutions required sparse network connectivity. We also found that for excitatory neural firing rates lower than that of inhibitory neurons, the errors were generally larger. Overall, we have successfully demonstrated the feasibility of implementing multi-objective GA optimisation on network parameters of recurrent and sparse SNN.
翻訳日:2023-03-31 04:21:22 公開日:2021-05-14
# 境界制約ハンドリング法が微分進化に与える影響の定量化

Quantifying the Impact of Boundary Constraint Handling Methods on Differential Evolution ( http://arxiv.org/abs/2105.06757v1 )

ライセンス: Link先を確認
Rick Boks, Anna V. Kononova, Hao Wang(参考訳) 制約処理は、メタヒューリスティックスを現実世界のアプリケーションに適用する上で最も影響力のある側面の1つである。 本研究では,境界制約処理法(BCHM)が多数提案されているボックス制約という,特定のケースに焦点を当てる。 我々は,BCHMがメタヒューリスティックスのパフォーマンスと行動に与える影響を研究することの必要性を訴える。 このような影響を,モジュールDEフレームワークから抽出した28種類の差分進化(DE)と13ドルの一般的なBCHMを用いて定量化することによって,系統的ベンチマークにより定量化することを目的としている。 良く知られたBBOB/COCO問題集合上でアルゴリズムインスタンスを実行した後、突然変異、クロスオーバー、BBOB関数群の組み合わせの統計的ランキング法を用いて、最適に設定された目的関数値(性能の面で)と修復された解の比率(挙動)を解析する。 以上の結果から,BCHMの選択は経験的性能や生成不可能なソリューションの数に大きく影響し,与えられたシナリオに対して適切なBCHMを選択するための一般的なガイドラインを提供することができた。

Constraint handling is one of the most influential aspects of applying metaheuristics to real-world applications, which can hamper the search progress if treated improperly. In this work, we focus on a particular case - the box constraints, for which many boundary constraint handling methods (BCHMs) have been proposed. We call for the necessity of studying the impact of BCHMs on metaheuristics' performance and behavior, which receives seemingly little attention in the field. We target quantifying such impacts through systematic benchmarking by investigating 28 major variants of Differential Evolution (DE) taken from the modular DE framework (by combining different mutation and crossover operators) and $13$ commonly applied BCHMs, resulting in $28 \times 13 = 364$ algorithm instances after pairing DE variants with BCHMs. After executing the algorithm instances on the well-known BBOB/COCO problem set, we analyze the best-reached objective function value (performance-wise) and the percentage of repaired solutions (behavioral) using statistical ranking methods for each combination of mutation, crossover, and BBOB function group. Our results clearly show that the choice of BCHMs substantially affects the empirical performance as well as the number of generated infeasible solutions, which allows us to provide general guidelines for selecting an appropriate BCHM for a given scenario.
翻訳日:2023-03-31 04:19:36 公開日:2021-05-14
# 希ガス原子におけるポジトロニウム散乱とピックオフ消滅の多体理論

Many-body theory for positronium scattering and pickoff annihilation in noble-gas atoms ( http://arxiv.org/abs/2105.06749v1 )

ライセンス: Link先を確認
A. R. Swann, D. G. Green and G. F. Gribakin(参考訳) 植物におけるポジトロニウム-原子相互作用の多体理論的アプローチ Rev. Lett. \textbf{120}, 183402 (2018)] は、希ガス原子 he-xe の配列に適用される。 ダイソン方程式は、原子の磁場を移動する電子と陽電子に対して別々に解かれ、系全体が硬壁の球状空洞に閉じられている。 2粒子ダイソン方程式は、空洞内のPs固有状態のエネルギーと波動関数を与えるために解かれる。 これらの結果から, 散乱位相シフト, 断面積, ピックオフ消滅パラメータ $^1z_\text{eff}$ の値は, 頂点拡大因子による短距離電子-ポジトロン相関を含む。 弾性および運動量移動断面の実験データと$^1Z_\text{eff}$の比較を行った。 He と Ne の $^1Z_\text{eff}$ の値は以前 [Phys.] で報告されている。 Rev. Lett. textbf{120}, 183402 (2018)] は実験とほぼ完全に一致しており、Ar, Kr, Xe は 1.2 の係数で表される。

The many-body-theory approach to positronium-atom interactions developed in [Phys. Rev. Lett. \textbf{120}, 183402 (2018)] is applied to the sequence of noble-gas atoms He-Xe. The Dyson equation is solved separately for an electron and positron moving in the field of the atom, with the entire system enclosed in a hard-wall spherical cavity. The two-particle Dyson equation is solved to give the energies and wave functions of the Ps eigenstates in the cavity. From these, we determine the scattering phase shifts and cross sections, and values of the pickoff annihilation parameter $^1Z_\text{eff}$ including short-range electron-positron correlations via vertex enhancement factors. Comparisons are made with available experimental data for elastic and momentum-transfer cross sections and $^1Z_\text{eff}$. Values of $^1Z_\text{eff}$ for He and Ne, previously reported in [Phys. Rev. Lett. \textbf{120}, 183402 (2018)], are found to be in near-perfect agreement with experiment, and for Ar, Kr, and Xe within a factor of 1.2.
翻訳日:2023-03-31 04:18:55 公開日:2021-05-14
# 直接変調レーザーを用いたギガヘルツ測定-デバイス非依存量子鍵分布

Gigahertz measurement-device-independent quantum key distribution using directly modulated lasers ( http://arxiv.org/abs/2105.06748v1 )

ライセンス: Link先を確認
R. I. Woodward, Y. S. Lo, M. Pittaluga, M. Minder, T. K. Para\"iso, M. Lucamarini, Z. L. Yuan, A. J. Shields(参考訳) 測定デバイスに依存しない量子鍵分布(MDI-QKD)は、全ての検出器側チャネルを除去する量子セキュア通信の手法である。 そこで本研究では,ギガヘルツクロック速度において,レーザ揺らぎに対するレジリエンスを向上した簡易かつコンパクトなMDI-QKDシステムを提案する。 これは直接レーザ変調を用いて実現され、位相変調時間ビンビットを符号化するためにゲインスイッチングとインジェクションロックレーザーダイナミクスを慎重に活用する。 本設計では,最大8 bps,54 db チャネル損失,2 kbps,30 db チャネル損失に対して最大8 bpsのセキュアな鍵レートを実現する。 このMDI-QKDシステム設計と実証実証は、MDI-QKDが将来の量子通信ネットワークにおける実用的で高性能なソリューションであることを示している。

Measurement-device-independent quantum key distribution (MDI-QKD) is a technique for quantum-secured communication that eliminates all detector side-channels, although is currently limited by implementation complexity and low secure key rates. Here, we introduce a simple and compact MDI-QKD system design at gigahertz clock rates with enhanced resilience to laser fluctuations - thus enabling free-running semiconductor laser sources to be employed without spectral or phase feedback. This is achieved using direct laser modulation, carefully exploiting gain-switching and injection-locking laser dynamics to encode phase-modulated time-bin bits. Our design enables secure key rates that improve upon the state of the art by an order of magnitude, up to 8 bps at 54 dB channel loss and 2 kbps in the finite-size regime for 30 dB channel loss. This greatly simplified MDI-QKD system design and proof-of-principle demonstration shows that MDI-QKD is a practical, high-performance solution for future quantum communication networks.
翻訳日:2023-03-31 04:18:23 公開日:2021-05-14
# 交通研究における再現可能な研究を行うための理由・課題・ツール

Reasons, Challenges and Some Tools for Doing Reproducible Research in Transportation Research ( http://arxiv.org/abs/2105.06743v1 )

ライセンス: Link先を確認
Zuduo Zheng(参考訳) 本稿では再現可能な研究を紹介し,その重要性,メリット,課題を説明する。 交通研究における再現可能な研究を行うための重要なツールも紹介されている。 さらに,本論文を生成するためのソースコードは,研究者が将来の論文を動的かつ再現可能な文書として作成するためのテンプレートとして利用できるように設計されている。

This paper introduces reproducible research, and explains its importance, benefits and challenges. Some important tools for conducting reproducible research in Transportation Research are also introduced. Moreover, the source code for generating this paper has been designed in a way so that it can be used as a template for researchers to write their future journal papers as dynamic and reproducible documents.
翻訳日:2023-03-31 04:18:02 公開日:2021-05-14
# エージェントモデルによる社会的受容性のシミュレーション

Simulating Social Acceptability With Agent-based Modeling ( http://arxiv.org/abs/2105.06730v1 )

ライセンス: Link先を確認
Alarith Uhde and Marc Hassenzahl(参考訳) 社会的受容性は、社会的文脈のための技術を開発するHCIデザイナーにとって重要な考慮事項である。 しかし、現在の社会的受容性研究の理論的基礎は、社会的状況におけるアクター間の複雑な相互作用や技術の役割を考慮していない。 そこで我々は,社会的実践の動的なバンドルとして社会空間を再構築し,エージェント・ベース・モデリングを用いたシミュレーション研究を行うことを提案する。 我々は、新たなパターンにおいて、プラクティス間の特定の相互作用と規則性に焦点を当てた研究の方向性について概説する。

Social acceptability is an important consideration for HCI designers who develop technologies for social contexts. However, the current theoretical foundations of social acceptability research do not account for the complex interactions among the actors in social situations and the specific role of technology. In order to improve the understanding of how context shapes and is shaped by situated technology interactions, we suggest to reframe the social space as a dynamic bundle of social practices and explore it with simulation studies using agent-based modeling. We outline possible research directions that focus on specific interactions among practices as well as regularities in emerging patterns.
翻訳日:2023-03-31 04:17:57 公開日:2021-05-14
# ポントリャーギンの原理による量子メトロロジーの最適制御

Optimal Control for Quantum Metrology via Pontryagin's principle ( http://arxiv.org/abs/2105.06931v1 )

ライセンス: Link先を確認
Chungwei Lin, Yanting Ma, Dries Sels(参考訳) 量子メトロジー(quantum metrology)は、パラメータ推定に量子的特徴を利用する一連の技術とプロトコルであり、原理的には古典物理学に基づく手続きより優れている。 最適制御問題の観点から量子力学を定式化し、ポントリャーギンの最大原理を適用し、与えられた進化時間で量子フィッシャー情報を最大化する最適なプロトコルを決定する。 量子フィッシャー情報は、推定したいパラメータに関する微分を含むので、量子フィッシャー情報の勾配を明示的に含む拡張力学系を考案する。 ポントリャーギンの最大原理から導かれる必要条件は、数値解の品質を定量化するために用いられる。 提案された形式主義は、制御制約のある問題に一般化され、選択された測定値に対する古典的なフィッシャー情報の最大化にも利用できる。

Quantum metrology comprises a set of techniques and protocols that utilize quantum features for parameter estimation which can in principle outperform any procedure based on classical physics. We formulate the quantum metrology in terms of an optimal control problem and apply Pontryagin's Maximum Principle to determine the optimal protocol that maximizes the quantum Fisher information for a given evolution time. As the quantum Fisher information involves a derivative with respect to the parameter which one wants to estimate, we devise an augmented dynamical system that explicitly includes gradients of the quantum Fisher information. The necessary conditions derived from Pontryagin's Maximum Principle are used to quantify the quality of the numerical solution. The proposed formalism is generalized to problems with control constraints, and can also be used to maximize the classical Fisher information for a chosen measurement.
翻訳日:2023-03-31 04:11:50 公開日:2021-05-14
# スピン依存性2色kapitza-dirac効果

Spin-dependent two-color Kapitza-Dirac effects ( http://arxiv.org/abs/2105.06909v1 )

ライセンス: Link先を確認
Scot McGregor, Wayne Cheng-Wei Huang, Bradley A. Shadwick, Herman Batelaan(参考訳) 本稿では,レーザー磁場中を伝播する電子のスピン挙動の解析を行う。 本稿では,レーザーと電子の相互作用によるスピン依存効果が支配的な実験的なシナリオを提案する。 レーザー相互作用強度と入射電子速度は非相対論的領域にある。 この分析はスピン偏極非相対論的フェムト秒電子パルスを生成・特徴づける新しい方法につながる可能性がある。

In this paper we present an analysis of the spin behavior of electrons propagating through a laser field. We present an experimentally realizable scenario in which spin-dependent effects of the interaction between the laser and the electrons are dominant. The laser interaction strength and incident electron velocity are in the nonrelativistic domain. This analysis may thus lead to novel methods of creating and characterizing spin-polarized nonrelativistic femtosecond electron pulses.
翻訳日:2023-03-31 04:11:03 公開日:2021-05-14
# CF$_4$およびN$_2$ガス中の非弾性衝突による陽電子冷却

Positron cooling via inelastic collisions in CF$_4$ and N$_2$ gases ( http://arxiv.org/abs/2105.06904v1 )

ライセンス: Link先を確認
A. R. Swann and D. G. Green(参考訳) CF$_4$およびN$_2$ガス中の非弾性衝突によるポジトロン冷却は、陽電子-陽電子相互作用を含むシミュレートされる。 分子対称性により、冷却は主にCF$_4$(N$_2$)の振動(回転)励起によるエネルギー損失に起因すると仮定される。 cf$_4$ に対して、双極子非活性の$\nu_1$モードと双極子活性モードの$\nu_3$と$\nu_4$は、室温の熱化と正確な冷却時間スケールを提供できる。 $\nu_1$モードと陽電子-陽電子相互作用によって実現されるコンビネーション冷却は、どちらも陽電子運動量分布のマクスウェル化に寄与する。 どちらの気体についても、陽電子温度の進化は実験とよく一致している。

Positron cooling via inelastic collisions in CF$_4$ and N$_2$ gases is simulated, including positron-positron interactions. Owing to the molecular symmetries, cooling is assumed to be chiefly due to energy loss via vibrational (rotational) excitations for CF$_4$ (N$_2$). For CF$_4$, it is found that the inclusion of the dipole-inactive $\nu_1$ mode, in addition to the dipole-active modes $\nu_3$ and $\nu_4$, can provide room-temperature thermalization and an accurate cooling timescale. Combination cooling enabled by the $\nu_1$ mode, and positron-positron interactions both contribute to the Maxwellianization of the positron momentum distribution. For both gases the evolution of the positron temperature is found to be in excellent agreement with experiment.
翻訳日:2023-03-31 04:10:58 公開日:2021-05-14
# あらゆる大きさのシステムと環境に対する純粋デフォーカス進化中の絡み合いの検出

Detection of entanglement during pure dephasing evolutions for systems and environments of any size ( http://arxiv.org/abs/2105.06837v1 )

ライセンス: Link先を確認
Ma{\l}gorzata Strza{\l}ka and Katarzyna Roszak(参考訳) W は qubit-environment のqudit-environment システムへの絡み目検出のスキームを一般化する。 これは、多くの量子ビット系と外部ノイズの影響下での量子アルゴリズムの演算の量子化の関連性であり、その性質において絡み合っていないデコヒーレンスのみがより複雑なシナリオにおいて量子チャネルや類似の手法によって効果的に記述できる。 一般化は、このスキームでは検出されない絡み合い状態のクラスの増加を伴うが、検出できない絡み合いの種類は、デコヒーレンスに定性的に影響を及ぼす可能性も低い。 本稿では,核スピンの環境と相互作用するnv中心スピンクトリット上でのスキームの動作を例示する。

W generalize the scheme for detection of qubit-environment entanglement to qudit-environment systems. This is of relevance for many-qubit systems and the quantification of the operation of quantum algorithms under the influence of external noise, since only decoherence that is not entangling in its nature can be effectively described by quantum channels and similar methods in more complicated scenarios. The generalization involves an increase of the class of entangled states which are not detected by the scheme, but the type of entanglement which cannot be detected is also least likely to qualitatively influence decoherence. We exemplify the operation of the scheme on a realistically modelled NV-center spin qutrit interacting with an environment of nuclear spins.
翻訳日:2023-03-31 04:09:48 公開日:2021-05-14
# パリティ時間対称偏光固有状態を用いた単一モードレーザー

Single-mode lasers using parity-time-symmetric polarization eigenstates ( http://arxiv.org/abs/2105.06836v1 )

ライセンス: Link先を確認
Jean-Fran\c{c}ois Bisson and Yves Christian Nonguierma(参考訳) 異方性ミラーは、非ヘルミティアン、パリティタイム(pt)対称偏光状態を示すレーザー共振器を形成するために用いられる。 2つの鏡の主軸の相対角度は、非エルミティキシーの程度を制御するために用いられる。 鋭い対称性破壊遷移は、例外点と呼ばれる特定の角度で観測され、2つの状態が1つの偏光状態に結合し、逆伝播(cp)波によって生じる干渉パターンが消失する。 より小さな角度では、崩壊しないpt対称性では、より高い損失を受ける偏光状態が抑制される。 破れた対称性では、2つの偏光状態は共存するが、cp波の直交性は定在波の干渉パターンを抑制して単一の縦モード放出を好む。 この2つの規則は、干渉強度パターンのない共振器に一意の偏極状態が存在する例外点で交わる。 したがって、例外点で動作するマイクロチップpt対称レーザーは、キャビティ内素子を使わずに小型のモノリシックデバイスから単一モード動作を実現する魅力的な解決策である。

Anisotropic mirrors are used to form a laser resonator exhibiting non-Hermitian, parity-time (PT) symmetric, polarization states. The relative angle of the two mirrors principal axes is used to control the degree of non-hermiticity. A sharp symmetry-breaking transition is observed at a specific angle, called the exceptional point, where the two states coalesce into a single polarization state and the interference pattern produced by counter-propagating (CP) waves vanishes. At a smaller angle, in the unbroken PT symmetry regime, the polarization state experiencing higher losses is suppressed. In the broken symmetry regime, the two polarization states coexist, but the orthogonality of the CP waves favors single longitudinal mode emission by suppressing the interference pattern of the standing wave. The two regimes meet at the exceptional point, where a unique polarization state exists in a resonator free from interference intensity pattern. Microchip PT-symmetric lasers operating at the exceptional point are thus an attractive solution to achieve single mode operation from a miniature monolithic device without any intra-cavity element.
翻訳日:2023-03-31 04:09:35 公開日:2021-05-14
# ECG信号に基づく情報理論キーコンセンサスプロトコル

Information Theoretic Key Agreement Protocol based on ECG signals ( http://arxiv.org/abs/2105.07037v1 )

ライセンス: Link先を確認
Anna V. Guglielmi, Alberto Muraro, Giulia Cisotto, Nicola Laurenti(参考訳) ワイヤレスボディエリアネットワーク(wbans)は、個人が病院から遠隔でバイタルや生理的パラメータを継続的に監視できるようになり、人気が高まっている。 SARS-CoV-2パンデミックの広がりにより、携帯型パルスオキシメータとウェアラブル型心拍計が市場に出回っている。 同時に、2020年には、前例のない医療侵害の増加を支援し、現在のwbansの極端な脆弱性を明らかにしました。 したがって、WBAN内のデータ保護、認証、整合性、プライバシを確保するための新しいセキュリティプロトコルの開発が不可欠である。 そこで我々は,各センサノードから各センサノードからECG信号を収集するWBANを対象とし,それぞれからパルス間間隔(R-R間隔)を抽出し,WBAN内のセンサペア間の認証を確保するために,ECGの固有ランダム性を利用する新たな情報理論鍵合意プロトコルを開発した。 適切な事前処理の後、ロバストな認証を保証する分析ソリューションを提供し、全てのECGセンサ対に優れた性能をもたらすユニークな情報整合行列を提供し、情報整合性とプライバシ増幅行列の関係を見いだせることを示す。 最後に,鍵生成率の観点からセキュリティレベルと,システムに実装されたエラー訂正方式の複雑さのトレードオフを示す。

Wireless body area networks (WBANs) are becoming increasingly popular as they allow individuals to continuously monitor their vitals and physiological parameters remotely from the hospital. With the spread of the SARS-CoV-2 pandemic, the availability of portable pulse-oximeters and wearable heart rate detectors has boomed in the market. At the same time, in 2020 we assisted to an unprecedented increase of healthcare breaches, revealing the extreme vulnerability of the current generation of WBANs. Therefore, the development of new security protocols to ensure data protection, authentication, integrity and privacy within WBANs are highly needed. Here, we targeted a WBAN collecting ECG signals from different sensor nodes on the individual's body, we extracted the inter-pulse interval (i.e., R-R interval) sequence from each of them, and we developed a new information theoretic key agreement protocol that exploits the inherent randomness of ECG to ensure authentication between sensor pairs within the WBAN. After proper pre-processing, we provide an analytical solution that ensures robust authentication; we provide a unique information reconciliation matrix, which gives good performance for all ECG sensor pairs; and we can show that a relationship between information reconciliation and privacy amplification matrices can be found. Finally, we show the trade-off between the level of security, in terms of key generation rate, and the complexity of the error correction scheme implemented in the system.
翻訳日:2023-03-31 04:01:54 公開日:2021-05-14
# 都市分析:歴史・軌道・批評

Urban Analytics: History, Trajectory, and Critique ( http://arxiv.org/abs/2105.07020v1 )

ライセンス: Link先を確認
Geoff Boeing, Michael Batty, Shan Jiang, Lisa Schweitzer(参考訳) 都市分析は、空間分析、統計、コンピュータ科学、都市計画を組み合わせて都市の未来を理解し形作る。 より良い政策決定の洞察を約束する一方で、その認識論的範囲とプライバシー、倫理、社会統制への影響に関する懸念が存在する。 この章は、学術・専門分野としての都市分析の歴史と軌跡を反映している。 特に、この分野が進む方向と、それが我々の集団的・個人的福祉を改善するかどうかを考える。 まず、初期理論、モデル、および誘導に移る前に磁場が起源となる帰納法を導入する。 次に、従来の空間的相互作用と構造の表現を豊かにする都市ネットワーク分析を探求する。 次に、時空間ビッグデータと機械学習の都市応用について論じる。 最後に、プライバシーと倫理的懸念は、ユビキタスな監視と分析によって社会的抑圧が強化されるため、無視されることが多い、と同社は主張する。 結論は、その認識論的限界を認識し、人間の尊厳を強調し、地域社会から学び、支援する、より重要な都市分析を求めることである。

Urban analytics combines spatial analysis, statistics, computer science, and urban planning to understand and shape city futures. While it promises better policymaking insights, concerns exist around its epistemological scope and impacts on privacy, ethics, and social control. This chapter reflects on the history and trajectory of urban analytics as a scholarly and professional discipline. In particular, it considers the direction in which this field is going and whether it improves our collective and individual welfare. It first introduces early theories, models, and deductive methods from which the field originated before shifting toward induction. It then explores urban network analytics that enrich traditional representations of spatial interaction and structure. Next it discusses urban applications of spatiotemporal big data and machine learning. Finally, it argues that privacy and ethical concerns are too often ignored as ubiquitous monitoring and analytics can empower social repression. It concludes with a call for a more critical urban analytics that recognizes its epistemological limits, emphasizes human dignity, and learns from and supports marginalized communities.
翻訳日:2023-03-31 04:01:18 公開日:2021-05-14
# radixエンコードを用いた効率的なスパイクニューラルネットワーク

Efficient Spiking Neural Networks with Radix Encoding ( http://arxiv.org/abs/2105.06943v1 )

ライセンス: Link先を確認
Zhehui Wang, Xiaozhe Gu, Rick Goh, Joey Tianyi Zhou, Tao Luo(参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動型計算機構とエネルギー消費重量乗算の代替により、従来の人工知能ニューラルネットワーク(ANN)よりもレイテンシとエネルギー効率の利点がある。 しかし、ANNの精度に到達するためには通常、正確性を確保するために長いスパイク列車を必要とする。 伝統的に、スパイク列車はANNと同様の精度にアプローチするために約1000のタイムステップを必要とする。 これは、長いスパイク列車はより多くの操作と長いレイテンシを意味するため、snsによってもたらされる計算効率を相殺する。 本稿では,超短スパイク列車を用いたSNNのラジックス符号化を提案する。 新しいモデルでは、スパイク列車は10時間足らずで走行する。 実験の結果,VGG-16ネットワークアーキテクチャとCIFAR-10データセットの最先端技術と比較すると,精度は25倍,精度は1.1%向上した。

Spiking neural networks (SNNs) have advantages in latency and energy efficiency over traditional artificial neural networks (ANNs) due to its event-driven computation mechanism and replacement of energy-consuming weight multiplications with additions. However, in order to reach accuracy of its ANN counterpart, it usually requires long spike trains to ensure the accuracy. Traditionally, a spike train needs around one thousand time steps to approach similar accuracy as its ANN counterpart. This offsets the computation efficiency brought by SNNs because longer spike trains mean a larger number of operations and longer latency. In this paper, we propose a radix encoded SNN with ultra-short spike trains. In the new model, the spike train takes less than ten time steps. Experiments show that our method demonstrates 25X speedup and 1.1% increment on accuracy, compared with the state-of-the-art work on VGG-16 network architecture and CIFAR-10 dataset.
翻訳日:2023-03-31 03:59:22 公開日:2021-05-14
# 探索問題の解状態の振幅を2倍にする量子アルゴリズム

Quantum algorithm for doubling the amplitude of the search problem's solution states ( http://arxiv.org/abs/2105.06935v1 )

ライセンス: Link先を確認
Mauro Mezzini, Fernando L. Pelayo, Fernando Cuartero(参考訳) 本稿では,探索問題の解に対応する状態の振幅を約2倍に増やす量子アルゴリズムを提案する。

In this paper we present a quantum algorithm which increases the amplitude of the states corresponding to the solutions of the search problem by a factor of almost two.
翻訳日:2023-03-31 03:59:06 公開日:2021-05-14
# 時間依存性非可換空間における磁場を有する減衰高調波発振器の励起解

Exact solution of damped harmonic oscillator with a magnetic field in a time dependent noncommutative space ( http://arxiv.org/abs/2106.05182v1 )

ライセンス: Link先を確認
Manjari Dutta, Shreemoyee Ganguly, Sunandan Gangopadhyay(参考訳) 本稿では,時間依存非可換空間における時間に対して変化する外部磁場の存在下での2次元減衰高調波振動子の正確な固有状態を求める。 減衰係数の特定の選択、振動子の時間依存周波数、および時間依存外部磁場に対して、エルマコフ・ペニー方程式の解から従う時間依存非可換パラメータの興味深い解が存在することが観察されている。 さらに、これらの解により、ハミルトニアンの固有状態とルイス不変量の固有状態に関連する位相の正確な解析形式を得ることができる。 次に、ハミルトニアンの期待値を計算する。 エネルギーの期待値は、減衰係数の異なる選択、発振器の時間依存性周波数、および時間依存性印加磁場に対応するエルマコフ・ペニー方程式の解の時間に応じて変化する。 また,これまでに得られた磁場が存在しないものとの比較を行った。

In this paper we have obtained the exact eigenstates of a two dimensional damped harmonic oscillator in the presence of an external magnetic field varying with respect to time in time dependent noncommutative space. It has been observed that for some specific choices of the damping factor, the time dependent frequency of the oscillator and the time dependent external magnetic field, there exists interesting solutions of the time dependent noncommutative parameters following from the solutions of the Ermakov-Pinney equation. Further, these solutions enable us to get exact analytic forms for the phase which relates the eigenstates of the Hamiltonian with the eigenstates of the Lewis invariant. Then we compute the expectation value of the Hamiltonian. The expectation values of the energy are found to vary with time for different solutions of the Ermakov-Pinney equation corresponding to different choices of the damping factor, the time dependent frequency of the oscillator and the time dependent applied magnetic field. We also compare our results with those in the absence of the magnetic field obtained earlier.
翻訳日:2023-03-31 03:53:03 公開日:2021-05-14
# チンパンジー最適化アルゴリズムによる深部CNNと極端学習マシンを用いたX線画像からのリアルタイムCOVID-19診断

Real-Time COVID-19 Diagnosis from X-Ray Images Using Deep CNN and Extreme Learning Machines Stabilized by Chimp Optimization Algorithm ( http://arxiv.org/abs/2106.01435v1 )

ライセンス: Link先を確認
Hu Tianqing, Mohammad Khishe, Mokhtar Mohammadi, Gholam-Reza Parvizi, Sarkhel H. Taher Karim, Tarik A. Rashid(参考訳) 早期診断の需要が高まり、放射線画像による新型コロナウイルスのリアルタイム検出が優先されている。 本稿では,胸部x線画像の2相分類法を提案する。 ディープラーニング(dl)メソッドは、モデルのパラメータのトレーニングと微調整が多くの時間を消費するため、これらの側面をカバーできない。 このアプローチでは、第1フェーズは機能抽出器として働くディープcnnをトレーニングし、第2フェーズはリアルタイム検出にextreme learning machines(elms)を使用する。 ELMの主な欠点は、初期重みとバイアスの設定に大きく依存するため、画像処理を適用する際に、信頼性が高く正確な検出器を得るために、多数の隠蔽層ノードの必要性を満たすことである。 そこで本論文では,Chimp Optimization Algorithm (ChOA) を用いて結果の改善とネットワークの信頼性向上を図る。 設計された検出器は、COVID-Xray-5kとCOVIDetectioNetデータセットでベンチマークされ、従来のDCNN、GA-ELM、Cuckoo Search Optimization ELM (CS-ELM)、Whale Optimization Algorithm Optimization ELM (WOA-ELM)と比較して検証される。 提案手法は、COVID-Xray-5kデータセットとCOVIDetectioNetデータセットの最終的な精度として98.25%と99.11%の他のベンチマークよりも優れており、畳み込みCNNに比べて1.75%と1.01%の差で相対誤差を減少させた。 さらに重要なことは、深部ChOA-ELMのトレーニングに必要な時間はわずか0.9474ミリ秒であり、3100枚の画像の総合的なテスト時間は2.937秒である。

Real-time detection of COVID-19 using radiological images has gained priority due to the increasing demand for fast diagnosis of COVID-19 cases. This paper introduces a novel two-phase approach for classifying chest X-ray images. Deep Learning (DL) methods fail to cover these aspects since training and fine-tuning the model's parameters consume much time. In this approach, the first phase comes to train a deep CNN working as a feature extractor, and the second phase comes to use Extreme Learning Machines (ELMs) for real-time detection. The main drawback of ELMs is to meet the need of a large number of hidden-layer nodes to gain a reliable and accurate detector in applying image processing since the detective performance remarkably depends on the setting of initial weights and biases. Therefore, this paper uses Chimp Optimization Algorithm (ChOA) to improve results and increase the reliability of the network while maintaining real-time capability. The designed detector is to be benchmarked on the COVID-Xray-5k and COVIDetectioNet datasets, and the results are verified by comparing it with the classic DCNN, Genetic Algorithm optimized ELM (GA-ELM), Cuckoo Search optimized ELM (CS-ELM), and Whale Optimization Algorithm optimized ELM (WOA-ELM). The proposed approach outperforms other comparative benchmarks with 98.25% and 99.11% as ultimate accuracy on the COVID-Xray-5k and COVIDetectioNet datasets, respectively, and it led relative error to reduce as the amount of 1.75% and 1.01% as compared to a convolutional CNN. More importantly, the time needed for training deep ChOA-ELM is only 0.9474 milliseconds, and the overall testing time for 3100 images is 2.937 seconds.
翻訳日:2023-03-31 03:52:46 公開日:2021-05-14
# データサイエンスによるハイブリッド太陽光発電型スマートマイクログリッドの研究

Study of a Hybrid Photovoltaic-Wind Smart Microgrid using Data Science Approach ( http://arxiv.org/abs/2105.08510v1 )

ライセンス: Link先を確認
Josimar Edinson Chire Saire, Jos\'e Armando Gastelo Roque, Franco Canziani(参考訳) 本研究では, ペルーのパラカス, ica, 6kwp pv + 6kw windで構成され, 40世帯の地域コミュニティに電力を供給するスマートマイクログリッドを, データサイエンスの手法を用いて検討した。 日射量, 風速, エネルギー需要, およびバッテリバンクの電圧の実データを用いて, 解析データ間のパターン, 季節性, および既存の相関関係について検討した。 主な結果には、再生可能資源と需要の周期性、電力需要の週毎の挙動、2019年の0.7kwの平均から2021年の1.2kwへの漸進的な増加、資源の不足やバッテリバンクの障害が発生した朝のある時間に停電が繰り返される方法などがある。 これらの分析データは、サイズ技術の改善と、スマートマイクログリッドのパフォーマンスを最適化するためのエネルギー管理の推奨に使用される。

In this paper, a smart microgrid implemented in Paracas, Ica, Peru, composed of 6kWp PV + 6kW Wind and that provides electricity to a rural community of 40 families, was studied using a data science approach. Real data of solar irradiance, wind speed, energy demand, and voltage of the battery bank from 2 periods of operation were studied to find patterns, seasonality, and existing correlations between the analyzed data. Among the main results are the periodicity of renewable resources and demand, the weekly behavior of electricity demand and how it has progressively increased from an average of 0.7kW in 2019 to 1.2kW in 2021, and how power outages are repeated at certain hours in the morning when resources are low or there is a failure in the battery bank. These analyzed data will be used to improve sizing techniques and provide recommendations for energy management to optimize the performance of smart microgrids.
翻訳日:2023-03-31 03:52:10 公開日:2021-05-14
# 1次元ヘルムホルツ方程式で定義される低周波散乱

Low-frequency scattering defined by the Helmholtz equation in one dimension ( http://arxiv.org/abs/2105.07895v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) 1次元のヘルムホルツ方程式は、効果的に1次元の系における電磁波の伝播を記述するもので、時間に依存しないシュリンガー方程式と等価である。 後者に入るポテンシャル項がエネルギー依存であるという事実は、ヘルムホルツ方程式を満たす低周波波の研究における低エネルギー量子散乱の結果の適用を妨げる。 最近開発された定常散乱の動的定式化を用いて、これらの波の低周波散乱の包括的処理を一般有限レンジ散乱器に適用する。 特に、系の伝達行列の低周波級数展開の係数を明示的に定式化することで、反射、透過、吸収係数の低周波展開を決定することができる。 以上の結果から,低周波散乱の物理特性,特に利得と損失のバランスの取れた誘電率プロファイルに関して,多くの興味深い側面が明らかとなった。

The Helmholtz equation in one dimension, which describes the propagation of electromagnetic waves in effectively one-dimensional systems, is equivalent to the time-independent Schr\"odinger equation. The fact that the potential term entering the latter is energy-dependent obstructs the application of the results on low-energy quantum scattering in the study of the low-frequency waves satisfying the Helmholtz equation. We use a recently developed dynamical formulation of stationary scattering to offer a comprehensive treatment of the low-frequency scattering of these waves for a general finite-range scatterer. In particular, we give explicit formulas for the coefficients of the low-frequency series expansion of the transfer matrix of the system which in turn allow for determining the low-frequency expansions of its reflection, transmission, and absorption coefficients. Our general results reveal a number of interesting physical aspects of low-frequency scattering particularly in relation to permittivity profiles having balanced gain and loss.
翻訳日:2023-03-31 03:51:36 公開日:2021-05-14
# アハロノフ・ボーム効果の解釈について

On the Interpretation of the Aharonov-Bohm Effect ( http://arxiv.org/abs/2105.07803v1 )

ライセンス: Link先を確認
Jay Solanki(参考訳) アハロノフ・ボーム(A-B)効果は、電磁界がゼロの領域である排除された電磁場によって電子波パターンの位相が変化できることを示した。 この明らかな非局所効果は、主に「電磁ポテンシャルの解釈」と「相互作用エネルギーの解釈」と呼ばれる2つの顕著な解釈によって説明されている。 本稿では,著者の解釈と分析の相違点をレビューし,考察する。 その後、著者は相互作用エネルギー解釈のアプローチを詳細に明らかにし、量子力学が量子系のエネルギーと電磁場に含まれる電磁エネルギーに関係しているので、その効果の自然でより物理的に受け入れられる解釈は「相互作用エネルギーの解釈」であるべきだと主張している。

The Aharonov-Bohm (A-B) effect showed that the phase of electron wave pattern could be changed by the excluded electromagnetic field, the region where electromagnetic field is zero. This apparent non-local effect has been explained by mainly two salient interpretations called "the interpretation of electromagnetic potentials" and "the interpretation of interaction energy". In this paper the author reviews and investigates both the interpretations and analysis their differences. Then the author clarifies in details and extend the approach of interaction energy interpretation and argue that as quantum mechanics involved energy of quantum systems and electromagnetic energy contained in electromagnetic field, the natural and more physically acceptable interpretation of the effect should be "the interpretation of interaction energy".
翻訳日:2023-03-31 03:51:23 公開日:2021-05-14
# フォトニック量子技術のための超狭い光線幅を持つ希土類分子結晶

Rare-Earth Molecular Crystals with Ultra-narrow Optical Linewidths for Photonic Quantum Technologies ( http://arxiv.org/abs/2105.07081v1 )

ライセンス: Link先を確認
Diana Serrano, Kuppusamy Senthil Kumar, Beno\^it Heinrich, Olaf Fuhr, David Hunger, Mario Ruben, Philippe Goldner(参考訳) 希土類イオンは、量子レベルで光物質界面を構築するための固体系である。 これは、狭い光均一な線幅、または、同等に長寿命の光量子状態を示すポテンシャルに依存する。 本書では,他の分子中心よりも桁違いに狭い10kHz帯の線幅を示すユーロピウム分子結晶について報告する。 この特性を利用して、効率的な光スピン初期化、原子周波数コムを用いた光のコヒーレント保存、量子ゲートの実装に向けたイオン-イオン相互作用の光制御を実証する。 これらの結果は、高コヒーレントエミッタと分子材料の組成、構造、結合能の未整合性を組み合わせたフォトニック量子技術の新たなプラットフォームとしての希土類分子結晶の有用性を示す。

Rare-earth ions are promising solid state systems to build light-matter interfaces at the quantum level. This relies on their potential to show narrow optical homogeneous linewidths or, equivalently, long-lived optical quantum states. In this letter, we report on europium molecular crystals that exhibit linewidths in the 10s of kHz range, orders of magnitude narrower than other molecular centers. We harness this property to demonstrate efficient optical spin initialization, coherent storage of light using an atomic frequency comb, and optical control of ion-ion interactions towards implementation of quantum gates. These results illustrate the utility of rare-earth molecular crystals as a new platform for photonic quantum technologies that combines highly coherent emitters with the unmatched versatility in composition, structure, and integration capability of molecular materials.
翻訳日:2023-03-31 03:51:08 公開日:2021-05-14
# 量子効果の時間進化

Time Evolution of Quantum Effects ( http://arxiv.org/abs/2105.07046v1 )

ライセンス: Link先を確認
Stan Gudder(参考訳) 量子効果の $a$ と $b$ に対して、時の $b$ の $a$-evolution を $b(t\mid a)$ で表すとき $t$ と定義する。 我々は$b(t\mid a)$を、$a$が$b$の時に$t$を持つ影響として解釈するが、$a$の発生時には$t$は測定されない。 b(t\mid a)$ を用いて、時間依存の逐次積 $a[t]b$ を定義する。 これは、最初に$a$を計測した後、時間遅延$t$の後に$b$を計測する効果として解釈される。 a[t]b$ の様々な性質が導出され、$a[t]b$ が時間における定数であることと $a$ と $b$ commute または $a$ が射影の倍であることが示される。 これらの概念は量子系のオブザーバブルに拡張される。 アイデアにはいくつかの例がある。

For quantum effects $a$ and $b$ we define the $a$-evolution of $b$ at time $t$ denoted by $b(t\mid a)$. We interpret $b(t\mid a)$ as the influence that $a$ has on $b$ at time $t$ when $a$ occurs, but is not measured at time $t=0$. Using $b(t\mid a)$ we define the time-dependent sequential product $a[t]b$. This is interpreted as an effect that results from first measuring $a$ and then measuring $b$ after a time delay $t$. Various properties of $a[t]b$ are derived and it is shown that $a[t]b$ is constant in time if and only if $a$ and $b$ commute or $a$ is a multiple of a projection. These concepts are extended to observables for a quantum system. The ideas are illustrated with some examples.
翻訳日:2023-03-31 03:50:52 公開日:2021-05-14
# 決定図付き量子回路のハイブリッドschr\"odinger-feynmanシミュレーション

Hybrid Schr\"odinger-Feynman Simulation of Quantum Circuits With Decision Diagrams ( http://arxiv.org/abs/2105.07045v1 )

ライセンス: Link先を確認
Lukas Burgholzer, Hartwig Bauer and Robert Wille(参考訳) 量子計算の古典的シミュレーションは、この新興技術の将来の発展に不可欠である。 この目的のために、決定図は、これらのシミュレーションの本質的に指数関数的な複雑さに取り組むことができる補完的な手法として提案されている。 しかし、最悪の場合、この複雑さから逃れることはできない。 さらに、他の技術が利用可能な処理能力をすべて活用しているのに対し、決定図に基づくシミュレーションは現在のシステムの多くの処理ユニットを活用できない。 本研究では,シミュレーションにハイブリッドなSchr\"odinger-Feynmanスキームを用いることで,両問題を同時に扱うことができることを示す。 より正確には、そのようなスキームを決定ダイアグラムで実現することは確かに可能であり、その実現において生じる問題を議論し、どのように処理するかを提案する。 実験的な評価により、これは決定図に基づくシミュレーションにおける技術の現状を著しく向上させ、これまでの1日でシミュレートできない、数分以内に特定のハード回路をシミュレートできるようにする。

Classical simulations of quantum computations are vital for the future development of this emerging technology. To this end, decision diagrams have been proposed as a complementary technique which frequently allows to tackle the inherent exponential complexity of these simulations. In the worst case, however, they still cannot escape this complexity. Additionally, while other techniques make use of all the available processing power, decision diagram-based simulation to date cannot exploit the many processing units of today's systems. In this work, we show that both problems can be tackled together by employing a hybrid Schr\"odinger-Feynman scheme for the simulation. More precisely, we show that realizing such a scheme with decision diagrams is indeed possible, we discuss the resulting problems in its realization, and propose solutions how they can be handled. Experimental evaluations confirm that this significantly advances the state of the art in decision diagram-based simulation -- allowing to simulate certain hard circuits within minutes that could not be simulated in a whole day thus far.
翻訳日:2023-03-31 03:50:35 公開日:2021-05-14
# 曲線空間における相対論的量子場のエントロピックダイナミクス

The Entropic Dynamics of Relativistic Quantum Fields in Curved Space-time ( http://arxiv.org/abs/2105.07042v1 )

ライセンス: Link先を確認
Selman Ipek(参考訳) 物理学の法則が情報処理の理解と実装の枠組みとして用いられてきたことは歴史においてしばしばあった。 暗黙の仮定は、物理学の法則は基本であり、情報の概念はこれらの法則から導かれるというものである。 物理学の法則は、情報を処理するための規則の応用である。 この論文では、時空におけるスカラー場の量子力学を構築するためにエントロピーダイナミクス(ed)フレームワークを適用する。 まず,多数の相互作用粒子からなるおもちゃモデルを考えることから,非相対論的粒子に対するシュロディンガー方程式が成立する。 同様の手法を用いて、相対論的ではあるが明らかにそうではない平坦な時空における量子スカラー場の理論を構築する。 ここでは、量子スカラー場のedがいわゆるウォールストローム異論を回避する新しい方法についても論じる。 さらに、固定と力学の両方の曲線時空上の場の明らかな共変量子edを構築するために、p. weiss、p. dirac、k. kuchar、c. teitelboimの「時間的」なアプローチを借用する。 固定背景については、S. Tomonaga と J. Schwinger が提唱した共変量子論の精神にあるスカラー場の明らかな共変EDである。 しかし、フォーマリズムは十分に柔軟であり、量子体場のバック反応を、完全に動的に古典的な背景でモデル化することができる。 この古典量子相互作用の最も単純な実現は、半古典的重力モデル、特に半古典的アインシュタイン方程式との形式的類似性を持つ。 このような理論を考察し、その妥当性を量子重力理論の候補として論じる。

It has often been the case in history that the laws of physics have been used as the framework for understanding and implementing information processing. The tacit assumption is that the laws of physics are fundamental and that the notion of information is derived from these laws. Here we take the opposite view: the laws of physics are an application of the rules for processing information. In this dissertation we apply the Entropic Dynamics (ED) framework to construct a quantum dynamics for scalar fields in space-time. We begin by considering a toy model consisting of many interacting particles, resulting in the familiar Schrodinger equation for non-relativistic particles. Using a similar methodology, we construct a theory of quantum scalar fields in flat space-time that is relativistic, but not manifestly so. Here we also discuss a novel way in which the ED of quantum scalar fields appears to evade the so-called Wallstrom objection. To go further towards constructing a manifestly covariant quantum ED of fields on a curved space-time, both fixed and dynamical, we borrow from the "many-time" approaches of P. Weiss, P. Dirac, K. Kuchar, and C. Teitelboim. For a fixed background the result is a manifestly covariant ED of scalar fields that is in the spirit of the covariant quantum theories proposed by S. Tomonaga and J. Schwinger. However, the formalism is sufficiently flexible so as to allow for the possibility of modeling the back reaction of the quantum matter fields on a fully dynamical classical background. The simplest realization of this classical-quantum interaction shares some formal similarity to semi-classical gravity models, and the semi-classical Einstein equations, in particular. We consider such a theory and discuss its plausibility as a candidate for a quantum gravity theory.
翻訳日:2023-03-31 03:50:17 公開日:2021-05-14
# グループ畳み込みとチャネルシャッフルの併用最適化による構造的スパーシフィケーション

Structured Sparsification with Joint Optimization of Group Convolution and Channel Shuffle ( http://arxiv.org/abs/2002.08127v2 )

ライセンス: Link先を確認
Xin-Yu Zhang, Kai Zhao, Taihong Xiao, Ming-Ming Cheng, and Ming-Hsuan Yang(参考訳) 畳み込みニューラルネットワーク(CNN)の最近の進歩は、通常、過剰な計算オーバーヘッドとメモリフットプリントを犠牲にしている。 ネットワーク圧縮は、同等の性能のコンパクトモデルをトレーニングすることでこの問題を軽減することを目的としている。 しかし、既存の圧縮技術は専門的な設計を必要とするか、適度な性能低下で妥協する。 本稿では,効率的なネットワーク圧縮のための構造化スパーシフィケーション手法を提案する。 提案手法は,畳み込み重みに対する構造的スパーシティを自動的に誘導し,高最適化群畳み込みによる圧縮モデルの実装を容易にする。 さらに,学習可能なチャネルシャッフル機構によるグループ間通信の問題に対処する。 提案手法は,多くのネットワークアーキテクチャを性能低下なく圧縮するために容易に適用できる。 大規模な実験結果と解析結果から,本手法は,最近のネットワーク圧縮技術と高い精度・複雑なトレードオフを持つ競合性能を示すことが示された。

Recent advances in convolutional neural networks(CNNs) usually come with the expense of excessive computational overhead and memory footprint. Network compression aims to alleviate this issue by training compact models with comparable performance. However, existing compression techniques either entail dedicated expert design or compromise with a moderate performance drop. In this paper, we propose a novel structured sparsification method for efficient network compression. The proposed method automatically induces structured sparsity on the convolutional weights, thereby facilitating the implementation of the compressed model with the highly-optimized group convolution. We further address the problem of inter-group communication with a learnable channel shuffle mechanism. The proposed approach can be easily applied to compress many network architectures with a negligible performance drop. Extensive experimental results and analysis demonstrate that our approach gives a competitive performance against the recent network compression counterparts with a sound accuracy-complexity trade-off.
翻訳日:2022-12-30 14:12:45 公開日:2021-05-14
# Voronoi-Epsilon の対数ロバスト性の測定

Measuring Adversarial Robustness using a Voronoi-Epsilon Adversary ( http://arxiv.org/abs/2005.02540v3 )

ライセンス: Link先を確認
Hyeongji Kim, Pekka Parviainen, Ketil Malde(参考訳) 従来のロバスト性の研究は、精度と敵の精度の間にはトレードオフがあると主張している。 一般化を無視してもトレードオフは避けられない。 このトレードオフは、データポイントを囲む$\epsilon$-ballsで制約された逆数点を構築できる逆数を用いて、一般的に用いられる逆数精度の定義に固有のものである、と我々は主張する。 $\epsilon$が大きくなると、相手は、他のクラスの実際のデータポイントを敵の例として使うことができる。 我々は、voronoi細胞と$\epsilon$-ballsの両方によって制約されるvoronoi-epsilon逆境を提案する。 この対立は2つの摂動の概念のバランスをとる。 その結果、この逆数に基づく逆数精度は、$\epsilon$が大きければ、トレーニングデータに対する精度と逆数精度とのトレードオフを回避することができる。 最後に, 最近傍の分類器が, 提案した学習データに対する最大ロバストな分類器であることを示す。

Previous studies on robustness have argued that there is a tradeoff between accuracy and adversarial accuracy. The tradeoff can be inevitable even when we neglect generalization. We argue that the tradeoff is inherent to the commonly used definition of adversarial accuracy, which uses an adversary that can construct adversarial points constrained by $\epsilon$-balls around data points. As $\epsilon$ gets large, the adversary may use real data points from other classes as adversarial examples. We propose a Voronoi-epsilon adversary which is constrained both by Voronoi cells and by $\epsilon$-balls. This adversary balances between two notions of perturbation. As a result, adversarial accuracy based on this adversary avoids a tradeoff between accuracy and adversarial accuracy on training data even when $\epsilon$ is large. Finally, we show that a nearest neighbor classifier is the maximally robust classifier against the proposed adversary on the training data.
翻訳日:2022-12-06 05:15:16 公開日:2021-05-14
# 自己監督型表現学習のための白化

Whitening for Self-Supervised Representation Learning ( http://arxiv.org/abs/2007.06346v5 )

ライセンス: Link先を確認
Aleksandr Ermolov, Aliaksandr Siarohin, Enver Sangineto, Nicu Sebe(参考訳) 現在の自己監督型表現学習(SSL)の手法のほとんどは、コントラスト損失とインスタンス識別タスクに基づいており、同じイメージインスタンス("陽性")の拡張バージョンは、他のイメージ("負")から抽出されたインスタンスと対比される。 学習が効果的になるためには、多くの負は計算上要求される正の対と比較されるべきである。 本稿では,遅延空間の特徴の白化に基づくSSLの異なる方向と新しいロス関数を提案する。 ホワイトニング操作はバッチサンプルに「散乱」効果を持ち、全てのサンプル表現が1つの点に崩壊する縮退した解を避ける。 我々の解は非対称ネットワークを必要とせず、概念的には単純である。 さらに、負は不要であるため、同じ画像インスタンスから複数の正のペアを抽出することができる。 メソッドとすべての実験のソースコードは、https://github.com/htdt/self-supervised。

Most of the current self-supervised representation learning (SSL) methods are based on the contrastive loss and the instance-discrimination task, where augmented versions of the same image instance ("positives") are contrasted with instances extracted from other images ("negatives"). For the learning to be effective, many negatives should be compared with a positive pair, which is computationally demanding. In this paper, we propose a different direction and a new loss function for SSL, which is based on the whitening of the latent-space features. The whitening operation has a "scattering" effect on the batch samples, avoiding degenerate solutions where all the sample representations collapse to a single point. Our solution does not require asymmetric networks and it is conceptually simple. Moreover, since negatives are not needed, we can extract multiple positive pairs from the same image instance. The source code of the method and of all the experiments is available at: https://github.com/htdt/self-supervised.
翻訳日:2022-11-10 22:40:03 公開日:2021-05-14
# npcface:大規模顔認識のための負陽性協調学習

NPCFace: Negative-Positive Collaborative Training for Large-scale Face Recognition ( http://arxiv.org/abs/2007.10172v3 )

ライセンス: Link先を確認
Dan Zeng, Hailin Shi, Hang Du, Jun Wang, Zhen Lei, and Tao Mei(参考訳) 深層顔認識のトレーニングスキームはここ数年で大きく発展してきたが、大規模で多様なハードケースが発生する大規模データ状況では新たな課題に直面している。 特に低い偽受容率 (far) の範囲では、陽性 (intra-class) と陰性 (inter-class) の両方に様々な困難ケースが存在する。 本稿では,これらのハードサンプルをトレーニング改善に活用する方法について検討する。 文献は、正のロジットまたは負のロジットのマージンに基づく定式化によってこれをアプローチしている。 しかし、強正と強負の相関は見過ごされ、正と負の対数のマージンの関係も見過ごされる。 このような相関関係は,特に大規模データセットにおいて有意であり,各トレーニングサンプルの正のマージンと負のマージンを関連付けることで,トレーニングの促進に活用することができる。 この目的のために, 正負のマージンと負のマージンとの明確な協調を標本的に提案する。 NPCFaceと呼ばれる新規な負の正の協調的損失が与えられると、ソフトマックスロジットにおける協調マージン機構による負の硬さと正の硬さのトレーニングを強調し、負の正の硬さ相関のより良い解釈をもたらす。 さらに、安定収束とフレキシブルパラメータ設定を実現するために、改良された定式化によって強調が実施される。 本手法の有効性を大規模顔認識の様々なベンチマークで検証し,特に低域において有利な結果を得た。

The training scheme of deep face recognition has greatly evolved in the past years, yet it encounters new challenges in the large-scale data situation where massive and diverse hard cases occur. Especially in the range of low false accept rate (FAR), there are various hard cases in both positives (intra-class) and negatives (inter-class). In this paper, we study how to make better use of these hard samples for improving the training. The literature approaches this by margin-based formulation in either positive logit or negative logits. However, the correlation between hard positive and hard negative is overlooked, and so is the relation between the margins in positive and negative logits. We find such correlation is significant, especially in the large-scale dataset, and one can take advantage from it to boost the training via relating the positive and negative margins for each training sample. To this end, we propose an explicit collaboration between positive and negative margins sample-wisely. Given a batch of hard samples, a novel Negative-Positive Collaboration loss, named NPCFace, is formulated, which emphasizes the training on both negative and positive hard cases via the collaborative-margin mechanism in the softmax logits, and also brings better interpretation of negative-positive hardness correlation. Besides, the emphasis is implemented with an improved formulation to achieve stable convergence and flexible parameter setting. We validate the effectiveness of our approach on various benchmarks of large-scale face recognition, and obtain advantageous results especially in the low FAR range.
翻訳日:2022-11-08 14:08:00 公開日:2021-05-14
# ゼロソース知識包含対話生成

Zero-Resource Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2008.12918v2 )

ライセンス: Link先を確認
Linxiao Li, Can Xu, Wei Wu, Yufan Zhao, Xueliang Zhao, Chongyang Tao(参考訳) 神経会話モデルは、外部知識の導入によって、情報的かつ魅力的な応答を生成するための大きな可能性を示しているが、そのようなモデルを学ぶには、獲得が難しい知識に基づく対話を必要とすることが多い。 この課題を克服し,知識基盤型対話システムの構築コストを削減するため,文脈知識応答三重項を学習に必要とせず,ゼロリソース環境下での課題を探究する。 そこで本研究では,コンテキストと応答を橋渡しする知識の表現と,知識を潜在変数として表現する方法を提案し,対話コーパスから生成モデルを効果的に推定できる変分的アプローチと,相互に独立した知識コーパスを考案する。 知識接地対話生成の3つのベンチマークによる評価結果から,我々のモデルは知識接地対話に依存する最先端の手法と同等の性能を達成でき,様々なトピックやデータセットに対して優れた一般化能力を示す。

While neural conversation models have shown great potentials towards generating informative and engaging responses via introducing external knowledge, learning such a model often requires knowledge-grounded dialogues that are difficult to obtain. To overcome the data challenge and reduce the cost of building a knowledge-grounded dialogue system, we explore the problem under a zero-resource setting by assuming no context-knowledge-response triples are needed for training. To this end, we propose representing the knowledge that bridges a context and a response and the way that the knowledge is expressed as latent variables, and devise a variational approach that can effectively estimate a generation model from a dialogue corpus and a knowledge corpus that are independent with each other. Evaluation results on three benchmarks of knowledge-grounded dialogue generation indicate that our model can achieve comparable performance with state-of-the-art methods that rely on knowledge-grounded dialogues for training, and exhibits a good generalization ability over different topics and different datasets.
翻訳日:2022-10-23 17:23:16 公開日:2021-05-14
# 光電子実験による雑音遅延結合ネットワークの機械学習リンク推定

Machine Learning Link Inference of Noisy Delay-coupled Networks with Opto-Electronic Experimental Tests ( http://arxiv.org/abs/2010.15289v3 )

ライセンス: Link先を確認
Amitava Banerjee, Joseph D. Hart, Rajarshi Roy, Edward Ott(参考訳) 時間遅延のあるネットワークリンクを推測する一般的な問題を解決するために,機械学習手法を考案する。 目標は、これをネットワークのnodal状態の時系列データから純粋に行うことです。 この仕事は応用物理学や工学から神経科学や生物学まで幅広い分野に応用されている。 そこで我々はまず,未知のネットワークのダイナミクスを模倣するために,貯水池計算と呼ばれる機械学習システムを訓練する。 本研究では,リザーバシステム出力層のトレーニングパラメータを用いて未知のネットワーク構造の推定を導出する手法を定式化し,検証する。 本手法は、本質的には非侵襲的であるが、ネットワークに作用する能動摂動に対する応答を観測し、ネットワークリンク(例えば、遺伝子をノックダウンして遺伝子制御ネットワークを推測する)を推論する、広く使われている侵入型ネットワーク推論法によって動機付けられている。 遅延結合光電子発振器ネットワークを用いた実験およびシミュレーションデータを用いて本手法を検証した。 この手法は、特にシステムが同期を示さない場合、非常に良い結果をもたらすことがしばしば示される。 また、動的ノイズの存在は、特に同期性を示すネットワークにおいて、我々の手法の精度と能力を大幅に向上させることができる。

We devise a machine learning technique to solve the general problem of inferring network links that have time-delays. The goal is to do this purely from time-series data of the network nodal states. This task has applications in fields ranging from applied physics and engineering to neuroscience and biology. To achieve this, we first train a type of machine learning system known as reservoir computing to mimic the dynamics of the unknown network. We formulate and test a technique that uses the trained parameters of the reservoir system output layer to deduce an estimate of the unknown network structure. Our technique, by its nature, is non-invasive, but is motivated by the widely-used invasive network inference method whereby the responses to active perturbations applied to the network are observed and employed to infer network links (e.g., knocking down genes to infer gene regulatory networks). We test this technique on experimental and simulated data from delay-coupled opto-electronic oscillator networks. We show that the technique often yields very good results particularly if the system does not exhibit synchrony. We also find that the presence of dynamical noise can strikingly enhance the accuracy and ability of our technique, especially in networks that exhibit synchrony.
翻訳日:2022-10-02 00:05:52 公開日:2021-05-14
# フェデレーション学習による音声認識モデルの訓練:品質/コストフレームワーク

Training Speech Recognition Models with Federated Learning: A Quality/Cost Framework ( http://arxiv.org/abs/2010.15965v2 )

ライセンス: Link先を確認
Dhruv Guliani, Francoise Beaufays, Giovanni Motta(参考訳) 本稿では,デバイス上分散学習パラダイムであるフェデレーション学習を用いた音声認識モデルの学習を提案する。 ユーザ毎のトレーニングのエポックを実行することによって、フェデレーション学習は、トレーニングモデルの品質に悪影響を及ぼすと思われる非iidデータ分布を扱うコストを負わなければなりません。 本研究では,非アイドネスの程度を変化させる枠組みを提案する。その結果,モデル品質とフェデレーショントレーニングの計算コストとのトレードオフが示され,新たな指標を用いて捉える。 最後に,超パラメータ最適化と変動雑音の適切な利用により,非iid分布の品質への影響を補償し,コストを低減できることを示す。

We propose using federated learning, a decentralized on-device learning paradigm, to train speech recognition models. By performing epochs of training on a per-user basis, federated learning must incur the cost of dealing with non-IID data distributions, which are expected to negatively affect the quality of the trained model. We propose a framework by which the degree of non-IID-ness can be varied, consequently illustrating a trade-off between model quality and the computational cost of federated training, which we capture through a novel metric. Finally, we demonstrate that hyper-parameter optimization and appropriate use of variational noise are sufficient to compensate for the quality impact of non-IID distributions, while decreasing the cost.
翻訳日:2022-10-01 23:57:08 公開日:2021-05-14
# FLERT: 名前付きエンティティ認識のためのドキュメントレベル機能

FLERT: Document-Level Features for Named Entity Recognition ( http://arxiv.org/abs/2011.06993v2 )

ライセンス: Link先を確認
Stefan Schweter, Alan Akbik(参考訳) 名前付きエンティティ認識(NER)に対する現在の最先端のアプローチは、典型的には文レベルでテキストを考慮し、文境界を越える情報をモデル化しない。 しかし、NERにトランスフォーマーベースのモデルを使用することで、ドキュメントレベルの機能をキャプチャするための自然なオプションが提供される。 本稿では、文献でよく見られる2つの標準NERアーキテクチャ、すなわち「微細チューニング」と「機能ベースLSTM-CRF」における文書レベルの特徴の比較評価を行う。 コンテクストウィンドウサイズや文書局所性の強化など,文書レベルの特徴に対して異なるハイパーパラメータを評価する。 本稿では,文書コンテキストのモデル化方法を推奨する実験を行い,conll-03ベンチマークデータセット上で新たな最先端スコアを提示する。 このアプローチはflairフレームワークに統合され,実験の再現が容易になる。

Current state-of-the-art approaches for named entity recognition (NER) typically consider text at the sentence-level and thus do not model information that crosses sentence boundaries. However, the use of transformer-based models for NER offers natural options for capturing document-level features. In this paper, we perform a comparative evaluation of document-level features in the two standard NER architectures commonly considered in the literature, namely "fine-tuning" and "feature-based LSTM-CRF". We evaluate different hyperparameters for document-level features such as context window size and enforcing document-locality. We present experiments from which we derive recommendations for how to model document context and present new state-of-the-art scores on several CoNLL-03 benchmark datasets. Our approach is integrated into the Flair framework to facilitate reproduction of our experiments.
翻訳日:2022-09-26 00:01:58 公開日:2021-05-14
# 3d-レイアウトとセマンティクスを備えた3d家具室

3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics ( http://arxiv.org/abs/2011.09127v2 )

ライセンス: Link先を確認
Huan Fu, Bowen Cai, Lin Gao, Lingxiao Zhang, Jiaming Wang Cao Li, Zengqi Xun, Chengyue Sun, Rongfei Jia, Binqiang Zhao, Hao Zhang(参考訳) 3d-front(レイアウトとセマンティクスを備えた3d家具室)、プロがデザインしたレイアウトでハイライトされた合成屋内シーンの新しい、大規模で包括的なリポジトリ、高品質なテクスチャ付き3dモデルによる多数の部屋を紹介する。 レイアウトセマンティクスから個々のオブジェクトのテクスチャの詳細まで、私たちのデータセットはアカデミックコミュニティとそれ以上に自由に利用できます。 現在、3D-FRONTは18,968室の3Dオブジェクトを多用しており、公開されているすべてのシーンデータセットをはるかに上回っている。 さらに13,151個の家具には高品質なテクスチャが備わっている。 フロアプランやレイアウトデザインは、プロの創作物から直接引用されるが、家具のスタイル、色、テクスチャなどのインテリアデザインは、我々がエキスパートデザインとして一貫したスタイルを達成するために開発したレコメンデーションシステムに基づいて慎重にキュレートされている。 さらに、軽量なレンダリングツールであるTrescopeをリリースし、3D-FRONTの2D画像とアノテーションのベンチマークレンダリングをサポートする。 インテリアシーン合成とテクスチャ合成という,新たなデータセットの強みに合わせた2つの応用例を示す。 プロジェクトページは以下の通り。 https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset。

We introduce 3D-FRONT (3D Furnished Rooms with layOuts and semaNTics), a new, large-scale, and comprehensive repository of synthetic indoor scenes highlighted by professionally designed layouts and a large number of rooms populated by high-quality textured 3D models with style compatibility. From layout semantics down to texture details of individual objects, our dataset is freely available to the academic community and beyond. Currently, 3D-FRONT contains 18,968 rooms diversely furnished by 3D objects, far surpassing all publicly available scene datasets. In addition, the 13,151 furniture objects all come with high-quality textures. While the floorplans and layout designs are directly sourced from professional creations, the interior designs in terms of furniture styles, color, and textures have been carefully curated based on a recommender system we develop to attain consistent styles as expert designs. Furthermore, we release Trescope, a light-weight rendering tool, to support benchmark rendering of 2D images and annotations from 3D-FRONT. We demonstrate two applications, interior scene synthesis and texture synthesis, that are especially tailored to the strengths of our new dataset. The project page is at: https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset.
翻訳日:2022-09-24 04:20:43 公開日:2021-05-14
# 計算病理学におけるグラフニューラルネットワークの定量化

Quantifying Explainers of Graph Neural Networks in Computational Pathology ( http://arxiv.org/abs/2011.12646v2 )

ライセンス: Link先を確認
Guillaume Jaume and Pushpak Pati and Behzad Bozorgtabar and Antonio Foncubierta-Rodr\'iguez and Florinda Feroce and Anna Maria Anniciello and Tilman Rau and Jean-Philippe Thiran and Maria Gabrani and Orcun Goksel(参考訳) 深層学習法の具体性は,デジタル病理学における臨床応用の促進に不可欠である。 しかし、一般的なディープラーニング手法や説明可能性技術(説明者)は、生物学的実体の概念を無視し、病理学者による理解を複雑にしている。 そこで本研究では,生物学的エンティティベースのグラフ処理と,病理学者が容易に説明できるグラフ説明器を採用することで,この問題に対処した。 この文脈では、特に標準化された量化可能な方法で意味のある説明者を見分けることが大きな課題となる。 そこで本研究では,病理学的に測定可能な概念を用いて,クラス分離可能性の統計に基づく新しい定量尺度を提案する。 提案手法は, 乳がんサブタイピングにおける細胞グラフ表現を説明するために, 3種類のグラフ説明器, すなわち, レイヤーワイド関連性伝播, 勾配ベース・サリエンシ, グラフプルーニングアプローチを評価するために用いられる。 提案手法はドメイン固有の直観的概念を用いて他のドメインにも適用可能である。 乳がんRoIsの大きなコホートであるBRACSデータセットの質的,定量的な所見を専門の病理医によって検証した。

Explainability of deep learning methods is imperative to facilitate their clinical adoption in digital pathology. However, popular deep learning methods and explainability techniques (explainers) based on pixel-wise processing disregard biological entities' notion, thus complicating comprehension by pathologists. In this work, we address this by adopting biological entity-based graph processing and graph explainers enabling explanations accessible to pathologists. In this context, a major challenge becomes to discern meaningful explainers, particularly in a standardized and quantifiable fashion. To this end, we propose herein a set of novel quantitative metrics based on statistics of class separability using pathologically measurable concepts to characterize graph explainers. We employ the proposed metrics to evaluate three types of graph explainers, namely the layer-wise relevance propagation, gradient-based saliency, and graph pruning approaches, to explain Cell-Graph representations for Breast Cancer Subtyping. The proposed metrics are also applicable in other domains by using domain-specific intuitive concepts. We validate the qualitative and quantitative findings on the BRACS dataset, a large cohort of breast cancer RoIs, by expert pathologists.
翻訳日:2022-09-21 03:04:43 公開日:2021-05-14
# X線画像からのリアルタイムCOVID19診断のためのハイブリッドシンコサインとエクストリーム学習マシンによる深部畳み込みニューラルネットワークの進化

Evolving Deep Convolutional Neural Network by Hybrid Sine-Cosine and Extreme Learning Machine for Real-time COVID19 Diagnosis from X-Ray Images ( http://arxiv.org/abs/2105.14192v1 )

ライセンス: Link先を確認
Wu Chao, Mohammad Khishe, Mokhtar Mohammadi, Sarkhel H. Taher Karim, Tarik A. Rashid(参考訳) 世界的なcovid-19パンデミックは、多くのコミュニティの生活と健康に大きな影響を与えている。 感染した患者の早期発見は、COVID19と戦うのに有効である。 放射線画像(X線画像)は、おそらく患者を診断する最速の方法である。 これにより、深層畳み込みニューラルネットワーク(cnns)は、covid-19陽性症例の診断に応用できると考えられる。 深層CNNの複雑なアーキテクチャのため、リアルタイムのトレーニングとテストは難しい問題となっている。 本稿では,最後の完全接続層ではなく,ELM(Extreme Learning Machine)を用いることを提案する。 しかし、EMMの教師付きセクションのパラメータの確率的チューニングは最終的なモデルの信頼性を損なう。 したがって、この問題に対処し、ネットワーク信頼性を維持するために、sine-cosineアルゴリズムを用いてelmのパラメータをチューニングした。 設計されたネットワークはcovid-19-xray-5kデータセット上でベンチマークされ、結果はcanonical deep cnn、cuckoo searchにより最適化されたelm、genetic algorithmによって最適化されたelm、h whale optimizationアルゴリズムによって最適化されたelmによって検証される。 提案手法は、COVID-Xray-5kデータセットで98.83%の最終的な精度で比較ベンチマークを上回り、正準深度CNNと比較して相対誤差が2.33%減少した。 さらに重要なのは、ネットワークのトレーニング時間は0.0421ミリ秒であり、3100画像の全体的な検出テスト時間は2.721秒である。

The COVID19 pandemic globally and significantly has affected the life and health of many communities. The early detection of infected patients is effective in fighting COVID19. Using radiology (X-Ray) images is perhaps the fastest way to diagnose the patients. Thereby, deep Convolutional Neural Networks (CNNs) can be considered as applicable tools to diagnose COVID19 positive cases. Due to the complicated architecture of a deep CNN, its real-time training and testing become a challenging problem. This paper proposes using the Extreme Learning Machine (ELM) instead of the last fully connected layer to address this deficiency. However, the parameters' stochastic tuning of ELM's supervised section causes the final model unreliability. Therefore, to cope with this problem and maintain network reliability, the sine-cosine algorithm was utilized to tune the ELM's parameters. The designed network is then benchmarked on the COVID-Xray-5k dataset, and the results are verified by a comparative study with canonical deep CNN, ELM optimized by cuckoo search, ELM optimized by genetic algorithm, and ELM optimized by whale optimization algorithm. The proposed approach outperforms comparative benchmarks with a final accuracy of 98.83% on the COVID-Xray-5k dataset, leading to a relative error reduction of 2.33% compared to a canonical deep CNN. Even more critical, the designed network's training time is only 0.9421 milliseconds and the overall detection test time for 3100 images is 2.721 seconds.
翻訳日:2021-06-06 08:50:50 公開日:2021-05-14
# unleashing the tiger: 分割学習に対する推論攻撃

Unleashing the Tiger: Inference Attacks on Split Learning ( http://arxiv.org/abs/2012.02670v3 )

ライセンス: Link先を確認
Dario Pasquini, Giuseppe Ateniese and Massimo Bernaschi(参考訳) リソース消費を最小限に抑えてピークパフォーマンスを実現する新しい機械学習フレームワークであるSplit Learningのセキュリティについて検討する。 本稿では,クライアントのプライベートトレーニングセットの再構築を目的とした汎用攻撃戦略を導入することで,プロトコルの脆弱性を明らかにし,その固有のセキュリティを実証する。 より顕著に、悪意のあるサーバは分散モデルの学習プロセスを積極的にハイジャックし、クライアントのデータに対する推論攻撃を可能にする安全でない状態にすることができる。 攻撃の異なる適応を実装し、さまざまなデータセットでテストし、現実的な脅威シナリオ内でテストします。 我々の攻撃は、分割学習プロトコルのセキュリティ向上を目的とした、最近提案された防御手法を克服できることを示す。 最後に,前回考案したフェデレーション学習への攻撃を拡張することで,悪意のあるクライアントに対するプロトコルの不セキュリティを説明している。 結果を再現できるように、私たちはhttps://github.com/pasquini-dario/SplitNN_FSHA.comでコードを公開しました。

We investigate the security of Split Learning -- a novel collaborative machine learning framework that enables peak performance by requiring minimal resources consumption. In the present paper, we expose vulnerabilities of the protocol and demonstrate its inherent insecurity by introducing general attack strategies targeting the reconstruction of clients' private training sets. More prominently, we show that a malicious server can actively hijack the learning process of the distributed model and bring it into an insecure state that enables inference attacks on clients' data. We implement different adaptations of the attack and test them on various datasets as well as within realistic threat scenarios. We demonstrate that our attack is able to overcome recently proposed defensive techniques aimed at enhancing the security of the split learning protocol. Finally, we also illustrate the protocol's insecurity against malicious clients by extending previously devised attacks for Federated Learning. To make our results reproducible, we made our code available at https://github.com/pasquini-dario/SplitNN_FSHA.
翻訳日:2021-05-22 20:32:34 公開日:2021-05-14
# (参考訳) 深層学習を用いた画像キャプション生成の実証分析

Empirical Analysis of Image Caption Generation using Deep Learning ( http://arxiv.org/abs/2105.09906v1 )

ライセンス: CC BY 4.0
Aditya Bhattacharya, Eshwar Shamanna Girishekar, Padmakar Anil Deshpande(参考訳) 自動キャプションは、コンピュータビジョンと自然言語処理による作業の融合を含むディープラーニングの応用の1つであり、典型的にはエンコーダ-デコーダアーキテクチャを用いて実行される。 本稿では,ResNet101,DenseNet121,VGG19をベースとしたCNNエンコーダと,アテンションをベースとしたLSTMデコーダを探索するマルチモーダル画像キャプションネットワークの実装と実験を行った。 我々は,ビームサイズと事前学習語埋め込みの効果について検討し,ベースラインCNNエンコーダやRNNデコーダアーキテクチャと比較した。 目標は、BLEU、CIDEr、ROUGE、METEORなど、さまざまな評価指標を用いて、各アプローチのパフォーマンスを分析することである。 また,視覚注意マップ(vam)を用いて,生成キャプションの各単語の予測に最大寄与のある画像の一部をハイライトするモデル説明可能性についても検討した。

Automated image captioning is one of the applications of Deep Learning which involves fusion of work done in computer vision and natural language processing, and it is typically performed using Encoder-Decoder architectures. In this project, we have implemented and experimented with various flavors of multi-modal image captioning networks where ResNet101, DenseNet121 and VGG19 based CNN Encoders and Attention based LSTM Decoders were explored. We have studied the effect of beam size and the use of pretrained word embeddings and compared them to baseline CNN encoder and RNN decoder architecture. The goal is to analyze the performance of each approach using various evaluation metrics including BLEU, CIDEr, ROUGE and METEOR. We have also explored model explainability using Visual Attention Maps (VAM) to highlight parts of the images which has maximum contribution for predicting each word of the generated caption.
翻訳日:2021-05-22 02:06:00 公開日:2021-05-14
# 時間間隔解析と専門知識に基づく順序図を用いた強化量子質量関数

Fortified quantum mass function utilizing ordinal pictorial check based on time interval analysis and expertise ( http://arxiv.org/abs/2105.08781v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 情報管理は、全く新しい時代、量子時代に入った。 しかし、真に有用な量子情報を抽出し、直感的で意思決定が容易な形式に移すのに十分な理論が欠けている。 したがって、質量関数の量子モデルに基づいて、得られた判定が十分高い精度を維持するために、要塞化された二重チェックシステムを提案する。 また、実生活の状況を考慮すると、すべては観測可能な時間間隔で行われ、その後、時間間隔の概念がチェックシステムのフレームに導入される。 提案手法は,不確実な量子情報の処理に非常に有用である。 また,提案手法の合理性と正当性を検証するための応用も提案されている。

Information management has enter a completely new era, quantum era. However, there exists a lack of sufficient theory to extract truly useful quantum information and transfer it to a form which is intuitive and straightforward for decision making. Therefore, based on the quantum model of mass function, a fortified dual check system is proposed to ensure the judgment generated retains enough high accuracy. Moreover, considering the situations in real life, everything takes place in an observable time interval, then the concept of time interval is introduced into the frame of the check system. The proposed model is very helpful in disposing uncertain quantum information in this paper. And some applications are provided to verify the rationality and correctness of the proposed method.
翻訳日:2021-05-20 18:30:53 公開日:2021-05-14
# 長期文書から可変深度論理文書階層を抽出する:方法,評価,応用

Extracting Variable-Depth Logical Document Hierarchy from Long Documents: Method, Evaluation, and Application ( http://arxiv.org/abs/2105.09297v1 )

ライセンス: Link先を確認
Rongyu Cao and Yixuan Cao and Ganbin Zhou and Ping Luo(参考訳) 本稿では,長文から可変深度「論理文書階層」を抽出する問題,すなわち,認識された「物理文書オブジェクト」を階層構造に整理する問題について検討する。 論理文書階層の発見は多くの下流アプリケーションをサポートするための重要なステップである。 しかし、数百から数千ページのページと可変深度階層を含む長いドキュメントは、既存の手法に挑戦する。 これらの課題に対処するため,Hyerarchy extract from Long Document (HELD) というフレームワークを開発し,各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。 各可能な位置が正しいか否かを決定することは二項分類問題として定式化することができる。 提案手法の有効性と効率性をさらに向上するため,挿入位置のトラバース順序,明示的にあるいは暗黙的に抽出する方向,先行ステップでの挿入誤りに対する耐性などを含むHELDの設計変異について検討した。 中国語、英語の金融市場、英語の科学出版物からの数千の長い文書に基づく実証実験では、中国金融、英語の金融、arxivのデータセットにおいて、有効性と効率のトレードオフを達成するには「ルート・トゥ・リーフ」のトラバース順序と明示的な見出し抽出が最適であることが示された。 最後に,論理文書階層を用いて下流通路検索タスクの性能を大幅に向上できることを示す。 まとめると、我々はこの課題を手法、評価、応用の観点から体系的に研究する。

In this paper, we study the problem of extracting variable-depth "logical document hierarchy" from long documents, namely organizing the recognized "physical document objects" into hierarchical structures. The discovery of logical document hierarchy is the vital step to support many downstream applications. However, long documents, containing hundreds or even thousands of pages and variable-depth hierarchy, challenge the existing methods. To address these challenges, we develop a framework, namely Hierarchy Extraction from Long Document (HELD), where we "sequentially" insert each physical object at the proper on of the current tree. Determining whether each possible position is proper or not can be formulated as a binary classification problem. To further improve its effectiveness and efficiency, we study the design variants in HELD, including traversal orders of the insertion positions, heading extraction explicitly or implicitly, tolerance to insertion errors in predecessor steps, and so on. The empirical experiments based on thousands of long documents from Chinese, English financial market and English scientific publication show that the HELD model with the "root-to-leaf" traversal order and explicit heading extraction is the best choice to achieve the tradeoff between effectiveness and efficiency with the accuracy of 0.9726, 0.7291 and 0.9578 in Chinese financial, English financial and arXiv datasets, respectively. Finally, we show that logical document hierarchy can be employed to significantly improve the performance of the downstream passage retrieval task. In summary, we conduct a systematic study on this task in terms of methods, evaluations, and applications.
翻訳日:2021-05-20 18:30:42 公開日:2021-05-14
# (参考訳) 異種システムのための分割アクティブラーニング

Partitioned Active Learning for Heterogeneous Systems ( http://arxiv.org/abs/2105.08547v1 )

ライセンス: CC BY 4.0
Cheolhei Lee, Kaiwen Wang, Jianguo Wu, Wenjun Cai, and Xiaowei Yue(参考訳) コスト効率が高く、高精度なサロゲートモデリングは、自動化された産業および工学システムの基盤である。 ガウス過程(GP)に結合したアクティブラーニングは複雑なシステムの要求に欠かせないツールであるが、基礎となるシステムにおける不均一性の存在はモデリングプロセスに悪影響を及ぼす可能性がある。 そこで本研究では,pgp(partmented gp)モデルに基づく分断アクティブラーニング戦略を提案する。 当社の戦略は,pgpモデリングの最も有用な設計ポイントを,体系的に2ステップで求める。 グローバル探索方式は, 最も不確定な設計空間を調査し, アクティブラーニングの探索を加速し, ローカルgpモデルによって引き起こされるアクティブラーニング基準を活用している。 また,能動学習の計算コストを軽減するため,提案手法に大量の候補を組み込むことが可能な数値的な対策も提供する。 提案法を数値シミュレーションに適用し, 費用対効果の高い自動胴体形状制御システム (i) と, トライボコロージョン耐性合金の最適設計システム (ii) にサーロゲートモデルが組み込まれるような不均質性を有する実世界の場合に適用した。 その結果,本手法はベンチマーク手法よりも優れていることがわかった。

Cost-effective and high-precision surrogate modeling is a cornerstone of automated industrial and engineering systems. Active learning coupled with Gaussian process (GP) surrogate modeling is an indispensable tool for demanding and complex systems, while the existence of heterogeneity in underlying systems may adversely affect the modeling process. In order to improve the learning efficiency under the regime, we propose the partitioned active learning strategy established upon partitioned GP (PGP) modeling. Our strategy seeks the most informative design point for PGP modeling systematically in twosteps. The global searching scheme accelerates the exploration aspect of active learning by investigating the most uncertain design space, and the local searching exploits the active learning criterion induced by the local GP model. We also provide numerical remedies to alleviate the computational cost of active learning, thereby allowing the proposed method to incorporate a large amount of candidates. The proposed method is applied to numerical simulation and real world cases endowed with heterogeneities in which surrogate models are constructed to embed in (i) the cost-efficient automatic fuselage shape control system; and (ii) the optimal design system of tribocorrosion-resistant alloys. The results show that our approach outperforms benchmark methods.
翻訳日:2021-05-20 06:47:22 公開日:2021-05-14
# (参考訳) COVID-19臨床データの分析と解釈のための因果学習フレームワーク

A causal learning framework for the analysis and interpretation of COVID-19 clinical data ( http://arxiv.org/abs/2105.06998v1 )

ライセンス: CC BY-SA 4.0
Elisa Ferrari, Luna Gargani, Greta Barbieri, Lorenzo Ghiadoni, Francesco Faita, Davide Bacciu(参考訳) 本稿では,ベイズ構造学習(bayesian structure learning, bsl)に基づく臨床データ解析のワークフローを提案する。これは,ノイズやバイアスに頑健な教師なし学習アプローチであり,事前の医学的知識を学習プロセスに組み込むことができ,分析された特徴間の因果関係を示すグラフ形式で説明可能な結果を提供する。 このワークフローは、BSLによる患者の結果の主な原因の特定から、BDT(Binary Decision Tree)に基づいた臨床実践に適したツールの実現に至るまでの多段階のアプローチで構成され、病院入所時に既に利用可能な情報で高リスクの患者を認識する。 特徴量の多いCOVID-19データセットに対する我々のアプローチを評価し、提案フレームワークが結果に共同貢献する多要素プロセスのスキーマ的概要を提供することを示す。 本研究は、現在の新型コロナウイルスの病因の理解によって、これらの計算結果がどのように確認されるかについて論じる。 さらに, 年齢, 慢性閉塞性肺疾患の既往歴, 入院時のpao2/fio2比の3つの特徴から, 対象者の85%の結果を正確に予測できるツールが提案されている。 4つの血液検査(クレアチニン、グルコース、po2、ナトリウム)から追加情報を含めると、予測精度は94.5%に上昇する。

We present a workflow for clinical data analysis that relies on Bayesian Structure Learning (BSL), an unsupervised learning approach, robust to noise and biases, that allows to incorporate prior medical knowledge into the learning process and that provides explainable results in the form of a graph showing the causal connections among the analyzed features. The workflow consists in a multi-step approach that goes from identifying the main causes of patient's outcome through BSL, to the realization of a tool suitable for clinical practice, based on a Binary Decision Tree (BDT), to recognize patients at high-risk with information available already at hospital admission time. We evaluate our approach on a feature-rich COVID-19 dataset, showing that the proposed framework provides a schematic overview of the multi-factorial processes that jointly contribute to the outcome. We discuss how these computational findings are confirmed by current understanding of the COVID-19 pathogenesis. Further, our approach yields to a highly interpretable tool correctly predicting the outcome of 85% of subjects based exclusively on 3 features: age, a previous history of chronic obstructive pulmonary disease and the PaO2/FiO2 ratio at the time of arrival to the hospital. The inclusion of additional information from 4 routine blood tests (Creatinine, Glucose, pO2 and Sodium) increases predictive accuracy to 94.5%.
翻訳日:2021-05-20 06:28:50 公開日:2021-05-14
# (参考訳) SMURF:フルイメージ・ワープによる自己学習型マルチフレーム教師なしRAFT

SMURF: Self-Teaching Multi-Frame Unsupervised RAFT with Full-Image Warping ( http://arxiv.org/abs/2105.07014v1 )

ライセンス: CC BY 4.0
Austin Stone, Daniel Maurer, Alper Ayvaci, Anelia Angelova, Rico Jonschkowski(参考訳) そこで,本研究では,全ベンチマークの精度を3,6\%$から$40\%$(先行最良手法であるuflowより)向上させ,pwc-net や flownet2 のような教師なし手法よりも優れる光フローの教師なし学習法である smurf を提案する。 提案手法は, 教師付き光流, すなわち, アーキテクチャの改善を統合する。 RAFTモデルは、シーケンス対応の自己超越損失、フレーム外動作を処理する技術、そして、推論に2フレームしか必要とせず、マルチフレームのビデオデータから効果的に学習するためのアプローチを含む、教師なし学習のための新しいアイデアを備える。

We present SMURF, a method for unsupervised learning of optical flow that improves state of the art on all benchmarks by $36\%$ to $40\%$ (over the prior best method UFlow) and even outperforms several supervised approaches such as PWC-Net and FlowNet2. Our method integrates architecture improvements from supervised optical flow, i.e. the RAFT model, with new ideas for unsupervised learning that include a sequence-aware self-supervision loss, a technique for handling out-of-frame motion, and an approach for learning effectively from multi-frame video data while still only requiring two frames for inference.
翻訳日:2021-05-20 06:13:33 公開日:2021-05-14
# (参考訳) 放射線治療における自動逆計画法へのハイパーパラメータチューニング手法の適用性の検討

A feasibility study of a hyperparameter tuning approach to automated inverse planning in radiotherapy ( http://arxiv.org/abs/2105.07024v1 )

ライセンス: CC BY 4.0
Kelsey Maass and Aleksandr Aravkin and Minsun Kim(参考訳) 放射線治療の逆計画には、治療計画立案者が目的関数の複数のパラメータを変更して臨床的に許容される計画を作成する必要がある。 このプロセスにおける手動のステップのため、プランクオリティは利用可能な計画時間とプランナーのスキルによって大きく異なる。 本研究の目的は,計画品質を維持しつつ,能動的計画時間を短縮する逆計画プロセスを自動化することである。 本稿では,各臓器リスク(oar)目標の限界線量パラメータと重量について,治療計画の有用性を最大化する,自動逆計画のためのハイパーパラメータチューニング手法を提案する。 6例の患者を用いて, 線量パラメータ, ランダムおよびベイズ探索法, 実用機能形態の選択が計画時間および計画品質に及ぼす影響を検討した。 与えられたパラメータに対して、計画はRayStationで最適化され、スクリプティングインターフェイスを使用して配布可能な線量分布を得る。 私たちは、同じ対象範囲を持つすべての計画の標準化を行い、自動生成した計画のオール線量メトリクスと手作業で生成された臨床計画のそれとを比較した。 100個のサンプルを用いて良好な計画品質が得られ、平均計画時間は2.3時間であった。 自動生成計画におけるOAR投与量は、臨床計画よりも76.8%低かった。 oarの投与量が臨床計画より大きい場合、限界線量よりも0.57%以上98.9%以下であり、臨床上許容であることを示している。 難しいケースでは、次元削減戦略が92.9%高いユーティリティを生み出し、元の問題を最適化するのに必要な時間の38.5%しかかからなかった。 本研究は,自動逆計画のためのハイパーパラメータチューニングフレームワークが,手作業で生成した計画と類似あるいは良好な計画品質で,治療プランナーの計画時間を著しく短縮できることを実証する。

Radiotherapy inverse planning requires treatment planners to modify multiple parameters in the objective function to produce clinically acceptable plans. Due to manual steps in this process, plan quality can vary widely depending on planning time available and planner's skills. The purpose of this study is to automate the inverse planning process to reduce active planning time while maintaining plan quality. We propose a hyperparameter tuning approach for automated inverse planning, where a treatment plan utility is maximized with respect to the limit dose parameters and weights of each organ-at-risk (OAR) objective. Using 6 patient cases, we investigated the impact of the choice of dose parameters, random and Bayesian search methods, and utility function form on planning time and plan quality. For given parameters, the plan was optimized in RayStation, using the scripting interface to obtain the dose distributions deliverable. We normalized all plans to have the same target coverage and compared the OAR dose metrics in the automatically generated plans with those in the manually generated clinical plans. Using 100 samples was found to produce satisfactory plan quality, and the average planning time was 2.3 hours. The OAR doses in the automatically generated plans were lower than the clinical plans by up to 76.8%. When the OAR doses were larger than the clinical plans, they were still between 0.57% above and 98.9% below the limit doses, indicating they are clinically acceptable. For a challenging case, a dimensionality reduction strategy produced a 92.9% higher utility using only 38.5% of the time needed to optimize over the original problem. This study demonstrates our hyperparameter tuning framework for automated inverse planning can significantly reduce the treatment planner's planning time with plan quality that is similar to or better than manually generated plans.
翻訳日:2021-05-20 05:59:39 公開日:2021-05-14
# (参考訳) 確率的スケジューリング・割当・在庫補充問題に対するモノトン近似動的プログラミング手法:ドローンおよび電気自動車バッテリースワップステーションへの適用

A Monotone Approximate Dynamic Programming Approach for the Stochastic Scheduling, Allocation, and Inventory Replenishment Problem: Applications to Drone and Electric Vehicle Battery Swap Stations ( http://arxiv.org/abs/2105.07026v1 )

ライセンス: CC BY 4.0
Amin Asadi, Sarah Nurre Pinkley(参考訳) 電気自動車(EV)やドローンを多くの用途に利用することへの関心が高まっている。 しかし、範囲の不安やバッテリー劣化など、バッテリー指向の問題が採用を妨げる。 バッテリー交換ステーションは、全電池の交換を数分で行えるという懸念を軽減する代替手段のひとつだ。 我々は,スワップ需要の不確定な到来,バッテリー劣化,交換を考慮した場合,バッテリー交換ステーションでの動作を導出する問題を考える。 本研究では, 電池交換ステーションの動作を有限地平面マルコフ決定プロセスモデルを用いてモデル化し, 電池の充電, 排出, 交換回数を決定する確率的スケジューリング, 割り当て, 在庫補充問題 (SAIRP) について検討する。 特殊SAIRP症例に対する最適政策における値関数の単調性と単調構造に関する理論的証明を提案する。 次元の呪いのため、回帰を用いた値関数近似をインテリジェントに初期化する新しい単調近似動的プログラミング(ADP)法を開発した。 計算実験では,新しい回帰型単調ADP法と,他の単調ADP法と比較して優れた性能を示す。 さらに,テストにより,ドローンスワップステーションの政策洞察を導出する。

There is a growing interest in using electric vehicles (EVs) and drones for many applications. However, battery-oriented issues, including range anxiety and battery degradation, impede adoption. Battery swap stations are one alternative to reduce these concerns that allow the swap of depleted for full batteries in minutes. We consider the problem of deriving actions at a battery swap station when explicitly considering the uncertain arrival of swap demand, battery degradation, and replacement. We model the operations at a battery swap station using a finite horizon Markov Decision Process model for the stochastic scheduling, allocation, and inventory replenishment problem (SAIRP), which determines when and how many batteries are charged, discharged, and replaced over time. We present theoretical proofs for the monotonicity of the value function and monotone structure of an optimal policy for special SAIRP cases. Due to the curses of dimensionality, we develop a new monotone approximate dynamic programming (ADP) method, which intelligently initializes a value function approximation using regression. In computational tests, we demonstrate the superior performance of the new regression-based monotone ADP method as compared to exact methods and other monotone ADP methods. Further, with the tests, we deduce policy insights for drone swap stations.
翻訳日:2021-05-20 05:38:26 公開日:2021-05-14
# (参考訳) 深層顔認識のためのキューとしての顔属性

Face Attributes as Cues for Deep Face Recognition Understanding ( http://arxiv.org/abs/2105.07054v1 )

ライセンス: CC BY 4.0
Matheus Alves Diniz and William Robson Schwartz(参考訳) 深い学習を受けた表現は、顔認識手法の最先端の記述子である。 これらの表現は説明が難しい潜在特徴をエンコードし、その予測の信頼性と解釈可能性に妥協する。 深い特徴を説明するほとんどの試みは、しばしば解釈に開放される可視化技術である。 可視化のみに頼るのではなく、隠れたレイヤの出力を使って顔属性を予測します。 得られた性能は、その属性がネットワークのその層で暗黙的に学習されるかを示す指標である。 可変選択手法を用いて,これらの意味概念が各層内でどのように分布するかを分析し,各属性の関連ニューロンの正確な位置を確立する。 実験によると、各属性の予測に1つの神経出力のみを使用していても、性別、眼鏡、帽子の使用量を96%以上精度で予測できる。 これらのパフォーマンスは、deep supervised face attribute networkが達成したパフォーマンスよりも3ポイント低い。 本実験により, 顔の識別に最適化されたDCNNの内部には, 顔属性をコードする潜在ニューロンが存在することがわかった。

Deeply learned representations are the state-of-the-art descriptors for face recognition methods. These representations encode latent features that are difficult to explain, compromising the confidence and interpretability of their predictions. Most attempts to explain deep features are visualization techniques that are often open to interpretation. Instead of relying only on visualizations, we use the outputs of hidden layers to predict face attributes. The obtained performance is an indicator of how well the attribute is implicitly learned in that layer of the network. Using a variable selection technique, we also analyze how these semantic concepts are distributed inside each layer, establishing the precise location of relevant neurons for each attribute. According to our experiments, gender, eyeglasses and hat usage can be predicted with over 96% accuracy even when only a single neural output is used to predict each attribute. These performances are less than 3 percentage points lower than the ones achieved by deep supervised face attribute networks. In summary, our experiments show that, inside DCNNs optimized for face identification, there exists latent neurons encoding face attributes almost as accurately as DCNNs optimized for these attributes.
翻訳日:2021-05-20 05:37:02 公開日:2021-05-14
# (参考訳) 視覚的類似:深層学習と構成モデル

Visual analogy: Deep learning versus compositional models ( http://arxiv.org/abs/2105.07065v1 )

ライセンス: CC BY 4.0
Nicholas Ichien, Qing Liu, Shuhao Fu, Keith J. Holyoak, Alan Yuille, Hongjing Lu(参考訳) アナログ推論は、膨大な数の推論問題にディープラーニングモデルを適用することで、スクラッチから解くために学ばなければならないタスクなのだろうか? あるいは、アナログの構造表現間の類似性を計算することで、類似は解決されるのか? 本研究では, 慣れ親しんだ3次元物体(車とそのサブリージョン)の画像から生成した視覚的類似物に対する人間のパフォーマンスと, 代替計算モデルの性能を比較した。 人間の推論者は、すべての問題タイプにおいて上述の精度を達成したが、いくつかの条件(例えば、関連する部分領域がオクルードされたとき)でより多くの誤りを犯した。 これらのアナロジー問題を解決するために直接訓練された2つのディープラーニングモデル(siamese networkとrelational network)と、部分ベースの表現間の関係的類似性を評価する構成モデルの比較を行った。 部分表現に基づく合成モデルは、深層学習モデルではなく、人間の推論と類似した質的な性能を生んだ。

Is analogical reasoning a task that must be learned to solve from scratch by applying deep learning models to massive numbers of reasoning problems? Or are analogies solved by computing similarities between structured representations of analogs? We address this question by comparing human performance on visual analogies created using images of familiar three-dimensional objects (cars and their subregions) with the performance of alternative computational models. Human reasoners achieved above-chance accuracy for all problem types, but made more errors in several conditions (e.g., when relevant subregions were occluded). We compared human performance to that of two recent deep learning models (Siamese Network and Relation Network) directly trained to solve these analogy problems, as well as to that of a compositional model that assesses relational similarity between part-based representations. The compositional model based on part representations, but not the deep learning models, generated qualitative performance similar to that of human reasoners.
翻訳日:2021-05-20 05:27:20 公開日:2021-05-14
# (参考訳) ニューラルネットワークの高速・低透過性フィンガープリント

High-Robustness, Low-Transferability Fingerprinting of Neural Networks ( http://arxiv.org/abs/2105.07078v1 )

ライセンス: CC BY 4.0
Siyue Wang, Xiao Wang, Pin-Yu Chen, Pu Zhao and Xue Lin(参考訳) 本稿では,モデルプルーニングに対するベースモデルに対する高いロバスト性と,非関連モデルへの低移動性を特徴とする,ディープニューラルネットワークを効果的にフィンガープリントする特徴的例を提案する。 これは、現実的な指紋を生成するために堅牢性と転送可能性の両方を考慮に入れる最初の仕事であり、現在の方法は実用的な仮定を欠き、大きな偽陽性率を引き起こす可能性がある。 そこで本研究では,ロバスト性と伝達性とのトレードオフを改善するために,バニラc例,rc例,ltrc例の3種類の特徴例を提案し,元のベースモデルから指紋を導出する。 そこで本研究では,ロバスト性と伝達性とのトレードオフを適切に特徴付けるために,ロバスト性と伝達性の違いを測定する総合指標である一意性スコアを提案する。

This paper proposes Characteristic Examples for effectively fingerprinting deep neural networks, featuring high-robustness to the base model against model pruning as well as low-transferability to unassociated models. This is the first work taking both robustness and transferability into consideration for generating realistic fingerprints, whereas current methods lack practical assumptions and may incur large false positive rates. To achieve better trade-off between robustness and transferability, we propose three kinds of characteristic examples: vanilla C-examples, RC-examples, and LTRC-example, to derive fingerprints from the original base model. To fairly characterize the trade-off between robustness and transferability, we propose Uniqueness Score, a comprehensive metric that measures the difference between robustness and transferability, which also serves as an indicator to the false alarm problem.
翻訳日:2021-05-20 05:15:15 公開日:2021-05-14
# 結合データメッセージはpoissonプロセスとして振る舞う

Conjunction Data Messages behave as a Poisson Process ( http://arxiv.org/abs/2105.08509v1 )

ライセンス: Link先を確認
Francisco Caldas, Claudia Soares, Cl\'audia Nunes, Marta Guimar\~aes, Mariana Filipe, Rodrigo Ventura(参考訳) 宇宙デブリは宇宙探査において大きな問題である。 国際機関は、軌道上のオブジェクトの大規模なデータベースを継続的に監視し、結合データメッセージ形式で警告を発する。 衛星オペレーターにとって重要な問題は、新しい情報がいつ到着するかを見積もることである。 メッセージ到着プロセスの統計的学習モデルを提案し、(1)次の指定された時間間隔に新しいメッセージが存在するかという2つの重要な質問に答える。 (2) 次のメッセージがいつ、いつ、いつ、どのように不確実になるのか? ベイジアン・ポアソン過程モデルの質問(2)の平均予測誤差は,50kの近接遭遇事象のテストセットにおいて,3時間以上でベースラインよりも小さい。

Space debris is a major problem in space exploration. International bodies continuously monitor a large database of orbiting objects and emit warnings in the form of conjunction data messages. An important question for satellite operators is to estimate when fresh information will arrive so that they can react timely but sparingly with satellite maneuvers. We propose a statistical learning model of the message arrival process, allowing us to answer two important questions: (1) Will there be any new message in the next specified time interval? (2) When exactly and with what uncertainty will the next message arrive? The average prediction error for question (2) of our Bayesian Poisson process model is smaller than the baseline in more than 3 hours in a test set of 50k close encounter events.
翻訳日:2021-05-19 13:51:16 公開日:2021-05-14
# 医用画像分類のためのプライバシー保護領域一般化

Privacy-Preserving Constrained Domain Generalization for Medical Image Classification ( http://arxiv.org/abs/2105.08511v1 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Yufei Wang, Shiqi Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像応用において前例のない成功を収めている。 しかし、データセットの可用性の制限や患者のプライバシ保護の厳格な法的・倫理的要件により、大規模なトレーニングデータを用いたDNNによる医用画像分類の幅広い適用が妨げられている。 例えば、あるドメイン(例えば、ある病院からのデータのみ)からDNNを訓練する場合、他のドメイン(例えば、別の病院からのデータ)への一般化能力はほとんど欠落している。 本稿では,プライバシ保護制約付きドメイン一般化手法を開発し,プライバシ保護条件下での一般化能力の向上を目指す。 特に,集中型サーバ側における情報集約プロセスを改善することを提案し,トレーニングされたモデルが"見えない"が関連する医療画像に対してより一般化できることを期待する。 提案手法の理論的および有効性は,提案手法を分布距離測定として広く採用されている最大平均離散性(MMD)と結合することによって説明できる。 2つの難解な医用画像分類タスクの実験結果は,最先端のフェデレーション学習法と比較して,クロスドメイン一般化能力が向上することを示した。

Deep neural networks (DNN) have demonstrated unprecedented success for medical imaging applications. However, due to the issue of limited dataset availability and the strict legal and ethical requirements for patient privacy protection, the broad applications of medical imaging classification driven by DNN with large-scale training data have been largely hindered. For example, when training the DNN from one domain (e.g., with data only from one hospital), the generalization capability to another domain (e.g., data from another hospital) could be largely lacking. In this paper, we aim to tackle this problem by developing the privacy-preserving constrained domain generalization method, aiming to improve the generalization capability under the privacy-preserving condition. In particular, We propose to improve the information aggregation process on the centralized server-side with a novel gradient alignment loss, expecting that the trained model can be better generalized to the "unseen" but related medical images. The rationale and effectiveness of our proposed method can be explained by connecting our proposed method with the Maximum Mean Discrepancy (MMD) which has been widely adopted as the distribution distance measurement. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared to the state-of-the-art federated learning methods.
翻訳日:2021-05-19 13:48:54 公開日:2021-05-14
# 非IIDデータのフェデレーション学習における高速収束に向けたノード選択

Node Selection Toward Faster Convergence for Federated Learning on Non-IID Data ( http://arxiv.org/abs/2105.07066v1 )

ライセンス: Link先を確認
Hongda Wu, Ping Wang(参考訳) Federated Learning(FL)は、大量のリソース制限されたノードがデータ共有なしで協調的にモデルをトレーニングできる分散学習パラダイムである。 非独立・同一分布(非i.d.) データサンプルはグローバルとローカルの目的の相違を生じさせ、FLモデルを収束が遅くする。 本稿では,各グローバルラウンドにおける各ノードの局所的更新の最適部分集合を,局所的勾配とグローバル的勾配の関係をチェックすることによって同定・排除することにより,より優れた集約のための最適集約アルゴリズムを提案する。 そこで我々は,最適集約の出力に基づいて選択される各ノードの確率を動的に変化させる確率的ノード選択フレームワーク(FedPNS)を提案する。 FedPNSはより高速なモデル収束を促進するノードを優先的に選択できる。 提案したFedPNS設計の非バイアス性を示し, 一般に採用されているFedAvgアルゴリズムに対するFedPNSの収束率改善を理論的に分析した。 実験結果は,ランダムノード選択のfedavgと比較して,fl収束速度を加速するfedpnの有効性を示す。

Federated Learning (FL) is a distributed learning paradigm that enables a large number of resource-limited nodes to collaboratively train a model without data sharing. The non-independent-and-identically-distributed (non-i.i.d.) data samples invoke discrepancy between global and local objectives, making the FL model slow to converge. In this paper, we proposed Optimal Aggregation algorithm for better aggregation, which finds out the optimal subset of local updates of participating nodes in each global round, by identifying and excluding the adverse local updates via checking the relationship between the local gradient and the global gradient. Then, we proposed a Probabilistic Node Selection framework (FedPNS) to dynamically change the probability for each node to be selected based on the output of Optimal Aggregation. FedPNS can preferentially select nodes that propel faster model convergence. The unbiasedness of the proposed FedPNS design is illustrated and the convergence rate improvement of FedPNS over the commonly adopted Federated Averaging (FedAvg) algorithm is analyzed theoretically. Experimental results demonstrate the effectiveness of FedPNS in accelerating the FL convergence rate, as compared to FedAvg with random node selection.
翻訳日:2021-05-18 15:06:34 公開日:2021-05-14
# ファウショットデータセット一般化のためのユニバーサルテンプレートの学習

Learning a Universal Template for Few-shot Dataset Generalization ( http://arxiv.org/abs/2105.07029v1 )

ライセンス: Link先を確認
Eleni Triantafillou, Hugo Larochelle, Richard Zemel and Vincent Dumoulin(参考訳) Few-shot データセットの一般化は、いくつかのデータセットの多様なトレーニングセットが与えられる、よく研究された数発の分類問題の難解な変種であり、いくつかの例だけで新しいデータセットからクラスを学習できる適応可能なモデルのトレーニングを目的としている。 そこで,本稿では,汎用テンプレートを構築するための多種多様なトレーニングセットを提案する。適切なコンポーネントをプラグインすることで,データセットに特化された幅広いモデルを定義できる部分モデルである。 新しい数発の分類問題に対して、我々の手法は普遍的なテンプレートに挿入する少数のパラメータを推測するだけでよい。 我々は,各タスクのパラメータの初期化を生成するネットワークを設計し,その初期化を勾配降下数ステップで微調整する。 提案手法は,従来の手法に比べてパラメータ効率が高く,スケーラブルで適応性が高く,難易度の高いメタデータセットベンチマークで最先端を実現する。

Few-shot dataset generalization is a challenging variant of the well-studied few-shot classification problem where a diverse training set of several datasets is given, for the purpose of training an adaptable model that can then learn classes from new datasets using only a few examples. To this end, we propose to utilize the diverse training set to construct a universal template: a partial model that can define a wide array of dataset-specialized models, by plugging in appropriate components. For each new few-shot classification problem, our approach therefore only requires inferring a small number of parameters to insert into the universal template. We design a separate network that produces an initialization of those parameters for each given task, and we then fine-tune its proposed initialization via a few steps of gradient descent. Our approach is more parameter-efficient, scalable and adaptable compared to previous methods, and achieves the state-of-the-art on the challenging Meta-Dataset benchmark.
翻訳日:2021-05-18 15:02:54 公開日:2021-05-14
# 医療における人-AI連携のためのグラフニューラルネットワークによる解釈可能な薬物相乗効果予測

Interpretable Drug Synergy Prediction with Graph Neural Networks for Human-AI Collaboration in Healthcare ( http://arxiv.org/abs/2105.07082v1 )

ライセンス: Link先を確認
Zehao Dong, Heming Zhang, Yixin Chen, Fuhai Li(参考訳) がん薬物併用療法の抵抗性または感受性の分子機構を誘導的かつ解釈可能な方法で検討する。 深層学習アルゴリズムは薬物シナジー予測問題において広く用いられているが、医療システムにおける人間とaiの協調のための謎めいたシナジー(mos)のメカニズムを調査するために生物学的意味を持つ予測モデルを定式化することは、まだ未解決の問題である。 これらの課題に対処するため,遺伝子と薬物の相互作用を予測するためのディープグラフニューラルネットワークIDSP(Interpretable Deep Signaling Pathways)を提案する。 idspは多層パーセプトロン(mlp)によって遺伝子と薬局の関係、すなわちシグナル相互作用に基づいてエッジの重みを自動的に学習し、誘導的な方法で情報を集約する。 提案アーキテクチャは、重要なシグナル伝達相互作用を検出して解釈可能な薬物相乗効果を予測し、基礎となる分子機構が未知の遺伝子やシグナル伝達経路に遭遇した場合に実装することができる。 我々は,NCI ALMANAC薬物併用スクリーニングデータから,46のコア癌シグナル伝達経路と薬物の組み合わせの遺伝子によって形成されるシグナルネットワーク上でIDWSPをテストする。 実験の結果,1) IDSPは分子機構から学習し,薬品情報の付加を伴わずに予測できること,2) IDSPは伝達タスクと誘導タスクの両方に相乗的予測タスクを実装するのに優れた汎用性と柔軟性を示すことがわかった。 3) idspは、異なるサルエント信号パターン(例えば)を検出することで、解釈可能な結果を生成することができる。 異なる細胞株に対するMoS。

We investigate molecular mechanisms of resistant or sensitive response of cancer drug combination therapies in an inductive and interpretable manner. Though deep learning algorithms are widely used in the drug synergy prediction problem, it is still an open problem to formulate the prediction model with biological meaning to investigate the mysterious mechanisms of synergy (MoS) for the human-AI collaboration in healthcare systems. To address the challenges, we propose a deep graph neural network, IDSP (Interpretable Deep Signaling Pathways), to incorporate the gene-gene as well as gene-drug regulatory relationships in synergic drug combination predictions. IDSP automatically learns weights of edges based on the gene and drug node relations, i.e., signaling interactions, by a multi-layer perceptron (MLP) and aggregates information in an inductive manner. The proposed architecture generates interpretable drug synergy prediction by detecting important signaling interactions, and can be implemented when the underlying molecular mechanism encounters unseen genes or signaling pathways. We test IDWSP on signaling networks formulated by genes from 46 core cancer signaling pathways and drug combinations from NCI ALMANAC drug combination screening data. The experimental results demonstrated that 1) IDSP can learn from the underlying molecular mechanism to make prediction without additional drug chemical information while achieving highly comparable performance with current state-of-art methods; 2) IDSP show superior generality and flexibility to implement the synergy prediction task on both transductive tasks and inductive tasks. 3) IDSP can generate interpretable results by detecting different salient signaling patterns (i.e. MoS) for different cell lines.
翻訳日:2021-05-18 14:59:59 公開日:2021-05-14
# 生成モデルを用いた画像ベースニューラルネットワーク制御器の検証

Verification of Image-based Neural Network Controllers Using Generative Models ( http://arxiv.org/abs/2105.07091v1 )

ライセンス: Link先を確認
Sydney M. Katz, Anthony L. Corso, Christopher A. Strong, Mykel J. Kochenderfer(参考訳) ニューラルネットワークは、画像ベースのセンサーから情報を処理して制御アクションを生成するためによく使用される。 このタスクには有効だが、ニューラルネットワークの複雑な性質により、その出力の検証と予測が難しくなり、安全クリティカルなシステムでの使用が制限される。 このため、最近の研究は、ニューラルネットワークコントローラのクローズドループ性能の保証を得るために、形式的手法と到達可能性分析のテクニックを組み合わせることに重点を置いている。 しかし、これらの手法は画像ベースニューラルネットワークコントローラの高次元かつ複雑な入力空間にスケールしない。 そこで本研究では,gan(generative adversarial network)を訓練し,適切な入力画像に対する状態のマッピングを行う手法を提案する。 生成ネットワークと制御ネットワークを結合することにより、低次元の入力空間を有するネットワークを得る。 この洞察により、既存のクローズドループ検証ツールを使用して、画像ベースコントローラの性能の正式な保証を得ることができる。 本手法は,自律航空機のタクシー問題に対して,画像ベースニューラルネットワークコントローラの安全性保証を行う。 我々は、管制官が機体を滑走路に保持し、機体を滑走路の中央に誘導することを保証する。 私たちが提供する保証は、ジェネレータネットワークでモデル化された入力画像の集合に関するものであるので、ジェネレータが妥当な画像の空間をいかにうまくキャプチャするかを評価するためのリコールメトリックを提供する。

Neural networks are often used to process information from image-based sensors to produce control actions. While they are effective for this task, the complex nature of neural networks makes their output difficult to verify and predict, limiting their use in safety-critical systems. For this reason, recent work has focused on combining techniques in formal methods and reachability analysis to obtain guarantees on the closed-loop performance of neural network controllers. However, these techniques do not scale to the high-dimensional and complicated input space of image-based neural network controllers. In this work, we propose a method to address these challenges by training a generative adversarial network (GAN) to map states to plausible input images. By concatenating the generator network with the control network, we obtain a network with a low-dimensional input space. This insight allows us to use existing closed-loop verification tools to obtain formal guarantees on the performance of image-based controllers. We apply our approach to provide safety guarantees for an image-based neural network controller for an autonomous aircraft taxi problem. We guarantee that the controller will keep the aircraft on the runway and guide the aircraft towards the center of the runway. The guarantees we provide are with respect to the set of input images modeled by our generator network, so we provide a recall metric to evaluate how well the generator captures the space of plausible images.
翻訳日:2021-05-18 14:59:30 公開日:2021-05-14
# 半教師付き容積画像分割のための運動量比較ボクセル回り表現学習

Momentum Contrastive Voxel-wise Representation Learning for Semi-supervised Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2105.07059v1 )

ライセンス: Link先を確認
Chenyu You, Ruihan Zhao, Lawrence Staib, James S. Duncan(参考訳) 医療画像分析におけるセグメンテーションの自動化は、大量の手動ラベル付きデータを必要とする課題である。 しかし、手動で医療データに注釈を付けることはしばしば困難であり、既存の学習ベースのアプローチのほとんどは、効果的な幾何学的制約なしにオブジェクトの境界を正確に記述することができない。 自己指導型学習のサブ領域であるコントラスト学習は、最近、複数のアプリケーション分野において有望な方向として注目されている。 本稿では,空間的制約を持つ新しい対比的voxel-wise representation learning (cvrl)法を提案する。 本フレームワークは,3次元空間コンテキストと豊富な解剖情報を取得することで,グローバル・ローカルな特徴を効果的に学習することができる。 具体的には,3次元画像からグローバルな情報を学習するためのVoxel-to-volumeコントラストアルゴリズムを導入し,ローカルなVoxel-to-voxelコントラストを実行することを提案する。 さらに,弾性的相互作用に基づく能動輪郭モデルを幾何学的正規化項として統合し,エンドツーエンドの学習方法で高速で信頼性の高いオブジェクト記述を可能にする。 Atrial Segmentation Challengeデータセットの結果は,提案手法の優位性を示すものである。

Automated segmentation in medical image analysis is a challenging task that requires a large amount of manually labeled data. However, manually annotating medical data is often laborious, and most existing learning-based approaches fail to accurately delineate object boundaries without effective geometric constraints. Contrastive learning, a sub-area of self-supervised learning, has recently been noted as a promising direction in multiple application fields. In this work, we present a novel Contrastive Voxel-wise Representation Learning (CVRL) method with geometric constraints to learn global-local visual representations for volumetric medical image segmentation with limited annotations. Our framework can effectively learn global and local features by capturing 3D spatial context and rich anatomical information. Specifically, we introduce a voxel-to-volume contrastive algorithm to learn global information from 3D images, and propose to perform local voxel-to-voxel contrast to explicitly make use of local cues in the embedding space. Moreover, we integrate an elastic interaction-based active contour model as a geometric regularization term to enable fast and reliable object delineations in an end-to-end learning manner. Results on the Atrial Segmentation Challenge dataset demonstrate superiority of our proposed scheme, especially in a setting with a very limited number of annotated data.
翻訳日:2021-05-18 14:57:07 公開日:2021-05-14
# MutualNet: 異なるモデル構成からの相互学習による適応型ConvNet

MutualNet: Adaptive ConvNet via Mutual Learning from Different Model Configurations ( http://arxiv.org/abs/2105.07085v1 )

ライセンス: Link先を確認
Taojiannan Yang, Sijie Zhu, Matias Mendieta, Pu Wang, Ravikumar Balakrishnan, Minwoo Lee, Tao Han, Mubarak Shah, Chen Chen(参考訳) 既存のディープニューラルネットワークのほとんどは静的であり、固定された複雑性で推論しかできない。 しかし、リソース予算はさまざまなデバイスで大きく異なります。 1台のデバイスでも、安価な予算は異なるシナリオで変更でき、必要な予算ごとに繰り返しネットワークをトレーニングすることは信じられないほどコストがかかるでしょう。 そこで本研究では,リソース制約の多様なセットで動作可能な単一ネットワークをトレーニングするための,MutualNetと呼ばれる汎用手法を提案する。 提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。 この相互学習スキームは、モデルが異なる幅分解能な構成で実行できるだけでなく、これらの構成の間でユニークな知識を伝達し、モデル全体がより強力な表現を学習するのに役立つ。 MutualNetは、様々なネットワーク構造(MobileNets, ResNet, 3D Network: SlowFast, X3D)や様々なタスク(画像分類、オブジェクト検出、セグメンテーション、アクション認識など)に適用可能な一般的なトレーニング手法であり、さまざまなデータセットで一貫した改善を実現するために実証されている。 モデルを一度だけトレーニングするので、複数のモデルを独立にトレーニングするよりも、トレーニングコストを大幅に削減できます。 驚くべきことに、動的リソース制約が懸念されない場合、MutualNetは単一のネットワークのパフォーマンスを大幅に向上するためにも使用できる。 要約すると、 mutualnet は静的および適応的、2dおよび3dネットワークの両方の統一的な方法である。 コードと事前訓練されたモデルは、 \url{https://github.com/taoyang1122/MutualNet}で入手できる。

Most existing deep neural networks are static, which means they can only do inference at a fixed complexity. But the resource budget can vary substantially across different devices. Even on a single device, the affordable budget can change with different scenarios, and repeatedly training networks for each required budget would be incredibly expensive. Therefore, in this work, we propose a general method called MutualNet to train a single network that can run at a diverse set of resource constraints. Our method trains a cohort of model configurations with various network widths and input resolutions. This mutual learning scheme not only allows the model to run at different width-resolution configurations but also transfers the unique knowledge among these configurations, helping the model to learn stronger representations overall. MutualNet is a general training methodology that can be applied to various network structures (e.g., 2D networks: MobileNets, ResNet, 3D networks: SlowFast, X3D) and various tasks (e.g., image classification, object detection, segmentation, and action recognition), and is demonstrated to achieve consistent improvements on a variety of datasets. Since we only train the model once, it also greatly reduces the training cost compared to independently training several models. Surprisingly, MutualNet can also be used to significantly boost the performance of a single network, if dynamic resource constraint is not a concern. In summary, MutualNet is a unified method for both static and adaptive, 2D and 3D networks. Codes and pre-trained models are available at \url{https://github.com/taoyang1122/MutualNet}.
翻訳日:2021-05-18 14:49:12 公開日:2021-05-14
# 原因と効果:概念に基づくニューラルネットワークの説明

Cause and Effect: Concept-based Explanation of Neural Networks ( http://arxiv.org/abs/2105.07033v1 )

ライセンス: Link先を確認
Mohammad Nokhbeh Zaeem and Majid Komeili(参考訳) 多くのシナリオでは、高いレベルの概念に基づいて人間の決定が説明されます。 本研究では,その内的表現や概念に対するニューロンの活性化を調べることで,ニューラルネットワークの解釈可能性の一歩を踏み出した。 概念は、特定の特徴が共通する一連のサンプルによって特徴づけられる。 概念(またはその否定)とタスククラスの間に因果関係が存在するかをチェックするフレームワークを提案する。 従来の手法では,タスククラスに対する概念の重要性を重視していたが,さらに4つの尺度を導入し,因果関係の順序を定量的に決定する。 実験を通じて,ニューラルネットワークの概念と予測行動の関係を説明する上で,提案手法の有効性を実証する。

In many scenarios, human decisions are explained based on some high-level concepts. In this work, we take a step in the interpretability of neural networks by examining their internal representation or neuron's activations against concepts. A concept is characterized by a set of samples that have specific features in common. We propose a framework to check the existence of a causal relationship between a concept (or its negation) and task classes. While the previous methods focus on the importance of a concept to a task class, we go further and introduce four measures to quantitatively determine the order of causality. Through experiments, we demonstrate the effectiveness of the proposed method in explaining the relationship between a concept and the predictive behaviour of a neural network.
翻訳日:2021-05-18 14:40:17 公開日:2021-05-14
# 状態遷移モデルに基づく特徴ベース解釈型強化学習

Feature-Based Interpretable Reinforcement Learning based on State-Transition Models ( http://arxiv.org/abs/2105.07099v1 )

ライセンス: Link先を確認
Omid Davoodi, Majid Komeili(参考訳) 現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの判断を人間に説明することへの関心が高まっている。 この点で強化学習は例外ではない。 本研究では,強化学習におけるリスクを局所的に説明するための手法を提案する。 我々の手法は状態遷移モデルを作成するためにエージェントと環境の間の以前の相互作用のログのみを必要とする。 連続的または離散的な状態とアクション空間を持つRL環境で動作するように設計されている。 モデルの作成後、任意のエージェントのアクションは、リスクの増加または減少に最も影響を及ぼす特徴や、エージェントの局所性において他の望ましい目的関数の観点から説明することができる。 実験を通じて,提案手法の有効性を実証する。

Growing concerns regarding the operational usage of AI models in the real-world has caused a surge of interest in explaining AI models' decisions to humans. Reinforcement Learning is not an exception in this regard. In this work, we propose a method for offering local explanations on risk in reinforcement learning. Our method only requires a log of previous interactions between the agent and the environment to create a state-transition model. It is designed to work on RL environments with either continuous or discrete state and action spaces. After creating the model, actions of any agent can be explained in terms of the features most influential in increasing or decreasing risk or any other desirable objective function in the locality of the agent. Through experiments, we demonstrate the effectiveness of the proposed method in providing such explanations.
翻訳日:2021-05-18 14:40:06 公開日:2021-05-14
# listen with intent: 音声から意図へのフロントエンドによる音声認識の改善

Listen with Intent: Improving Speech Recognition with Audio-to-Intent Front-End ( http://arxiv.org/abs/2105.07071v1 )

ライセンス: Link先を確認
Swayambhu Nath Ray, Minhua Wu, Anirudh Raju, Pegah Ghahremani, Raghavendra Bilgi, Milind Rao, Harish Arsikere, Ariya Rastrow, Andreas Stolcke, Jasha Droppo(参考訳) 発話の全体的な意図を補完することは、聴取者が個々の単語を認識するのに役立つ。 この事実に触発されて,recurrent neural network-transducer (rnn-t) に基づく自動音声認識 (asr) システムを改善するために,インテント表現を付加情報として明示的に組み込むことが与える影響について,新たな研究を行った。 audio-to-intent(a2i)モデルは、発話の意図を埋め込みまたは後方の形でエンコードし、これらはrnn-tトレーニングおよび推論の補助入力として使用される。 本研究は,50k時間遠距離英語音声コーパスを用いて,発話全体から意図表現を抽出し,最初からRNN-T検索をバイアスに用いた非ストリーミングモードでシステムを実行する場合,相対単語誤り率を5.56%削減することを示した。 一方、RNN-T ASRシステムの追加入力としてフレーム単位のインテント後部を用いるストリーミングシステムは、3.33%の相対WERRが得られる。 ストリーミングシステムのより詳細な分析により,提案手法がメディア再生関連意図(例)に特に有益であることを示す。 PlayMusicIntentのWERR比9.12%)。

Comprehending the overall intent of an utterance helps a listener recognize the individual words spoken. Inspired by this fact, we perform a novel study of the impact of explicitly incorporating intent representations as additional information to improve a recurrent neural network-transducer (RNN-T) based automatic speech recognition (ASR) system. An audio-to-intent (A2I) model encodes the intent of the utterance in the form of embeddings or posteriors, and these are used as auxiliary inputs for RNN-T training and inference. Experimenting with a 50k-hour far-field English speech corpus, this study shows that when running the system in non-streaming mode, where intent representation is extracted from the entire utterance and then used to bias streaming RNN-T search from the start, it provides a 5.56% relative word error rate reduction (WERR). On the other hand, a streaming system using per-frame intent posteriors as extra inputs for the RNN-T ASR system yields a 3.33% relative WERR. A further detailed analysis of the streaming system indicates that our proposed method brings especially good gain on media-playing related intents (e.g. 9.12% relative WERR on PlayMusicIntent).
翻訳日:2021-05-18 14:34:57 公開日:2021-05-14
# SA-GAN: 形状保存型合成CT生成のための構造認識型汎用ネットワーク

SA-GAN: Structure-Aware Generative Adversarial Network for Shape-Preserving Synthetic CT Generation ( http://arxiv.org/abs/2105.07044v1 )

ライセンス: Link先を確認
Hajar Emami, Ming Dong, Siamak Nejad-Davarani, and Carri Glide-Hurst(参考訳) 医用画像合成では、同一患者であっても異なるモダリティの画像間の不整合がモデルトレーニングの課題となり、通常、異なるモダリティが通常異なるタイミングで得られるため、内部状態や組織の変化によって引き起こされる。 本稿では,医用画像生成時の一貫性のない構造の形状と位置を保存できる,新しい深層学習手法である構造認識生成逆ネットワーク(sa-gan)を提案する。 SA-GANは、MRI(MRI)から合成CT(synCT)画像を生成するために用いられる:グローバルストリームはMRIからCT領域への入力を変換し、ローカルストリームは非一貫性の臓器を自動的に分割し、MRI内の位置と形状を維持し、臓器の強度をCTに変換する。 骨盤内データセットの広範な実験を通して,SA-GANはsynCTと臓器のセグメンテーションの両方に対して臨床的に許容できる精度を提供し,内臓器状態の変化を伴う疾患部位におけるMRのみの治療計画を支援することを実証した。

In medical image synthesis, model training could be challenging due to the inconsistencies between images of different modalities even with the same patient, typically caused by internal status/tissue changes as different modalities are usually obtained at a different time. This paper proposes a novel deep learning method, Structure-aware Generative Adversarial Network (SA-GAN), that preserves the shapes and locations of in-consistent structures when generating medical images. SA-GAN is employed to generate synthetic computed tomography (synCT) images from magnetic resonance imaging (MRI) with two parallel streams: the global stream translates the input from the MRI to the CT domain while the local stream automatically segments the inconsistent organs, maintains their locations and shapes in MRI, and translates the organ intensities to CT. Through extensive experiments on a pelvic dataset, we demonstrate that SA-GAN provides clinically acceptable accuracy on both synCTs and organ segmentation and supports MR-only treatment planning in disease sites with internal organ status changes.
翻訳日:2021-05-18 14:32:09 公開日:2021-05-14
# リニアプログラミングを用いたパーシステント・ホモロジーにおける最小サイクル代表者--ユーザガイドを用いた実証的研究

Minimal Cycle Representatives in Persistent Homology using Linear Programming: an Empirical Study with User's Guide ( http://arxiv.org/abs/2105.07025v1 )

ライセンス: Link先を確認
Lu Li, Connor Thompson, Gregory Henselman-Petrusek, Chad Giusti, Lori Ziegelmeier(参考訳) 永続ホモロジークラスのサイクル代表は、データのトポロジ的特徴の記述を提供するのに使うことができる。 しかし、これらの代表の非特異性は曖昧さを生み出し、同じクラスの集合の多くの異なる解釈をもたらす。 この問題を解決する1つのアプローチは、データのコンテキストにおいて意味のある指標に対して代表者の選択を最適化することである。 本研究では,一様重み付きおよび長さ重み付きエッジロスアルゴリズム,および一様重み付きおよび面積重み付き三角形ロスアルゴリズムを含む,一次元の有理係数を持つ連続ホモロジーのホモロジーサイクルベースを構築するための,幾つもの$\ell_1$-minimization最適化手順の有効性と計算コストについて検討する。 標準線形計画法を用いてこれらの最適化を行い、汎用解法を用いて単純境界行列の列ベースを最適化する。 Our key findings are: (i) optimization is effective in reducing the size of cycle representatives, (ii) the computational cost of optimizing a basis of cycle representatives exceeds the cost of computing such a basis in most data sets we consider, (iii) the choice of linear solvers matters a lot to the computation time of optimizing cycles, (iv) the computation time of solving an integer program is not significantly longer than the computation time of solving a linear program for most of the cycle representatives, using the Gurobi linear solver, (v) strikingly, whether requiring integer solutions or not, we almost always obtain a solution with the same cost and almost all solutions found have entries in {-1, 0, 1} and therefore, are also solutions to a restricted $\ell_0$ optimization problem, and (vi) we obtain qualitatively different results for generators in Erd\H{o}s-R\'enyi random clique complexes.

Cycle representatives of persistent homology classes can be used to provide descriptions of topological features in data. However, the non-uniqueness of these representatives creates ambiguity and can lead to many different interpretations of the same set of classes. One approach to solving this problem is to optimize the choice of representative against some measure that is meaningful in the context of the data. In this work, we provide a study of the effectiveness and computational cost of several $\ell_1$-minimization optimization procedures for constructing homological cycle bases for persistent homology with rational coefficients in dimension one, including uniform-weighted and length-weighted edge-loss algorithms as well as uniform-weighted and area-weighted triangle-loss algorithms. We conduct these optimizations via standard linear programming methods, applying general-purpose solvers to optimize over column bases of simplicial boundary matrices. Our key findings are: (i) optimization is effective in reducing the size of cycle representatives, (ii) the computational cost of optimizing a basis of cycle representatives exceeds the cost of computing such a basis in most data sets we consider, (iii) the choice of linear solvers matters a lot to the computation time of optimizing cycles, (iv) the computation time of solving an integer program is not significantly longer than the computation time of solving a linear program for most of the cycle representatives, using the Gurobi linear solver, (v) strikingly, whether requiring integer solutions or not, we almost always obtain a solution with the same cost and almost all solutions found have entries in {-1, 0, 1} and therefore, are also solutions to a restricted $\ell_0$ optimization problem, and (vi) we obtain qualitatively different results for generators in Erd\H{o}s-R\'enyi random clique complexes.
翻訳日:2021-05-18 14:28:32 公開日:2021-05-14
# 畳み込みニューラルネットワークを用いたマルチモデル中期降雨予測

Post-processing Multi-Model Medium-Term Precipitation Forecasts Using Convolutional Neural Networks ( http://arxiv.org/abs/2105.07043v1 )

ライセンス: Link先を確認
Bob de Ruiter(参考訳) 本研究の目的は,畳み込みニューラルネットワーク(CNN)を用いた降水予測の処理後の改善である。 気象後処理で機械学習を使用する場合のように、ピクセル単位の予測を後処理する代わりに、入力予測画像を組み合わせ、完全な畳み込みニューラルネットワークを用いて確率的出力予測画像に変換する。 CNNは正規化ロジスティック回帰を上回りませんでした。 また,アブレーション解析を行った。 グローバル低解像度気象モデルと地域高解像度気象モデルからの入力予測を組み合わせることで、どちらのモデルよりも性能が向上した。

The goal of this study was to improve the post-processing of precipitation forecasts using convolutional neural networks (CNNs). Instead of post-processing forecasts on a per-pixel basis, as is usually done when employing machine learning in meteorological post-processing, input forecast images were combined and transformed into probabilistic output forecast images using fully convolutional neural networks. CNNs did not outperform regularized logistic regression. Additionally, an ablation analysis was performed. Combining input forecasts from a global low-resolution weather model and a regional high-resolution weather model improved performance over either one.
翻訳日:2021-05-18 14:27:41 公開日:2021-05-14
# 複数のカルーセルを用いたレコメンデーションインタフェースにおけるユーザ満足度の測定

Measuring the User Satisfaction in a Recommendation Interface with Multiple Carousels ( http://arxiv.org/abs/2105.07062v1 )

ライセンス: Link先を確認
Nicol\`o Felicioni, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) ビデオオンデマンドおよび音楽ストリーミングサービスでは、いくつかのレコメンデーションリストからなるユーザーインターフェースを採用することが一般的である。 ウィジェットやスワイプ可能なカルーセルは、それぞれ特定の基準やアルゴリズム(例えば)に従って生成される。 最新の、最も人気のある、あなたのために推奨される、編集者の選択など)。 carouselの適切な組み合わせを選択することは、ユーザの満足度に大きな影響を与える。 このユーザインターフェースの重要な側面は、ユーザに対する新しいカルーセルの関連性を測定するために、個々の品質のみを考慮するだけでは不十分である点である。 代わりに、インターフェイスにすでに他のカルーセルが存在することを考慮すべきである。 これは、(i)他のカルーセルをユーザに表示するか、(ii)他のカルーセルに対するカルーセルの相対的な位置に関わらず、各カルーセルを分離して評価する従来のレコメンダシステムの評価プロトコルでは考慮されていない。 そこで本研究では,すでに利用可能なカルーセルの品質にどの程度改善するかに基づいて,推奨カルーセルの品質を測定するカルーセル設定の二次元評価プロトコルを提案する。 評価プロトコルは位置バイアス、すなわち位置バイアスも考慮に入れます。 ユーザーはカルーセルを連続的に探索するのではなく、画面の左上隅に集中する。 映画領域における実験を報告し,カルーセル設定下では,推奨項目のリストを生成するのにどの基準が望ましいかが,一般的に理解されている項目に対して決定されることに注意する。

It is common for video-on-demand and music streaming services to adopt a user interface composed of several recommendation lists, i.e. widgets or swipeable carousels, each generated according to a specific criterion or algorithm (e.g. most recent, top popular, recommended for you, editors' choice, etc.). Selecting the appropriate combination of carousel has significant impact on user satisfaction. A crucial aspect of this user interface is that to measure the relevance a new carousel for the user it is not sufficient to account solely for its individual quality. Instead, it should be considered that other carousels will already be present in the interface. This is not considered by traditional evaluation protocols for recommenders systems, in which each carousel is evaluated in isolation, regardless of (i) which other carousels are displayed to the user and (ii) the relative position of the carousel with respect to other carousels. Hence, we propose a two-dimensional evaluation protocol for a carousel setting that will measure the quality of a recommendation carousel based on how much it improves upon the quality of an already available set of carousels. Our evaluation protocol takes into account also the position bias, i.e. users do not explore the carousels sequentially, but rather concentrate on the top-left corner of the screen. We report experiments on the movie domain and notice that under a carousel setting the definition of which criteria has to be preferred to generate a list of recommended items changes with respect to what is commonly understood.
翻訳日:2021-05-18 14:21:46 公開日:2021-05-14
# (参考訳) 潜在共同設立者によるガウス図形モデル学習

Learning Gaussian Graphical Models with Latent Confounders ( http://arxiv.org/abs/2105.06600v1 )

ライセンス: CC BY 4.0
Ke Wang, Alexander Franks, Sang-Yun Oh(参考訳) ガウス図形モデル(GGM)は生物学からファイナンスまで多くの応用においてネットワーク構造を推定するために広く用いられている。 実際、データは、基礎となる真のグラフィカルな構造の推論をバイアスする潜伏した共同創設者によってしばしば腐敗する。 本稿では,潜在変数を持つガウス的グラフィカルモデル (LVGGM) と,PCAをベースとしたコンバウンディング除去 (PCA+GGM) の2つの手法を比較して比較する。 これら2つのアプローチは同じような目標を持っているが、結合に関するさまざまな仮定によって動機づけられている。 本稿では, これら2つのアプローチの関連性について検討し, これら2つのアプローチの強みを組み合わせた新しい手法を提案する。 そこで我々は,PCAに基づく手法の一貫性と収束率を証明し,これらの結果を用いて各手法をいつ使用するかのガイダンスを提供する。 本手法の有効性をシミュレーションと実世界の2つの応用で実証する。

Gaussian Graphical models (GGM) are widely used to estimate the network structures in many applications ranging from biology to finance. In practice, data is often corrupted by latent confounders which biases inference of the underlying true graphical structure. In this paper, we compare and contrast two strategies for inference in graphical models with latent confounders: Gaussian graphical models with latent variables (LVGGM) and PCA-based removal of confounding (PCA+GGM). While these two approaches have similar goals, they are motivated by different assumptions about confounding. In this paper, we explore the connection between these two approaches and propose a new method, which combines the strengths of these two approaches. We prove the consistency and convergence rate for the PCA-based method and use these results to provide guidance about when to use each method. We demonstrate the effectiveness of our methodology using both simulations and in two real-world applications.
翻訳日:2021-05-17 23:40:48 公開日:2021-05-14
# (参考訳) ソーシャルメディアにおけるゼロショットスタンス検出のための逆学習

Adversarial Learning for Zero-Shot Stance Detection on Social Media ( http://arxiv.org/abs/2105.06603v1 )

ライセンス: CC BY 4.0
Emily Allaway, Malavika Srikanth, and Kathleen McKeown(参考訳) ソーシャルメディア上のスタンス検出は、日常のスラムニュースやコメントを識別し理解するのに役立ちます。 本研究では,twitter上でのゼロショット姿勢検出のための新しいモデルを提案する。 本モデルは, 計算コストを最小に抑えながら, 多数の未確認テストトピックにおいて最先端の性能を実現する。 さらに,ゼロショット姿勢検出を新たなトピックにも拡張し,ゼロショット移動の今後の方向性を強調する。

Stance detection on social media can help to identify and understand slanted news or commentary in everyday life. In this work, we propose a new model for zero-shot stance detection on Twitter that uses adversarial learning to generalize across topics. Our model achieves state-of-the-art performance on a number of unseen test topics with minimal computational costs. In addition, we extend zero-shot stance detection to new topics, highlighting future directions for zero-shot transfer.
翻訳日:2021-05-17 23:14:45 公開日:2021-05-14
# (参考訳) 機械学習モデルを用いて最適化問題の解を効果的に予測する方法:損失関数からの教訓

How to effectively use machine learning models to predict the solutions for optimization problems: lessons from loss function ( http://arxiv.org/abs/2105.06618v1 )

ライセンス: CC0 1.0
Mahdi Abolghasemi, Babak Abbasi, Toktam Babaei, Zahra HosseiniFard(参考訳) 制約最適化と組合せ問題における機械学習の利用は、コンピュータ科学と運用研究のコミュニティにおいて活発な研究領域になりつつある。 本稿では,高度な機械学習手法を用いた制約最適化問題に対する良質な解の予測を目的とする。 これは、より高度なアルゴリズムと決定変数の予測値に関連する様々なコストを調べることによって、大規模確率最適化モデルの解を予測するために機械学習モデルを使用するために、cite{abbasi 2020predicting}の作業を拡張する。 また、最適化問題の解を予測する機械学習モデルにおいて、損失関数とエラー基準の重要性についても検討する。 我々は血液輸血の問題をケーススタディとして用いている。 ケーススタディの結果は、LightGBMが有望なソリューションを提供し、特に平均絶対偏差基準が使用される場合、他の機械学習モデルよりも優れていることを示している。

Using machine learning in solving constraint optimization and combinatorial problems is becoming an active research area in both computer science and operations research communities. This paper aims to predict a good solution for constraint optimization problems using advanced machine learning techniques. It extends the work of \cite{abbasi2020predicting} to use machine learning models for predicting the solution of large-scaled stochastic optimization models by examining more advanced algorithms and various costs associated with the predicted values of decision variables. It also investigates the importance of loss function and error criterion in machine learning models where they are used for predicting solutions of optimization problems. We use a blood transshipment problem as the case study. The results for the case study show that LightGBM provides promising solutions and outperforms other machine learning models used by \cite{abbasi2020predicting} specially when mean absolute deviation criterion is used.
翻訳日:2021-05-17 23:03:23 公開日:2021-05-14
# (参考訳) UAVナビゲーションのための点雲上の静的・動的障害物の同定と回避

Identification and Avoidance of Static and Dynamic Obstacles on Point Cloud for UAVs Navigation ( http://arxiv.org/abs/2105.06622v1 )

ライセンス: CC BY 4.0
Han Chen and Peng Lu(参考訳) 効率的な飛行戦略によって未知のシナリオにおけるハイブリッド障害を回避することは、無人航空機の応用にとって重要な課題である。 本稿では,点クラウド入力のみを用いて動的障害と静的障害を区別する手法を提案する。 そこで, 計算効率の良い障害物回避運動計画手法を提案し, 改良された相対速度法と一致している。 このアプローチは、同じフレームワークの静的障害と動的障害の両方を避けることができる。 静的および動的障害の場合、衝突チェックと動きの制約は異なり、1つのフレームワークに効率的に統合される。 さらに,アルゴリズムの性能を向上し,異なるサブモジュール間の時間ギャップに対処する手法をいくつか提示する。 提案手法はリアルタイムにオンボードに実装され,シミュレーションおよびハードウェアテストにおいて広範囲に検証される。 平均的なシングルステップ計算時間は20ミリ秒未満です。

Avoiding hybrid obstacles in unknown scenarios with an efficient flight strategy is a key challenge for unmanned aerial vehicle applications. In this paper, we introduce a technique to distinguish dynamic obstacles from static ones with only point cloud input. Then, a computationally efficient obstacle avoidance motion planning approach is proposed and it is in line with an improved relative velocity method. The approach is able to avoid both static obstacles and dynamic ones in the same framework. For static and dynamic obstacles, the collision check and motion constraints are different, and they are integrated into one framework efficiently. In addition, we present several techniques to improve the algorithm performance and deal with the time gap between different submodules. The proposed approach is implemented to run onboard in real-time and validated extensively in simulation and hardware tests. Our average single step calculating time is less than 20 ms.
翻訳日:2021-05-17 22:44:26 公開日:2021-05-14
# (参考訳) aiを用いたbimの拡張:マルチマシンパス検索ソリューション

An Extension of BIM Using AI: a Multi Working-Machines Pathfinding Solution ( http://arxiv.org/abs/2105.06635v1 )

ライセンス: CC BY 4.0
Yusheng Xiang, Kailun Liu, Tianqing Su, Jun Li, Shirui Ouyang, Samuel S. Mao, Marcus Geimer(参考訳) マルチワーキングマシンのパスファインディングソリューションにより、より多くのモバイルマシンが作業現場内で同時に動作し、生産性が進化を加速することを期待できる。 現在、建設機械間の潜在的な協力の衝突は、コンクリート工事現場における建設機械投資の量を制限している。 協調問題を解決するため、土木技術者はロジスティックな視点から作業現場を最適化し、コンピュータ科学者は与えられたベンチマークマップにおけるパスファインディングアルゴリズムの性能を向上させる。 そこで本研究では, 多数の機械の協調を可能とし, その間, 作業場の不適切な部分を修正するためのアドバイスを提供する, 最先端のマルチパスフィニングアルゴリズムに基づくアルゴリズムを提案する。 アンローディングやローディングポイントなどのBIMからのロジスティック情報を用いて,建設車両全体の生産性を向上させるために,マルチマシンのためのパスフィニングソリューションを追加した。 前回の研究では、実験は10人未満に限られており、解の収集に要する計算時間は与えられていなかったので、擬似コード、テストマップ、結果のベンチマークを公開しました。 我々のアルゴリズムの最も広範な特徴は、建設現場で緊急を乗り越えるための経路を迅速に再設計できることです。

Multi working-machines pathfinding solution enables more mobile machines simultaneously to work inside of a working site so that the productivity can be expected to increase evolutionary. To date, the potential cooperation conflicts among construction machinery limit the amount of construction machinery investment in a concrete working site. To solve the cooperation problem, civil engineers optimize the working site from a logistic perspective while computer scientists improve pathfinding algorithms' performance on the given benchmark maps. In the practical implementation of a construction site, it is sensible to solve the problem with a hybrid solution; therefore, in our study, we proposed an algorithm based on a cutting-edge multi-pathfinding algorithm to enable the massive number of machines cooperation and offer the advice to modify the unreasonable part of the working site in the meantime. Using the logistic information from BIM, such as unloading and loading point, we added a pathfinding solution for multi machines to improve the whole construction fleet's productivity. In the previous study, the experiments were limited to no more than ten participants, and the computational time to gather the solution was not given; thus, we publish our pseudo-code, our tested map, and benchmark our results. Our algorithm's most extensive feature is that it can quickly replan the path to overcome the emergency on a construction site.
翻訳日:2021-05-17 22:27:55 公開日:2021-05-14
# (参考訳) 不均質センサとウェアラブルを用いた屋内における居住者の行動・エンゲージメント・感情・快適感の理解

Understanding occupants' behaviour, engagement, emotion, and comfort indoors with heterogeneous sensors and wearables ( http://arxiv.org/abs/2105.06637v1 )

ライセンス: CC BY 4.0
Nan Gao, Max Marschall, Jane Burry, Simon Watkins, Flora D. Salim(参考訳) オーストラリア,メルボルン郊外のk-12私立学校でフィールドスタディを行った。 まず、2つの屋外気象観測所を用いた5ヶ月の縦断調査と、17の教室の屋内気象観測所と、乗員が制御する室内空調機の通気口の温度センサーの2つがあり、それらは5分間の検層頻度で各教室の個別データセットに照合され、また、乗員の存在に関する追加データも含まれていた。 このデータセットは、居住者が室内空調ユニットを操作する方法の予測モデルを導出するために使用された。 第2に、23人の学生と6人の教師を4週間にわたる横断研究で追跡し、生理的データを記録するためのウェアラブルセンサーと、被験者の体温の快適さ、学習のエンゲージメント、感情、座席の行動について日々の調査を行った。 これは、異質な方法を用いた高校生の日々の行動とエンゲージメントを研究する最初の公開データセットである。 組み合わせたデータは、屋内の気候と大学生の精神状態の関係を分析するために使用できる。

We conducted a field study at a K-12 private school in the suburbs of Melbourne, Australia. The data capture contained two elements: First, a 5-month longitudinal field study In-Gauge using two outdoor weather stations, as well as indoor weather stations in 17 classrooms and temperature sensors on the vents of occupant-controlled room air-conditioners; these were collated into individual datasets for each classroom at a 5-minute logging frequency, including additional data on occupant presence. The dataset was used to derive predictive models of how occupants operate room air-conditioning units. Second, we tracked 23 students and 6 teachers in a 4-week cross-sectional study En-Gage, using wearable sensors to log physiological data, as well as daily surveys to query the occupants' thermal comfort, learning engagement, emotions and seating behaviours. This is the first publicly available dataset studying the daily behaviours and engagement of high school students using heterogeneous methods. The combined data could be used to analyse the relationships between indoor climates and mental states of school students.
翻訳日:2021-05-17 22:01:13 公開日:2021-05-14
# (参考訳) Sketch2Model:ビュー対応3Dモデリング

Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches ( http://arxiv.org/abs/2105.06663v1 )

ライセンス: CC BY 4.0
Song-Hai Zhang, Yuan-Chen Guo, Qing-Wen Gu(参考訳) 初心者向け高速な3Dモデリングを目的としたフリーハンドスケッチから3Dメッシュを生成する問題について検討する。 単視点復元問題と見なすこともできるが、スケッチのバリエーションと簡潔さによってもたらされる独特の課題がある。 貧弱なスケッチの曖昧さは、スケッチされたオブジェクトの配置を決定するのを難しくする。 本稿では,このような曖昧さを克服するための視点仕様の重要性を論じ,新しい視点認識手法を提案する。 任意の視点で生成プロセスを明示的に条件づけすることにより、予測された視点で、あるいは特定の視点で自動的に妥当な形状を生成し、ユーザの意図の表現に役立てることができる。 様々なデータセットに対する広範囲な評価は、スケッチの曖昧さを解消し、再構築品質を改善するための視点認識設計の有効性を示す。

We investigate the problem of generating 3D meshes from single free-hand sketches, aiming at fast 3D modeling for novice users. It can be regarded as a single-view reconstruction problem, but with unique challenges, brought by the variation and conciseness of sketches. Ambiguities in poorly-drawn sketches could make it hard to determine how the sketched object is posed. In this paper, we address the importance of viewpoint specification for overcoming such ambiguities, and propose a novel view-aware generation approach. By explicitly conditioning the generation process on a given viewpoint, our method can generate plausible shapes automatically with predicted viewpoints, or with specified viewpoints to help users better express their intentions. Extensive evaluations on various datasets demonstrate the effectiveness of our view-aware design in solving sketch ambiguities and improving reconstruction quality.
翻訳日:2021-05-17 21:42:04 公開日:2021-05-14
# (参考訳) XAIハンドブック - 説明可能なAIのための統一フレームワークを目指す

XAI Handbook: Towards a Unified Framework for Explainable AI ( http://arxiv.org/abs/2105.06677v1 )

ライセンス: CC BY-SA 4.0
Sebastian Palacio, Adriano Lucieri, Mohsin Munir, J\"orn Hees, Sheraz Ahmed, Andreas Dengel(参考訳) 説明可能なAI(XAI)の分野は急速に繁栄し、多産なコミュニティになっている。 しかしながら、この分野における静かで再帰的で認識されている問題は、その用語に関する合意の欠如である。 特に、それぞれの新しい貢献は「説明」や「解釈」といった用語の独自の(そしてしばしば直感的な)バージョンに依存しているようである。 このような不一致は、例えば、方法の比較やバイアスや公正性の制約に対するコンプライアンスの確立など、科学的および規制的な要求を満たすための分野における進歩の強化を妨げている。 我々は,これらの用語の具体的定義を提供するだけでなく,説明や解釈に必要なすべてのステップを概説する理論的枠組みを提案する。 フレームワークはまた、既存のコントリビューションをスコープを計測できるように再コンテキスト化して、他のメソッドと同等にすることができる。 本フレームワークは,説明,解釈可能性,評価指標について,Desiderataに適合していることを示す。 本稿では,lime,shap,mdnetを比較し,その利点と欠点を確立するためにフレームワークをどのように利用するかを示すユースケースを提案する。 最後に,xaiの関連動向と今後の取り組みの提言について,フレームワークの立場から議論する。

The field of explainable AI (XAI) has quickly become a thriving and prolific community. However, a silent, recurrent and acknowledged issue in this area is the lack of consensus regarding its terminology. In particular, each new contribution seems to rely on its own (and often intuitive) version of terms like "explanation" and "interpretation". Such disarray encumbers the consolidation of advances in the field towards the fulfillment of scientific and regulatory demands e.g., when comparing methods or establishing their compliance with respect to biases and fairness constraints. We propose a theoretical framework that not only provides concrete definitions for these terms, but it also outlines all steps necessary to produce explanations and interpretations. The framework also allows for existing contributions to be re-contextualized such that their scope can be measured, thus making them comparable to other methods. We show that this framework is compliant with desiderata on explanations, on interpretability and on evaluation metrics. We present a use-case showing how the framework can be used to compare LIME, SHAP and MDNet, establishing their advantages and shortcomings. Finally, we discuss relevant trends in XAI as well as recommendations for future work, all from the standpoint of our framework.
翻訳日:2021-05-17 21:29:58 公開日:2021-05-14
# (参考訳) オンデバイスニューラルマシン翻訳のための動的マルチブランチ層

Dynamic Multi-Branch Layers for On-Device Neural Machine Translation ( http://arxiv.org/abs/2105.06679v1 )

ライセンス: CC BY 4.0
Zhixing Tan, Maosong Sun, Yang Liu(参考訳) 人工知能(AI)の急速な発展に伴い、ニューラルマシン翻訳(NMT)のようなAIアプリケーションをクラウドからスマートフォンのようなモバイルデバイスに移行する傾向にある。 ハードウェアリソースとバッテリの制限により、オンデバイスNTTシステムの性能は十分ではない。 条件付き計算に着想を得て,動的マルチブランチ層を有するオンデバイスNMTシステムの性能向上を提案する。 具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。 すべてのブランチがトレーニング中にアクティベートされるわけではないので、各ブランチに十分なトレーニングを確保するために、共有-プライベート再パラメータ化を提案する。 ほぼ同じ計算コストで、wmt14の英独翻訳タスクで最大1.7 bleu点、トランスフォーマーモデルでwmt20の中国語-英訳タスクで1.8 bleu点をそれぞれ改善した。 複数の分岐を同時に使用する強いベースラインと比較して、提案手法は同じ数のパラメータで最大1.6倍高速である。

With the rapid development of artificial intelligence (AI), there is a trend in moving AI applications such as neural machine translation (NMT) from cloud to mobile devices such as smartphones. Constrained by limited hardware resources and battery, the performance of on-device NMT systems is far from satisfactory. Inspired by conditional computation, we propose to improve the performance of on-device NMT systems with dynamic multi-branch layers. Specifically, we design a layer-wise dynamic multi-branch network with only one branch activated during training and inference. As not all branches are activated during training, we propose shared-private reparameterization to ensure sufficient training for each branch. At almost the same computational cost, our method achieves improvements of up to 1.7 BLEU points on the WMT14 English-German translation task and 1.8 BLEU points on the WMT20 Chinese-English translation task over the Transformer model, respectively. Compared with a strong baseline that also uses multiple branches, the proposed method is up to 1.6 times faster with the same number of parameters.
翻訳日:2021-05-17 21:10:54 公開日:2021-05-14
# (参考訳) 線形収束を用いた通信効率の分散最適化のための革新圧縮

Innovation Compression for Communication-efficient Distributed Optimization with Linear Convergence ( http://arxiv.org/abs/2105.06697v1 )

ライセンス: CC BY-SA 4.0
Jiaqi Zhang, Keyou You, Lihua Xie(参考訳) ピアツーピアネットワーク上での分散最適化における通信コスト削減には,情報圧縮が不可欠である。 本稿では,強い凸最適化問題を解決するために,通信効率のよい線形収束分散(COLD)アルゴリズムを提案する。 決定ベクトルとその推定値の差であるイノベーションベクトルを圧縮することで、coldは$\delta$-contracted compressorのクラスに対して線形収束を達成することができる。 圧縮が収束率にどのように影響するかを明示的に定量化し、COLDが非圧縮バージョンと同じ速度で一致することを示す。 二元量子化器を含むより広い種類の圧縮機に対応するため、さらに新しい力学スケーリング機構を設計、線形収束ダイナコールを得る。 重要となるのは, 定量化コンセンサス問題に対する既存結果の厳格な改善である。 数値実験は、異なる圧縮機の下で両方のアルゴリズムの利点を実証する。

Information compression is essential to reduce communication cost in distributed optimization over peer-to-peer networks. This paper proposes a communication-efficient linearly convergent distributed (COLD) algorithm to solve strongly convex optimization problems. By compressing innovation vectors, which are the differences between decision vectors and their estimates, COLD is able to achieve linear convergence for a class of $\delta$-contracted compressors. We explicitly quantify how the compression affects the convergence rate and show that COLD matches the same rate of its uncompressed version. To accommodate a wider class of compressors that includes the binary quantizer, we further design a novel dynamical scaling mechanism and obtain the linearly convergent Dyna-COLD. Importantly, our results strictly improve existing results for the quantized consensus problem. Numerical experiments demonstrate the advantages of both algorithms under different compressors.
翻訳日:2021-05-17 20:59:24 公開日:2021-05-14
# (参考訳) 相関から未知の学習:タンパク質間相互作用予測のためのグラフニューラルネットワーク

Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction ( http://arxiv.org/abs/2105.06709v1 )

ライセンス: CC BY 4.0
Guofeng Lv, Zhiqiang Hu, Yanguang Bi, Shaoting Zhang(参考訳) 多型蛋白質-タンパク質相互作用(ppi)の研究は、系統的な観点からの生物学的過程の理解と疾患メカニズムの解明に基礎を置いている。 既存のメソッドは、未発見のデータセットでテストされた場合、大幅なパフォーマンス低下に苦しむ。 本稿では,この問題について検討し,その原因は主にタンパク質間相互作用の予測性能の低下によるものであることを示す。 しかし、現在の評価では、ノベル-タンパク質間相互作用は見過ごされており、指導的評価は行わない。 その結果,評価手法と方法論の両方からこの問題に対処することを提案する。 まず,タンパク質間相互作用を完全に尊重し,データセット間で一貫した評価を行う新しい評価フレームワークを設計する。 第2に,タンパク質間の相関関係は新規タンパク質の解析に有用な情報を提供しなければならないと論じ,これに基づいて,タンパク質間の相互作用を予測するグラフニューラルネットワーク(GNN-PPI)を提案する。 異なるスケールの実世界のデータセットに対する実験結果から、GNN-PPIは最先端のPPI予測法、特にノーベルタンパク質間相互作用予測において著しく優れていることが示された。

The study of multi-type Protein-Protein Interaction (PPI) is fundamental for understanding biological processes from a systematic perspective and revealing disease mechanisms. Existing methods suffer from significant performance degradation when tested in unseen dataset. In this paper, we investigate the problem and find that it is mainly attributed to the poor performance for inter-novel-protein interaction prediction. However, current evaluations overlook the inter-novel-protein interactions, and thus fail to give an instructive assessment. As a result, we propose to address the problem from both the evaluation and the methodology. Firstly, we design a new evaluation framework that fully respects the inter-novel-protein interactions and gives consistent assessment across datasets. Secondly, we argue that correlations between proteins must provide useful information for analysis of novel proteins, and based on this, we propose a graph neural network based method (GNN-PPI) for better inter-novel-protein interaction prediction. Experimental results on real-world datasets of different scales demonstrate that GNN-PPI significantly outperforms state-of-the-art PPI prediction methods, especially for the inter-novel-protein interaction prediction.
翻訳日:2021-05-17 19:37:47 公開日:2021-05-14
# (参考訳) グラフ表現学習のための特徴ビューとトポロジビュー間の相互情報最大化

Maximizing Mutual Information Across Feature and Topology Views for Learning Graph Representations ( http://arxiv.org/abs/2105.06715v1 )

ライセンス: CC BY 4.0
Xiaolong Fan, Maoguo Gong, Yue Wu, Hao Li(参考訳) 近年,教師なしグラフ表現学習の強力な方法として,相互情報の最大化が出現している。 既存のメソッドは通常、トポロジービューから情報をキャプチャするが、機能ビューは無視する。 この問題を回避するために,特徴とトポロジの観点で相互情報の最大化を利用する新しい手法を提案する。 具体的には、まずマルチビュー表現学習モジュールを使用して、グラフ上の特徴ビューとトポロジビューをまたいだローカル情報とグローバル情報の両方をよりよくキャプチャする。 特徴空間と位相空間で共有される情報をモデル化するために,相互情報最大化と再構成損失最小化を用いた共通表現学習モジュールを開発する。 同じ視点からグラフ表現間の多様性を明確に促進するために、同じ視点から表現間の距離を拡大する不一致正規化を導入する。 合成および実世界のデータセットの実験は、特徴ビューとトポロジービューを統合する効果を示す。 特に,従来の教師付き手法と比較して,教師なし表現および線形評価プロトコルにおいて,提案手法は同等あるいはそれ以上の性能を達成できる。

Recently, maximizing mutual information has emerged as a powerful method for unsupervised graph representation learning. The existing methods are typically effective to capture information from the topology view but ignore the feature view. To circumvent this issue, we propose a novel approach by exploiting mutual information maximization across feature and topology views. Specifically, we first utilize a multi-view representation learning module to better capture both local and global information content across feature and topology views on graphs. To model the information shared by the feature and topology spaces, we then develop a common representation learning module using mutual information maximization and reconstruction loss minimization. To explicitly encourage diversity between graph representations from the same view, we also introduce a disagreement regularization to enlarge the distance between representations from the same view. Experiments on synthetic and real-world datasets demonstrate the effectiveness of integrating feature and topology views. In particular, compared with the previous supervised methods, our proposed method can achieve comparable or even better performance under the unsupervised representation and linear evaluation protocol.
翻訳日:2021-05-17 19:22:22 公開日:2021-05-14
# (参考訳) RC2020報告:バイアス表現による非バイアス表現の学習

RC2020 Report: Learning De-biased Representations with Biased Representations ( http://arxiv.org/abs/2105.06724v1 )

ライセンス: CC BY 4.0
Rwiddhi Chakraborty and Shubhayu Das(参考訳) ML Reproducibility Challenge 2020の一環として,BahngらによるICML 2020の論文 "Learning De-biased Representations with Biased Representations" を調査した。 本報告では,画像認識の応用領域,特にデータセットのバイアスed mnistとimagenetにおける作業の再現を試みた結果について報告する。 我々は、ReBiasをVanilla、Biased、RUBi(著者が実施した)といった他の手法と比較し、論文の主張の有効性に関する議論で結論づける。 偏りのあるMNISTデータセットの結果を、論文で報告された元の値の1%以内に再現することができた。 著者同様、平均3回以上の結果を報告します。 しかし、後段では、偏りのあるMNISTデータセットに関して、論文の中心的な主張を弱めるように見えるいくつかの追加結果を提供する。 元の論文のように、ImageNetの結果を再現することはできなかったが、著者とのコミュニケーションに基づいて、同じ理由について議論した。 この研究は、ReBiasを自身の研究目的に利用しようとする他の研究者にとって有用であり、プロセスで遭遇する可能性のある落とし穴について助言する。

As part of the ML Reproducibility Challenge 2020, we investigated the ICML 2020 paper "Learning De-biased Representations with Biased Representations" by Bahng et al., where the authors formalize and attempt to tackle the so called "cross bias generalization" problem with a new approach they introduce called ReBias. This report contains results of our attempts at reproducing the work in the application area of Image Recognition, specifically on the datasets biased MNIST and ImageNet. We compare ReBias with other methods - Vanilla, Biased, RUBi (as implemented by the authors), and conclude with a discussion concerning the validity of the claims made by the paper. We were able to reproduce results reported for the biased MNIST dataset to within 1% of the original values reported in the paper. Like the authors, we report results averaged over 3 runs. However, in a later section, we provide some additional results that appear to weaken the central claim of the paper with regards to the biased MNIST dataset. We were not able to reproduce results for ImageNet as in the original paper, but based on communication with the authors, provide a discussion as to the reasons for the same. This work attempts to be useful to other researchers aiming to use ReBias for their own research purposes, advising on certain possible pitfalls that may be encountered in the process.
翻訳日:2021-05-17 19:03:27 公開日:2021-05-14
# (参考訳) 概念埋め込みを用いたDNN活性化におけるサイズ不変性の検証

Verification of Size Invariance in DNN Activations using Concept Embeddings ( http://arxiv.org/abs/2105.06727v1 )

ライセンス: CC BY 4.0
Gesina Schwalbe(参考訳) ディープニューラルネットワーク(DNN)の利点は、医療用車や自動運転などの安全上重要なアプリケーションに注目されている。 しかし、DNNの内部表現に関する定量的な洞察は必須である。 これに対する1つのアプローチは概念分析であり、dnnの内部表現と直感的な意味概念のマッピングを確立することを目的としている。 これは、歩行者検出の検証に有用な人体部分のようなサブオブジェクトである。 我々の知る限りでは、概念分析はまだ大規模な物体検出器には適用されていない。 したがって、この研究はまず、サブオブジェクトのポストホックセグメンテーションのためのnet2vecアプローチ(arxiv:1801.03454)の大幅な改善を示唆する。 その実践的適用性は,Mask R-CNNモデル(arXiv:1703.06870):(1)身体部分の類似性の整合性,(2)人物の画素の大きさに関する身体部分の内部表現の不変性を含む,3つの標準ネットワークの模範的評価により,新しい概念データセット上で実証される。 これらの結果から,身体部位の表現はほとんどがサイズ不変であり,異なるサイズカテゴリの情報を早期にインテリジェントに融合する可能性が示唆された。

The benefits of deep neural networks (DNNs) have become of interest for safety critical applications like medical ones or automated driving. Here, however, quantitative insights into the DNN inner representations are mandatory. One approach to this is concept analysis, which aims to establish a mapping between the internal representation of a DNN and intuitive semantic concepts. Such can be sub-objects like human body parts that are valuable for validation of pedestrian detection. To our knowledge, concept analysis has not yet been applied to large object detectors, specifically not for sub-parts. Therefore, this work first suggests a substantially improved version of the Net2Vec approach (arXiv:1801.03454) for post-hoc segmentation of sub-objects. Its practical applicability is then demonstrated on a new concept dataset by two exemplary assessments of three standard networks, including the larger Mask R-CNN model (arXiv:1703.06870): (1) the consistency of body part similarity, and (2) the invariance of internal representations of body parts with respect to the size in pixels of the depicted person. The findings show that the representation of body parts is mostly size invariant, which may suggest an early intelligent fusion of information in different size categories.
翻訳日:2021-05-17 18:52:12 公開日:2021-05-14
# (参考訳) 畳み込みニューラルネットワークを用いた顔年齢推定

Facial Age Estimation using Convolutional Neural Networks ( http://arxiv.org/abs/2105.06746v1 )

ライセンス: CC BY 4.0
Adrian Kj{\ae}rran and Christian Bakke Venner{\o}d and Erling Stray Bugge(参考訳) 本論文は,ノルウェー科学技術大学における機械学習の学生プロジェクトの一部である。 本稿では,5つの畳み込み層と3つの完全連結層を有する深層畳み込みニューラルネットワークを用いて,画像に基づいて個体の年齢を推定する。 モデルはスクラッチからトレーニングされ、3つの異なるデータセットの組み合わせがトレーニングデータとして使用される。 これらのデータセットはAPPAデータセット、UTKデータセット、IMDBデータセットである。 画像はプロプライエタリな顔認識ソフトウェアを使って前処理された。 我々のモデルはホールドアウトテストセットとAdienceベンチマークの両方で評価される。 テストセットにおいて,本モデルは52%のカテゴリ精度を達成している。 adienceベンチマークでは,本モデルが他の先行モデルに比べ,30%の精度と46%の精度で劣っていることを証明した。 さらにスクリプトが作成され、ユーザーはウェブカメラを使って年齢を直接見積もることができる。 スクリプトは、他のすべてのコードとともに、GitHubリポジトリ、 AgeNetにあります。

This paper is a part of a student project in Machine Learning at the Norwegian University of Science and Technology. In this paper, a deep convolutional neural network with five convolutional layers and three fully-connected layers is presented to estimate the ages of individuals based on images. The model is in its entirety trained from scratch, where a combination of three different datasets is used as training data. These datasets are the APPA dataset, UTK dataset, and the IMDB dataset. The images were preprocessed using a proprietary face-recognition software. Our model is evaluated on both a held-out test set, and on the Adience benchmark. On the test set, our model achieves a categorical accuracy of 52%. On the Adience benchmark, our model proves inferior compared with other leading models, with an exact accuray of 30%, and an one-off accuracy of 46%. Furthermore, a script was created, allowing users to estimate their age directly using their web camera. The script, alongside all other code, is located in our GitHub repository: AgeNet.
翻訳日:2021-05-17 18:41:45 公開日:2021-05-14
# (参考訳) 野生のブラインド画像品質モデルにおけるトラブルシューティング

Troubleshooting Blind Image Quality Models in the Wild ( http://arxiv.org/abs/2105.06747v1 )

ライセンス: CC BY 4.0
Zhihua Wang and Haotao Wang and Tianlong Chen and Zhangyang Wang and Kede Ma(参考訳) 近年,グループ最大分化コンペティション(gMAD)は,視線画像品質評価(BIQA)モデルの改善に活用されている。 このようなアプローチを"最高のパフォーマンス(best-performing)"biqaモデルのトラブルシュートに適用する場合,私たちは,実用的な課題に直面しています。 近年のディープモデルの難解なサンプルがネットワークプルーニングによって露出されることにインスパイアされた我々は、ターゲットモデルのプルーニングバージョンをランダムにアンサンブルして改善すべき「自己競合者」の集合を構築した。 様々な障害は、自己gMAD競合を通じて効率的に識別できる。 次に、人間の評価したgMADセット上で、ターゲットと刈り取られた変種の両方を微調整する。 これにより、すべてのモデルがそれぞれの失敗から学び、次のgMADコンテストに備えることができます。 実験結果から,BIQAモデルを野生で効率的にトラブルシュートし,一般化性を向上させた。

Recently, the group maximum differentiation competition (gMAD) has been used to improve blind image quality assessment (BIQA) models, with the help of full-reference metrics. When applying this type of approach to troubleshoot "best-performing" BIQA models in the wild, we are faced with a practical challenge: it is highly nontrivial to obtain stronger competing models for efficient failure-spotting. Inspired by recent findings that difficult samples of deep models may be exposed through network pruning, we construct a set of "self-competitors," as random ensembles of pruned versions of the target model to be improved. Diverse failures can then be efficiently identified via self-gMAD competition. Next, we fine-tune both the target and its pruned variants on the human-rated gMAD set. This allows all models to learn from their respective failures, preparing themselves for the next round of self-gMAD competition. Experimental results demonstrate that our method efficiently troubleshoots BIQA models in the wild with improved generalizability.
翻訳日:2021-05-17 18:31:09 公開日:2021-05-14
# (参考訳) 変圧器による長期臨床文書の分類

Classifying Long Clinical Documents with Pre-trained Transformers ( http://arxiv.org/abs/2105.06752v1 )

ライセンス: CC BY 4.0
Xin Su, Timothy Miller, Xiyu Ding, Majid Afshar and Dmitriy Dligach(参考訳) オートマチック・フェノタイピング(Automatic phenotyping)は、予め定義された基準に適合する患者のコホートを特定するタスクである。 表現型付けは通常、数千のトークンを含む長い臨床文書を分類する。 同時に、最近の最先端のトランスフォーマーベースの事前訓練言語モデルでは、入力を数百トークン(例)に制限している。 BERTのトークンは512個)。 臨床テキストの文書レベル表現に事前学習文エンコーダを組み込むためのいくつかの戦略を評価し,事前学習のない階層的トランスフォーマーがタスク事前学習モデルと競合することを見出した。

Automatic phenotyping is a task of identifying cohorts of patients that match a predefined set of criteria. Phenotyping typically involves classifying long clinical documents that contain thousands of tokens. At the same time, recent state-of-art transformer-based pre-trained language models limit the input to a few hundred tokens (e.g. 512 tokens for BERT). We evaluate several strategies for incorporating pre-trained sentence encoders into document-level representations of clinical text, and find that hierarchical transformers without pre-training are competitive with task pre-trained models.
翻訳日:2021-05-17 18:17:52 公開日:2021-05-14
# (参考訳) 長期短期記憶rnn

Long Short-term Memory RNN ( http://arxiv.org/abs/2105.06756v1 )

ライセンス: CC BY 4.0
Christian Bakke Venner{\o}d and Adrian Kj{\ae}rran and Erling Stray Bugge(参考訳) 本論文は,2020年秋のノルウェー科学技術大学における機械学習プロジェクトに基づいている。 このプロジェクトは、過去5年間の科学コミュニティにおける時系列予測手法の最新の展開に関する文献レビューから始まった。 本論文は,本研究の本質的側面を概説する。 さらに,本論文ではLSTMセルのアーキテクチャを導入し,異なるコンポーネントが協調してセルのメモリを変更して出力を予測する方法について説明する。 また,LSTMによる前方反復計算に必要な公式や基礎も提供する。 そこで本研究では,時系列領域と自然言語処理(NLP)領域で示されるLSTMの強みと弱みを強調する実践的応用と研究について述べる。 最後に,ARIMAの概要と指数的平滑化を概説した時系列予測のための統計手法について述べる。 それにもかかわらず、LSTMは複雑なアーキテクチャと見なすことができるため、読者は多層パーセプトロン、アクティベーション関数、オーバーフィット、バックプロパゲーション、バイアス、オーバーフィット、アンダーフィットなど、基本的な機械学習の側面についてある程度の知識を持っていると仮定する。

This paper is based on a machine learning project at the Norwegian University of Science and Technology, fall 2020. The project was initiated with a literature review on the latest developments within time-series forecasting methods in the scientific community over the past five years. The paper summarizes the essential aspects of this research. Furthermore, in this paper, we introduce an LSTM cell's architecture, and explain how different components go together to alter the cell's memory and predict the output. Also, the paper provides the necessary formulas and foundations to calculate a forward iteration through an LSTM. Then, the paper refers to some practical applications and research that emphasize the strength and weaknesses of LSTMs, shown within the time-series domain and the natural language processing (NLP) domain. Finally, alternative statistical methods for time series predictions are highlighted, where the paper outline ARIMA and exponential smoothing. Nevertheless, as LSTMs can be viewed as a complex architecture, the paper assumes that the reader has some knowledge of essential machine learning aspects, such as the multi-layer perceptron, activation functions, overfitting, backpropagation, bias, over- and underfitting, and more.
翻訳日:2021-05-17 18:11:11 公開日:2021-05-14
# (参考訳) DialSumm: 実生活シナリオの対話要約データセット

DialSumm: A Real-Life Scenario Dialogue Summarization Dataset ( http://arxiv.org/abs/2105.06762v1 )

ライセンス: CC BY 4.0
Yulong Chen, Yang Liu, Liang Chen and Yue Zhang(参考訳) 大規模データセットの提案により、ニュース要約のためのディープニューラルモデルの研究が容易になった。 ディープラーニングは音声対話の要約にも有用であり、顧客のサービス管理や薬物の追跡など、さまざまな現実的なシナリオに役立てることができる。 そこで本稿では,大規模ラベル付き対話要約データセットであるDialSummを提案する。 我々は、最先端のニューラルネットワークを用いたDialSummの実証分析を行う。 実験結果から,話し言葉,特別な談話構造,コアとエリプシス,プラグマティクス,社会的コモンセンスといった,特定の表現学習技術に対処するために必要な対話要約において,ユニークな課題が示された。

Proposal of large-scale datasets has facilitated research on deep neural models for news summarization. Deep learning can also be potentially useful for spoken dialogue summarization, which can benefit a range of real-life scenarios including customer service management and medication tracking. To this end, we propose DialSumm, a large-scale labeled dialogue summarization dataset. We conduct empirical analysis on DialSumm using state-of-the-art neural summarizers. Experimental results show unique challenges in dialogue summarization, such as spoken terms, special discourse structures, coreferences and ellipsis, pragmatics and social commonsense, which require specific representation learning technologies to better deal with.
翻訳日:2021-05-17 17:59:56 公開日:2021-05-14
# (参考訳) 新型ウイルスの自動診断のためのデュアルアテンション残差ネットワーク

Dual-Attention Residual Network for Automatic Diagnosis of COVID-19 ( http://arxiv.org/abs/2105.06779v1 )

ライセンス: CC BY 4.0
Jun Shi, Huite Yi, Xiaoyu Hao, Hong An, Wei Wei(参考訳) 新型コロナウイルスの世界的なパンデミック(covid-19)は、公衆衛生と経済に深刻な脅威をもたらしている。 新型コロナウイルスの迅速かつ正確な診断は、病気のさらなる拡散を防ぎ、死亡率を減らすために重要である。 胸部CTは肺炎などの肺疾患の早期診断に有効なツールである。 しかし、一部の早期患者は画像に陰性な所見がある可能性があるため、CTからCOVID-19を検出することは人為的な誤りを招きやすい。 そこで本研究では,他の肺炎患者や一般人のCT画像からCOVID-19を自動的に検出する新たな残留ネットワークを提案する。 具体的には,改良された3d resnet18をバックボーンネットワークとして使用し,チャネルワイズ・アテンション (ca) と深度ワイズ・アテンション (da) モジュールを備え,診断性能をさらに向上させる。 大規模オープンソースデータセットを用いた実験の結果, 94.7%の精度, 93.73%の感度, 98.28%の特異性, 95.26%のf1-score, 受信機動作特性曲線 (auc) 下の0.99の領域でcovid-19を他の2クラスと区別できることがわかった。 これらの結果から,本手法が臨床医の早期診断支援に役立つ可能性が示唆された。

The ongoing global pandemic of Coronavirus Disease 2019 (COVID-19) has posed serious threat to public health and the economy. Rapid and accurate diagnosis of COVID-19 is crucial to prevent the further spread of the disease and reduce its mortality. Chest computed tomography (CT) is an effective tool for the early diagnosis of lung diseases including pneumonia. However, detecting COVID-19 from CT is demanding and prone to human errors as some early-stage patients may have negative findings on images. In this study, we propose a novel residual network to automatically identify COVID-19 from other common pneumonia and normal people using CT images. Specifically, we employ the modified 3D ResNet18 as the backbone network, which is equipped with both channel-wise attention (CA) and depth-wise attention (DA) modules to further improve the diagnostic performance. Experimental results on the large open-source dataset show that our method can differentiate COVID-19 from the other two classes with 94.7% accuracy, 93.73% sensitivity, 98.28% specificity, 95.26% F1-score, and an area under the receiver operating characteristic curve (AUC) of 0.99, outperforming baseline methods. These results demonstrate that the proposed method could potentially assist the clinicians in performing a quick diagnosis to fight COVID-19.
翻訳日:2021-05-17 17:43:55 公開日:2021-05-14
# (参考訳) 正規決定過程における効果的なPAC強化学習

Efficient PAC Reinforcement Learning in Regular Decision Processes ( http://arxiv.org/abs/2105.06784v1 )

ライセンス: CC BY 4.0
Alessandro Ronca and Giuseppe De Giacomo(参考訳) 近年,非マルコフ決定過程の形式として,規則的決定過程が提案されている。 規則的な決定プロセスは(通常の言語のように)歴史全体に依存する遷移関数と報酬関数によって特徴づけられる。 実際には、遷移関数と報酬関数の両方を有限トランスデューサと見なすことができる。 正規決定過程における強化学習について検討する。 我々の主な貢献は、決定過程を記述したパラメータの集合において、多項式時間で最適に近いポリシーをPAC学習できることである。 特定されたパラメータの集合は最小限であり、通常の決定プロセスの難しさを合理的に捉えていると論じる。

Recently regular decision processes have been proposed as a well-behaved form of non-Markov decision process. Regular decision processes are characterised by a transition function and a reward function that depend on the whole history, though regularly (as in regular languages). In practice both the transition and the reward functions can be seen as finite transducers. We study reinforcement learning in regular decision processes. Our main contribution is to show that a near-optimal policy can be PAC-learned in polynomial time in a set of parameters that describe the underlying decision process. We argue that the identified set of parameters is minimal and it reasonably captures the difficulty of a regular decision process.
翻訳日:2021-05-17 17:35:02 公開日:2021-05-14
# (参考訳) Agree to Disagree: Identical Architecturesを用いたディープラーニングモデルが特定の説明を生み出すとき

Agree to Disagree: When Deep Learning Models With Identical Architectures Produce Distinct Explanations ( http://arxiv.org/abs/2105.06791v1 )

ライセンス: CC BY 4.0
Matthew Watson (1), Bashar Awwad Shiekh Hasan (1), Noura Al Moubayed (1) ((1) Durham University, Durham, UK)(参考訳) ニューラルネットワークの深層学習は、モデルが専門的精度レベルに達したり、超えたりすることで、医療において徐々に顕著になっている。 しかし、これらの成功談は、いくつかの病状や患者のサブグループに対するモデルの透明性の欠如とバイアスに関する報告によって語られる。 説明可能なメソッドは、これらの懸念の多くを軽減するためのゲートウェイと考えられている。 本研究では,生成した説明が,分類タスクとモデル構造に垂直なモデルトレーニングの変化に揮発することを示す。 これは、ヘルスケアのためのディープラーニングモデルの信頼性に関するさらなる疑問を提起する。 主に、モデルがデータ内の背後にある因果関係をキャプチャするか、あるいは説明手法によって見えるようにした散発的な相関に依存するかです。 ディープニューラルネットワークにおける説明可能性法の出力は、ランダムシードやトレーニングセットのシャッフルなど、ハイパーパラメータの変化によって大きく変化することが示されている。 我々は,MIMIC-CXRデータセットの特定問題を強調するために,説明整合性の尺度を導入する。 同じモデルの説明はありますが、異なるトレーニングセットアップでは一貫性が低く、平均で約33%です。 反対に、カーネルメソッドは直交的な変更に対して堅牢であり、説明一貫性は94%である。 モデル説明の現在の傾向は、実際の医療アプリケーションにモデルを展開するリスクを軽減するには不十分である。

Deep Learning of neural networks has progressively become more prominent in healthcare with models reaching, or even surpassing, expert accuracy levels. However, these success stories are tainted by concerning reports on the lack of model transparency and bias against some medical conditions or patients' sub-groups. Explainable methods are considered the gateway to alleviate many of these concerns. In this study we demonstrate that the generated explanations are volatile to changes in model training that are perpendicular to the classification task and model structure. This raises further questions about trust in deep learning models for healthcare. Mainly, whether the models capture underlying causal links in the data or just rely on spurious correlations that are made visible via explanation methods. We demonstrate that the output of explainability methods on deep neural networks can vary significantly by changes of hyper-parameters, such as the random seed or how the training set is shuffled. We introduce a measure of explanation consistency which we use to highlight the identified problems on the MIMIC-CXR dataset. We find explanations of identical models but with different training setups have a low consistency: $\approx$ 33% on average. On the contrary, kernel methods are robust against any orthogonal changes, with explanation consistency at 94%. We conclude that current trends in model explanation are not sufficient to mitigate the risks of deploying models in real life healthcare applications.
翻訳日:2021-05-17 16:56:28 公開日:2021-05-14
# (参考訳) Quantified Sleep: 観測N-of-1研究のための機械学習技術

Quantified Sleep: Machine learning techniques for observational n-of-1 studies ( http://arxiv.org/abs/2105.06811v1 )

ライセンス: CC BY 4.0
Gianluca Truda(参考訳) 本稿では,観察量化自己(qs)研究に統計的学習手法を適用し,睡眠品質の記述モデルを構築した。 合計472日間の睡眠データはouraのリングで収集され、ライフスタイル、環境、心理的データと組み合わせられた。 このようなn-of-1 qsプロジェクトは、異種データソース、値の欠如、高次元、動的フィードバックループ、人間のバイアスなど、多くの課題を提起している。 本稿では、これらの課題を、堅牢な記述モデルを生成するエンドツーエンドQSパイプラインで直接解決する。 睡眠の質は、高いノイズと多くの弱い要因により、qs研究において最も難しいモデリング対象の1つである。 本論文からのアプローチが他のn-of-1QSプロジェクトに一般化されるように睡眠品質が選択された。 データタイプ、サンプル頻度、スキーマ - イベントログ、天気予報、地理空間データなど - のさまざまなクラスの機能の組み合わせとエンジニアリングのためのテクニックが提示されている。 異常値,正規性,(自動)相関,定常性,欠如データの統計解析や,特徴の相関群を識別するための階層的クラスタリング手法について詳述した。 不足したデータは、複数の多変量計算アルゴリズムを含む知識ベースと統計技術の組み合わせで克服された。 歴史情報を取り入れつつ、時系列を独立した観察の集まりに分解するために「マルコフ展開」が提示される。 最後のモデルは2つの方法で解釈された。内部の$\beta$-parametersを検査し、SHAPフレームワークを使用する。 これら2つの解釈技術を組み合わせて16の予測的特徴のリストを作成し、観察的研究が介入qs研究を設計する際に考慮すべき特徴の数を大幅に狭めることを示した。

This paper applies statistical learning techniques to an observational Quantified-Self (QS) study to build a descriptive model of sleep quality. A total of 472 days of my sleep data was collected with an Oura ring and combined with lifestyle, environmental, and psychological data. Such n-of-1 QS projects pose a number of challenges: heterogeneous data sources; missing values; high dimensionality; dynamic feedback loops; human biases. This paper directly addresses these challenges with an end-to-end QS pipeline that produces robust descriptive models. Sleep quality is one of the most difficult modelling targets in QS research, due to high noise and a large number of weakly-contributing factors. Sleep quality was selected so that approaches from this paper would generalise to most other n-of-1 QS projects. Techniques are presented for combining and engineering features for the different classes of data types, sample frequencies, and schema - including event logs, weather, and geo-spatial data. Statistical analyses for outliers, normality, (auto)correlation, stationarity, and missing data are detailed, along with a proposed method for hierarchical clustering to identify correlated groups of features. The missing data was overcome using a combination of knowledge-based and statistical techniques, including several multivariate imputation algorithms. "Markov unfolding" is presented for collapsing the time series into a collection of independent observations, whilst incorporating historical information. The final model was interpreted in two ways: by inspecting the internal $\beta$-parameters, and using the SHAP framework. These two interpretation techniques were combined to produce a list of the 16 most-predictive features, demonstrating that an observational study can greatly narrow down the number of features that need to be considered when designing interventional QS studies.
翻訳日:2021-05-17 16:47:14 公開日:2021-05-14
# (参考訳) Sparsity-Probe:ディープラーニングモデルの解析ツール

Sparsity-Probe: Analysis tool for Deep Learning Models ( http://arxiv.org/abs/2105.06849v1 )

ライセンス: CC BY 4.0
Ido Ben-Shaul and Shai Dekel(参考訳) 本稿では,機械学習に基づくディープラーニングアーキテクチャ解析のためのプローブと近似理論原理を提案する。 深層学習アーキテクチャとトレーニングセットが与えられた場合、トレーニングセットの幾何学的特徴を定量化することにより、トレーニング中または訓練後の中間層のパフォーマンスを分析することができる。 Sparsity Probeは、与えられたアーキテクチャに深さを追加し、パフォーマンスの低い層等を補助的なテストデータセットなしで検出するコントリビューションを計測する方法を示します。

We propose a probe for the analysis of deep learning architectures that is based on machine learning and approximation theoretical principles. Given a deep learning architecture and a training set, during or after training, the Sparsity Probe allows to analyze the performance of intermediate layers by quantifying the geometrical features of representations of the training set. We show how the Sparsity Probe enables measuring the contribution of adding depth to a given architecture, to detect under-performing layers, etc., all this without any auxiliary test data set.
翻訳日:2021-05-17 16:45:11 公開日:2021-05-14
# (参考訳) 要素群を用いた深層学習に基づくRISチャネル外挿

Deep Learning Based RIS Channel Extrapolation with Element-grouping ( http://arxiv.org/abs/2105.06850v1 )

ライセンス: CC BY 4.0
Shunbo Zhang, Shun Zhang, Feifei Gao, Jianpeng Ma, Octavia A. Dobre(参考訳) reconfigurable intelligent surface (ris) は将来の無線通信ネットワークにとって革命的な技術であると考えられている。 本書では,多数の受動RIS要素により,カスケードチャネルの獲得が困難な課題であると考えられる。 パイロットオーバヘッドを低減するため,一つのグループの各要素が同じ反射係数を共有し,同じチャネル条件を持つと仮定する要素群化戦略を採用する。 本稿では,要素群戦略によるチャネル干渉を分析し,さらに2つの深層学習ネットワークを設計する。 第1は干渉を排除して部分チャネルを洗練させることを目標とし、第2は精製された部分チャネルから全チャネルを外挿しようとする。 2つのネットワークをカスケードし、共同でトレーニングします。 シミュレーションの結果,提案手法は干渉除去を伴わない従来の要素群法に比べて大きな利得を示した。

Reconfigurable intelligent surface (RIS) is considered as a revolutionary technology for future wireless communication networks. In this letter, we consider the acquisition of the cascaded channels, which is a challenging task due to the massive number of passive RIS elements. To reduce the pilot overhead, we adopt the element-grouping strategy, where each element in one group shares the same reflection coefficient and is assumed to have the same channel condition. We analyze the channel interference caused by the element-grouping strategy and further design two deep learning based networks. The first one aims to refine the partial channels by eliminating the interference, while the second one tries to extrapolate the full channels from the refined partial channels. We cascade the two networks and jointly train them. Simulation results show that the proposed scheme provides significant gain compared to the conventional element-grouping method without interference elimination.
翻訳日:2021-05-17 16:25:15 公開日:2021-05-14
# (参考訳) ブラインド超解像のエンドツーエンド交互最適化

End-to-end Alternating Optimization for Blind Super Resolution ( http://arxiv.org/abs/2105.06878v1 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang and Tieniu Tan(参考訳) 従来の方法では、ブラインド超解像(SR)問題を2つの逐次ステップに分解する: \textit{i}) 与えられた低解像度(LR)画像からぼやけたカーネルを推定し、推定されたカーネルに基づいてSRイメージを復元する。 この2段階のソリューションは、2つの独立に訓練されたモデルを含む。 第1ステップの小さな推定誤差は、第2ステップの厳しい性能低下を引き起こす可能性がある。 一方,最初のステップではLR画像からの限られた情報しか利用できないため,高精度なボケカーネルの予測が困難である。 これらの問題に対して,これら2つのステップを別々に考えるのではなく,ボケカーネルを推定し,sr画像を1つのモデルで復元する交互最適化アルゴリズムを採用する。 具体的には、2つの畳み込みニューラルモジュール、すなわち \textit{Restorer} と \textit{Estimator} を設計する。 \textit{restorer}は予測したカーネルに基づいてsrイメージを復元し、 \textit{estimator}は復元されたsrイメージの助けを借りてぼやけカーネルを推定する。 これら2つのモジュールを交換し、このプロセスを展開してエンドツーエンドのトレーニング可能なネットワークを形成します。 このようにして、 \textit{estimator} は lr と sr のイメージからの情報を利用するので、ぼかしカーネルの推定が容易になる。 より重要なことに、 \textit{restorer} は基底核の代わりに \textit{estimator} によって推定されるカーネルで訓練されるので、 \textit{restorer} は \textit{estimator} の推定誤差に耐性がある。 合成データセットと実世界の画像の大規模な実験により、我々のモデルは最先端の手法を大きく上回り、はるかに高速でより視覚的に好ましい結果が得られることが示された。 ソースコードは \url{https://github.com/greatlog/dan.git} で入手できる。

Previous methods decompose the blind super-resolution (SR) problem into two sequential steps: \textit{i}) estimating the blur kernel from given low-resolution (LR) image and \textit{ii}) restoring the SR image based on the estimated kernel. This two-step solution involves two independently trained models, which may not be well compatible with each other. A small estimation error of the first step could cause a severe performance drop of the second one. While on the other hand, the first step can only utilize limited information from the LR image, which makes it difficult to predict a highly accurate blur kernel. Towards these issues, instead of considering these two steps separately, we adopt an alternating optimization algorithm, which can estimate the blur kernel and restore the SR image in a single model. Specifically, we design two convolutional neural modules, namely \textit{Restorer} and \textit{Estimator}. \textit{Restorer} restores the SR image based on the predicted kernel, and \textit{Estimator} estimates the blur kernel with the help of the restored SR image. We alternate these two modules repeatedly and unfold this process to form an end-to-end trainable network. In this way, \textit{Estimator} utilizes information from both LR and SR images, which makes the estimation of the blur kernel easier. More importantly, \textit{Restorer} is trained with the kernel estimated by \textit{Estimator}, instead of the ground-truth kernel, thus \textit{Restorer} could be more tolerant to the estimation error of \textit{Estimator}. Extensive experiments on synthetic datasets and real-world images show that our model can largely outperform state-of-the-art methods and produce more visually favorable results at a much higher speed. The source code is available at \url{https://github.com/greatlog/DAN.git}.
翻訳日:2021-05-17 16:14:29 公開日:2021-05-14
# (参考訳) ベイジアン階層的混合クラスタリングの後方規則化

Posterior Regularisation on Bayesian Hierarchical Mixture Clustering ( http://arxiv.org/abs/2105.06903v1 )

ライセンス: CC BY 4.0
Weipeng Huang, Tin Lok James Ng, Nishma Laitonjam, Neil J. Hurley(参考訳) ベイジアン階層混合クラスタリング(BHMC)モデルを用いた最近の推論フレームワークについて検討した。 このフレームワークは、元のモデルの弱点を克服するためにベイズモデルに余分な制約を加える簡単な方法を促進する。 ベイズモデルのパラメータの探索空間を、発見された解の特徴に一定の制約を課す形式主義によって狭める。 本稿では,クラスタの分離を強化するために,階層のすべてのレベルにおいてノードに最大値制約を課すために,後続正規化を適用した。 本稿では,このフレームワークがBHMCとどのように統合されているかを示す。

We study a recent inferential framework, named posterior regularisation, on the Bayesian hierarchical mixture clustering (BHMC) model. This framework facilitates a simple way to impose extra constraints on a Bayesian model to overcome some weakness of the original model. It narrows the search space of the parameters of the Bayesian model through a formalism that imposes certain constraints on the features of the found solutions. In this paper, in order to enhance the separation of clusters, we apply posterior regularisation to impose max-margin constraints on the nodes at every level of the hierarchy. This paper shows how the framework integrates with BHMC and achieves the expected improvements over the original Bayesian model.
翻訳日:2021-05-17 15:47:07 公開日:2021-05-14
# (参考訳) 貯留層計算システムにおける階層アーキテクチャ

Hierarchical Architectures in Reservoir Computing Systems ( http://arxiv.org/abs/2105.06923v1 )

ライセンス: CC BY 4.0
John Moon, Wei D. Lu (University of Michigan)(参考訳) Reservoir Computing(RC)は、リカレントニューラルネットワークを、リカレント接続とトレーニング可能な線形ネットワークを備えた固定ネットワークに分離することで、トレーニングコストの低い効率的な時間データ処理を提供する。 固定ネットワークの品質は貯水池と呼ばれ、RCシステムの性能を決定する最も重要な要素である。 本稿では, 階層型貯水池構造が貯水池の特性およびRCシステムの性能に及ぼす影響について検討する。 深層ニューラルネットワークと類似して、データ変換の非線形性を高次元空間に拡張し、貯水池が捉えた時間情報の多様性を拡大する効率的な方法である。 これらの深部貯水池システムは、単に貯水池の大きさや貯水池の数を増やすよりも性能が良い。 低周波成分は主に深部貯留層構造後期のサブ貯留層によって捉えられ、深部ニューラルネットワーク後期の層によってより抽象的な情報が抽出されるという観察と同様である。 貯水池の総規模が固定された場合, 個別貯水池の小型化能力の低下により, 貯水池数と各貯水池の大きさとのトレードオフを慎重に検討する必要がある。 深層貯留層構造の性能向上は、ハードウェアシステムにおけるrcシステム実装の難しさを軽減する。

Reservoir computing (RC) offers efficient temporal data processing with a low training cost by separating recurrent neural networks into a fixed network with recurrent connections and a trainable linear network. The quality of the fixed network, called reservoir, is the most important factor that determines the performance of the RC system. In this paper, we investigate the influence of the hierarchical reservoir structure on the properties of the reservoir and the performance of the RC system. Analogous to deep neural networks, stacking sub-reservoirs in series is an efficient way to enhance the nonlinearity of data transformation to high-dimensional space and expand the diversity of temporal information captured by the reservoir. These deep reservoir systems offer better performance when compared to simply increasing the size of the reservoir or the number of sub-reservoirs. Low frequency components are mainly captured by the sub-reservoirs in later stage of the deep reservoir structure, similar to observations that more abstract information can be extracted by layers in the late stage of deep neural networks. When the total size of the reservoir is fixed, tradeoff between the number of sub-reservoirs and the size of each sub-reservoir needs to be carefully considered, due to the degraded ability of individual sub-reservoirs at small sizes. Improved performance of the deep reservoir structure alleviates the difficulty of implementing the RC system on hardware systems.
翻訳日:2021-05-17 15:28:42 公開日:2021-05-14
# (参考訳) 深層学習SVT:より良いMSEを得るために特異値しきい値の展開

Deep learned SVT: Unrolling singular value thresholding to obtain better MSE ( http://arxiv.org/abs/2105.06934v1 )

ライセンス: CC BY 4.0
Siva Shanmugam, Sheetal Kalyani(参考訳) アフィン階数最小化問題は、低階数行列の成分の線形結合を観測し、これらの測定値から行列を推定する低階数行列完備化問題の一般化版である。 そこで本研究では,singular value thresholding (svt) アルゴリズムと呼ばれる一般的な反復アルゴリズムを用いて,学習されたsvt (lsvt) と呼ばれる一般化行列補完を行うことにより,学習可能なディープニューラルネットワークを提案する。 提案手法は,固定層(例えばT)を持つ LSVT において, SVT が繰り返し回数を固定した SVT よりも少ない平均二乗誤差 (MSE) で行列を再構成し, SVT アルゴリズムで慎重に選択する必要があるパラメータに対して, より堅牢であることを示す。

Affine rank minimization problem is the generalized version of low rank matrix completion problem where linear combinations of the entries of a low rank matrix are observed and the matrix is estimated from these measurements. We propose a trainable deep neural network by unrolling a popular iterative algorithm called the singular value thresholding (SVT) algorithm to perform this generalized matrix completion which we call Learned SVT (LSVT). We show that our proposed LSVT with fixed layers (say T) reconstructs the matrix with lesser mean squared error (MSE) compared with that incurred by SVT with fixed (same T) number of iterations and our method is much more robust to the parameters which need to be carefully chosen in SVT algorithm.
翻訳日:2021-05-17 15:13:33 公開日:2021-05-14
# (参考訳) Plot and Rework: ストーリーテリングのためのストーリーラインのモデリング

Plot and Rework: Modeling Storylines for Visual Storytelling ( http://arxiv.org/abs/2105.06950v1 )

ライセンス: CC BY 4.0
Chi-Yang Hsu, Yun-Wei Chu, Ting-Hao (Kenneth) Huang, Lun-Wei Ku(参考訳) コヒーレントで魅力的なストーリーを書くのは簡単ではありません。 創造的な作家は彼らの知識と世界観を使い、無関係な要素を結合してコヒーレントなストーリーラインを作り、完璧に向けて反復的に作業し、再作業する。 しかし、VIST(Automated Visual Storytelling)モデルでは、ストーリーを作成しようとする場合、外部知識と反復生成が不十分である。 本稿では,入力画像列をストーリーグラフとして表現するフレームワークであるPR-VISTを紹介する。 PR-VISTはこの道を進み、反復的なトレーニングプロセスを通じて最終ストーリーを生成することを学ぶ。 このフレームワークは、自動評価と人間評価の両方において、多様性、一貫性、人間性において優れたストーリーを生み出す。 アブレーション研究は、プロットとリワークの両方がモデルの優位性に貢献していることを示している。

Writing a coherent and engaging story is not easy. Creative writers use their knowledge and worldview to put disjointed elements together to form a coherent storyline, and work and rework iteratively toward perfection. Automated visual storytelling (VIST) models, however, make poor use of external knowledge and iterative generation when attempting to create stories. This paper introduces PR-VIST, a framework that represents the input image sequence as a story graph in which it finds the best path to form a storyline. PR-VIST then takes this path and learns to generate the final story via an iterative training process. This framework produces stories that are superior in terms of diversity, coherence, and humanness, per both automatic and human evaluations. An ablation study shows that both plotting and reworking contribute to the model's superiority.
翻訳日:2021-05-17 15:03:30 公開日:2021-05-14
# (参考訳) ガウス型エントロピー・リスク・バンディットのトンプソンサンプリング

Thompson Sampling for Gaussian Entropic Risk Bandits ( http://arxiv.org/abs/2105.06960v1 )

ライセンス: CC BY 4.0
Ming Liang Ang, Eloise Y. Y. Lim, Joel Q. L. Chang(参考訳) マルチアームバンディット(英: multi-armed bandit、MAB)は、探検と探査のトレードオフを示すユビキタスな意思決定問題である。 標準定式化は意思決定のリスクを除外する。 リスクを意識して、報酬を最大化する基本的な目的を複雑にする。 本稿では,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,ertとそれに対応するインスタンス依存下限に対する後悔の限界を提供することにより,エントロピーリスク(er)の測定と検討する。

The multi-armed bandit (MAB) problem is a ubiquitous decision-making problem that exemplifies exploration-exploitation tradeoff. Standard formulations exclude risk in decision making. Risknotably complicates the basic reward-maximising objectives, in part because there is no universally agreed definition of it. In this paper, we consider an entropic risk (ER) measure and explore the performance of a Thompson sampling-based algorithm ERTS under this risk measure by providing regret bounds for ERTS and corresponding instance dependent lower bounds.
翻訳日:2021-05-17 14:50:01 公開日:2021-05-14
# (参考訳) 相対的なクロース表現の因果関係が合意予測に及ぼす影響を否定する対人的介入

Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction ( http://arxiv.org/abs/2105.06965v1 )

ライセンス: CC BY 4.0
Shauli Ravfogel, Grusha Prasad, Tal Linzen, Yoav Goldberg(参考訳) 言語モデルが構文的に複雑な文を処理する場合、これらの文に存在する抽象構文情報は英語の文法と一致しているか、それともヒューリスティックのセットのみに依存しているのか? 本稿では,この問題に対処する手法AlterRepを提案する。 文中の任意の言語的特徴に対して、alterrepは、この特徴がどのようにエンコードされるかを変更しながら、元の表現の他のすべての側面をそのままにすることで、偽の表現を生成することができる。 そして、異なる文におけるこれらの反事実表現を用いてモデルの単語予測の変化を測定することにより、モデルが言語的特徴を使用する文脈について(もしあれば)因果的結論を導き出すことができる。 この手法を用いて,BERT が相対節(RC)をいかに情報に当てはめているかを調べることで,言語戦略を用いた合意予測において,BERT が RC に関する情報を使用することがわかった。 また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。

When language models process syntactically complex sentences, do they use abstract syntactic information present in these sentences in a manner that is consistent with the grammar of English, or do they rely solely on a set of heuristics? We propose a method to tackle this question, AlterRep. For any linguistic feature in the sentence, AlterRep allows us to generate counterfactual representations by altering how this feature is encoded, while leaving all other aspects of the original representation intact. Then, by measuring the change in a models' word prediction with these counterfactual representations in different sentences, we can draw causal conclusions about the contexts in which the model uses the linguistic feature (if any). Applying this method to study how BERT uses relative clause (RC) span information, we found that BERT uses information about RC spans during agreement prediction using the linguistically strategy. We also found that counterfactual representations generated for a specific RC subtype influenced the number prediction in sentences with other RC subtypes, suggesting that information about RC boundaries was encoded abstractly in BERT's representation.
翻訳日:2021-05-17 14:07:30 公開日:2021-05-14
# (参考訳) シームズネットワークを用いた小型ギャラリーのオープンセット顔認識

Open-set Face Recognition for Small Galleries Using Siamese Networks ( http://arxiv.org/abs/2105.06967v1 )

ライセンス: CC BY 4.0
Gabriel Salomon, Alceu Britto, Rafael H. Vareto, William R. Schwartz, David Menotti(参考訳) 顔認識はバイオメトリックスの最も重要で探求された分野の1つである。 現実世界のアプリケーションでは、顔認識手法は通常、トレーニングフェーズ(オープンセットのシナリオ)中に全てのプローブ個人が見られたわけではないシナリオを扱う必要がある。 したがって、すべての顔が事前に知られているわけではない空間における個人を特定することを扱うため、オープンセットの顔認識は関心を増す。 これは、アクセス認証のようないくつかのアプリケーションで有用であり、ギャラリーに以前登録された少数の個人だけが許可されている。 本研究は, オープンセット顔認識への新しいアプローチとして, アイデンティティ検索ではなく, 小規模のギャラリーと登録検出に着目した手法を提案する。 フェースプローブがギャラリーに登録されているかどうかを検証ライクなアプローチで検出するモデルを学習するために,シームズネットワークアーキテクチャを提案する。 pubfig83、frgcv1およびlfwデータセットで実施した実験において、小規模のギャラリーで有望な結果が得られた。 HFCNやHPLSのような最先端の手法はFRGCv1よりも優れていた。 また,lfw上の小ギャラリー実験に新たな評価プロトコルが導入された。

Face recognition has been one of the most relevant and explored fields of Biometrics. In real-world applications, face recognition methods usually must deal with scenarios where not all probe individuals were seen during the training phase (open-set scenarios). Therefore, open-set face recognition is a subject of increasing interest as it deals with identifying individuals in a space where not all faces are known in advance. This is useful in several applications, such as access authentication, on which only a few individuals that have been previously enrolled in a gallery are allowed. The present work introduces a novel approach towards open-set face recognition focusing on small galleries and in enrollment detection, not identity retrieval. A Siamese Network architecture is proposed to learn a model to detect if a face probe is enrolled in the gallery based on a verification-like approach. Promising results were achieved for small galleries on experiments carried out on Pubfig83, FRGCv1 and LFW datasets. State-of-the-art methods like HFCN and HPLS were outperformed on FRGCv1. Besides, a new evaluation protocol is introduced for experiments in small galleries on LFW.
翻訳日:2021-05-17 13:49:21 公開日:2021-05-14
# (参考訳) Omnimatte: オブジェクトの関連とビデオへの影響

Omnimatte: Associating Objects and Their Effects in Video ( http://arxiv.org/abs/2105.06993v1 )

ライセンス: CC BY 4.0
Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T. Freeman, Michael Rubinstein(参考訳) コンピュータビジョンは、画像やビデオのオブジェクトのセグメンテーションに益々有効であるが、シャドウ、反射、発煙などのオブジェクトに関連するシーン効果は見過ごされている。 このようなシーン効果を識別し、それらを生成するオブジェクトと関連付けることは、視覚シーンの基本的な理解を改善するために重要であり、また、ビデオ内のオブジェクトの削除、複製、拡張といった様々なアプリケーションを支援することもできる。 そこで本研究では,映像中の物体とそれらの効果を自動的に関連付けるという,この新たな問題を解決するための一歩を踏み出した。 1つ以上の被写体の時間に通常のビデオと粗いセグメンテーションマスクが与えられた場合、各被写体のオムニマットを推定する。 我々のモデルは、手動のラベルを使わずに、自己監督的な方法でのみ訓練され、任意のオブジェクトや様々な効果に対して、オムニマトを自動生成する。 被験者(車、動物、人間)と複雑な効果(煙や反射など半透明な要素から被写体に付随する物体のような完全に不透明な効果まで)の相互作用を含む実世界ビデオに結果を示す。

Computer vision is increasingly effective at segmenting objects in images and videos; however, scene effects related to the objects---shadows, reflections, generated smoke, etc---are typically overlooked. Identifying such scene effects and associating them with the objects producing them is important for improving our fundamental understanding of visual scenes, and can also assist a variety of applications such as removing, duplicating, or enhancing objects in video. In this work, we take a step towards solving this novel problem of automatically associating objects with their effects in video. Given an ordinary video and a rough segmentation mask over time of one or more subjects of interest, we estimate an omnimatte for each subject---an alpha matte and color image that includes the subject along with all its related time-varying scene elements. Our model is trained only on the input video in a self-supervised manner, without any manual labels, and is generic---it produces omnimattes automatically for arbitrary objects and a variety of effects. We show results on real-world videos containing interactions between different types of subjects (cars, animals, people) and complex effects, ranging from semi-transparent elements such as smoke and reflections, to fully opaque effects such as objects attached to the subject.
翻訳日:2021-05-17 13:38:55 公開日:2021-05-14
# (参考訳) BERTバスターズ:BERTをディスラプトする外層ノーム次元

BERT Busters: Outlier LayerNorm Dimensions that Disrupt BERT ( http://arxiv.org/abs/2105.06990v1 )

ライセンス: CC BY 4.0
Olga Kovaleva, Saurabh Kulshreshtha, Anna Rogers and Anna Rumshisky(参考訳) 複数の研究によると、BERTはプルーニングに対して極めて堅牢であるが、下流のタスク全体においてそのコンポーネントが高い重要性を維持している場合はほとんどない。 学習前のTransformerエンコーダは,この知恵とは対照的に,出力層正規化における非常に少数のスケーリング係数とバイアス(モデル重みの0.0001%)の除去により,驚くほど脆弱であることを示す。 これらは、事前訓練の初期に出現し、モデル全体で同じ次元の位置に一貫して現れる高次正規化パラメータである。 bertファミリーの6つのモデルすべてに存在し、mlmのパープレキシティと下流のタスクパフォーマンスを著しく低下させ、取り除いた。 以上の結果から,通常よりも層正規化が重要な役割を担っていることが示唆された。

Multiple studies have shown that BERT is remarkably robust to pruning, yet few if any of its components retain high importance across downstream tasks. Contrary to this received wisdom, we demonstrate that pre-trained Transformer encoders are surprisingly fragile to the removal of a very small number of scaling factors and biases in the output layer normalization (<0.0001% of model weights). These are high-magnitude normalization parameters that emerge early in pre-training and show up consistently in the same dimensional position throughout the model. They are present in all six models of BERT family that we examined and removing them significantly degrades both the MLM perplexity and the downstream task performance. Our results suggest that layer normalization plays a much more important role than usually assumed.
翻訳日:2021-05-17 13:14:31 公開日:2021-05-14
# ビデオ質問応答のための関係認識階層的注意フレームワーク

Relation-aware Hierarchical Attention Framework for Video Question Answering ( http://arxiv.org/abs/2105.06160v2 )

ライセンス: Link先を確認
Fangtao Li, Ting Bai, Chenyu Cao, Zihe Liu, Chenghao Yan, Bin Wu(参考訳) Video Question Answering (VideoQA)は、質問とビデオの両方の深い理解を必要とするため、難しいビデオ理解タスクである。 これまでの研究は主に、高度な視覚および言語埋め込みの抽出に重点を置いており、手作りの繊細なネットワークでそれらを融合している。 しかし,既存のほとんどの手法では無視される時間とともに,問題に対する異なるフレーム,オブジェクト,モダリティの関連性が異なる。 オブジェクト間の動的関係と相互作用に関する理解の欠如は、VideoQAタスクに大きな課題をもたらします。 この問題に対処するために,ビデオ中のオブジェクトの静的および動的関係を学習するためのrha(relation-aware hierarchical attention)フレームワークを提案する。 特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。 次に、グラフベースの関係エンコーダを用いて、視覚オブジェクト間の静的関係を抽出する。 異なる映像フレームにおけるマルチモーダルオブジェクトの動的変化を捉えるために,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダル特徴を融合させ,応答を予測する。 我々は大規模なビデオQAデータセットで広範な実験を行い、実験結果からRHAが最先端の手法よりも優れていることが示された。

Video Question Answering (VideoQA) is a challenging video understanding task since it requires a deep understanding of both question and video. Previous studies mainly focus on extracting sophisticated visual and language embeddings, fusing them by delicate hand-crafted networks. However, the relevance of different frames, objects, and modalities to the question are varied along with the time, which is ignored in most of existing methods. Lacking understanding of the the dynamic relationships and interactions among objects brings a great challenge to VideoQA task. To address this problem, we propose a novel Relation-aware Hierarchical Attention (RHA) framework to learn both the static and dynamic relations of the objects in videos. In particular, videos and questions are embedded by pre-trained models firstly to obtain the visual and textual features. Then a graph-based relation encoder is utilized to extract the static relationship between visual objects. To capture the dynamic changes of multimodal objects in different video frames, we consider the temporal, spatial, and semantic relations, and fuse the multimodal features by hierarchical attention mechanism to predict the answer. We conduct extensive experiments on a large scale VideoQA dataset, and the experimental results demonstrate that our RHA outperforms the state-of-the-art methods.
翻訳日:2021-05-17 12:57:59 公開日:2021-05-14
# SaRoCo:新しいルーマニアのニュース記事のコーパスでサファイアを検出する

SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles ( http://arxiv.org/abs/2105.06456v2 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Mihaela Gaman, Radu Tudor Ionescu(参考訳) 本稿では,ルーマニアニュースにおける風刺検出のためのコーパスを提案する。 我々は、複数の現実および風刺的なニュースソースから55,608件のニュース記事を収集し、言語に関係なく、ルーマニア語で唯一風刺検出のための最大のコーパスの1つを作成した。 本稿では,テストニュース記事と異なる情報源に属するニュース記事のトレーニングを行うためのテキストサンプルを公式に分割し,過度な適合のため,モデルがハイパフォーマンスを達成できないことを保証する。 2つの最先端のディープニューラルモデルで実験を行い、その結果、新しいコーパスの強力なベースラインが出来上がった。 その結果,ルーマニア語における風刺検出の機械レベルの精度は,人間レベルの精度(87%)に比べ非常に低く,今後の研究に十分な改善の余地を残していることがわかった。

In this work, we introduce a corpus for satire detection in Romanian news. We gathered 55,608 public news articles from multiple real and satirical news sources, composing one of the largest corpora for satire detection regardless of language and the only one for the Romanian language. We provide an official split of the text samples, such that training news articles belong to different sources than test news articles, thus ensuring that models do not achieve high performance simply due to overfitting. We conduct experiments with two state-of-the-art deep neural models, resulting in a set of strong baselines for our novel corpus. Our results show that the machine-level accuracy for satire detection in Romanian is quite low (under 73% on the test set) compared to the human-level accuracy (87%), leaving enough room for improvement in future research.
翻訳日:2021-05-17 12:57:38 公開日:2021-05-14
# ミャンマー音声認識のためのCTCに基づくエンドツーエンド手法の探索

Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition ( http://arxiv.org/abs/2105.06253v2 )

ライセンス: Link先を確認
Khin Me Me Chit, Laet Laet Lin(参考訳) 本研究では,ミャンマー語における接続型時間分類(CTC)に基づくエンドツーエンド自動音声認識(ASR)モデルについて検討する。 畳み込み層を追加・ドロップするモデルのトポロジーに一連の実験を行い、双方向長短期記憶層(BLSTM)の深度を異なるラベル符号化法を用いて検討した。 実験はミャンマーの音声コーパスを26時間近く使用して低リソースシナリオで実施した。 最良のモデルは4.72%の文字誤り率(CER)と12.38%の音節誤り率(SER)を達成する。

In this work, we explore a Connectionist Temporal Classification (CTC) based end-to-end Automatic Speech Recognition (ASR) model for the Myanmar language. A series of experiments is presented on the topology of the model in which the convolutional layers are added and dropped, different depths of bidirectional long short-term memory (BLSTM) layers are used and different label encoding methods are investigated. The experiments are carried out in low-resource scenarios using our recorded Myanmar speech corpus of nearly 26 hours. The best model achieves character error rate (CER) of 4.72% and syllable error rate (SER) of 12.38% on the test set.
翻訳日:2021-05-17 12:57:22 公開日:2021-05-14
# TransferI2I:小さなデータセットからの画像間変換のためのトランスファー学習

TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets ( http://arxiv.org/abs/2105.06219v2 )

ライセンス: Link先を確認
Yaxing Wang, Hector Laria Mantecon, Joost van de Weijer, Laura Lopez-Fuentes, Bogdan Raducanu(参考訳) 画像から画像への変換(I2I)は近年成熟しており、高品質なリアルな画像を生成することができる。 しかし、現在の成功にもかかわらず、小さなドメインに適用する場合、依然として重要な課題に直面している。 既存の方法はi2i翻訳に転送学習を使用するが、それでも数百万のパラメータをスクラッチから学習する必要がある。 この欠点は、小さなドメインへの適用を厳しく制限する。 本稿では,I2I翻訳のための新しいトランスファー学習(TransferI2I)を提案する。 学習プロセスを画像生成ステップとI2I翻訳ステップに分離する。 最初のステップでは、ソースターゲットの初期化とアダプタ層の自己初期化という2つの新しい手法を提案する。 前者は、ソースおよびターゲットデータに対して事前訓練された生成モデル(例えばstylegan)を微調整する。 後者では、データを必要としないネットワークパラメータを初期化することができる。 これらの技術は、I2I翻訳ステップのより優れた初期化を提供する。 さらに,小データセットからでも深部I2Iシステムのトレーニングを容易にする補助的なGANを導入する。 3つのデータセット(Animal face, Birds, Foods)の広範な実験では、既存の手法よりも優れており、mFIDは25以上の点を持つ複数のデータセットで改善されている。

Image-to-image (I2I) translation has matured in recent years and is able to generate high-quality realistic images. However, despite current success, it still faces important challenges when applied to small domains. Existing methods use transfer learning for I2I translation, but they still require the learning of millions of parameters from scratch. This drawback severely limits its application on small domains. In this paper, we propose a new transfer learning for I2I translation (TransferI2I). We decouple our learning process into the image generation step and the I2I translation step. In the first step we propose two novel techniques: source-target initialization and self-initialization of the adaptor layer. The former finetunes the pretrained generative model (e.g., StyleGAN) on source and target data. The latter allows to initialize all non-pretrained network parameters without the need of any data. These techniques provide a better initialization for the I2I translation step. In addition, we introduce an auxiliary GAN that further facilitates the training of deep I2I systems even from small datasets. In extensive experiments on three datasets, (Animal faces, Birds, and Foods), we show that we outperform existing methods and that mFID improves on several datasets with over 25 points.
翻訳日:2021-05-17 12:57:11 公開日:2021-05-14
# FeTS (Feerated tumor Segmentation) の挑戦

The Federated Tumor Segmentation (FeTS) Challenge ( http://arxiv.org/abs/2105.05874v2 )

ライセンス: Link先を確認
Sarthak Pati, Ujjwal Baid, Maximilian Zenk, Brandon Edwards, Micah Sheller, G. Anthony Reina, Patrick Foley, Alexey Gruzdev, Jason Martin, Shadi Albarqouni, Yong Chen, Russell Taki Shinohara, Annika Reinke, David Zimmerer, John B. Freymann, Justin S. Kirby, Christos Davatzikos, Rivka R. Colen, Aikaterini Kotrotsou, Daniel Marcus, Mikhail Milchenko, Arash Nazer, Hassan Fathallah-Shaykh, Roland Wiest, Andras Jakab, Marc-Andre Weber, Abhishek Mahajan, Lena Maier-Hein, Jens Kleesiek, Bjoern Menze, Klaus Maier-Hein, Spyridon Bakas(参考訳) 本論文は,FeTS(Federated tumor Segmentation)の2021年の課題として,フェデレートラーニングに関する最初の課題について述べる。 しかし、「実世界の」臨床データに対する実際の参加(勝利でさえ)アルゴリズムのパフォーマンスは、課題に含まれるデータは、通常、少数の機関で非常に制御された設定で取得されるため、しばしば不明である。 このような課題において、ますます多くの機関からデータを集めるという明らかな解決策は、プライバシーと所有権のハードルのためにうまくスケールしない。 これらの懸念を和らげるために,我々は,内在性異質性(外観,形状,組織学)脳腫瘍(グリオーマ)の分節モデルの開発と評価に向け,FeTSチャレンジ2021を提案する。 具体的には、FeTS 2021チャレンジでは、BraTS 2020チャレンジから取得した多施設磁気共鳴イメージング(MRI)スキャンと、現実世界のフェデレーション(https://www.fets.ai/)のコラボレーティブネットワークに含まれる様々なリモート独立機関を用いている。 fetsチャレンジのゴールは、1)複数の地理的に異なる機関からの連合学習によって知識を得たコンセンサスモデルのトレーニングに対する最適な重み集約アプローチの特定、2)脳腫瘍のセグメンテーションモデルの「野生」における一般化可能性の連合評価、の2つのタスクによって直接表現される。 トレーニングデータセットの一部ではない機関分布のデータについて。

This manuscript describes the first challenge on Federated Learning, namely the Federated Tumor Segmentation (FeTS) challenge 2021. International challenges have become the standard for validation of biomedical image analysis methods. However, the actual performance of participating (even the winning) algorithms on "real-world" clinical data often remains unclear, as the data included in challenges are usually acquired in very controlled settings at few institutions. The seemingly obvious solution of just collecting increasingly more data from more institutions in such challenges does not scale well due to privacy and ownership hurdles. Towards alleviating these concerns, we are proposing the FeTS challenge 2021 to cater towards both the development and the evaluation of models for the segmentation of intrinsically heterogeneous (in appearance, shape, and histology) brain tumors, namely gliomas. Specifically, the FeTS 2021 challenge uses clinically acquired, multi-institutional magnetic resonance imaging (MRI) scans from the BraTS 2020 challenge, as well as from various remote independent institutions included in the collaborative network of a real-world federation (https://www.fets.ai/). The goals of the FeTS challenge are directly represented by the two included tasks: 1) the identification of the optimal weight aggregation approach towards the training of a consensus model that has gained knowledge via federated learning from multiple geographically distinct institutions, while their data are always retained within each institution, and 2) the federated evaluation of the generalizability of brain tumor segmentation models "in the wild", i.e. on data from institutional distributions that were not part of the training datasets.
翻訳日:2021-05-17 12:56:43 公開日:2021-05-14
# HeunNet: Heunのメソッドを使ってResNetを拡張する

HeunNet: Extending ResNet using Heun's Methods ( http://arxiv.org/abs/2105.06168v2 )

ライセンス: Link先を確認
Mehrdad Maleki and Mansura Habiba and Barak A. Pearlmutter(参考訳) ディープニューラルネットワークのためのResNet(Residual Network)アーキテクチャとODEのためのEulerソルバとの間には類似性がある。 各層が行う変換は、ODEを解く際のオイラーステップに似ている。 We consider the Heun Method, which with a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we called a HeunNet。 HeunNetの手法がEulerの手法よりも正確であるように、実験により、HeunNetはバニラ再帰ニューラルネットワークや他のResNetの変種と比較して、低計算時間(トレーニングとテストの両方)で高い精度を達成することが示された。

There is an analogy between the ResNet (Residual Network) architecture for deep neural networks and an Euler solver for an ODE. The transformation performed by each layer resembles an Euler step in solving an ODE. We consider the Heun Method, which involves a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we call a HeunNet. Just as Heun's method is more accurate than Euler's, experiments show that HeunNet achieves high accuracy with low computational (both training and test) time compared to both vanilla recurrent neural networks and other ResNet variants.
翻訳日:2021-05-17 12:56:13 公開日:2021-05-14
# 文脈対応翻訳モデルは適切な注意を払うか?

Do Context-Aware Translation Models Pay the Right Attention? ( http://arxiv.org/abs/2105.06977v1 )

ライセンス: Link先を確認
Kayo Yin, Patrick Fernandes, Danish Pruthi, Aditi Chaudhary, Andr\'e F. T. Martins, Graham Neubig(参考訳) コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 結果として、解決のために文脈を必要とする代名詞と多義語を不正確に曖昧にする。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 モデルは同じ文脈に多くの注意を払っていますか? それらを明示的にトレーニングすればどうでしょう? そこで本研究では,14K翻訳の文脈語をサポートする英語・フランス語のデータセットであるSCAT(Supporting Context for Ambiguous Translations)を紹介する。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。 さらに,モデルの注意点とSCATからの支持状況との整合度を測定し,両者の合意を促進するための注意戦略を適用した。

Context-aware machine translation models are designed to leverage contextual information, but often fail to do so. As a result, they inaccurately disambiguate pronouns and polysemous words that require context for resolution. In this paper, we ask several questions: What contexts do human translators use to resolve ambiguous words? Are models paying large amounts of attention to the same context? What if we explicitly train them to do so? To answer these questions, we introduce SCAT (Supporting Context for Ambiguous Translations), a new English-French dataset comprising supporting context words for 14K translations that professional translators found useful for pronoun disambiguation. Using SCAT, we perform an in-depth analysis of the context used to disambiguate, examining positional and lexical characteristics of the supporting words. Furthermore, we measure the degree of alignment between the model's attention scores and the supporting context from SCAT, and apply a guided attention strategy to encourage agreement between the two.
翻訳日:2021-05-17 12:55:58 公開日:2021-05-14
# プロキシターゲットを持つ多数のクラスへのアンサンブル分布蒸留のスケーリング

Scaling Ensemble Distribution Distillation to Many Classes with Proxy Targets ( http://arxiv.org/abs/2105.06987v1 )

ライセンス: Link先を確認
Max Ryabinin, Andrey Malinin, Mark Gales(参考訳) 機械学習モデルのアンサンブルは、システム性能の改善と、堅牢で解釈可能な不確実性推定をもたらすが、その推論コストは、しばしば違法に高い。 emph{ensemble distribution distillation} は、1つのモデルがアンサンブルの予測性能と不確実性の両方を効率的に捉えることができるアプローチである。 分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。 理論上は原則だが、クラス数が非常に高い大規模タスクに適用すると、この基準は収束性に乏しい。 本研究では,この効果を分析し,確率の低いディリクレ対数様条件クラスが,高確率クラスよりも大きな勾配を生じさせることを示した。 これによりモデルは、アンサンブルのテールクラス確率の分布に焦点を合わせることができる。 アンサンブルから派生した \emph{Proxy-Dirichlet} ターゲットに対する逆 KL 分割を最小化する新たな学習目標を提案する。 この損失は,1000および40,000のクラスを含むImageNetおよびWMT17 En-Deデータセットにおいて,理論的および実証的に,Ensemble Distribution Distillationの勾配問題を解消する。

Ensembles of machine learning models yield improved system performance as well as robust and interpretable uncertainty estimates; however, their inference costs may often be prohibitively high. \emph{Ensemble Distribution Distillation} is an approach that allows a single model to efficiently capture both the predictive performance and uncertainty estimates of an ensemble. For classification, this is achieved by training a Dirichlet distribution over the ensemble members' output distributions via the maximum likelihood criterion. Although theoretically principled, this criterion exhibits poor convergence when applied to large-scale tasks where the number of classes is very high. In our work, we analyze this effect and show that the Dirichlet log-likelihood criterion classes with low probability induce larger gradients than high-probability classes. This forces the model to focus on the distribution of the ensemble tail-class probabilities. We propose a new training objective that minimizes the reverse KL-divergence to a \emph{Proxy-Dirichlet} target derived from the ensemble. This loss resolves the gradient issues of Ensemble Distribution Distillation, as we demonstrate both theoretically and empirically on the ImageNet and WMT17 En-De datasets containing 1000 and 40,000 classes, respectively.
翻訳日:2021-05-17 12:55:42 公開日:2021-05-14
# 接地テキスト生成のための共同検索と生成訓練

Joint Retrieval and Generation Training for Grounded Text Generation ( http://arxiv.org/abs/2105.06597v1 )

ライセンス: Link先を確認
Yizhe Zhang, Siqi Sun, Xiang Gao, Yuwei Fang, Chris Brockett, Michel Galley, Jianfeng Gao, Bill Dolan(参考訳) GPT-3のような大規模事前学習の進歩により、与えられたプロンプトから高品質なテキストを生成することができる。 しかし、このような生成システムは、しばしば幻覚的な事実の問題に悩まされ、本質的に有用な外部情報を組み込むように設計されていない。 グラウンドドジェネレーションモデルは改善を提供するように見えるが、そのトレーニングは通常、コンテキストに対応するドキュメントが提供される稀な並列データに依存している。 本稿では,この制約を緩和するための枠組みとして,言語モデル信号を用いた接地生成器と文書検索器の協調学習を提案する。 モデルは、生成時に最高のユーティリティでドキュメントを取得することを学習し、それらを出力に注意深く組み合わせる。 提案手法は,外部参照を活用することで,文末生成と対話生成の両面で,より情報に富んだ興味深いテキストを生成できることを実証する。

Recent advances in large-scale pre-training such as GPT-3 allow seemingly high quality text to be generated from a given prompt. However, such generation systems often suffer from problems of hallucinated facts, and are not inherently designed to incorporate useful external information. Grounded generation models appear to offer remedies, but their training typically relies on rarely-available parallel data where corresponding documents are provided for context. We propose a framework that alleviates this data constraint by jointly training a grounded generator and document retriever on the language model signal. The model learns to retrieve the documents with the highest utility in generation and attentively combines them in the output. We demonstrate that by taking advantage of external references our approach can produce more informative and interesting text in both prose and dialogue generation.
翻訳日:2021-05-17 12:55:21 公開日:2021-05-14
# 関係予測器を用いたニューラルシンボリックコモンセンス推論

Neural-Symbolic Commonsense Reasoner with Relation Predictors ( http://arxiv.org/abs/2105.06717v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Lizhen Qu, Yue Zhuo, Gholamreza Haffari, Mahsa Baktashmotlagh(参考訳) Commonsense reasoningは、Commonsense Knowledge Graphs (CKG)から取得した一連のCommonsense factsを統合することを目的としており、通常の状況に関する結論を引き出す。 コモンセンス知識の動的性質は、新しい状況でマルチホップ推論が可能なモデルを仮定する。 この機能はまた、新しいイベント間の関係を予測するのにそのような推論プロセスが必要な大規模なスパースナレッジグラフを持つことになる。 しかし、この領域の既存のアプローチは、CKGを限られた事実の集合として考えることで制限されているため、新しい目に見えない状況や出来事の推論には適さない。 本稿では,大規模動的ckg上での推論が可能なニューラルシンボリック推論器を提案する。 CKGに対する推論の論理ルールは、我々のモデルによって学習される。 解釈可能な説明を提供するのに加えて、学習された論理ルールは、新しく導入されたイベントへの予測を一般化するのに役立ちます。 CKGにおけるリンク予測の課題に関する実験結果から,最先端モデルよりも優れた結果が得られた。

Commonsense reasoning aims to incorporate sets of commonsense facts, retrieved from Commonsense Knowledge Graphs (CKG), to draw conclusion about ordinary situations. The dynamic nature of commonsense knowledge postulates models capable of performing multi-hop reasoning over new situations. This feature also results in having large-scale sparse Knowledge Graphs, where such reasoning process is needed to predict relations between new events. However, existing approaches in this area are limited by considering CKGs as a limited set of facts, thus rendering them unfit for reasoning over new unseen situations and events. In this paper, we present a neural-symbolic reasoner, which is capable of reasoning over large-scale dynamic CKGs. The logic rules for reasoning over CKGs are learned during training by our model. In addition to providing interpretable explanation, the learned logic rules help to generalise prediction to newly introduced events. Experimental results on the task of link prediction on CKGs prove the effectiveness of our model by outperforming the state-of-the-art models.
翻訳日:2021-05-17 12:55:07 公開日:2021-05-14
# テキスト分類のための文脈埋め込み空間の外部正規化

Out-of-Manifold Regularization in Contextual Embedding Space for Text Classification ( http://arxiv.org/abs/2105.06750v1 )

ライセンス: Link先を確認
Seonghyeon Lee, Dongha Lee and Hwanjo Yu(参考訳) トレーニング済みの重みを持つニューラルネットワーク(BERT)に関する最近の研究は、入力語(またはそれらの文脈)から計算された埋め込みベクトルが位置する低次元の部分空間に主に焦点を当てている。 本研究では,単語を通してアクセスできない「アウト・オブ・マニフォールド(out-of-manifold)」と呼ばれる空間の残りの部分の探索と規則化のための新しいアプローチを提案する。 具体的には,実際に観測された単語から得られた2つの埋め込みに基づいて,ネットワークの微調整に利用する。 判別器は、入力埋め込みが多様体内にあるか否かを検出するように訓練され、同時に、ジェネレータは、判別器によって容易に外形として識別できる新しい埋め込みを生成するように最適化される。 これら2つのモジュールは、統一されたエンドツーエンドの方法で協調して、アウトオブマニフォールドを定式化することに成功した。 各種テキスト分類ベンチマークの広範な評価は,本手法の有効性と,その拡張を目的とした既存のデータ拡張手法との整合性を示すものである。

Recent studies on neural networks with pre-trained weights (i.e., BERT) have mainly focused on a low-dimensional subspace, where the embedding vectors computed from input words (or their contexts) are located. In this work, we propose a new approach to finding and regularizing the remainder of the space, referred to as out-of-manifold, which cannot be accessed through the words. Specifically, we synthesize the out-of-manifold embeddings based on two embeddings obtained from actually-observed words, to utilize them for fine-tuning the network. A discriminator is trained to detect whether an input embedding is located inside the manifold or not, and simultaneously, a generator is optimized to produce new embeddings that can be easily identified as out-of-manifold by the discriminator. These two modules successfully collaborate in a unified and end-to-end manner for regularizing the out-of-manifold. Our extensive evaluation on various text classification benchmarks demonstrates the effectiveness of our approach, as well as its good compatibility with existing data augmentation techniques which aim to enhance the manifold.
翻訳日:2021-05-17 12:54:50 公開日:2021-05-14
# 異常検出におけるadversarial discriminative transferの重要性

Importance Weighted Adversarial Discriminative Transfer for Anomaly Detection ( http://arxiv.org/abs/2105.06649v1 )

ライセンス: Link先を確認
Cangning Fan, Fangyi Zhang, Peng Liu, Xiuyu Sun, Hao Li, Ting Xiao, Wei Zhao, Xianglong Tang(参考訳) 異常検出のための以前の転送方法は、一般的にソースまたはターゲットドメインのラベル付きデータの可用性を前提としている。 しかし、大規模なラベル付きデータが高価すぎる多くの実アプリケーションでは、そのような仮定は有効ではない。 そこで本稿では,対象ドメインにラベル付き正規/異常データがなく,関連するソースドメインからの正規データのみが存在するケースにおいて,異常検出知識を教師なしで転送するための重み付き対向オートエンコーダ方式を提案する。 具体的には、ソース領域とターゲット領域の両方で正規データの分布を調整することを学習するが、ターゲット領域における異常データの分布は変わらない。 このようにして、対象領域内の正常データと異常データの分布との間に明らかなギャップが生じ、ドメイン内の異常検出を可能にする。 複数の合成データセットに対する大規模な実験とUCSDベンチマークにより,本手法の有効性が示された。 コードはhttps://github.com/fancangning/anomaly_detection_transferで入手できる。

Previous transfer methods for anomaly detection generally assume the availability of labeled data in source or target domains. However, such an assumption is not valid in most real applications where large-scale labeled data are too expensive. Therefore, this paper proposes an importance weighted adversarial autoencoder-based method to transfer anomaly detection knowledge in an unsupervised manner, particularly for a rarely studied scenario where a target domain has no labeled normal/abnormal data while only normal data from a related source domain exist. Specifically, the method learns to align the distributions of normal data in both source and target domains, but leave the distribution of abnormal data in the target domain unchanged. In this way, an obvious gap can be produced between the distributions of normal and abnormal data in the target domain, therefore enabling the anomaly detection in the domain. Extensive experiments on multiple synthetic datasets and the UCSD benchmark demonstrate the effectiveness of our approach. The code is available at https://github.com/fancangning/anomaly_detection_transfer.
翻訳日:2021-05-17 12:53:56 公開日:2021-05-14
# メタRLにおける隠れ状態と隠れタスクの遠絡信念の推定

Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-RL ( http://arxiv.org/abs/2105.06660v1 )

ライセンス: Link先を確認
Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo(参考訳) meta-reinforcement learning (meta-rl)アルゴリズムの設計にはかなりの関心がある。 meta-rlでは、現在のタスクの仕様(報酬関数など)がエージェントから隠されている。 さらに、センサーノイズや現実的な環境の制限により、各タスクに状態が隠されている。 そのため、メタRLエージェントは、少ない経験量に基づいて隠れたタスクと状態の両方を指定するという課題に直面している。 そこで本研究では,タスクと状態がグローバルかつ局所的な特徴と見なせる帰納的バイアスを生かして,タスクと状態に関する不整合信念を推定することを提案する。 具体的には,グローバル変数とローカル変数がそれぞれタスクと状態に対応する環境モデルとして,ディープニューラルネットワークによってパラメータ化された階層的状態空間モデル(HSSM)を訓練する。 hssmは後方分布の解析的な計算、すなわち信念を許さないので、それを近似するために償却推論を用いる。 信念が得られたら、モデルフリー政策の観察を、効率的に政策を訓練する信念で強化することができる。 また、タスク情報と状態情報は因子化・解釈可能であるため、階層的性質を考慮しない先行手法と比較して下流政策訓練が容易となる。 GridWorld環境における実証的な検証は、HSSMが隠されたタスクを分離し、情報を記述できることを確認する。 次に,MuJoCo環境におけるメタRLエージェントとHSSMを比較し,トレーニングデータが少ないこと,最終性能が高いことを確認する。

There is considerable interest in designing meta-reinforcement learning (meta-RL) algorithms, which enable autonomous agents to adapt new tasks from small amount of experience. In meta-RL, the specification (such as reward function) of current task is hidden from the agent. In addition, states are hidden within each task owing to sensor noise or limitations in realistic environments. Therefore, the meta-RL agent faces the challenge of specifying both the hidden task and states based on small amount of experience. To address this, we propose estimating disentangled belief about task and states, leveraging an inductive bias that the task and states can be regarded as global and local features of each task. Specifically, we train a hierarchical state-space model (HSSM) parameterized by deep neural networks as an environment model, whose global and local latent variables correspond to task and states, respectively. Because the HSSM does not allow analytical computation of posterior distribution, i.e., belief, we employ amortized inference to approximate it. After the belief is obtained, we can augment observations of a model-free policy with the belief to efficiently train the policy. Moreover, because task and state information are factorized and interpretable, the downstream policy training is facilitated compared with the prior methods that did not consider the hierarchical nature. Empirical validations on a GridWorld environment confirm that the HSSM can separate the hidden task and states information. Then, we compare the meta-RL agent with the HSSM to prior meta-RL methods in MuJoCo environments, and confirm that our agent requires less training data and reaches higher final performance.
翻訳日:2021-05-17 12:53:40 公開日:2021-05-14
# 分布強化学習のための効率的探索による非減少分位関数ネットワーク

Non-decreasing Quantile Function Network with Efficient Exploration for Distributional Reinforcement Learning ( http://arxiv.org/abs/2105.06696v1 )

ライセンス: Link先を確認
Fan Zhou, Zhoufan Zhu, Qi Kuang, Liwen Zhang(参考訳) 流通強化学習(distributional reinforcement learning, drl)はここ数年、広く検討されてきたが、人々がまだ対処しようとしている2つのオープン質問がある。 一つは、学習された分位関数の妥当性を保証する方法、もう一つは、分布情報の効率的な活用方法である。 本稿では,これら2つの分野の深層研究を促進するために,新たな視点を提供する。 まず、得られた量子関数の推定値の単調性を保証するための非減少量子関数ネットワーク(NDQFN)を提案し、次いで、量子関数全体の分布を利用するDRLのための分布予測誤差(DPE)と呼ばれる一般的な探索フレームワークを設計する。 本稿では,本手法の理論的必要性を論じるだけでなく,特にハード探索ゲームにおいて,Atari 2600 Gamesの競技者との比較により,実際に達成した性能向上を示す。

Although distributional reinforcement learning (DRL) has been widely examined in the past few years, there are two open questions people are still trying to address. One is how to ensure the validity of the learned quantile function, the other is how to efficiently utilize the distribution information. This paper attempts to provide some new perspectives to encourage the future in-depth studies in these two fields. We first propose a non-decreasing quantile function network (NDQFN) to guarantee the monotonicity of the obtained quantile estimates and then design a general exploration framework called distributional prediction error (DPE) for DRL which utilizes the entire distribution of the quantile function. In this paper, we not only discuss the theoretical necessity of our method but also show the performance gain it achieves in practice by comparing with some competitors on Atari 2600 Games especially in some hard-explored games.
翻訳日:2021-05-17 12:53:13 公開日:2021-05-14
# 決定の合理化:学習と推論の調整に関する実験

Discovering the Rationale of Decisions: Experiments on Aligning Learning and Reasoning ( http://arxiv.org/abs/2105.06758v1 )

ライセンス: Link先を確認
Cor Steging, Silja Renooij, Bart Verheij(参考訳) AIと法学では、正義を追求する際、意思決定支援のために設計されたシステムは説明可能であるべきである。 これらのシステムが公平で責任を負うためには、正しい判断をし、健全で透明な合理性を使って判断するべきです。 本稿では,専門的ソフトウェア開発における単体テストと同様に,専用テストケースを用いたモデル非依存的理性評価のための知識駆動手法を提案する。 本手法は,フィクションやノンフィクションの法的設定から,人工データセットから既知の知識構造を抽出する機械学習実験に適用する。 本手法により,ブラックボックス機械学習システムの理論的根拠を,どの要素が学習されているかを評価することで解析できることを示す。 また,理論評価の結果に基づいて,テーラーメイドのトレーニングデータを用いて合理性を調整できることを示した。

In AI and law, systems that are designed for decision support should be explainable when pursuing justice. In order for these systems to be fair and responsible, they should make correct decisions and make them using a sound and transparent rationale. In this paper, we introduce a knowledge-driven method for model-agnostic rationale evaluation using dedicated test cases, similar to unit-testing in professional software development. We apply this new method in a set of machine learning experiments aimed at extracting known knowledge structures from artificial datasets from fictional and non-fictional legal settings. We show that our method allows us to analyze the rationale of black-box machine learning systems by assessing which rationale elements are learned or not. Furthermore, we show that the rationale can be adjusted using tailor-made training data based on the results of the rationale evaluation.
翻訳日:2021-05-17 12:52:56 公開日:2021-05-14
# QAConv: インフォーマティブな会話に関する質問への回答

QAConv: Question Answering on Informative Conversations ( http://arxiv.org/abs/2105.06912v1 )

ライセンス: Link先を確認
Chien-Sheng Wu, Andrea Madotto, Wenhao Liu, Pascale Fung, Caiming Xiong(参考訳) 本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 オープンドメインやタスク指向の対話とは異なり、これらの会話は通常、長く、複雑で、非同期であり、強いドメイン知識を伴う。 計34,204組のQAペアを収集し,それぞれ10,259件の質問を人手による質問と機械による質問から抽出した。 長い会話をチャンクに分割し、質問生成器と対話要約器を補助ツールとして使用し、マルチホップ質問を収集する。 データセットには、接地されたチャンクが提供されるか、大きな会話プールから取得されるかによって、チャンクモードとフルモードの2つのテストシナリオがある。 実験の結果、既存のQAデータセットでトレーニングされた最先端のQAシステムはゼロショット能力に制限があり、我々の疑問は解決不可能であると予測する傾向がある。 我々のコーパス上の細調整システムは、それぞれチャンクモードとフルモードの両方で23.6%と13.6%の大幅な改善を達成できる。

This paper introduces QAConv, a new question answering (QA) dataset that uses conversations as a knowledge source. We focus on informative conversations including business emails, panel discussions, and work channels. Unlike open-domain and task-oriented dialogues, these conversations are usually long, complex, asynchronous, and involve strong domain knowledge. In total, we collect 34,204 QA pairs, including span-based, free-form, and unanswerable questions, from 10,259 selected conversations with both human-written and machine-generated questions. We segment long conversations into chunks, and use a question generator and dialogue summarizer as auxiliary tools to collect multi-hop questions. The dataset has two testing scenarios, chunk mode and full mode, depending on whether the grounded chunk is provided or retrieved from a large conversational pool. Experimental results show that state-of-the-art QA systems trained on existing QA datasets have limited zero-shot ability and tend to predict our questions as unanswerable. Fine-tuning such systems on our corpus can achieve significant improvement up to 23.6% and 13.6% in both chunk mode and full mode, respectively.
翻訳日:2021-05-17 12:52:44 公開日:2021-05-14
# Monash Time Series Forecasting Archive

Monash Time Series Forecasting Archive ( http://arxiv.org/abs/2105.06643v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Christoph Bergmeir, Geoffrey I. Webb, Rob J. Hyndman, Pablo Montero-Manso(参考訳) 今日では多くの企業や産業が、重要な研究領域を予測している時系列データに頼っている。 時系列の集合で訓練されたグローバルな予測モデルは、孤立した時系列で動作する従来の単変量予測モデルと比較して、正確な予測を提供する大きな可能性を示している。 しかし、現在、様々なデータセットで新しいグローバル予測アルゴリズムの性能を評価するために、研究コミュニティが利用可能な類似情報源からの時系列のデータセットを含む予測のための包括的な時系列アーカイブは存在しない。 本稿では,様々な領域から利用可能な20の時系列データセットを含む包括的時系列予測アーカイブを提案する。 また、特徴分析を行うことで、データセットを特徴付け、類似点と相違点を識別する。 さらに,このアーカイブを用いて予測アルゴリズムのベンチマークを行う研究者の利益のために,8つのエラーメトリクスにわたる全データセットを対象とした標準ベースライン予測手法の性能を示す。

Many businesses and industries nowadays rely on large quantities of time series data making time series forecasting an important research area. Global forecasting models that are trained across sets of time series have shown a huge potential in providing accurate forecasts compared with the traditional univariate forecasting models that work on isolated series. However, there are currently no comprehensive time series archives for forecasting that contain datasets of time series from similar sources available for the research community to evaluate the performance of new global forecasting algorithms over a wide variety of datasets. In this paper, we present such a comprehensive time series forecasting archive containing 20 publicly available time series datasets from varied domains, with different characteristics in terms of frequency, series lengths, and inclusion of missing values. We also characterise the datasets, and identify similarities and differences among them, by conducting a feature analysis. Furthermore, we present the performance of a set of standard baseline forecasting methods over all datasets across eight error metrics, for the benefit of researchers using the archive to benchmark their forecasting algorithms.
翻訳日:2021-05-17 12:52:06 公開日:2021-05-14
# ベイズ深層学習の優先順位:レビュー

Priors in Bayesian Deep Learning: A Review ( http://arxiv.org/abs/2105.06868v1 )

ライセンス: Link先を確認
Vincent Fortuin(参考訳) 前者の選択はベイズ推論ワークフローにおいて最も重要な部分の1つであるが、最近のベイズ深層学習モデルは標準ガウスのような非形式的な先行にしばしば逆戻りしている。 本稿では,ベイズ深層学習における事前選択の重要性を強調するとともに,(深い)ガウス過程,変分オートエンコーダ,ベイズニューラルネットワークに対して提案されている異なる事前選択について概説する。 データからこれらのモデルの事前学習方法についても概説する。 ベイズ深層学習の実践者に、モデルの事前仕様についてより慎重に考える動機を与え、その点についてインスピレーションを与えたいと思っています。

While the choice of prior is one of the most critical parts of the Bayesian inference workflow, recent Bayesian deep learning models have often fallen back on uninformative priors, such as standard Gaussians. In this review, we highlight the importance of prior choices for Bayesian deep learning and present an overview of different priors that have been proposed for (deep) Gaussian processes, variational autoencoders, and Bayesian neural networks. We also outline different methods of learning priors for these models from data. We hope to motivate practitioners in Bayesian deep learning to think more carefully about the prior specification for their models and to provide them with some inspiration in this regard.
翻訳日:2021-05-17 12:51:50 公開日:2021-05-14
# リアルな限界分布を持つ合成データを得るための深層生成法の適用

Adapting deep generative approaches for getting synthetic data with realistic marginal distributions ( http://arxiv.org/abs/2105.06907v1 )

ライセンス: Link先を確認
Kiana Farhadyar, Federico Bonofiglio, Daniela Zoeller and Harald Binder(参考訳) 合成データ生成は、プライバシー保護などの多様なアプリケーションに非常に関心がある。 可変オートエンコーダ(VAE)のような深層生成モデルは、元のデータからこのような合成データセットを作成するための一般的なアプローチである。 vaesの成功にもかかわらず、バイモーダル分布と歪曲限界分布に関しては制限がある。 これらは、VAEの潜在表現に典型的に使用される正規性仮定によって促進される一元対称分布から逸脱する。 潜在空間に他の分布を仮定する拡張があるが、多くの異なる分布を持つデータに対する柔軟性は一般的には向上しない。 そこで,本研究では,プリトランスフォーメーションを元の変数のレベルで利用することにより,バイモーダルデータとスキューデータに対処する新しい手法であるPTVAEを提案する。 データセットの各変数に対するパラメータ最適化によって、データを正規分布に近づけるために、2種類の変換が使用される。 本手法の性能を合成データ生成のための他の最先端手法と比較する。 視覚的な比較に加えて, 定量的評価に有用性測定を用いる。 その結果、PTVAEアプローチはバイモーダルデータとスキューデータの両方において他よりも優れていることがわかった。 さらに、このアプローチの単純さにより、VAEの他の拡張と組み合わせて使用することができる。

Synthetic data generation is of great interest in diverse applications, such as for privacy protection. Deep generative models, such as variational autoencoders (VAEs), are a popular approach for creating such synthetic datasets from original data. Despite the success of VAEs, there are limitations when it comes to the bimodal and skewed marginal distributions. These deviate from the unimodal symmetric distributions that are encouraged by the normality assumption typically used for the latent representations in VAEs. While there are extensions that assume other distributions for the latent space, this does not generally increase flexibility for data with many different distributions. Therefore, we propose a novel method, pre-transformation variational autoencoders (PTVAEs), to specifically address bimodal and skewed data, by employing pre-transformations at the level of original variables. Two types of transformations are used to bring the data close to a normal distribution by a separate parameter optimization for each variable in a dataset. We compare the performance of our method with other state-of-the-art methods for synthetic data generation. In addition to the visual comparison, we use a utility measurement for a quantitative evaluation. The results show that the PTVAE approach can outperform others in both bimodal and skewed data generation. Furthermore, the simplicity of the approach makes it usable in combination with other extensions of VAE.
翻訳日:2021-05-17 12:51:39 公開日:2021-05-14
# bnnpriors: 事前分布が異なるベイズ型ニューラルネットワーク推論のためのライブラリ

BNNpriors: A library for Bayesian neural network inference with different prior distributions ( http://arxiv.org/abs/2105.06964v1 )

ライセンス: Link先を確認
Vincent Fortuin, Adri\`a Garriga-Alonso, Mark van der Wilk, Laurence Aitchison(参考訳) ベイズニューラルネットワークは、キャリブレーションされた不確実性推定が不可欠であり、しばしば高い予測性能をもたらす多くのアプリケーションで大きな可能性を示してきた。 しかし、重量よりも優れた事前分布を選択することは依然として困難である。 等方性ガウス前駆体は、しばしば単純さのため、実際に選択されるが、真の前駆的信念をよく反映せず、準最適性能につながる可能性がある。 新しいライブラリであるbnnpriorsは,重畳型,階層型,混合型など,さまざまな事前定義のあるベイズ型ニューラルネットワーク上で,最先端のマルコフ連鎖モンテカルロ推論を可能にする。 さらに、新しいカスタムプリエントの設計と実装を容易にするモジュラーアプローチも踏襲している。 ベイズニューラルネットワークにおけるコールド後部効果の性質に関する基礎的な発見を促進し、将来の研究とこの分野の実践的応用を触媒することを期待している。

Bayesian neural networks have shown great promise in many applications where calibrated uncertainty estimates are crucial and can often also lead to a higher predictive performance. However, it remains challenging to choose a good prior distribution over their weights. While isotropic Gaussian priors are often chosen in practice due to their simplicity, they do not reflect our true prior beliefs well and can lead to suboptimal performance. Our new library, BNNpriors, enables state-of-the-art Markov Chain Monte Carlo inference on Bayesian neural networks with a wide range of predefined priors, including heavy-tailed ones, hierarchical ones, and mixture priors. Moreover, it follows a modular approach that eases the design and implementation of new custom priors. It has facilitated foundational discoveries on the nature of the cold posterior effect in Bayesian neural networks and will hopefully catalyze future research as well as practical applications in this area.
翻訳日:2021-05-17 12:51:17 公開日:2021-05-14
# サイバーセキュリティにおける異常検出--教師なし・グラフベース・教師付き学習手法-

Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and Supervised Learning Methods in Adversarial Environments ( http://arxiv.org/abs/2105.06742v1 )

ライセンス: Link先を確認
David A. Bierbrauer and Alexander Chang and Will Kritzer and Nathaniel D. Bastian(参考訳) 異常検出のための機械学習は、サイバーセキュリティの分野で広く研究されている。 今日の運用環境に固有ののは、機械学習モデルを回避しようとする敵対的機械学習の実践である。 本研究では,ネットワーク侵入検知システム設定における教師なし学習とグラフに基づく異常検出の可能性を検討するとともに,異常検出問題の教師付き学習にアンサンブルアプローチを活用する。 我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。 その結果,教師なしおよびグラフに基づく手法は,教師付き積み重ねアンサンブル法による異常検出において,2段階の精度で優れていた。 このモデルは、第1レベルの3つの異なる分類器で構成され、続いて第2レベルのネイブベイズまたは決定木分類器が続く。 我々のモデルは、テストされたレベル2の分類器全体にわたる悪意のあるサンプルに対して、0.97以上のF1スコアを維持している。 ネイブ・ベイズは平均1.12秒の最高レベル2の分類器であり、決定木は最高スコア0.98を維持している。

Machine learning for anomaly detection has become a widely researched field in cybersecurity. Inherent to today's operating environment is the practice of adversarial machine learning, which attempts to circumvent machine learning models. In this work, we examine the feasibility of unsupervised learning and graph-based methods for anomaly detection in the network intrusion detection system setting, as well as leverage an ensemble approach to supervised learning of the anomaly detection problem. We incorporate a realistic adversarial training mechanism when training our supervised models to enable strong classification performance in adversarial environments. Our results indicate that the unsupervised and graph-based methods were outperformed in detecting anomalies (malicious activity) by the supervised stacking ensemble method with two levels. This model consists of three different classifiers in the first level, followed by either a Naive Bayes or Decision Tree classifier for the second level. We see that our model maintains an F1-score above 0.97 for malicious samples across all tested level two classifiers. Notably, Naive Bayes is the fastest level two classifier averaging 1.12 seconds while Decision Tree maintains the highest AUC score of 0.98.
翻訳日:2021-05-17 12:51:00 公開日:2021-05-14
# ディープニューラルネットワークの対向防御のための有能な特徴外振器

Salient Feature Extractor for Adversarial Defense on Deep Neural Networks ( http://arxiv.org/abs/2105.06807v1 )

ライセンス: Link先を確認
Jinyin Chen, Ruoxi Chen, Haibin Zheng, Zhaoyan Ming, Wenrong Jiang and Chen Cui(参考訳) 近年、コンピュータビジョンの分野でディープラーニングモデルによって達成された前例のない成功を目撃している。 しかし、慎重に敵の例を作るための脆弱性も研究者の注目を集めている。 逆行例がモデルによって元のデータセットから学習された非ロバスト特徴(non-robust feature)に起因しているという観測に動機づけられ,サルエント特徴(sf)と自明特徴(tf)の概念を提案する。 前者はクラス関連の特徴を表し、後者はモデルを誤解させるために通常採用される。 本稿では,これら2つの特徴を生成的対向ネットワークモデルと組み合わせて抽出し,新たな検出・防御手法であるSalient Feature extractor(SFE)を提案する。 具体的には、入力のsfとtfの差を分離比較することにより検出を実現する。 同時に、防衛目的に到達するためにsfを再識別することで正しいラベルを得る。 MNIST、CIFAR-10、ImageNetデータセット上で、SFEはベースラインと比較して有効性と効率性を示す。 さらに,防御および検出過程の解釈可能な理解を提供する。

Recent years have witnessed unprecedented success achieved by deep learning models in the field of computer vision. However, their vulnerability towards carefully crafted adversarial examples has also attracted the increasing attention of researchers. Motivated by the observation that adversarial examples are due to the non-robust feature learned from the original dataset by models, we propose the concepts of salient feature(SF) and trivial feature(TF). The former represents the class-related feature, while the latter is usually adopted to mislead the model. We extract these two features with coupled generative adversarial network model and put forward a novel detection and defense method named salient feature extractor (SFE) to defend against adversarial attacks. Concretely, detection is realized by separating and comparing the difference between SF and TF of the input. At the same time, correct labels are obtained by re-identifying SF to reach the purpose of defense. Extensive experiments are carried out on MNIST, CIFAR-10, and ImageNet datasets where SFE shows state-of-the-art results in effectiveness and efficiency compared with baselines. Furthermore, we provide an interpretable understanding of the defense and detection process.
翻訳日:2021-05-17 12:50:41 公開日:2021-05-14
# 言語間伝達法の費用便益分析

A cost-benefit analysis of cross-lingual transfer methods ( http://arxiv.org/abs/2105.06813v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa, Luiz Henrique Bonifacio, Leandro Rodrigues de Souza, Roberto Lotufo and Rodrigo Nogueira(参考訳) 言語間移動の効果的な方法は、ある言語の教師付きデータセット上でバイリンガルまたは多言語モデルを微調整し、それをゼロショットで他の言語上で評価することである。 トレーニング時間や推論時間での例の翻訳も有効な代替手段である。 しかし、これらの方法にかかわるコストは、文献にはほとんど触れられていない。 本研究では,その効果(正確性など),開発コスト,展開コスト,および推論時の遅延の観点から,言語横断法を分析した。 3つのタスクに対する実験から,最高のクロスランガル手法がタスク依存性が高いことが示唆された。 最後に,ゼロショット法と翻訳法を組み合わせることで,本研究で使用した3つのデータセットのうち2つにおいて最先端の処理を実現する。 これらの結果から,対象言語におけるトレーニングデータのラベル付けの必要性を疑問視する。 コード、モデル、翻訳データセットはhttps://github.com/unicamp-dl/cross-lingual-analysisで入手できる。

An effective method for cross-lingual transfer is to fine-tune a bilingual or multilingual model on a supervised dataset in one language and evaluating it on another language in a zero-shot manner. Translating examples at training time or inference time are also viable alternatives. However, there are costs associated with these methods that are rarely addressed in the literature. In this work, we analyze cross-lingual methods in terms of their effectiveness (e.g., accuracy), development and deployment costs, as well as their latencies at inference time. Our experiments on three tasks indicate that the best cross-lingual method is highly task-dependent. Finally, by combining zero-shot and translation methods, we achieve the state-of-the-art in two of the three datasets used in this work. Based on these results, we question the need for manually labeled training data in a target language. Code, models and translated datasets are available at https://github.com/unicamp-dl/cross-lingual-analysis
翻訳日:2021-05-17 12:50:21 公開日:2021-05-14
# 学生成績予測における公平性とアルゴリズム的公平性

Towards Equity and Algorithmic Fairness in Student Grade Prediction ( http://arxiv.org/abs/2105.06604v1 )

ライセンス: Link先を確認
Weijie Jiang, Zachary A. Pardos(参考訳) 人種に関するAIの教育的成果と公正性は、教育における重要性の増大のトピックである。 本研究では,高等教育における学年予測の実証的評価,カリキュラム設計の改善のための重要な課題,学力支援のための計画介入,学生への授業指導等について論じる。 公平性を目標として,ラベルバランシングとインスタンスバランシングの2つの戦略を試行し,アルゴリズムのパフォーマンスの違いを最小限に抑えることを試みた。 逆学習アプローチとグレードラベルのバランスが組み合わさって,最も公平な結果が得られることが分かりました。 教育成果の公平性を目標として,歴史的に保存されていないグループにおける予測性能の向上と,それらのグループを過去の成果に逆比例してサンプリングすることに成功するための戦略を試した。 AIを注入した技術は、キャンパスでますます普及しているので、私たちの方法論は、繊細な学生属性に関するパフォーマンストレードオフを検討するためのフレームワークの必要性を埋め、機関がAIリソースを公平で公正な方法で実施できるようにする。

Equity of educational outcome and fairness of AI with respect to race have been topics of increasing importance in education. In this work, we address both with empirical evaluations of grade prediction in higher education, an important task to improve curriculum design, plan interventions for academic support, and offer course guidance to students. With fairness as the aim, we trial several strategies for both label and instance balancing to attempt to minimize differences in algorithm performance with respect to race. We find that an adversarial learning approach, combined with grade label balancing, achieved by far the fairest results. With equity of educational outcome as the aim, we trial strategies for boosting predictive performance on historically underserved groups and find success in sampling those groups in inverse proportion to their historic outcomes. With AI-infused technology supports increasingly prevalent on campuses, our methodologies fill a need for frameworks to consider performance trade-offs with respect to sensitive student attributes and allow institutions to instrument their AI resources in ways that are attentive to equity and fairness.
翻訳日:2021-05-17 12:49:41 公開日:2021-05-14
# SATに基づく決定リストの厳密な説明

SAT-Based Rigorous Explanations for Decision Lists ( http://arxiv.org/abs/2105.06782v1 )

ライセンス: Link先を確認
Alexey Ignatiev and Joao Marques-Silva(参考訳) 決定リスト(DL)は機械学習(ML)の分類問題に対して幅広い用途を見つけ、多くのMLフレームワークで実装されている。 DLはしばしば解釈可能と見なされる。 しかし,最近の決定木 (DT) の結果に基づいて,解釈性はいくつかのDLの明確な目標であると主張する。 その結果、dlsのいくつかの用途では、(リゴラスな)説明を計算することが重要である。 残念ながら、DTの場合と明らかに対照的に、本論文では、DLの計算説明は計算的に困難であることを示す。 そこで本研究では,DLの帰納的説明 (AXps) とコントラスト的説明 (CXps) に対する命題的符号化を提案する。 さらに,説明を列挙するマルコ的手法の実用性について検討した。 実験結果から, SATオーラクルの使用は, 実運用で使用されるDLに対して極めて効率的な解であり, 説明の完全列挙が可能であることが示唆された。

Decision lists (DLs) find a wide range of uses for classification problems in Machine Learning (ML), being implemented in a number of ML frameworks. DLs are often perceived as interpretable. However, building on recent results for decision trees (DTs), we argue that interpretability is an elusive goal for some DLs. As a result, for some uses of DLs, it will be important to compute (rigorous) explanations. Unfortunately, and in clear contrast with the case of DTs, this paper shows that computing explanations for DLs is computationally hard. Motivated by this result, the paper proposes propositional encodings for computing abductive explanations (AXps) and contrastive explanations (CXps) of DLs. Furthermore, the paper investigates the practical efficiency of a MARCO-like approach for enumerating explanations. The experimental results demonstrate that, for DLs used in practical settings, the use of SAT oracles offers a very efficient solution, and that complete enumeration of explanations is most often feasible.
翻訳日:2021-05-17 12:49:23 公開日:2021-05-14
# COVID-Net CXR-2:胸部X線画像からのCOVID-19検出のための深部畳み込みニューラルネットワーク設計

COVID-Net CXR-2: An Enhanced Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-ray Images ( http://arxiv.org/abs/2105.06640v1 )

ライセンス: Link先を確認
Maya Pavlova, Naomi Terhljan, Audrey G. Chung, Andy Zhao, Siddharth Surana, Hossein Aboutalebi, Hayden Gunraj, Ali Sabri, Amer Alaref, and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中で流行し続けている中、胸部X線画像(CXR)をRT-PCR検査の補完的スクリーニング戦略として利用し続けている。 COVID-Netオープンソースイニシアチブの一環として、元のCOVID-Netよりも多量で多様な患者を用いて構築されたCXR画像から、COVID-19検出のための深層畳み込みニューラルネットワーク設計のCOVID-Net CXR-2を紹介する。 そこで本研究では,少なくとも51カ国の患者16,656人の多国籍コホートから得られた19,203個のcxr画像からなるベンチマークデータセットを新たに導入し,オープンアクセス形式で最大かつ最も多様なcovid-19 cxrデータセットとした。 COVID-Net CXR-2ネットワークは、それぞれ95.5%/97.0%の感度と正の予測値を達成し、透明で責任ある方法で監査された。 説明可能性に基づくパフォーマンス検証は, 意思決定行動の深い洞察を得るために, 臨床関連因子を有効活用し, 信頼性の向上に有効であった。 また,10年以上の経験を持つ放射線技師2名による放射線検査の結果,CXR-2による重要な要因は,放射線学の解釈と一致していることが判明した。 プロダクション対応ソリューションではないが、COVID-Net CXR-2のオープンソースでオープンアクセス可能なリリースと、それぞれのCXRベンチマークデータセットが、研究者、臨床科学者、市民科学者にパンデミックとの戦いの進展とイノベーションを加速させることを期待している。

As the COVID-19 pandemic continues to devastate globally, the use of chest X-ray (CXR) imaging as a complimentary screening strategy to RT-PCR testing continues to grow given its routine clinical use for respiratory complaint. As part of the COVID-Net open source initiative, we introduce COVID-Net CXR-2, an enhanced deep convolutional neural network design for COVID-19 detection from CXR images built using a greater quantity and diversity of patients than the original COVID-Net. To facilitate this, we also introduce a new benchmark dataset composed of 19,203 CXR images from a multinational cohort of 16,656 patients from at least 51 countries, making it the largest, most diverse COVID-19 CXR dataset in open access form. The COVID-Net CXR-2 network achieves sensitivity and positive predictive value of 95.5%/97.0%, respectively, and was audited in a transparent and responsible manner. Explainability-driven performance validation was used during auditing to gain deeper insights in its decision-making behaviour and to ensure clinically relevant factors are leveraged for improving trust in its usage. Radiologist validation was also conducted, where select cases were reviewed and reported on by two board-certified radiologists with over 10 and 19 years of experience, respectively, and showed that the critical factors leveraged by COVID-Net CXR-2 are consistent with radiologist interpretations. While not a production-ready solution, we hope the open-source, open-access release of COVID-Net CXR-2 and the respective CXR benchmark dataset will encourage researchers, clinical scientists, and citizen scientists to accelerate advancements and innovations in the fight against the pandemic.
翻訳日:2021-05-17 12:49:07 公開日:2021-05-14
# ロボットピックアップにおける国内廃棄物検出と把握ポイント

Domestic waste detection and grasping points for robotic picking up ( http://arxiv.org/abs/2105.06825v1 )

ライセンス: Link先を確認
Victor De Gea and Santiago T. Puente and Pablo Gil(参考訳) 本稿では,位置とロボットの把握に応用したAIシステムを提案する。 mask-rcnnに基づくディープラーニングネットワークをトレーニングするためのパラメータスタディに基づいて,5つの異なるクラスを使用して,屋内および屋外環境における廃棄場所を学習し,新たな廃棄物データセットを生成する。 最初はaiシステムが環境のrgbdデータを取得し、続いてニューラルネットワークを使用してオブジェクトを検出する。 その後、ネットワーク結果と深さチャネルを用いて3次元オブジェクト形状を算出する。 最後に、この形状は2本指グリッパーでロボットアームの把持を計算するために使用される。 リサイクル戦略を改善するため, 廃棄物をグループに分類することを目的とする。

This paper presents an AI system applied to location and robotic grasping. Experimental setup is based on a parameter study to train a deep-learning network based on Mask-RCNN to perform waste location in indoor and outdoor environment, using five different classes and generating a new waste dataset. Initially the AI system obtain the RGBD data of the environment, followed by the detection of objects using the neural network. Later, the 3D object shape is computed using the network result and the depth channel. Finally, the shape is used to compute grasping for a robot arm with a two-finger gripper. The objective is to classify the waste in groups to improve a recycling strategy.
翻訳日:2021-05-17 12:48:32 公開日:2021-05-14
# 合成X線画像超解像のための周波数領域制約

A Frequency Domain Constraint for Synthetic X-ray Image Super Resolution ( http://arxiv.org/abs/2105.06887v1 )

ライセンス: Link先を確認
Qing Ma, Jae Chul Koh, WonSook Lee(参考訳) 合成X線画像は、画像案内システムやVRシミュレーションに有用である。 しかし,ctスキャン解像度の制限,計算資源需要の増大,アルゴリズムの複雑さなどにより,高品質な任意画像合成x線画像のリアルタイム作成は困難である。 我々の目標は、低解像度のim-ageをアップサンプリングすることで、高分解能の合成x線画像をリアルタイムに生成することである。 参照ベーススーパーレゾリューション(RefSR)は近年よく研究されており、従来のSingle Image Su-per-Resolution(SISR)よりも強力であることが証明されている。 RefSRは参照画像を利用して細部を生成できるが、必然的にいくつかのアーティファクトやノイズを発生させる。 本稿では,周波数領域(TTSR-FD)を用いたテクスチャトランスフォーマーを提案する。 本稿では,refsr結果の品質をさらに向上するための制約として周波数領域損失を導入する。 これにより、リアルタイム合成x線画像誘導手順vrシミュレーションシステムが可能になる。 我々の知る限りでは、超解像の分野における損失関数の一部として周波数領域を利用する最初の論文である。 我々は,合成X線画像データセット上でTTSR-FDを評価し,最先端の結果を得た。

Synthetic X-ray images can be helpful for image guiding systems and VR simulations. However, it is difficult to produce high-quality arbitrary view synthetic X-ray images in real-time due to limited CT scanning resolution, high computation resource demand or algorithm complexity. Our goal is to generate high-resolution synthetic X-ray images in real-time by upsampling low-resolution im-ages. Reference-based Super Resolution (RefSR) has been well studied in recent years and has been proven to be more powerful than traditional Single Image Su-per-Resolution (SISR). RefSR can produce fine details by utilizing the reference image but it still inevitably generates some artifacts and noise. In this paper, we propose texture transformer super-resolution with frequency domain (TTSR-FD). We introduce frequency domain loss as a constraint to further improve the quality of the RefSR results with fine details and without obvious artifacts. This makes a real-time synthetic X-ray image-guided procedure VR simulation system possible. To the best of our knowledge, this is the first paper utilizing the frequency domain as part of the loss functions in the field of super-resolution. We evaluated TTSR-FD on our synthetic X-ray image dataset and achieved state-of-the-art results.
翻訳日:2021-05-17 12:48:21 公開日:2021-05-14
# DaLAJ - スウェーデン語のアクセプティビリティ判断のためのデータセット: フォーマット、ベースライン、共有

DaLAJ - a dataset for linguistic acceptability judgments for Swedish: Format, baseline, sharing ( http://arxiv.org/abs/2105.06681v1 )

ライセンス: Link先を確認
Elena Volodina, Yousuf Ali Mohammed, Julia Klezl(参考訳) 本稿では,スウェーデン語における言語受容性判断のためのデータセットである dalaj 1.0 について述べる。 DaLAJはSweLLの第2言語学習データに基づいており、様々なレベルの熟練度に関するエッセイで構成されている。 GDPR規則に拘わらず、データセットを自由に利用できるようにするために、文スクランブルした学習者エッセイを持ち、学習者に関するメタデータの一部を削除し、各文は母国語に関する情報とエッセイが書かれたコースのレベルのみを保持する。 本研究では,DALAJ文のベースとして学習言語の正規化バージョンを使用し,文毎の誤りを1つだけ保持する。 文中の個々の補正タグについて、同じ文を繰り返します。 DaLAJ 1.0では、4つのエラーカテゴリ(SweLLで利用可能な35のうち)を使用しました。 バイナリ分類の基準値から,BERT埋め込みによるDaLAJ 1.0の精度は58%であった。 データセットはSwishGlue (Swe)に含まれる。 SuperLim) ベンチマーク。 以下に、データセットのフォーマット、最初の実験、私たちの洞察、選択したデータ共有アプローチのモチベーションについて説明する。

We present DaLAJ 1.0, a Dataset for Linguistic Acceptability Judgments for Swedish, comprising 9 596 sentences in its first version; and the initial experiment using it for the binary classification task. DaLAJ is based on the SweLL second language learner data, consisting of essays at different levels of proficiency. To make sure the dataset can be freely available despite the GDPR regulations, we have sentence-scrambled learner essays and removed part of the metadata about learners, keeping for each sentence only information about the mother tongue and the level of the course where the essay has been written. We use the normalized version of learner language as the basis for the DaLAJ sentences, and keep only one error per sentence. We repeat the same sentence for each individual correction tag used in the sentence. For DaLAJ 1.0 we have used four error categories (out of 35 available in SweLL), all connected to lexical or word-building choices. Our baseline results for the binary classification show an accuracy of 58% for DaLAJ 1.0 using BERT embeddings. The dataset is included in the SwedishGlue (Swe. SuperLim) benchmark. Below, we describe the format of the dataset, first experiments, our insights and the motivation for the chosen approach to data sharing.
翻訳日:2021-05-17 12:47:23 公開日:2021-05-14
# Locate and Label:Nested Named Entity Recognitionのための2段階同定器

Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition ( http://arxiv.org/abs/2105.06804v1 )

ライセンス: Link先を確認
Yongliang Shen, Xinyin Ma, Zeqi Tan, Shuai Zhang, Wen Wang and Weiming Lu(参考訳) 名前付きエンティティ認識(NER)は自然言語処理においてよく研究されているタスクである。 従来のNER研究は平らなエンティティのみを扱い、ネストされたエンティティを無視する。 スパンベースの手法は、エンティティ認識をスパン分類タスクとして扱う。 これらの手法はネストしたnerを扱う固有の能力を持っているが、高い計算コスト、境界情報の無知、エンティティと部分的に一致するスパンの過小利用、長いエンティティ認識の困難に苦しんでいる。 これらの問題に対処するため、我々は2段階のエンティティ識別子を提案する。 まず、種スパンのフィルタリングと境界回帰によってスパン提案を生成し、その後、境界調整されたスパン提案に対応するカテゴリをラベル付けします。 本手法は,訓練中のエンティティの境界情報と部分マッチングスパンを効果的に活用する。 境界回帰により、任意の長さの実体を理論的にカバーできるため、長い実体を認識する能力が向上する。 さらに、多くの低品質の種子が第1段階でろ過され、推論の時間的複雑さが減少する。 ネストnerデータセットを用いた実験により,提案手法が先行する最先端モデルを上回ることを示した。

Named entity recognition (NER) is a well-studied task in natural language processing. Traditional NER research only deals with flat entities and ignores nested entities. The span-based methods treat entity recognition as a span classification task. Although these methods have the innate ability to handle nested NER, they suffer from high computational cost, ignorance of boundary information, under-utilization of the spans that partially match with entities, and difficulties in long entity recognition. To tackle these issues, we propose a two-stage entity identifier. First we generate span proposals by filtering and boundary regression on the seed spans to locate the entities, and then label the boundary-adjusted span proposals with the corresponding categories. Our method effectively utilizes the boundary information of entities and partially matched spans during training. Through boundary regression, entities of any length can be covered theoretically, which improves the ability to recognize long entities. In addition, many low-quality seed spans are filtered out in the first stage, which reduces the time complexity of inference. Experiments on nested NER datasets demonstrate that our proposed method outperforms previous state-of-the-art models.
翻訳日:2021-05-17 12:47:01 公開日:2021-05-14
# 大規模対話データセットを用いた共感応答の生成

Generating Empathetic Responses with a Large Scale Dialog Dataset ( http://arxiv.org/abs/2105.06829v1 )

ライセンス: Link先を確認
Yubo Xie, Pearl Pu(参考訳) 共感的応答生成の課題は、前回の対話の後、構文的に正しく感情的に適切な応答を生成することである。 既存のモデルは、応答生成を導くために事前に定義された感情情報を直接取り入れるか、あるいは決定論的ルールを使って反応感情を決定し、人間の会話で捉えた微妙な感情の相互作用を無視している。 高度な言語モデルが出現すると、自然言語ダイアログで捉えたニュアンス的な感情の交換を学ぶことができる。 感情と対話の意図の範囲を完全に調査するには、会話における人間の感情的相互作用の一般的な理解に光を当てるのに十分な量のデータセットをキュレートすることが重要です。 本稿では,各発話に32の感情と9つの意図カテゴリのラベルを付ける大規模対話データセットのキュレーション過程について詳述する。 次に,6,000以上のヒト評価インスタンスのベースラインと比較して,多ターン共感ダイアログモデルの構築方法を示す。

The task of empathetic response generation aims at generating syntactically correct and, more importantly, emotionally appropriate responses following previous dialog turns. Existing models either directly incorporate pre-defined emotion information to guide the response generation, or use deterministic rules to decide the response emotion, ignoring the subtle emotion interactions captured in human conversations. With the advent of advanced language models, it is possible to learn the nuanced emotional exchanges captured in natural language dialogs. To fully explore the range of emotions and dialog intents, it is important to curate a dataset large enough to shed light on the general understanding of human emotional interactions in our conversations. In this paper, we describe in detail the curation process of a large-scale dialog dataset where each utterance is labeled with one of 32 emotions and 9 intent categories. We then show how to build a multi-turn empathetic dialog model that performs well compared to its baselines over 6,000 human evaluated instances.
翻訳日:2021-05-17 12:46:45 公開日:2021-05-14
# 空間構成の推論によるナビゲーションに向けて

Towards Navigation by Reasoning over Spatial Configurations ( http://arxiv.org/abs/2105.06839v1 )

ライセンス: Link先を確認
Yue Zhang, Quan Guo, Parisa Kordjamshidi(参考訳) エージェントが環境を観察しながら自然言語の指示に従うようなナビゲーション問題に対処する。 言語理解に重点を置き,ナビゲーション指示を視覚知覚に接地する上で,空間的意味論の重要性を示す。 本稿では,空間構成の要素を利用したニューラルエージェントを提案し,ナビゲーションエージェントの推論能力への影響について検討する。 さらに、逐次実行順序をモデル化し、視覚オブジェクトを命令中の空間構成にアラインする。 我々のニューラルエージェントは、目に見えない環境における強いベースラインを改善し、目に見えない環境における競争性能を示す。 さらに, 実験により, 空間的意味要素の明示的なモデル化により, モデルの基底化と空間的推論が向上することを示した。

We deal with the navigation problem where the agent follows natural language instructions while observing the environment. Focusing on language understanding, we show the importance of spatial semantics in grounding navigation instructions into visual perceptions. We propose a neural agent that uses the elements of spatial configurations and investigate their influence on the navigation agent's reasoning ability. Moreover, we model the sequential execution order and align visual objects with spatial configurations in the instruction. Our neural agent improves strong baselines on the seen environments and shows competitive performance on the unseen environments. Additionally, the experimental results demonstrate that explicit modeling of spatial semantic elements in the instructions can improve the grounding and spatial reasoning of the model.
翻訳日:2021-05-17 12:46:29 公開日:2021-05-14
# ありがとう、BART! Rewarding Pre-Trained Models improves Formality Style Transfer

Thank you BART! Rewarding Pre-Trained Models Improves Formality Style Transfer ( http://arxiv.org/abs/2105.06947v1 )

ライセンス: Link先を確認
Huiyuan Lai, Antonio Toral, Malvina Nissim(参考訳) 並列データの共有により、形式的なスタイルの転送モデルがコンテンツの保存にあまり成功しない。 本稿では, 微調整事前学習言語(GPT-2)とシーケンス・ツー・シーケンス(BART)モデルによってコンテンツ保存が促進され, 限られた並列データでも実現可能であることを示す。 タスクの2つの中核的な側面であるスタイルとコンテンツをターゲットにした報酬でこれらのモデルを強化します。

Scarcity of parallel data causes formality style transfer models to have scarce success in preserving content. We show that fine-tuning pre-trained language (GPT-2) and sequence-to-sequence (BART) models boosts content preservation, and that this is possible even with limited amounts of parallel data. Augmenting these models with rewards that target style and content --the two core aspects of the task-- we achieve a new state-of-the-art.
翻訳日:2021-05-17 12:46:18 公開日:2021-05-14
# EASE: 説明付き抽出抽象要約

EASE: Extractive-Abstractive Summarization with Explanations ( http://arxiv.org/abs/2105.06982v1 )

ライセンス: Link先を確認
Haoran Li, Arash Einolghozati, Srinivasan Iyer, Bhargavi Paranjape, Yashar Mehdad, Sonal Gupta, Marjan Ghazvininejad(参考訳) 現在の抽象的な要約システムは抽出システムよりも優れているが、その普及は解釈可能性の欠如によって抑制されている。 両世界の最善を尽くすために,エビデンスに基づくテキスト生成のための抽出・要約フレームワークであるeasyを提案し,文書要約に適用する。 本稿では,エンド・ツー・エンドの方法での抽出と抽象化を共同で訓練した情報ボトルネック原理に基づく説明可能な要約システムを提案する。 人間は2段階の枠組みを使って長い文書をまとめる(jing and mckeown, 2000)という以前の研究に触発されて、まずは事前定義された量の証拠を説明として抽出し、その証拠のみを用いて要約を生成する。 自動評価と人的評価を用いて, 生成した要約の質を著しく損なうことなく, 簡単なベースラインよりも, フレームワークからの説明の方が適切であることを示す。

Current abstractive summarization systems outperform their extractive counterparts, but their widespread adoption is inhibited by the inherent lack of interpretability. To achieve the best of both worlds, we propose EASE, an extractive-abstractive framework for evidence-based text generation and apply it to document summarization. We present an explainable summarization system based on the Information Bottleneck principle that is jointly trained for extraction and abstraction in an end-to-end fashion. Inspired by previous research that humans use a two-stage framework to summarize long documents (Jing and McKeown, 2000), our framework first extracts a pre-defined amount of evidence spans as explanations and then generates a summary using only the evidence. Using automatic and human evaluations, we show that explanations from our framework are more relevant than simple baselines, without substantially sacrificing the quality of the generated summary.
翻訳日:2021-05-17 12:46:09 公開日:2021-05-14
# ロボットエージェントのためのアプライアンス関係の構築 -レビュー-

Building Affordance Relations for Robotic Agents - A Review ( http://arxiv.org/abs/2105.06706v1 )

ライセンス: Link先を確認
Paola Ard\'on, \`Eric Pairet, Katrin S. Lohan, Subramanian Ramamoorthy, Ronald P. A. Petrick(参考訳) Affordancesは、エージェントがオブジェクトでアクションを実行する可能性を記述する。 代価概念の意義は心理学や認知科学など様々な観点から研究されてきたが、これらのアプローチが人工知能(ai)ベースのシステムやロボット工学への直接移転を可能にするには必ずしも十分ではない。 しかし、aiエージェントが行動に対する知覚を効果的に橋渡しできる大きな可能性を示すため、アフォーアンスの概念を実践的に採用するために多くの努力がなされている。 本研究は,ロボットタスクにおけるアプライアンスの概念を用いた戦略の共通点をレビューし,自律性を改善するためのメカニズムとしてアプライアンスを含めるためのガイダンスを提供する。 この目的のために, 余剰関係の表現を構築するための共通設計選択と, 未確認シナリオに直面したエージェントの一般化能力への影響について概説する。 最後に、AIエージェントの能力を改善する可能性を持つ余裕を含む、さまざまな興味深い研究方向を特定し、議論する。

Affordances describe the possibilities for an agent to perform actions with an object. While the significance of the affordance concept has been previously studied from varied perspectives, such as psychology and cognitive science, these approaches are not always sufficient to enable direct transfer, in the sense of implementations, to artificial intelligence (AI)-based systems and robotics. However, many efforts have been made to pragmatically employ the concept of affordances, as it represents great potential for AI agents to effectively bridge perception to action. In this survey, we review and find common ground amongst different strategies that use the concept of affordances within robotic tasks, and build on these methods to provide guidance for including affordances as a mechanism to improve autonomy. To this end, we outline common design choices for building representations of affordance relations, and their implications on the generalisation capabilities of an agent when facing previously unseen scenarios. Finally, we identify and discuss a range of interesting research directions involving affordances that have the potential to improve the capabilities of an AI agent.
翻訳日:2021-05-17 12:45:52 公開日:2021-05-14
# 人間計画における心的表現の制御

Control of mental representations in human planning ( http://arxiv.org/abs/2105.06948v1 )

ライセンス: Link先を確認
Mark K. Ho, David Abel, Carlos G. Correa, Michael L. Littman, Jonathan D. Cohen, Thomas L. Griffiths(参考訳) 人間の認知の最も顕著な特徴の1つは、計画する能力である。 人間の計画の2つの側面は、その効率性、複雑な環境においても、そして変化する環境においても柔軟性である。 なぜなら、最適な計画を直接計算することは、わずかに複雑なタスクであっても難解であり、認知資源が限られているにもかかわらず、人々は無数の日常的な問題を解決することに成功したからだ。 心理学、経済学、人工知能の標準的な説明では、これは人々がタスクの精神的な表現を持ち、その表現を計画するためにヒューリスティックを使用するからである。 しかし、このアプローチは一般にメンタル表現が固定されていると仮定する。 ここでは、メンタル表現は制御可能であり、それによって問題をより容易に推論できるように、適応的に単純化する機会が得られることを提案する。 我々はこのプロセスの形式的モデルを構築し、一連の大規模で登録された行動実験において、コンストラクトがオンライン認知制御の対象であることと、表現の複雑さと計画と行動のための有用性を最適にバランスする価値誘導コンストラクトを形成することの両方を示している。 これらの結果は,問題の戦略的知覚と認識が,限られた認知資源の有効利用を促進することを示す。

One of the most striking features of human cognition is the capacity to plan. Two aspects of human planning stand out: its efficiency, even in complex environments, and its flexibility, even in changing environments. Efficiency is especially impressive because directly computing an optimal plan is intractable, even for modestly complex tasks, and yet people successfully solve myriad everyday problems despite limited cognitive resources. Standard accounts in psychology, economics, and artificial intelligence have suggested this is because people have a mental representation of a task and then use heuristics to plan in that representation. However, this approach generally assumes that mental representations are fixed. Here, we propose that mental representations can be controlled and that this provides opportunities to adaptively simplify problems so they can be more easily reasoned about -- a process we refer to as construal. We construct a formal model of this process and, in a series of large, pre-registered behavioral experiments, show both that construal is subject to online cognitive control and that people form value-guided construals that optimally balance the complexity of a representation and its utility for planning and acting. These results demonstrate how strategically perceiving and conceiving problems facilitates the effective use of limited cognitive resources.
翻訳日:2021-05-17 12:45:34 公開日:2021-05-14
# TriPose:ビデオによる三角測量による3D人物位置推定

TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation from Video ( http://arxiv.org/abs/2105.06599v1 )

ライセンス: Link先を確認
Mohsen Gholami, Ahmad Rezaei, Helge Rhodin, Rabab Ward and Z. Jane Wang(参考訳) ビデオから3Dのポーズを推定することは難しい問題だ。 3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、目に見えないデータセットの一般化の大きな障害である。 本研究では、3Dアノテーションや校正カメラを必要としない弱教師付きトレーニングスキームを提案し,この問題に対処する。 提案手法は時間情報と三角測量に依存する。 複数のビューからの2Dポーズを入力として、まず相対カメラの向きを推定し、三角測量により3Dポーズを生成する。 三角測量は高い2次元人間の関節信頼度を持つ視点にのみ適用される。 生成された3Dポーズは、2Dポーズから3Dポーズを推定するリカレントリフトネットワーク(RLN)のトレーニングに使用される。 さらに,推定3次元ポーズに対するマルチビュー再投影損失を適用し,マルチビューから推定した3次元ポーズの一貫性を強制する。 したがって,本手法は制約を緩和し,訓練にはマルチビュービデオのみが必要となるため,実環境の設定に便利である。 推論では、rlnは単にシングルビュービデオを必要とする。 提案手法は、Human3.6M と MPI-INF-3DHP という2つの挑戦的なデータセットに関する先行研究より優れている。 コードと事前訓練されたモデルが公開される。

Estimating 3D human poses from video is a challenging problem. The lack of 3D human pose annotations is a major obstacle for supervised training and for generalization to unseen datasets. In this work, we address this problem by proposing a weakly-supervised training scheme that does not require 3D annotations or calibrated cameras. The proposed method relies on temporal information and triangulation. Using 2D poses from multiple views as the input, we first estimate the relative camera orientations and then generate 3D poses via triangulation. The triangulation is only applied to the views with high 2D human joint confidence. The generated 3D poses are then used to train a recurrent lifting network (RLN) that estimates 3D poses from 2D poses. We further apply a multi-view re-projection loss to the estimated 3D poses and enforce the 3D poses estimated from multi-views to be consistent. Therefore, our method relaxes the constraints in practice, only multi-view videos are required for training, and is thus convenient for in-the-wild settings. At inference, RLN merely requires single-view videos. The proposed method outperforms previous works on two challenging datasets, Human3.6M and MPI-INF-3DHP. Codes and pretrained models will be publicly available.
翻訳日:2021-05-17 12:44:51 公開日:2021-05-14
# 顔行動単位検出のためのメタ補助学習

Meta Auxiliary Learning for Facial Action Unit Detection ( http://arxiv.org/abs/2105.06620v1 )

ライセンス: Link先を確認
Yong Li, Shiguang Shan(参考訳) 顔動作単位(au)検出におけるディープニューラルネットワークの成功にもかかわらず、優れたパフォーマンスは正確なauアノテーションを持つ多数のトレーニングイメージに依存する。 しかし、AUのラベル付けは時間がかかり、高価で、エラーを起こしやすい。 AU検出と顔表情認識(FER)は2つの非常に相関したタスクであり,顔表情(FE)は比較的簡単に注釈を付けることができるので,マルチタスクでAU検出とFERを学習することを検討する。 しかし、マルチタスクシナリオにおける負の転送のため、AU検出タスクの性能を常に向上することはできない。 そこで本研究では,feサンプルの適応度を学習し,関連するfeサンプルを自動的に選択するメタ補助学習手法(mal)を提案する。 学習したサンプル重み付けは、2つの側面から負の伝達を緩和する: 1)各タスクの損失を自動的にバランスさせ、2)大きな不確実性を持つfeサンプルの重みを抑制する。 いくつかの人気のあるAUデータセットの実験結果から、MALは最先端のマルチタスクおよび補助学習手法と比較して、AU検出性能を一貫して改善することを示した。 MALは、主AU検出タスクと意味的関連性に応じて、補助FEサンプルの適応重量を自動的に推定する。

Despite the success of deep neural networks on facial action unit (AU) detection, better performance depends on a large number of training images with accurate AU annotations. However, labeling AU is time-consuming, expensive, and error-prone. Considering AU detection and facial expression recognition (FER) are two highly correlated tasks, and facial expression (FE) is relatively easy to annotate, we consider learning AU detection and FER in a multi-task manner. However, the performance of the AU detection task cannot be always enhanced due to the negative transfer in the multi-task scenario. To alleviate this issue, we propose a Meta Auxiliary Learning method (MAL) that automatically selects highly related FE samples by learning adaptative weights for the training FE samples in a meta learning manner. The learned sample weights alleviate the negative transfer from two aspects: 1) balance the loss of each task automatically, and 2) suppress the weights of FE samples that have large uncertainties. Experimental results on several popular AU datasets demonstrate MAL consistently improves the AU detection performance compared with the state-of-the-art multi-task and auxiliary learning methods. MAL automatically estimates adaptive weights for the auxiliary FE samples according to their semantic relevance with the primary AU detection task.
翻訳日:2021-05-17 12:44:32 公開日:2021-05-14
# クロスロードゾーンによる都市規模多カメラ車両追跡

City-Scale Multi-Camera Vehicle Tracking Guided by Crossroad Zones ( http://arxiv.org/abs/2105.06623v1 )

ライセンス: Link先を確認
Chong Liu and Yuqi Zhang and Hao Luo and Jiasheng Tang and Weihua Chen and Xianzhe Xu and Fan Wang and Hao Li and Yi-Dong Shen(参考訳) Multi-Target Multi-Camera Trackingは幅広い応用があり、多くの高度な推測と予測の基礎となっている。 本稿では,2021年AIシティチャレンジ(AICITY21)におけるトラック3マルチカメラ車両追跡タスクのソリューションについて述べる。 本稿では,クロスロードゾーンで案内されるマルチターゲットマルチカメラ車両追跡フレームワークを提案する。 1) 目標と外観の特徴を抽出するために, 成熟度検出と車両再識別モデルを使用する。 2) 改良型JDETracker (検出モジュールなし) を用いて単カメラ車両を追跡し, 単カメラトラックレットを生成する。 3) 交差道路の特性により, トラックレットフィルタ戦略と方向に基づく時空間マスクが提案されている。 (4)マルチカメラ・トラックレットマッチングのための隣接カメラにおけるサブクラスタリングの提案 以上の手法により,IDF1スコアが0.8095となり,トップボードにランクインした。 https://github.com/LCFractal/AIC21-MTMC。

Multi-Target Multi-Camera Tracking has a wide range of applications and is the basis for many advanced inferences and predictions. This paper describes our solution to the Track 3 multi-camera vehicle tracking task in 2021 AI City Challenge (AICITY21). This paper proposes a multi-target multi-camera vehicle tracking framework guided by the crossroad zones. The framework includes: (1) Use mature detection and vehicle re-identification models to extract targets and appearance features. (2) Use modified JDETracker (without detection module) to track single-camera vehicles and generate single-camera tracklets. (3) According to the characteristics of the crossroad, the Tracklet Filter Strategy and the Direction Based Temporal Mask are proposed. (4) Propose Sub-clustering in Adjacent Cameras for multi-camera tracklets matching. Through the above techniques, our method obtained an IDF1 score of 0.8095, ranking first on the leaderboard. The code have released: https://github.com/LCFractal/AIC21-MTMC.
翻訳日:2021-05-17 12:44:13 公開日:2021-05-14
# バイオメトリックス:信頼はするが検証する

Biometrics: Trust, but Verify ( http://arxiv.org/abs/2105.06625v1 )

ライセンス: Link先を確認
Anil K. Jain, Debayan Deb and Joshua J. Engelsma(参考訳) 過去20年間、生体認証は世界中の様々なアプリケーションに爆発的に普及してきた。 この増殖は、生体認証システムがエンドユーザに与える高いレベルの認証精度とユーザ利便性に起因する可能性がある。 しかし,生体認証システムの成功にともなって,生体認証システムの様々なサブモジュールに関連する問題や懸念が数多く存在し,その使用に不信感の要素を生み出している。 i)システム認識性能に関する質問、ii)セキュリティ(詐欺攻撃、敵意攻撃、テンプレート再構成攻撃、人口統計情報漏洩)、iii)システムのすべてのユーザに対するバイアスと公平性に関する不確実性、iv)ほとんどの認識システムによってなされた一見ブラックボックスな判断の説明可能性、v)データ集中化とユーザのプライバシーに関する懸念。 本稿では,前述のオープン・ディビジョンの課題について概観する。 我々はこれらの懸念に対処するために実施されている調査を行い、さらなる注意を要する課題を強調した。 最後に、生体認証システム設計の課題に対して、生体認証コミュニティがどのように対処できるかについての洞察を提供し、信頼性、公正性、セキュリティを向上する。

Over the past two decades, biometric recognition has exploded into a plethora of different applications around the globe. This proliferation can be attributed to the high levels of authentication accuracy and user convenience that biometric recognition systems afford end-users. However, in-spite of the success of biometric recognition systems, there are a number of outstanding problems and concerns pertaining to the various sub-modules of biometric recognition systems that create an element of mistrust in their use - both by the scientific community and also the public at large. Some of these problems include: i) questions related to system recognition performance, ii) security (spoof attacks, adversarial attacks, template reconstruction attacks and demographic information leakage), iii) uncertainty over the bias and fairness of the systems to all users, iv) explainability of the seemingly black-box decisions made by most recognition systems, and v) concerns over data centralization and user privacy. In this paper, we provide an overview of each of the aforementioned open-ended challenges. We survey work that has been conducted to address each of these concerns and highlight the issues requiring further attention. Finally, we provide insights into how the biometric community can address core biometric recognition systems design issues to better instill trust, fairness, and security for all.
翻訳日:2021-05-17 12:44:00 公開日:2021-05-14
# 少数ショットセマンティクスセグメンテーションのための注意深いプロトタイプ推論

Attentional Prototype Inference for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2105.06668v1 )

ライセンス: Link先を確認
Haoliang Sun, Xiankai Lu, Haochen Wang, Yilong Yin, Xiantong Zhen, Cees G. M. Snoek, and Ling Shao(参考訳) 本稿では,数発のセマンティックセグメンテーションを提案する。 既存のプロトタイプベースの手法は大きな成功を収めているが、限定的なラベル付き例による不確実性と曖昧さに苦しめられている。 本研究では,少数ショットセマンティックセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。 我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。 プロトタイプの確率論的モデリングは、限られたデータやクラス内の変化に起因する固有の不確実性を扱うことにより、モデルの一般化能力を高める。 モデルをさらに強化するために,各クエリ画像のアテンションマップを表す局所潜在変数を導入する。 提案モデルの最適化は,amortized inference networkによって確立された変分ベイズ推定問題として定式化されており,本提案手法は最先端手法よりも,少なくとも競争性が高く,しばしば優れた性能が得られる3つのベンチマークについて広範な実験を行っている。 また,本手法の有効性について考察するために,包括的解析とアブレーション研究を行った。

This paper aims to address few-shot semantic segmentation. While existing prototype-based methods have achieved considerable success, they suffer from uncertainty and ambiguity caused by limited labelled examples. In this work, we propose attentional prototype inference (API), a probabilistic latent variable framework for few-shot semantic segmentation. We define a global latent variable to represent the prototype of each object category, which we model as a probabilistic distribution. The probabilistic modeling of the prototype enhances the model's generalization ability by handling the inherent uncertainty caused by limited data and intra-class variations of objects. To further enhance the model, we introduce a local latent variable to represent the attention map of each query image, which enables the model to attend to foreground objects while suppressing background. The optimization of the proposed model is formulated as a variational Bayesian inference problem, which is established by amortized inference networks.We conduct extensive experiments on three benchmarks, where our proposal obtains at least competitive and often better performance than state-of-the-art methods. We also provide comprehensive analyses and ablation studies to gain insight into the effectiveness of our method for few-shot semantic segmentation.
翻訳日:2021-05-17 12:43:38 公開日:2021-05-14
# ReGINA - 人間の行動認識におけるグラフ畳み込みネットワークの推論

REGINA - Reasoning Graph Convolutional Networks in Human Action Recognition ( http://arxiv.org/abs/2105.06711v1 )

ライセンス: Link先を確認
Bruno Degardin, Vasco Lopes and Hugo Proen\c{c}a(参考訳) 人体骨格の運動学は、行動認識において貴重な情報を明らかにすることが知られている。 近年,グラフ畳み込みネットワーク (GCNs) を用いた時空間グラフのモデル化により,最先端の性能向上が図られている。 しかし、GCNベースのアプローチは生の骨格データからのみ学習し、独自の構造情報を抽出することが期待されている。 本稿では,人間の行動認識におけるグラフ畳み込みネットワークの推論法を提案する。 その根拠は、学習プロセスを容易にするために手作りの機能によって得られた骨格データに関するさらなる知識をGCNに提供し、エンドツーエンドで完全にトレーニングできることを保証することである。 課題は、最新のGCN技術によって抽出された重要な情報である連続フレーム間のダイナミクスに関する補完的な情報を取得することである。 また,提案手法は既存のGCNベースの手法と容易に統合でき,肯定的に検討する。 本実験は、よく知られた行動認識データセットを用いて実施され、REGINAが他のGCNベースのアプローチに組み込んだ場合、元の手法に関する調整を伴わずに、パフォーマンスの向上に寄与することが結論付けられた。 再現性については、REGINAコードとすべての実験がhttps://github.com/DegardinBruno.comで公開される。

It is known that the kinematics of the human body skeleton reveals valuable information in action recognition. Recently, modeling skeletons as spatio-temporal graphs with Graph Convolutional Networks (GCNs) has been reported to solidly advance the state-of-the-art performance. However, GCN-based approaches exclusively learn from raw skeleton data, and are expected to extract the inherent structural information on their own. This paper describes REGINA, introducing a novel way to REasoning Graph convolutional networks IN Human Action recognition. The rationale is to provide to the GCNs additional knowledge about the skeleton data, obtained by handcrafted features, in order to facilitate the learning process, while guaranteeing that it remains fully trainable in an end-to-end manner. The challenge is to capture complementary information over the dynamics between consecutive frames, which is the key information extracted by state-of-the-art GCN techniques. Moreover, the proposed strategy can be easily integrated in the existing GCN-based methods, which we also regard positively. Our experiments were carried out in well known action recognition datasets and enabled to conclude that REGINA contributes for solid improvements in performance when incorporated to other GCN-based approaches, without any other adjustment regarding the original method. For reproducibility, the REGINA code and all the experiments carried out will be publicly available at https://github.com/DegardinBruno.
翻訳日:2021-05-17 12:43:18 公開日:2021-05-14
# 信頼誘導型適応ゲートと2値差分法による映像有向物体検出

Confidence-guided Adaptive Gate and Dual Differential Enhancement for Video Salient Object Detection ( http://arxiv.org/abs/2105.06714v1 )

ライセンス: Link先を確認
Peijia Chen, Jianhuang Lai, Guangcong Wang, Huajun Zhou(参考訳) ビデオサルエント物体検出(VSOD)は、ビデオシーケンスに隠された空間的手がかりと時間的手がかりの両方を活用することにより、最も魅力的な物体の探索と分割を目的としている。 しかし、空間的および時間的手がかりは、しばしば、低コントラストの前景、速い動き、複数の動く物体など、現実世界のシナリオでは信頼できない。 このような問題に対処するために、信頼誘導適応ゲート(CAG)モジュールとDDEモジュールを含む空間的および時間的手がかりから利用可能な情報を適応的にキャプチャする新しいフレームワークを提案する。 RGBの特徴と光フローの特徴の両方について、CAGはIoUが監督する信頼度スコアを予測と地上の真実の間に推定し、ゲート機構で情報を再分類する。 ddeは微分特徴表現を取り込み、空間的および時間的情報を豊かにし、融合特徴を生成する。 4つの広く利用されているデータセットの実験結果から,提案手法の有効性が示された。

Video salient object detection (VSOD) aims to locate and segment the most attractive object by exploiting both spatial cues and temporal cues hidden in video sequences. However, spatial and temporal cues are often unreliable in real-world scenarios, such as low-contrast foreground, fast motion, and multiple moving objects. To address these problems, we propose a new framework to adaptively capture available information from spatial and temporal cues, which contains Confidence-guided Adaptive Gate (CAG) modules and Dual Differential Enhancement (DDE) modules. For both RGB features and optical flow features, CAG estimates confidence scores supervised by the IoU between predictions and the ground truths to re-calibrate the information with a gate mechanism. DDE captures the differential feature representation to enrich the spatial and temporal information and generate the fused features. Experimental results on four widely used datasets demonstrate the effectiveness of the proposed method against thirteen state-of-the-art methods.
翻訳日:2021-05-17 12:42:55 公開日:2021-05-14
# エジプトミイラのマイクロトモグラフィー画像の自動分割

Automated segmentation of microtomography imaging of Egyptian mummies ( http://arxiv.org/abs/2105.06738v1 )

ライセンス: Link先を確認
Marc Tanti, Camille Berruyer, Paul Tafforeau, Adrian Muscat, Reuben Farrugia, Kenneth Scerri, Gianluca Valentino, V. Armando Sol\'e and Johann A. Briffa(参考訳) 伝播位相コントラスト・シンクロトロン・マイクロトモグラフィー(ppc-sr${\mu}$ct)は、非侵襲的かつ非破壊的な遺跡の内部構造へのアクセスのための金の標準である。 この分析では、仮想標本を別々の部品や材料に分割する必要がある。 マイクロトモグラフィー画像の自動分割(ASEMI)プロジェクトでは,手動分割サンプルを用いて機械学習モデルのチューニングとトレーニングを行い,これらのボリューム画像を自動分割するツールを開発した。 古代エジプトの動物ミイラの4つの標本について、手作業で分割したスライスと比較すると、全体的な精度は94-98%に達し、より少ない複雑さでディープラーニング(97-99%)を使った市販ソフトウェアの結果に近づいた。 セグメント化されたアウトプットを定性的に分析した結果,ディープラーニングのユーザビリティの面では,これらのテクニックの利用を正当化する結果が得られた。

Propagation Phase Contrast Synchrotron Microtomography (PPC-SR${\mu}$CT) is the gold standard for non-invasive and non-destructive access to internal structures of archaeological remains. In this analysis, the virtual specimen needs to be segmented to separate different parts or materials, a process that normally requires considerable human effort. In the Automated SEgmentation of Microtomography Imaging (ASEMI) project, we developed a tool to automatically segment these volumetric images, using manually segmented samples to tune and train a machine learning model. For a set of four specimens of ancient Egyptian animal mummies we achieve an overall accuracy of 94-98% when compared with manually segmented slices, approaching the results of off-the-shelf commercial software using deep learning (97-99%) at much lower complexity. A qualitative analysis of the segmented output shows that our results are close in term of usability to those from deep learning, justifying the use of these techniques.
翻訳日:2021-05-17 12:42:36 公開日:2021-05-14
# 個人行動ラベルのない骨格からの集団活動の学習

Learning Group Activities from Skeletons without Individual Action Labels ( http://arxiv.org/abs/2105.06754v1 )

ライセンス: Link先を確認
Fabio Zappardino and Tiberio Uricchio and Lorenzo Seidenari and Alberto Del Bimbo(参考訳) 人間の行動を理解するためには、個々の行動を単に認識するだけでなく、複雑な集団活動や相互作用をモデル化する必要がある。 階層モデルはグループアクティビティ認識の最良の結果を得るが、アクターレベルでの個々のアクションアノテーションをきめ細かいものにする必要がある。 本稿では,骨格データのみを用いて,グループアクティビティラベルのみをシーケンスレベルで使用して,最先端の最先端システムをトレーニングできることを示す。 実験の結果,個別の行動監督なしに訓練したモデルの性能は低かった。 一方,擬似ラベルは任意の事前学習された特徴抽出器から計算可能であり,最終的な性能が同等であることを示す。 最後に、慎重に設計されたリーンポーズのみのアーキテクチャは、自己監督型であっても、より複雑なマルチモーダルアプローチに比べて高い競合性を示している。

To understand human behavior we must not just recognize individual actions but model possibly complex group activity and interactions. Hierarchical models obtain the best results in group activity recognition but require fine grained individual action annotations at the actor level. In this paper we show that using only skeletal data we can train a state-of-the art end-to-end system using only group activity labels at the sequence level. Our experiments show that models trained without individual action supervision perform poorly. On the other hand we show that pseudo-labels can be computed from any pre-trained feature extractor with comparable final performance. Finally our carefully designed lean pose only architecture shows highly competitive results versus more complex multimodal approaches even in the self-supervised variant.
翻訳日:2021-05-17 12:42:15 公開日:2021-05-14
# マルチタスクグラフ畳み込みニューラルネットワークによるマンモグラムの石灰化形態と分布解析

Multi-task Graph Convolutional Neural Network for Calcification Morphology and Distribution Analysis in Mammograms ( http://arxiv.org/abs/2105.06822v1 )

ライセンス: Link先を確認
Hao Du, Melissa Min-Szu Yao, Liangyu Chen, Wing P. Chan, and Mengling Feng(参考訳) クラスター内の微小石灰化の形態と分布は、放射線技師が乳癌を診断する上で最も重要な特徴である。 しかし, 放射線技師がこれらの特徴を識別することは困難であり, 自動的特徴付けのための効果的な解決策も欠如している。 本研究では,マルチタスクディープグラフ畳み込みネットワーク (GCN) を用いたマンモグラムの形状と微細石灰化分布の自動解析手法を提案する。 提案手法は形態と分布特性をノードとグラフの分類問題に変換し,同時に表現を学習する。 広範な実験を通じて,提案するマルチタスクgcnをベースラインと比較し,大幅に改善することを示す。 さらに、達成された改善は臨床理解に関連し、強化することができる。 我々は,医用画像のより強固な理解のためのグラフ学習の可能性を示すマイクロ石灰化キャラクタリゼーションにおけるgcnsの応用を初めて検討した。

The morphology and distribution of microcalcifications in a cluster are the most important characteristics for radiologists to diagnose breast cancer. However, it is time-consuming and difficult for radiologists to identify these characteristics, and there also lacks of effective solutions for automatic characterization. In this study, we proposed a multi-task deep graph convolutional network (GCN) method for the automatic characterization of morphology and distribution of microcalcifications in mammograms. Our proposed method transforms morphology and distribution characterization into node and graph classification problem and learns the representations concurrently. Through extensive experiments, we demonstrate significant improvements with the proposed multi-task GCN comparing to the baselines. Moreover, the achieved improvements can be related to and enhance clinical understandings. We explore, for the first time, the application of GCNs in microcalcification characterization that suggests the potential of graph learning for more robust understanding of medical images.
翻訳日:2021-05-17 12:42:04 公開日:2021-05-14
# VICE: ニューラルネットワークエラーの視覚的識別と補正

VICE: Visual Identification and Correction of Neural Circuit Errors ( http://arxiv.org/abs/2105.06861v1 )

ライセンス: Link先を確認
Felix Gonda, Xueying Wang, Johanna Beyer, Markus Hadwiger, Jeff W. Lichtman, and Hanspeter Pfister(参考訳) 単一シナプスの分解能にあるニューロンの連結グラフは、科学者に健康と疾患の神経系を理解するためのツールを提供する。 脳の電子顕微鏡(EM)データセットにおける自動画像分割とシナプス予測の最近の進歩は、ナノメートルスケールでニューロンの再構築を可能にした。 しかし、自動セグメンテーションは、しばしば大きなニューロンを正しくセグメンテーションするのに苦労し、出力を証明するために人間の努力を必要とする。 一般的な証明には、大きなボリュームを検査してピクセルレベルでのセグメンテーションエラーを補正する。 本稿では,接続関連エラーに着目して,実証読解を効率化する分析フレームワークの設計と実装について述べる。 我々は、高度にインタラクティブな3Dビジュアライゼーションによる証明読影を駆動する自動エラー検出とシナプスクラスタリングにより、これを実現する。 特に、我々の戦略は、基本レベルの完全性を確保するために単一のセルの局所回路を実証することに集中している。 当社のフレームワークの有用性をユーザスタディで実証し,ユーザからの定量的かつ主観的なフィードバックを報告する。 全体として、ユーザーはこのフレームワークをより効果的に証明し、グラフの進化を理解し、エラー訂正戦略を共有する。

A connectivity graph of neurons at the resolution of single synapses provides scientists with a tool for understanding the nervous system in health and disease. Recent advances in automatic image segmentation and synapse prediction in electron microscopy (EM) datasets of the brain have made reconstructions of neurons possible at the nanometer scale. However, automatic segmentation sometimes struggles to segment large neurons correctly, requiring human effort to proofread its output. General proofreading involves inspecting large volumes to correct segmentation errors at the pixel level, a visually intensive and time-consuming process. This paper presents the design and implementation of an analytics framework that streamlines proofreading, focusing on connectivity-related errors. We accomplish this with automated likely-error detection and synapse clustering that drives the proofreading effort with highly interactive 3D visualizations. In particular, our strategy centers on proofreading the local circuit of a single cell to ensure a basic level of completeness. We demonstrate our framework's utility with a user study and report quantitative and subjective feedback from our users. Overall, users find the framework more efficient for proofreading, understanding evolving graphs, and sharing error correction strategies.
翻訳日:2021-05-17 12:41:50 公開日:2021-05-14
# 医用画像における自己監督学習のロバスト性の評価

Evaluating the Robustness of Self-Supervised Learning in Medical Imaging ( http://arxiv.org/abs/2105.06986v1 )

ライセンス: Link先を確認
Fernando Navarro, Christopher Watanabe, Suprosanna Shit, Anjany Sekuboyina, Jan C. Peeken, Stephanie E. Combs and Bjoern H. Menze(参考訳) 自己監督は、小さな注釈付きデータセット上でターゲットタスクを訓練する際の効果的な学習戦略であることを示した。 現在の研究は、目的とするタスクの有意義で再利用可能な表現を学ぶために、新しいプリテキストタスクを作成することに重点を置いているが、これらの取り組みは、完全な教師付き学習に比べて限界的なパフォーマンス向上をもたらす。 一方,自己指導型ネットワークの堅牢性についてはほとんど注目されていない。 本研究では,自己教師あり学習による学習ネットワークが,医用画像の文脈における完全教師あり学習と比較して,堅牢性と一般化性に優れていることを示す。 X線およびCTにおける多臓器分画による肺炎検出実験は、頑健な特徴表現を学習するための自己監督の隠れた利点を露呈する一貫した結果をもたらす。

Self-supervision has demonstrated to be an effective learning strategy when training target tasks on small annotated data-sets. While current research focuses on creating novel pretext tasks to learn meaningful and reusable representations for the target task, these efforts obtain marginal performance gains compared to fully-supervised learning. Meanwhile, little attention has been given to study the robustness of networks trained in a self-supervised manner. In this work, we demonstrate that networks trained via self-supervised learning have superior robustness and generalizability compared to fully-supervised learning in the context of medical imaging. Our experiments on pneumonia detection in X-rays and multi-organ segmentation in CT yield consistent results exposing the hidden benefits of self-supervision for learning robust feature representations.
翻訳日:2021-05-17 12:41:30 公開日:2021-05-14
# 自動非線形ビデオ編集転送

Automatic Non-Linear Video Editing Transfer ( http://arxiv.org/abs/2105.06988v1 )

ライセンス: Link先を確認
Nathan Frey, Peggy Chi, Weilong Yang, Irfan Essa(参考訳) 本稿では,ソースビデオ中の編集スタイルを抽出し,一致した映像に編集を適用する自動手法を提案する。 コンピュータビジョンに基づく手法では,各入力映像セグメントのフレーミング,コンテンツタイプ,再生速度,照明について検討する。 これらの特徴を組み合わせることで、プロが編集したビデオから視覚的・時間的スタイルを自動的に生の映像に転送する効果的な方法を示す。 提案手法を実世界ビデオを用いて評価し,様々な編集スタイル(被写体,カメラの動作,照明など)の合計3872本のビデオ撮影を行った。 結果の集合をレビューした調査参加者からのフィードバックを報告する。

We propose an automatic approach that extracts editing styles in a source video and applies the edits to matched footage for video creation. Our Computer Vision based techniques considers framing, content type, playback speed, and lighting of each input video segment. By applying a combination of these features, we demonstrate an effective method that automatically transfers the visual and temporal styles from professionally edited videos to unseen raw footage. We evaluated our approach with real-world videos that contained a total of 3872 video shots of a variety of editing styles, including different subjects, camera motions, and lighting. We reported feedback from survey participants who reviewed a set of our results.
翻訳日:2021-05-17 12:41:15 公開日:2021-05-14
# 強化学習による順序付けに基づく因果発見

Ordering-Based Causal Discovery with Reinforcement Learning ( http://arxiv.org/abs/2105.06631v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Yali Du, Shengyu Zhu, Liangjun Ke, Zhitang Chen, Jianye Hao and Jun Wang(参考訳) 多くの経験的科学において、変数の集合間の因果関係を発見することは長年の疑問である。 近年,強化学習 (rl) は観測データから因果発見に有望な結果を得ている。 しかし、有向グラフの空間を探索し、暗黙の罰則によって非巡回性を強制することは非効率であり、既存のRL法を小さな問題に制限する傾向がある。 本研究では、RLを順序付けに基づくパラダイムに組み込むことにより、因果発見のための新しいRLベースのアプローチを提案する。 具体的には、注文探索問題を多段階マルコフ決定プロセスとして定式化し、エンコーダデコーダアーキテクチャを用いて注文生成プロセスを実装し、最後にRLを用いて提案したモデルの最適化を行う。 生成された順序は変数選択を使用して処理され、最終的な因果グラフを得る。 提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。 合成データと実データの両方を用いた実験結果から,提案手法は既存のRL法よりも性能が向上していることがわかった。

It is a long-standing question to discover causal relations among a set of variables in many empirical sciences. Recently, Reinforcement Learning (RL) has achieved promising results in causal discovery from observational data. However, searching the space of directed graphs and enforcing acyclicity by implicit penalties tend to be inefficient and restrict the existing RL-based method to small scale problems. In this work, we propose a novel RL-based approach for causal discovery, by incorporating RL into the ordering-based paradigm. Specifically, we formulate the ordering search problem as a multi-step Markov decision process, implement the ordering generating process with an encoder-decoder architecture, and finally use RL to optimize the proposed model based on the reward mechanisms designed for~each ordering. A generated ordering would then be processed using variable selection to obtain the final causal graph. We analyze the consistency and computational complexity of the proposed method, and empirically show that a pretrained model can be exploited to accelerate training. Experimental results on both synthetic and real data sets shows that the proposed method achieves a much improved performance over existing RL-based method.
翻訳日:2021-05-17 12:40:50 公開日:2021-05-14
# 秘密共有によるプライバシー保護ロジスティック回帰

Privacy-preserving Logistic Regression with Secret Sharing ( http://arxiv.org/abs/2105.06869v1 )

ライセンス: Link先を確認
Ali Reza Ghavamipour, Fatih Turkmen, Xiaoqian Jian(参考訳) ロジスティック回帰(LR)は、多くの医療データ分類タスクにおいて、バイナリ結果のモデリングに広く用いられている分類法である。 様々なデータカストディアンと管轄区域からデータセットを収集し結合する研究は、それらの分析目標をサポートする統計力の増加から過度に恩恵を受ける可能性がある。 しかし、これらの様々なソースからのデータを組み合わせることで、対処すべき重要なプライバシー上の懸念が生じる。 本稿では,Newton-Raphson法による秘密共有型プライバシー保護ロジスティック回帰プロトコルを提案する。 提案手法は,複数のデータホルダが所有するデータを分析するセキュリティ設定の異なるセキュアマルチパーティ計算(mpc)に基づいている。 合成データと実世界のデータセットの両方について実験を行い、それらの効率と精度を通常のロジスティック回帰モデルと比較した。 実験の結果,提案プロトコルは効率的で精度が高いことがわかった。 本研究では,ロジスティック回帰モデルの連合学習を,プライバシ保存方式で単純化する反復的アルゴリズムを提案する。 提案手法は,複数ソースからのロジスティック回帰を安全にトレーニングするための大規模データセットを処理可能であることを示す。

Logistic regression (LR) is a widely used classification method for modeling binary outcomes in many medical data classification tasks. Research that collects and combines datasets from various data custodians and jurisdictions can excessively benefit from the increased statistical power to support their analyzing goals. However, combining data from these various sources creates significant privacy concerns that need to be addressed. In this paper, we proposed secret sharing-based privacy-preserving logistic regression protocols using the Newton-Raphson method. Our proposed approaches are based on secure Multi-Party Computation (MPC) with different security settings to analyze data owned by several data holders. We conducted experiments on both synthetic data and real-world datasets and compared the efficiency and accuracy of them with those of an ordinary logistic regression model. Experimental results demonstrate that the proposed protocols are highly efficient and accurate. This study introduces iterative algorithms to simplify the federated training a logistic regression model in a privacy-preserving manner. Our implementation results show that our improved method can handle large datasets used in securely training a logistic regression from multiple sources.
翻訳日:2021-05-17 12:40:29 公開日:2021-05-14
# モデル非依存的グローバル説明の情報理論進化

Information-theoretic Evolution of Model Agnostic Global Explanations ( http://arxiv.org/abs/2105.06956v1 )

ライセンス: Link先を確認
Sukriti Verma, Nikaash Puri, Piyush Gupta, Balaji Krishnamurthy(参考訳) ブラックボックス機械学習モデルの人間の解釈可能なルールによる振る舞いを説明することは重要な研究分野である。 近年,モデル行動の局所的説明に焦点が当てられている。 特定の予測だけでなく、視覚、自然言語、強化学習、データサイエンスの分野をまたがってグローバルに展開する。 本稿では,数値および/またはカテゴリーデータに基づいて学習した分類モデルの挙動をグローバルに説明するための規則を導出する新しいモデル非依存アプローチを提案する。 提案手法は,情報理論に基づく適合関数を最適化し,グローバルなモデル動作を説明するルールを構築する進化的アルゴリズムにより,特定のインスタンスのモデル動作を説明する上で重要な条件を抽出する。 当社のアプローチは,さまざまなデータセットに対する既存のアプローチよりも優れています。 さらに,分布シフトのシナリオ下での解釈の質を評価するためのパラメータを提案する。 このパラメータは、以前は見つからなかったデータ分布のモデル挙動を解釈がいかに正確に予測できるかを評価する。 我々は,既存のモデル解釈手法が分散ロバスト性を欠いていることを示す。 最後に,この解釈を学習するために使用するデータセットに分布サンプルを付加することにより,分布シフトのシナリオにおいて,解釈の質が向上し,堅牢性が向上することを示す。 私たちの論文で使われているデータセットはすべてオープンで公開されています。 私たちのアプローチは、主要なデジタルマーケティングスイートにデプロイされています。

Explaining the behavior of black box machine learning models through human interpretable rules is an important research area. Recent work has focused on explaining model behavior locally i.e. for specific predictions as well as globally across the fields of vision, natural language, reinforcement learning and data science. We present a novel model-agnostic approach that derives rules to globally explain the behavior of classification models trained on numerical and/or categorical data. Our approach builds on top of existing local model explanation methods to extract conditions important for explaining model behavior for specific instances followed by an evolutionary algorithm that optimizes an information theory based fitness function to construct rules that explain global model behavior. We show how our approach outperforms existing approaches on a variety of datasets. Further, we introduce a parameter to evaluate the quality of interpretation under the scenario of distributional shift. This parameter evaluates how well the interpretation can predict model behavior for previously unseen data distributions. We show how existing approaches for interpreting models globally lack distributional robustness. Finally, we show how the quality of the interpretation can be improved under the scenario of distributional shift by adding out of distribution samples to the dataset used to learn the interpretation and thereby, increase robustness. All of the datasets used in our paper are open and publicly available. Our approach has been deployed in a leading digital marketing suite of products.
翻訳日:2021-05-17 12:39:59 公開日:2021-05-14
# 暗号通貨市場における収益取引戦略作成における3つの異なる機械学習手法の適用

Application of Three Different Machine Learning Methods on Strategy Creation for Profitable Trades on Cryptocurrency Markets ( http://arxiv.org/abs/2105.06827v1 )

ライセンス: Link先を確認
Mohsen Asgari, Hossein Khasteh(参考訳) AIとデータ駆動ソリューションは、パフォーマンスと有望な結果の異なる分野に適用されている。 本研究では,k-Nearest Neighbours,eXtreme Gradient Boosting,Random Forestの3つの暗号市場の方向検出問題に適用する。 入力データには価格データと技術指標が含まれています。 これらの分類器を使って、これらの市場での取引戦略をデザインします。 未確認データに対するテスト結果は、投資家が市場を搾取し利益を得るためのエキスパートシステムを構築する上で、このアプローチの大きな可能性を示している。 66日間の最高利益は1800ドル投資当たり860ドルだ。 また、これらのアプローチの限界と、効率的市場仮説に対する潜在的な影響についても論じる。

AI and data driven solutions have been applied to different fields with outperforming and promising results. In this research work we apply k-Nearest Neighbours, eXtreme Gradient Boosting and Random Forest classifiers to direction detection problem of three cryptocurrency markets. Our input data includes price data and technical indicators. We use these classifiers to design a strategy to trade in those markets. Our test results on unseen data shows a great potential for this approach in helping investors with an expert system to exploit the market and gain profit. Our highest gain for an unseen 66 day span is 860 dollars per 1800 dollars investment. We also discuss limitations of these approaches and their potential impact to Efficient Market Hypothesis.
翻訳日:2021-05-17 12:39:38 公開日:2021-05-14
# 組織ネットワークの多様性の計測について

On Measuring the Diversity of Organizational Networks ( http://arxiv.org/abs/2105.06929v1 )

ライセンス: Link先を確認
Zeinab S. Jalali, Krishnaram Kenthapadi, and Sucheta Soundarajan(参考訳) ソーシャルネットワークとプロフェッショナルネットワークにおける従業員の相互作用パターンは、従業員や組織全体の成功に重要な役割を果たす。 しかし、多くの分野では、少数民族の深刻な下層表現があり、その上、少数民族はネットワークの他の部分から分離されるか、互いに孤立することがある。 諸分野におけるマイノリティ集団の表現を増大させる問題はよく研究されているが、数だけではダイバーシフィケーションは不十分であり、社会的関係も考慮すべきである。 そこで本研究では,多様性と全体的な適合性を最大化するために,一連の雇用候補者をソーシャルネットワークのポジションに割り当てる問題を考察し,このようなマッチングを見つけるための新しいアルゴリズムであるFair Employee Assignment(FairEA)を提案する。 FairEAからのアウトプットは、雇用と割り当てのプラクティスを評価したい組織によるベンチマークとして使用することができる。 実ネットワークと合成ネットワークにおいて、FairEAは高い適合性、高多様性のマッチングを見つけるのに有効であることを示す。

The interaction patterns of employees in social and professional networks play an important role in the success of employees and organizations as a whole. However, in many fields there is a severe under-representation of minority groups; moreover, minority individuals may be segregated from the rest of the network or isolated from one another. While the problem of increasing the representation of minority groups in various fields has been well-studied, diver- sification in terms of numbers alone may not be sufficient: social relationships should also be considered. In this work, we consider the problem of assigning a set of employment candidates to positions in a social network so that diversity and overall fitness are maximized, and propose Fair Employee Assignment (FairEA), a novel algorithm for finding such a matching. The output from FairEA can be used as a benchmark by organizations wishing to evaluate their hiring and assignment practices. On real and synthetic networks, we demonstrate that FairEA does well at finding high-fitness, high-diversity matchings.
翻訳日:2021-05-17 12:39:27 公開日:2021-05-14
# ハイパースペクトル異常検出のための固有確率分布の探索

Exploring the Intrinsic Probability Distribution for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2105.06775v1 )

ライセンス: Link先を確認
Shaoqi Yu, Xiaorun Li, Shuhan Chen, Liaoying Zhao(参考訳) 近年,ニューラルネットワークを用いた異常検出手法は,従来の手法に比べて強力な再構成能力を持つため,高スペクトルリモートセンシング領域において注目されている。 しかし、異常の確率分布が明示的にモデル化されていないため、復元誤差を利用して潜在空間に隠れた実際の確率分布統計は発見されない。 この問題に対処するため,本論文では,高スペクトル異常検出のための原データにおける背景と異常の両方の固有分布を探索する新しい確率分布表現検出器(PDRD)を提案する。 まず,多変量ガウス分布を持つ超スペクトルデータを確率論的観点から表現する。 次に,局所統計と得られた分布を組み合わせることで,空間情報を活用する。 最後に、修正されたワッサースタイン距離を演算して検出マップを取得することにより、テスト画素の対応する分布とチェビシェフ近傍の画素の平均期待との差を測定する。 提案手法の性能を評価するために, 4つの実データを用いた実験を行った。 実験により,提案手法の精度と効率を最先端検出法と比較した。

In recent years, neural network-based anomaly detection methods have attracted considerable attention in the hyperspectral remote sensing domain due to the powerful reconstruction ability compared with traditional methods. However, actual probability distribution statistics hidden in the latent space are not discovered by exploiting the reconstruction error because the probability distribution of anomalies is not explicitly modeled. To address the issue, we propose a novel probability distribution representation detector (PDRD) that explores the intrinsic distribution of both the background and the anomalies in original data for hyperspectral anomaly detection in this paper. First, we represent the hyperspectral data with multivariate Gaussian distributions from a probabilistic perspective. Then, we combine the local statistics with the obtained distributions to leverage the spatial information. Finally, the difference between the corresponding distributions of the test pixel and the average expectation of the pixels in the Chebyshev neighborhood is measured by computing the modified Wasserstein distance to acquire the detection map. We conduct the experiments on four real data sets to evaluate the performance of our proposed method. Experimental results demonstrate the accuracy and efficiency of our proposed method compared to the state-of-the-art detection methods.
翻訳日:2021-05-17 12:39:11 公開日:2021-05-14
# 言語操作型ビデオアクターセグメンテーションのための協調的空間時間モデリング

Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation ( http://arxiv.org/abs/2105.06818v1 )

ライセンス: Link先を確認
Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang(参考訳) 言語クエリ付きビデオアクタセグメンテーションは、対象フレーム内の自然言語クエリによって記述されたアクションを実行するアクタのピクセルレベルのマスクを予測することを目的としている。 既存の手法では、ビデオクリップ上の3D CNNを汎用エンコーダとして採用し、ターゲットフレームの混合時空間特徴を抽出する。 3D畳み込みは、どのアクターがクエリされたアクションを実行しているかを認識するのに役立つが、隣接するフレームから不正確な空間情報も必然的に導入し、ターゲットフレームの特徴を混乱させ、不正確なセグメンテーションをもたらす。 そこで本稿では,映像クリップ上の3次元時間エンコーダを含む協調型空間エンコーダ・デコーダフレームワークと,対象フレーム上の2次元空間エンコーダを用いて,クエリされたアクタを正確に分割する手法を提案する。 このデコーダでは,2つのエンコーダから空間的特徴と時間的特徴を柔軟に統合するlgfsモジュールが提案されている。 また,2つのエンコーダの各段階において,空間的特徴と時間的関係を持つ言語的特徴を動的に組み換えるクロスモーダル適応変調(cmam)モジュールを提案する。 提案手法は,従来の手法に比べて計算オーバーヘッドの少ない2つのベンチマークにおいて,新しい最先端性能を実現する。

Language-queried video actor segmentation aims to predict the pixel-level mask of the actor which performs the actions described by a natural language query in the target frames. Existing methods adopt 3D CNNs over the video clip as a general encoder to extract a mixed spatio-temporal feature for the target frame. Though 3D convolutions are amenable to recognizing which actor is performing the queried actions, it also inevitably introduces misaligned spatial information from adjacent frames, which confuses features of the target frame and yields inaccurate segmentation. Therefore, we propose a collaborative spatial-temporal encoder-decoder framework which contains a 3D temporal encoder over the video clip to recognize the queried actions, and a 2D spatial encoder over the target frame to accurately segment the queried actors. In the decoder, a Language-Guided Feature Selection (LGFS) module is proposed to flexibly integrate spatial and temporal features from the two encoders. We also propose a Cross-Modal Adaptive Modulation (CMAM) module to dynamically recombine spatial- and temporal-relevant linguistic features for multimodal feature interaction in each stage of the two encoders. Our method achieves new state-of-the-art performance on two popular benchmarks with less computational overhead than previous approaches.
翻訳日:2021-05-17 12:38:55 公開日:2021-05-14
# 未知の自然照明下での屋外シーンの表面反射特性の予測

Predicting Surface Reflectance Properties of Outdoor Scenes Under Unknown Natural Illumination ( http://arxiv.org/abs/2105.06820v1 )

ライセンス: Link先を確認
Farhan Rahman Wasee, Alen Joy, Charalambos Poullis(参考訳) 屋外照明条件下での物体の外観の推定とモデル化は複雑なプロセスである。 照明の推定や照明に関する研究はいくつかあるが、屋外の物体やシーンの反射特性の推定に焦点を絞ったものはほとんどない。 本稿は, 自然照明下での屋外シーンの表面反射特性を予測するための完全な枠組みを提案する。 一意に、この問題をBRDFの入射光と出射視方向を含む2つの構成成分に再キャストする: (i) 画像中に捉えた面点の放射率と出射視方向を集約して反射率マップに符号化し、 (ii) 任意の光方向の単位球のレンダリングの反射率マップに基づいてトレーニングされたニューラルネットワークは、シーンの各面の反射率特性を表す低パラメータ反射モデルを推定する。 本モデルは現象学と物理に基づく散乱モデルの組み合わせに基づいており,新しい視点からシーンをリライトすることができる。 本稿では, 反射特性の予測によるレンダリングにより, 反射特性から切り離せないテクスチャを用いた場合と, 視覚的に類似した外観が得られることを示す。

Estimating and modelling the appearance of an object under outdoor illumination conditions is a complex process. Although there have been several studies on illumination estimation and relighting, very few of them focus on estimating the reflectance properties of outdoor objects and scenes. This paper addresses this problem and proposes a complete framework to predict surface reflectance properties of outdoor scenes under unknown natural illumination. Uniquely, we recast the problem into its two constituent components involving the BRDF incoming light and outgoing view directions: (i) surface points' radiance captured in the images, and outgoing view directions are aggregated and encoded into reflectance maps, and (ii) a neural network trained on reflectance maps of renders of a unit sphere under arbitrary light directions infers a low-parameter reflection model representing the reflectance properties at each surface in the scene. Our model is based on a combination of phenomenological and physics-based scattering models and can relight the scenes from novel viewpoints. We present experiments that show that rendering with the predicted reflectance properties results in a visually similar appearance to using textures that cannot otherwise be disentangled from the reflectance properties.
翻訳日:2021-05-17 12:38:32 公開日:2021-05-14
# マンガ修復のためのエイリアシング

Exploiting Aliasing for Manga Restoration ( http://arxiv.org/abs/2105.06830v1 )

ライセンス: Link先を確認
Minshan Xie, Menghan Xia, Tien-Tsin Wong(参考訳) 人気芸能の形式として、マンガは細部まで細部を細部まで細部まで刻み込む。 しかし、インターネット上のマンガリソースは通常、不適切なスキャン/リスケーリング解像度のためにスクリーントーンアーティファクトを表示する。 本稿では,劣化したものから高品質なビオナールマンガを復元する革新的な2段階手法を提案する。 以上より,バイトン系スクリーントーンのダウンサンプリングによって引き起こされるエイリアスが,元の解像度やスクリーントーンを推定するための情報的手がかりとして利用できることを示す。 まず, 空間投票方式を用いたスケール推定ネットワーク(SE-Net)を用いて, 劣化マンガの目標解像度を推定する。 そして, 目標解像度において, 劣化度に応じて, マンガ復元ネットワーク(MR-Net)を用いて, 領域ワイドのスクリーントーンを識別的に復元する。 具体的には、元のスクリーントンはパターン識別可能な領域で直接復元され、視覚的に可視なスクリーントンはパターン認識領域で合成される。 合成データの定量的評価と実例の視覚的評価は,本手法の有効性を示す。

As a popular entertainment art form, manga enriches the line drawings details with bitonal screentones. However, manga resources over the Internet usually show screentone artifacts because of inappropriate scanning/rescaling resolution. In this paper, we propose an innovative two-stage method to restore quality bitonal manga from degraded ones. Our key observation is that the aliasing induced by downsampling bitonal screentones can be utilized as informative clues to infer the original resolution and screentones. First, we predict the target resolution from the degraded manga via the Scale Estimation Network (SE-Net) with spatial voting scheme. Then, at the target resolution, we restore the region-wise bitonal screentones via the Manga Restoration Network (MR-Net) discriminatively, depending on the degradation degree. Specifically, the original screentones are directly restored in pattern-identifiable regions, and visually plausible screentones are synthesized in pattern-agnostic regions. Quantitative evaluation on synthetic data and visual assessment on real-world cases illustrate the effectiveness of our method.
翻訳日:2021-05-17 12:38:08 公開日:2021-05-14
# fit4cad:cadモデルに単純な幾何学的プリミティブを適合させるためのポイントクラウドベンチマーク

Fit4CAD: A point cloud benchmark for fitting simple geometric primitives in CAD models ( http://arxiv.org/abs/2105.06858v1 )

ライセンス: Link先を確認
Chiara Romanengo, Andrea Raffo, Yifan Qie, Nabil Anwer, Bianca Falcidieno(参考訳) CADモデルを表す点雲に単純な幾何学的プリミティブを適合させる手法の評価と比較のためのベンチマークであるFit4CADを提案する。 このベンチマークは、メソッド開発者と最高のパフォーマンスツールを特定したい人の両方を支援する。 Fit4CADデータセットは、225個の高品質な点雲で構成され、それぞれCADモデルをサンプリングして得られた。 これらの要素は既存のプラットフォームとデータセットを使って作成され、ベンチマークを容易に拡張できる。 データセットはすでにトレーニングセットとテストセットに分割されています。 異なるプリミティブフィッティング法の性能と精度を評価するため、様々な測定方法が定義される。 本研究では,Fit4CADの有効利用を実証するために,プリミティブなフィッティング問題に対するアプローチの2つの異なるカテゴリに属する2つの手法,すなわちプリミティブな成長フレームワークに基づくクラスタリング法とHough変換に基づくパラメトリック手法で検証した。

We propose Fit4CAD, a benchmark for the evaluation and comparison of methods for fitting simple geometric primitives in point clouds representing CAD models. This benchmark is meant to help both method developers and those who want to identify the best performing tools. The Fit4CAD dataset is composed by 225 high quality point clouds, each of which has been obtained by sampling a CAD model. The way these elements were created by using existing platforms and datasets makes the benchmark easily expandable. The dataset is already split into a training set and a test set. To assess performance and accuracy of the different primitive fitting methods, various measures are defined. To demonstrate the effective use of Fit4CAD, we have tested it on two methods belonging to two different categories of approaches to the primitive fitting problem: a clustering method based on a primitive growing framework and a parametric method based on the Hough transform.
翻訳日:2021-05-17 12:37:54 公開日:2021-05-14
# グラフを横断するメタインダクティブノード分類

Meta-Inductive Node Classification across Graphs ( http://arxiv.org/abs/2105.06725v1 )

ライセンス: Link先を確認
Zhihao Wen, Yuan Fang, Zemin Liu(参考訳) グラフ上の半教師付きノード分類は重要な研究課題であり、ソーシャルネットワーク上のコンテンツ分類やeコマースクエリグラフ上のクエリ意図分類といった情報検索における多くの実世界の応用がある。 従来のアプローチは概ねトランスダクティブだが、最近のグラフニューラルネットワーク(gnn)はノードの特徴とネットワーク構造を統合することで、同じ特徴空間で新しいノードや新しいグラフに適用可能な帰納的ノード分類モデルを可能にする。 しかし、グラフ間の違いは同じ領域内のグラフにも存在する。 したがって、グラフ間の差を無視しながら、すべての新しいグラフを処理するための1つのグローバルモデル(例えば、最先端のGNN)のトレーニングは、最適なパフォーマンスをもたらす。 本稿では,グラフ間の帰納的ノード分類の問題について検討する。 既存の一モデル適合アプローチとは異なり、メタ学習パラダイムの下で各グラフへの帰納モデルをカスタマイズするMI-GNNと呼ばれる新しいメタ帰納的フレームワークを提案する。 すなわち、mi-gnnは帰納的モデルを直接学習しない;新しいグラフ上で半教師付きノード分類のモデルを訓練する方法の一般的な知識を学ぶ。 グラフ間の差に対処するため、MI-GNNはグラフレベルとタスクレベルの両方で二重適応機構を採用している。 より具体的には、グラフレベルの差に対応する前にグラフを学び、グラフ上に条件付けられたタスクレベルの差に対応するためのタスクを学習します。 5つの実世界のグラフコレクションに関する広範な実験により,提案モデルの有効性が示された。

Semi-supervised node classification on graphs is an important research problem, with many real-world applications in information retrieval such as content classification on a social network and query intent classification on an e-commerce query graph. While traditional approaches are largely transductive, recent graph neural networks (GNNs) integrate node features with network structures, thus enabling inductive node classification models that can be applied to new nodes or even new graphs in the same feature space. However, inter-graph differences still exist across graphs within the same domain. Thus, training just one global model (e.g., a state-of-the-art GNN) to handle all new graphs, whilst ignoring the inter-graph differences, can lead to suboptimal performance. In this paper, we study the problem of inductive node classification across graphs. Unlike existing one-model-fits-all approaches, we propose a novel meta-inductive framework called MI-GNN to customize the inductive model to each graph under a meta-learning paradigm. That is, MI-GNN does not directly learn an inductive model; it learns the general knowledge of how to train a model for semi-supervised node classification on new graphs. To cope with the differences across graphs, MI-GNN employs a dual adaptation mechanism at both the graph and task levels. More specifically, we learn a graph prior to adapt for the graph-level differences, and a task prior to adapt for the task-level differences conditioned on a graph. Extensive experiments on five real-world graph collections demonstrate the effectiveness of our proposed model.
翻訳日:2021-05-17 12:37:01 公開日:2021-05-14
# ネットワークスライス配置のためのヒューリスティック支援深部強化学習手法

A Heuristically Assisted Deep Reinforcement Learning Approach for Network Slice Placement ( http://arxiv.org/abs/2105.06741v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, and Pierre Sens(参考訳) 仮想基板ネットワークから資源を割り当てる問題に対するネットワークスライス配置は、多目的整数線形計画法(ILP)問題として定式化できる最適化問題である。 しかし、このような継続的タスクの複雑さに対処し、最適性と自動化を求めるためには、機械学習(ML)技術の使用が有望なアプローチとして現れる。 本稿では,深層強化学習(drl)に基づくハイブリッド配置ソリューションと,2つの選択原理のパワーに基づく最適化ヒューリスティックを提案する。 DRLアルゴリズムは、高速学習には非同期アドバンテージアクター批判(A3C)アルゴリズム、物理基板ネットワークからの特徴抽出を自動化するためにグラフ畳み込みネットワーク(GCN)を用いる。 提案したHuristically-Assisted DRL (HA-DRL) は,評価結果の証拠として,他の最先端アプローチと比較して学習プロセスの高速化と資源利用率の向上を可能にする。

Network Slice placement with the problem of allocation of resources from a virtualized substrate network is an optimization problem which can be formulated as a multiobjective Integer Linear Programming (ILP) problem. However, to cope with the complexity of such a continuous task and seeking for optimality and automation, the use of Machine Learning (ML) techniques appear as a promising approach. We introduce a hybrid placement solution based on Deep Reinforcement Learning (DRL) and a dedicated optimization heuristic based on the Power of Two Choices principle. The DRL algorithm uses the so-called Asynchronous Advantage Actor Critic (A3C) algorithm for fast learning, and Graph Convolutional Networks (GCN) to automate feature extraction from the physical substrate network. The proposed Heuristically-Assisted DRL (HA-DRL) allows to accelerate the learning process and gain in resource usage when compared against other state-of-the-art approaches as the evaluation results evidence.
翻訳日:2021-05-17 12:36:35 公開日:2021-05-14
# 流体構造相互作用の分割深層学習

Partitioned Deep Learning of Fluid-Structure Interaction ( http://arxiv.org/abs/2105.06785v1 )

ライセンス: Link先を確認
Amin Totounferoush, Axel Schumacher and Miriam Schulte(参考訳) 本稿では、流体構造相互作用(FSI)問題を学習するための分割ニューラルネットワークベースのフレームワークを提案する。 我々はシミュレーションドメインを流体ドメインと固体ドメインの2つの小さなサブドメインに分解し、それぞれに独立したニューラルネットワークを組み込む。 ライブラリは、境界データ通信、データマッピング、方程式結合を扱う2つのネットワークを結合するために使用される。 シミュレーションデータは、両方のニューラルネットワークのトレーニングに使用される。 畳み込みニューラルネットワークとリカレントニューラルネットワーク(CNNとRNN)を組み合わせることで、空間的および時間的接続性を考慮します。 準ニュートン法はFSI結合収束を加速するために用いられる。 提案手法は, 弾性管内の1次元流れを数値シミュレーションする従来の数値計算手法と, 実験結果の一致が非常に良好である。 この研究は、ニューラルネットワークを用いてFSI結合収束を高速化するための予備ステップであり、古典的数値解法の各時間ステップに正確な初期推定を与える。

We present a partitioned neural network-based framework for learning of fluid-structure interaction (FSI) problems. We decompose the simulation domain into two smaller sub-domains, i.e., fluid and solid domains, and incorporate an independent neural network for each. A library is used to couple the two networks which takes care of boundary data communication, data mapping and equation coupling. Simulation data are used for training of the both neural networks. We use a combination of convolutional and recurrent neural networks (CNN and RNN) to account for both spatial and temporal connectivity. A quasi-Newton method is used to accelerate the FSI coupling convergence. We observe a very good agreement between the results of the presented framework and the classical numerical methods for simulation of 1d fluid flow inside an elastic tube. This work is a preliminary step for using neural networks to speed-up the FSI coupling convergence by providing an accurate initial guess in each time step for classical numerical solvers
翻訳日:2021-05-17 12:36:17 公開日:2021-05-14
# マーティンガレスの主張と予測の進化

Threshold Martingales and the Evolution of Forecasts ( http://arxiv.org/abs/2105.06834v1 )

ライセンス: Link先を確認
Dean P. Foster and Robert A. Stine(参考訳) 本稿では,進化する予測分布の2つの性質を特徴付けるマルティンゲールについて述べる。 将来のイベントの理想的な予測は、マーチンガレットとして振る舞う。 ここで導入されたしきい値は、しきい値以下の予測分布の比率を測定する。 キャリブレーションに加えて、しきい値マーティンゲールは、初期予測分布の量子量によって決定される合計に蓄積される二次変動を持つ。 基礎モデルにおけるキャリブレーションまたはタルボラティリティ信号問題からの逸脱 キャリブレーション調整はよく知られており、より小さな平均二乗誤差を保証しながらボラティリティを向上させるマルチンゲールフィルタを導入することで、これらの強化を行う。 このように、後処理は、元の予測入力モデルを再考することなく、キャリブレーションとボラティリティの問題を修正することができる。 まず、シミュレーションモデルから予測し、次にプロバスケットボールの試合で勝者を予測するモデルに適用する。

This paper introduces a martingale that characterizes two properties of evolving forecast distributions. Ideal forecasts of a future event behave as martingales, sequen- tially updating the forecast to leverage the available information as the future event approaches. The threshold martingale introduced here measures the proportion of the forecast distribution lying below a threshold. In addition to being calibrated, a threshold martingale has quadratic variation that accumulates to a total determined by a quantile of the initial forecast distribution. Deviations from calibration or to- tal volatility signal problems in the underlying model. Calibration adjustments are well-known, and we augment these by introducing a martingale filter that improves volatility while guaranteeing smaller mean squared error. Thus, post-processing can rectify problems with calibration and volatility without revisiting the original forecast- ing model. We apply threshold martingales first to forecasts from simulated models and then to models that predict the winner in professional basketball games.
翻訳日:2021-05-17 12:36:02 公開日:2021-05-14
# 非定常音源分離のための仮説検証手法

A Hypothesis Testing Approach to Nonstationary Source Separation ( http://arxiv.org/abs/2105.06958v1 )

ライセンス: Link先を確認
Reza Sameni, Christian Jutten(参考訳) 盲点と半盲点の多変量観測から非定常信号の抽出は、繰り返し発生する問題である。 マルチチャネルデータの2階以上の累積行列/テンソルの正確なあるいは近似的な関節対角化に基づいて,この問題に対して多数のアルゴリズムが開発された。 連立対角化アルゴリズムの研究が盛んに行われているが、対角化行列/テンソル集合の選択は非常に問題に特化している。 本稿では,非定常性同定のための様々な手法について検討し,仮説検証に基づく新しい汎用フレームワークを提案し,非定常成分の半盲点分離に対する分類・クラスタリングの観点から考察する。 提案法を非侵襲的胎児心電図抽出に応用した。

The extraction of nonstationary signals from blind and semi-blind multivariate observations is a recurrent problem. Numerous algorithms have been developed for this problem, which are based on the exact or approximate joint diagonalization of second or higher order cumulant matrices/tensors of multichannel data. While a great body of research has been dedicated to joint diagonalization algorithms, the selection of the diagonalized matrix/tensor set remains highly problem-specific. Herein, various methods for nonstationarity identification are reviewed and a new general framework based on hypothesis testing is proposed, which results in a classification/clustering perspective to semi-blind source separation of nonstationary components. The proposed method is applied to noninvasive fetal ECG extraction, as case study.
翻訳日:2021-05-17 12:35:48 公開日:2021-05-14
# すべてを解決するための1つのネットワーク:MRイメージングパイプラインのための連続マルチタスク共同学習ネットワークフレームワーク

One Network to Solve Them All: A Sequential Multi-Task Joint Learning Network Framework for MR Imaging Pipeline ( http://arxiv.org/abs/2105.06653v1 )

ライセンス: Link先を確認
Zhiwen Wang, Wenjun Xia, Zexin Lu, Yongqiang Huang, Yan Liu, Hu Chen, Jiliu Zhou, and Yi Zhang(参考訳) 磁気共鳴画像(MRI)の取得、再構成、セグメント化は通常、MRIワークフローの慣行において独立に処理される。 これらの課題には重大な関連性があることに気付くことは容易であり、この手順はこれらの潜在的な接続を人工的に遮断し、最終診断において臨床的に重要な情報が失われる可能性がある。 これらの潜在的な関係をさらなる性能向上に結び付けるため、連続的なマルチタスク共同学習ネットワークモデルを提案し、これらのタスク間の相互影響を同時に探求することを目的として、複合エンドツーエンドパイプラインを異なる方法で訓練する。 1)深部サンプリングパターン学習モジュールは,所定のサンプリングレートで$k$空間サンプリングパターンを最適化する;2)深部再構成モジュールは,学習したサンプリングパターンを用いてアンダーサンプルデータからMRイメージを再構成する;3)深部分割モジュールは,前のモジュールから再構成したMR画像を符号化し,興味のある組織を分割する。 提案モデルでは,各タスクが相互に有益となるような,対話的かつ循環的なタスク間の関係を抽出する。 提案手法は,再構成とセグメント化の両面から,他のSOTA手法よりも優れた性能を示すMBBデータセット上で検証されている。

Magnetic resonance imaging (MRI) acquisition, reconstruction, and segmentation are usually processed independently in the conventional practice of MRI workflow. It is easy to notice that there are significant relevances among these tasks and this procedure artificially cuts off these potential connections, which may lead to losing clinically important information for the final diagnosis. To involve these potential relations for further performance improvement, a sequential multi-task joint learning network model is proposed to train a combined end-to-end pipeline in a differentiable way, aiming at exploring the mutual influence among those tasks simultaneously. Our design consists of three cascaded modules: 1) deep sampling pattern learning module optimizes the $k$-space sampling pattern with predetermined sampling rate; 2) deep reconstruction module is dedicated to reconstructing MR images from the undersampled data using the learned sampling pattern; 3) deep segmentation module encodes MR images reconstructed from the previous module to segment the interested tissues. The proposed model retrieves the latently interactive and cyclic relations among those tasks, from which each task will be mutually beneficial. The proposed framework is verified on MRB dataset, which achieves superior performance on other SOTA methods in terms of both reconstruction and segmentation.
翻訳日:2021-05-17 12:35:38 公開日:2021-05-14
# ハードウェア効率の良い音声トリガー検出と偽トリガー除去のためのストリーミングトランス

Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger Mitigation ( http://arxiv.org/abs/2105.06598v1 )

ライセンス: Link先を確認
Vineet Garg, Wonil Chang, Siddharth Sigtia, Saurabh Adya, Pramod Simha, Pranay Dighe, Chandra Dhir(参考訳) 本稿では,2段階音声トリガ検出(VTD)と偽トリガ緩和(FTM)タスクのための統一的でハードウェアの効率的なアーキテクチャを提案する。 音声アシスタントの2段階VTDシステムは、興味の引き起こしフレーズと音響的に類似した音声セグメントに誤作動する可能性がある。 FTMシステムはポストトリガ音声コンテキストを用いてそのようなアクティベーションをキャンセルする。 従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。 本稿では,音声チャンクを段階的に処理し,VTDタスクとFTMタスクの両方を音響的特徴のみで実行するストリーミングトランスフォーマー(TF)エンコーダアーキテクチャを提案する。 提案した関節モデルは,所定の誤報率でVTDタスクに対して,平均18%のfalse reject rate(FRR)を減少させる。 さらに,本モデルでは,トリガー後音声を1秒間追加することにより,誤動作の95%を抑制する。 最後に、デバイス上での測定では、実行時のメモリが32%削減され、推論時間が56%削減された。

We present a unified and hardware efficient architecture for two stage voice trigger detection (VTD) and false trigger mitigation (FTM) tasks. Two stage VTD systems of voice assistants can get falsely activated to audio segments acoustically similar to the trigger phrase of interest. FTM systems cancel such activations by using post trigger audio context. Traditional FTM systems rely on automatic speech recognition lattices which are computationally expensive to obtain on device. We propose a streaming transformer (TF) encoder architecture, which progressively processes incoming audio chunks and maintains audio context to perform both VTD and FTM tasks using only acoustic features. The proposed joint model yields an average 18% relative reduction in false reject rate (FRR) for the VTD task at a given false alarm rate. Moreover, our model suppresses 95% of the false triggers with an additional one second of post-trigger audio. Finally, on-device measurements show 32% reduction in runtime memory and 56% reduction in inference time compared to non-streaming version of the model.
翻訳日:2021-05-17 12:34:44 公開日:2021-05-14
# 変分オートエンコーダを用いたdosとddos対策

DoS and DDoS Mitigation Using Variational Autoencoders ( http://arxiv.org/abs/2105.06899v1 )

ライセンス: Link先を確認
Eirik Molde B{\aa}rli, Anis Yazidi, Enrique Herrera Viedma, H{\aa}rek Haugerud(参考訳) dosとddos攻撃は過去10年間で規模と数が増えており、これらの攻撃を軽減する既存のソリューションは一般的に非効率である。 他の種類の悪意のあるサイバー攻撃と比較して、DoSとDDoS攻撃は特に戦うのが難しい。 自らを正当なトラフィックとして隠す能力によって、パケットやフローレベルでこのようなタイプの攻撃を検出する方法の開発は、難しい作業であることが証明されている。 本稿では,通常のトラフィックと悪意のあるトラフィックを区別するインテリジェントなセキュリティソリューションのコンポーネントとして機能する,変分オートエンコーダの可能性を検討する。 ネットワークトラフィックフローから潜在表現を学習する変分オートエンコーダの能力に基づく2つの手法を提案する。 第1の方法は、トラヒックトレースから学習した変分オートエンコーダから得られる潜在エンコーダに基づく分類器を用いる。 第二の方法はむしろ異常検出法であり、変分オートエンコーダを使用して専ら正当なトラフィックの抽象的な特徴表現を学ぶ。 そして、変分オートエンコーダの再構成損失に依存して異常をフィルタリングする。 提案手法のどちらも、類似した特徴空間を持つ2つの異なるデータセットで徹底的にテストされている。 その結果, 2つの手法は有望であり, 分類器に基づく手法は, 異常ベースの手法よりもわずかに優れていることがわかった。 %) の精度で個別の交通流を検出でき, テストデータの精度はわずかに低かった。 2つ目の方法は、変分オートエンコーダがネットワークトラフィックフローから異常を十分にフィルターできるよう、さらなる調整を必要とする。

DoS and DDoS attacks have been growing in size and number over the last decade and existing solutions to mitigate these attacks are in general inefficient. Compared to other types of malicious cyber attacks, DoS and DDoS attacks are particularly more challenging to combat. With their ability to mask themselves as legitimate traffic, developing methods to detect these types of attacks on a packet or flow level, has proven to be a difficult task. In this paper, we explore the potential of Variational Autoencoders to serve as a component within an intelligent security solution that differentiates between normal and malicious traffic. Two methods based on the ability of Variational Autoencoders to learn latent representations from network traffic flows are proposed. The first method resorts to a classifier based on the latent encodings obtained from Variational Autoencoders learned from traffic traces. The second method is rather an anomaly detection method where the Variational Autoencoder is used to learn the abstract feature representations of exclusively legitimate traffic. Then anomalies are filtered out by relying on the reconstruction loss of the Variational Autoencoder. Both of the proposed methods have been thoroughly tested on two separate datasets with a similar feature space. The results show that both methods are promising, with a slight superiority of the classifier based method over the anomaly based one. %that the first method is able to successfully detect individual traffic flows with high precision on the training and validation data, slightly less successfully on the test data. For the second method, the Variational Autoencoder will require further adjustments to be able to sufficiently filter out anomalies from network traffic flows.
翻訳日:2021-05-17 12:34:28 公開日:2021-05-14
# 拡張畳み込みネットワークを用いた脳波からの音声明瞭度予測

Predicting speech intelligibility from EEG using a dilated convolutional network ( http://arxiv.org/abs/2105.06844v1 )

ライセンス: Link先を確認
Bernd Accou, Mohammad Jalilpour Monesi, Hugo Van hamme and Tom Francart(参考訳) 目的: 現在、行動的音声理解テストのみが利用可能であり、アクティブな参加を必要とする。 特定の人口に当てはまらないため、客観的な発話の了解度が要求される。 近年、脳画像データを用いて刺激と脳反応の関係が確立されている。 線形モデルは、音声の知性と関連づけられるが、サブジェクトごとの訓練が必要である。 そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。 方法: 入力セグメント長, 脳波周波数帯域, 受容野の大きさの関数としてモデルの性能を評価し, ベースラインモデルと比較した。 次に,ホールドアウトデータとファインタニングの性能評価を行った。 最後に,我々のモデルの精度と最先端の行動MATRIXテストの関連性を確立した。 結果: このモデルは入力セグメント長毎 (p$\leq10^{-9}$) のベースラインを大きく上回り、セタ帯域 (p$\leq0.001$) を除くすべての脳波周波数帯域と125~ms以上の受容磁場サイズ (p$\leq0.05$) のベースラインを上回った。 さらに、ファインタニングは保持されたデータセットの精度(p$\leq0.05$)を大きく向上させた。 最後に,行動MATRIXテストを用いて推定した音声受信閾値と目的法との間に有意な相関(r=0.59,p=0.0154)が認められた。 結論:提案する拡張畳み込みモデルは,音声の明瞭さの指標として使用できる。 意義: 本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 客観的な音声明瞭度測定に寄与する。

Objective: Currently, only behavioral speech understanding tests are available, which require active participation of the person. As this is infeasible for certain populations, an objective measure of speech intelligibility is required. Recently, brain imaging data has been used to establish a relationship between stimulus and brain response. Linear models have been successfully linked to speech intelligibility but require per-subject training. We present a deep-learning-based model incorporating dilated convolutions that can be used to predict speech intelligibility without subject-specific (re)training. Methods: We evaluated the performance of the model as a function of input segment length, EEG frequency band and receptive field size while comparing it to a baseline model. Next, we evaluated performance on held-out data and finetuning. Finally, we established a link between the accuracy of our model and the state-of-the-art behavioral MATRIX test. Results: The model significantly outperformed the baseline for every input segment length (p$\leq10^{-9}$), for all EEG frequency bands except the theta band (p$\leq0.001$) and for receptive field sizes larger than 125~ms (p$\leq0.05$). Additionally, finetuning significantly increased the accuracy (p$\leq0.05$) on a held-out dataset. Finally, a significant correlation (r=0.59, p=0.0154) was found between the speech reception threshold estimated using the behavioral MATRIX test and our objective method. Conclusion: Our proposed dilated convolutional model can be used as a proxy for speech intelligibility. Significance: Our method is the first to predict the speech reception threshold from EEG for unseen subjects, contributing to objective measures of speech intelligibility.
翻訳日:2021-05-17 12:34:04 公開日:2021-05-14