このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210503となっている論文です。

PDF登録状況(公開日: 20210503)

TitleAuthorsAbstract論文公表日・翻訳日
# SurviveCovid-19―Covid-19パンデミックのためのソーシャルディスタンシングその他の健康対策を実践する教育ゲーム

SurviveCovid-19 -- An Educational Game to Facilitate Habituation of Social Distancing and Other Health Measures for Covid-19 Pandemic ( http://arxiv.org/abs/2004.09759v2 )

ライセンス: Link先を確認
Akhila Sri Manasa Venigalla, Dheeraj Vagavolu and Sridhar Chimalakonda(参考訳) 新型コロナウイルス(covid-19)は、人類に深刻な損失をもたらしている。 感染拡大の態勢や重症度を考慮すると、消毒剤やマスクの使用や、コビッド19の拡散を防ぐための社会的距離維持など、さまざまな安全対策に従う習慣が不可欠である。 個人は、オンラインや物理的な認識キャンペーンによる発表、メディアの広告など、さまざまな方法で病気に対する安全対策について広く教育されている。 現在、若い世代は携帯電話やゲームに多くの時間を費やす。 しかし、パンデミックに対する安全対策の実践を支援するアプリケーションやゲームはごくわずかであり、Covid-19の場合よりもはるかに少ない。 そこで我々は,2DサバイバルベースのゲームであるSurviveCovid-19を提案し,ゲーム内にマスクと衛生剤のソーシャルディスタンシングと利用を組み込むことで,Covid-19が自宅の外で取るべき安全対策を人々に教えることを目的とした。 survivecovid-19は、デスクトップ(ブラウザ)版とともにandroidベースのモバイルゲームとして設計されており、リモート定量的ユーザ調査を通じて評価されており、meega+モデルに基づいたアンケートでは30人のボランティアが参加している。 調査結果は有望であり、すべての調査質問の平均値は3.5以上である。 ゲームの品質係数は69.3であり、MEEGA+モデルによると、ゲームは優れた品質に分類できることを示している。

Covid-19 has been causing severe loss to the human race. Considering the mode of spread and severity, it is essential to make it a habit to follow various safety precautions such as using sanitizers and masks and maintaining social distancing to prevent the spread of Covid-19. Individuals are widely educated about the safety measures against the disease through various modes such as announcements through online or physical awareness campaigns, advertisements in the media and so on. The younger generations today spend considerably more time on mobile phones and games. However, there are very few applications or games aimed to help in practicing safety measures against a pandemic, which is much lesser in the case of Covid-19. Hence, we propose a 2D survival-based game, SurviveCovid-19, aimed to educate people about safety precautions to be taken for Covid-19 outside their homes by incorporating social distancing and usage of masks and sanitizers in the game. SurviveCovid-19 has been designed as an Android-based mobile game, along with a desktop (browser) version, and has been evaluated through a remote quantitative user survey, with 30 volunteers using the questionnaire based on the MEEGA+ model. The survey results are promising, with all the survey questions having a mean value greater than 3.5. The game's quality factor was 69.3, indicating that the game could be classified as excellent quality, according to the MEEGA+ model.
翻訳日:2023-05-22 20:49:07 公開日:2021-05-03
# 量子光学ハードウェアの量子コンピュータ支援設計

Quantum Computer-Aided design of Quantum Optics Hardware ( http://arxiv.org/abs/2006.03075v2 )

ライセンス: Link先を確認
Jakob S. Kottmann and Mario Krenn and Thi Ha Kyaw and Sumner Alperin-Lea and Al\'an Aspuru-Guzik(参考訳) 量子系のパラメータは、関連する量子粒子の数で指数関数的に増加する。 したがって、関連するメモリ要件は、数十個の粒子からなる量子システムのための最良の古典的コンピュータの限界を超えて、数値シミュレーションにおいて大きな課題となる。 これはもちろん、新しい量子デバイスや実験の設計は、基本的に小さなシステムサイズに限られていることを示唆している。 大規模量子システムの潜在能力がいかに悪用されるかは明らかではない。 本稿では、量子コンピュータ設計の量子ハードウェアの概念を提示し、それを量子光学の分野に適用する。 具体的には、高次元多体絡み合った光子の複雑な実験ハードウェアをゲートベースの量子回路にマッピングする。 本稿では,Boson Sampling実験のディジタル量子シミュレーションを実現する方法を示す。 次に、高次元グリーンベルガー・ホルン・ザイリンガー状態とその微分など、複雑な絡み合った光子系の量子光学的構成を設計する方法について述べる。 フォトニックハードウェアはすでに量子超越性(古典的に計算できない限界)の端にあり、ゲートベースの量子コンピュータの開発は急速に進んでいるので、我々のアプローチは量子デバイス設計の将来に有用なツールとなることを約束している。

The parameters of a quantum system grow exponentially with the number of involved quantum particles. Hence, the associated memory requirement goes well beyond the limit of best classic computers for quantum systems composed of a few dozen particles leading to huge challenges in their numerical simulation. This implied that verification, let alone, design of new quantum devices and experiments, is fundamentally limited to small system size. It is not clear how the full potential of large quantum systems can be exploited. Here, we present the concept of quantum computer designed quantum hardware and apply it to the field of quantum optics. Specifically, we map complex experimental hardware for high-dimensional, many-body entangled photons into a gate-based quantum circuit. We show explicitly how digital quantum simulation of Boson Sampling experiments can be realized. Then we illustrate how to design quantum-optical setups for complex entangled photon systems, such as high-dimensional Greenberger-Horne-Zeilinger states and their derivatives. Since photonic hardware is already on the edge of quantum supremacy (the limit beyond which systems can no longer be calculated classically) and the development of gate-based quantum computers is rapidly advancing, our approach promises to be an useful tool for the future of quantum device design.
翻訳日:2023-05-17 04:12:15 公開日:2021-05-03
# 移動孔を反強磁性スピン背景に結合する:磁気ポーラロンの過渡ダイナミクス

Coupling a mobile hole to an antiferromagnetic spin background: Transient dynamics of a magnetic polaron ( http://arxiv.org/abs/2006.06672v2 )

ライセンス: Link先を確認
Geoffrey Ji, Muqing Xu, Lev Haldar Kendrick, Christie S. Chiu, Justus C. Br\"uggenj\"urgen, Daniel Greif, Annabelle Bohrdt, Fabian Grusdt, Eugene Demler, Martin Lebrat, Markus Greiner(参考訳) 電荷とスピンの相互作用と輸送への影響を理解することは、量子多体系においてユビキタスな課題である。 フェルミ・ハッバードモデルでは、この相互作用は磁極を生じさせ、そのダイナミクスは高温超伝導のような量子物質の創発的性質を説明する可能性がある。 本研究では、冷原子量子シミュレータを用いて、生成ダイナミクスとその後の個々の磁極の拡散を直接観察する。 短距離反強磁性相関を持つ2次元ハバード絶縁体における単孔の密度およびスピン分解進化の測定は、高速初期非局在化とスピン背景のドレッシングを示し、ポーラロン形成を示す。 長い間、スピン交換時間によってダイナミクスは遅くなり、強い密度とスピンカップリングを持つポーラロンモデルと互換性があることがわかった。 本研究により,Fermi-Hubbardモデルにおいて,一度に1つのドーパントを持つ平衡外創発現象の研究が可能になる。

Understanding the interplay between charge and spin and its effects on transport is a ubiquitous challenge in quantum many-body systems. In the Fermi-Hubbard model, this interplay is thought to give rise to magnetic polarons, whose dynamics may explain emergent properties of quantum materials such as high-temperature superconductivity. In this work, we use a cold-atom quantum simulator to directly observe the formation dynamics and subsequent spreading of individual magnetic polarons. Measuring the density- and spin-resolved evolution of a single hole in a 2D Hubbard insulator with short-range antiferromagnetic correlations reveals fast initial delocalization and a dressing of the spin background, indicating polaron formation. At long times, we find that dynamics are slowed down by the spin exchange time, and they are compatible with a polaronic model with strong density and spin coupling. Our work enables the study of out-of-equilibrium emergent phenomena in the Fermi-Hubbard model, one dopant at a time.
翻訳日:2023-05-16 00:31:02 公開日:2021-05-03
# 貯留層計算による量子状態計測

Reservoir Computing Approach to Quantum State Measurement ( http://arxiv.org/abs/2011.09652v3 )

ライセンス: Link先を確認
Gerasimos Angelatos, Saeed Khan, Hakan E. T\"ureci(参考訳) 効率的な量子状態測定は、量子システムから抽出された情報を最大化するために重要である。 特にマルチキュービット量子プロセッサでは、高速かつ高忠実な読み出しのためのスケーラブルなアーキテクチャの開発は重要な未解決問題である。 本稿では,超伝導多ビット系の量子計測における資源効率の高い解として貯水池計算を提案する。 測定された量子システムと同じプラットフォーム上で最小限のデバイスオーバーヘッドで実装できるジョセフソンパラメトリック発振器の小さなネットワークを考える。 理論上,このkerrネットワークを貯留層コンピュータとして解析し,確率的時間依存信号を量子統計学的特徴に分類する。 本研究では,この貯水池をマルチキュービット読み出しから計測軌跡を多項分類するタスクに適用する。 実環境下での2量子分散測定では,2~5つのリニアノードのみを用いた最適線形フィルタの精度を高い精度で満たし,同時に1状態当たりの1つの測定値でもより少ないキャリブレーションデータ \textendash{} を要求できる。 我々は,ネットワーク力学の分析を通じて,この顕著な性能を理解し,一般に貯水池処理の直感的な画像を作成する。 最後に,この装置を用いて2量子状態トモグラフィと連続パリティモニタリングを等価な効率とキャリブレーションの容易さで行う方法を示す。 このリザーバプロセッサは、他のディープラーニングフレームワークに共通する計算集約的なトレーニングを避け、計算エッジ上の量子信号の低遅延処理のための統合極低温超伝導デバイスとして実装することができる。

Efficient quantum state measurement is important for maximizing the extracted information from a quantum system. For multi-qubit quantum processors in particular, the development of a scalable architecture for rapid and high-fidelity readout remains a critical unresolved problem. Here we propose reservoir computing as a resource-efficient solution to quantum measurement of superconducting multi-qubit systems. We consider a small network of Josephson parametric oscillators, which can be implemented with minimal device overhead and in the same platform as the measured quantum system. We theoretically analyze the operation of this Kerr network as a reservoir computer to classify stochastic time-dependent signals subject to quantum statistical features. We apply this reservoir computer to the task of multinomial classification of measurement trajectories from joint multi-qubit readout. For a two-qubit dispersive measurement under realistic conditions we demonstrate a classification fidelity reliably exceeding that of an optimal linear filter using only two to five reservoir nodes, while simultaneously requiring far less calibration data \textendash{} as little as a single measurement per state. We understand this remarkable performance through an analysis of the network dynamics and develop an intuitive picture of reservoir processing generally. Finally, we demonstrate how to operate this device to perform two-qubit state tomography and continuous parity monitoring with equal effectiveness and ease of calibration. This reservoir processor avoids computationally intensive training common to other deep learning frameworks and can be implemented as an integrated cryogenic superconducting device for low-latency processing of quantum signals on the computational edge.
翻訳日:2023-04-23 17:24:57 公開日:2021-05-03
# 1次元閉じ込められたボースポーラロンの高周波分光:断熱体から断熱体への交差

Radiofrequency spectroscopy of one-dimensional trapped Bose polarons: crossover from the adiabatic to the diabatic regime ( http://arxiv.org/abs/2011.13756v2 )

ライセンス: Link先を確認
S. I. Mistakidis, G. M. Koutentakis, F. Grusdt, H. R. Sadeghpour and P. Schmelcher(参考訳) 本研究では,不純物により引き起こされるダイナミクスの交叉について検討し,不純物からダイアバティックな状態へ,電波周波数(rf)の異なる1次元ボースポーラロンを捕捉した。 弱い反発性または魅力的な不純物-ナトリウム相互作用のための断熱パルスを用いることにより、ボゾン媒質の集合呼吸運動と不純物-バス相互作用の複数の極性励起またはモード結合をスペクトル的に解決する。 強い反発性不純物-バス相互作用において、時間直交カタストロフィは不純物コヒーレンスが消滅する励起スペクトルの共鳴に現れる。 2つの不純物が導入されたとき、誘引的または強い反発的カップリングに対して不純物-不純物相関は、単一の不純物に対する共鳴のスペクトルシフトを誘導する。 重い不純物の場合、ポラロンピークは、不純物スピンダイナミクスと浴の音波の干渉に関連する一連の等密度のサイドバンド共鳴を伴う。 いずれの場合も、単一極性共鳴を特徴とするローレンツスペクトル形状を持つrf場の裸ラビ周波数の増加に対して、ダイアバティック転送方式に入る。 本研究における外部トラップ,rfパルス,不純物-不純物相互作用の影響は,新世代の低温原子実験に影響を及ぼすと考えられる。

We investigate the crossover of the impurity-induced dynamics, in trapped one-dimensional Bose polarons subject to radio frequency (rf) pulses of varying intensity, from an adiabatic to a diabatic regime. Utilizing adiabatic pulses for either weak repulsive or attractive impurity-medium interactions, a multitude of polaronic excitations or mode-couplings of the impurity-bath interaction with the collective breathing motion of the bosonic medium are spectrally resolved. We find that for strongly repulsive impurity-bath interactions, a temporal orthogonality catastrophe manifests in resonances in the excitation spectra where impurity coherence vanishes. When two impurities are introduced, impurity-impurity correlations, for either attractive or strong repulsive couplings, induce a spectral shift of the resonances with respect to the single impurity. For a heavy impurity, the polaronic peak is accompanied by a series of equidistant side-band resonances, related to interference of the impurity spin dynamics and the sound waves of the bath. In all cases, we enter the diabatic transfer regime for an increasing bare Rabi frequency of the rf field with a Lorentzian spectral shape featuring a single polaronic resonance. The findings in this work on the effects of external trap, rf pulse and impurity-impurity interaction should have implications for the new generations of cold-atom experiments.
翻訳日:2023-04-22 20:38:18 公開日:2021-05-03
# 渦ビームと二原子分子の相互作用と回転

Interaction between vortex beams and diatomic molecules with rotation ( http://arxiv.org/abs/2012.15227v2 )

ライセンス: Link先を確認
Guanming Lao(参考訳) 近年では渦ビーム(vb)と分子の相互作用が注目されているが、理論的な方法の欠如は、特に分子電子状態と分子の回転度が関係している場合に、そのさらなる解析を制限している。 分子回転を理論的研究に組み込むため,本稿では,フントのカップリング基底における二原子分子状態と球面調和拡大の形で相互作用ハミルトニアンを表現し,vbにより駆動される分子状態の回転遷移について検討する。 この理論は、VBの各光子は0、$\hbar$、または2$\hbar$の角運動量を持ち、従ってO、P、Q、R、Sの2原子分子回転遷移を特定の選択規則で駆動することができることを明らかに示している。 これらの結果は、vbが二原子分子状態の調製と測定のための新しい方法を提供することを示唆している。

The interaction between vortex beam (VB) and molecule has drawn much attention in recent years, but the lack of theoretical method somehow limits its further analysis, especially when the molecular rotational degree of freedom is involved and coupled with the molecular electronic states. To incorporate the molecular rotation into the theoretical study, in this paper, we describe the diatomic molecular states in Hund's coupling basis and express interaction Hamiltonian in form of spherical harmonics expansion, and then investigate the rotational transition of molecular states driven by VB. The theory clearly illustrates that each photon of VB may carry a total angular momentum of 0, $\hbar$, or 2$\hbar$, and therefore could drive O, P, Q, R and S branches of diatomic molecular rotational transitions with some specific selection rules. These results indicate that VB could provide new methods for preparing and measuring the diatomic molecular states.
翻訳日:2023-04-18 07:48:49 公開日:2021-05-03
# quditチャネルの量子分極

Quantum Polarization of Qudit Channels ( http://arxiv.org/abs/2101.10194v3 )

ライセンス: Link先を確認
Ashutosh Goswami, Mehdi Mhalla, Valentin Savin(参考訳) 量子極符号をqudit入力を持つ量子チャネルに一般化し、チャネルの対称コヒーレント情報を実現する。 提案手法はチャネル結合と分割構成に依存しており, ユニタリ2設計からランダムに選択された2量子ユニタリを, キューディット・インプット・チャネルの2つのインスタンスの組み合わせに用いる。 合成した悪いチャネルへの入力は、送信側と受信側の間でEPRペアを共有することで凍結されるので、我々のスキームは絡み合っている。 一般化された2量子クリフォード群がユニタリな2-設計を形成するという事実を利用して、この集合からチャネル結合演算を選択できると結論付ける。 さらに、偏極はまた、ユニタリな2-設計ではない2量子クリフォードのより小さな部分集合に対しても起こることを示す。 最後に、提案した量子極符号をPauli quditチャネルで復号する方法を示す。

We provide a generalization of quantum polar codes to quantum channels with qudit-input, achieving the symmetric coherent information of the channel. Our scheme relies on a channel combining and splitting construction, where a two-qudit unitary randomly chosen from a unitary 2-design is used to combine two instances of a qudit-input channel. The inputs to the synthesized bad channels are frozen by sharing EPR pairs between the sender and the receiver, so our scheme is entanglement assisted. Using the fact that the generalized two-qudit Clifford group forms a unitary 2-design, we conclude that the channel combining operation can be chosen from this set. Moreover, we show that polarization also happens for a much smaller subset of two-qudit Cliffords, which is not a unitary 2-design. Finally, we show how to decode the proposed quantum polar codes on Pauli qudit channels.
翻訳日:2023-04-14 00:40:54 公開日:2021-05-03
# 量子カオスは量子です

Quantum Chaos is Quantum ( http://arxiv.org/abs/2102.08406v3 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero, You Zhou and Alioscia Hamma(参考訳) n$ qubits 上の量子回路に $k$ ノンクリフォードゲートを加えることは、$\text{poly}(n)\exp(k)$[1] とスケーリングするアルゴリズムによって古典的なコンピュータ上でシミュレートできることはよく知られている。 量子回路が量子カオスの振る舞いをシミュレートするには、$k=O(N)$の必要性と十分であることを示す。 この結果は、古典的コンピュータ上で量子カオスをシミュレートすることができないことを意味する。

It is well known that a quantum circuit on $N$ qubits composed of Clifford gates with the addition of $k$ non Clifford gates can be simulated on a classical computer by an algorithm scaling as $\text{poly}(N)\exp(k)$[1]. We show that, for a quantum circuit to simulate quantum chaotic behavior, it is both necessary and sufficient that $k=O(N)$. This result implies the impossibility of simulating quantum chaos on a classical computer.
翻訳日:2023-04-11 00:14:34 公開日:2021-05-03
# イオン輸送と分離のための運動スクイーズ法

Motional squeezing for trapped ion transport and separation ( http://arxiv.org/abs/2103.05832v2 )

ライセンス: Link先を確認
R. T. Sutherland, S. C. Burd, D. H. Slichter, S. B. Libby, D. Leibfried(参考訳) イオン結晶の輸送、分離、融合は、ほとんどの大規模量子コンピューティングアーキテクチャにとって不可欠な操作である。 本研究では,運動スクイーズ演算子を用いた時変ポテンシャルにおけるイオンのダイナミクスを記述する理論的枠組みを開発し,次に運動変位演算子について述べる。 このフレームワークを用いて、イオン輸送、分離、統合のための新しい一般的なプロトコルを開発する。 移動スクイージングは、あるトラップ電位の基底状態から別の状態への移動を可能にするイオン波パケットを準備できることを示す。 このフレームワークとプロトコルは、常にイオン波パケットの範囲内で電位が高調波である場合に適用できる。 例示として,単一イオンの閉じ込めポテンシャルの強さを変化させ,同種イオンを相互のクーロン力で分離する2つの操作について検討した。 どちらの操作も、理想的には、残留運動励起を含まない。

Transport, separation, and merging of trapped ion crystals are essential operations for most large-scale quantum computing architectures. In this work, we develop a theoretical framework that describes the dynamics of ions in time-varying potentials with a motional squeeze operator, followed by a motional displacement operator. Using this framework, we develop a new, general protocol for trapped ion transport, separation, and merging. We show that motional squeezing can prepare an ion wave packet to enable transfer from the ground state of one trapping potential to another. The framework and protocol are applicable if the potential is harmonic over the extent of the ion wave packets at all times. As illustrations, we discuss two specific operations: changing the strength of the confining potential for a single ion, and separating same-species ions with their mutual Coulomb force. Both of these operations are, ideally, free of residual motional excitation.
翻訳日:2023-04-08 13:51:23 公開日:2021-05-03
# 量子センサネットワークを用いた複数関数推定のためのプロトコル:幾何と性能

Protocols for estimating multiple functions with quantum sensor networks: geometry and performance ( http://arxiv.org/abs/2104.09540v2 )

ライセンス: Link先を確認
Jacob Bringewatt, Igor Boettcher, Pradeep Niroula, Przemyslaw Bienias, and Alexey V. Gorshkov(参考訳) 量子センサネットワークにおいて、量子ビットセンサを用いて局所パラメータの集合の複数の解析関数を推定する問題を考察する。 この問題に対処するため、ルビオ等におけるセンサ対称性能境界の一般化を強調した。 アル [j. phys. a: math. theor. 53 344001 (2020)] このような関数を測定するための新しい最適化されたシーケンシャルプロトコルを開発した。 量子エンタングルメントを使用しない局所プロトコルと,両手法の性能を比較し,測定した関数の係数ベクトルの幾何学的意義を強調し,測定プロトコルの最適選択を決定する。 多くの場合、特に多数のセンサに対して、最適化されたシーケンシャルプロトコルが他の戦略よりも正確な測定結果をもたらすことを示す。 さらに、センサ対称アプローチとは対照的に、シーケンシャルプロトコルは常に明示的に実装可能であることが知られている。 シーケンシャルプロトコルは非常に一般的で、幅広いメトロロジー応用がある。

We consider the problem of estimating multiple analytic functions of a set of local parameters via qubit sensors in a quantum sensor network. To address this problem, we highlight a generalization of the sensor symmetric performance bounds of Rubio et. al. [J. Phys. A: Math. Theor. 53 344001 (2020)] and develop a new optimized sequential protocol for measuring such functions. We compare the performance of both approaches to one another and to local protocols that do not utilize quantum entanglement, emphasizing the geometric significance of the coefficient vectors of the measured functions in determining the best choice of measurement protocol. We show that, in many cases, especially for a large number of sensors, the optimized sequential protocol results in more accurate measurements than the other strategies. In addition, in contrast to the the sensor symmetric approach, the sequential protocol is known to always be explicitly implementable. The sequential protocol is very general and has a wide range of metrological applications.
翻訳日:2023-04-03 04:30:40 公開日:2021-05-03
# AIを良いものにする

Becoming Good at AI for Good ( http://arxiv.org/abs/2104.11757v2 )

ライセンス: Link先を確認
Meghana Kshirsagar, Caleb Robinson, Siyu Yang, Shahrzad Gholami, Ivan Klyuzhin, Sumit Mukherjee, Md Nasir, Anthony Ortiz, Felipe Oviedo, Darren Tanner, Anusua Trivedi, Yixi Xu, Ming Zhong, Bistra Dilkina, Rahul Dodhia, Juan M. Lavista Ferres(参考訳) AI for Good(AI4G)プロジェクトは、持続可能性、健康、人道支援、社会正義といった分野のさらなる目標に人工知能(AI)ベースのソリューションを開発し、適用することを含む。 このようなソリューションの開発とデプロイは、ドメインの専門家であり、そのような目標に向けてすでに経験のあるパートナと共同で行う必要があります。 私たちの経験に基づいて、この種のコラボレーションのさまざまな側面を、コミュニケーション、データ、モデリング、インパクトの4つのハイレベルなカテゴリに分類し、将来そのようなプロジェクトを導くために11のテイクアウトを抽出します。 2つのケーススタディを簡潔に説明し、過去の共同作業で実際にどのように利用されたかを説明します。

AI for good (AI4G) projects involve developing and applying artificial intelligence (AI) based solutions to further goals in areas such as sustainability, health, humanitarian aid, and social justice. Developing and deploying such solutions must be done in collaboration with partners who are experts in the domain in question and who already have experience in making progress towards such goals. Based on our experiences, we detail the different aspects of this type of collaboration broken down into four high-level categories: communication, data, modeling, and impact, and distill eleven takeaways to guide such projects in the future. We briefly describe two case studies to illustrate how some of these takeaways were applied in practice during our past collaborations.
翻訳日:2023-04-02 14:49:11 公開日:2021-05-03
# 強レーザー場における窒素分子イオンの超輝度

Superradiance of molecular nitrogen ions in strong laser fields ( http://arxiv.org/abs/2105.00675v1 )

ライセンス: Link先を確認
Q. Wang (1 and 2), P. Ding (2), S. G. Wilkins (3), M. Athanasakis-Kaklamanakis (1 and 4), Y. Zhang (2), Z. Liu (2), B. Hu (2). ((1) CERN, (2) Lanzhou University, (3) Massachusetts Institute of Technology, (4) KU Leuven)(参考訳) 強いレーザー場によって生成された量子コヒーレント系における超ラジアンスの理論的および実験的組み合わせによる研究を行う。 超放射能時間プロファイル、文字長、時間遅延、強度を含む半古典的超放射率理論が導出される。 窒素ガス圧の関数としての391nm前方放出の実験データと理論予測を比較し,良好な一致を示した。 分子性窒素イオン中の時間遅延光増幅は超放射性であるだけでなく、強磁場物理学の量子光学的性質も明らかにしている。

We perform a combined theoretical and experimental investigation of the superradiance in the quantum coherent system generated by strong laser fields. The semiclassical theory of superradiance that includes the superradiant temporal profile, character duration, time delay, intensity is derived. The experimental data and theoretical predictions of 391-nm forward emission as a function of nitrogen gas pressure are compared and show good agreement. Our results not only demonstrate that the time-delayed optical amplification inside the molecular nitrogen ions is superradiance, but also reveal the quantum optical properties of strong-field physics.
翻訳日:2023-04-01 18:03:16 公開日:2021-05-03
# 分子スピンによる量子計算のスケールアップに関する一考察

A perspective on scaling up quantum computation with molecular spins ( http://arxiv.org/abs/2105.00654v1 )

ライセンス: Link先を確認
S. Carretta, D. Zueco, A. Chiesa, \'A. G\'omez-Le\'on, and F. Luis(参考訳) 人工磁性分子は, 大規模量子計算の進展に寄与することができる。 a)複数の量子資源を統合すること b) いくつかの出願の計算コストを削減すること。 化学設計は、理論的な提案によって導かれ、各分子ユニットに非自明な量子関数を埋め込むことが可能であり、これは、エラーで保護された論理量子ビットを符号化したり、量子シミュレーションを実装することができる顕微鏡量子プロセッサとして機能する。 さらにスケールアップするには、複数の分子を'配線する'必要がある。 オンチップ超伝導共振器との結合によりこの目標を達成する方法について論じる。 このハイブリッドアプローチの潜在的な利点と、まだ先にある課題は、批判的にレビューされている。

Artificial magnetic molecules can contribute to progressing towards large scale quantum computation by: a) integrating multiple quantum resources and b) reducing the computational costs of some applications. Chemical design, guided by theoretical proposals, allows embedding nontrivial quantum functionalities in each molecular unit, which then acts as a microscopic quantum processor able to encode error protected logical qubits or to implement quantum simulations. Scaling up even further requires 'wiring-up' multiple molecules. We discuss how to achieve this goal by the coupling to on-chip superconducting resonators. The potential advantages of this hybrid approach and the challenges that still lay ahead are critically reviewed.
翻訳日:2023-04-01 18:03:07 公開日:2021-05-03
# 単一光子パルスによる量子人工生物の自己複製

Self-replication of a quantum artificial organism driven by single-photon pulses ( http://arxiv.org/abs/2105.00624v1 )

ライセンス: Link先を確認
Daniel Valente(参考訳) 人工生物は自己複製し、変異し、競争し、進化するコンピュータプログラムである。 これらの生命的な情報処理の振る舞いが、様々な非平衡物理系でどのように起こるのかは、未解決の問題である。 ここでは,量子人工生物(ラムダ系の連鎖)の自己複製の開始は,ゼロ温度環境に単一光子パルスが加えられることによるトイモデルを考案する。 このモデルは、散逸適応の理論と一致して、光子からの吸収された作業に比例する複製確率をもたらす。 予期せぬ自然突然変異はこのモデルでは避けられないが、非共鳴光子のまれながら有限な吸収のためである。 これらの結果は自己複製を散逸的適応と開放的進化のリンクとして示唆している。

Artificial organisms are computer programs that self-replicate, mutate, compete and evolve. How do these lifelike information-processing behaviours could arise in diverse far-from-equilibrium physical systems remains an open question. Here, I devise a toy model where the onset of self-replication of a quantum artificial organism (a chain of lambda systems) is owing to single-photon pulses added to a zero-temperature environment. The model results in a replication probability that is proportional to the absorbed work from the photon, in agreement with the theory of dissipative adaptation. Unexpectedly, spontaneous mutations are unavoidable in this model, due to rare but finite absorption of off-resonant photons. These results hint at self-replication as a possible link between dissipative adaptation and open-ended evolution.
翻訳日:2023-04-01 18:02:57 公開日:2021-05-03
# 量子化光パルスを用いた原子干渉計測

Atom interferometry with quantized light pulses ( http://arxiv.org/abs/2105.00814v1 )

ライセンス: Link先を確認
Katharina Soukup, Fabio Di Pumpo, Tobias A{\ss}mann, Wolfgang P. Schleich and Enno Giese(参考訳) 古典的な光場から回折された原子の遠方体パターン、または光子数状態の量子パターンは同一である。 一方、古典的な光と多くの性質を共有するコヒーレント状態の場からの回折は、全く異なる振る舞いを示す。 回折パターンとは対照的に、強いコヒーレント状態の光パルスビームスプリッターとミラーを持つ原子干渉計の干渉信号が古典場の限界に近づくことを示した。 しかし、低い光子数は光の粒状構造を示し、ウェルチャー・ウェグ(どの方向)の情報がフィールドにエンコードされるため、視認性が低下する。 我々は、この効果を1つの光子数状態と2つの状態の重ね合わせについて論じる。

The far-field patterns of atoms diffracted from a classical light field, or from a quantum one in a photon-number state are identical. On the other hand, diffraction from a field in a coherent state, which shares many properties with classical light, displays a completely different behavior. We show that in contrast to the diffraction patterns, the interference signal of an atom interferometer with light-pulse beam splitters and mirrors in intense coherent states does approach the limit of classical fields. However, low photon numbers reveal the granular structure of light, leading to a reduced visibility since Welcher-Weg (which-way) information is encoded into the field. We discuss this effect for a single photon-number state as well as a superposition of two such states.
翻訳日:2023-04-01 18:00:31 公開日:2021-05-03
# The Matter of Chance:2020年アメリカ合衆国大統領選挙に関するウェブ検索結果を6つの検索エンジンで調査

The Matter of Chance: Auditing Web Search Results Related to the 2020 U.S. Presidential Primary Elections Across Six Search Engines ( http://arxiv.org/abs/2105.00756v1 )

ライセンス: Link先を確認
Aleksandra Urman, Mykola Makhortykh, Roberto Ulloa(参考訳) 我々は、6つの検索エンジンが、デフォルトの非個人化条件の下で2020年アメリカ合衆国大統領選挙の質問に対して、どのように情報をフィルタリングしランク付けするかを検討する。 そこで本研究では,仮想エージェントを用いたアルゴリズム監査手法を用いて,制御環境におけるアルゴリズム情報キュレーションの大規模解析を行う。 具体的には、2020年の予備選挙において、Google、Baidu、Bing、DuckDuckGo、Yahoo、Yandexの"US Election"、"Donald trump"、"joe Biden"、"bernie Sanders"といった質問に対するテキスト検索結果を調べます。 この結果から,検索エンジン間の検索結果と,同一の検索エンジンを用いて異なるエージェントに対して生成した検索結果に有意差が認められた。 ユーザーが特定の情報を見るかどうかは、検索結果のランダム化によって偶然決定される。 また,特定の候補に対して異なるカテゴリの情報ソースを優先する検索エンジンもあることがわかった。 これらの観察から, 政治的情報のアルゴリズム的キュレーションは, 個人化されていない条件下であっても, 検索エンジン利用者間の情報不平等を生じさせることが示された。 このような不平等は、検索結果が大衆の信頼度が高く、以前の調査で示されたように、未決定の有権者の意見をシフトできるという点で特に厄介である。

We examine how six search engines filter and rank information in relation to the queries on the U.S. 2020 presidential primary elections under the default - that is nonpersonalized - conditions. For that, we utilize an algorithmic auditing methodology that uses virtual agents to conduct large-scale analysis of algorithmic information curation in a controlled environment. Specifically, we look at the text search results for "us elections", "donald trump", "joe biden" and "bernie sanders" queries on Google, Baidu, Bing, DuckDuckGo, Yahoo, and Yandex, during the 2020 primaries. Our findings indicate substantial differences in the search results between search engines and multiple discrepancies within the results generated for different agents using the same search engine. It highlights that whether users see certain information is decided by chance due to the inherent randomization of search results. We also find that some search engines prioritize different categories of information sources with respect to specific candidates. These observations demonstrate that algorithmic curation of political information can create information inequalities between the search engine users even under nonpersonalized conditions. Such inequalities are particularly troubling considering that search results are highly trusted by the public and can shift the opinions of undecided voters as demonstrated by previous research.
翻訳日:2023-04-01 18:00:07 公開日:2021-05-03
# ウォールストリートのドーム:ポンプとダンプの暗号操作の解析と検出

The Doge of Wall Street: Analysis and Detection of Pump and Dump Cryptocurrency Manipulations ( http://arxiv.org/abs/2105.00733v1 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Francesco Sassi and Julinda Stefa(参考訳) 暗号通貨はますます人気がある。 専門家でない人々でさえ、これらの証券に投資し始めており、今日では暗号通貨取引所は月に1000億ドル以上の取引を処理する。 それにもかかわらず、多くの暗号通貨は流動性が低く、市場操作が容易である。 本稿では,インターネット上のコミュニティによって組織された2つの市場操作,ポンプ・ダンプと群衆ポンプの詳細な分析を行う。 ポンプ・ダンプ・スキームは株式市場と同じくらい古い詐欺だ。 今では、緩やかに規制された暗号通貨市場に新たな活力を得た。 高度に調整された人々のグループは、通常TelegramとDiscordでこの詐欺を手配する。 約900件の個人イベントを3年以上にわたって監視した。 これらのコミュニティがどのように組織化され、どのように詐欺を行うかを分析する。 ポンプとダンプの3つのケーススタディを報告する。 次に、検証済みのポンプとダンプのユニークなデータセットを利用して、開始から25秒でポンプとダンプを検出する機械学習モデルを構築し、F1スコアの94.5%の結果を達成します。 redditのコミュニティーが、世界最大の証券取引所であるウォール街で1900%以上のゲームトップ株(gme)の価格を膨らませた2021年前半にニュースになった新しい現象だ。 その後、他のredditコミュニティが暗号通貨市場での運用を再現した。 ターゲットはDogecoin(DOGE)とRipple(XRP)。 これらの操作の展開過程を再構築し, ポンプダンプとダンプの相違点と類似点について考察した。 最後に、このような操作を検出するために、私たちの分類器をいかに活用できるかを説明します。

Cryptocurrencies are increasingly popular. Even people who are not experts have started to invest in these securities, and nowadays, cryptocurrency exchanges process transactions for over 100 billion US dollars per month. In spite of this, many cryptocurrencies have low liquidity, and therefore, they are highly prone to market manipulation. This paper performs an in-depth analysis of two market manipulations organized by communities over the Internet: The pump and dump and the crowd pump. The pump and dump scheme is a fraud as old as the stock market. Now, it got new vitality in the loosely regulated market of cryptocurrencies. Groups of highly coordinated people arrange this scam, usually on Telegram and Discord. We monitored these groups for more than 3 years detecting around 900 individual events. We analyze how these communities are organized and how they carry out the fraud. We report on three case studies of pump and dump. Then, we leverage our unique dataset of the verified pump and dumps to build a machine learning model able to detect a pump and dump in 25 seconds from the moment it starts, achieving the results of 94.5% of F1-score. Then, we move on to the crowd pump, a new phenomenon that hit the news in the first months of 2021, when a Reddit community inflates the price of the GameStop stocks (GME) of over 1,900% on Wall Street, the world's largest stock exchange. Later, other Reddit communities replicate the operation on the cryptocurrency markets. The targets were Dogecoin (DOGE) and Ripple (XRP). We reconstruct how these operations developed, and we discuss differences and analogies with the standard pump and dump. Lastly, we illustrate how it is possible to leverage our classifier to detect this kind of operation too.
翻訳日:2023-04-01 17:58:45 公開日:2021-05-03
# 乱れたスピン量子ビットにおける緩和ホットスポットとコールドスポットの切り替え

Switching between relaxation hotspots and coldspots in disordered spin qubits ( http://arxiv.org/abs/2105.00716v1 )

ライセンス: Link先を確認
Amin Hosseinkhani and Guido Burkard(参考訳) 谷依存性エンベロープ関数論は, 界面ステップやミスカットの任意の構成がキュービット緩和時間に与える影響を記述できる。 与えられた界面粗さに対して、我々の理論は、Si/SiGe量子ドットスピン量子ビットにおける電磁場の関数として、谷依存の双極子行列要素、谷分割、スピン-バレー結合を見つけるためにどのように使用できるかを示す。 本理論は、自由パラメータの最小セットのみを用いてスピン緩和時間の実験的測定結果を定量的に再現し、説明できることを実証する。 スピン緩和のサンプル依存性を調べると、不規則な量子ドットのある条件下ではスピン-バレー結合は消滅する。 これは、バレーによって引き起こされるクビット崩壊を完全に阻止する。 一般に界面ステップの存在はスピン緩和時間の強い異方性挙動を生じさせることが示されている。 注目すべきことに、ゲート誘起外界電界を適切に調整することにより、スピンバレーホットスポットを「コールドスポット」に変換して、緩和時間が著しく長く、スピン緩和時間が磁場の変動に敏感であるようにすることができる。 この電気チューナビリティは、多くの量子アルゴリズムや誤り訂正スキームにとって重要なオンデマンドの高速量子ビットリセットと初期化を可能にする。 したがって、我々はシリコンバレーの自由度をsiスピン量子ビットの利点として利用できると主張する。

We develop a valley-dependent envelope function theory that can describe the effects of arbitrary configurations of interface steps and miscuts on the qubit relaxation time. For a given interface roughness, we show how our theory can be used to find the valley-dependent dipole matrix elements, the valley splitting, and the spin-valley coupling as a function of the electromagnetic fields in a Si/SiGe quantum dot spin qubit. We demonstrate that our theory can quantitatively reproduce and explain the result of experimental measurements for the spin relaxation time with only a minimal set of free parameters. Investigating the sample dependence of spin relaxation, we find that at certain conditions for a disordered quantum dot, the spin-valley coupling vanishes. This, in turn, completely blocks the valley-induced qubit decay. We show that the presence of interface steps can in general give rise to a strongly anisotropic behavior of the spin relaxation time. Remarkably, by properly tuning the gate-induced out-of-plane electric field, it is possible to turn the spin-valley hotspot into a ``coldspot" at which the relaxation time is significantly prolonged and where the spin relaxation time is additionally first-order insensitive to the fluctuations of the magnetic field. This electrical tunability enables on-demand fast qubit reset and initialization that is critical for many quantum algorithms and error correction schemes. We, therefore, argue that the valley degree of freedom can be used as an advantage for Si spin qubits.
翻訳日:2023-04-01 17:58:20 公開日:2021-05-03
# 低ランクの非還元的に$su(2)$共変量子チャネル

Irreducibly $SU(2)$-covariant quantum channels of low rank ( http://arxiv.org/abs/2105.00709v1 )

ライセンス: Link先を確認
Euijung Chang, Jaeyoung Kim, Hyesun Kwak, Hun Hee Lee, Sang-Gyun Youn(参考訳) 我々は、$SU(2)$-対称性の量子チャネルの低ランク(または3に等しい)の情報理論特性について検討し、完全な記述を持つ。 PPT特性は絡み合う特性と一致し、分解性はこのクラスではまれに保持される。 これらの結果に関連して,これらのチャネルのホールボおよびコヒーレント情報を計算できることを実証する。 特に,非分極チャネルのコヒーレント情報の過剰な活性化に類似した,コヒーレント情報の付加性違反の強い形態を示す。

We investigate information theoretic properties of low rank (less than or equal to 3) quantum channels with $SU(2)$-symmetry, where we have a complete description. We prove that PPT property coincides with entanglement-breaking property and that degradability seldomly holds in this class. In connection with these results we will demonstrate how we can compute Holevo and coherent information of those channels. In particular, we exhibit a strong form of additivity violation of coherent information, which resembles the superactivation of coherent information of depolarizing channels.
翻訳日:2023-04-01 17:57:57 公開日:2021-05-03
# マルチコンテナ品質多様性アルゴリズムのためのアンサンブル特徴抽出

Ensemble Feature Extraction for Multi-Container Quality-Diversity Algorithms ( http://arxiv.org/abs/2105.00682v1 )

ライセンス: Link先を確認
Leo Cazenille(参考訳) 品質多様性のアルゴリズムは、典型的な最適化法のような単一のソリューションではなく、多様でハイパフォーマンスなソリューションの大規模なコレクションを探索する。 複雑な強化学習やロボット工学のタスクなど、様々な方法で解決できるマルチモーダルな問題に特化している。 しかし、これらのアプローチは、解の挙動の類似性を定量化する特徴記述子(fds)の選択に大きく依存している。 fdsは通常、手作業で設計する必要があるが、最近の研究では、pcaやオートエンコーダといった特徴抽出技術を使って、以前検討した解から問題の表現を学ぶ方法が提案されている。 ここでは、これらのアプローチをより複雑な問題に拡張し、単一の表現だけでは探索できないが、代わりに多様で相補的な表現のセットを必要とする。 MC-AURORAは,モジュール型自動エンコーダのアンサンブルによって自動的に定義される異なるFDの集合を持つ,複数のソリューションのコレクションを同時に最適化する,品質多様性アプローチである。 このアプローチが単一表現アプローチによって生成されるものよりも、より多様なソリューションを生み出すことを示している。

Quality-Diversity algorithms search for large collections of diverse and high-performing solutions, rather than just for a single solution like typical optimisation methods. They are specially adapted for multi-modal problems that can be solved in many different ways, such as complex reinforcement learning or robotics tasks. However, these approaches are highly dependent on the choice of feature descriptors (FDs) quantifying the similarity in behaviour of the solutions. While FDs usually needs to be hand-designed, recent studies have proposed ways to define them automatically by using feature extraction techniques, such as PCA or Auto-Encoders, to learn a representation of the problem from previously explored solutions. Here, we extend these approaches to more complex problems which cannot be efficiently explored by relying only on a single representation but require instead a set of diverse and complementary representations. We describe MC-AURORA, a Quality-Diversity approach that optimises simultaneously several collections of solutions, each with a different set of FDs, which are, in turn, defined automatically by an ensemble of modular auto-encoders. We show that this approach produces solutions that are more diverse than those produced by single-representation approaches.
翻訳日:2023-04-01 17:57:46 公開日:2021-05-03
# クロス共振型ハードウェアにおける量子応用のためのパルス効率回路トランスパイル

Pulse-efficient circuit transpilation for quantum applications on cross-resonance-based hardware ( http://arxiv.org/abs/2105.01063v1 )

ライセンス: Link先を確認
Nathan Earnest, Caroline Tornow, Daniel J. Egger(参考訳) ノイズの多い量子ハードウェアのためのパルス効率回路トランスパイレーションフレームワークを示す。 これは、クロス共振パルスをスケーリングし、各パルスをゲートとして露光してトランスパイラによる冗長な単一ビット操作を除去することで実現される。 このパルス効率の回路トランスパイレーションは、ユーザからパルスレベルの詳細を知る必要なく、有限コヒーレンス時間をよりよく使用することができる。 実演として,カルタン分解を利用したsu(4)の相互共振型ゲートの連続的なファミリーを実現する。 本稿では,RZZ({\theta})と任意のSU(4)ゲートの誤差を最大50%低減したプロセストモグラフィによるパルス効率回路トランスパイレーションの利点をIBM量子デバイス上で測定し,MAXCUTに適用した量子近似最適化アルゴリズムの回路を動作させることにより量子応用に適用する。 11量子ビットの非ハードウェアネイティブグラフでは,提案手法はスケジュール全体の持続時間を最大52%,エラーを最大38%削減する。

We show a pulse-efficient circuit transpilation framework for noisy quantum hardware. This is achieved by scaling cross-resonance pulses and exposing each pulse as a gate to remove redundant single-qubit operations with the transpiler.Crucially, no additional calibration is needed to yield better results than a CNOT-based transpilation. This pulse-efficient circuit transpilation therefore enables a better usage of the finite coherence time without requiring knowledge of pulse-level details from the user. As demonstration, we realize a continuous family of cross-resonance-based gates for SU(4) by leveraging Cartan's decomposition. We measure the benefits of a pulse-efficient circuit transpilation with process tomography and observe up to a 50% error reduction in the fidelity of RZZ({\theta}) and arbitrary SU(4) gates on IBM Quantum devices.We apply this framework for quantum applications by running circuits of the Quantum Approximate Optimization Algorithm applied to MAXCUT. For an 11 qubit non-hardware native graph, our methodology reduces the overall schedule duration by up to 52% and errors by up to 38%
翻訳日:2023-04-01 17:51:08 公開日:2021-05-03
# 可変長の電気的矩形パルスにより作用する極性回転子の量子力学

Quantum dynamics of a polar rotor acted upon by an electric rectangular pulse of variable duration ( http://arxiv.org/abs/2105.00978v1 )

ライセンス: Link先を確認
Mallikarjun Karra, Bretislav Friedrich and Burkhard Schmidt(参考訳) 先行研究[j. chem. phys. 149, 174109 (2018)]で示されたように、ガウス時間プロファイルを持つ非共鳴電磁パルスにより量子ロータに付与された運動エネルギーは、パルス持続時間の関数として準周期的損失を示す。 本稿では,この動作を可変長長方形パルスという単純な波形で再現できることを示し,その原因を数値的にも解析的にも検討する。 解析の結果, パルスによって生成された波束を構成する振動する個体群と, 方向の滴と, ロータの前パルスアライメントの復元が伴うことが明らかとなった。 便利な解析式は、運動エネルギーの移動と方向の低下につながるパルス持続時間を予測するために導出される。 実験シナリオでは、この現象が悪用されたり、有害であったりする。

As demonstrated in our previous work [J. Chem. Phys. 149, 174109 (2018)], the kinetic energy imparted to a quantum rotor by a non-resonant electromagnetic pulse with a Gaussian temporal profile exhibits quasi-periodic drops as a function of the pulse duration. Herein, we show that this behaviour can be reproduced with a simple waveform, namely a rectangular electric pulse of variable duration, and examine, both numerically and analytically, its causes. Our analysis reveals that the drops result from the oscillating populations that make up the wavepacket created by the pulse and that they are necessarily accompanied by drops in the orientation and by a restoration of the pre-pulse alignment of the rotor. Handy analytic formulae are derived that allow to predict the pulse durations leading to diminished kinetic energy transfer and orientation. Experimental scenarios are discussed where the phenomenon could be utilized or be detrimental.
翻訳日:2023-04-01 17:48:42 公開日:2021-05-03
# スクイズド真空状態を有する量子メソロジーにおける位相感受性非古典的性質

Phase-sensitive nonclassical properties in quantum metrology with a displaced squeezed vacuum state ( http://arxiv.org/abs/2105.00970v1 )

ライセンス: Link先を確認
Zhiwei Tao, Yichong Ren, Azezigul Abdukirim, Shiwei Liu, Ruizhong Rao(参考訳) 局所的非絡み合った量子状態の位相依存誤差分布は、直接量子パラメータ推定精度に影響を与えると予測する。 そこで我々は, 変位真空(DSV)をプローブ状態とし, DSVのメトロジーにおける位相依存性の非古典的性質に関する興味深い疑問を考察した。 パラメータ推定の精度限界は位相感受性パラメータ $\phi -\theta /2$ の周期 $\pi $ の関数であることが判明した。 例えば、$\phi -\theta /2$$$\in \left[ k\pi/2,3k\pi /4\right) \left(k\in \mathbb{z}\right)$ の場合、dsv状態と大きな変位とスクイーズ強度を用いて、究極の量子限界に近づくパラメータ推定の精度が得られるが、$\phi -\theta /2$$\in \left(3k\pi /4,k\pi \right] \left(k\in \mathbb{z}\right) $ である。

We predict that the phase-dependent error distribution of locally unentangled quantum states directly affects quantum parameter estimation accuracy. Therefore, we employ the displaced squeezed vacuum (DSV) state as a probe state and investigate an interesting question of the phase-sensitive nonclassical properties in DSV's metrology. We found that the accuracy limit of parameter estimation is a function of the phase-sensitive parameter $\phi -\theta /2$ with a period $\pi $. We show that when $\phi -\theta /2$ $\in \left[ k\pi/2,3k\pi /4\right) \left( k\in \mathbb{Z}\right)$, we can obtain the accuracy of parameter estimation approaching the ultimate quantum limit through using the DSV state with the larger displacement and squeezing strength, whereas $\phi -\theta /2$ $\in \left(3k\pi /4,k\pi \right] \left( k\in \mathbb{Z}\right) $, the optimal estimation accuracy can be acquired only when the DSV state degenerates to a squeezed-vacuum state.
翻訳日:2023-04-01 17:48:17 公開日:2021-05-03
# livestyle -- アートスタイルを転送するアプリケーション

LiveStyle -- An Application to Transfer Artistic Styles ( http://arxiv.org/abs/2105.00865v1 )

ライセンス: Link先を確認
Amogh G. Warkhandkar and Omkar B. Bhambure(参考訳) アート(art)は、創造性、創造的概念、または芸術的能力を表現する視覚、聴覚、または演奏のオブジェクトの制作を含む様々な人間の活動であり、主にその美しさまたは感情的な力を評価することを意図している。 歴史と忘れ去られた芸術のルネッサンスは、現代の人工知能の発展によって可能になった。 コンピュータビジョンの技術は、長い間そのような芸術に関係していた。 ニューラルネットワークを用いたスタイル転送は、コンテンツ画像とスタイル画像が、スタイル画像カラーパレットでコンテント画像が再構成されているように感じられるように撮影され、ブレンドされる最適化技術を指す。 本稿では,3つの異なるニューラルネットワークを用いたスタイルトランスファーを,一般市民が利用できるアプリケーションとして実装し,失われたアートスタイルへの関心を回復する。

Art is a variety of human activities that include the production of visual, auditory, or performing objects that express the creativity, creative concepts, or technological abilities of the artist, intended primarily for their beauty or emotional power to be appreciated. The renaissance of historic and forgotten art has been made possible by modern developments in Artificial Intelligence. Techniques for Computer Vision have long been related to such arts. Style Transfer using Neural Networks refers to optimization techniques, where a content image and a style image are taken and blended such that it feels like the content image is reconstructed in the style image color palette. This paper implements the Style Transfer using three different Neural Networks in form of an application that is accessible to the general population thereby reviving interest in lost art styles.
翻訳日:2023-04-01 17:46:59 公開日:2021-05-03
# QMPIを用いた分散量子コンピューティング

Distributed Quantum Computing with QMPI ( http://arxiv.org/abs/2105.01109v1 )

ライセンス: Link先を確認
Thomas H\"aner, Damian S. Steiger, Torsten Hoefler, Matthias Troyer(参考訳) 量子コンピュータの実用的応用には数百万の物理量子ビットが必要であり、個々の量子プロセッサがそのような量子ビット数に達することは困難である。 したがって、複数の量子プロセッサがコヒーレントネットワークによって相互接続される分散環境では、量子アルゴリズムのリソース要求を時間的に調査する。 我々は,分散量子アルゴリズムの高性能実装を実現するためのメッセージパッシングインタフェース(mpi)の拡張を提案する。 結果として、これらの実装はテスト、デバッグ、リソース推定に使用できる。 量子MPIの試作実装に加えて,分散量子コンピューティングの性能モデルであるSENDQを提案する。 このモデルは古典的なlogpモデルにインスパイアされ、分散量子コンピュータのプログラミング時にアルゴリズム的な決定を知らせるのに役立つ。 具体的には、物理と化学の問題に対する2つの量子アルゴリズムの最適化について考察し、SENDQモデルの性能への影響について詳述する。

Practical applications of quantum computers require millions of physical qubits and it will be challenging for individual quantum processors to reach such qubit numbers. It is therefore timely to investigate the resource requirements of quantum algorithms in a distributed setting, where multiple quantum processors are interconnected by a coherent network. We introduce an extension of the Message Passing Interface (MPI) to enable high-performance implementations of distributed quantum algorithms. In turn, these implementations can be used for testing, debugging, and resource estimation. In addition to a prototype implementation of quantum MPI, we present a performance model for distributed quantum computing, SENDQ. The model is inspired by the classical LogP model, making it useful to inform algorithmic decisions when programming distributed quantum computers. Specifically, we consider several optimizations of two quantum algorithms for problems in physics and chemistry, and we detail their effects on performance in the SENDQ model.
翻訳日:2023-04-01 17:41:06 公開日:2021-05-03
# 閉ループフィードバックによる量子コヒーレンスの改善

Improving qubit coherence using closed-loop feedback ( http://arxiv.org/abs/2105.01107v1 )

ライセンス: Link先を確認
Antti Veps\"al\"ainen, Roni Winik, Amir H. Karamlou, Jochen Braum\"uller, Agustin Di Paolo, Youngkyu Sung, Bharath Kannan, Morten Kjaergaard, David K. Kim, Alexander J. Melville, Bethany M. Niedzielski, Jonilyn L. Yoder, Simon Gustavsson, William D. Oliver(参考訳) 超伝導量子ビットは、難解な問題を解決できる大規模量子プロセッサを構築するための有望なプラットフォームである。 プロセッサが実用的な実行可能性に達するためには、ゲートエラーをさらに抑制し、長期にわたって安定した状態を維持する必要がある。 近年のqubit制御の進歩により、シングルキュービットと2キュービットのゲートフィデリティは、多くのケースでqubitのコヒーレンス時間によって制限されている。 ここでは閉ループフィードバックを用いて超伝導トランスモン量子ビットの周波数変動を安定化し、コヒーレンス時間を26\%増加させ、単一ビット誤り率を$(8.5 \pm 2.1)\times 10^{-4}$から$(5.9 \pm 0.7)\times 10^{-4}$に下げる。 重要なことに、結果として生じる高忠実度動作は、クォービットフラックスノイズ不感点から離れても有効であり、クォービットが高忠実度で操作できる周波数帯域を著しく増加させる。 このアプローチは、クビット間の周波数群集と寄生的相互作用が性能を制限する大きなクビットグリッドにおいて有用である。

Superconducting qubits are a promising platform for building a larger-scale quantum processor capable of solving otherwise intractable problems. In order for the processor to reach practical viability, the gate errors need to be further suppressed and remain stable for extended periods of time. With recent advances in qubit control, both single- and two-qubit gate fidelities are now in many cases limited by the coherence times of the qubits. Here we experimentally employ closed-loop feedback to stabilize the frequency fluctuations of a superconducting transmon qubit, thereby increasing its coherence time by 26\% and reducing the single-qubit error rate from $(8.5 \pm 2.1)\times 10^{-4}$ to $(5.9 \pm 0.7)\times 10^{-4}$. Importantly, the resulting high-fidelity operation remains effective even away from the qubit flux-noise insensitive point, significantly increasing the frequency bandwidth over which the qubit can be operated with high fidelity. This approach is helpful in large qubit grids, where frequency crowding and parasitic interactions between the qubits limit their performance.
翻訳日:2023-04-01 17:40:51 公開日:2021-05-03
# ダイヤモンド中のシリコン空白中心間のコヒーレント相互作用

Coherent Interactions Between Silicon-Vacancy Centers in Diamond ( http://arxiv.org/abs/2105.01103v1 )

ライセンス: Link先を確認
Matthew W. Day and Kelsey M. Bates and Christopher L. Smallwood and Rachel C. Owen and Tim Schr\"oder and Edward Bielejec and Ronald Ulbricht and Steven T. Cundiff(参考訳) ダイヤモンド中のシリコン空孔色中心のアンサンブル内でのコヒーレント相互作用を報告する。 相互作用は共鳴双極子-双極子カップリングと呼ばれる。 さらに,共振中心対の制御を駆動光パルスを用いて協調的相互作用可能なrabi-oscillationをアンサンブルに誘導する。 非共鳴中心対は集団振動を受けない。

We report coherent interactions within an ensemble of silicon-vacancy color centers in diamond. The interactions are ascribed to resonant dipole-dipole coupling. Further, we demonstrate control over resonant center pairs by using a driving optical pulse to induce collective, interaction-enabled Rabi-oscillations in the ensemble. Non-resonant center pairs do not undergo collective oscillations.
翻訳日:2023-04-01 17:40:27 公開日:2021-05-03
# フェルミオンガウス状態の重畳を用いた量子不純物モデル:実践的方法と応用

Quantum impurity models using superpositions of fermionic Gaussian states: Practical methods and applications ( http://arxiv.org/abs/2105.01088v1 )

ライセンス: Link先を確認
Samuel Boutin and Bela Bauer(参考訳) 非直交フェルミオンガウス状態のコヒーレント重ね合わせは、量子不純物問題[Bravyi and Gosset,Comm. Math. Phys.,356 451 (2017)]の基底状態に対する効率的な近似であることが示されている。 このような状態に基づいて変動計算を行うための実践的なアプローチを提案する。 提案手法は, アンザッツを形成するガウス状態のダイナミクスを分離する, 近似的仮想時間運動方程式に基づく。 モデルの格子接続とは独立であり、実装は高度に並列化可能である。 本研究では,アンダーソン不純物のスピンスピン-スピン相関関数とr\'enyi 絡み合いエントロピーを算出し,スクリーニング雲を同定し,密度行列再正規化群計算と比較する。 第2に,既存の数値ツールの活用が困難である2チャンネルコンドモデルのスクリーニングクラウドについて検討する。

The coherent superposition of non-orthogonal fermionic Gaussian states has been shown to be an efficient approximation to the ground states of quantum impurity problems [Bravyi and Gosset,Comm. Math. Phys.,356 451 (2017)]. We present a practical approach for performing a variational calculation based on such states. Our method is based on approximate imaginary-time equations of motion that decouple the dynamics of each Gaussian state forming the ansatz. It is independent of the lattice connectivity of the model and the implementation is highly parallelizable. To benchmark our variational method, we calculate the spin-spin correlation function and R\'enyi entanglement entropy of an Anderson impurity, allowing us to identify the screening cloud and compare to density matrix renormalization group calculations. Secondly, we study the screening cloud of the two-channel Kondo model, a problem difficult to tackle using existing numerical tools.
翻訳日:2023-04-01 17:39:44 公開日:2021-05-03
# 二層半導体における可変フェシュバッハ共鳴とそのスペクトルシグネチャ

Tunable Feshbach resonances and their spectral signatures in bilayer semiconductors ( http://arxiv.org/abs/2105.01080v1 )

ライセンス: Link先を確認
Clemens Kuhlenkamp, Michael Knap, Marcel Wagner, Richard Schmidt, Atac Imamoglu(参考訳) フェシュバッハ共鳴は原子物理学において重要な道具であり、相互作用の正確な制御と複雑な量子相の合成を可能にする。 ここでは2次元半導体ヘテロ構造におけるフェシバッハ共鳴の固体アナログを理論的に解析する。 層間電子トンネルの存在下では、異なる層を占有する励起子と電子の散乱は、印加電界をチューニングすることによって共鳴的に増強することができる。 層間フェシュバッハ分子の出現は光励起スペクトルを変化させ、フェルミ・ポーラロンの形成の観点から理解することができる。 2層半導体における相関Bose-Fermi混合物の実現の可能性について論じる。

Feshbach resonances are an invaluable tool in atomic physics, enabling precise control of interactions and the preparation of complex quantum phases of matter. Here, we theoretically analyze a solid-state analogue of a Feshbach resonance in two dimensional semiconductor heterostructures. In the presence of inter-layer electron tunneling, the scattering of excitons and electrons occupying different layers can be resonantly enhanced by tuning an applied electric field. The emergence of an inter-layer Feshbach molecule modifies the optical excitation spectrum, and can be understood in terms of Fermi polaron formation. We discuss potential implications for the realization of correlated Bose-Fermi mixtures in bilayer semiconductors.
翻訳日:2023-04-01 17:38:51 公開日:2021-05-03
# 超伝導量子コンピュータにおけるエラーロバストゲートセット設計のための実験的深層強化学習

Experimental Deep Reinforcement Learning for Error-Robust Gateset Design on a Superconducting Quantum Computer ( http://arxiv.org/abs/2105.01079v1 )

ライセンス: Link先を確認
Yuval Baum, Mirko Amico, Sean Howell, Michael Hush, Maggie Liuzzi, Pranav Mundada, Thomas Merkh, Andre R. R. Carvalho and Michael J. Biercuk(参考訳) 量子コンピュータはアプリケーション全体に多大な影響を与えることを約束しており、ハードウェアエンジニアリングにおいて大きな進歩を遂げている。 低レベルの制御の注意深い設計は、ハードウェアエラーを引き起こし、最適かつ堅牢な制御のテクニックを活用するプロセスに補償することが示されている。 しかし、これらの手法は、最も単純な操作と一般的なノイズモードに対して十分な代表的忠実性しか達成できない、高精度で詳細な物理モデルの可用性に大きく依存している。 本研究では,超伝導量子コンピュータ上の量子論理ゲートの普遍的なセットを設計するために,システムの特定のハミルトンモデル,その制御,あるいはその基盤となるエラープロセスの知識を必要とせず,深層強化学習を用いる。 完全自律深部強化学習エージェントは,最大3ドル(約3,300円)のキュービットゲートを既定のDRAG操作よりも高速に設計でき,何週間にもわたってキャリブレーションドリフトに対する堅牢性を示すことを実験的に実証した。 次に、クロス共振相互作用を用いて実装された$zx(-\pi/2)$操作は、ハードウェアのデフォルトゲートを2\times$以上上回り、様々なメトリクスを用いた最適化後25日以内の優れたキャリブレーションフリーパフォーマンスを示す。 深部強化学習誘導ゲートの性能を他のブラックボックス最適化手法と比較し,ハードウェアアクセスが制限された場合でも,深部強化学習は同等あるいは極端に優れた性能が得られることを示した。

Quantum computers promise tremendous impact across applications -- and have shown great strides in hardware engineering -- but remain notoriously error prone. Careful design of low-level controls has been shown to compensate for the processes which induce hardware errors, leveraging techniques from optimal and robust control. However, these techniques rely heavily on the availability of highly accurate and detailed physical models which generally only achieve sufficient representative fidelity for the most simple operations and generic noise modes. In this work, we use deep reinforcement learning to design a universal set of error-robust quantum logic gates on a superconducting quantum computer, without requiring knowledge of a specific Hamiltonian model of the system, its controls, or its underlying error processes. We experimentally demonstrate that a fully autonomous deep reinforcement learning agent can design single qubit gates up to $3\times$ faster than default DRAG operations without additional leakage error, and exhibiting robustness against calibration drifts over weeks. We then show that $ZX(-\pi/2)$ operations implemented using the cross-resonance interaction can outperform hardware default gates by over $2\times$ and equivalently exhibit superior calibration-free performance up to 25 days post optimization using various metrics. We benchmark the performance of deep reinforcement learning derived gates against other black box optimization techniques, showing that deep reinforcement learning can achieve comparable or marginally superior performance, even with limited hardware access.
翻訳日:2023-04-01 17:38:42 公開日:2021-05-03
# Izhikevich刺激光電子ニューロンを用いたエネルギー効率の高い光スパイクニューラルネットワーク

Izhikevich-Inspired Optoelectronic Neurons with Excitatory and Inhibitory Inputs for Energy-Efficient Photonic Spiking Neural Networks ( http://arxiv.org/abs/2105.02809v1 )

ライセンス: Link先を確認
Yun-jhu Lee, Mehmet Berkay On, Xian Xiao, Roberto Proietti, S. J. Ben Yoo(参考訳) 我々は初めて、イジケヴィッチモデルに触発された光電子スパイキングニューロンを設計し、試作し、実験的に実証した。 光電子ニューロンは、電気スパイク回路として機能する3つのトランジスタと、光学スパイク出力のための垂直キャビティ表面発光レーザ(VCSEL)と、励起および阻止光学スパイク入力のための2つの光検出器とからなる。 コンデンサと抵抗体の追加は、他の光電子ニューロンからの入力として興奮性および抑制性光スパイクを受けるイジケビッチ誘発光電子ニューロンを完成させる。 verilog-aで詳細な視神経モデルを開発し,興奮入力および抑制入力信号を用いた各種症例の回路レベルの動作をシミュレートした。 実験結果はシミュレーション結果とよく似ており, 励起入力が光スパイク出力を誘導し, 抑制入力が出力を抑制することを示す。 シミュレーションニューロンモデルを用いて,完全連結(FC)と畳み込みニューラルネットワーク(CNN)を用いたシミュレーションを行った。 MNIST手書き文字認識を用いたシミュレーションの結果,教師なし学習では90%の精度,教師付き修正FCニューラルネットワークでは97%の精度を示した。 さらに,200 aj/spike入力が10 fj/spikeのオンチップナノレーザーからの出力をトリガーできる量子インピーダンス変換を用いたナノスケール光電子ニューロンの設計を行った。 ナノスケールニューロンは、LoihiやNeuroGridのような最先端の電気ニューロモルフィックハードウェアと比較して、100倍のスループットと1000倍のエネルギー効率向上に対応するニューラルネットワークで10GSpikes/秒で実行しながら、80から19dB超過の光学損失を克服することができる。

We designed, prototyped, and experimentally demonstrated, for the first time to our knowledge, an optoelectronic spiking neuron inspired by the Izhikevich model incorporating both excitatory and inhibitory optical spiking inputs and producing optical spiking outputs accordingly. The optoelectronic neurons consist of three transistors acting as electrical spiking circuits, a vertical-cavity surface-emitting laser (VCSEL) for optical spiking outputs, and two photodetectors for excitatory and inhibitory optical spiking inputs. Additional inclusion of capacitors and resistors complete the Izhikevich-inspired optoelectronic neurons, which receive excitatory and inhibitory optical spikes as inputs from other optoelectronic neurons. We developed a detailed optoelectronic neuron model in Verilog-A and simulated the circuit-level operation of various cases with excitatory input and inhibitory input signals. The experimental results closely resemble the simulated results and demonstrate how the excitatory inputs trigger the optical spiking outputs while the inhibitory inputs suppress the outputs. Utilizing the simulated neuron model, we conducted simulations using fully connected (FC) and convolutional neural networks (CNN). The simulation results using MNIST handwritten digits recognition show 90% accuracy on unsupervised learning and 97% accuracy on a supervised modified FC neural network. We further designed a nanoscale optoelectronic neuron utilizing quantum impedance conversion where a 200 aJ/spike input can trigger the output from on-chip nanolasers with 10 fJ/spike. The nanoscale neuron can support a fanout of ~80 or overcome 19 dB excess optical loss while running at 10 GSpikes/second in the neural network, which corresponds to 100x throughput and 1000x energy-efficiency improvement compared to state-of-art electrical neuromorphic hardware such as Loihi and NeuroGrid.
翻訳日:2023-04-01 17:31:21 公開日:2021-05-03
# ジグザグ相における {\alpha}-RuCl3フレークの磁歪

Magnetostriction of {\alpha}-RuCl3 flakes in the zigzag phase ( http://arxiv.org/abs/2105.01544v1 )

ライセンス: Link先を確認
Yun-Yi Pai, Claire E. Marvinney, Matthew A. Feldman, Brian Lerner, Yoong Sheng Phang, Kai Xiao, Jiaqiang Yan, Liangbo Liang, Matthew Brahlek, Benjamin J. Lawrie(参考訳) Motivated by the possibility of an intermediate U(1) quantum spin liquid phase in out-of-plane magnetic fields and enhanced magnetic fluctuations in exfoliated {\alpha}-RuCl3 flakes, we study magneto-Raman spectra of exfoliated multilayer {\alpha}-RuCl3 in out-of-plane magnetic fields of -6 T to 6 T at temperatures of 670 mK - 4 K. While the literature currently suggests that bulk {\alpha}-RuCl3 is in an antiferromagnetic zigzag phase with R3bar symmetry at low temperature, we do not observe R3bar symmetry in exfoliated {\alpha}-RuCl3 at low temperatures. 磁場駆動の遷移は見られなかったが、ラマンモードはベイズ解析から推定される不確実性を超える印加磁場に応答して予期せぬ確率的変化を示す。 これらの確率シフトは、剥離した {\alpha}-RuCl3における磁歪相互作用の出現と一致する。

Motivated by the possibility of an intermediate U(1) quantum spin liquid phase in out-of-plane magnetic fields and enhanced magnetic fluctuations in exfoliated {\alpha}-RuCl3 flakes, we study magneto-Raman spectra of exfoliated multilayer {\alpha}-RuCl3 in out-of-plane magnetic fields of -6 T to 6 T at temperatures of 670 mK - 4 K. While the literature currently suggests that bulk {\alpha}-RuCl3 is in an antiferromagnetic zigzag phase with R3bar symmetry at low temperature, we do not observe R3bar symmetry in exfoliated {\alpha}-RuCl3 at low temperatures. While we saw no magnetic field driven transitions, the Raman modes exhibit unexpected stochastic shifts in response to applied magnetic field that are above the uncertainties inferred from Bayesian analysis. These stochastic shifts are consistent with the emergence of magnetostrictive interactions in exfoliated {\alpha}-RuCl3.
翻訳日:2023-04-01 17:30:39 公開日:2021-05-03
# 窒化リチウム薄膜プラットフォーム上でのベル状態解析装置

An Integrated Bell-State Analyzer on a Thin Film Lithium Niobate Platform ( http://arxiv.org/abs/2105.01199v1 )

ライセンス: Link先を確認
Uday Saha, Edo Waks(参考訳) 閉じ込められたイオンは、長いコヒーレンス時間、絡み合った光子の生成能力、高忠実度単量子および2量子ビットゲートを持つため、量子コンピューティングと量子ネットワークにとって優れた候補である。 閉じ込められたイオン量子コンピューティングをスケールアップするには、再構成可能なプラットフォーム上のベル状態アナライザが必要です。 本研究では, 偏光符号化量子ビットのための改質可能な薄膜窒化リチウムプラットフォーム上に, フォトニックベル状態解析器を設計する。 デバイスは2つの閉じ込められたイオン間の高い忠実度の絡み合いを実現し、99%以上の忠実度を得るように最適化する。 提案したデバイスは、閉じ込められたイオン量子コンピューティングや、ダイヤモンドの色中心、量子ドット、希土類イオンなどの他の光学活性スピン量子ビットをスケールアップすることができる。

Trapped ions are excellent candidates for quantum computing and quantum networks because of their long coherence times, ability to generate entangled photons as well as high fidelity single- and two-qubit gates. To scale up trapped ion quantum computing, we need a Bell-state analyzer on a reconfigurable platform that can herald high fidelity entanglement between ions. In this work, we design a photonic Bell-state analyzer on a reconfigurable thin film lithium niobate platform for polarization-encoded qubits. We optimize the device to achieve high fidelity entanglement between two trapped ions and find >99% fidelity. The proposed device can scale up trapped ion quantum computing as well as other optically active spin qubits, such as color centers in diamond, quantum dots, and rare-earth ions.
翻訳日:2023-04-01 17:30:24 公開日:2021-05-03
# 不純物問題としての非エルミート皮膚効果

Non-Hermitian skin effect as an impurity problem ( http://arxiv.org/abs/2105.01197v1 )

ライセンス: Link先を確認
Federico Roccati(参考訳) 非エルミート的強結合ハミルトニアンの顕著な特徴は、スペクトルと固有状態の両方が境界条件に高い感度を持つことである。 実際、周期境界条件の下でスペクトルが点ガッピングされた場合、格子を開くことで非エルミート皮膚効果は必ず起こる。 正確な皮膚固有状態の発見は一般に求められており、文献における多くの手法は、固有状態の成分に対するアンサーゼと反復方程式に基づいている。 本稿では,グリーン関数法に基づく一般手順を考案し,開境界条件下で非エルミート密結合ハミルトニアンの固有状態を計算する。 波多野・ネルソンおよび非エルミートSSHモデルに適用し、最終的にバルク状態の極端状態の局所化と対比する。

A striking feature of non-Hermitian tight-binding Hamiltonians is the high sensitivity of both spectrum and eigenstates to boundary conditions. Indeed, if the spectrum under periodic boundary conditions is point gapped, by opening the lattice the non-Hermitian skin effect will necessarily occur. Finding the exact skin eigenstates may be demanding in general, and many methods in the literature are based on ansatzes and on recurrence equations for the eigenstates' components. Here we devise a general procedure based on the Green's function method to calculate the eigenstates of non-Hermitian tight-binding Hamiltonians under open boundary conditions. We apply it to the Hatano-Nelson and non-Hermitian SSH models and finally we contrast the edge states localization with that of bulk states.
翻訳日:2023-04-01 17:30:10 公開日:2021-05-03
# 境界次局所ハミルトニアンの近似アルゴリズムの改良

Improved approximation algorithms for bounded-degree local Hamiltonians ( http://arxiv.org/abs/2105.01193v1 )

ライセンス: Link先を確認
Anurag Anshu, David Gosset, Karen J. Morenz Korol, Mehdi Soleimanifar(参考訳) 有界次グラフ上の2局所量子ハミルトニアンの基底状態エネルギーを近似するタスクを考える。 既存のアルゴリズムのほとんどは、製品状態の集合よりもエネルギーを最適化する。 ここでは、与えられた積状態によって達成される近似比を改善するために使用できる浅量子回路群について述べる。 このアルゴリズムは平均エネルギー $e_0=\langle v|H|v\rangle$ と variance $\mathrm{Var}=\langle v|(H-e_0)^2|v\rangle$ を入力とし、$\mathrm{Var}^2/n$ に比例して e_0$ 以下のエネルギーの状態を出力する。 典型的な場合、$\mathrm{Var}=\Omega(n)$ を持ち、エネルギー改善はグラフの辺の数に比例する。 初期ランダムな積状態に適用すると、有界古典的制約満足問題に対する既知のアルゴリズムの性能保証を回復し、一般化する。 結果は、$k$-local Hamiltonianと絡み合った初期状態に拡張します。

We consider the task of approximating the ground state energy of two-local quantum Hamiltonians on bounded-degree graphs. Most existing algorithms optimize the energy over the set of product states. Here we describe a family of shallow quantum circuits that can be used to improve the approximation ratio achieved by a given product state. The algorithm takes as input an $n$-qubit product state $|v\rangle$ with mean energy $e_0=\langle v|H|v\rangle$ and variance $\mathrm{Var}=\langle v|(H-e_0)^2|v\rangle$, and outputs a state with an energy that is lower than $e_0$ by an amount proportional to $\mathrm{Var}^2/n$. In a typical case, we have $\mathrm{Var}=\Omega(n)$ and the energy improvement is proportional to the number of edges in the graph. When applied to an initial random product state, we recover and generalize the performance guarantees of known algorithms for bounded-occurrence classical constraint satisfaction problems. We extend our results to $k$-local Hamiltonians and entangled initial states.
翻訳日:2023-04-01 17:29:55 公開日:2021-05-03
# イオンと原子を光学的にトラップする

Trapping Ions and Atoms Optically ( http://arxiv.org/abs/2105.01155v1 )

ライセンス: Link先を確認
Tobias Schaetz(参考訳) 中性粒子と荷電粒子を環境から分離することは精密な実験に不可欠である。 何十年もの間、これは高周波(rf)場と中性粒子を光学場でトラップすることで達成されてきた。 近年,光との相互作用によるイオンの捕捉が実証されている。 これにより、光学トラップとイオンの利点を組み合わせることができる。 例えば、周波数場のないイオンと原子のアンサンブルを調査するために光学トラップを重ね合わせることで、光学格子に特徴付けられる多彩でスケーラブルなトラップジオメトリの恩恵を受けることができる。 特に、イオンは個々のアドレナビリティ、電子的および運動的な自由度を提供し、コヒーレントに制御され、高忠実で状態依存的な操作によって検出される。 その長距離クーロン相互作用は、中性原子や分子よりもかなり大きい。 これは、閉じ込められたイオンと原子の超低温相互作用と化学の研究、および高次元の量子シミュレーションのための新しいプラットフォームを提供する。 このトピックレビューの目的は、アートの現状を提示し、現在の課題と新興分野の展望を議論することである。

Isolating neutral and charged particles from the environment is essential in precision experiments. For decades, this has been achieved by trapping ions with radio-frequency (rf) fields and neutral particles with optical fields. Recently, trapping of ions by interaction with light has been demonstrated. This might permit combining the advantages of optical trapping and ions. For example, by superimposing optical traps to investigate ensembles of ions and atoms in absence of any radiofrequency fields, as well as to benefit from the versatile and scalable trapping geometries featured by optical lattices. In particular, ions provide individual addressability, electronic and motional degrees of freedom that can be coherently controlled and detected via high fidelity, state-dependent operations. Their long-range Coulomb interaction is significantly larger compared to those of neutral atoms and molecules. This qualifies to study ultra-cold interaction and chemistry of trapped ions and atoms, as well as to provide a novel platform for higher-dimensional experimental quantum simulations. The aim of this topical review is to present the current state of the art and to discuss current challenges and the prospects of the emerging field.
翻訳日:2023-04-01 17:29:28 公開日:2021-05-03
# 一般化された断熱理論:時間変化場による量子系

Generalized Adiabatic Theorems: Quantum Systems Driven by Modulated Time-Varying Fields ( http://arxiv.org/abs/2105.01140v1 )

ライセンス: Link先を確認
Amro Dodin and Paul Brumer(参考訳) 本研究では,光実験や光誘起過程で発生する振動場など,急速に変化する場の遅い変調に応用可能な閉・開量子系に対する一般化断熱定理を提案する。 一般化された断熱定理は、十分に遅い変調が時間依存参照ハミルトンの動的モードを保存することを示す。 静的場の変調の制限の場合、標準的な断熱定理が回復される。 これらの結果を周期場に適用すると、エネルギー固有状態よりもフロッケ状態に留まることが分かる。 より一般に、これらの断熱的な定理は任意の時間依存体の変換に適用でき、ダイナミックな正規モードを通じて場の急速な変化を考慮し、ゆっくりとした変調を断続的に扱うことができる。 例えば、一般化された定理を応用する。 (a)周波数変調共振振動により駆動される2レベル系のダイナミクスを予測し、それ以前の結果の応用可能性を超えた病理学的状況を示す。 b) 自然照明条件下での生体分子のようなゆっくりと回転する不整合光によって駆動されるオープン量子系は、定常状態で生き残るコヒーレンスしか表示できないことを示す。

We present generalized adiabatic theorems for closed and open quantum systems that can be applied to slow modulations of rapidly varying fields, such as oscillatory fields that occur in optical experiments and light induced processes. The generalized adiabatic theorems show that a sufficiently slow modulation conserves the dynamical modes of time dependent reference Hamiltonians. In the limiting case of modulations of static fields, the standard adiabatic theorems are recovered. Applying these results to periodic fields shows that they remain in Floquet states rather than in energy eigenstates. More generally, these adiabatic theorems can be applied to transformations of arbitrary time-dependent fields, by accounting for the rapidly varying part of the field through the dynamical normal modes, and treating the slow modulation adiabatically. As examples, we apply the generalized theorem to (a) predict the dynamics of a two level system driven by a frequency modulated resonant oscillation, a pathological situation beyond the applicability of earlier results, and (b) to show that open quantum systems driven by slowly turned-on incoherent light, such as biomolecules under natural illumination conditions, can only display coherences that survive in the steady state.
翻訳日:2023-04-01 17:28:51 公開日:2021-05-03
# 絡み合い状態切替機構としての異方性交換共鳴

Anisotropy-Exchange Resonance as a Mechanism for Entangled State Switching ( http://arxiv.org/abs/2105.01126v1 )

ライセンス: Link先を確認
Eric D. Switzer, Xiao-Guang Zhang, Talat S. Rahman(参考訳) 交換結合と磁気異方性を持つ2つのスピン結合した$s_{\text{2,3}}$粒子と相互作用する$s_{1}=\frac{1}{2}$粒子(例えば定常電子)の3粒子スピンモデルを調べる。 S_{2,3}=1$粒子の場合、結合した粒子の絡み合い状態は、$S_{1}$粒子によって準備され、制御され、読み取られる。 また, 磁気異方性強度$D$と交換結合強度$J$の共振条件では, 絡み合い状態の切替挙動が最大化され, 交換結合の異方性適用範囲に対して堅牢であることがわかった。

We explore the three-particle spin model of an $S_{1}=\frac{1}{2}$ particle (e.g. a stationary electron) interacting with two spin-coupled $S_{\text{2,3}}$ particles with exchange coupling and magnetic anisotropy. We find that in the case of $S_{2,3}=1$ particles, the coupled particle entanglement states can be prepared, controlled, and read by the $S_{1}$ particle. We also find that for particular resonance conditions of the magnetic anisotropy strength $D$ and exchange coupling strength $J$, the entanglement state switching behavior is maximized and is robust against a range of anisotropic application of the exchange coupling.
翻訳日:2023-04-01 17:28:31 公開日:2021-05-03
# 深層学習に基づくピスタチオの検出と計数

Detecting and Counting Pistachios based on Deep Learning ( http://arxiv.org/abs/2005.03990v4 )

ライセンス: Link先を確認
Mohammad Rahimzadeh, Abolfazl Attar(参考訳) ピスタキオス(Pistachios)は、貝殻の形状に基づいて、オープンマウスとクローズドマウスの2つのカテゴリに分類される栄養豊富なナッツである。 オープンマウスのピスタチオは、クローズマウスのピスタチオよりも価格、価値、需要が高い。 これらの違いから、製造会社がそれぞれの種類を正確に数えることは相当な量である。 本稿では,異なる種類のピスタチオをコンピュータビジョンで数える新しいシステムを提案する。 我々は167秒の動画と3927のラベル付きピスタチオを含むピスタチオの新しいデータセットを導入し、共有した。 他の多くの作品とは異なり、われわれのモデルはピスタチオを画像ではなくビデオで数えている。 ビデオ内のオブジェクトをカウントするには、各オブジェクトをビデオフレーム間で割り当てる必要がある。 本研究における2つの課題は,輸送線上を移動・転動する開口部ピスタチオは,他のフレームでは閉口として現れる可能性があるため,異なるフレーム内でピスタチオの閉塞と変形が存在することである。 提案モデルでは,まず,映像中の各種ピスタチオを検出するためのデータセットを用いて,retinanet object detector network上でトレーニングを行う。 検出を収集した後,新しいトラッカに基づく新しいカウンタアルゴリズムに適用し,精度の高い連続フレームにピスタチオを割り当てる。 我々のモデルは、その外観(例えば、閉口に見えるオープンマウスピスタチオ)を回転させるピスタチオを互いに割り当てることができるので、それらを誤って数えない。 我々のアルゴリズムは非常に高速に動作し、優れたカウント結果が得られる。 6つのビデオ(9486フレーム)におけるアルゴリズムの計算精度は94.75%である。

Pistachios are nutritious nuts that are sorted based on the shape of their shell into two categories: Open-mouth and Closed-mouth. The open-mouth pistachios are higher in price, value, and demand than the closed-mouth pistachios. Because of these differences, it is considerable for production companies to precisely count the number of each kind. This paper aims to propose a new system for counting the different types of pistachios with computer vision. We have introduced and shared a new dataset of pistachios, including six videos with a total length of 167 seconds and 3927 labeled pistachios. Unlike many other works, our model counts pistachios in videos, not images. Counting objects in videos need assigning each object between the video frames so that each object be counted once. The main two challenges in our work are the existence of pistachios' occlusion and deformation of pistachios in different frames because open-mouth pistachios that move and roll on the transportation line may appear as closed-mouth in some frames and open-mouth in other frames. Our novel model first is trained on the RetinaNet object detector network using our dataset to detect different types of pistachios in video frames. After gathering the detections, we apply them to a new counter algorithm based on a new tracker to assign pistachios in consecutive frames with high accuracy. Our model is able to assign pistachios that turn and change their appearance (e.g., open-mouth pistachios that look closed-mouth) to each other so does not count them incorrectly. Our algorithm performs very fast and achieves good counting results. The computed accuracy of our algorithm on six videos (9486 frames) is 94.75%.
翻訳日:2022-12-05 12:23:57 公開日:2021-05-03
# ニューラルコラボレーティブ推論

Neural Collaborative Reasoning ( http://arxiv.org/abs/2005.08129v5 )

ライセンス: Link先を確認
Hanxiong Chen, Shaoyun Shi, Yunqi Li, Yongfeng Zhang(参考訳) 既存のコラボレーティブフィルタリング(cf)メソッドは、主に、浅層モデルや深層モデルを使ってデータからユーザとアイテムの埋め込みを学習することで、データの連想関係パターンをキャプチャし、設計または学習された類似度関数を使用して関連するアイテムの埋め込みとマッチングするように設計されている。 しかしながら、認識知的なタスクではなく認知として、推薦はパターン認識とデータとのマッチングの能力だけでなく、データにおける認知的推論の能力も要求する。 本稿では、協調フィルタリング(CF)を協調推論(CR)に進化させることを提案する。これは、各ユーザが推論空間の一部を知っていて、互いに好みを推定するために、空間内での推論に協力することを意味する。 技術的には,学習と推論を橋渡しするニューラルコラボレーティブ推論(NCR)フレームワークを提案する。 具体的には、表現学習と論理推論の力を融合し、表象は知覚的視点からデータ内の類似性パターンを捉え、論理はインフォームド・意思決定のための認知的推論を促進する。 しかし、重要な課題は、最適化と推論のための共有アーキテクチャにおいて、微分可能なニューラルネットワークとシンボリック推論を橋渡しすることである。 この問題を解決するために、モジュール化された推論アーキテクチャを提案する。これは、(\wedge$)や(\vee$)といった論理演算を学習し、意味推論のための神経モジュールとして($\neg$)を学習しない($\rightarrow$)。 このように、論理式はニューラルネットワークとして等価に構成できるので、論理推論と予測は連続的な空間で行うことができる。 現実世界のデータセットの実験は、浅い、深い、そして推論モデルと比較して、我々のフレームワークの利点を検証した。

Existing Collaborative Filtering (CF) methods are mostly designed based on the idea of matching, i.e., by learning user and item embeddings from data using shallow or deep models, they try to capture the associative relevance patterns in data, so that a user embedding can be matched with relevant item embeddings using designed or learned similarity functions. However, as a cognition rather than a perception intelligent task, recommendation requires not only the ability of pattern recognition and matching from data, but also the ability of cognitive reasoning in data. In this paper, we propose to advance Collaborative Filtering (CF) to Collaborative Reasoning (CR), which means that each user knows part of the reasoning space, and they collaborate for reasoning in the space to estimate preferences for each other. Technically, we propose a Neural Collaborative Reasoning (NCR) framework to bridge learning and reasoning. Specifically, we integrate the power of representation learning and logical reasoning, where representations capture similarity patterns in data from perceptual perspectives, and logic facilitates cognitive reasoning for informed decision making. An important challenge, however, is to bridge differentiable neural networks and symbolic reasoning in a shared architecture for optimization and inference. To solve the problem, we propose a modularized reasoning architecture, which learns logical operations such as AND ($\wedge$), OR ($\vee$) and NOT ($\neg$) as neural modules for implication reasoning ($\rightarrow$). In this way, logical expressions can be equivalently organized as neural networks, so that logical reasoning and prediction can be conducted in a continuous space. Experiments on real-world datasets verified the advantages of our framework compared with both shallow, deep and reasoning models.
翻訳日:2022-12-02 13:08:19 公開日:2021-05-03
# Audio ALBERT: 音声表現の自己教師型学習のためのLite BERT

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation ( http://arxiv.org/abs/2005.08575v5 )

ライセンス: Link先を確認
Po-Han Chi, Pei-Hung Chung, Tsung-Han Wu, Chun-Cheng Hsieh, Yen-Hao Chen, Shang-Wen Li, Hung-yi Lee(参考訳) 自己教師あり音声処理では,事前学習したモデルを音声表現抽出器として用いることが重要である。 近年,音響モデルの訓練において,モデルのサイズを増大させることにより,性能の向上が図られている。 本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。 私たちは、話者識別と音素分類という2つの下流タスクで表現を利用する。 この結果から,albert は 91\% のパラメータを活用しながら,下流タスクにおける巨大モデルとの競合性能を達成できることがわかった。 さらに,話者と音素の情報量が潜時表現にどの程度符号化されているかを簡易な探索モデルを用いて測定する。 探索実験では、潜在表現が最後の層よりも音素と話者のリッチな情報をエンコードしていることがわかった。

For self-supervised speech processing, it is crucial to use pretrained models as speech representation extractors. In recent works, increasing the size of the model has been utilized in acoustic model training in order to achieve better performance. In this paper, we propose Audio ALBERT, a lite version of the self-supervised speech representation model. We use the representations with two downstream tasks, speaker identification, and phoneme classification. We show that Audio ALBERT is capable of achieving competitive performance with those huge models in the downstream tasks while utilizing 91\% fewer parameters. Moreover, we use some simple probing models to measure how much the information of the speaker and phoneme is encoded in latent representations. In probing experiments, we find that the latent representations encode richer information of both phoneme and speaker than that of the last layer.
翻訳日:2022-12-02 00:16:19 公開日:2021-05-03
# 階層的時系列予測のための機械学習手法

A machine learning approach for forecasting hierarchical time series ( http://arxiv.org/abs/2006.00630v2 )

ライセンス: Link先を確認
Paolo Mancuso, Veronica Piccialli, Antonio M. Sudoso(参考訳) 本稿では,階層的時系列予測のための機械学習手法を提案する。 階層的時系列を扱う場合、正確な予測を生成すること以外は、調整された予測を生成するための適切な方法を選択する必要がある。 予測整合は予測を調整し、階層をまたいで一貫性を持たせるプロセスである。 文献では、適切な時系列予測法によって生成されたベース予測に対して、後処理技術を用いてコヒーレンスを強制することが多い。 逆に私たちの考えは、ディープニューラルネットワークを使って、正確で整合した予測を直接生成することです。 我々は、階層構造をキャプチャする情報を抽出するディープニューラルネットワークの能力を利用する。 我々は,カスタマイズした損失関数を最小化することにより,トレーニング時に和解を課す。 多くの実践的応用において、時系列データ以外に、階層的時系列は予測精度を高めるのに役立つ説明変数を含む。 提案手法は,階層の任意のレベルで抽出された時系列特徴と説明変数の関係を,高精度で整合的な点予測を提供するエンドツーエンドニューラルネットワークに関連付ける。 この手法の有効性は3つの実世界のデータセットで検証され,本手法は階層的予測において最先端の競合より優れている。

In this paper, we propose a machine learning approach for forecasting hierarchical time series. When dealing with hierarchical time series, apart from generating accurate forecasts, one needs to select a suitable method for producing reconciled forecasts. Forecast reconciliation is the process of adjusting forecasts to make them coherent across the hierarchy. In literature, coherence is often enforced by using a post-processing technique on the base forecasts produced by suitable time series forecasting methods. On the contrary, our idea is to use a deep neural network to directly produce accurate and reconciled forecasts. We exploit the ability of a deep neural network to extract information capturing the structure of the hierarchy. We impose the reconciliation at training time by minimizing a customized loss function. In many practical applications, besides time series data, hierarchical time series include explanatory variables that are beneficial for increasing the forecasting accuracy. Exploiting this further information, our approach links the relationship between time series features extracted at any level of the hierarchy and the explanatory variables into an end-to-end neural network providing accurate and reconciled point forecasts. The effectiveness of the approach is validated on three real-world datasets, where our method outperforms state-of-the-art competitors in hierarchical forecasting.
翻訳日:2022-11-26 12:22:15 公開日:2021-05-03
# 自律走行のための被曝領域における物体検出のための熱画像探索

Exploring Thermal Images for Object Detection in Underexposure Regions for Autonomous Driving ( http://arxiv.org/abs/2006.00821v2 )

ライセンス: Link先を確認
Farzeen Munir, Shoaib Azam, Muhammd Aasim Rafique, Ahmad Muqeem Sheri, Moongu Jeon, Witold Pedrycz(参考訳) 未露出領域は、安全な自動運転のために周囲を完全に認識するために不可欠である。 サーマルカメラの利用可能性は、他の光学センサーが解釈可能な信号を捉えることができない領域を探索するための重要な代替手段となった。 熱カメラは、赤外線スペクトル内の物体から放射される熱差を用いて画像をキャプチャし、熱画像中の物体検出は、困難な条件下での自律運転に有効となる。 可視領域画像における物体検出は成熟しているが、熱的物体検出は有効性に欠ける。 重要な課題は、SOTA人工知能技術のデシラタである熱領域のラベル付きデータの不足である。 本研究では,可視スペクトル画像から熱画像への学習を転送するスタイル変換技術を用いたドメイン適応フレームワークを提案する。 このフレームワークはgan(generative adversarial network)を使用して、スタイル一貫性を通じて可視スペクトルドメインから熱ドメインに低レベルの機能を転送する。 提案手法の有効性は, 一般に公開されている熱画像データセット(FLIR ADAS, KAIST Multi-Spectral)のスタイル画像を用いた場合に, 改良された結果から明らかである。

Underexposure regions are vital to construct a complete perception of the surroundings for safe autonomous driving. The availability of thermal cameras has provided an essential alternate to explore regions where other optical sensors lack in capturing interpretable signals. A thermal camera captures an image using the heat difference emitted by objects in the infrared spectrum, and object detection in thermal images becomes effective for autonomous driving in challenging conditions. Although object detection in the visible spectrum domain imaging has matured, thermal object detection lacks effectiveness. A significant challenge is scarcity of labeled data for the thermal domain which is desiderata for SOTA artificial intelligence techniques. This work proposes a domain adaptation framework which employs a style transfer technique for transfer learning from visible spectrum images to thermal images. The framework uses a generative adversarial network (GAN) to transfer the low-level features from the visible spectrum domain to the thermal domain through style consistency. The efficacy of the proposed method of object detection in thermal images is evident from the improved results when used styled images from publicly available thermal image datasets (FLIR ADAS and KAIST Multi-Spectral).
翻訳日:2022-11-26 06:32:03 公開日:2021-05-03
# ライダリング経済の価格判別アルゴリズムにおける人工知能バイアスの異質な影響

Disparate Impact of Artificial Intelligence Bias in Ridehailing Economy's Price Discrimination Algorithms ( http://arxiv.org/abs/2006.04599v6 )

ライセンス: Link先を確認
Akshat Pandey and Aylin Caliskan(参考訳) 個人からモビリティデータを収集してスマートシティ計画に通知するライデハリングアプリケーションは、人工知能(AI)に依存する自動アルゴリズムを使用して、各旅行の運賃を予測します。 このタイプのAIアルゴリズム、すなわち価格判別アルゴリズムは、動的に個別化された価格設定のために業界のブラックボックスシステムで広く使われている。 透明性の欠如により、価格識別アルゴリズムの結果を生成するのに使用されるデータにアクセスしなければ、公平性と異なる影響のためのaiシステムの研究は不可能である。 近年、都市計画の透明性を高めるため、シカゴ市規制は、交通事業者が配車に関する匿名データを公開することを義務付けた。 そこで,本研究では,配車アプリケーションで使用される価格識別アルゴリズムの異種影響を大規模に測定する最初の方法を提案する。 メタアナリシス文献からのランダム効果モデルの適用は、アメリカ・コミュニティ・サーベイ(american community survey)が集計した国勢調査の属性の運賃価格に対するaiバイアスの市レベルの効果を組み合わせたものである。 シカゴ市からの1億回の配車サンプルの分析によると、人口統計学的属性に関連する配車利用パターンから得られたAIバイアスにより、近隣地域の運賃価格に大きな異なる影響が示されている。 非白人人口が多い地域、高い貧困層、若い住民、高い教育水準の地域は、それぞれ、コーエンのd、-0.32、-0.28、0.69、および0.24で測定された効果の合計で、より高い運賃と大きく関連している。 さらに、我々の手法は、米国位置情報を含むデータセットから学習するAIアルゴリズムの異なる影響源を特定し、対処する約束を持っている。

Ridehailing applications that collect mobility data from individuals to inform smart city planning predict each trip's fare pricing with automated algorithms that rely on artificial intelligence (AI). This type of AI algorithm, namely a price discrimination algorithm, is widely used in the industry's black box systems for dynamic individualized pricing. Lacking transparency, studying such AI systems for fairness and disparate impact has not been possible without access to data used in generating the outcomes of price discrimination algorithms. Recently, in an effort to enhance transparency in city planning, the city of Chicago regulation mandated that transportation providers publish anonymized data on ridehailing. As a result, we present the first large-scale measurement of the disparate impact of price discrimination algorithms used by ridehailing applications. The application of random effects models from the meta-analysis literature combines the city-level effects of AI bias on fare pricing from census tract attributes, aggregated from the American Community Survey. An analysis of 100 million ridehailing samples from the city of Chicago indicates a significant disparate impact in fare pricing of neighborhoods due to AI bias learned from ridehailing utilization patterns associated with demographic attributes. Neighborhoods with larger non-white populations, higher poverty levels, younger residents, and high education levels are significantly associated with higher fare prices, with combined effect sizes, measured in Cohen's d, of -0.32, -0.28, 0.69, and 0.24 for each demographic, respectively. Further, our methods hold promise for identifying and addressing the sources of disparate impact in AI algorithms learning from datasets that contain U.S. geolocations.
翻訳日:2022-11-24 01:16:34 公開日:2021-05-03
# モノトーン演算子平衡ネットワーク

Monotone operator equilibrium networks ( http://arxiv.org/abs/2006.08591v2 )

ライセンス: Link先を確認
Ezra Winston, J. Zico Kolter(参考訳) 近年,Deep Equilibrium Networksのような暗黙の深度モデルでは,従来型のディープネットワークの性能に適合し,メモリ効率が高いことが示されている。 しかし、これらのモデルは解への不安定な収束に悩まされ、解が存在することを保証できない。 一方、暗黙深度モデルの別のクラスであるNeural ODEsは、ユニークなソリューションの存在を保証するが、従来のネットワークと比較すると性能が劣る。 本稿では,単調作用素の理論である単調作用素平衡ネットワーク(mondeq, monotone operator equilibrium network)に基づく新しい暗黙的深さモデルを開発した。 本研究では, 暗黙的ネットワークの平衡点を求めることと, 安定収束が保証された効率的な解法を許容する単調作用素分割問題の解法との密接な関係を示す。 次に、すべての演算子が単調であることを保証するネットワークのパラメータ化を開発し、一意の平衡点の存在を保証する。 最後に,これらのモデルのいくつかのバージョンをインスタンス化する方法を示し,マルチスケール畳み込みなどの構造化線形作用素に対して反復解法を実装する。 結果として得られるモデルは、Neural ODEベースのモデルよりもはるかに優れ、計算効率も優れている。 コードはhttp://github.com/locuslab/monotone_op_netで入手できる。

Implicit-depth models such as Deep Equilibrium Networks have recently been shown to match or exceed the performance of traditional deep networks while being much more memory efficient. However, these models suffer from unstable convergence to a solution and lack guarantees that a solution exists. On the other hand, Neural ODEs, another class of implicit-depth models, do guarantee existence of a unique solution but perform poorly compared with traditional networks. In this paper, we develop a new class of implicit-depth model based on the theory of monotone operators, the Monotone Operator Equilibrium Network (monDEQ). We show the close connection between finding the equilibrium point of an implicit network and solving a form of monotone operator splitting problem, which admits efficient solvers with guaranteed, stable convergence. We then develop a parameterization of the network which ensures that all operators remain monotone, which guarantees the existence of a unique equilibrium point. Finally, we show how to instantiate several versions of these models, and implement the resulting iterative solvers, for structured linear operators such as multi-scale convolutions. The resulting models vastly outperform the Neural ODE-based models while also being more computationally efficient. Code is available at http://github.com/locuslab/monotone_op_net.
翻訳日:2022-11-21 03:25:36 公開日:2021-05-03
# ニューラルネットワーク言語モデルと人間におけるネスト依存の処理機構

Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans ( http://arxiv.org/abs/2006.11098v2 )

ライセンス: Link先を確認
Yair Lakretz, Dieuwke Hupkes, Alessandra Vergallito, Marco Marelli, Marco Baroni, Stanislas Dehaene(参考訳) 文理解における再帰的処理は人間の言語能力の目印と考えられている。 しかし、その基盤となる神経機構はほとんど不明である。 本研究では,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的側面,すなわち作業記憶における文法的数と性別情報の保存と長距離一致(例えば,他の句で区切られた場合の主語と動詞の正確な数一致を捉える)を模倣するか否かを検討した。 長い短期記憶単位を持つリカレントなアーキテクチャであるネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、文法数に対する局所的および長距離的構文合意をうまく処理した、非常に希少な特殊ユニットの出現が示された。 しかし、シミュレーションでは、このメカニズムは完全な再帰をサポートしておらず、ある程度の長期の組み込み依存性で失敗することを示した。 我々は,複数の名詞の単数/複数状態の体系的な変化を伴う文において,人間が数一致の違反を検知する行動実験において,モデルの予測を検証した。 人間とモデルのエラーパターンは著しく類似しており、モデルが人間のデータで観測された様々な影響を反映していることを示している。 しかし、重要な違いは、組み込みの長距離依存性により、人間は偶然レベルを超え、一方モデルの体系的なエラーは偶然レベルを下回ったことである。 全体として、現代のニューラルネットワークが文を処理する方法を探ることで、人間の言語性能に関する正確で検証可能な仮説が導かれる。

Recursive processing in sentence comprehension is considered a hallmark of human linguistic abilities. However, its underlying neural mechanisms remain largely unknown. We studied whether a modern artificial neural network trained with "deep learning" methods mimics a central aspect of human sentence processing, namely the storing of grammatical number and gender information in working memory and its use in long-distance agreement (e.g., capturing the correct number agreement between subject and verb when they are separated by other phrases). Although the network, a recurrent architecture with Long Short-Term Memory units, was solely trained to predict the next word in a large corpus, analysis showed the emergence of a very sparse set of specialized units that successfully handled local and long-distance syntactic agreement for grammatical number. However, the simulations also showed that this mechanism does not support full recursion and fails with some long-range embedded dependencies. We tested the model's predictions in a behavioral experiment where humans detected violations in number agreement in sentences with systematic variations in the singular/plural status of multiple nouns, with or without embedding. Human and model error patterns were remarkably similar, showing that the model echoes various effects observed in human data. However, a key difference was that, with embedded long-range dependencies, humans remained above chance level, while the model's systematic errors brought it below chance. Overall, our study shows that exploring the ways in which modern artificial neural networks process sentences leads to precise and testable hypotheses about human linguistic performance.
翻訳日:2022-11-19 04:40:37 公開日:2021-05-03
# MMF:オープンセット認識における特徴学習のための損失拡張

MMF: A loss extension for feature learning in open set recognition ( http://arxiv.org/abs/2006.15117v2 )

ライセンス: Link先を確認
Jingyun Jia, Philip K. Chan(参考訳) オープンセット認識(OSR)は、既知のクラスを分類する問題であり、一方、収集されたサンプルがすべてのクラスを消耗できない場合、未知のクラスを識別する。 OSR問題には多くの応用がある。 例えば、頻繁に出現する新しいマルウェアクラスは、既知のクラスを分類し、未知のマルウェアクラスを識別できるシステムを必要とする。 本稿では,OSR問題に対処するニューラルネットワークにおける損失関数のアドオン拡張を提案する。 我々の損失拡大はニューラルネットワークを利用して既知のクラスに対する極性表現を見つけ、既知のクラスと未知のクラスの表現をより効果的に分離できるようにします。 まず、より差別的な表現を見つけるために、異なる損失関数に組み込むことができる拡張を導入します。 第2に,提案した拡張は,2つの異なるドメインのデータセット上での2種類の損失関数の性能を著しく向上させることができることを示す。 第3に,提案した拡張では,学習時間とモデルの精度において,損失関数が他よりも優れていることを示す。

Open set recognition (OSR) is the problem of classifying the known classes, meanwhile identifying the unknown classes when the collected samples cannot exhaust all the classes. There are many applications for the OSR problem. For instance, the frequently emerged new malware classes require a system that can classify the known classes and identify the unknown malware classes. In this paper, we propose an add-on extension for loss functions in neural networks to address the OSR problem. Our loss extension leverages the neural network to find polar representations for the known classes so that the representations of the known and the unknown classes become more effectively separable. Our contributions include: First, we introduce an extension that can be incorporated into different loss functions to find more discriminative representations. Second, we show that the proposed extension can significantly improve the performances of two different types of loss functions on datasets from two different domains. Third, we show that with the proposed extension, one loss function outperforms the others in terms of training time and model accuracy.
翻訳日:2022-11-16 21:30:08 公開日:2021-05-03
# 共変量シフト適応へのワンステップアプローチ

A One-step Approach to Covariate Shift Adaptation ( http://arxiv.org/abs/2007.04043v3 )

ライセンス: Link先を確認
Tianyi Zhang, Ikko Yamane, Nan Lu, Masashi Sugiyama(参考訳) 多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。 しかし、そのような仮定は、環境の非定常性やサンプル選択のバイアスにより、実世界ではしばしば破られる。 本研究では,入力に与えられた出力の条件分布が変わらず,入力分布がトレーニングステージとテストステージで異なる共変量シフト(covariate shift)と呼ばれる一般的な設定を考える。 共変量シフト適応の既存の手法のほとんどは、2段階のアプローチであり、まず重みを計算し、次に重み付けされた経験的リスク最小化を行う。 本稿では,テストリスクの上限を最小化し,予測モデルと関連する重みを1つの最適化で共同学習する新しい一段階アプローチを提案する。 提案手法を理論的に解析し,一般化誤差境界を提供する。 また,提案手法の有効性を実証的に示す。

A default assumption in many machine learning scenarios is that the training and test samples are drawn from the same probability distribution. However, such an assumption is often violated in the real world due to non-stationarity of the environment or bias in sample selection. In this work, we consider a prevalent setting called covariate shift, where the input distribution differs between the training and test stages while the conditional distribution of the output given the input remains unchanged. Most of the existing methods for covariate shift adaptation are two-step approaches, which first calculate the importance weights and then conduct importance-weighted empirical risk minimization. In this paper, we propose a novel one-step approach that jointly learns the predictive model and the associated weights in one optimization by minimizing an upper bound of the test risk. We theoretically analyze the proposed method and provide a generalization error bound. We also empirically demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-12 10:11:31 公開日:2021-05-03
# 単語埋め込みによる文化地図作成

Cultural Cartography with Word Embeddings ( http://arxiv.org/abs/2007.04508v4 )

ライセンス: Link先を確認
Dustin S. Stoltz and Marshall A. Taylor(参考訳) キーワードの頻度の使用は、テキストの形式的分析において古典的なアプローチであるが、単語の意味のリレーショナル性に対して光沢を生じる欠点がある。 単語埋め込みモデルは、自然言語のサンプルでどのように使われているかに基づいて、他の単語と類似性の関係に基づいて単語が割り当てられる、標準化され連続した「意味空間」を構築することで、この問題を克服する。 本稿では,単語の埋め込みが社会学において一般的な意味理論とどのように一致しているかを示し,二種類のナビゲーションを通して解釈の課題に当てはめることができることを示す。 まず、用語を一定に保ち、その空間の移動を計測することができる。天文学者が天体の季節による変化を測定したように、埋め込み空間を一定に保ち、文書や著者がそれに対してどのように動くかを確認することもできる。また、船が特定の夜に星を使って位置を決定するのと同じように。 アメリカ合衆国における移民談話の実証事例を用いて,文化理論における重要な話題である社会マーキング,メディアフィールド,エコーチェンバー,文化の拡散と変化の促進に向けた,これら2つの幅広い戦略のメリットを実証する。

Using the frequency of keywords is a classic approach in the formal analysis of text, but has the drawback of glossing over the relationality of word meanings. Word embedding models overcome this problem by constructing a standardized and continuous "meaning space" where words are assigned a location based on relations of similarity to other words based on how they are used in natural language samples. We show how word embeddings are commensurate with prevailing theories of meaning in sociology and can be put to the task of interpretation via two kinds of navigation. First, one can hold terms constant and measure how the embedding space moves around them--much like astronomers measured the changing of celestial bodies with the seasons. Second, one can also hold the embedding space constant and see how documents or authors move relative to it--just as ships use the stars on a given night to determine their location. Using the empirical case of immigration discourse in the United States, we demonstrate the merits of these two broad strategies for advancing important topics in cultural theory, including social marking, media fields, echo chambers, and cultural diffusion and change more broadly.
翻訳日:2022-11-12 03:48:51 公開日:2021-05-03
# 深部ステレオの連続的適応

Continual Adaptation for Deep Stereo ( http://arxiv.org/abs/2007.05233v3 )

ライセンス: Link先を確認
Matteo Poggi, Alessio Tonioni, Fabio Tosi, Stefano Mattoccia, Luigi Di Stefano(参考訳) 畳み込みニューラルネットワーク(convolutional neural networks training end-to-end to regress dense disparities)によって,ステレオ画像からの深さ推定と一致しない結果が得られた。 ほとんどのタスクと同様に、大量のラベル付きサンプルがトレーニング用に利用可能であれば、デプロイ時に遭遇するデータ分散全体をカバーすることができる。 このような仮定が現実のアプリケーションでは体系的に考慮されていないため、見当たらない設定に適応する能力が最重要となる。 そこで本稿では,難易度の高い環境に対処するための,深層ステレオネットワークの継続的適応パラダイムを提案する。 我々は、軽量でモジュール化されたアーキテクチャ、モジュール適応ネットワーク(MADNet)を設計し、モジュール適応アルゴリズム(MAD, MAD++)を定式化した。 我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。 両方のソースでは、デプロイ時に収集される入力イメージ以外のデータは必要ありません。 そこで,我々のネットワークアーキテクチャと適応アルゴリズムは,初めてリアルタイムな自己適応型ディープステレオシステムを実現し,高密度異方性回帰のためのエンドツーエンドアーキテクチャの実践的展開を容易にする新しいパラダイムを実現する。

Depth estimation from stereo images is carried out with unmatched results by convolutional neural networks trained end-to-end to regress dense disparities. Like for most tasks, this is possible if large amounts of labelled samples are available for training, possibly covering the whole data distribution encountered at deployment time. Being such an assumption systematically unmet in real applications, the capacity of adapting to any unseen setting becomes of paramount importance. Purposely, we propose a continual adaptation paradigm for deep stereo networks designed to deal with challenging and ever-changing environments. We design a lightweight and modular architecture, Modularly ADaptive Network (MADNet), and formulate Modular ADaptation algorithms (MAD, MAD++) which permit efficient optimization of independent sub-portions of the entire network. In our paradigm, the learning signals needed to continuously adapt models online can be sourced from self-supervision via right-to-left image warping or from traditional stereo algorithms. With both sources, no other data than the input images being gathered at deployment time are needed. Thus, our network architecture and adaptation algorithms realize the first real-time self-adaptive deep stereo system and pave the way for a new paradigm that can facilitate practical deployment of end-to-end architectures for dense disparity regression.
翻訳日:2022-11-11 21:52:38 公開日:2021-05-03
# AQD: 正確な量子オブジェクト検出を目指して

AQD: Towards Accurate Quantized Object Detection ( http://arxiv.org/abs/2007.06919v4 )

ライセンス: Link先を確認
Peng Chen, Jing Liu, Bohan Zhuang, Mingkui Tan, Chunhua Shen(参考訳) ネットワーク量子化は、エッジデバイス上のディープニューラルネットワークの推論効率を改善するために、低精度演算を用いて推論を行うことができる。 しかし、オブジェクト検出のような複雑なタスクに対する積極的な低ビット(例えば2ビット)量子化スキームの設計は、一般的なハードウェア上での厳しい性能劣化と検証不可能な効率の観点からも依然として難しい。 本稿では,浮動小数点演算を完全に除去するために,AQDと呼ばれる精度の高い量子オブジェクト検出ソリューションを提案する。 この目的のために、畳み込み層、正規化層、スキップ接続を含むあらゆるタイプの固定点演算をターゲットとし、整数のみの算術を用いて推論を実行できるようにする。 遅延vs精度のトレードオフの改善を示すために,提案手法をretinanetとfcosに適用する。 特に,ms-cocoデータセットにおける実験結果から,aqdは,非常に低ビットのスキームにおいて,全精度のaqdと同等あるいはそれ以上の性能を達成していることが明らかとなった。 ソースコードとモデルは、https://github.com/aim-uofa/model-quantizationで入手できる。

Network quantization allows inference to be conducted using low-precision arithmetic for improved inference efficiency of deep neural networks on edge devices. However, designing aggressively low-bit (e.g., 2-bit) quantization schemes on complex tasks, such as object detection, still remains challenging in terms of severe performance degradation and unverifiable efficiency on common hardware. In this paper, we propose an Accurate Quantized object Detection solution, termed AQD, to fully get rid of floating-point computation. To this end, we target using fixed-point operations in all kinds of layers, including the convolutional layers, normalization layers, and skip connections, allowing the inference to be executed using integer-only arithmetic. To demonstrate the improved latency-vs-accuracy trade-off, we apply the proposed methods on RetinaNet and FCOS. In particular, experimental results on MS-COCO dataset show that our AQD achieves comparable or even better performance compared with the full-precision counterpart under extremely low-bit schemes, which is of great practical value. Source code and models are available at: https://github.com/aim-uofa/model-quantization
翻訳日:2022-11-10 14:52:31 公開日:2021-05-03
# ランダム畳み込みによるロバストで一般化可能な視覚表現学習

Robust and Generalizable Visual Representation Learning via Random Convolutions ( http://arxiv.org/abs/2007.13003v3 )

ライセンス: Link先を確認
Zhenlin Xu, Deyi Liu, Junlin Yang, Colin Raffel, Marc Niethammer(参考訳) 様々なコンピュータビジョンタスクで成功したが、ディープニューラルネットワークはテクスチャスタイルのシフトや、人間が堅牢な小さな摂動に弱いことが示されている。 本研究では,ランダム畳み込みをデータ拡張として用いることにより,ニューラルネットワークのロバスト性が大幅に向上することを示す。 ランダムな畳み込みは概して形状保存であり、局所的なテクスチャを歪める可能性がある。 直感的には、ランダム化された畳み込みは、同じ大域的な形状のランダムな局所的なテクスチャを持つ無限個の新しいドメインを生み出す。 そこで本研究では,マルチスケールのランダム畳み込みの出力を新しい画像として用いるか,トレーニング中に元の画像と混合するかを検討する。 未確認領域に対する我々のアプローチで訓練されたネットワークを適用すると、ドメイン一般化ベンチマークの性能は一貫して改善され、ImageNetにスケーラブルである。 特にPACSとImageNet-Sketchのスケッチ領域に一般化する難しいシナリオでは,我々の手法は最先端の手法よりも大きなマージンで優れている。 さらに興味深いのは,より堅牢な事前学習された視覚的表現を提供することで,下流タスクのメリットを享受できることだ。

While successful for various computer vision tasks, deep neural networks have shown to be vulnerable to texture style shifts and small perturbations to which humans are robust. In this work, we show that the robustness of neural networks can be greatly improved through the use of random convolutions as data augmentation. Random convolutions are approximately shape-preserving and may distort local textures. Intuitively, randomized convolutions create an infinite number of new domains with similar global shapes but random local textures. Therefore, we explore using outputs of multi-scale random convolutions as new images or mixing them with the original images during training. When applying a network trained with our approach to unseen domains, our method consistently improves the performance on domain generalization benchmarks and is scalable to ImageNet. In particular, in the challenging scenario of generalizing to the sketch domain in PACS and to ImageNet-Sketch, our method outperforms state-of-art methods by a large margin. More interestingly, our method can benefit downstream tasks by providing a more robust pretrained visual representation.
翻訳日:2022-11-07 00:53:27 公開日:2021-05-03
# 任意外乱を用いた不完全データのロバスト平均推定

Robust Mean Estimation on Highly Incomplete Data with Arbitrary Outliers ( http://arxiv.org/abs/2008.08071v5 )

ライセンス: Link先を確認
Lunjia Hu, Omer Reingold(参考訳) 我々は、すべての例の座標が欠落している可能性があり、$\varepsilon N$例が任意に破損している場合、$N$例が与えられた$d$次元分布の平均を頑健に推定する問題を研究する。 各座標が $\varepsilon n$ 以上の定数係数で現れると仮定すると、ほぼ線形時間 $\widetilde o(nd)$ において、情報理論上最適次元独立な誤差保証を持つ分布の平均を推定するアルゴリズムを示す。 この結果は、計算効率の良いロバスト推定に関する最近の研究を、より広く適用可能な不完全データ設定に拡張する。

We study the problem of robustly estimating the mean of a $d$-dimensional distribution given $N$ examples, where most coordinates of every example may be missing and $\varepsilon N$ examples may be arbitrarily corrupted. Assuming each coordinate appears in a constant factor more than $\varepsilon N$ examples, we show algorithms that estimate the mean of the distribution with information-theoretically optimal dimension-independent error guarantees in nearly-linear time $\widetilde O(Nd)$. Our results extend recent work on computationally-efficient robust estimation to a more widely applicable incomplete-data setting.
翻訳日:2022-10-27 21:32:16 公開日:2021-05-03
# 進化計算による効率的なDNNアンサンブルの生成

Generating Efficient DNN-Ensembles with Evolutionary Computation ( http://arxiv.org/abs/2009.08698v2 )

ライセンス: Link先を確認
Marc Ortiz, Florian Scheidegger, Marc Casas, Cristiano Malossi, Eduard Ayguad\'e(参考訳) 本研究では,より速く,より小さく,より正確なディープラーニングモデルを作成するためのツールとして,アンサンブル学習を利用する。 dnn分類器を組み合わせることで,精度,推定時間,パラメータ数を共同で最適化できることを実証する。 これを実現するために、バッグング、ブースティング、順序付き分類器のチェーンという複数のアンサンブル戦略を組み合わせる。 検索中のDNNアンサンブルの評価回数を減らすために,ユーザの指定した制約に対する3つの目的に応じてアンサンブルを最適化する進化的アプローチEARNを提案する。 cpuとgpuの両方で32の最先端dcnnの初期プールを持つ10の画像分類データセットを実行し、最大速度アップで7.60\times$、パラメータの10\times$の削減、プールの最高のdnnに関して最大6.01\%$の精度向上といったモデルを生成します。 加えて、この手法は自動モデル生成のための最先端メソッドよりも5.6\times$高速のモデルを生成する。

In this work, we leverage ensemble learning as a tool for the creation of faster, smaller, and more accurate deep learning models. We demonstrate that we can jointly optimize for accuracy, inference time, and the number of parameters by combining DNN classifiers. To achieve this, we combine multiple ensemble strategies: bagging, boosting, and an ordered chain of classifiers. To reduce the number of DNN ensemble evaluations during the search, we propose EARN, an evolutionary approach that optimizes the ensemble according to three objectives regarding the constraints specified by the user. We run EARN on 10 image classification datasets with an initial pool of 32 state-of-the-art DCNN on both CPU and GPU platforms, and we generate models with speedups up to $7.60\times$, reductions of parameters by $10\times$, or increases in accuracy up to $6.01\%$ regarding the best DNN in the pool. In addition, our method generates models that are $5.6\times$ faster than the state-of-the-art methods for automatic model generation.
翻訳日:2022-10-17 02:15:16 公開日:2021-05-03
# バイアスフィールドはDNNに基づくX線認識の脅威となる

Bias Field Poses a Threat to DNN-based X-Ray Recognition ( http://arxiv.org/abs/2009.09247v2 )

ライセンス: Link先を確認
Binyu Tian, Qing Guo, Felix Juefei-Xu, Wen Le Chan, Yupeng Cheng, Xiaohong Li, Xiaofei Xie, Shengchao Qin(参考訳) 胸部X線は、新型コロナウイルスを含む多くの肺疾患のスクリーニングと診断に重要な役割を果たしている。 最近では、胸部X線画像のためのディープニューラルネットワーク(DNN)を構築し、肺疾患の自動化と効率的な診断を実現している。 しかし, 胸部X線画像には, 不適切な医用画像取得プロセスによって引き起こされるバイアス領域が広く存在し, バイアス領域に対するDNNの堅牢性は調査されることは稀であり, X線自動診断システムに対する脅威となる。 本稿では,近年の敵対的攻撃に基いてこの問題を考察し,新たな攻撃,すなわち,付加雑音の代わりにバイアス場が作用する対向バイアス場攻撃をDNNを騙すための対向的摂動として提案する。 バイアスフィールドを局所的に調整し、高い攻撃成功率を実現すると同時に、空間的な滑らかさを維持し、高い現実性を保証する。 この2つの目標が互いに矛盾しており、攻撃を著しく困難にしている。 この課題を克服するために,直交・直交の制約で局所的にバイアスフィールドを調整できる対向・平滑なバイアスフィールド攻撃を提案する。 その結果、逆X線画像はDNNを効果的に騙すだけでなく、非常に高い現実性を維持することができる。 我々は,ResNet50,DenseNet121,MobileNetなどの強力なDNNを用いた実胸X線データセットを用いて本手法の有効性を検証する。 本手法は,DNNによるX線自動診断に対する潜在的な脅威を明らかにし,バイアスフィールド・ローバスト自動診断システムの開発に有効である。

The chest X-ray plays a key role in screening and diagnosis of many lung diseases including the COVID-19. More recently, many works construct deep neural networks (DNNs) for chest X-ray images to realize automated and efficient diagnosis of lung diseases. However, bias field caused by the improper medical image acquisition process widely exists in the chest X-ray images while the robustness of DNNs to the bias field is rarely explored, which definitely poses a threat to the X-ray-based automated diagnosis system. In this paper, we study this problem based on the recent adversarial attack and propose a brand new attack, i.e., the adversarial bias field attack where the bias field instead of the additive noise works as the adversarial perturbations for fooling the DNNs. This novel attack posts a key problem: how to locally tune the bias field to realize high attack success rate while maintaining its spatial smoothness to guarantee high realisticity. These two goals contradict each other and thus has made the attack significantly challenging. To overcome this challenge, we propose the adversarial-smooth bias field attack that can locally tune the bias field with joint smooth & adversarial constraints. As a result, the adversarial X-ray images can not only fool the DNNs effectively but also retain very high level of realisticity. We validate our method on real chest X-ray datasets with powerful DNNs, e.g., ResNet50, DenseNet121, and MobileNet, and show different properties to the state-of-the-art attacks in both image realisticity and attack transferability. Our method reveals the potential threat to the DNN-based X-ray automated diagnosis and can definitely benefit the development of bias-field-robust automated diagnosis system.
翻訳日:2022-10-16 21:10:57 公開日:2021-05-03
# 正しい理由を思い出す:破滅的な予測を減らした説明

Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting ( http://arxiv.org/abs/2010.01528v2 )

ライセンス: Link先を確認
Sayna Ebrahimi, Suzanne Petryk, Akash Gokul, William Gan, Joseph E. Gonzalez, Marcus Rohrbach, Trevor Darrell(参考訳) 連続学習(CL)の目的は、破滅的な忘れ込みの現象に悩まされることなく一連のタスクを学習することである。 以前の研究では、リプレイバッファの形でメモリを活用することで、以前のタスクのパフォーマンス低下を低減できることを示した。 我々は、モデルが以前に下された決定に対して \textit{evidence} を思い出すように促された場合、忘れ方がさらに小さくなると仮定する。 この仮説を探求するための第一歩として,我々は単純新奇なトレーニングパラダイムを提案する。re remembering for the right reason (rrr) と呼ばれるこのパラダイムは,バッファに各例の視覚的モデル説明を格納し,モデルの予測に対する"正しい理由"を持つことを保証する。 この制約がなければ、従来の連続学習アルゴリズムが新しいタスクを学習するにつれて、説明や忘れの量が増えます。 メモリや正規化に基づくアプローチでRRRを容易に追加できることを実証し,より重要なモデル説明の改善を実現した。 提案手法を標準および少数ショット設定で評価し,様々なアーキテクチャと手法を用いてCLアプローチを一貫した改良を行い,説明可能性と連続学習の有望な関連性を示す手法を実証した。 我々のコードは \url{https://github.com/SaynaEbrahimi/Remembering-for-the-Right-Reasons} で利用可能です。

The goal of continual learning (CL) is to learn a sequence of tasks without suffering from the phenomenon of catastrophic forgetting. Previous work has shown that leveraging memory in the form of a replay buffer can reduce performance degradation on prior tasks. We hypothesize that forgetting can be further reduced when the model is encouraged to remember the \textit{evidence} for previously made decisions. As a first step towards exploring this hypothesis, we propose a simple novel training paradigm, called Remembering for the Right Reasons (RRR), that additionally stores visual model explanations for each example in the buffer and ensures the model has "the right reasons" for its predictions by encouraging its explanations to remain consistent with those used to make decisions at training time. Without this constraint, there is a drift in explanations and increase in forgetting as conventional continual learning algorithms learn new tasks. We demonstrate how RRR can be easily added to any memory or regularization-based approach and results in reduced forgetting, and more importantly, improved model explanations. We have evaluated our approach in the standard and few-shot settings and observed a consistent improvement across various CL approaches using different architectures and techniques to generate model explanations and demonstrated our approach showing a promising connection between explainability and continual learning. Our code is available at \url{https://github.com/SaynaEbrahimi/Remembering-for-the-Right-Reasons}.
翻訳日:2022-10-11 02:56:02 公開日:2021-05-03
# 平衡探索によるノープレス外交における人間レベル性能

Human-Level Performance in No-Press Diplomacy via Equilibrium Search ( http://arxiv.org/abs/2010.02923v2 )

ライセンス: Link先を確認
Jonathan Gray, Adam Lerer, Anton Bakhtin, Noam Brown(参考訳) 複雑なゲームにおけるAIの突破口は、純粋に敵対的あるいは純粋に協力的な設定に焦点を当てている。 対照的に外交は協力と競争の両方を含む同盟をシフトさせるゲームである。 そのため、外交は深刻な研究課題であることが証明されている。 本稿では,人間のデータに対する教師あり学習と,後悔の最小化による一段階のルックアヘッド探索を組み合わせた非プレス型外交のエージェントについて述べる。 レジスト最小化技術は、対戦型ゲーム、特にポーカーでのAIの成功に遅れを取っているが、これまでは協力を含む大規模ゲームで成功しなかった。 我々のエージェントは、過去の非プレス外交ボットのパフォーマンスを大幅に上回り、専門家の人間には説明不能であり、人気のある外交ウェブサイトで匿名ゲームを行う際には、人間のプレイヤーの上位2%にランクインしている。

Prior AI breakthroughs in complex games have focused on either the purely adversarial or purely cooperative settings. In contrast, Diplomacy is a game of shifting alliances that involves both cooperation and competition. For this reason, Diplomacy has proven to be a formidable research challenge. In this paper we describe an agent for the no-press variant of Diplomacy that combines supervised learning on human data with one-step lookahead search via regret minimization. Regret minimization techniques have been behind previous AI successes in adversarial games, most notably poker, but have not previously been shown to be successful in large-scale games involving cooperation. We show that our agent greatly exceeds the performance of past no-press Diplomacy bots, is unexploitable by expert humans, and ranks in the top 2% of human players when playing anonymous games on a popular Diplomacy website.
翻訳日:2022-10-10 06:12:34 公開日:2021-05-03
# AT-MFCGA:進化的マルチタスクのための適応トランスファー誘導多因子細胞遺伝アルゴリズム

AT-MFCGA: An Adaptive Transfer-guided Multifactorial Cellular Genetic Algorithm for Evolutionary Multitasking ( http://arxiv.org/abs/2010.03917v2 )

ライセンス: Link先を確認
Eneko Osaba, Javier Del Ser, Aritz D. Martinez, Jesus L. Lobo and Francisco Herrera(参考訳) 転送最適化は、複数の最適化タスクを同時に解くことに特化した初期研究領域である。 この問題に効果的に対処できる様々なアプローチの中で、進化的マルチタスクは、進化的計算の概念を利用して、1つの探索プロセス内で複数の問題を解決する。 本稿では,Adaptive Transfer-guided Multifactorial Cellular Genetic Algorithm (AT-MFCGA) と呼ばれる進化的マルチタスク環境を扱う適応メタヒューリスティックアルゴリズムを提案する。 AT-MFCGAはセルラーオートマトンを利用して最適化問題の知識を交換する機構を実装している。 さらに,本手法は,検索中に遭遇したタスク間の相乗効果を自己説明し,関連する最適化タスク間の相互作用を理解するのに役立つ。 総合的な実験装置は、AT-MFCGAと他の有名な進化的マルチタスク(MFEAとMFEA-II)の性能を評価し比較するために設計されている。 実験は4つの組合せ最適化問題の20のインスタンスからなる11のマルチタスクシナリオで構成されており、これまでで最大の離散的マルチタスク環境となっている。 結果は,AT-MFCGAが提供する解の質の良さに関して決定的であり,検索プロセス全体での課題間の遺伝的伝達性の定量的検討によって補完される。

Transfer Optimization is an incipient research area dedicated to solving multiple optimization tasks simultaneously. Among the different approaches that can address this problem effectively, Evolutionary Multitasking resorts to concepts from Evolutionary Computation to solve multiple problems within a single search process. In this paper we introduce a novel adaptive metaheuristic algorithm to deal with Evolutionary Multitasking environments coined as Adaptive Transfer-guided Multifactorial Cellular Genetic Algorithm (AT-MFCGA). AT-MFCGA relies on cellular automata to implement mechanisms in order to exchange knowledge among the optimization problems under consideration. Furthermore, our approach is able to explain by itself the synergies among tasks that were encountered and exploited during the search, which helps us to understand interactions between related optimization tasks. A comprehensive experimental setup is designed to assess and compare the performance of AT-MFCGA to that of other renowned evolutionary multitasking alternatives (MFEA and MFEA-II). Experiments comprise 11 multitasking scenarios composed of 20 instances of 4 combinatorial optimization problems, yielding the largest discrete multitasking environment solved to date. Results are conclusive in regard to the superior quality of solutions provided by AT-MFCGA with respect to the rest of the methods, which are complemented by a quantitative examination of the genetic transferability among tasks throughout the search process.
翻訳日:2022-10-09 11:39:31 公開日:2021-05-03
# Watch-And-Help: 社会的知覚とヒューマンAIコラボレーションへの挑戦

Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration ( http://arxiv.org/abs/2010.09890v2 )

ライセンス: Link先を確認
Xavier Puig, Tianmin Shu, Shuang Li, Zilin Wang, Yuan-Hong Liao, Joshua B. Tenenbaum, Sanja Fidler, Antonio Torralba(参考訳) 本稿では,エージェントによるソーシャルインテリジェンステストの課題であるWatch-And-Help(WAH)を紹介する。 WAHでは、AIエージェントが人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。 成功するには、AIエージェントが必要です 一 同一のタスク(社会的知覚)を行う人間のようなエージェントの単一の実演を見て、その課題の根底にある目的を理解すること。 二 人間的なエージェントと協調して、そのタスクをできるだけ早く目に見えない環境で解くこと(人間とaiのコラボレーション)。 この課題に対して、我々は、マルチエージェント家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースラインの両方を含むベンチマークを提供する。 我々は、客観的指標と主観的ユーザ評価を用いて、人間のようなエージェントと実人のAIエージェントの性能を評価する。 実験の結果,提案した課題と仮想環境は,大規模社会知能の重要な側面を体系的に評価することを可能にした。

In this paper, we introduce Watch-And-Help (WAH), a challenge for testing social intelligence in agents. In WAH, an AI agent needs to help a human-like agent perform a complex household task efficiently. To succeed, the AI agent needs to i) understand the underlying goal of the task by watching a single demonstration of the human-like agent performing the same task (social perception), and ii) coordinate with the human-like agent to solve the task in an unseen environment as fast as possible (human-AI collaboration). For this challenge, we build VirtualHome-Social, a multi-agent household environment, and provide a benchmark including both planning and learning based baselines. We evaluate the performance of AI agents with the human-like agent as well as with real humans using objective metrics and subjective user ratings. Experimental results demonstrate that the proposed challenge and virtual environment enable a systematic evaluation on the important aspects of machine social intelligence at scale.
翻訳日:2022-10-05 21:12:43 公開日:2021-05-03
# 目標摂動を用いた知識グラフ拡張モデルの学習

Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ( http://arxiv.org/abs/2010.12872v6 )

ライセンス: Link先を確認
Mrigank Raman, Aaron Chan, Siddhant Agarwal, Peifeng Wang, Hansen Wang, Sungchul Kim, Ryan Rossi, Handong Zhao, Nedim Lipka, Xiang Ren(参考訳) 知識グラフ(KG)は、質問応答やアイテムレコメンデーションなど、さまざまな知識集約タスクにおけるニューラルネットワークのパフォーマンス向上を支援する。 KGに注意を払って、そのようなKG強化されたモデルは、KG情報が与えられた予測に最も関係していることを示すこともできる。 本稿では,これらのモデルが期待どおりに動作しているかどうかを問う。 強化学習政策(あるいは単純なヒューリスティックス)により、元のKGの下流性能を維持しつつ、元のKGのセマンティクスや構造から著しく逸脱した、知覚的に摂動したKGを生成できることが示される。 以上の結果から,KGを付加したモデルがKG情報について理解し,合理的な説明を行う能力に疑問が生じる。

Knowledge graphs (KGs) have helped neural models improve performance on various knowledge-intensive tasks, like question answering and item recommendation. By using attention over the KG, such KG-augmented models can also "explain" which KG information was most relevant for making a given prediction. In this paper, we question whether these models are really behaving as we expect. We show that, through a reinforcement learning policy (or even simple heuristics), one can produce deceptively perturbed KGs, which maintain the downstream performance of the original KG while significantly deviating from the original KG's semantics and structure. Our findings raise doubts about KG-augmented models' ability to reason about KG information and give sensible explanations.
翻訳日:2022-10-03 11:52:26 公開日:2021-05-03
# 二元ニューラルネットワークを用いた深部生成モデルの計算コスト削減

Reducing the Computational Cost of Deep Generative Models with Binary Neural Networks ( http://arxiv.org/abs/2010.13476v2 )

ライセンス: Link先を確認
Thomas Bird, Friso H. Kingma, David Barber(参考訳) 深層生成モデルは、現実世界のデータを理解するための強力なツールセットを提供する。 しかし、これらのモデルが改善されるにつれて、サイズと複雑さが増し、メモリと実行時間の計算コストが増大する。 ニューラルネットワークにおけるバイナリ重みの使用は、このコスト削減に期待できる方法のひとつだ。 しかし、バイナリニューラルネットワークが生成モデルで使用できるかどうかは未解決の問題である。 この研究で、我々は初めてバイナリニューラルネットワークを利用した生成モデルのトレーニングに成功したことを示す。 これにより、モデルの計算コストが大幅に削減される。 我々は二項重み正規化の新しいクラスを開発し、これらの二項化生成モデルのアーキテクチャ設計に関する洞察を提供する。 resnet vaeとflow++という2つの最先端のディープジェネレーティブモデルが、これらの技術を使って効果的にバイナリ化できることを実証する。 通常のモデルに近い損失値を得るが、90%~94%の小型化を実現し、実行時の大幅なスピードアップを可能にしたバイナリモデルをトレーニングする。

Deep generative models provide a powerful set of tools to understand real-world data. But as these models improve, they increase in size and complexity, so their computational cost in memory and execution time grows. Using binary weights in neural networks is one method which has shown promise in reducing this cost. However, whether binary neural networks can be used in generative models is an open problem. In this work we show, for the first time, that we can successfully train generative models which utilize binary neural networks. This reduces the computational cost of the models massively. We develop a new class of binary weight normalization, and provide insights for architecture designs of these binarized generative models. We demonstrate that two state-of-the-art deep generative models, the ResNet VAE and Flow++ models, can be binarized effectively using these techniques. We train binary models that achieve loss values close to those of the regular models but are 90%-94% smaller in size, and also allow significant speed-ups in execution time.
翻訳日:2022-10-02 19:31:16 公開日:2021-05-03
# 微調整Word2Vecモデルによるバングラ語単語埋め込みのロバストと一貫性の推定

Robust and Consistent Estimation of Word Embedding for Bangla Language by fine-tuning Word2Vec Model ( http://arxiv.org/abs/2010.13404v3 )

ライセンス: Link先を確認
Rifat Rahman(参考訳) 単語の単語埋め込みやベクトル表現は、自然言語処理の機械学習モデルにおいて情報的特徴となる単語の構文的および意味的特性を保持する。 word2vec、fasttext、gensim、gloveなど、単語のベクトル化のためのディープラーニングベースのモデルがいくつかある。 本研究では,単語ベクトルを学習するためのワード2vecモデルを,異なるハイパーパラメータをチューニングして解析し,バングラ語に最も効果的な単語埋め込みを提案する。 word2vecモデルの微調整により生成された単語埋め込みの性能をテストするために,本質的および外生的両方の評価を行う。 我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事分類器の特徴として,異なる単語埋め込みを用いる。 実験の結果,4 のスライディングウィンドウサイズを用いた Word2vec モデルの "skip-gram" 法から生成した300次元のベクトルが,バングラ語に対して最も堅牢なベクトル表現を与えることがわかった。

Word embedding or vector representation of word holds syntactical and semantic characteristics of a word which can be an informative feature for any machine learning-based models of natural language processing. There are several deep learning-based models for the vectorization of words like word2vec, fasttext, gensim, glove, etc. In this study, we analyze word2vec model for learning word vectors by tuning different hyper-parameters and present the most effective word embedding for Bangla language. For testing the performances of different word embeddings generated by fine-tuning of word2vec model, we perform both intrinsic and extrinsic evaluations. We cluster the word vectors to examine the relational similarity of words for intrinsic evaluation and also use different word embeddings as the feature of news article classifier for extrinsic evaluation. From our experiment, we discover that the word vectors with 300 dimensions, generated from "skip-gram" method of word2vec model using the sliding window size of 4, are giving the most robust vector representations for Bangla language.
翻訳日:2022-10-02 17:54:26 公開日:2021-05-03
# FragmentVC: エンド・ツー・エンドの抽出とファイン・グラインド音声による音声変換

FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention ( http://arxiv.org/abs/2010.14150v2 )

ライセンス: Link先を確認
Yist Y. Lin, Chung-Ming Chien, Jheng-Hao Lin, Hung-yi Lee, Lin-shan Lee(参考訳) あらゆる音声変換は、訓練中に見つからないあらゆる話者に音声を変換することを目的としており、これは1対1のタスクや多対多のタスクよりもはるかに難しいが、現実のシナリオではずっと魅力的である。 本稿では,wav2vec 2.0から音源話者からの発話の潜在音声構造を得るとともに,対象話者からの発話のスペクトル特徴をログメルスペクトログラムから求めるフラグメントvcを提案する。 2つの異なる特徴空間の隠れ構造を2段階の訓練プロセスと整合させることで、FragmentVCはターゲット話者発話からきめ細かな音声断片を抽出し、所望の発話に融合させることができる。 このアプローチは,コンテント情報と話者情報との絡み合いを考慮せず,並列データを必要としない再構成損失で訓練される。 MOS を用いた話者検証と主観評価に基づく客観的評価は,AdaIN-VC や AutoVC などの SOTA アプローチよりも優れていることを示した。

Any-to-any voice conversion aims to convert the voice from and to any speakers even unseen during training, which is much more challenging compared to one-to-one or many-to-many tasks, but much more attractive in real-world scenarios. In this paper we proposed FragmentVC, in which the latent phonetic structure of the utterance from the source speaker is obtained from Wav2Vec 2.0, while the spectral features of the utterance(s) from the target speaker are obtained from log mel-spectrograms. By aligning the hidden structures of the two different feature spaces with a two-stage training process, FragmentVC is able to extract fine-grained voice fragments from the target speaker utterance(s) and fuse them into the desired utterance, all based on the attention mechanism of Transformer as verified with analysis on attention maps, and is accomplished end-to-end. This approach is trained with reconstruction loss only without any disentanglement considerations between content and speaker information and doesn't require parallel data. Objective evaluation based on speaker verification and subjective evaluation with MOS both showed that this approach outperformed SOTA approaches, such as AdaIN-VC and AutoVC.
翻訳日:2022-10-02 12:59:56 公開日:2021-05-03
# 非線形次元低減のための深部多様体変換

Deep Manifold Transformation for Nonlinear Dimensionality Reduction ( http://arxiv.org/abs/2010.14831v3 )

ライセンス: Link先を確認
Stan Z. Li, Zelin Zang, Lirong Wu(参考訳) マニフォールド学習に基づくエンコーダはデータ探索において非線形次元減少(NLDR)において重要な役割を果たしている。 しかし、既存の手法は、しばしば幾何学的、位相的、あるいは分布的なデータ構造を保存するのに失敗する。 本稿では、教師なしNLDRおよび埋め込み学習のための深層多様体変換(DMT)と呼ばれる深部多様体学習フレームワークを提案する。 DMTは、層間局所幾何保存(LGP)制約を用いることで、ディープニューラルネットワークを強化する。 lgp制約は深部多様体学習の損失を構成し、nldrネットワークトレーニングの幾何正規化として機能する。 合成データと実世界のデータに関する広範囲な実験は、dmtネットワークがデータの構造保存の観点から、既存の有界多様体ベースのnldrメソッドよりも優れていることを示している。

Manifold learning-based encoders have been playing important roles in nonlinear dimensionality reduction (NLDR) for data exploration. However, existing methods can often fail to preserve geometric, topological and/or distributional structures of data. In this paper, we propose a deep manifold learning framework, called deep manifold transformation (DMT) for unsupervised NLDR and embedding learning. DMT enhances deep neural networks by using cross-layer local geometry-preserving (LGP) constraints. The LGP constraints constitute the loss for deep manifold learning and serve as geometric regularizers for NLDR network training. Extensive experiments on synthetic and real-world data demonstrate that DMT networks outperform existing leading manifold-based NLDR methods in terms of preserving the structures of data.
翻訳日:2022-10-02 04:26:10 公開日:2021-05-03
# 一級スラブ支持ベクターマシンのための高速学習アルゴリズム

A fast learning algorithm for One-Class Slab Support Vector Machines ( http://arxiv.org/abs/2011.03243v2 )

ライセンス: Link先を確認
Bagesh Kumar, Ayush Sinha, Sourin Chakrabarti, Prof. O.P.Vyas(参考訳) One Class Slab Support Vector Machines (OCSSVM)は、従来のSVMやOne Class SVM、さらには他のOne Class Class Class Classifierよりも、特定の分類問題のクラスにおいて精度が良いことが判明した。 本稿では,複数変数の最適化問題を,サイズ2の小さな部分問題に分割し,解析的に解くことが可能な,逐次最小最適化(smo)による一クラスslab svmの高速学習法を提案する。 その結果、この学習方法は、他の二次プログラミング (qp) ソルバよりも大きなトレーニングデータセットにスケールする可能性が示唆された。

One Class Slab Support Vector Machines (OCSSVM) have turned out to be better in terms of accuracy in certain classes of classification problems than the traditional SVMs and One Class SVMs or even other One class classifiers. This paper proposes fast training method for One Class Slab SVMs using an updated Sequential Minimal Optimization (SMO) which divides the multi variable optimization problem to smaller sub problems of size two that can then be solved analytically. The results indicate that this training method scales better to large sets of training data than other Quadratic Programming (QP) solvers.
翻訳日:2022-09-29 04:22:21 公開日:2021-05-03
# (参考訳) オンラインPivot: ロックダウンにおけるテキストとデータマイニングの授業から学んだ教訓,ペアプログラミングとデジタルバッジによるオンライン教育の促進

The Online Pivot: Lessons Learned from Teaching a Text and Data Mining Course in Lockdown, Enhancing online Teaching with Pair Programming and Digital Badges ( http://arxiv.org/abs/2105.07847v1 )

ライセンス: CC BY 4.0
Beatrice Alex, Clare Llewellyn, Pawel Michal Orzechowski, Maria Boutchkova(参考訳) 本稿では、新型コロナウイルスのパンデミックの結果、2020年夏にオンラインにテキストとデータマイニングコースを移植した経緯と、第2回のパイロットテストで改善した経緯について説明する。 このコースを,2つのパイロット運用にどのように適応するか,そして,学生の学習とコミュニティ構築を改善するための教育手法について述べる。 また、コース中に収集された絶え間ないフィードバックに関する情報も提供し、あるセッションから次のセッションへ、そして別のパイロットへ、私たちの教えを適応させるのに役立ちました。 そこで本研究では,デジタルバッジやペアプログラミングといった,デジタルに応用される革新的な教育手法を,初心者や学生に自然言語処理コースを教えるための授業室で活用することを提案する。

In this paper we provide an account of how we ported a text and data mining course online in summer 2020 as a result of the COVID-19 pandemic and how we improved it in a second pilot run. We describe the course, how we adapted it over the two pilot runs and what teaching techniques we used to improve students' learning and community building online. We also provide information on the relentless feedback collected during the course which helped us to adapt our teaching from one session to the next and one pilot to the next. We discuss the lessons learned and promote the use of innovative teaching techniques applied to the digital such as digital badges and pair programming in break-out rooms for teaching Natural Language Processing courses to beginners and students with different backgrounds.
翻訳日:2021-05-20 07:51:45 公開日:2021-05-03
# 2020年高速MRIによる機械学習MR画像再構成の試み

Results of the 2020 fastMRI Challenge for Machine Learning MR Image Reconstruction ( http://arxiv.org/abs/2012.06318v3 )

ライセンス: Link先を確認
Matthew J. Muckley, Bruno Riemenschneider, Alireza Radmanesh, Sunwoo Kim, Geunu Jeong, Jingyu Ko, Yohan Jun, Hyungseob Shin, Dosik Hwang, Mahmoud Mostapha, Simon Arberet, Dominik Nickel, Zaccharie Ramzi, Philippe Ciuciu, Jean-Luc Starck, Jonas Teuwen, Dimitrios Karkalousos, Chaoping Zhang, Anuroop Sriram, Zhengnan Huang, Nafissa Yakubova, Yvonne Lui, Florian Knoll(参考訳) MRIスキャンの高速化はMRI研究コミュニティにおける主要な課題の1つである。 そこで我々は,k-spaceデータを用いたMR画像再構成を目的とした第2回高速MRIコンペティションを開催した。 参加者は7,299個の臨床脳スキャン(NYU Langone HealthによるHIPAA準拠の手順で同定)からのデータを受け取り、これらのスキャンのうち894個の完全サンプリングされたデータを課題評価のために保持した。 2019年の課題とは対照的に,我々は,脳画像の病理学的評価にラジオロジストの評価に焦点を当てた。 また、トレーニングセットの外からMRIスキャナーで評価されたモデルを提出する必要がある新しいTransferトラックも公開しました。 私たちは8つの異なるグループから19の応募を受け取りました。 その結果,SSIMスコアと質的ラジオロジカル評価の両方で1チームが最多得点を示した。 また,背景雑音の影響を軽減するための代替指標の分析を行い,参加者からのフィードバックを収集し,今後の課題について報告する。 最後に,提案に共通する障害モードを特定し,mri再構成コミュニティにおける今後の研究の必要性を強調する。

Accelerating MRI scans is one of the principal outstanding problems in the MRI research community. Towards this goal, we hosted the second fastMRI competition targeted towards reconstructing MR images with subsampled k-space data. We provided participants with data from 7,299 clinical brain scans (de-identified via a HIPAA-compliant procedure by NYU Langone Health), holding back the fully-sampled data from 894 of these scans for challenge evaluation purposes. In contrast to the 2019 challenge, we focused our radiologist evaluations on pathological assessment in brain images. We also debuted a new Transfer track that required participants to submit models evaluated on MRI scanners from outside the training set. We received 19 submissions from eight different groups. Results showed one team scoring best in both SSIM scores and qualitative radiologist evaluations. We also performed analysis on alternative metrics to mitigate the effects of background noise and collected feedback from the participants to inform future challenges. Lastly, we identify common failure modes across the submissions, highlighting areas of need for future research in the MRI reconstruction community.
翻訳日:2021-05-16 01:53:33 公開日:2021-05-03
# 多言語性ソーシャルメディアにおけるcovid-19誤情報の検索

Looking for COVID-19 misinformation in multilingual social media texts ( http://arxiv.org/abs/2105.03313v1 )

ライセンス: Link先を確認
Raj Ratn Pranesh and Mehrdad Farokhnejad and Ambesh Shekhar and Genoveva Vargas-Solar(参考訳) 本稿では,本疾患に関する誤報をテキスト内で検出し,観察するための多言語COVID-19分析法(CMTA)を提案する。 CMTAは、処理、分類(Dense-CNN)、分析(MBERT)マルチリンガル(micro)テキストに機械学習モデルを適用するデータサイエンス(DS)パイプラインを提案する。 DSパイプラインデータ作成タスクは、多言語テキストデータから特徴を抽出し、それを特定の情報クラス(false, 'partly false', 'misleading')に分類する。 CMTAパイプラインは多言語マイクロテキスト(つぶやき)を用いて実験されており、様々な言語にまたがる誤情報を示している。 CMTAの性能を評価するために,誤情報検出に用いた8つの単言語モデルを用いてCMTAの比較分析を行った。 比較の結果,CMTAは様々な単言語モデルを超えており,多言語マイクロテキストにおける誤情報検出の一般的な方法として利用できることが示唆された。 cmtaの実験結果は、最初のパンデミックの数ヶ月間、さまざまな言語でcovid-19に関する誤った情報傾向を示している。

This paper presents the Multilingual COVID-19 Analysis Method (CMTA) for detecting and observing the spread of misinformation about this disease within texts. CMTA proposes a data science (DS) pipeline that applies machine learning models for processing, classifying (Dense-CNN) and analyzing (MBERT) multilingual (micro)-texts. DS pipeline data preparation tasks extract features from multilingual textual data and categorize it into specific information classes (i.e., 'false', 'partly false', 'misleading'). The CMTA pipeline has been experimented with multilingual micro-texts (tweets), showing misinformation spread across different languages. To assess the performance of CMTA and put it in perspective, we performed a comparative analysis of CMTA with eight monolingual models used for detecting misinformation. The comparison shows that CMTA has surpassed various monolingual models and suggests that it can be used as a general method for detecting misinformation in multilingual micro-texts. CMTA experimental results show misinformation trends about COVID-19 in different languages during the first pandemic months.
翻訳日:2021-05-11 08:37:11 公開日:2021-05-03
# Deep Learning Compilerに独自のコーダーを導入

Bring Your Own Codegen to Deep Learning Compiler ( http://arxiv.org/abs/2105.03215v1 )

ライセンス: Link先を確認
Zhi Chen, Cody Hao Yu, Trevor Morris, Jorn Tuyls, Yi-Hsiang Lai, Jared Roesch, Elliott Delaye, Vin Sharma, Yida Wang(参考訳) ディープニューラルネットワーク(DNN)は、多くのアプリケーションに広く適用されており、これらのアプリケーションの高速かつ効率的な推論タスクをサポートするためのイネーブルとしてアクセラレータが登場している。 しかし、高いモデルカバレッジを高いパフォーマンスで達成するには、各アクセラレータベンダーは、DNNを取り込み、最適化し、実行するための完全なコンパイラスタックを開発する必要がある。 これは、ソフトウェアスタックの開発とメンテナンスに重大な課題をもたらします。 さらにベンダーは、DNNモデルアーキテクチャやオペレータの急速な進化に対応するために、ハードウェアやソフトウェアを継続的にアップデートする必要がある。 これらの課題に対処するために,既存のディープラーニングコンパイラのコンポーネントを可能な限り再利用することにより,ユーザが独自コード生成ツールの開発のみに集中できるようにするオープンソースフレームワークを提案する。 我々のフレームワークは、ユーザが柔軟で使いやすいインターフェイスを使ってモデルをセグメントに分割し、「最高の」プロセッサ上で実行でき、アクセラレーターの強力な計算能力を利用することができます。 私たちのケーススタディでは、私たちのフレームワークは数千行のコードしか持たない複数の商用ベンダーのコンパイラスタックにデプロイされています。

Deep neural networks (DNNs) have been ubiquitously applied in many applications, and accelerators are emerged as an enabler to support the fast and efficient inference tasks of these applications. However, to achieve high model coverage with high performance, each accelerator vendor has to develop a full compiler stack to ingest, optimize, and execute the DNNs. This poses significant challenges in the development and maintenance of the software stack. In addition, the vendors have to contiguously update their hardware and/or software to cope with the rapid evolution of the DNN model architectures and operators. To address these issues, this paper proposes an open source framework that enables users to only concentrate on the development of their proprietary code generation tools by reusing as many as possible components in the existing deep learning compilers. Our framework provides users flexible and easy-to-use interfaces to partition their models into segments that can be executed on "the best" processors to take advantage of the powerful computation capability of accelerators. Our case study shows that our framework has been deployed in multiple commercial vendors' compiler stacks with only a few thousand lines of code.
翻訳日:2021-05-11 08:36:52 公開日:2021-05-03
# (参考訳) メンタルヘルスモニタリングのためのウェアラブルと連続的時間知覚通過予測

Wearable and Continuous Prediction of Passage of Time Perception for Monitoring Mental Health ( http://arxiv.org/abs/2105.02808v1 )

ライセンス: CC BY 4.0
Lara Orlandic, Adriana Arza Valdes, David Atienza(参考訳) 人の時間知覚(POTP)は、精神状態とストレス反応に強く結びついているので、継続的なメンタルヘルスモニタリングの容易な定量化手段を提供することができる。 本研究では,ウェアラブルバイオセンサから取得したバイオマーカーからPOTPを予測するカスタム実験と機械学習(ML)モデルを開発する。 まず、個人が恐怖や悲しみ(p = 0.046)の時よりも遅く、認知タスク(p = 2 x 10^-5)の時よりも速い時間経過を経験できることを確認する。 次に, 高速, 遅い, 正常なPOTPに関連する実験セグメントをグループ化し, 人間のバイオマーカーに基づいて, これらの状態の分類を行うMLモデルを訓練する。 分類器の平均f-1スコアは79%で、高速通過時間クラスはf-1スコアの最大93%であった。 次に,手作業によらず各個人のポットを分類し,通常よりも遅く経過する時間を識別すると,77.1%のf-1スコアを得る。 2種類の分類器では, 呼吸, 心電図, 皮膚コンダクタンス, 皮膚温度信号から得られたバイオマーカーが分類器の出力に大きく寄与し, 非侵襲型ウェアラブルバイオセンサーを用いたリアルタイムPOTPモニタリングが可能となった。

A person's passage of time perception (POTP) is strongly linked to their mental state and stress response, and can therefore provide an easily quantifiable means of continuous mental health monitoring. In this work, we develop a custom experiment and Machine Learning (ML) models for predicting POTP from biomarkers acquired from wearable biosensors. We first confirm that individuals experience time passing slower than usual during fear or sadness (p = 0.046) and faster than usual during cognitive tasks (p = 2 x 10^-5). Then, we group together the experimental segments associated with fast, slow, and normal POTP, and train a ML model to classify between these states based on a person's biomarkers. The classifier had a weighted average F-1 score of 79%, with the fast-passing time class having the highest F-1 score of 93%. Next, we classify each individual's POTP regardless of the task at hand, achieving an F-1 score of 77.1% when distinguishing time passing faster rather than slower than usual. In the two classifiers, biomarkers derived from the respiration, electrocardiogram, skin conductance, and skin temperature signals contributed most to the classifier output, thus enabling real-time POTP monitoring using noninvasive, wearable biosensors.
翻訳日:2021-05-08 04:47:59 公開日:2021-05-03
# 動的環境における無線リソースの連続最適化の学習:双方向最適化の視点から

Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective ( http://arxiv.org/abs/2105.01696v1 )

ライセンス: Link先を確認
Haoran Sun, Wenqiang Pu, Xiao Fu, Tsung-Hui Chang, Mingyi Hong(参考訳) データ駆動、特に、現代のコミュニケーションタスクのためのディープニューラルネットワーク(DNN)ベースの手法の開発に対する関心が高まっている。 電力制御、ビームフォーミング、MIMO検出などの一般的なタスクでは、これらの手法は、計算労力の削減、チャネル状態情報(CSI)取得のためのリソースの削減など、最先端のパフォーマンスを達成する。 しかし、これらのアプローチが動的な環境で学ぶことはしばしば困難である。 本研究は,データ駆動型手法による動的環境における資源配分戦略の継続的な学習と最適化を可能にする新しい手法を開発する。 具体的には、環境統計が`episodes" で変化する ``episodically dynamic' の設定を検討し、各エピソードで環境が静止する。 本研究では,連続学習(cl)の概念を無線システム設計に構築し,学習モデルが前回から学んだ知識を忘れることなく,新たなエピソードに漸進的に適応できるようにする。 我々の設計は、2レベル最適化の新たな定式化に基づいており、異なるデータサンプル間での「公平性」を保証する。 電力制御とビームフォーミングの2つの一般的なDNNモデルと統合してCL手法の有効性を実証し,合成データとレイトレーシングデータの両方を用いて実験を行った。 これらの数値結果から、提案したCLアプローチは、新しいシナリオを迅速かつシームレスに適応できるだけでなく、これまで遭遇したシナリオよりも高いパフォーマンスを維持していることがわかる。

There has been a growing interest in developing data-driven, and in particular deep neural network (DNN) based methods for modern communication tasks. For a few popular tasks such as power control, beamforming, and MIMO detection, these methods achieve state-of-the-art performance while requiring less computational efforts, less resources for acquiring channel state information (CSI), etc. However, it is often challenging for these approaches to learn in a dynamic environment. This work develops a new approach that enables data-driven methods to continuously learn and optimize resource allocation strategies in a dynamic environment. Specifically, we consider an ``episodically dynamic" setting where the environment statistics change in ``episodes", and in each episode the environment is stationary. We propose to build the notion of continual learning (CL) into wireless system design, so that the learning model can incrementally adapt to the new episodes, {\it without forgetting} knowledge learned from the previous episodes. Our design is based on a novel bilevel optimization formulation which ensures certain ``fairness" across different data samples. We demonstrate the effectiveness of the CL approach by integrating it with two popular DNN based models for power control and beamforming, respectively, and testing using both synthetic and ray-tracing based data sets. These numerical results show that the proposed CL approach is not only able to adapt to the new scenarios quickly and seamlessly, but importantly, it also maintains high performance over the previously encountered scenarios as well.
翻訳日:2021-05-06 12:36:28 公開日:2021-05-03
# (参考訳) グローバルスパーシティ制約によるニューラルネットワークの効果的なスパーシフィケーション

Effective Sparsification of Neural Networks with Global Sparsity Constraint ( http://arxiv.org/abs/2105.01571v1 )

ライセンス: CC BY 4.0
Xiao Zhou, Weizhong Zhang, Hang Xu, Tong Zhang(参考訳) 重みプルーニングは、実世界のデプロイメントにおけるディープニューラルネットワークのモデルサイズと推論時間を短縮するための効果的なテクニックである。 しかしながら、重みの大きさと相対的な重要性はニューラルネットワークの異なる層に対して大きく異なるため、既存の手法では、各層に対して個別に適切な刈り取り率を求めるために、手動のチューニングまたは手作りのヒューリスティックなルールに依存している。 このアプローチは一般的に最適でないパフォーマンスをもたらす。 本稿では,確率空間を直接研究することにより,グローバルスパルシリティ制約下で自然スパルシフィケーションの定式化を解く「it確率マスキング」(probmask)と呼ばれる効果的なネットワークスパルシフィケーション手法を提案する。 鍵となる考え方は、すべてのレイヤのグローバルな基準として確率を使い、重みの重要度を測定することである。 ProbMaskの特長は、重み付けの量を自動的に制約によって学習できることであり、ネットワーク内の異なる層に対して個別にプルーニングレートをチューニングする問題は回避できる。 CIFAR-10/100 と ImageNet の大規模な実験結果から,本手法は極めて有効であり,特に高い刈り取り率の状況において,従来の最先端手法よりも優れた性能を発揮することが示された。 特に、probmaskと既存のメソッドの間のtop-1の精度の差は最大10\%である。 副産物として,無作為重み付きニューラルネットワークにおける高性能サブネットワークであるスーパーマスクの同定にもprobmaskが有効であることを示した。

Weight pruning is an effective technique to reduce the model size and inference time for deep neural networks in real-world deployments. However, since magnitudes and relative importance of weights are very different for different layers of a neural network, existing methods rely on either manual tuning or handcrafted heuristic rules to find appropriate pruning rates individually for each layer. This approach generally leads to suboptimal performance. In this paper, by directly working on the probability space, we propose an effective network sparsification method called {\it probabilistic masking} (ProbMask), which solves a natural sparsification formulation under global sparsity constraint. The key idea is to use probability as a global criterion for all layers to measure the weight importance. An appealing feature of ProbMask is that the amounts of weight redundancy can be learned automatically via our constraint and thus we avoid the problem of tuning pruning rates individually for different layers in a network. Extensive experimental results on CIFAR-10/100 and ImageNet demonstrate that our method is highly effective, and can outperform previous state-of-the-art methods by a significant margin, especially in the high pruning rate situation. Notably, the gap of Top-1 accuracy between our ProbMask and existing methods can be up to 10\%. As a by-product, we show ProbMask is also highly effective in identifying supermasks, which are subnetworks with high performance in a randomly weighted dense neural network.
翻訳日:2021-05-06 04:05:29 公開日:2021-05-03
# (参考訳) 離散混合モデルによる連続密度推定

Consistent Density Estimation Under Discrete Mixture Models ( http://arxiv.org/abs/2105.01108v1 )

ライセンス: CC BY 4.0
Luc Devroye and Alex Dytso(参考訳) この研究は、離散混合モデルの設定において混合確率密度$f$を推定する問題を考える。 論文は3つの部分からなる。 最初の部分は$L_1$一貫性のある推定器の構築に焦点を当てている。 特に、確率測度 $\mu$ がアトミックであり、$f$ から $\mu$ への写像が単射であるという仮定の下で、すべての密度 $f$ $\lim_{n\to \infty} \mathbb{E} \left[ \int |f_n -f | \right]=0$ に対して、推定子 $f_n$ が存在することを示す。 第2部では実装の詳細について論じている。 具体的には、$f$毎の一貫性が計算可能な推定器で達成できることが示されている。 第3部は、研究事例として、ポアソン混合モデルを考える。 特に、ポアソンの雑音設定では、単射条件が保たれ、従って、$f$ごとに一貫した推定を行うことができる。

This work considers a problem of estimating a mixing probability density $f$ in the setting of discrete mixture models. The paper consists of three parts. The first part focuses on the construction of an $L_1$ consistent estimator of $f$. In particular, under the assumptions that the probability measure $\mu$ of the observation is atomic, and the map from $f$ to $\mu$ is bijective, it is shown that there exists an estimator $f_n$ such that for every density $f$ $\lim_{n\to \infty} \mathbb{E} \left[ \int |f_n -f | \right]=0$. The second part discusses the implementation details. Specifically, it is shown that the consistency for every $f$ can be attained with a computationally feasible estimator. The third part, as a study case, considers a Poisson mixture model. In particular, it is shown that in the Poisson noise setting, the bijection condition holds and, hence, estimation can be performed consistently for every $f$.
翻訳日:2021-05-06 03:47:48 公開日:2021-05-03
# (参考訳) VQAにおける創発的体系性の反復学習

Iterated learning for emergent systematicity in VQA ( http://arxiv.org/abs/2105.01119v1 )

ライセンス: CC BY 4.0
Ankit Vani, Max Schwarzer, Yuchen Lu, Eeshan Dhekane, Aaron Courville(参考訳) ニューラルモジュールネットワークは構成性に対するアーキテクチャ上のバイアスがあるが、実際に体系的に一般化するには金の標準レイアウトが必要である。 レイアウトとモジュールを共同で学習する場合、構成性は自動的に発生せず、適切な構造を示すレイアウトの出現には明示的な圧力が必要である。 本稿では,機械学習における単純な参照ゲームに主に応用された,自然界における合成言語の出現に関する認知科学理論である反復学習を用いて,この問題に対処することを提案する。 モジュールネットワークのレイアウトを創発言語からのサンプルとして考慮し、反復学習を用いて、この言語内での構造開発を促進する。 その結果,視覚質問応答のより複雑な課題を解決する神経エージェントの体系的一般化を支援する。 正規化反復学習法は,SHAPES-SyGeT (SHAPES Systematic Generalization Test, SHAPESデータセットの新たな分割による体系的一般化の評価, CLOSUREではCLEVRの拡張による体系的一般化の検証を行う。 SHAPES-SyGeT と CLEVR の両面を限定的に監視し, 地上構造を復元する際の優れた性能を示す。

Although neural module networks have an architectural bias towards compositionality, they require gold standard layouts to generalize systematically in practice. When instead learning layouts and modules jointly, compositionality does not arise automatically and an explicit pressure is necessary for the emergence of layouts exhibiting the right structure. We propose to address this problem using iterated learning, a cognitive science theory of the emergence of compositional languages in nature that has primarily been applied to simple referential games in machine learning. Considering the layouts of module networks as samples from an emergent language, we use iterated learning to encourage the development of structure within this language. We show that the resulting layouts support systematic generalization in neural agents solving the more complex task of visual question-answering. Our regularized iterated learning method can outperform baselines without iterated learning on SHAPES-SyGeT (SHAPES Systematic Generalization Test), a new split of the SHAPES dataset we introduce to evaluate systematic generalization, and on CLOSURE, an extension of CLEVR also designed to test systematic generalization. We demonstrate superior performance in recovering ground-truth compositional program structure with limited supervision on both SHAPES-SyGeT and CLEVR.
翻訳日:2021-05-06 03:36:49 公開日:2021-05-03
# (参考訳) 自転車シェアリングシステムにおけるコンテキスト対応需要予測--空間的・気象的・カレンディカルな文脈を取り入れて

Context-aware demand prediction in bike sharing systems: incorporating spatial, meteorological and calendrical context ( http://arxiv.org/abs/2105.01125v1 )

ライセンス: CC BY 4.0
Cl\'audio Sardinha, Anna C. Finamore, Rui Henriques(参考訳) 世界中の大都市では自転車シェアリング需要が増加している。 自転車共有システムの適切な機能は、それでも1日を通して自転車の地理的分布のバランスに依存する。 この文脈では、チェックインとチェックインの時空間的分布を理解することが駅のバランスと自転車の移転イニシアチブの鍵となる。 それでも、ディープラーニングと距離ベースの予測器による最近の貢献は、自転車シェアリングの需要予測に限定的な成功を示している。 この一貫した観察は, 需要と局の気象・状況の強い依存, および, 近辺の駅における高低局負荷の影響をモデル化できない多くの予測者が空間認識の欠如によって引き起こされると考えられる。 本研究は, 駅需要の予測モデルにおいて, 空間的, 気象的, 状況的, カレンディカルな文脈の歴史的および将来的な情報源の両方を組み込むための, 包括的な新原則を提案する。 この目的のために、直列長短項メモリ(LSTM)コンポーネントで構成される新しいリカレントニューラルネットワーク層を、入力層における歴史的文脈データから生成される多変量時系列マスクの摂食と、予測された文脈データを用いた予測時系列の時間依存性正規化の2つの主要なコントリビューションとして提案する。 この研究は、文脈認識予測器によるすべての改善が統計的に有意であるとはいえ、コミュニティに対する提案された原則の関連性を示す、異なる文脈源を取り入れることの影響をさらに評価する。

Bike sharing demand is increasing in large cities worldwide. The proper functioning of bike-sharing systems is, nevertheless, dependent on a balanced geographical distribution of bicycles throughout a day. In this context, understanding the spatiotemporal distribution of check-ins and check-outs is key for station balancing and bike relocation initiatives. Still, recent contributions from deep learning and distance-based predictors show limited success on forecasting bike sharing demand. This consistent observation is hypothesized to be driven by: i) the strong dependence between demand and the meteorological and situational context of stations; and ii) the absence of spatial awareness as most predictors are unable to model the effects of high-low station load on nearby stations. This work proposes a comprehensive set of new principles to incorporate both historical and prospective sources of spatial, meteorological, situational and calendrical context in predictive models of station demand. To this end, a new recurrent neural network layering composed by serial long-short term memory (LSTM) components is proposed with two major contributions: i) the feeding of multivariate time series masks produced from historical context data at the input layer, and ii) the time-dependent regularization of the forecasted time series using prospective context data. This work further assesses the impact of incorporating different sources of context, showing the relevance of the proposed principles for the community even though not all improvements from the context-aware predictors yield statistical significance.
翻訳日:2021-05-06 03:14:58 公開日:2021-05-03
# (参考訳) 可変オートエンコーダを用いたマルチモーダルニューロイメージングデータの融合

Fusing multimodal neuroimaging data with a variational autoencoder ( http://arxiv.org/abs/2105.01128v1 )

ライセンス: CC BY 4.0
Eloy Geenjaar, Noah Lewis, Zening Fu, Rohan Venkatdas, Sergey Plis, Vince Calhoun(参考訳) 神経画像研究は、しばしば複数のデータモダリティの収集を伴う。 これらのモダリティは、脳に関する共有情報と相互排他的情報の両方を含んでいる。 本研究の目的は,可変オートエンコーダ(vae)を用いて,複数の神経画像の情報を融合するスケーラブルで解釈可能な方法を見出すことである。 初期評価を行うために,統合失調症分類タスクを用いて学習した表現を評価する。 表現に基づいて訓練された支持ベクトルマシンは、分類器の受信動作特性(ROC-AUC)0.8610の曲線下領域を達成する。

Neuroimaging studies often involve the collection of multiple data modalities. These modalities contain both shared and mutually exclusive information about the brain. This work aims at finding a scalable and interpretable method to fuse the information of multiple neuroimaging modalities using a variational autoencoder (VAE). To provide an initial assessment, this work evaluates the representations that are learned using a schizophrenia classification task. A support vector machine trained on the representations achieves an area under the curve for the classifier's receiver operating characteristic (ROC-AUC) of 0.8610.
翻訳日:2021-05-06 02:58:38 公開日:2021-05-03
# (参考訳) オンラインヘイト音声検出のためのマルチエージェントシステム

Towards A Multi-agent System for Online Hate Speech Detection ( http://arxiv.org/abs/2105.01129v1 )

ライセンス: CC BY 4.0
Gaurav Sahu, Robin Cohen, Olga Vechtomova(参考訳) 本稿では,TwitterやFacebookなどのオンラインソーシャルメディアプラットフォームにおけるヘイトスピーチの存在を検出するマルチエージェントシステムを提案する。 本稿では,テキスト処理と即時処理のチャネルを協調する深層学習技術を用いた新しいフレームワークを提案する。 本実験は,オンラインコンテンツの分類手法の有効性を実証し,提案するニューラルネットワークモデルを訓練し,入力中の憎悪インスタンスを効果的に検出することを目的とした。 我々は,オンラインソーシャルネットワークを管理するユーザに対して,私たちのシステムがいかにしてレコメンデーションを提供するのかを議論し,インテリジェントなマルチエージェントシステムによる社会的善の提供の可能性を示す。

This paper envisions a multi-agent system for detecting the presence of hate speech in online social media platforms such as Twitter and Facebook. We introduce a novel framework employing deep learning techniques to coordinate the channels of textual and im-age processing. Our experimental results aim to demonstrate the effectiveness of our methods for classifying online content, training the proposed neural network model to effectively detect hateful instances in the input. We conclude with a discussion of how our system may be of use to provide recommendations to users who are managing online social networks, showcasing the immense potential of intelligent multi-agent systems towards delivering social good.
翻訳日:2021-05-06 02:50:11 公開日:2021-05-03
# (参考訳) ランク一致順序回帰を用いた臨床振動重症度予測

Prediction of clinical tremor severity using Rank Consistent Ordinal Regression ( http://arxiv.org/abs/2105.01133v1 )

ライセンス: CC BY-SA 4.0
Li Zhang, Vijay Yadav, Vidya Koesmahargyo, Anzar Abbas, Isaac Galatzer-Levy(参考訳) 震動はパーキンソン病(PD)、本態性震動(ET)、および他の中枢神経系(CNS)障害の重要な診断特徴である。 臨床医や訓練されたトレーナーは、患者を観察してTETRASスコアで震度を評価する。 隣り合う震動のスコアの区別が微妙であるため、測定値の欠如や観測者間の変動はほぼ避けられない。 さらに、臨床評価では、患者の訪問も必要であり、疾患進行の頻度が制限される。 したがって, 遠隔・反復的に患者の利便性を向上し, 継続的なモニタリングを行う自動評価を開発することが有用である。 そこで本研究では,36名の本態性振動患者の276名の臨床ビデオを用いて,ランク一貫性のある順序回帰を伴うディープニューラルネットワーク(DNN)を訓練することを提案した。 ビデオは、臨床医が評価したTETRASスコアと結合され、DNNを訓練するために真実のラベルとして使用される。 限られたトレーニングデータに対処するために、RGBフレームから無関係な背景や統計オブジェクトを除去するために光学フローを用いる。 光流に加えて、振動周波数推定の関連するタスクから事前学習したネットワーク重みを利用するために、転送学習を適用する。 このアプローチは、臨床ビデオのトレーニング(67%)とテストセット(0.33%)に分割して評価した。 テスト結果のtetrasスコアの平均絶対誤差は 0.45 であり、誤差のほとんどが隣接するラベルの不一致によるもので、予測され許容される。 モデル予測は臨床評価ともよく一致している。 このモデルは、"On"または"Off"の震動をオンにするデバイスを移植したPD患者から収集したスマートフォンビデオにも適用される。 モデル出力は患者の震動状態と一致していた。 その結果,我々のモデルが震えの深刻度を評価・追跡する手段として利用できることがわかった。

Tremor is a key diagnostic feature of Parkinson's Disease (PD), Essential Tremor (ET), and other central nervous system (CNS) disorders. Clinicians or trained raters assess tremor severity with TETRAS scores by observing patients. Lacking quantitative measures, inter- or intra- observer variabilities are almost inevitable as the distinction between adjacent tremor scores is subtle. Moreover, clinician assessments also require patient visits, which limits the frequency of disease progress evaluation. Therefore it is beneficial to develop an automated assessment that can be performed remotely and repeatably at patients' convenience for continuous monitoring. In this work, we proposed to train a deep neural network (DNN) with rank-consistent ordinal regression using 276 clinical videos from 36 essential tremor patients. The videos are coupled with clinician assessed TETRAS scores, which are used as ground truth labels to train the DNN. To tackle the challenge of limited training data, optical flows are used to eliminate irrelevant background and statistic objects from RGB frames. In addition to optical flows, transfer learning is also applied to leverage pre-trained network weights from a related task of tremor frequency estimate. The approach was evaluated by splitting the clinical videos into training (67%) and testing sets (0.33%). The mean absolute error on TETRAS score of the testing results is 0.45, indicating that most of the errors were from the mismatch of adjacent labels, which is expected and acceptable. The model predications also agree well with clinical ratings. This model is further applied to smart phone videos collected from a PD patient who has an implanted device to turn "On" or "Off" tremor. The model outputs were consistent with the patient tremor states. The results demonstrate that our trained model can be used as a means to assess and track tremor severity.
翻訳日:2021-05-06 02:35:32 公開日:2021-05-03
# (参考訳) テンソル分解による状態と行動表現の学習

Learning Good State and Action Representations via Tensor Decomposition ( http://arxiv.org/abs/2105.01136v1 )

ライセンス: CC BY 4.0
Chengzhuo Ni, Anru Zhang, Yaqi Duan, Mengdi Wang(参考訳) 連続状態反応マルコフ決定過程(MDP)の遷移核は自然なテンソル構造を持つ。 本稿では,経験的軌跡から意味のある低次元状態と行動表現を識別するテンソルにインスパイアされた教師なし学習法を提案する。 この方法は、カーネル化、重要サンプリング、低タッカーランク近似により、MDPのテンソル構造を利用する。 この方法は、それぞれ状態とアクションをクラスタリングし、最良の離散MDP抽象化を見つけるためにさらに利用できる。 テンソル濃度に対する鋭い統計的誤差境界と埋め込み後の拡散距離の保存を提供する。

The transition kernel of a continuous-state-action Markov decision process (MDP) admits a natural tensor structure. This paper proposes a tensor-inspired unsupervised learning method to identify meaningful low-dimensional state and action representations from empirical trajectories. The method exploits the MDP's tensor structure by kernelization, importance sampling and low-Tucker-rank approximation. This method can be further used to cluster states and actions respectively and find the best discrete MDP abstraction. We provide sharp statistical error bounds for tensor concentration and the preservation of diffusion distance after embedding.
翻訳日:2021-05-06 02:29:17 公開日:2021-05-03
# (参考訳) ディープニューラルネットワークを用いた3次元点雲の歩行者検出

Pedestrian Detection in 3D Point Clouds using Deep Neural Networks ( http://arxiv.org/abs/2105.01151v1 )

ライセンス: CC BY 4.0
\`Oscar Lorente, Josep R. Casas, Santiago Royo, Ivan Caminal(参考訳) 歩行者を検知することは、ドライバーや歩行者の安全を確保する自動運転システムにおいて重要な課題である。 これらのアルゴリズムに関わる技術は、環境条件にかかわらず正確かつ信頼性が求められる。 rgbカメラのみに頼ることは、カメラが適切に撮影できない状況で道路環境を認識するのに十分ではないかもしれない。 いくつかのアプローチは、RGBカメラとLIDARのようなTOFセンサーを組み合わせることで、これらの制限を補うことを目指している。 しかし、LIDARが提供する3次元幾何学情報のみを用いてこの問題に対処する研究はほとんどない。 本稿では,高密度3次元点群における歩行者検出のためのPointNet++アーキテクチャを提案する。 本研究の目的は,歩行者検出システムにおける幾何学的情報の潜在的寄与を探索することである。 また,rgb画像から歩行者および非ペデストリアンラベルを3dドメインに転送するセミオートマチックラベルシステムを提案する。 私たちのデータセットがポイントクラウドにRGBを登録しているという事実は、2Dバウンディングボックスからポイントクラウドへのバックプロジェクションによるラベル転送を可能にします。 我々はpointnet++を3dラベル付きクラスタの形状でトレーニングする。 提案手法の有効性を確認し,98%の精度とリコール値を得た。

Detecting pedestrians is a crucial task in autonomous driving systems to ensure the safety of drivers and pedestrians. The technologies involved in these algorithms must be precise and reliable, regardless of environment conditions. Relying solely on RGB cameras may not be enough to recognize road environments in situations where cameras cannot capture scenes properly. Some approaches aim to compensate for these limitations by combining RGB cameras with TOF sensors, such as LIDARs. However, there are few works that address this problem using exclusively the 3D geometric information provided by LIDARs. In this paper, we propose a PointNet++ based architecture to detect pedestrians in dense 3D point clouds. The aim is to explore the potential contribution of geometric information alone in pedestrian detection systems. We also present a semi-automatic labeling system that transfers pedestrian and non-pedestrian labels from RGB images onto the 3D domain. The fact that our datasets have RGB registered with point clouds enables label transferring by back projection from 2D bounding boxes to point clouds, with only a light manual supervision to validate results. We train PointNet++ with the geometry of the resulting 3D labelled clusters. The evaluation confirms the effectiveness of the proposed method, yielding precision and recall values around 98%.
翻訳日:2021-05-06 01:11:19 公開日:2021-05-03
# (参考訳) 追跡機械学習の課題 : スループットフェーズ

The Tracking Machine Learning challenge : Throughput phase ( http://arxiv.org/abs/2105.01160v1 )

ライセンス: CC BY 4.0
Sabrina Amrouche, Laurent Basara, Paolo Calafiura, Dmitry Emeliyanov, Victor Estrade, Steven Farrell, C\'ecile Germain, Vladimir Vava Gligorov, Tobias Golling, Sergey Gorbunov, Heather Gray, Isabelle Guyon, Mikhail Hushchyn, Vincenzo Innocente, Moritz Kiehn, Marcel Kunze, Edward Moyse, David Rousseau, Andreas Salzburger, Andrey Ustyuzhanin, Jean-Roch Vlimant(参考訳) 本稿では,Codalabプラットフォーム上での追跡機械学習(TrackML)チャレンジの第2フェーズについて報告する。 最初の「精度」フェーズと同様に、参加者は粒子の軌道を正確に追跡することに関連する難しい実験問題を解く必要があった。 大型ハドロン衝突型加速器 (LHC): O($10^5$) 点が与えられたとき、参加者はそれらを O($10^4$) 個のグループに連結し、近似ヘリカルな粒子軌道を表す。 第1フェーズでは精度のみが問題であったが、この第2フェーズの目標は、精度と推論速度の妥協であった。 どちらも、参加者がソフトウェアをアップロードしなければならないCodalabプラットフォーム上で測定された。 ベスト3の参加者は、優れた精度と課題設計時の最先端技術よりも桁違いに速いスピードのソリューションを持っていた。 コアアルゴリズムは第1フェーズほど多様ではなかったが,様々な手法が用いられ,本論文で解説されている。 アルゴリズムの性能は、深さと教訓によって分析される。

This paper reports on the second "Throughput" phase of the Tracking Machine Learning (TrackML) challenge on the Codalab platform. As in the first "Accuracy" phase, the participants had to solve a difficult experimental problem linked to tracking accurately the trajectory of particles as e.g. created at the Large Hadron Collider (LHC): given O($10^5$) points, the participants had to connect them into O($10^4$) individual groups that represent the particle trajectories which are approximated helical. While in the first phase only the accuracy mattered, the goal of this second phase was a compromise between the accuracy and the speed of inference. Both were measured on the Codalab platform where the participants had to upload their software. The best three participants had solutions with good accuracy and speed an order of magnitude faster than the state of the art when the challenge was designed. Although the core algorithms were less diverse than in the first phase, a diversity of techniques have been used and are described in this paper. The performance of the algorithms are analysed in depth and lessons derived.
翻訳日:2021-05-06 01:00:46 公開日:2021-05-03
# (参考訳) ロシア超言語課題解決におけるルールベースヒューリスティックスの妥当な有効性

Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian SuperGLUE Tasks ( http://arxiv.org/abs/2105.01192v1 )

ライセンス: CC BY 4.0
Tatyana Iazykova, Denis Kapelyushnik, Olga Bystrova, Andrey Kutuzov(参考訳) SuperGLUEのようなリーダーボードは、現代の言語モデルの公正な比較のための標準ベンチマークを提供するため、NLPのアクティブな開発にとって重要なインセンティブであると考えられている。 彼らは、世界中の最高のエンジニアリングチームと彼らのリソースを協調させ、一般的な言語を理解するための一連のタスクを解決しました。 彼らのパフォーマンススコアは、しばしば人間のパフォーマンスに近いかそれ以上のものであると主張される。 これらの結果は、機械学習ベースの言語モデルが活用できる統計的手がかりを特徴付けるベンチマークデータセットの詳細な分析を促した。 英語データセットでは、アノテーションアーティファクトを含むことが多いことが示されている。 これにより、非常に単純なルールでタスクを解決し、競争力のあるランキングを達成できます。 本稿では、最近発表されたロシアの自然言語理解のためのベンチマークセットとリーダーボードであるロシアのSuperGLUE(RSG)について、同様の分析を行った。 テストデータセットは浅いヒューリスティックスに対して脆弱であることを示す。 単純なルールに基づくアプローチは、しばしば、GPT-3やBERTのような悪名高い事前訓練された言語モデルの結果よりも優れているか、あるいは近いものとなる。 最も単純な説明として)RSGのリーダーボードにおけるSOTAモデルのパフォーマンスのかなりの部分は、これらの浅いヒューリスティックを利用しており、実際の言語理解とは共通点がない。 我々は、これらのデータセットを改善する方法に関する一連の推奨事項を提供し、rsgリーダーボードがロシアのnluの本当の進歩をさらに示している。

Leader-boards like SuperGLUE are seen as important incentives for active development of NLP, since they provide standard benchmarks for fair comparison of modern language models. They have driven the world's best engineering teams as well as their resources to collaborate and solve a set of tasks for general language understanding. Their performance scores are often claimed to be close to or even higher than the human performance. These results encouraged more thorough analysis of whether the benchmark datasets featured any statistical cues that machine learning based language models can exploit. For English datasets, it was shown that they often contain annotation artifacts. This allows solving certain tasks with very simple rules and achieving competitive rankings. In this paper, a similar analysis was done for the Russian SuperGLUE (RSG), a recently published benchmark set and leader-board for Russian natural language understanding. We show that its test datasets are vulnerable to shallow heuristics. Often approaches based on simple rules outperform or come close to the results of the notorious pre-trained language models like GPT-3 or BERT. It is likely (as the simplest explanation) that a significant part of the SOTA models performance in the RSG leader-board is due to exploiting these shallow heuristics and that has nothing in common with real language understanding. We provide a set of recommendations on how to improve these datasets, making the RSG leader-board even more representative of the real progress in Russian NLU.
翻訳日:2021-05-06 00:33:20 公開日:2021-05-03
# (参考訳) ソフトウェア開発ライフサイクルフェーズにおける機械学習ソフトウェアアプリケーションの品質保証課題

Quality Assurance Challenges for Machine Learning Software Applications During Software Development Life Cycle Phases ( http://arxiv.org/abs/2105.01195v1 )

ライセンス: CC BY 4.0
Md Abdullah Al Alamin, Gias Uddin(参考訳) 過去数十年間、機械学習(ML)の革命的な進歩は、さまざまなタイプのソフトウェアシステムにMLモデルが急速に採用されていることを示している。 このような機械学習ソフトウェアアプリケーション(MLSA)は、私たちの日常生活において重要になっています。 そのため、MLSAの品質保証(QA)が最重要事項である。 いくつかの研究努力は、ソフトウェアシステムにMLモデルを採用する際に直面する具体的な課題を決定することに集中しています。 しかし、ソフトウェア開発ライフサイクル(SDLC)の様々な段階において、これらのML品質保証課題の分布に関する全体像を提示する研究は、全く知られていない。 本稿では,MLモデルの品質保証に着目した大量の研究論文について,詳細な文献レビューを行う。 SDLCの様々な段階にわたるML導入課題をマッピングし,MLSA品質保証問題の分類法を開発した。 分類に基づくSDLCの実践を改善するための勧告と研究の機会を提供する。 このマッピングは、mlモデルの採用が重要であると考えられるmlsasの品質保証作業の優先順位付けに役立つ。

In the past decades, the revolutionary advances of Machine Learning (ML) have shown a rapid adoption of ML models into software systems of diverse types. Such Machine Learning Software Applications (MLSAs) are gaining importance in our daily lives. As such, the Quality Assurance (QA) of MLSAs is of paramount importance. Several research efforts are dedicated to determining the specific challenges we can face while adopting ML models into software systems. However, we are aware of no research that offered a holistic view of the distribution of those ML quality assurance challenges across the various phases of software development life cycles (SDLC). This paper conducts an in-depth literature review of a large volume of research papers that focused on the quality assurance of ML models. We developed a taxonomy of MLSA quality assurance issues by mapping the various ML adoption challenges across different phases of SDLC. We provide recommendations and research opportunities to improve SDLC practices based on the taxonomy. This mapping can help prioritize quality assurance efforts of MLSAs where the adoption of ML models can be considered crucial.
翻訳日:2021-05-05 23:33:16 公開日:2021-05-03
# (参考訳) 不均衡データ分類のためのファジィラフセット理論を用いた重み付き最小二乗支持ベクトルマシン

Weighted Least Squares Twin Support Vector Machine with Fuzzy Rough Set Theory for Imbalanced Data Classification ( http://arxiv.org/abs/2105.01198v1 )

ライセンス: CC BY 4.0
Maysam Behmanesh, Peyman Adibi, Hossein Karshenas(参考訳) サポートベクトルマシン(SVM)は、分類問題を解決するために開発された強力な教師付き学習ツールである。 しかし、SVMは不均衡なデータの分類において性能が劣る可能性が高い。 ラフセット理論は、データから無関係情報を取り除く方法を提供する非決定論的ケースにおける推論のための数学的ツールである。 本研究では、重み付き最小二乗サポートベクトルマシンFRLSTSVMにおけるファジィ粗集合理論を、不均衡データの分類に効率的に利用する手法を提案する。 最初のイノベーションは、アンダーサンプリング戦略に基づく新しいファジィラフセットを導入し、不均衡なデータの観点から分類器を堅牢にすることです。 FRLSTSVMで2つの近位超平面を構成する場合、マイノリティクラスのデータポイントは変わらないが、多数派クラスのデータポイントのサブセットは新しい方法で選択される。 本モデルでは, LSTSVM の定式化に重みバイアスを組み込んで, 不均衡データの分類のための元の双対SVMの偏り現象を克服する。 これらの重みをこの定式化で決定するために, ファジィ粗集合理論を第二の革新として用いる新しい戦略を導入した。 従来のSVM法と比較して,不均衡なデータ分類において提案したFRLSTSVMモデルの方が優れていることを示す。

Support vector machines (SVMs) are powerful supervised learning tools developed to solve classification problems. However, SVMs are likely to perform poorly in the classification of imbalanced data. The rough set theory presents a mathematical tool for inference in nondeterministic cases that provides methods for removing irrelevant information from data. In this work, we propose an approach that efficiently used fuzzy rough set theory in weighted least squares twin support vector machine called FRLSTSVM for classification of imbalanced data. The first innovation is introducing a new fuzzy rough set based under-sampling strategy to make the classifier robust in terms of imbalanced data. For constructing the two proximal hyperplanes in FRLSTSVM, data points from the minority class remain unchanged while a subset of data points in the majority class are selected using a new method. In this model, we embedded the weight biases in the LSTSVM formulations to overcome the bias phenomenon in the original twin SVM for the classification of imbalanced data. In order to determine these weights in this formulation, we introduced a new strategy that uses fuzzy rough set theory as the second innovation. Experimental results on famous imbalanced datasets, compared with related traditional SVM-based methods, demonstrate the superiority of our proposed FRLSTSVM model in imbalanced data classification.
翻訳日:2021-05-05 23:21:52 公開日:2021-05-03
# (参考訳) インターバル型時系列分類器を用いた全クリアフレア予測

All-Clear Flare Prediction Using Interval-based Time Series Classifiers ( http://arxiv.org/abs/2105.01202v1 )

ライセンス: CC BY 4.0
Anli Ji, Berkay Aydin, Manolis K. Georgoulis, Rafal Angryk(参考訳) オールクリアフレア予測(all-clear flare prediction)は、太陽フレア予測の一種で、非フレアインスタンス(しばしば比較的小さなフレアとフレア静かな領域)を高い精度で予測することに重点を置いている。 多くのフレア予測研究は直接この問題に対処しないが、全クラー予測は運用環境で有用である。 しかし、全明明な予測では、偽陰性(ミス)を避けることと偽陽性(偽アラーム)を減らすことの適切なバランスを見つけることはしばしば困難である。 本研究は,時系列フォレスト (TSF) と呼ばれるインターバルベース時系列分類器の訓練と試験に焦点を当てた。 これらの分類器は多変量時系列データを利用して全明度フレア予測システムを構築するために使用される。 本稿では,データ収集,予測モデル構築,評価プロセスについて紹介し,時系列分類モデルとベンチマークデータセットを用いたベースラインを比較した。 その結果, 時系列分類器は, スキルスコア, 正確度, リコール指標の観点でより良い予測結果を提供し, モデルハイパーパラメータのチューニングにより, より正確な全明度予測のためにさらに改善できることがわかった。

An all-clear flare prediction is a type of solar flare forecasting that puts more emphasis on predicting non-flaring instances (often relatively small flares and flare quiet regions) with high precision while still maintaining valuable predictive results. While many flare prediction studies do not address this problem directly, all-clear predictions can be useful in operational context. However, in all-clear predictions, finding the right balance between avoiding false negatives (misses) and reducing the false positives (false alarms) is often challenging. Our study focuses on training and testing a set of interval-based time series classifiers named Time Series Forest (TSF). These classifiers will be used towards building an all-clear flare prediction system by utilizing multivariate time series data. Throughout this paper, we demonstrate our data collection, predictive model building and evaluation processes, and compare our time series classification models with baselines using our benchmark datasets. Our results show that time series classifiers provide better forecasting results in terms of skill scores, precision and recall metrics, and they can be further improved for more precise all-clear forecasts by tuning model hyperparameters.
翻訳日:2021-05-05 23:03:29 公開日:2021-05-03
# ライドシェアリングのための強化学習:調査

Reinforcement Learning for Ridesharing: A Survey ( http://arxiv.org/abs/2105.01099v1 )

ライセンス: Link先を確認
Zhiwei Qin, Hongtu Zhu, and Jieping Ye(参考訳) 本稿では,相乗り問題に対する強化学習アプローチに関する文献の包括的かつ詳細な調査を行う。 ライドシェアのマッチング、車両の配置変更、相乗り、動的価格の話題に関する論文を取り上げている。 一般的なデータセットやオープンシミュレーション環境も導入されている。 次に,この重要な領域における強化学習研究の課題と機会について考察する。

In this paper, we present a comprehensive, in-depth survey of the literature on reinforcement learning approaches to ridesharing problems. Papers on the topics of rideshare matching, vehicle repositioning, ride-pooling, and dynamic pricing are covered. Popular data sets and open simulation environments are also introduced. Subsequently, we discuss a number of challenges and opportunities for reinforcement learning research on this important domain.
翻訳日:2021-05-05 13:06:37 公開日:2021-05-03
# ジェネレーティブ・アドバーサリー・ネットワークを用いた電子カルテからの時系列創傷予後因子の合成

Synthesizing time-series wound prognosis factors from electronic medical records using generative adversarial networks ( http://arxiv.org/abs/2105.01159v1 )

ライセンス: Link先を確認
Farnaz H. Foomani, D. M. Anisuzzaman, Jeffrey Niezgoda, Jonathan Niezgoda, William Guns, Sandeep Gopalakrishnan, Zeyun Yu(参考訳) 創傷予防モデルは、患者の治療に追随する動機づけとなる創傷治癒時間を推定するだけでなく、臨床医が標準的な治療や補助療法を使うかどうかを判断し、臨床試験の設計を支援するのに役立つ。 しかし、患者の電子カルテ(EMR)から予後因子を収集することは、プライバシ、感度、機密性のために困難である。 本研究では, 特別な創傷治療施設において, 定期治療中に収集された極めて限られた情報を用いて, 合成創傷予後因子を生成できる時系列医療生成敵ネットワーク(GAN)を開発した。 生成した予後変数は、慢性創傷治癒軌跡の予測モデルの開発に使用される。 我々の新しい医用GANは, EMRの連続的特徴と分類的特徴の両方を生み出すことができる。 さらに,患者の週次追跡から収集したデータを考慮し,時間的情報をモデルに適用した。 条件付きトレーニング戦略は, 癒しや非癒しの観点から, 訓練の強化と分類データの生成に活用された。 tstr(test on the synthetic, train on the real, discriminative accuracy, and visualization)を用いて,提案モデルによる現実的emrデータ生成能力の評価を行った。 提案したGANが生成したサンプルを用いて,予後モデルのトレーニングを行い,実生活への応用を実証した。 得られたサンプルをトレーニング予測モデルに使用することにより,以前のEMR-GANと比較して6.66-10.01%の分類精度が向上した。 さらに,提案した予後分類器は,最初の3回の訪問,最初の2回の訪問,および最初の訪問からのデータを用いてネットワークをトレーニングする際の曲線(AUC) 0.975, 0.968, 0.849の領域を達成した。 これらの結果は,従来の予後モデルと比較して創傷治癒予測が有意に改善したことを示している。

Wound prognostic models not only provide an estimate of wound healing time to motivate patients to follow up their treatments but also can help clinicians to decide whether to use a standard care or adjuvant therapies and to assist them with designing clinical trials. However, collecting prognosis factors from Electronic Medical Records (EMR) of patients is challenging due to privacy, sensitivity, and confidentiality. In this study, we developed time series medical generative adversarial networks (GANs) to generate synthetic wound prognosis factors using very limited information collected during routine care in a specialized wound care facility. The generated prognosis variables are used in developing a predictive model for chronic wound healing trajectory. Our novel medical GAN can produce both continuous and categorical features from EMR. Moreover, we applied temporal information to our model by considering data collected from the weekly follow-ups of patients. Conditional training strategies were utilized to enhance training and generate classified data in terms of healing or non-healing. The ability of the proposed model to generate realistic EMR data was evaluated by TSTR (test on the synthetic, train on the real), discriminative accuracy, and visualization. We utilized samples generated by our proposed GAN in training a prognosis model to demonstrate its real-life application. Using the generated samples in training predictive models improved the classification accuracy by 6.66-10.01% compared to the previous EMR-GAN. Additionally, the suggested prognosis classifier has achieved the area under the curve (AUC) of 0.975, 0.968, and 0.849 when training the network using data from the first three visits, first two visits, and first visit, respectively. These results indicate a significant improvement in wound healing prediction compared to the previous prognosis models.
翻訳日:2021-05-05 13:06:32 公開日:2021-05-03
# 未測定条件下での個別処理規則の確率的学習

Proximal Learning for Individualized Treatment Regimes Under Unmeasured Confounding ( http://arxiv.org/abs/2105.01187v1 )

ライセンス: Link先を確認
Zhengling Qi, Rui Miao, Xiaoke Zhang(参考訳) データ駆動の個人的意思決定は、最近研究の関心が高まっている。 既存の手法の多くは、特に観測研究において、不測の埋没を前提としないという仮定に頼っている。 近年提案された近位因果推論に動機づけられ,未測定の共起の存在下で最適な個別化治療レジーム (itrs) を推定する近位学習手法を開発した。 特に,不確定な仮定を犯すリスクと意思決定における値関数の改善とのトレードオフを示す,異なるIRRのクラスに対するいくつかの識別結果を確立する。 これらの結果に基づいて,クラス内最適ITRの多種多様な制限付き分類に基づく探索手法を提案し,その理論的性質を検証した。 提案手法の魅力的な数値計算性能を,広範なシミュレーション研究と1つの実データ応用により実証した。

Data-driven individualized decision making has recently received increasing research interests. Most existing methods rely on the assumption of no unmeasured confounding, which unfortunately cannot be ensured in practice especially in observational studies. Motivated by the recent proposed proximal causal inference, we develop several proximal learning approaches to estimating optimal individualized treatment regimes (ITRs) in the presence of unmeasured confounding. In particular, we establish several identification results for different classes of ITRs, exhibiting the trade-off between the risk of making untestable assumptions and the value function improvement in decision making. Based on these results, we propose several classification-based approaches to finding a variety of restricted in-class optimal ITRs and develop their theoretical properties. The appealing numerical performance of our proposed methods is demonstrated via an extensive simulation study and one real data application.
翻訳日:2021-05-05 13:03:33 公開日:2021-05-03
# 胸部x線写真とディープラーニングを用いた肺総量の自動推定

Automated Estimation of Total Lung Volume using Chest Radiographs and Deep Learning ( http://arxiv.org/abs/2105.01181v1 )

ライセンス: Link先を確認
Ecem Sogancioglu, Keelin Murphy, Ernst Th. Scholten, Luuk H. Boulogne, Mathias Prokop, and Bram van Ginneken(参考訳) 肺総容積は重要な定量的バイオマーカーであり、肺疾患の評価に用いられる。 本研究では,胸部X線写真からの肺全容自動計測のための深層学習手法の性能について検討した。 7621 胸部ct 患者から胸部x線写真および胸部x線写真(cxr)を採取した。 同様に、肺機能検査(PFT)の結果からCXR928例が選択された。 基準肺容積はCTおよびPFTデータ上の肺分画から算出した。 このデータセットは、胸部X線写真から肺の総容積を予測するディープラーニングアーキテクチャのトレーニングに使用された。 実験は、CT由来ラベルとエラーの原因のみを用いたトレーニングの効果を示すために、複雑さを増す段階的に構築された。 肺の基準容積をPFTで測定した291CXR実験において,最適モデルについて検討した。 最適深層学習回帰モデルでは,前部と外側の胸部x線写真の両方を入力として,maeが408ml,mapeが8.1\%,pearsonのr = 0.92であった。 CT由来のラベルは事前学習に有用であったが,ネットワークをPFT由来のラベルで微調整することで最適性能が得られた。 今回我々は,最先端のディープラーニングソリューションが胸部x線写真から肺総量を正確に測定できることを初めて実証した。 提案モデルでは, 胸部x線撮影を定期的に実施する患者の経時的傾向を把握できるため, 通常の胸部x線撮影から肺総量を得ることができる。

Total lung volume is an important quantitative biomarker and is used for the assessment of restrictive lung diseases. In this study, we investigate the performance of several deep-learning approaches for automated measurement of total lung volume from chest radiographs. 7621 posteroanterior and lateral view chest radiographs (CXR) were collected from patients with chest CT available. Similarly, 928 CXR studies were chosen from patients with pulmonary function test (PFT) results. The reference total lung volume was calculated from lung segmentation on CT or PFT data, respectively. This dataset was used to train deep-learning architectures to predict total lung volume from chest radiographs. The experiments were constructed in a step-wise fashion with increasing complexity to demonstrate the effect of training with CT-derived labels only and the sources of error. The optimal models were tested on 291 CXR studies with reference lung volume obtained from PFT. The optimal deep-learning regression model showed an MAE of 408 ml and a MAPE of 8.1\% and Pearson's r = 0.92 using both frontal and lateral chest radiographs as input. CT-derived labels were useful for pre-training but the optimal performance was obtained by fine-tuning the network with PFT-derived labels. We demonstrate, for the first time, that state-of-the-art deep learning solutions can accurately measure total lung volume from plain chest radiographs. The proposed model can be used to obtain total lung volume from routinely acquired chest radiographs at no additional cost and could be a useful tool to identify trends over time in patients referred regularly for chest x-rays.
翻訳日:2021-05-05 13:02:47 公開日:2021-05-03
# EBIC.JL - Juliaにおける進化的ビクラスタリングアルゴリズムの効率的な実装

EBIC.JL -- an Efficient Implementation of Evolutionary Biclustering Algorithm in Julia ( http://arxiv.org/abs/2105.01196v1 )

ライセンス: Link先を確認
Pawe{\l} Renc, Patryk Orzechowski, Aleksander Byrski, Jaros{\l}aw W\k{a}s, and Jason H. Moore(参考訳) biclusteringは、バイオインフォマティクスにおける主な応用として、数値表データ内のローカルパターンを検索するデータマイニング手法である。 この手法は、がんのバイオマーカーの開発、疾患のサブタイプ同定、遺伝子と薬物の相互作用など、様々な領域で期待されている。 本稿では,データサイエンスのための並列化可能な現代プログラミング言語である Julia において,最も正確なビクラスタリングアルゴリズムの実装である EBIC.JL を紹介する。 新たなバージョンでは,既存のEBICと同等の精度を維持しつつ,ほとんどの問題に対してより高速に収束することを示す。 ハイレベルなプログラミング言語におけるこのオープンソースソフトウェアが、バイオインフォマティクスの有望な分野の研究を後押しし、ビッグデータのための新しいビクラスタリング手法の開発を迅速化することを願っている。

Biclustering is a data mining technique which searches for local patterns in numeric tabular data with main application in bioinformatics. This technique has shown promise in multiple areas, including development of biomarkers for cancer, disease subtype identification, or gene-drug interactions among others. In this paper we introduce EBIC.JL - an implementation of one of the most accurate biclustering algorithms in Julia, a modern highly parallelizable programming language for data science. We show that the new version maintains comparable accuracy to its predecessor EBIC while converging faster for the majority of the problems. We hope that this open source software in a high-level programming language will foster research in this promising field of bioinformatics and expedite development of new biclustering methods for big data.
翻訳日:2021-05-05 13:01:43 公開日:2021-05-03
# スカラー形容詞識別と多言語ランキング

Scalar Adjective Identification and Multilingual Ranking ( http://arxiv.org/abs/2105.01180v1 )

ライセンス: Link先を確認
Aina Gar\'i Soler and Marianna Apidianaki(参考訳) スカラー形容詞間の強度関係(例: nice < great < wonderful)は、自然言語の推論と常識推論に非常に関係している。 スカラー形容詞ランキングに関するこれまでの研究は、主に評価のためのデータセットが利用できるため、英語に焦点を当ててきた。 新しい言語におけるスカラー形容詞の研究を促進するために,新しい多言語データセットを導入する。 我々は、単言語および多言語文脈言語モデルを用いて、一連の実験を行い、このデータセットにパフォーマンスベースラインを設定する。 さらに、関係形容詞とスカラーを区別する能力を検証した英文スカラー形容詞識別のための新たな二分分類タスクを導入する。 本課題の今後の比較のために,文脈表現とレポートベースラインの結果を探索する。

The intensity relationship that holds between scalar adjectives (e.g., nice < great < wonderful) is highly relevant for natural language inference and common-sense reasoning. Previous research on scalar adjective ranking has focused on English, mainly due to the availability of datasets for evaluation. We introduce a new multilingual dataset in order to promote research on scalar adjectives in new languages. We perform a series of experiments and set performance baselines on this dataset, using monolingual and multilingual contextual language models. Additionally, we introduce a new binary classification task for English scalar adjective identification which examines the models' ability to distinguish scalar from relational adjectives. We probe contextualised representations and report baseline results for future comparison on this task.
翻訳日:2021-05-05 13:01:27 公開日:2021-05-03
# カードゲームAIのための評価関数の進化

Evolving Evaluation Functions for Collectible Card Game AI ( http://arxiv.org/abs/2105.01115v1 )

ライセンス: Link先を確認
Rados{\l}aw Miernik, Jakub Kowalski(参考訳) 本研究では,機能ベースのゲーム評価機能の進化において,ゲノム表現の選択とモデルテストに用いる相手の選択という2つの重要な側面について検討した。 我々は3つの表現を比較した。 1つはより単純でより限定的で、事前に定義されたゲーム特徴の線形結合に使用される重みのベクトルに基づいている。 二進木と二進木に基づく、さらに複雑な2つの木。 また,本テストでは,固定弱相手と対戦し,固定強相手と対戦し,前者から最高の個人と対戦する,シミュレーションに基づく機能として定義されたフィットネスの影響についても検討した。 テストベッドでは、最近普及したデジタル収集可能なカードゲームのドメインを選択しました。 私たちは、戦略カードゲームAIコンペティションで使用されるプログラミングゲーム、Regends of Code and Magicで実験をエンコードしました。 しかしながら、一般に述べられている問題は、我々の観察が他の領域でも適用できると確信している。

In this work, we presented a study regarding two important aspects of evolving feature-based game evaluation functions: the choice of genome representation and the choice of opponent used to test the model. We compared three representations. One simpler and more limited, based on a vector of weights that are used in a linear combination of predefined game features. And two more complex, based on binary and n-ary trees. On top of this test, we also investigated the influence of fitness defined as a simulation-based function that: plays against a fixed weak opponent, plays against a fixed strong opponent, and plays against the best individual from the previous population. For a testbed, we have chosen a recently popular domain of digital collectible card games. We encoded our experiments in a programming game, Legends of Code and Magic, used in Strategy Card Game AI Competition. However, as the problems stated are of general nature we are convinced that our observations are applicable in the other domains as well.
翻訳日:2021-05-05 13:00:45 公開日:2021-05-03
# sketches image analysis: lsh index と dnn inceptionv3 を用いた web 画像検索エンジン

Sketches image analysis: Web image search engine usingLSH index and DNN InceptionV3 ( http://arxiv.org/abs/2105.01147v1 )

ライセンス: Link先を確認
Alessio Schiavo, Filippo Minutella, Mattia Daole, Marsha Gomez Gomez(参考訳) 適切な近似類似性探索法を採用することは、特に大量のデータを扱う際に、高速で効率的なCBIRシステムの開発に必須の前提条件である。 本研究では,LSH(Locality Sensitive Hashing)インデックス上にWeb画像検索エンジンを実装し,より深い特徴を高速に類似性検索できるようにする。 具体的には,画像からの深い特徴抽出に転送学習を利用する。 まず、ImageNet Asfeatures extractorで事前トレーニングされたInceptionV3を採用し、次に、InceptionV3上に構築されたCNNを、データセットで微調整された畳み込みベースとして試しました。 前回の2つのケースでは,検索性能を微調整せずに比較するために,ourlsh インデックス実装で抽出された特徴をインデックス化する。このアプローチでは,2つの異なる lsh 実装を試す。 興味深いことに, 2進LSHを用いた場合, 平均平均精度でほぼ同じ値に達すると, 特徴の逐次スキャンを行い, LSH指数によるバイアスを回避することができる。 最後に,クラス毎のパフォーマンス分析クラスを,期待通り,両クラス間に強い正の相関関係を示すrecall対maphighlightingを用いて実施する。

The adoption of an appropriate approximate similarity search method is an essential prereq-uisite for developing a fast and efficient CBIR system, especially when dealing with large amount ofdata. In this study we implement a web image search engine on top of a Locality Sensitive Hashing(LSH) Index to allow fast similarity search on deep features. Specifically, we exploit transfer learningfor deep features extraction from images. Firstly, we adopt InceptionV3 pretrained on ImageNet asfeatures extractor, secondly, we try out several CNNs built on top of InceptionV3 as convolutionalbase fine-tuned on our dataset. In both of the previous cases we index the features extracted within ourLSH index implementation so as to compare the retrieval performances with and without fine-tuning.In our approach we try out two different LSH implementations: the first one working with real numberfeature vectors and the second one with the binary transposed version of those vectors. Interestingly,we obtain the best performances when using the binary LSH, reaching almost the same result, in termsof mean average precision, obtained by performing sequential scan of the features, thus avoiding thebias introduced by the LSH index. Lastly, we carry out a performance analysis class by class in terms ofrecall againstmAPhighlighting, as expected, a strong positive correlation between the two.
翻訳日:2021-05-05 12:59:56 公開日:2021-05-03
# メタデータ支援型Re-IDとトラジェクトリベースカメラリンクモデルを用いた車両のマルチターゲットマルチカメラ追跡

Multi-Target Multi-Camera Tracking of Vehicles using Metadata-Aided Re-ID and Trajectory-Based Camera Link Model ( http://arxiv.org/abs/2105.01213v1 )

ライセンス: Link先を確認
Hung-Min Hsu, Jiarui Cai, Yizhou Wang, Jenq-Neng Hwang, Kwang-Ju Kim(参考訳) 本稿では,メタデータ支援再識別(MA-ReID)と軌道ベースカメラリンクモデル(TCLM)に基づく車両のマルチターゲットマルチカメラトラッキング(MTMCT)のための新しいフレームワークを提案する。 ビデオシーケンスとそれに対応するフレーム・バイ・フレームの車両検出を条件として,提案したトラフィック対応シングルカメラトラッキング(TSCT)による単一カメラトラッキング(SCT)から分離されたトラックレット問題に対処する。 そして,TLMを自動構築した後,MA-ReID を用いて MTMCT を解く。 TCLMは、カメラトポロジカルな構成から生成され、空間的および時間的情報を取得し、ReIDの候補探索を低減し、MTMCTの性能を向上させる。 また、時間的注意モデルを用いて、各カメラからのトラジェクトリのより差別的な埋め込みを作成し、車載ReIDの堅牢な距離測定を行う。 さらに、MTMCTのメタデータ分類器を訓練して、時間的注意に基づく埋め込みと結合したメタデータ特徴を得る。 最後に、tlmと階層クラスタリングがグローバルid割り当てに適用される。 提案手法はcityflowデータセット上で評価され,idf176.77%となり,最先端mtmct法を上回った。

In this paper, we propose a novel framework for multi-target multi-camera tracking (MTMCT) of vehicles based on metadata-aided re-identification (MA-ReID) and the trajectory-based camera link model (TCLM). Given a video sequence and the corresponding frame-by-frame vehicle detections, we first address the isolated tracklets issue from single camera tracking (SCT) by the proposed traffic-aware single-camera tracking (TSCT). Then, after automatically constructing the TCLM, we solve MTMCT by the MA-ReID. The TCLM is generated from camera topological configuration to obtain the spatial and temporal information to improve the performance of MTMCT by reducing the candidate search of ReID. We also use the temporal attention model to create more discriminative embeddings of trajectories from each camera to achieve robust distance measures for vehicle ReID. Moreover, we train a metadata classifier for MTMCT to obtain the metadata feature, which is concatenated with the temporal attention based embeddings. Finally, the TCLM and hierarchical clustering are jointly applied for global ID assignment. The proposed method is evaluated on the CityFlow dataset, achieving IDF1 76.77%, which outperforms the state-of-the-art MTMCT methods.
翻訳日:2021-05-05 12:59:31 公開日:2021-05-03
# ソーシャル読者のモデリング:オンライン書評からのレセプションに対応する新しいツール

Modeling Social Readers: Novel Tools for Addressing Reception from Online Book Reviews ( http://arxiv.org/abs/2105.01150v1 )

ライセンス: Link先を確認
Pavan Holur, Shadi Shahsavari, Ehsan Ebrahimizadeh, Timothy R. Tangherlini, Vwani Roychowdhury(参考訳) 文学に対する読者の反応は、計算文学研究において注目されている。 ソーシャルメディアの台頭は、これらの応答のセグメントを捉える機会を提供し、データ駆動分析は、人々が「読む」方法に関する新たな重要な洞察を提供する。 人気文学のユーザーディスカッションを司るソーシャルメディアプラットフォームであるGoodreadsに関する個々の本について議論する投稿は「レビュー」と呼ばれ、プロットの要約、意見、引用、あるいはこれらを混ぜたものから成っている。 これらのレビューは読者によって書かれたので、計算的にモデル化することで、作品のプロットの要約、イベントの重要性の暗黙のランキング、メインキャラクターの読者の印象など、仕事に関する全体的な非プロフェッショナルな議論空間を見つけることができる。 我々は、この読者生成した共有物語モデルの表現を抽出するために、インターロック計算ツールのパイプラインを開発する。 5つの人気小説のレビューのコーパスを用いて、小説における主要ストーリーラインの読者の蒸留、キャラクターの相対的重要性の理解、そしてこれらのキャラクターに対する読者の様々な印象を見出した。 そこで我々は,無限語彙ネットワークの研究に3つの重要な貢献をしている: (i)メタアクターを含む自動生成物語ネットワーク, (ii) レビューから集約された部分軌跡に基づく事象のコンセンサスシーケンスを生成する新しいシーケンシングアルゴリズムREV2SEQ, (iii) 読者の意見のより細かい,非自明でマルチモーダルな洞察を提供する新しい「印象」アルゴリズムSENT2IMP。

Readers' responses to literature have received scant attention in computational literary studies. The rise of social media offers an opportunity to capture a segment of these responses while data-driven analysis of these responses can provide new critical insight into how people "read". Posts discussing an individual book on Goodreads, a social media platform that hosts user discussions of popular literature, are referred to as "reviews", and consist of plot summaries, opinions, quotes, or some mixture of these. Since these reviews are written by readers, computationally modeling them allows one to discover the overall non-professional discussion space about a work, including an aggregated summary of the work's plot, an implicit ranking of the importance of events, and the readers' impressions of main characters. We develop a pipeline of interlocking computational tools to extract a representation of this reader generated shared narrative model. Using a corpus of reviews of five popular novels, we discover the readers' distillation of the main storylines in a novel, their understanding of the relative importance of characters, as well as the readers' varying impressions of these characters. In so doing, we make three important contributions to the study of infinite vocabulary networks: (i) an automatically derived narrative network that includes meta-actants; (ii) a new sequencing algorithm, REV2SEQ, that generates a consensus sequence of events based on partial trajectories aggregated from the reviews; and (iii) a new "impressions" algorithm, SENT2IMP, that provides finer, non-trivial and multi-modal insight into readers' opinions of characters.
翻訳日:2021-05-05 12:54:57 公開日:2021-05-03
# 新型コロナウイルス感染地域社会におけるコミュニケーションのテキスト分析

Textual Analysis of Communications in COVID-19 Infected Community on Social Media ( http://arxiv.org/abs/2105.01189v1 )

ライセンス: Link先を確認
Yuhan Liu, Yuhan Gao, Zhifan Nan, Long Chen(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、人々はソーシャルメディアでパンデミックに関連する話題について議論し始めた。 subreddit \textit{r/COVID19 positive} では、ポジティブな検査結果を得た人々の経験、感染したと思われる人々の物語、パンデミックと病気に関する質問など、多くのトピックが議論または共有されている。 本研究では,言語学的観点から,サブレディットに関する議論の性質について理解しようと試みる。 言語特性の差異(例)を見出した。 心理的、感情的、推論) トピックのカテゴリが3つあります。 また,SOTA事前学習言語モデルを用いて,投稿を分類した。 このような分類モデルは、ソーシャルメディアにおけるパンデミック関連の研究に利用できる。

During the COVID-19 pandemic, people started to discuss about pandemic-related topics on social media. On subreddit \textit{r/COVID19positive}, a number of topics are discussed or being shared, including experience of those who got a positive test result, stories of those who presumably got infected, and questions asked regarding the pandemic and the disease. In this study, we try to understand, from a linguistic perspective, the nature of discussions on the subreddit. We found differences in linguistic characteristics (e.g. psychological, emotional and reasoning) across three different categories of topics. We also classified posts into the different categories using SOTA pre-trained language models. Such classification model can be used for pandemic-related research on social media.
翻訳日:2021-05-05 12:54:25 公開日:2021-05-03
# laborecommender: 実験室テストにpythonベースのレコメンダシステムを使うのは簡単

LaboRecommender: A crazy-easy to use Python-based recommender system for laboratory tests ( http://arxiv.org/abs/2105.01209v1 )

ライセンス: Link先を確認
Fabi\'an Villena(参考訳) 臨床検査は、診断の疑いの確認や医学的判断に影響を与えるため、臨床意思決定において重要な役割を果たす。 実験室技術の急速な進歩により,我々の時代の医師が利用できる実験室の数は急速に増加している。 この拡大する多くの要素の中で正しい望ましいテストを見つけるためには、健康情報システムは強力な検索エンジンを提供しなければならず、検査官は検査の袋を順番に選ぶために、検査検査の正確な名前を覚えなければならない。 リコメンダシステムは、ユーザの振る舞いを学習した後、適切なアイテムをユーザに提案するプラットフォームである。 類似の袋を近隣のアルゴリズムでクラスタリングし, 互いに類似した実験袋のテストの推薦を行う, 提案システムをモデル化するために, 近隣のコラボレーティブフィルタリング法が用いられた。 本論文で開発したレコメンデータシステムは平均精度測定値で95.54 %を達成した。 この論文で提案したアルゴリズムを実装するために, LaboRecommender という完全ドキュメントの Python パッケージを開発した。

Laboratory tests play a major role in clinical decision making because they are essential for the confirmation of diagnostics suspicions and influence medical decisions. The number of different laboratory tests available to physicians in our age has been expanding very rapidly due to the rapid advances in laboratory technology. To find the correct desired tests within this expanding plethora of elements, the Health Information System must provide a powerful search engine and the practitioner need to remember the exact name of the laboratory test to correctly select the bag of tests to order. Recommender systems are platforms which suggest appropriate items to a user after learning the users' behaviour. A neighbourhood-based collaborative filtering method was used to model the recommender system, where similar bags, clustered using nearest neighbours algorithm, are used to make recommendations of tests for each other similar bag of laboratory tests. The recommender system developed in this paper achieved 95.54 % in the mean average precision metric. A fully documented Python package named LaboRecommender was developed to implement the algorithm proposed in this paper
翻訳日:2021-05-05 12:53:35 公開日:2021-05-03
# 非実験データから何百万ものランダムな治療が原因を明らかにすることができるのか?

What can the millions of random treatments in nonexperimental data reveal about causes? ( http://arxiv.org/abs/2105.01152v1 )

ライセンス: Link先を確認
Andre F. Ribeiro, Frank Neffke and Ricardo Hausmann(参考訳) 非実験データから因果効果を推定する新しい手法を提案する。 それぞれのサンプル単位は、まず、単位間の因子の確率的な「処理」差と、結果の差である効果に関連付けられる。 観察データにおける因果効果をより正確に推定するためにこれらのペアを組み合わせることが提案され、治療の組合せ特性とそれらの効果の正確さと偏りを結びつける統計モデルを提供した。 この記事ではそのようなモデルとベイズ的アプローチを紹介し、通常、実験的でないデータで利用できる$O(n^2)$ペアの観測を組み合わせている。 これはまた、実験的でないデータセットを理想的な因子的実験設計の不完全な、あるいはノイズの多いバージョンとして解釈する。 This approach to causal effect estimation has several advantages: (1) it expands the number of observations, converting thousands of individuals into millions of observational treatments; (2) starting with treatments closest to the experimental ideal, it identifies noncausal variables that can be ignored in the future, making estimation easier in each subsequent iteration while departing minimally from experiment-like conditions; (3) it recovers individual causal effects in heterogeneous populations. シミュレーションの手法と,ランダムフィールド実験から効果が判明した集中的なプログラムであるnational supported work (nsw) プログラムの評価を行った。 提案手法は、共通のNSWサンプルの因果関係を回復し、任意のサブポピュレーションや、全国のプログラムデータ全体の大局的なスーパーサンプル、統計、計量、機械学習推定器を全て上回っていることを実証する。

We propose a new method to estimate causal effects from nonexperimental data. Each pair of sample units is first associated with a stochastic 'treatment' - differences in factors between units - and an effect - a resultant outcome difference. It is then proposed that all such pairs can be combined to provide more accurate estimates of causal effects in observational data, provided a statistical model connecting combinatorial properties of treatments to the accuracy and unbiasedness of their effects. The article introduces one such model and a Bayesian approach to combine the $O(n^2)$ pairwise observations typically available in nonexperimnetal data. This also leads to an interpretation of nonexperimental datasets as incomplete, or noisy, versions of ideal factorial experimental designs. This approach to causal effect estimation has several advantages: (1) it expands the number of observations, converting thousands of individuals into millions of observational treatments; (2) starting with treatments closest to the experimental ideal, it identifies noncausal variables that can be ignored in the future, making estimation easier in each subsequent iteration while departing minimally from experiment-like conditions; (3) it recovers individual causal effects in heterogeneous populations. We evaluate the method in simulations and the National Supported Work (NSW) program, an intensively studied program whose effects are known from randomized field experiments. We demonstrate that the proposed approach recovers causal effects in common NSW samples, as well as in arbitrary subpopulations and an order-of-magnitude larger supersample with the entire national program data, outperforming Statistical, Econometrics and Machine Learning estimators in all cases...
翻訳日:2021-05-05 12:51:15 公開日:2021-05-03
# 信頼認識計画:人間とロボットの縦断的相互作用における信頼進化のモデリング

Trust-Aware Planning: Modeling Trust Evolution in Longitudinal Human-Robot Interaction ( http://arxiv.org/abs/2105.01220v1 )

ライセンス: Link先を確認
Zahra Zahedi, Mudit Verma, Sarath Sreedharan, Subbarao Kambhampati(参考訳) チームメンバ間の信頼は、成功する協力には不可欠です。 したがって、仲間のチームメンバの信頼の獲得と維持は、タスクへの参加を成功させるだけでなく、チームが目標を達成するために、すべてのメンバにとって中心的な責任となる。 信頼管理の問題は、人間とロボットが目の前のタスクについて異なるモデルを持ち、現在の行動方針について異なる期待を抱いており、ロボットにコストのかかる行動に集中させるような人間とロボットの混成チームにおいて特に困難である。 本研究では,人間とロボットの相互作用における信頼の獲得と調整のための計算モデルを提案する。 我々のモデルでは、ロボットは人間の信頼とロボットからの期待をその計画プロセスに統合し、相互作用の地平線に対する信頼を構築し維持する。 必要なレベルの信頼を確立することで、ロボットは、人間の監督の監視を気にせずに明示的な説明や説明可能な行動を誘発し、必ずしも理解できない行動を止めることで、チームのゴールを最大化することに集中することができる。 私たちは、個々の計画タスクよりも、信頼レベルに関する推論をメタ推論プロセスとしてモデル化します。 さらに、人間の被験者実験を通じてモデルを検証する。

Trust between team members is an essential requirement for any successful cooperation. Thus, engendering and maintaining the fellow team members' trust becomes a central responsibility for any member trying to not only successfully participate in the task but to ensure the team achieves its goals. The problem of trust management is particularly challenging in mixed human-robot teams where the human and the robot may have different models about the task at hand and thus may have different expectations regarding the current course of action and forcing the robot to focus on the costly explicable behavior. We propose a computational model for capturing and modulating trust in such longitudinal human-robot interaction, where the human adopts a supervisory role. In our model, the robot integrates human's trust and their expectations from the robot into its planning process to build and maintain trust over the interaction horizon. By establishing the required level of trust, the robot can focus on maximizing the team goal by eschewing explicit explanatory or explicable behavior without worrying about the human supervisor monitoring and intervening to stop behaviors they may not necessarily understand. We model this reasoning about trust levels as a meta reasoning process over individual planning tasks. We additionally validate our model through a human subject experiment.
翻訳日:2021-05-05 12:50:50 公開日:2021-05-03
# 注意に基づく推論アーキテクチャモデリングのためのイベントカメラシミュレータ設計

Event Camera Simulator Design for Modeling Attention-based Inference Architectures ( http://arxiv.org/abs/2105.01203v1 )

ライセンス: Link先を確認
Md Jubaer Hossain Pantho, Joel Mandebi Mbongue, Pankaj Bhowmik, Christophe Bobda(参考訳) 近年,画像センサのレベルでますます多くの計算を統合する手法の実現への関心が高まっている。 上昇する傾向は、センサ内でCNN計算を直接促進できる新しいイベントカメラの開発に対する研究の関心が高まっている。 しかし、イベントベースのカメラは一般には利用できないため、ハイレベルモデルやアルゴリズムの性能調査は制限されている。 本稿では,ハードウェア設計プロトタイピング,パラメータ最適化,注意に基づく革新的なアルゴリズム開発,ベンチマークを行うための強力なツールとなるイベントカメラシミュレータを提案する。 提案するシミュレータは,画像フレーム内の関連領域を特定する分散計算モデルを実装している。 シミュレータの関連計算モデルはモジュールの集合として実現され,並列に計算を行う。 分散計算モデルは構成可能であり、設計空間探索に非常に有用である。 シミュレータのレンダリングエンジンは、新しいイベントが発生した場合にのみフレーム領域をサンプリングする。 シミュレータは、物理カメラと同様の画像処理パイプラインを密にエミュレートする。 実験の結果,シミュレータは低オーバーヘッドでイベントビジョンを効果的にエミュレートできることがわかった。

In recent years, there has been a growing interest in realizing methodologies to integrate more and more computation at the level of the image sensor. The rising trend has seen an increased research interest in developing novel event cameras that can facilitate CNN computation directly in the sensor. However, event-based cameras are not generally available in the market, limiting performance exploration on high-level models and algorithms. This paper presents an event camera simulator that can be a potent tool for hardware design prototyping, parameter optimization, attention-based innovative algorithm development, and benchmarking. The proposed simulator implements a distributed computation model to identify relevant regions in an image frame. Our simulator's relevance computation model is realized as a collection of modules and performs computations in parallel. The distributed computation model is configurable, making it highly useful for design space exploration. The Rendering engine of the simulator samples frame-regions only when there is a new event. The simulator closely emulates an image processing pipeline similar to that of physical cameras. Our experimental results show that the simulator can effectively emulate event vision with low overheads.
翻訳日:2021-05-05 12:48:35 公開日:2021-05-03
# 局所的レベルセット損失を伴う弱改善ユニバーサル病変分割

Weakly-Supervised Universal Lesion Segmentation with Regional Level Set Loss ( http://arxiv.org/abs/2105.01218v1 )

ライセンス: Link先を確認
Youbao Tang, Jinzheng Cai, Ke Yan, Lingyun Huang, Guotong Xie, Jing Xiao, Jingjing Lu, Gigin Lin, and Le Lu(参考訳) 全身ctスキャンから臨床上有意な病変を高精度に分画することは,universal lesion segmentation (uls) と呼ばれる精密腫瘍イメージングにおいて重要な課題である。 手動アノテーションは現在の臨床実践であり、非常に時間がかかり、腫瘍の縦断的評価に矛盾する。 自動セグメンテーションモデルを効果的に訓練することは望ましいが、多数のピクセル単位のラベル付きデータに大きく依存する。 既存の弱い教師付きセグメンテーションアプローチは、しばしば病変境界付近の領域に苦しむ。 本稿では,HRNet(High-Resolution Network, High-Resolution Network, High-Resolution Network, AHRNet)をベースとしたアテンション強化モデルを構築し,病変境界線を最適化するための地域レベルセット(RLS)損失を提案する。 ahrnetは、デコーダ、デュアルアテンション、スケールアテンション機構を含む高度な高分解能のディープイメージ機能を提供しており、正確な病変のセグメンテーションの実行に不可欠である。 RLSはモデルを確実かつ効果的に、弱い教師付きで最適化することができ、セグメント化を病変境界に近づける。 大規模なDeepLesionデータセットとホールドアウトテストセットにおいて,本手法が最高の性能を発揮することを示す。

Accurately segmenting a variety of clinically significant lesions from whole body computed tomography (CT) scans is a critical task on precision oncology imaging, denoted as universal lesion segmentation (ULS). Manual annotation is the current clinical practice, being highly time-consuming and inconsistent on tumor's longitudinal assessment. Effectively training an automatic segmentation model is desirable but relies heavily on a large number of pixel-wise labelled data. Existing weakly-supervised segmentation approaches often struggle with regions nearby the lesion boundaries. In this paper, we present a novel weakly-supervised universal lesion segmentation method by building an attention enhanced model based on the High-Resolution Network (HRNet), named AHRNet, and propose a regional level set (RLS) loss for optimizing lesion boundary delineation. AHRNet provides advanced high-resolution deep image features by involving a decoder, dual-attention and scale attention mechanisms, which are crucial to performing accurate lesion segmentation. RLS can optimize the model reliably and effectively in a weakly-supervised fashion, forcing the segmentation close to lesion boundary. Extensive experimental results demonstrate that our method achieves the best performance on the publicly large-scale DeepLesion dataset and a hold-out test set.
翻訳日:2021-05-05 12:48:19 公開日:2021-05-03
# マルコフ個体群モデルの定常分布に対する抽象化誘導トレンシング

Abstraction-Guided Truncations for Stationary Distributions of Markov Population Models ( http://arxiv.org/abs/2105.01536v1 )

ライセンス: Link先を確認
Michael Backenk\"ohler, Luca Bortolussi, Gerrit Gro{\ss}mann, Verena Wolf(参考訳) マルコフ集団モデルの長期的挙動を理解するために、定常分布の計算はしばしば重要な部分である。 グリッド構造における状態のアグリゲーションである状態空間ラッピングスキームを用いるトラニケーションに基づく近似を提案する。 得られた近似定常分布は、状態空間の無関係な部分を反復的に洗練し、切断するために用いられる。 このようにして、このアルゴリズムは定常挙動に合わせた良好な有限状態射影を学習する。 複雑な定常挙動を持つ非線形問題に対して,本手法の適用性を示す。

To understand the long-run behavior of Markov population models, the computation of the stationary distribution is often a crucial part. We propose a truncation-based approximation that employs a state-space lumping scheme, aggregating states in a grid structure. The resulting approximate stationary distribution is used to iteratively refine relevant and truncate irrelevant parts of the state-space. This way, the algorithm learns a well-justified finite-state projection tailored to the stationary behavior. We demonstrate the method's applicability to a wide range of non-linear problems with complex stationary behaviors.
翻訳日:2021-05-05 12:46:50 公開日:2021-05-03
# AI支援超解像宇宙学シミュレーションII:ハロ部分構造,速度,高次統計

AI-assisted super-resolution cosmological simulations II: Halo substructures, velocities and higher order statistics ( http://arxiv.org/abs/2105.01016v1 )

ライセンス: Link先を確認
Yueying Ni, Yin Li, Patrick Lachance, Rupert A. C. Croft, Tiziana Di Matteo, Simeon Bird, Yu Feng(参考訳) 本研究では,最近開発された超高分解能(SR)モデルの能力を拡張し,計算コストの低い低分解能(LR)宇宙論的N体シミュレーションから全位相空間の物質分布を高分解能(HR)で実現した。 SRモデルは512倍のトレーサー粒子を生成し、複雑な構造形成過程が起こる深い非線形状態に拡張することで、シミュレーションの解決を強化する。 箱サイズ100mpc/hの10実験シミュレーションでsrモデルをデプロイしてsrモデルを検証し,赤方偏移空間における物質パワースペクトル,バイスペクトル,および2次元パワースペクトルについて検討した。 生成したSR場は真のHR結果と一致し、k ~ 10 h/Mpc のスケールとなる。 また、暗黒物質ハロとそのサブ構造を同定・検査する。 我々のSRモデルは、LR入力では解決できず、実際のHR結果と統計的によく一致しない、視覚的に真の小型構造を生成する。 SRモデルは、実空間と赤方偏移空間におけるハロの占有分布、および対流速度分布に満足に作用し、HR結果と同等な散乱とを一致させ、モックハロカタログを作成する可能性を示す。 sr技術は、大きな宇宙ボリュームで小さな銀河形成物理学をモデル化するための強力で有望なツールである。

In this work, we expand and test the capabilities of our recently developed super-resolution (SR) model to generate high-resolution (HR) realizations of the full phase-space matter distribution, including both displacement and velocity, from computationally cheap low-resolution (LR) cosmological N-body simulations. The SR model enhances the simulation resolution by generating 512 times more tracer particles, extending into the deeply non-linear regime where complex structure formation processes take place. We validate the SR model by deploying the model in 10 test simulations of box size 100 Mpc/h, and examine the matter power spectra, bispectra and 2D power spectra in redshift space. We find the generated SR field matches the true HR result at percent level down to scales of k ~ 10 h/Mpc. We also identify and inspect dark matter halos and their substructures. Our SR model generate visually authentic small-scale structures, that cannot be resolved by the LR input, and are in good statistical agreement with the real HR results. The SR model performs satisfactorily on the halo occupation distribution, halo correlations in both real and redshift space, and the pairwise velocity distribution, matching the HR results with comparable scatter, thus demonstrating its potential in making mock halo catalogs. The SR technique can be a powerful and promising tool for modelling small-scale galaxy formation physics in large cosmological volumes.
翻訳日:2021-05-05 12:46:41 公開日:2021-05-03
# イベントシーケンスデータの時系列解析によるプロセスモデル予測

Process Model Forecasting Using Time Series Analysis of Event Sequence Data ( http://arxiv.org/abs/2105.01092v1 )

ライセンス: Link先を確認
Johannes De Smedt, Anton Yeshchenko, Artem Polyvyanyy, Jochen De Weerdt, Jan Mendling(参考訳) プロセス分析は、個々のプロセスインスタンスまたは全体プロセスモデルに対する予測に焦点を当てた分野である。 事例レベルでは、様々な新しいテクニックが最近開発され、次の活動、残り時間、結果予測に対処している。 モデルレベルでは、注目すべき空白があります。 このギャップを埋めるのはこの論文の野心である。 この目的のために,過去のイベントデータからプロセスモデル全体を予測する手法を開発した。 予測されたモデルは、プロセス全体の将来の可能性を表すウィル・ベ・プロセスモデルである。 このような予測は、ドリフトと新興ボトルネックの結果を調べるのに役立つ。 本手法は,複数の時系列としてイベントデータの表現に基づいて,プロセスモデルの振る舞い的側面の進化を捉え,対応する予測手法を適用する。 本実装は,実世界のイベントログデータに対する手法の精度を示す。

Process analytics is the field focusing on predictions for individual process instances or overall process models. At the instance level, various novel techniques have been recently devised, tackling next activity, remaining time, and outcome prediction. At the model level, there is a notable void. It is the ambition of this paper to fill this gap. To this end, we develop a technique to forecast the entire process model from historical event data. A forecasted model is a will-be process model representing a probable future state of the overall process. Such a forecast helps to investigate the consequences of drift and emerging bottlenecks. Our technique builds on a representation of event data as multiple time series, each capturing the evolution of a behavioural aspect of the process model, such that corresponding forecasting techniques can be applied. Our implementation demonstrates the accuracy of our technique on real-world event log data.
翻訳日:2021-05-05 12:45:52 公開日:2021-05-03
# ゲノミクスデータを用いた治療課題のための機械学習応用

Machine Learning Applications for Therapeutic Tasks with Genomics Data ( http://arxiv.org/abs/2105.01171v1 )

ライセンス: Link先を確認
Kexin Huang, Cao Xiao, Lucas M. Glass, Cathy W. Critchlow, Greg Gibson, Jimeng Sun(参考訳) ゲノミクスや他の生物医学データの可用性の高まりにより、様々な治療的発見と開発タスクのために多くの機械学習アプローチが提案されている。 本稿では,治療発展のレンズを通して,ゲノム学の機械学習応用に関する文献を概観する。 ゲノム,化合物,タンパク質,電子健康記録(EHR),細胞画像,臨床テキストの相互作用について検討した。 我々は、治療パイプライン全体にわたるゲノム学応用における22の機械学習を特定し、新規ターゲットの発見、パーソナライズドメディカルな医療、遺伝子編集ツールの開発、臨床治験、市場後の研究までを含む。 また、この分野における7つの重要な課題を、拡大と影響の機会として指摘します。 本調査は, 機械学習, ゲノム学, 治療開発における最近の研究を概観する。

Thanks to the increasing availability of genomics and other biomedical data, many machine learning approaches have been proposed for a wide range of therapeutic discovery and development tasks. In this survey, we review the literature on machine learning applications for genomics through the lens of therapeutic development. We investigate the interplay among genomics, compounds, proteins, electronic health records (EHR), cellular images, and clinical texts. We identify twenty-two machine learning in genomics applications across the entire therapeutics pipeline, from discovering novel targets, personalized medicine, developing gene-editing tools all the way to clinical trials and post-market studies. We also pinpoint seven important challenges in this field with opportunities for expansion and impact. This survey overviews recent research at the intersection of machine learning, genomics, and therapeutic development.
翻訳日:2021-05-05 12:44:09 公開日:2021-05-03
# (参考訳) ロバストなサンプル重み付けによるターゲット集団に対する個別化治療ルール学習

Robust Sample Weighting to Facilitate Individualized Treatment Rule Learning for a Target Population ( http://arxiv.org/abs/2105.00581v1 )

ライセンス: CC BY 4.0
Rui Chen, Jared D. Huling, Guanhua Chen, Menggang Yu(参考訳) 個別化治療規則(ITR)の学習は、精密医療において重要なトピックである。 現在の文献は主に単一源集団からITRを誘導することに焦点を当てている。 対象個体群と対象個体群とが異なる場合の観測データ設定について考察する。 両方の個体群から対象共変量体が利用できると仮定するが、治療と結果データは源群からのみ利用可能である。 ソースとターゲットの個体数の違いの調整は、ターゲットの個体数のITRの改善につながる可能性があるが、ITR推定のばらつきを大幅に増大させる可能性がある。 このジレンマに対処するため,重み付けフレームワークを開発した。これは多量の共変量シフト調整により,所定の対象集団に対してITRを調整し,高い可変性を保護することを目的としている。 提案手法は,カーネルヒルベルト空間を再現した非パラメトリック関数クラスに対する共変量バランスを求め,重みに依存する多くのIRR学習法を改善することができる。 提案手法は,重要度重みといわゆる重重なり重みを2つの極端なケースとして包含し,その間のバイアス分散トレードオフを改善できることを示す。 数値的な例は,本手法を用いることで,他の重み付け法と比較して,ターゲット個体数のITR推定を大幅に改善できることを示している。

Learning individualized treatment rules (ITRs) is an important topic in precision medicine. Current literature mainly focuses on deriving ITRs from a single source population. We consider the observational data setting when the source population differs from a target population of interest. We assume subject covariates are available from both populations, but treatment and outcome data are only available from the source population. Although adjusting for differences between source and target populations can potentially lead to an improved ITR for the target population, it can substantially increase the variability in ITR estimation. To address this dilemma, we develop a weighting framework that aims to tailor an ITR for a given target population and protect against high variability due to superfluous covariate shift adjustments. Our method seeks covariate balance over a nonparametric function class characterized by a reproducing kernel Hilbert space and can improve many ITR learning methods that rely on weights. We show that the proposed method encompasses importance weights and the so-called overlap weights as two extreme cases, allowing for a better bias-variance trade-off in between. Numerical examples demonstrate that the use of our weighting method can greatly improve ITR estimation for the target population compared with other weighting methods.
翻訳日:2021-05-04 23:08:37 公開日:2021-05-03
# (参考訳) クロスインスティテュート脳出血検出のための雑音学習

Noisy Student learning for cross-institution brain hemorrhage detection ( http://arxiv.org/abs/2105.00582v1 )

ライセンス: CC BY 4.0
Emily Lin, Weicheng Kuo, Esther Yuh(参考訳) CT(Computed tomography)は、急性脳卒中や外傷性脳損傷などの神経疾患の診断に用いられる画像モダリティである。 深層学習の進歩は、頭部CTで出血を検出・分節するモデルにつながった。そのような教師付き完全畳み込みネットワーク(FCN)の1つであるPatchFCNは、最近、脳内出血をサンプルデータで専門家レベルで検出した。 しかし、トレーニング領域外の類似した精度のポテンシャルは、外部機関からのピクセルラベルデータの必要性によって妨げられている。 また、最近では、セミ教師付き技術であるノイズ学習(NS)が、フル教師付き学習パラダイムからセミ教師付き学習パラダイムに移行することで、ImageNet上で最先端のパフォーマンスを実証している。 我々はPatchFCNとNoisy Studentsのアプローチを併用し,半教師あり学習を頭蓋内出血セグメンテーションタスクに拡張した。 驚いたことに、nsモデルのパフォーマンスは、同じデータ上のイメージレベルラベルでトレーニングされた完全に教師付きoracleモデルを上回る。 ラベル付きデータセットでトレーニングされた別の教師付きモデルとの比較も可能で、nsモデルのトレーニングに使用されたものより600倍大きい。 本研究は,頭部ct検出・分節化タスクにおける半教師あり学習の有効性を初めて実証した。

Computed tomography (CT) is the imaging modality used in the diagnosis of neurological emergencies, including acute stroke and traumatic brain injury. Advances in deep learning have led to models that can detect and segment hemorrhage on head CT. PatchFCN, one such supervised fully convolutional network (FCN), recently demonstrated expert-level detection of intracranial hemorrhage on in-sample data. However, its potential for similar accuracy outside the training domain is hindered by its need for pixel-labeled data from outside institutions. Also recently, a semi-supervised technique, Noisy Student (NS) learning, demonstrated state-of-the-art performance on ImageNet by moving from a fully-supervised to a semi-supervised learning paradigm. We combine the PatchFCN and Noisy Student approaches, extending semi-supervised learning to an intracranial hemorrhage segmentation task. Surprisingly, the NS model performance surpasses that of a fully-supervised oracle model trained with image-level labels on the same data. It also performs comparably to another recently reported supervised model trained on a labeled dataset 600x larger than that used to train the NS model. To our knowledge, we are the first to demonstrate the effectiveness of semi-supervised learning on a head CT detection and segmentation task.
翻訳日:2021-05-04 23:07:22 公開日:2021-05-03
# (参考訳) OCTOPUS:分散学習におけるパフォーマンスと生産性の向上

OCTOPUS: Overcoming Performance andPrivatization Bottlenecks in Distributed Learning ( http://arxiv.org/abs/2105.00602v1 )

ライセンス: CC BY 4.0
Shuo Wang, Surya Nepal, Kristen Moore, Marthie Grobler, Carsten Rudolph, Alsharif Abuadbba(参考訳) 携帯電話などの分散デバイスからデータを収集するデータウェアハウスの多様性と量により、機械学習アルゴリズムの成功と堅牢性を高めることができる。 フェデレーション学習(federated learning)は、分散参加者がローカルにデータを保持しながら、共通共有モデルの学習を可能にする。 しかし、分散データソースの不均一性とグローバルデータへのアクセスの欠如により、高価な通信や制限にも直面している。 本稿では,複数のダウンストリームタスク(例えば分類器)を動的に更新された分散データソースから学習し,効率よく局所的な民営化を実現する,実践的な分散学習シナリオについて検討する。 本稿では,グローバルデータを活用しつつ,暗号化や摂動による付加的なコストを伴わずにローカルデータの民営化を実現する,潜在圧縮による通信オーバーヘッドに対処するための新しい分散学習方式を提案する。 本手法は,(1)ノード間の通信オーバーヘッドに対処するために,各ノードのローカルデータの潜在空間圧縮表現特徴を情報的特徴エンコーディング,抽出,伝達する,(2)各ノードから収集された符号化コードを用いてサーバに集中したダウンストリームタスクを処理および記憶オーバーヘッドに割り当てる。 さらに、局所データの機密成分の民営化に対処するために、ゆがみ戦略を適用する。 画像と音声のデータセットに関する広範な実験が行われている。 その結果、コンパクトな潜在表現上の下流タスクは、局所データの民営化を伴う集中学習に匹敵する精度を達成できることを示した。

The diversity and quantity of the data warehousing, gathering data from distributed devices such as mobile phones, can enhance machine learning algorithms' success and robustness. Federated learning enables distributed participants to collaboratively learn a commonly-shared model while holding data locally. However, it is also faced with expensive communication and limitations due to the heterogeneity of distributed data sources and lack of access to global data. In this paper, we investigate a practical distributed learning scenario where multiple downstream tasks (e.g., classifiers) could be learned from dynamically-updated and non-iid distributed data sources, efficiently and providing local privatization. We introduce a new distributed learning scheme to address communication overhead via latent compression, leveraging global data while providing local privatization of local data without additional cost due to encryption or perturbation. This scheme divides the learning into (1) informative feature encoding, extracting and transmitting the latent space compressed representation features of local data at each node to address communication overhead; (2) downstream tasks centralized at the server using the encoded codes gathered from each node to address computing and storage overhead. Besides, a disentanglement strategy is applied to address the privatization of sensitive components of local data. Extensive experiments are conducted on image and speech datasets. The results demonstrate that downstream tasks on the compact latent representations can achieve comparable accuracy to centralized learning with the privatization of local data.
翻訳日:2021-05-04 22:56:32 公開日:2021-05-03
# (参考訳) 神経知識追跡のための一貫性と単調性正規化

Consistency and Monotonicity Regularization for Neural Knowledge Tracing ( http://arxiv.org/abs/2105.00607v1 )

ライセンス: CC BY 4.0
Seewoo Lee, Youngduck Choi, Juneyoung Park, Byungsoo Kim and Jinwoo Shin(参考訳) 人間の知識獲得を追跡する知識追跡(KT)は、教育におけるオンライン学習とAIの中心的なコンポーネントである。 本稿では,KTモデルの一般化能力を改善するための,単純かつ効果的な戦略を提案する。本論文では,新しいデータ拡張,代用,挿入,削除の3種類の方法と,モデルが生成および拡張シーケンスに対する予測に対して一定の整合性あるいは単調性バイアスを課す正則化損失を提案する。 さまざまなKTベンチマークに対する大規模な実験により、我々の正規化スキームは、DKTモデルとASSISTmentsChallデータセットの下で3つの広く使用されているニューラルネットワークと4つの公開ベンチマークの下で、モデルパフォーマンスを継続的に改善している。

Knowledge Tracing (KT), tracking a human's knowledge acquisition, is a central component in online learning and AI in Education. In this paper, we present a simple, yet effective strategy to improve the generalization ability of KT models: we propose three types of novel data augmentation, coined replacement, insertion, and deletion, along with corresponding regularization losses that impose certain consistency or monotonicity biases on the model's predictions for the original and augmented sequence. Extensive experiments on various KT benchmarks show that our regularization scheme consistently improves the model performances, under 3 widely-used neural networks and 4 public benchmarks, e.g., it yields 6.3% improvement in AUC under the DKT model and the ASSISTmentsChall dataset.
翻訳日:2021-05-04 22:35:58 公開日:2021-05-03
# (参考訳) optorch: リソース制限環境に最適化されたディープラーニングアーキテクチャ

OpTorch: Optimized deep learning architectures for resource limited environments ( http://arxiv.org/abs/2105.00619v1 )

ライセンス: CC BY 4.0
Salman Ahmed, Hammad Naveed(参考訳) ディープラーニングアルゴリズムは多くのブレークスルーを行い、実生活に様々な応用がある。 ディープラーニングパイプラインのデータと複雑性が増加するにつれて、計算リソースはボトルネックになる。 本稿では,時間と記憶を含む学習の複数の側面において,最適化されたディープラーニングパイプラインを提案する。 OpTorchは、ニューラルネットワークトレーニングの既存の実装の弱点を克服するために設計された機械学習ライブラリである。 OpTorchは、限られた計算リソースで複雑なニューラルネットワークをトレーニングする機能を提供する。 OpTorchは、Cifar-10とCifar-100データセットの既存のライブラリと同じ精度で、メモリ使用量を約50%削減した。 ディープラーニングパイプラインにおけるメモリ使用量に対する重みの影響についても検討する。 実験では、並列符号化復号とシーケンシャルチェックポイントは、既存のパイプラインと同様の精度を維持しながら、メモリと時間使用量を大幅に改善する。 OpTorch python パッケージは \url{https://github.com/cbrl-nuces/optorch で利用可能である。

Deep learning algorithms have made many breakthroughs and have various applications in real life. Computational resources become a bottleneck as the data and complexity of the deep learning pipeline increases. In this paper, we propose optimized deep learning pipelines in multiple aspects of training including time and memory. OpTorch is a machine learning library designed to overcome weaknesses in existing implementations of neural network training. OpTorch provides features to train complex neural networks with limited computational resources. OpTorch achieved the same accuracy as existing libraries on Cifar-10 and Cifar-100 datasets while reducing memory usage to approximately 50\%. We also explore the effect of weights on total memory usage in deep learning pipelines. In our experiments, parallel encoding-decoding along with sequential checkpoints results in much improved memory and time usage while keeping the accuracy similar to existing pipelines. OpTorch python package is available at available at \url{https://github.com/cbrl-nuces/optorch
翻訳日:2021-05-04 22:33:10 公開日:2021-05-03
# (参考訳) COUnty aggregation mixup AuGmEntation (COURAGE) COVID-19予測

COUnty aggRegation mixup AuGmEntation (COURAGE) COVID-19 Prediction ( http://arxiv.org/abs/2105.00620v1 )

ライセンス: CC BY 4.0
Siawpeng Er, Shihao Yang, Tuo Zhao(参考訳) 新型コロナウイルス感染症(SARS-CoV-2)の世界的な感染拡大は、人類にとって大きな脅威となっている。 新型コロナウイルス(COVID-19)の状況が発展を続ける中、局部的な病気の重症度を予測することは、高度な資源配分に不可欠である。 本稿では,米国各郡における2週間の新型コロナウイルス関連死亡の短期予測を,最新の深層学習技術を活用したCOURAGE(COUnty aggregation mixup AuGmEntation)という手法を提案する。 具体的には,トランスフォーマーモデルと呼ばれる自然言語処理の自己注意モデルを用いて,時系列内の短期的および長期的依存関係を抽出し,計算効率を享受する。 本モデルでは, 新型コロナウイルス関連症例, 死亡状況, 地域移動傾向, 人口統計情報の公開情報を完全に活用し, 対応する郡レベルの予測の集約として, 州レベルの予測を作成できる。 数値実験により,本モデルが利用可能なベンチマークモデル間の最先端性能を実現することを示す。

The global spread of COVID-19, the disease caused by the novel coronavirus SARS-CoV-2, has cast a significant threat to mankind. As the COVID-19 situation continues to evolve, predicting localized disease severity is crucial for advanced resource allocation. This paper proposes a method named COURAGE (COUnty aggRegation mixup AuGmEntation) to generate a short-term prediction of 2-week-ahead COVID-19 related deaths for each county in the United States, leveraging modern deep learning techniques. Specifically, our method adopts a self-attention model from Natural Language Processing, known as the transformer model, to capture both short-term and long-term dependencies within the time series while enjoying computational efficiency. Our model fully utilizes publicly available information of COVID-19 related confirmed cases, deaths, community mobility trends and demographic information, and can produce state-level prediction as an aggregation of the corresponding county-level predictions. Our numerical experiments demonstrate that our model achieves the state-of-the-art performance among the publicly available benchmark models.
翻訳日:2021-05-04 22:24:33 公開日:2021-05-03
# (参考訳) EQFace: 顔認識のためのシンプルな明示的品質ネットワーク

EQFace: A Simple Explicit Quality Network for Face Recognition ( http://arxiv.org/abs/2105.00634v1 )

ライセンス: CC BY 4.0
Rushuai Liu and Weijun Tan(参考訳) 深層学習は、静止画像認識において大きな進歩を遂げているため、ポーズ、ぼかし、オクルージョン、照明などによる画質の低い顔画像のために、制約のないビデオ顔認識は依然として難しい課題である。 本稿では,特徴ベクトルの抽出と同時に明示的かつ定量的な品質スコアを与える,顔認識のためのネットワークを提案する。 われわれの知る限り、これは1つのネットワークでこれら2つの機能を実装する最初のネットワークである。 このネットワークは、顔認識のベースラインネットワークに品質の高いネットワークブランチを追加することで非常に単純である。 注釈付き顔の品質ラベルを持つトレーニングデータセットは必要ない。 我々は,このネットワークを静止画顔データセットとビデオ画像データセットの両方で評価し,多くの場合,最先端のパフォーマンスを実現する。 このネットワークは、明示的な顔品質scpreが使用される多くのアプリケーションを可能にする。 オンライン映像認識における特徴集約手法として,3つの明示的な顔品質の応用を実演する。 このアプリケーションで顔の品質を使うことの利点を証明する実験を設計する。 コードは \url{https://github.com/deepcam-cn/facequality}で入手できる。

As the deep learning makes big progresses in still-image face recognition, unconstrained video face recognition is still a challenging task due to low quality face images caused by pose, blur, occlusion, illumination etc. In this paper we propose a network for face recognition which gives an explicit and quantitative quality score at the same time when a feature vector is extracted. To our knowledge this is the first network that implements these two functions in one network online. This network is very simple by adding a quality network branch to the baseline network of face recognition. It does not require training datasets with annotated face quality labels. We evaluate this network on both still-image face datasets and video face datasets and achieve the state-of-the-art performance in many cases. This network enables a lot of applications where an explicit face quality scpre is used. We demonstrate three applications of the explicit face quality, one of which is a progressive feature aggregation scheme in online video face recognition. We design an experiment to prove the benefits of using the face quality in this application. Code will be available at \url{https://github.com/deepcam-cn/facequality}.
翻訳日:2021-05-04 22:08:01 公開日:2021-05-03
# (参考訳) 文類似度測定のための新しいハイブリッド手法

A novel hybrid methodology of measuring sentence similarity ( http://arxiv.org/abs/2105.00648v1 )

ライセンス: CC BY 4.0
Yongmin Yoo, Tak-Sung Heo, Yeongjoon Park(参考訳) 文類似度を測定することは自然言語処理(NLP)領域において重要な問題である。 文間の類似性を正確に測定する必要がある。 文の類似性を測定するには多くのアプローチがある。 ディープラーニングの方法論は多くの自然言語処理分野で最先端のパフォーマンスを示し、文の類似度測定法で多く使われている。 しかし、自然言語処理の分野では、文の構造や文を構成する単語構造を考えることも重要である。 本研究では,深層学習手法と語彙関係を考慮した手法を併用した手法を提案する。 評価基準はピアソン相関係数とスピアマン相関係数である。 その結果、提案手法はkorsts標準ベンチマーク韓国データセットの現在のアプローチを上回っている。 さらに、ディープラーニング手法のみを使用する場合よりも最大で65%向上する。 実験の結果,提案手法はディープラーニングモデルのみを用いた手法よりも性能がよいことがわかった。

The problem of measuring sentence similarity is an essential issue in the natural language processing (NLP) area. It is necessary to measure the similarity between sentences accurately. There are many approaches to measuring sentence similarity. Deep learning methodology shows a state-of-the-art performance in many natural language processing fields and is used a lot in sentence similarity measurement methods. However, in the natural language processing field, considering the structure of the sentence or the word structure that makes up the sentence is also important. In this study, we propose a methodology combined with both deep learning methodology and a method considering lexical relationships. Our evaluation metric is the Pearson correlation coefficient and Spearman correlation coefficient. As a result, the proposed method outperforms the current approaches on a KorSTS standard benchmark Korean dataset. Moreover, it performs a maximum of 65% increase than only using deep learning methodology. Experiments show that our proposed method generally results in better performance than those with only a deep learning model.
翻訳日:2021-05-04 21:55:24 公開日:2021-05-03
# (参考訳) MIN_NCCとMAX_NCCの境界とグラフ領域変数のフィルタリング方式

Bounds of MIN_NCC and MAX_NCC and filtering scheme for graph domain variables ( http://arxiv.org/abs/2105.00663v1 )

ライセンス: CC BY-SA 4.0
Dimitri Justeau-Allaire, Philippe Birnbaum, Xavier Lorca(参考訳) グラフ領域変数と制約は、doomsらによって導入された制約プログラミングの拡張である。 このアプローチはfagesによって博士論文でさらに研究されていた。 一方、Beldiceanu et al。 グラフプロパティに基づくグローバル制約に対する汎用フィルタリングスキームを提案する。 このスキームはグラフ特性の境界の計算に強く依存しており、グラフ領域変数や制約の文脈でいくつかの調整で使用することができる。 MIN_NCCとMAX_NCCの境界は、path_with_loopsグラフクラスに対するグローバル制約のグラフベース表現のために定義されていた。 ここでは、これらの境界をグラフ領域変数および任意のグラフクラスに対して一般化する。 任意のグラフクラスと任意の境界に対するフィルタリングスキームも提供します。

Graph domain variables and constraints are an extension of constraint programming introduced by Dooms et al. This approach had been further investigated by Fages in its PhD thesis. On the other hand, Beldiceanu et al. presented a generic filtering scheme for global constraints based on graph properties. This scheme strongly relies on the computation of graph properties' bounds and can be used in the context of graph domain variables and constraints with a few adjustments. Bounds of MIN_NCC and MAX_NCC had been defined for the graph-based representation of global constraint for the path_with_loops graph class. In this note, we generalize those bounds for graph domain variables and for any graph class. We also provide a filtering scheme for any graph class and arbitrary bounds.
翻訳日:2021-05-04 21:49:40 公開日:2021-05-03
# (参考訳) 知識グラフにおけるバイアス-DBpediaの映画推薦と異なる言語版を用いた実証的研究

Bias in Knowledge Graphs -- an Empirical Study with Movie Recommendation and Different Language Editions of DBpedia ( http://arxiv.org/abs/2105.00674v1 )

ライセンス: CC BY 4.0
Michael Matthias Voit and Heiko Paulheim(参考訳) DBpediaやWikidataのような公開知識グラフは、コンテンツベースのレコメンデーションシステムを構築するための背景知識の興味深い情報源として認識されている。 推奨すべき項目とそれらの間のリンクに関する情報を追加するのに使うことができる。 知識グラフを利用するための多くのアプローチが提案されているが、そのほとんどは、固定知識グラフを使用して推奨戦略を最適化することを目的としている。 本稿では,異なるアプローチ,すなわちレコメンデーション戦略を修正し,基礎となる知識グラフを用いて変化を観察する。 特に、DBpediaの異なる言語版を使用します。 異なるナレッジグラフを使うことは,異なるバイアスドレコメンダシステムをもたらすだけでなく,特定のレコメンデーション分野のパフォーマンスが異なるレコメンダシステムにもつながることを示した。

Public knowledge graphs such as DBpedia and Wikidata have been recognized as interesting sources of background knowledge to build content-based recommender systems. They can be used to add information about the items to be recommended and links between those. While quite a few approaches for exploiting knowledge graphs have been proposed, most of them aim at optimizing the recommendation strategy while using a fixed knowledge graph. In this paper, we take a different approach, i.e., we fix the recommendation strategy and observe changes when using different underlying knowledge graphs. Particularly, we use different language editions of DBpedia. We show that the usage of different knowledge graphs does not only lead to differently biased recommender systems, but also to recommender systems that differ in performance for particular fields of recommendations.
翻訳日:2021-05-04 21:46:16 公開日:2021-05-03
# (参考訳) デザインによる学習: 機械学習開発における人間の選択の構造と文書化

Learning by Design: Structuring and Documenting the Human Choices in Machine Learning Development ( http://arxiv.org/abs/2105.00687v1 )

ライセンス: CC BY-SA 4.0
Simon Enni and Ira Assent(参考訳) 機械学習(ML)の影響は急速に広がり、近年の多くの技術革新がMLを中心技術として採用している。 しかし、ml開発にはまだかなりの量の人間の専門知識が必要である。 ML開発において適用される熟考と専門家の判断は、適切に文書化されていない場合は再検討または精査することはできず、特に安全上の重要な状況において、ML技術のさらなる採用を妨げる。 本稿では,MLモデルを作成する上での議論と規範的選択を概説する8つの設計質問からなる手法を提案する。 提案手法は,方法論的透明性によるクリティカルアセスメント,モデルデバッギングの支援,モデル動作の事前予測によるモデル説明のアンロックなど,いくつかのメリットを提供する。 この手法は,MLモデル開発において,ML実践者が選択や仮定を構造化し,正当化する上で有効であると同時に,MLモデルの設計や開発方法を理解する上で,ML分野内外とのギャップを埋める上で有効であると考えている。

The influence of machine learning (ML) is quickly spreading, and a number of recent technological innovations have applied ML as a central technology. However, ML development still requires a substantial amount of human expertise to be successful. The deliberation and expert judgment applied during ML development cannot be revisited or scrutinized if not properly documented, and this hinders the further adoption of ML technologies--especially in safety critical situations. In this paper, we present a method consisting of eight design questions, that outline the deliberation and normative choices going into creating a ML model. Our method affords several benefits, such as supporting critical assessment through methodological transparency, aiding in model debugging, and anchoring model explanations by committing to a pre hoc expectation of the model's behavior. We believe that our method can help ML practitioners structure and justify their choices and assumptions when developing ML models, and that it can help bridge a gap between those inside and outside the ML field in understanding how and why ML models are designed and developed the way they are.
翻訳日:2021-05-04 21:34:52 公開日:2021-05-03
# (参考訳) ハイブリッド・インテリジェンス

Hybrid Intelligence ( http://arxiv.org/abs/2105.00691v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Philipp Ebel, Matthias Soellner, Jan Marco Leimeister(参考訳) 研究は、統計的方法や人間の脳など、特定の結果を予測する上で何が優れているかについて議論する長い歴史がある。 この議論は、オブジェクトや音声認識のようなタスクの解決、ディープラーニングアルゴリズム(goodfellowなど)による精度の大幅な向上など、人工知能(ai)分野の驚くべき技術的進歩によって、繰り返し取り上げられている。 あるいは、ファジィ論理、遺伝的アルゴリズム、ケースベースの推論(Medsker 2012)のような様々な計算知能の手法を組み合わせる。 これらの進歩を過小評価する暗黙の約束の1つは、マシンが1日で複雑なタスクをこなせるか、あるいはそのタスクを人間に取って代わるかもしれないということだ。 これは、いつ機械が最終的に人間を置き換えるかについての新しい熱い議論を引き起こす(McAfeeとBrynjolfsson 2017)。 以前の研究では、チェスのプレイ、Goのプレイ、画像上のオブジェクトの特定など、明確に定義されたタスクでAIがうまく機能することが証明されているが、複数のタスクを同時に解決できる人工知能(AGI)の開発が近い将来(例えばRussellとNorvig 2016)達成可能であることは疑わしい。 さらに、複雑なビジネス問題を解決するためにAIを用いることは、組織的な文脈ではほとんど行われず、複雑な問題を解決するAIの応用は、実際には実装されるのではなく、主に実験室で行われている。 AGIへの道はまだ長いので、今後数十年間の人間と機械の分業の最もありそうなパラダイムはハイブリッドインテリジェンスだ、と私たちは主張する。 この概念は、人間の知能とAIの相補的な強みを使用することを目標としており、それぞれが個別に行うことができる(例えば、Kamar 2016)。

Research has a long history of discussing what is superior in predicting certain outcomes: statistical methods or the human brain. This debate has repeatedly been sparked off by the remarkable technological advances in the field of artificial intelligence (AI), such as solving tasks like object and speech recognition, achieving significant improvements in accuracy through deep-learning algorithms (Goodfellow et al. 2016), or combining various methods of computational intelligence, such as fuzzy logic, genetic algorithms, and case-based reasoning (Medsker 2012). One of the implicit promises that underlie these advancements is that machines will 1 day be capable of performing complex tasks or may even supersede humans in performing these tasks. This triggers new heated debates of when machines will ultimately replace humans (McAfee and Brynjolfsson 2017). While previous research has proved that AI performs well in some clearly defined tasks such as playing chess, playing Go or identifying objects on images, it is doubted that the development of an artificial general intelligence (AGI) which is able to solve multiple tasks at the same time can be achieved in the near future (e.g., Russell and Norvig 2016). Moreover, the use of AI to solve complex business problems in organizational contexts occurs scarcely, and applications for AI that solve complex problems remain mainly in laboratory settings instead of being implemented in practice. Since the road to AGI is still a long one, we argue that the most likely paradigm for the division of labor between humans and machines in the next decades is Hybrid Intelligence. This concept aims at using the complementary strengths of human intelligence and AI, so that they can perform better than each of the two could separately (e.g., Kamar 2016).
翻訳日:2021-05-04 21:19:32 公開日:2021-05-03
# (参考訳) heart-darts: differentiable architecture search を用いた心拍の分類

Heart-Darts: Classification of Heartbeats Using Differentiable Architecture Search ( http://arxiv.org/abs/2105.00693v1 )

ライセンス: CC BY 4.0
Jindi Lv and Qing Ye and Yanan Sun and Juan Zhao and Jiancheng Lv(参考訳) 不整脈は不整脈を呈する心血管疾患である。 不整脈検出では心電図(ECG)信号が重要な診断手法である。 しかし、手動でECG信号を評価するのは複雑で時間を要する作業である。 畳み込みニューラルネットワーク(cnns)の適用により,評価プロセスが高速化され,性能が向上した。 cnnのパフォーマンスはアーキテクチャ設計に大きく依存しており、専門家の経験と試行錯誤に基づく複雑なプロセスである。 本稿では,cnnモデルに微分可能なアーキテクチャ探索(すなわち,セル型ニューラルネットワーク探索法であるdarts)を自動設計することにより,ecg信号を効率的に分類する新しいアプローチであるheart-dartsを提案する。 具体的には、当初Dartでセルアーキテクチャを検索し、得られたセルに基づいてECG分類のための新しいCNNモデルをカスタマイズする。 提案手法の有効性を検討するため,MIT-BIH不整脈データベースを用いた構築モデルの評価を行った。 さらに、提案したCNNモデルの拡張性は他の2つのデータベースで検証される。 実験結果から,提案手法はECG分類において,性能と一般化能力の両方の観点から,いくつかの最先端CNNモデルより優れていることが示された。

Arrhythmia is a cardiovascular disease that manifests irregular heartbeats. In arrhythmia detection, the electrocardiogram (ECG) signal is an important diagnostic technique. However, manually evaluating ECG signals is a complicated and time-consuming task. With the application of convolutional neural networks (CNNs), the evaluation process has been accelerated and the performance is improved. It is noteworthy that the performance of CNNs heavily depends on their architecture design, which is a complex process grounded on expert experience and trial-and-error. In this paper, we propose a novel approach, Heart-Darts, to efficiently classify the ECG signals by automatically designing the CNN model with the differentiable architecture search (i.e., Darts, a cell-based neural architecture search method). Specifically, we initially search a cell architecture by Darts and then customize a novel CNN model for ECG classification based on the obtained cells. To investigate the efficiency of the proposed method, we evaluate the constructed model on the MIT-BIH arrhythmia database. Additionally, the extensibility of the proposed CNN model is validated on two other new databases. Extensive experimental results demonstrate that the proposed method outperforms several state-of-the-art CNN models in ECG classification in terms of both performance and generalization capability.
翻訳日:2021-05-04 21:09:30 公開日:2021-05-03
# (参考訳) facebookの預言者、amazonのdeepar+、cnn-qrアルゴリズムの比較分析による実世界の売上予測

Comparison Analysis of Facebook's Prophet, Amazon's DeepAR+ and CNN-QR Algorithms for Successful Real-World Sales Forecasting ( http://arxiv.org/abs/2105.00694v1 )

ライセンス: CC BY 4.0
Emir Zunic, Kemal Korjenic, Sead Delalic, Zlatko Subara(参考訳) 予測の問題をうまく解決することで、様々な企業の作業のプロセスが最適化され、貯蓄が達成される。 このプロセスでは、時系列データの分析が特に重要である。 facebookの預言者やamazonのdeepar+、cnn-qr予測モデルの作成以来、アルゴリズムは多くの注目を集めてきた。 本稿では,上記のアルゴリズムを流通企業における販売予測に適用し,比較する。 販売履歴の異なる実データに対するアルゴリズムの性能の詳細な比較を行った。 その結果、Prophetは、長い歴史と頻繁に販売されるアイテムに対してより良い結果を与える一方で、Amazonのアルゴリズムは、長い歴史とめったに販売されないアイテムに対して優位性を示す。

By successfully solving the problem of forecasting, the processes in the work of various companies are optimized and savings are achieved. In this process, the analysis of time series data is of particular importance. Since the creation of Facebook's Prophet, and Amazon's DeepAR+ and CNN-QR forecasting models, algorithms have attracted a great deal of attention. The paper presents the application and comparison of the above algorithms for sales forecasting in distribution companies. A detailed comparison of the performance of algorithms over real data with different lengths of sales history was made. The results show that Prophet gives better results for items with a longer history and frequent sales, while Amazon's algorithms show superiority for items without a long history and items that are rarely sold.
翻訳日:2021-05-04 20:57:38 公開日:2021-05-03
# (参考訳) 残差接続型グラフオートエンコーダを用いた表現学習

Representation Learning using Graph Autoencoders with Residual Connections ( http://arxiv.org/abs/2105.00695v1 )

ライセンス: CC BY 4.0
Indrit Nallbani, Aydin Ayanzadeh, Reyhan Kevser Keser, Nurullah \c{C}al{\i}k, Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) グラフオートエンコーダはグラフベースの複雑なデータセットを埋め込むのに非常に効率的である。 しかし、ほとんどのオートエンコーダは浅い深さを持ち、その効率は層深さの増加とともに低下する傾向にある。 本稿では,浅層および深層グラフ変動型およびバニラオートエンコーダに残差接続を付加する効果について検討する。 残差接続によりディープグラフベースのオートエンコーダの精度が向上することを示す。 さらに,残差接続の異なるグラフ変分オートエンコーダRes-VGAEを提案する。 本実験は,リンク予測タスクにおける他のオートエンコーダベースモデルと比較して,優れた結果が得られることを示す。

Graph autoencoders are very efficient at embedding graph-based complex data sets. However, most of the autoencoders have shallow depths and their efficiency tends to decrease with the increase of layer depth. In this paper, we study the effect of adding residual connections to shallow and deep graph variational and vanilla autoencoders. We show that residual connections improve the accuracy of the deep graph-based autoencoders. Furthermore, we propose Res-VGAE, a graph variational autoencoder with different residual connections. Our experiments show that our model achieves superior results when compared with other autoencoder-based models for the link prediction task.
翻訳日:2021-05-04 20:39:12 公開日:2021-05-03
# (参考訳) グラフ学習:調査

Graph Learning: A Survey ( http://arxiv.org/abs/2105.00696v1 )

ライセンス: CC BY 4.0
Feng Xia, Ke Sun, Shuo Yu, Abdul Aziz, Liangtian Wan, Shirui Pan, Huan Liu(参考訳) グラフは、接続されたデータのネットワーク構造の一般的な表現として広く使われている。 グラフデータは、ソーシャルシステム、エコシステム、生物学的ネットワーク、知識グラフ、情報システムなど、幅広い分野のアプリケーションドメインで見ることができる。 人工知能技術の継続的な浸透により、グラフ学習(グラフ上の機械学習)は研究者と実践者の両方から注目を集めている。 グラフ学習は、分類、リンク予測、マッチングといった多くのタスクに有効である。 一般に、グラフ学習法は機械学習アルゴリズムを利用してグラフの関連特徴を抽出する。 本稿では,グラフ学習の現状について概観する。 グラフ信号処理,行列分解,ランダムウォーク,ディープラーニングなど,既存のグラフ学習手法の4つのカテゴリに特に注目されている。 これらのカテゴリの主要なモデルとアルゴリズムをそれぞれレビューする。 テキスト,画像,科学,知識グラフ,組合せ最適化などの分野におけるグラフ学習応用について検討する。 また,本分野での有望な研究方向性についても論じる。

Graphs are widely used as a popular representation of the network structure of connected data. Graph data can be found in a broad spectrum of application domains such as social systems, ecosystems, biological networks, knowledge graphs, and information systems. With the continuous penetration of artificial intelligence technologies, graph learning (i.e., machine learning on graphs) is gaining attention from both researchers and practitioners. Graph learning proves effective for many tasks, such as classification, link prediction, and matching. Generally, graph learning methods extract relevant features of graphs by taking advantage of machine learning algorithms. In this survey, we present a comprehensive overview on the state-of-the-art of graph learning. Special attention is paid to four categories of existing graph learning methods, including graph signal processing, matrix factorization, random walk, and deep learning. Major models and algorithms under these categories are reviewed respectively. We examine graph learning applications in areas such as text, images, science, knowledge graphs, and combinatorial optimization. In addition, we discuss several promising research directions in this field.
翻訳日:2021-05-04 20:28:45 公開日:2021-05-03
# (参考訳) プロトタイプに基づく因果分類の反事実的説明

Prototype-based Counterfactual Explanation for Causal Classification ( http://arxiv.org/abs/2105.00703v1 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、モデルの本来の決定を変えるために摂動サンプルを生成する解釈可能な機械学習の一分野である。 生成されたサンプルは、エンドユーザが望ましい出力を達成するためのレコメンデーションとして機能する。 現在の反事実的説明のアプローチのほとんどは、連続変数を持つ微分可能損失関数のみを最適化できる勾配に基づく方法である。 その結果, 1 つの特徴間の因果関係は, 因果関係が典型的に無視され, 場合によっては意思決定者にとって非現実的なガイドラインが導かれる; 2) 反現実的サンプルの生成は禁断的に遅く, 異なる損失関数を組み合わせるために多くのパラメータチューニングが必要である。 本研究では,反事実の特徴に基づく因果関係を保つための因果構造モデルを提案する。 さらに,多目的遺伝的アルゴリズムに基づく,連続的およびカテゴリ的データの混合型に対する反事実的説明を生成する,新しい勾配なし最適化を考案する。 数値実験により,本手法は最先端手法と好適な比較を行い,任意の予測モデルに適用できることを示した。 すべてのソースコードとデータは \textit{\url{{https://github.com/tridungduong16/multiobj-scm-cf}}} で入手できる。

Counterfactual explanation is one branch of interpretable machine learning that produces a perturbation sample to change the model's original decision. The generated samples can act as a recommendation for end-users to achieve their desired outputs. Most of the current counterfactual explanation approaches are the gradient-based method, which can only optimize the differentiable loss functions with continuous variables. Accordingly, the gradient-free methods are proposed to handle the categorical variables, which however present several major limitations: 1) causal relationships among features are typically ignored when generating the counterfactuals, possibly resulting in impractical guidelines for decision-makers; 2) the generation of the counterfactual sample is prohibitively slow and requires lots of parameter tuning for combining different loss functions. In this work, we propose a causal structure model to preserve the causal relationship underlying the features of the counterfactual. In addition, we design a novel gradient-free optimization based on the multi-objective genetic algorithm that generates the counterfactual explanations for the mixed-type of continuous and categorical data. Numerical experiments demonstrate that our method compares favorably with state-of-the-art methods and therefore is applicable to any prediction model. All the source code and data are available at \textit{\url{{https://github.com/tridungduong16/multiobj-scm-cf}}}.
翻訳日:2021-05-04 19:46:30 公開日:2021-05-03
# (参考訳) MRC-LSTM:Bitcoin価格予測のためのマルチスケール残留CNNとLSTMのハイブリッドアプローチ

MRC-LSTM: A Hybrid Approach of Multi-scale Residual CNN and LSTM to Predict Bitcoin Price ( http://arxiv.org/abs/2105.00707v1 )

ライセンス: CC BY 4.0
Qiutong Guo and Shun Lei and Qing Ye and Zhiyang Fang(参考訳) 主要な暗号通貨の1つであるBitcoinは、大きなリスクを伴う巨大なリターンをもたらす大きなチャンスと課題を提示している。 ビットコインの高ボラティリティとそれに影響する複雑な要因は、世界中の金融投資家や研究者にとって実用的な価格予測方法の研究をもたらす。 本稿では,マルチスケール残差畳み込みニューラルネットワーク (MRC) とLong Short-Term Memory (LSTM) を組み合わせた MRC-LSTM という新しい手法を提案する。 具体的には、多スケール残差モジュールは、多変量時系列における異なる時間スケールの特徴を適応的に検出できるだけでなく、これらの特徴の融合を可能にする一次元畳み込みに基づいている。 LSTMは、金融時系列予測において広く使われている、時系列の長期依存関係を学習する能力を持っている。 これらの2つの手法を混合することにより、表現力の高い特徴を得、多変量時系列の傾向や相互作用を効率的に学習することができる。 本研究は、ビットコイン市場の取引情報に加えて、マクロ経済変数や投資家の関心などの外部要因がビットコイン価格に与える影響を考察する。 我々はビットコインの日替わり価格(USD)を予測する実験を行い、実験の結果、MRC-LSTMは他の様々なネットワーク構造よりも著しく優れていた。 さらに,他の2つの暗号通貨,Ethereum と Litecoin について追加実験を行い,多変量時系列の短期予測における MRC-LSTM の有効性をさらに確認する。

Bitcoin, one of the major cryptocurrencies, presents great opportunities and challenges with its tremendous potential returns accompanying high risks. The high volatility of Bitcoin and the complex factors affecting them make the study of effective price forecasting methods of great practical importance to financial investors and researchers worldwide. In this paper, we propose a novel approach called MRC-LSTM, which combines a Multi-scale Residual Convolutional neural network (MRC) and a Long Short-Term Memory (LSTM) to implement Bitcoin closing price prediction. Specifically, the Multi-scale residual module is based on one-dimensional convolution, which is not only capable of adaptive detecting features of different time scales in multivariate time series, but also enables the fusion of these features. LSTM has the ability to learn long-term dependencies in series, which is widely used in financial time series forecasting. By mixing these two methods, the model is able to obtain highly expressive features and efficiently learn trends and interactions of multivariate time series. In the study, the impact of external factors such as macroeconomic variables and investor attention on the Bitcoin price is considered in addition to the trading information of the Bitcoin market. We performed experiments to predict the daily closing price of Bitcoin (USD), and the experimental results show that MRC-LSTM significantly outperforms a variety of other network structures. Furthermore, we conduct additional experiments on two other cryptocurrencies, Ethereum and Litecoin, to further confirm the effectiveness of the MRC-LSTM in short-term forecasting for multivariate time series of cryptocurrencies.
翻訳日:2021-05-04 19:35:23 公開日:2021-05-03
# (参考訳) VECA : 人間のようなエージェントを訓練・テストするための仮想環境構築ツールキット

VECA : A Toolkit for Building Virtual Environments to Train and Test Human-like Agents ( http://arxiv.org/abs/2105.00762v1 )

ライセンス: CC BY 4.0
Kwanyoung Park, Hyunseok Oh, Youngki Lee(参考訳) 人間のようなエージェントの構築は、人間の知能を学習し、思考することを目的としており、AIにおいて長い間重要な研究トピックであった。 人間のようなエージェントを訓練し、テストするためには、エージェントにリッチなマルチモーダルな知覚を強制し、エージェントに対する包括的なインタラクションを可能にする環境が必要です。 しかし、既存のアプローチは環境との包括的な相互作用をサポートしない。 また、ほとんどのアプローチはカスタムタスクを実装するのが難しい、あるいは不可能です。 本稿では,人間のようなエージェントをトレーニングし,テストするための実りの多い仮想環境を構築するための新しいVRベースのツールキットVECAを提案する。 特にVECAはヒューマノイドエージェントと環境マネージャを提供しており、エージェントはリッチな人間のような知覚を受け取り、包括的な相互作用を行うことができる。 また、VECAの動機付けとして、初期の人間の発達において重要な4つの側面、例えば、共同レベルの移動と制御、オブジェクトのコンテキスト理解、マルチモーダル学習、マルチエージェント学習を表わす24の対話的タスクも提供する。 VECAが人間のような学習エージェントのトレーニングおよびテストに有用であることを示すため、VECA上で実験を行い、ユーザが人間のようなアルゴリズムをエンゲージする上で困難なタスクを構築できることを示し、VECAがサポートする機能は人間のようなエージェントのトレーニングに不可欠である。

Building human-like agent, which aims to learn and think like human intelligence, has long been an important research topic in AI. To train and test human-like agents, we need an environment that imposes the agent to rich multimodal perception and allows comprehensive interactions for the agent, while also easily extensible to develop custom tasks. However, existing approaches do not support comprehensive interaction with the environment or lack variety in modalities. Also, most of the approaches are difficult or even impossible to implement custom tasks. In this paper, we propose a novel VR-based toolkit, VECA, which enables building fruitful virtual environments to train and test human-like agents. In particular, VECA provides a humanoid agent and an environment manager, enabling the agent to receive rich human-like perception and perform comprehensive interactions. To motivate VECA, we also provide 24 interactive tasks, which represent (but are not limited to) four essential aspects in early human development: joint-level locomotion and control, understanding contexts of objects, multimodal learning, and multi-agent learning. To show the usefulness of VECA on training and testing human-like learning agents, we conduct experiments on VECA and show that users can build challenging tasks for engaging human-like algorithms, and the features supported by VECA are critical on training human-like agents.
翻訳日:2021-05-04 19:22:26 公開日:2021-05-03
# (参考訳) 深層学習モデルを用いたOracleの骨碑文の認識

Recognition of Oracle Bone Inscriptions by using Two Deep Learning Models ( http://arxiv.org/abs/2105.00777v1 )

ライセンス: CC BY 4.0
Yoshiyuki Fujikawa, Hengyi Li, Xuebin Yue, Aravinda C V, Amar Prabhu G, Lin Meng(参考訳) オラクルの骨碑文(OBI)には、約3000年前に中国で使われた世界最古の文字が含まれている。 古代の文学の形式として、OBIは世界の歴史やキャラクターの評価などを理解するのに役立つ多くの情報を保存する。 しかし、OBIが発見されてから約120年が経ち、研究がほとんど行われておらず、老朽化によって碑文の信頼性が低下している。 そのため,文字の自動検出と認識が重要な課題となっている。 本稿では,文化遺産の保存・整理を支援するオンラインOBI認識システムを設計することを目的とする。 OBI認識のための2つのディープラーニングモデルを評価し、OBI認識のためにオンラインでアクセス可能なAPIを設計した。 最初の段階では、OBIの検出と認識に一度(YOLO)しか適用されない。 しかし、全OBIをYOLOで正確に検出できるわけではないため、画像中の未検出OBIを手動でトリミングすることで、次にMobileNetを用いて未検出OBIを認識する。 MobileNetはこの第2段階の認識に利用されており、精度、損失、時間消費の点で優れた性能でOBI認識に適したネットワークであることを示す10種類の最先端モデルの評価を行った。 アプリケーションプログラミングインタフェース(API)にシステムを設置し,OBI検出と認識のために開放した。

Oracle bone inscriptions (OBIs) contain some of the oldest characters in the world and were used in China about 3000 years ago. As an ancients form of literature, OBIs store a lot of information that can help us understand the world history, character evaluations, and more. However, as OBIs were found only discovered about 120 years ago, few studies have described them, and the aging process has made the inscriptions less legible. Hence, automatic character detection and recognition has become an important issue. This paper aims to design a online OBI recognition system for helping preservation and organization the cultural heritage. We evaluated two deep learning models for OBI recognition, and have designed an API that can be accessed online for OBI recognition. In the first stage, you only look once (YOLO) is applied for detecting and recognizing OBIs. However, not all of the OBIs can be detected correctly by YOLO, so we next utilize MobileNet to recognize the undetected OBIs by manually cropping the undetected OBI in the image. MobileNet is used for this second stage of recognition as our evaluation of ten state-of-the-art models showed that it is the best network for OBI recognition due to its superior performance in terms of accuracy, loss and time consumption. We installed our system on an application programming interface (API) and opened it for OBI detection and recognition.
翻訳日:2021-05-04 19:02:23 公開日:2021-05-03
# (参考訳) 深層学習によるSARデータの地すべり検出の改善

Improving Landslide Detection on SAR Data through Deep Learning ( http://arxiv.org/abs/2105.00782v1 )

ライセンス: CC BY 4.0
Lorenzo Nava, Oriol Monserrat and Filippo Catani(参考訳) 本稿では、ディープラーニング畳み込みニューラルネットワーク(CNN)を用いて、光学画像(Sentinel-2)とSAR画像(Sentinel-1)の地すべりマッピングと分類性能を評価する。 異なるデータセットにおけるcnnの性能を独立に評価するための訓練・テストゾーンは、2018年9月6日に発生したmw 6.6地震で約8000の地震が発生した北海道のイブリ地区東部にある。 我々は,地震前後におけるマルチポーラライゼーションSARと光学データとをTensorFlowで実装したCNNを用いて解析し,ランドスライダーのクラスが予測される場所をより高い確率で示す。 予想通り、光学画像上でのcnnは地すべり検出タスクに優れていることが判明し、全体の精度は99.20%となり、地上距離検出(grd)sarデータの組み合わせに基づくcnnは94%以上の精度に達した。 以上の結果から,SARデータの統合により,嵐時や密集雲下においても高速なマッピングが可能であり,地すべりの認識・マッピングにおける古典的光学的変化検出に匹敵する精度が期待できると考えられる。

In this letter, we use deep-learning convolution neural networks (CNNs) to assess the landslide mapping and classification performances on optical images (from Sentinel-2) and SAR images (from Sentinel-1). The training and test zones used to independently evaluate the performance of the CNNs on different datasets are located in the eastern Iburi subprefecture in Hokkaido, where, at 03.08 local time (JST) on September 6, 2018, an Mw 6.6 earthquake triggered about 8000 coseismic landslides. We analyzed the conditions before and after the earthquake exploiting multi-polarization SAR as well as optical data by means of a CNN implemented in TensorFlow that points out the locations where the Landslide class is predicted as more likely. As expected, the CNN run on optical images proved itself excellent for the landslide detection task, achieving an overall accuracy of 99.20% while CNNs based on the combination of ground range detected (GRD) SAR data reached overall accuracies beyond 94%. Our findings show that the integrated use of SAR data may also allow for rapid mapping even during storms and under dense cloud cover and seems to provide comparable accuracy to classical optical change detection in landslide recognition and mapping.
翻訳日:2021-05-04 18:52:45 公開日:2021-05-03
# (参考訳) スイッチングコンテキスト:NLPの輸送性対策

Switching Contexts: Transportability Measures for NLP ( http://arxiv.org/abs/2105.00823v1 )

ライセンス: CC BY 4.0
Guy Marshall and Mokanarangan Thayaparan and Philip Osborne and Andre Freitas(参考訳) 本稿では,一般可能性のサブ領域として,輸送可能性の話題を考察する。 確立された統計に基づくメトリクスの利用を提案することにより、新しい文脈におけるNLPモデルの性能変化を推定することができる。 トランスポートビリティの新たな尺度を定義することで、新しいドメインにおけるNLPシステムの性能をよりよく評価することが可能になり、新しいタスクやドメインにおけるNLPシステムの性能を評価する上で重要である。 複雑性が増大するいくつかの事例を通して、NLPアプリケーションの輸送可能性の推定手段として、軽量なドメイン類似度測定がいかに用いられるかを実証する。 提案したトランスポートビリティ対策は,名前付きエンティティ認識および自然言語推論タスクのコンテキストで評価される。

This paper explores the topic of transportability, as a sub-area of generalisability. By proposing the utilisation of metrics based on well-established statistics, we are able to estimate the change in performance of NLP models in new contexts. Defining a new measure for transportability may allow for better estimation of NLP system performance in new domains, and is crucial when assessing the performance of NLP systems in new tasks and domains. Through several instances of increasing complexity, we demonstrate how lightweight domain similarity measures can be used as estimators for the transportability in NLP applications. The proposed transportability measures are evaluated in the context of Named Entity Recognition and Natural Language Inference tasks.
翻訳日:2021-05-04 18:42:20 公開日:2021-05-03
# (参考訳) 意味の旅:2012-2018年の絵文字の意味の変化を定量化する

Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 ( http://arxiv.org/abs/2105.00846v1 )

ライセンス: CC BY 4.0
Alexander Robertson, Farhana Ferdousi Liza, Dong Nguyen, Barbara McGillivray, Scott A. Hale(参考訳) 絵文字のセマンティクスは、これまで静的な観点から検討されてきた。 絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 さらに,絵文字のセマンティクスに対する季節性や世界イベントの影響について,より詳細な分析を行った。 絵文字とセマンティクスに関する今後の研究を支援するため、私たちは私たちのデータを、誰でも絵文字のセマンティクス変更を探求できるWebベースのインターフェースとともに公開します。

The semantics of emoji has, to date, been considered from a static perspective. We offer the first longitudinal study of how emoji semantics changes over time, applying techniques from computational linguistics to six years of Twitter data. We identify five patterns in emoji semantic development and find evidence that the less abstract an emoji is, the more likely it is to undergo semantic change. In addition, we analyse select emoji in more detail, examining the effect of seasonality and world events on emoji semantics. To aid future work on emoji and semantics, we make our data publicly available along with a web-based interface that anyone can use to explore semantic change in emoji.
翻訳日:2021-05-04 18:31:47 公開日:2021-05-03
# (参考訳) 言語学・コンピュータサイエンス教室外のNLP教育 : 課題と機会

Teaching NLP outside Linguistics and Computer Science classrooms: Some challenges and some opportunities ( http://arxiv.org/abs/2105.00895v1 )

ライセンス: CC BY-SA 4.0
Sowmya Vajjala(参考訳) NLPの影響力範囲は、コンピュータ科学の研究や過去10年間のソフトウェアアプリケーションの開発を超えていた。 我々はNLP法をアジア研究から臨床腫瘍学まで幅広い学術分野に応用している。 また,NLPが通常の大学システム内外におけるデータサイエンスカリキュラムの大部分にモジュールとして存在することにも気付きました。 これらのコースは、非常に多様な背景を持つ学生によって受け取られる。 本稿では,授業経験に基づいて,NLPの授業に関する諸問題について詳しく検討し,特に授業のエコシステムが存在しない場合に,講師が直面している課題について述べる。 このプロセスでは、NLP研究者とツール開発者の両方にとって、いくつかの課題領域を特定する。

NLP's sphere of influence went much beyond computer science research and the development of software applications in the past decade. We see people using NLP methods in a range of academic disciplines from Asian Studies to Clinical Oncology. We also notice the presence of NLP as a module in most of the data science curricula within and outside of regular university setups. These courses are taken by students from very diverse backgrounds. This paper takes a closer look at some issues related to teaching NLP to these diverse audiences based on my classroom experiences, and identifies some challenges the instructors face, particularly when there is no ecosystem of related courses for the students. In this process, it also identifies a few challenge areas for both NLP researchers and tool developers.
翻訳日:2021-05-04 18:17:23 公開日:2021-05-03
# (参考訳) MFCCを用いた楽器認識のためのディープニューラルネットワーク

Deep Neural Network for Musical Instrument Recognition using MFCCs ( http://arxiv.org/abs/2105.00933v1 )

ライセンス: CC BY 4.0
Saranga Kingkor Mahanta, Abdullah Faiz Ur Rahman Khilji, Partha Pakray(参考訳) 効率的な自動音楽分類の課題は重要であり、音楽分野におけるAIの様々な高度な応用の基礎を形成する。 楽器認識は、その音響によって楽器の識別を行うタスクである。 音の振動」とも呼ばれるこの音は、楽器のクラスに合わせてモデルによって活用される。 本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。 ここでは、音声データのメル周波数ケプストラム係数(MFCC)のみを用いる。 提案するモデルトレインは, ロンドン・フィルハーモニック・オーケストラ・データセットで, 4つの家系に属する20種類の楽器を含む。 木管、金管、打楽器、弦。 実験結果に基づいて,本モデルは同じ精度で得られた。

The task of efficient automatic music classification is of vital importance and forms the basis for various advanced applications of AI in the musical domain. Musical instrument recognition is the task of instrument identification by virtue of its audio. This audio, also termed as the sound vibrations are leveraged by the model to match with the instrument classes. In this paper, we use an artificial neural network (ANN) model that was trained to perform classification on twenty different classes of musical instruments. Here we use use only the mel-frequency cepstral coefficients (MFCCs) of the audio data. Our proposed model trains on the full London philharmonic orchestra dataset which contains twenty classes of instruments belonging to the four families viz. woodwinds, brass, percussion, and strings. Based on experimental results our model achieves state-of-the-art accuracy on the same.
翻訳日:2021-05-04 18:04:17 公開日:2021-05-03
# (参考訳) 因果学習を用いた多人数対話の成果説明

Explaining Outcomes of Multi-Party Dialogues using Causal Learning ( http://arxiv.org/abs/2105.00944v1 )

ライセンス: CC BY 4.0
Priyanka Sinha, Pabitra Mitra, Antonio Anastasio Bruto da Costa, Nikolaos Kekatos(参考訳) マルチパーティ対話は、技術や非技術トピックに関する企業ソーシャルメディアで一般的である。 会話の結果は肯定的あるいは否定的である。 コンフリクト分析や今後のコラボレーションデザインの観点から,対話が特定の感情で終わる理由を分析することが重要である。 このような分析のための説明可能な時系列マイニングアルゴリズムを提案する。 対話は、キーワード、EMPATHカテゴリ、およびその進行の様々な点での推論された感情の発生の時系列として表される。 結果の感情の原因を予測するために、対話イベント間の時間的関係を考慮した決定指標を持つ特別な決定木を用いる。 分類器から抽出された解釈可能なルールは、予測を説明するために使用される。 大企業における企業ソーシャルメディア投稿に対して,実験結果が提示される。

Multi-party dialogues are common in enterprise social media on technical as well as non-technical topics. The outcome of a conversation may be positive or negative. It is important to analyze why a dialogue ends with a particular sentiment from the point of view of conflict analysis as well as future collaboration design. We propose an explainable time series mining algorithm for such analysis. A dialogue is represented as an attributed time series of occurrences of keywords, EMPATH categories, and inferred sentiments at various points in its progress. A special decision tree, with decision metrics that take into account temporal relationships between dialogue events, is used for predicting the cause of the outcome sentiment. Interpretable rules mined from the classifier are used to explain the prediction. Experimental results are presented for the enterprise social media posts in a large company.
翻訳日:2021-05-04 17:57:05 公開日:2021-05-03
# (参考訳) 自動可読性評価研究の動向と課題

Trends, Limitations and Open Challenges in Automatic Readability Assessment Research ( http://arxiv.org/abs/2105.00973v1 )

ライセンス: CC BY-SA 4.0
Sowmya Vajjala(参考訳) 可読性評価は、あるテキストの読み難さを評価するタスクである。 可読性評価に対する計算手法の研究は20年以上前から行われているが、この研究を合成する研究はほとんどない。 本稿は、可読性評価のための計算モデル開発に関する現代の研究に関する簡単な調査である。 共通のアプローチを特定し、その欠点を議論し、将来の課題をいくつか特定する。 可能であれば、計算研究と教育や心理学といった他の分野の関連研究からの洞察を結びつけます。

Readability assessment is the task of evaluating the reading difficulty of a given piece of text. Although research on computational approaches to readability assessment is now two decades old, there is not much work on synthesizing this research. This article is a brief survey of contemporary research on developing computational models for readability assessment. We identify the common approaches, discuss their shortcomings, and identify some challenges for the future. Where possible, we also connect computational research with insights from related work in other disciplines such as education and psychology.
翻訳日:2021-05-04 17:48:02 公開日:2021-05-03
# (参考訳) 外因性雑音を考慮したリカレントニューラルネットワークのロバスト学習

Robust Learning of Recurrent Neural Networks in Presence of Exogenous Noise ( http://arxiv.org/abs/2105.00996v1 )

ライセンス: CC BY 4.0
Arash Amini, Guangyi Liu, Nader Motee(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータの動的学習に有望な可能性を示している。 しかし、RNNの逐次アーキテクチャが問題を悪化させるような入力ノイズの存在下では、ニューラルネットワークの堅牢性が低いことが知られている。 本稿では,制御理論と推定理論のアイデアを用いて,入力雑音を受けるRNNモデルに対するトラクタブルロバストネス解析を提案する。 雑音が学習に与える影響を定量化するための頑健度尺度として,雑音システムの出力のばらつきを採用する。 線形化手法を用いてロバストネス測度を効率的に推定できることを示した。 これらの結果を用いて,RNNの強靭性を高める学習手法を提案する。 ベンチマーク問題に関する広範なシミュレーションにより,提案手法が再帰的ニューラルネットワークのロバスト性を大幅に改善することが明らかとなった。

Recurrent Neural networks (RNN) have shown promising potential for learning dynamics of sequential data. However, artificial neural networks are known to exhibit poor robustness in presence of input noise, where the sequential architecture of RNNs exacerbates the problem. In this paper, we will use ideas from control and estimation theories to propose a tractable robustness analysis for RNN models that are subject to input noise. The variance of the output of the noisy system is adopted as a robustness measure to quantify the impact of noise on learning. It is shown that the robustness measure can be estimated efficiently using linearization techniques. Using these results, we proposed a learning method to enhance robustness of a RNN with respect to exogenous Gaussian noise with known statistics. Our extensive simulations on benchmark problems reveal that our proposed methodology significantly improves robustness of recurrent neural networks.
翻訳日:2021-05-04 17:32:03 公開日:2021-05-03
# (参考訳) 心不全患者の死亡予測のための生存分析における放射線診断レポートの深部表現の活用

Leveraging Deep Representations of Radiology Reports in Survival Analysis for Predicting Heart Failure Patient Mortality ( http://arxiv.org/abs/2105.01009v1 )

ライセンス: CC BY 4.0
Hyun Gi Lee, Evan Sholle, Ashley Beecy, Subhi Al'Aref and Yifan Peng(参考訳) 生存分析における臨床テキストの利用は、ほとんど構造化されていないため困難である。 現在の自動抽出モデルは、ラベルの範囲が限られているため、テキスト情報を包括的にキャプチャできない。 さらに、トレーニングには大量のデータと高品質な専門家アノテーションが必要です。 本研究では,患者生存率を予測するために,BERTに基づく臨床テキストの隠れ層表現を比例的ハザードモデルに用いた新しい方法を提案する。 隠れたレイヤは,事前定義された機能よりも予測精度が著しく向上し,c-indexおよび時間依存型aucの平均を5.7%上回った。 作業はhttps://github.com/bionlplab/heart_failure_mortality.comで公開しています。

Utilizing clinical texts in survival analysis is difficult because they are largely unstructured. Current automatic extraction models fail to capture textual information comprehensively since their labels are limited in scope. Furthermore, they typically require a large amount of data and high-quality expert annotations for training. In this work, we present a novel method of using BERT-based hidden layer representations of clinical texts as covariates for proportional hazards models to predict patient survival outcomes. We show that hidden layers yield notably more accurate predictions than predefined features, outperforming the previous baseline model by 5.7% on average across C-index and time-dependent AUC. We make our work publicly available at https://github.com/bionlplab/heart_failure_mortality.
翻訳日:2021-05-04 17:15:46 公開日:2021-05-03
# (参考訳) 多目的ジョイントニューラルアーキテクチャ探索とハイパーパラメータ最適化のためのベースラインのバッグ

Bag of Baselines for Multi-objective Joint Neural Architecture Search and Hyperparameter Optimization ( http://arxiv.org/abs/2105.01015v1 )

ライセンス: CC BY 4.0
Julia Guerrero-Viu, Sven Hauns, Sergio Izquierdo, Guilherme Miotto, Simon Schrodi, Andre Biedenkapp, Thomas Elsken, Difan Deng, Marius Lindauer, Frank Hutter(参考訳) ニューラルネットワーク検索(nas)とハイパーパラメータ最適化(hpo)は、使用するトレーニングパイプラインのハイパーパラメータの使用とチューニングを行うディープニューラルネットワークのアーキテクチャを自動的に見つけて、非専門家にディープラーニングをアクセス可能にする。 NASとHPOはともに近年広く研究されているが、NAS法は通常、固定されたハイパーパラメータを仮定し、その逆を仮定する。 さらに、NASはリソース要求を考慮に入れるために、近年、多目的最適化問題としてフレーム化されていることが多い。 本稿では,ニューラルアーキテクチャとハイパーパラメータを協調的に最適化するための現在のアプローチを拡張する手法を提案する。 我々はこれらの手法が今後の多目的関節NAS+HPO研究のベースラインとなることを願っている。 これを容易にするため、すべてのコードはhttps://github.com/automl/multi-obj-baselinesで利用可能です。

Neural architecture search (NAS) and hyperparameter optimization (HPO) make deep learning accessible to non-experts by automatically finding the architecture of the deep neural network to use and tuning the hyperparameters of the used training pipeline. While both NAS and HPO have been studied extensively in recent years, NAS methods typically assume fixed hyperparameters and vice versa - there exists little work on joint NAS + HPO. Furthermore, NAS has recently often been framed as a multi-objective optimization problem, in order to take, e.g., resource requirements into account. In this paper, we propose a set of methods that extend current approaches to jointly optimize neural architectures and hyperparameters with respect to multiple objectives. We hope that these methods will serve as simple baselines for future research on multi-objective joint NAS + HPO. To facilitate this, all our code is available at https://github.com/automl/multi-obj-baselines.
翻訳日:2021-05-04 17:06:50 公開日:2021-05-03
# (参考訳) ニューラルネットワークサブグリッドスケール乱流モデルの組込み学習

Embedded training of neural-network sub-grid-scale turbulence models ( http://arxiv.org/abs/2105.01030v1 )

ライセンス: CC BY 4.0
Jonathan F. MacArt, Justin Sirignano, Jonathan B. Freund(参考訳) レイノルズ数$re_0=6\,000$の時発展面乱流噴流におけるサブグリッドスケール応力のモデルを提供するため、ディープニューラルネットワークモデルの重み付けを制御フロー方程式と共に最適化する。 トレーニングの目的関数は, 対応する直接数値シミュレーションによる瞬時濾過速度場に基づいており, モデルの重みの終端感度を速度場に与えるために, 共役なナビエ-ストークス方程式を用いた確率勾配降下法を用いて訓練を行う。 複数のデュアルジェット構成でのサンプル内およびサンプル外テストでは、平均流、レイノルズ応力、スペクトルの予測に必要なメッシュ密度が、動的スマゴリンスキーモデルが同等の精度で必要とする半分であることが示されている。 フィルタリングされたサブグリッドスケールのストレスに合致するように直接訓練された同じニューラルネットワークモデル -- トレーニング中にフロー方程式に埋め込まれる制約なしに -- は、定性的に正しい予測を提供することができない。 結合された定式化は平均流とレイノルズ応力のみに基づいて列車に一般化され、実験で容易に利用できる。 平均フロートレーニングはロバストなモデルを提供しており、これは重要であるが、この場合トレーニングに利用可能な情報が少ないため予想されるように、同じ粗いメッシュに対する予測はやや正確ではない。 定式化の期待されている利点は、訓練に解決された物理学を組み込むことが外挿能力を高めることである。 これは受動スカラー輸送の場合に評価され、混合予測の改善により確立されたモデルよりも優れている。

The weights of a deep neural network model are optimized in conjunction with the governing flow equations to provide a model for sub-grid-scale stresses in a temporally developing plane turbulent jet at Reynolds number $Re_0=6\,000$. The objective function for training is first based on the instantaneous filtered velocity fields from a corresponding direct numerical simulation, and the training is by a stochastic gradient descent method, which uses the adjoint Navier--Stokes equations to provide the end-to-end sensitivities of the model weights to the velocity fields. In-sample and out-of-sample testing on multiple dual-jet configurations show that its required mesh density in each coordinate direction for prediction of mean flow, Reynolds stresses, and spectra is half that needed by the dynamic Smagorinsky model for comparable accuracy. The same neural-network model trained directly to match filtered sub-grid-scale stresses -- without the constraint of being embedded within the flow equations during the training -- fails to provide a qualitatively correct prediction. The coupled formulation is generalized to train based only on mean-flow and Reynolds stresses, which are more readily available in experiments. The mean-flow training provides a robust model, which is important, though a somewhat less accurate prediction for the same coarse meshes, as might be anticipated due to the reduced information available for training in this case. The anticipated advantage of the formulation is that the inclusion of resolved physics in the training increases its capacity to extrapolate. This is assessed for the case of passive scalar transport, for which it outperforms established models due to improved mixing predictions.
翻訳日:2021-05-04 16:45:25 公開日:2021-05-03
# (参考訳) 新型コロナウイルスパンデミック時の消費者需要モデリング

Consumer Demand Modeling During COVID-19 Pandemic ( http://arxiv.org/abs/2105.01036v1 )

ライセンス: CC BY 4.0
Shaz Hoda, Amitoj Singh, Anand Rao, Remzi Ural, Nicholas Hodson(参考訳) 現在のパンデミックは、従来の需要計画手法にかなりの不確実性をもたらした。 これらの不確実性は、病気の進行、政府の介入、経済、消費者行動に起因している。 パンデミックに関する新興文献の多くは、病気の進行に焦点を当てているが、一部の文献は、その後の規制と個人の行動への影響に焦点を当てている。 本稿では,covid-19に対する不安に対する定量的行動モデル,政府の介入が消費者行動に与える影響,消費者行動が消費者選択,それゆえ商品需要に与える影響について述べる。 病気の進行、消費者の行動、需要予測の複数のモデルが組み合わさり、病気の進行と消費者の需要のギャップを埋める。 我々は、パンデミック時の需要の要因を理解するためにパネル回帰を用いており、ベイジアン推論は、レジリエントな需要計画のシナリオを構築するのに役立つ規制の環境を簡素化する。 ガス小売の具体例を用いて,このレジリエントな需要計画モデルを示す。 新型コロナウイルス(covid-19)の感染者が前週に増加するにつれ、ガス需要は減少するが、時間とともに減少する。 さらに、政府の規制によって異なるサービスへのアクセスが制限され、モビリティが低下し、それ自体は需要が減少する。

The current pandemic has introduced substantial uncertainty to traditional methods for demand planning. These uncertainties stem from the disease progression, government interventions, economy and consumer behavior. While most of the emerging literature on the pandemic has focused on disease progression, a few have focused on consequent regulations and their impact on individual behavior. The contributions of this paper include a quantitative behavior model of fear of COVID-19, impact of government interventions on consumer behavior, and impact of consumer behavior on consumer choice and hence demand for goods. It brings together multiple models for disease progression, consumer behavior and demand estimation-thus bridging the gap between disease progression and consumer demand. We use panel regression to understand the drivers of demand during the pandemic and Bayesian inference to simplify the regulation landscape that can help build scenarios for resilient demand planning. We illustrate this resilient demand planning model using a specific example of gas retailing. We find that demand is sensitive to fear of COVID-19: as the number of COVID-19 cases increase over the previous week, the demand for gas decreases -- though this dissipates over time. Further, government regulations restrict access to different services, thereby reducing mobility, which in itself reduces demand.
翻訳日:2021-05-04 16:12:50 公開日:2021-05-03
# (参考訳) goldilocks:テクノロジー支援のためのbertの右チューニング

Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review ( http://arxiv.org/abs/2105.01044v1 )

ライセンス: CC BY-SA 4.0
Eugene Yang, Sean MacAvaney, David D. Lewis, Ophir Frieder(参考訳) technology-assisted review (tar) は、ハイリコール検索(hrr)タスクにおける文書レビューのための反復的なアクティブラーニングワークフローを指す。 TAR研究とほとんどの商用TARソフトウェアは、ロジスティック回帰やサポートベクターマシンのような線形モデルを語彙的特徴に適用している。 教師付きチューニングを用いたトランスフォーマーベースモデルでは,多くのテキスト分類タスクの有効性が向上し,TARでの使用が示唆された。 RCV1-v2ニュースワイヤコレクションを模擬したTARワークフローにおいて,事前学習したBERTモデルによりレビューボリュームが30%削減されることがわかった。 対照的に、線形モデルは、Jeb Bushの電子メール収集における法的な発見をシミュレートするためのBERTよりも優れている。 これは、トランスフォーマプリトレーニングコーパスとタスクドメインのマッチングが一般的に評価されるよりも重要であることを示唆している。 さらに,能動的学習を始める前に,タスクコレクションの右翼言語モデルによる微調整が重要であることを示す。 RCV1-v2でも、微調整が多すぎると線形モデルよりも性能が悪くなる。

Technology-assisted review (TAR) refers to iterative active learning workflows for document review in high recall retrieval (HRR) tasks. TAR research and most commercial TAR software have applied linear models such as logistic regression or support vector machines to lexical features. Transformer-based models with supervised tuning have been found to improve effectiveness on many text classification tasks, suggesting their use in TAR. We indeed find that the pre-trained BERT model reduces review volume by 30% in TAR workflows simulated on the RCV1-v2 newswire collection. In contrast, we find that linear models outperform BERT for simulated legal discovery topics on the Jeb Bush e-mail collection. This suggests the match between transformer pre-training corpora and the task domain is more important than generally appreciated. Additionally, we show that just-right language model fine-tuning on the task collection before starting active learning is critical. Both too little or too much fine-tuning results in performance worse than that of linear models, even for RCV1-v2.
翻訳日:2021-05-04 16:03:00 公開日:2021-05-03
# (参考訳) act the part:articulated object part discoveryの学習インタラクション戦略

Act the Part: Learning Interaction Strategies for Articulated Object Part Discovery ( http://arxiv.org/abs/2105.01047v1 )

ライセンス: CC BY 4.0
Samir Yitzhak Gadre, Kiana Ehsani, Shuran Song(参考訳) 人々は、オブジェクトのセマンティクスに関係なく、明瞭なオブジェクトを操作するときに、物理的直観を使うことが多い。 この観察により,エージェントが部品を回収するためにオブジェクトと遊ばなければならない重要な具体的タスクを特定する。 この目的を達成するために,我々はact the part (atp) を導入して,明瞭な物体と相互作用し,それらの部品を発見・分割する方法を学習する。 アクション選択とモーションセグメンテーションを結合することにより、AtPはセマンティックラベルなしで知覚部分の回復を可能にする構造を分離することができる。 実験の結果、AtPは部分発見のための効率的な戦略を学習し、未知のカテゴリに一般化し、タスクの条件付き推論を行うことができることがわかった。 シミュレーションで訓練したものの、微調整することなく実世界データへの説得力のある転送を示す。

People often use physical intuition when manipulating articulated objects, irrespective of object semantics. Motivated by this observation, we identify an important embodied task where an agent must play with objects to recover their parts. To this end, we introduce Act the Part (AtP) to learn how to interact with articulated objects to discover and segment their pieces. By coupling action selection and motion segmentation, AtP is able to isolate structures to make perceptual part recovery possible without semantic labels. Our experiments show AtP learns efficient strategies for part discovery, can generalize to unseen categories, and is capable of conditional reasoning for the task. Although trained in simulation, we show convincing transfer to real world data with no fine-tuning.
翻訳日:2021-05-04 15:51:46 公開日:2021-05-03
# (参考訳) SuperPERB: 音声処理ユニバーサルパフォーマンスベンチマーク

SUPERB: Speech processing Universal PERformance Benchmark ( http://arxiv.org/abs/2105.01051v1 )

ライセンス: CC BY 4.0
Shu-wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Jeff Lai, Kushal Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting Lin, Tzu-Hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang, Shuyan Dong, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee(参考訳) 自己教師付き学習(ssl)は自然言語処理(nlp)とコンピュータビジョン(cv)の研究を進める上で不可欠である。 このパラダイムは、ラベルのない大量のデータに対して共有モデルを事前訓練し、最小限の適応で様々なタスクに対して最先端(SOTA)を達成する。 しかし、音声処理コミュニティは、体系的にパラダイムを探求するのと同様の仕組みを欠いている。 このギャップを埋めるために,音声処理ユニバーサルパフォーマンスベンチマーク(superb)を提案する。 SUPERBは、最小限のアーキテクチャ変更とラベル付きデータを持つ幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするリーダーボードである。 共有モデルの複数の使用例の中で、特に好適な再利用性のためにSSLから学んだ表現の抽出に重点を置いている。 凍結した共有モデル上でタスク特化軽量予測ヘッドを学習することにより,SUPERBタスクを解決するための簡単なフレームワークを提案する。 SSL表現は SUPERB タスク間の競合する一般化性とアクセシビリティを示すため,本フレームワークは有望であることを示す。 我々は,表象学習と一般音声処理の研究を促進させるために,リーダボードとベンチマークツールキットによる課題としてsuperbをリリースする。

Self-supervised learning (SSL) has proven vital for advancing research in natural language processing (NLP) and computer vision (CV). The paradigm pretrains a shared model on large volumes of unlabeled data and achieves state-of-the-art (SOTA) for various tasks with minimal adaptation. However, the speech processing community lacks a similar setup to systematically explore the paradigm. To bridge this gap, we introduce Speech processing Universal PERformance Benchmark (SUPERB). SUPERB is a leaderboard to benchmark the performance of a shared model across a wide range of speech processing tasks with minimal architecture changes and labeled data. Among multiple usages of the shared model, we especially focus on extracting the representation learned from SSL due to its preferable re-usability. We present a simple framework to solve SUPERB tasks by learning task-specialized lightweight prediction heads on top of the frozen shared model. Our results demonstrate that the framework is promising as SSL representations show competitive generalizability and accessibility across SUPERB tasks. We release SUPERB as a challenge with a leaderboard and a benchmark toolkit to fuel the research in representation learning and general speech processing.
翻訳日:2021-05-04 15:35:52 公開日:2021-05-03
# (参考訳) 応用言語技術:人文科学のためのNLP

Applied Language Technology: NLP for the Humanities ( http://arxiv.org/abs/2105.01052v1 )

ライセンス: CC BY 4.0
Tuomo Hiippala(参考訳) この貢献は、言語技術とそのpythonを使ったアプリケーションに関する基本的な理解を人文科学専攻に提供する2つのコースモジュールについて記述している。 学習教材はインタラクティブなJupyter Notebookと、Creative Commonsライセンスで公開されているYouTubeビデオで構成されている。

This contribution describes a two-course module that seeks to provide humanities majors with a basic understanding of language technology and its applications using Python. The learning materials consist of interactive Jupyter Notebooks and accompanying YouTube videos, which are openly available with a Creative Commons licence.
翻訳日:2021-05-04 15:21:24 公開日:2021-05-03
# (参考訳) 組込みデバイスソリューションのための銃検出データセットと探索

A Gun Detection Dataset and Searching for Embedded Device Solutions ( http://arxiv.org/abs/2105.01058v1 )

ライセンス: CC BY 4.0
Delong Qi, Weijun Tan, Zhifu Liu, Qi Yao, Jingfeng Liu(参考訳) 銃暴力は世界でも特にアメリカ合衆国では深刻な問題である。 監視ビデオカメラやスマートIPカメラで銃を検出するコンピュータビジョン手法が研究され、安全担当者にリアルタイムの警報を送信する。 しかし、公開データセットがないため、そのようなメソッドが実際のアプリケーションでどのように機能するかをベンチマークするのは困難である。 本稿では,銃検出用の51kアノテートガン画像と,いくつかの異なるソースから収集した銃分類用の51kクロップガンチップ画像を含むデータセットを公開する。 我々の知る限り、これは銃検出研究の最大のデータセットである。 このデータセットはwww.linksprite.com/gun-detection-datasetsでダウンロードできる。 また,組込みエッジデバイス(カメラ)における銃検出ソリューションの探索や,クラウドサーバ上での銃・銃の分類についても検討した。 このエッジ/クラウドフレームワークは、実世界での銃検出を可能にする。

Gun violence is a severe problem in the world, particularly in the United States. Computer vision methods have been studied to detect guns in surveillance video cameras or smart IP cameras and to send a real-time alert to safety personals. However, due to no public datasets, it is hard to benchmark how well such methods work in real applications. In this paper we publish a dataset with 51K annotated gun images for gun detection and other 51K cropped gun chip images for gun classification we collect from a few different sources. To our knowledge, this is the largest dataset for the study of gun detection. This dataset can be downloaded at www.linksprite.com/gun-detection-datasets. We also study to search for solutions for gun detection in embedded edge device (camera) and a gun/non-gun classification on a cloud server. This edge/cloud framework makes possible the deployment of gun detection in the real world.
翻訳日:2021-05-04 15:17:43 公開日:2021-05-03
# (参考訳) 身体情報のための奇抜な表現学習

Curious Representation Learning for Embodied Intelligence ( http://arxiv.org/abs/2105.01060v1 )

ライセンス: CC0 1.0
Yilun Du, Chuang Gan, Phillip Isola(参考訳) 近年,自己指導型表現学習は顕著な成功を収めている。 教師付きラベルの必要性を抑えることで、そのようなアプローチはインターネットや写真データセットに存在する多くの未ラベル画像を利用することができる。 しかし、真にインテリジェントなエージェントを構築するためには、データセットからだけでなく、環境からも学習できる表現学習アルゴリズムを構築する必要がある。 自然環境のエージェントは通常、キュレートされたデータを供給しない。 その代わりに、学習するデータを取得する環境を探さなければなりません。 本研究では,強化学習方針と視覚表現モデルとを共同で学習するフレームワーク,curiosity representation learning (crl)を提案する。 このポリシーは,表現学習者の誤りを最大化するために訓練され,その過程で環境探索にインセンティブを与える。 同時に、学習した表現がより強く、より強くなり、ポリシーはそこから学ぶのがずっと難しいデータを供給します。 私たちの学習した表現は、下流のナビゲーションタスクへの有望な転送を可能にします。 さらに,シミュレーションの訓練を受けながら,実画像上での解釈可能な結果を得ることができる。

Self-supervised representation learning has achieved remarkable success in recent years. By subverting the need for supervised labels, such approaches are able to utilize the numerous unlabeled images that exist on the Internet and in photographic datasets. Yet to build truly intelligent agents, we must construct representation learning algorithms that can learn not only from datasets but also learn from environments. An agent in a natural environment will not typically be fed curated data. Instead, it must explore its environment to acquire the data it will learn from. We propose a framework, curious representation learning (CRL), which jointly learns a reinforcement learning policy and a visual representation model. The policy is trained to maximize the error of the representation learner, and in doing so is incentivized to explore its environment. At the same time, the learned representation becomes stronger and stronger as the policy feeds it ever harder data to learn from. Our learned representations enable promising transfer to downstream navigation tasks, performing better than or comparably to ImageNet pretraining without using any supervision at all. In addition, despite being trained in simulation, our learned representations can obtain interpretable results on real images.
翻訳日:2021-05-04 14:44:26 公開日:2021-05-03
# 因子化ニューラル層の初期化と規則化

Initialization and Regularization of Factorized Neural Layers ( http://arxiv.org/abs/2105.01029v1 )

ライセンス: Link先を確認
Mikhail Khodak and Neil Tenenholtz and Lester Mackey and Nicol\`o Fusi(参考訳) 因子層-2つ以上の行列の積によってパラメータ化される-圧縮モデルトレーニング、ある種の知識蒸留、マルチヘッド自己注意アーキテクチャなど、さまざまなディープラーニングコンテキストで発生する。 本研究では,これらの層を含むディープネットの初期化と規則化の方法について検討し,スペクトル初期化とフロベニウス崩壊の2つの簡易な方法を検討した。 私たちは、初期化と正規化のスキームが勾配降下によるトレーニングにどのように影響するかを分析し、重み付けとバッチ正規化の相互作用を理解するための現代的な試みを描いています。 実験的に、スペクトル初期化とフロベニウス崩壊の利点を様々な設定で強調する。 モデル圧縮において、低ランク法では、低メモリ残差ネットワークを訓練するタスクにおいて、非構造化スパーシティ法とテンソル法の両方を著しく上回ることができることを示した。 知識蒸留において、フロベニウスの崩壊は、教師ネットワークの再訓練や刈り取りを必要とせずに、過剰パラメータのトレーニングからコンパクトなモデルを生成する、単純で完全なベースラインを可能にする。 最後に,マルチヘッドアテンションに適用した2つのスキームが,翻訳および教師なし事前学習の性能向上につながることを示す。

Factorized layers--operations parameterized by products of two or more matrices--occur in a variety of deep learning contexts, including compressed model training, certain types of knowledge distillation, and multi-head self-attention architectures. We study how to initialize and regularize deep nets containing such layers, examining two simple, understudied schemes, spectral initialization and Frobenius decay, for improving their performance. The guiding insight is to design optimization routines for these networks that are as close as possible to that of their well-tuned, non-decomposed counterparts; we back this intuition with an analysis of how the initialization and regularization schemes impact training with gradient descent, drawing on modern attempts to understand the interplay of weight-decay and batch-normalization. Empirically, we highlight the benefits of spectral initialization and Frobenius decay across a variety of settings. In model compression, we show that they enable low-rank methods to significantly outperform both unstructured sparsity and tensor methods on the task of training low-memory residual networks; analogs of the schemes also improve the performance of tensor decomposition techniques. For knowledge distillation, Frobenius decay enables a simple, overcomplete baseline that yields a compact model from over-parameterized training without requiring retraining with or pruning a teacher network. Finally, we show how both schemes applied to multi-head attention lead to improved performance on both translation and unsupervised pre-training.
翻訳日:2021-05-04 14:24:17 公開日:2021-05-03
# 不均一グラフのためのスキーマ対応深部グラフ畳み込みネットワーク

Schema-Aware Deep Graph Convolutional Networks for Heterogeneous Graphs ( http://arxiv.org/abs/2105.00644v1 )

ライセンス: Link先を確認
Saurav Manchanda and Da Zheng and George Karypis(参考訳) グラフ畳み込みネットワーク(GCN)に基づくアプローチは、複雑でグラフ構造化された問題を解決するために大きな進歩を遂げた。 GCNはグラフ構造情報と、メッセージパッシングを通じてノード(またはエッジ)の特徴を取り入れ、'deep'ノード表現を計算します。 この分野の大きな進歩にもかかわらず、異種グラフのためのgcnアーキテクチャの設計はいまだに未解決の課題である。 ヘテロジニアスグラフのスキーマのため、有用な情報は複数のホップから立ち去ることができる。 重要な疑問は、GCNのよく知られたオーバースムーシング問題を避けながら、近隣の複数のホップの情報を取り込むためにメッセージパッシングを実行する方法である。 この問題に対処するために、異種グラフのスキーマを活用し、階層的なアプローチを用いて多くのホップを効果的に活用するGCNフレームワーク「深不均一グラフ畳み込みネットワーク(DHGCN)」を提案する。 まず、ターゲットノードの表現を'schema- derived ego-network' (sen) に基づいて計算する。 そして、同じタイプのノードを様々な事前定義されたメタパスにリンクし、これらのリンクに沿ってメッセージパッシングを実行して最終ノード表現を計算する。 我々の設計選択は、スキーマから不均一グラフを生成する方法を自然に捉えます。 実および合成データセットの実験結果は、設計選択を相関させ、競合する選択肢と比較して性能向上を示す。

Graph convolutional network (GCN) based approaches have achieved significant progress for solving complex, graph-structured problems. GCNs incorporate the graph structure information and the node (or edge) features through message passing and computes 'deep' node representations. Despite significant progress in the field, designing GCN architectures for heterogeneous graphs still remains an open challenge. Due to the schema of a heterogeneous graph, useful information may reside multiple hops away. A key question is how to perform message passing to incorporate information of neighbors multiple hops away while avoiding the well-known over-smoothing problem in GCNs. To address this question, we propose our GCN framework 'Deep Heterogeneous Graph Convolutional Network (DHGCN)', which takes advantage of the schema of a heterogeneous graph and uses a hierarchical approach to effectively utilize information many hops away. It first computes representations of the target nodes based on their 'schema-derived ego-network' (SEN). It then links the nodes of the same type with various pre-defined metapaths and performs message passing along these links to compute final node representations. Our design choices naturally capture the way a heterogeneous graph is generated from the schema. The experimental results on real and synthetic datasets corroborate the design choice and illustrate the performance gains relative to competing alternatives.
翻訳日:2021-05-04 14:21:20 公開日:2021-05-03
# 膵マスイメージング分類のためのスペクトル機械学習

Spectral Machine Learning for Pancreatic Mass Imaging Classification ( http://arxiv.org/abs/2105.00728v1 )

ライセンス: Link先を確認
Yiming Liu, Ying Chen, Guangming Pan, Weichung Wang, Wei-Chih Liao, Yee Liang Thian, Cheng E. Chee and Constantinos P. Anastassiades(参考訳) CT画像を用いた膵腫瘤検診における新しいスペクトル機械学習(SML)法を提案する。 アルゴリズムは,250例(正常膵50例,異常膵所見200例)の約30,000画像を用いて,公開データに基づいて訓練を行う。 正常膵32例中26例, 異常膵所見81例中81例について, 113例の約15,000画像に基づいて, サンプル外診断で94.6%の検診精度が得られた。 SMLは、診断分類において、自動的に基本画像(各患者の平均5または9画像)を選択でき、上記の精度を達成できる。 計算時間は、標準的なCPU実行環境を持つラップトップで113人の患者を診断するために75秒である。 Factors that influenced high performance of a well-designed integration of spectral learning and machine learning included: 1) use of eigenvectors corresponding to several of the largest eigenvalues of sample covariance matrix (spike eigenvectors) to choose input attributes in classification training, taking into account only the fundamental information of the raw images with less noise; 2) removal of irrelevant pixels based on mean-level spectral test to lower the challenges of memory capacity and enhance computational efficiency while maintaining superior classification accuracy; 3) adoption of state-of-the-art machine learning classification, gradient boosting and random forest. 提案手法は,AI時代の膵マススクリーニングにおける画像診断の実用性と精度の向上を示す。

We present a novel spectral machine learning (SML) method in screening for pancreatic mass using CT imaging. Our algorithm is trained with approximately 30,000 images from 250 patients (50 patients with normal pancreas and 200 patients with abnormal pancreas findings) based on public data sources. A test accuracy of 94.6 percents was achieved in the out-of-sample diagnosis classification based on a total of approximately 15,000 images from 113 patients, whereby 26 out of 32 patients with normal pancreas and all 81 patients with abnormal pancreas findings were correctly diagnosed. SML is able to automatically choose fundamental images (on average 5 or 9 images for each patient) in the diagnosis classification and achieve the above mentioned accuracy. The computational time is 75 seconds for diagnosing 113 patients in a laptop with standard CPU running environment. Factors that influenced high performance of a well-designed integration of spectral learning and machine learning included: 1) use of eigenvectors corresponding to several of the largest eigenvalues of sample covariance matrix (spike eigenvectors) to choose input attributes in classification training, taking into account only the fundamental information of the raw images with less noise; 2) removal of irrelevant pixels based on mean-level spectral test to lower the challenges of memory capacity and enhance computational efficiency while maintaining superior classification accuracy; 3) adoption of state-of-the-art machine learning classification, gradient boosting and random forest. Our methodology showcases practical utility and improved accuracy of image diagnosis in pancreatic mass screening in the era of AI.
翻訳日:2021-05-04 14:20:34 公開日:2021-05-03
# ベイズ最適化はどのようにあるべきか?

How Bayesian Should Bayesian Optimisation Be? ( http://arxiv.org/abs/2105.00894v1 )

ライセンス: Link先を確認
George De Ath, Richard Everson and Jonathan Fieldsend(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数の最適化に確率的代理モデル(通常ガウス過程(GP))を用いる。 それぞれのboイテレーションでは、gpハイパーパラメータは限界確率を最大化することにより、事前評価されたデータに適合する。 しかし、これはハイパーパラメータ自体の不確かさを考慮せず、自信過剰なモデル予測に繋がる。 この不確実性は、ベイズ的アプローチでモデルハイパーパラメーターを区切ることによって説明できる。 BO(FBBO)におけるガウス過程ハイパーパラメータの完全ベイズ処理が最適化性能の向上につながるかどうかを考察する。 解析的アプローチは難解であるので、fbbo を3つの近似推論スキームを用いて、予測改善(ei)と最大信頼境界(ucb)獲得関数を ard および等方性母子カーネルとペアリングし、4つの観測ノイズ設定のための15の既知のベンチマーク問題と比較する。 ARDカーネルでEIを使用するFBBOは、ノイズの増加時にBO成分の組み合わせの差をはるかに少なくして、ノイズフリー環境で最高の性能を実現する。 FBBO は UCB で過剰探索するが、EI では有害ではない。 したがって、BOのデフォルト選択として、ARDカーネルでEIを使用するFBBOを推奨する。

Bayesian optimisation (BO) uses probabilistic surrogate models - usually Gaussian processes (GPs) - for the optimisation of expensive black-box functions. At each BO iteration, the GP hyperparameters are fit to previously-evaluated data by maximising the marginal likelihood. However, this fails to account for uncertainty in the hyperparameters themselves, leading to overconfident model predictions. This uncertainty can be accounted for by taking the Bayesian approach of marginalising out the model hyperparameters. We investigate whether a fully-Bayesian treatment of the Gaussian process hyperparameters in BO (FBBO) leads to improved optimisation performance. Since an analytic approach is intractable, we compare FBBO using three approximate inference schemes to the maximum likelihood approach, using the Expected Improvement (EI) and Upper Confidence Bound (UCB) acquisition functions paired with ARD and isotropic Matern kernels, across 15 well-known benchmark problems for 4 observational noise settings. FBBO using EI with an ARD kernel leads to the best performance in the noise-free setting, with much less difference between combinations of BO components when the noise is increased. FBBO leads to over-exploration with UCB, but is not detrimental with EI. Therefore, we recommend that FBBO using EI with an ARD kernel as the default choice for BO.
翻訳日:2021-05-04 14:19:26 公開日:2021-05-03
# バンド幅・演算に適応した単発協調物体検出器

Single-Training Collaborative Object Detectors Adaptive to Bandwidth and Computation ( http://arxiv.org/abs/2105.00591v1 )

ライセンス: Link先を確認
Juliano S. Assine, J. C. S. Santos Filho, Eduardo Valle(参考訳) 過去数年間、モバイルのディープラーニングデプロイメントは飛躍的に進歩したが、帯域幅、レイテンシ、計算、エネルギなど、厳格で変動する運用制限に対応するソリューションには、依然として苦戦している。 本研究では,このギャップを埋める手助けをし,一組の重みで三重通信計算・精度トレードオフを管理するオブジェクト検出のための最初の構成可能なソリューションを導入する。 我々のソリューションはCOCO-2017における最先端の結果を示し、ベースとなるEfficientDet-D2アーキテクチャにわずかなペナルティしか与えない。 私たちの設計はベースアーキテクチャと圧縮機の選択に堅牢であり、将来のアーキテクチャにうまく適応するべきです。

In the past few years, mobile deep-learning deployment progressed by leaps and bounds, but solutions still struggle to accommodate its severe and fluctuating operational restrictions, which include bandwidth, latency, computation, and energy. In this work, we help to bridge that gap, introducing the first configurable solution for object detection that manages the triple communication-computation-accuracy trade-off with a single set of weights. Our solution shows state-of-the-art results on COCO-2017, adding only a minor penalty on the base EfficientDet-D2 architecture. Our design is robust to the choice of base architecture and compressor and should adapt well for future architectures.
翻訳日:2021-05-04 14:17:48 公開日:2021-05-03
# AIシステムがいかに公正であるかを説明する

Explaining how your AI system is fair ( http://arxiv.org/abs/2105.00667v1 )

ライセンス: Link先を確認
Boris Ruf, Marcin Detyniecki(参考訳) 公平な機械学習を持続可能な方法で実施するためには、適切な公正性目標を選択することが重要である。 公平性は様々な、時には矛盾する定義に現れる正義の概念であるから、これは自明な仕事ではない。 人工知能(AI)システムにおける最も適切な公平性の定義は、倫理的基準と法的要件の問題であり、適切な選択は特定のユースケースとそのコンテキストに依存する。 本稿では,エンドユーザーに対して実装された公平性を説明・正当化するための決定木の利用を提案する。 このような構造は、まず第一に、倫理的な原則を具体的なアプリケーションでフェアネス定義にマッピングするai実践者をサポートし、それゆえ選択を単純で透明なプロセスにする。 しかし、このアプローチは意思決定の背後にある理由を文書化するのに役立ちます。 AIにおける公平性というトピックの一般的な複雑さのため、特定のユースケースに対して"公正性"を指定することが、AIシステムの信頼性を維持するための最善の方法である、と私たちは論じています。 この場合は、意思決定プロセス中に表現された理由と原則を、より広いオーディエンスと共有することで実現できます。

To implement fair machine learning in a sustainable way, choosing the right fairness objective is key. Since fairness is a concept of justice which comes in various, sometimes conflicting definitions, this is not a trivial task though. The most appropriate fairness definition for an artificial intelligence (AI) system is a matter of ethical standards and legal requirements, and the right choice depends on the particular use case and its context. In this position paper, we propose to use a decision tree as means to explain and justify the implemented kind of fairness to the end users. Such a structure would first of all support AI practitioners in mapping ethical principles to fairness definitions for a concrete application and therefore make the selection a straightforward and transparent process. However, this approach would also help document the reasoning behind the decision making. Due to the general complexity of the topic of fairness in AI, we argue that specifying "fairness" for a given use case is the best way forward to maintain confidence in AI systems. In this case, this could be achieved by sharing the reasons and principles expressed during the decision making process with the broader audience.
翻訳日:2021-05-04 14:15:45 公開日:2021-05-03
# エネルギー制約下での水泳脱出パターンの学習

Learning swimming escape patterns under energy constraints ( http://arxiv.org/abs/2105.00771v1 )

ライセンス: Link先を確認
Ioannis Mandralis, Pascal Weber, Guido Novati, Petros Koumoutsakos(参考訳) 泳ぐ生物は、体の動きを通して不安定な流れ場を作り、利用することで捕食者から逃れることができる。 確率的最適化と流れシミュレーションは、自然の幼生に見られたものと一致した脱出パターンを同定した。 しかし、これらのパターンは特定のコスト関数の仕様によって制限され、身体運動の所定の機能形式に依存する。 ここでは,エネルギー制約下でスイマーの脱出パターンを発見するために強化学習を展開する。 特定されたパターンには、よりエネルギー効率の良いエスケープに加えて、Cスタート機構が含まれる。 限られたエネルギーで距離を最大化するためには、滑空相と連動する加速運動の短いバーストで泳ぐ必要がある。 本アルゴリズムは,効率的な水泳のための実用的なフロー最適化原理を明らかにするパターンの配列を示し,その手法をエネルギー制約下で動作している水生ロボット装置の制御に転送することができる。

Swimming organisms can escape their predators by creating and harnessing unsteady flow fields through their body motions. Stochastic optimization and flow simulations have identified escape patterns that are consistent with those observed in natural larval swimmers. However, these patterns have been limited by the specification of a particular cost function and depend on a prescribed functional form of the body motion. Here, we deploy reinforcement learning to discover swimmer escape patterns under energy constraints. The identified patterns include the C-start mechanism, in addition to more energetically efficient escapes. We find that maximizing distance with limited energy requires swimming via short bursts of accelerating motion interlinked with phases of gliding. The present, data efficient, reinforcement learning algorithm results in an array of patterns that reveal practical flow optimization principles for efficient swimming and the methodology can be transferred to the control of aquatic robotic devices operating under energy constraints.
翻訳日:2021-05-04 14:15:26 公開日:2021-05-03
# VAEベースのレコメンダシステムの高速マルチステップ評価

Fast Multi-Step Critiquing for VAE-based Recommender Systems ( http://arxiv.org/abs/2105.00774v1 )

ライセンス: Link先を確認
Diego Antognini and Boi Faltings(参考訳) 近年の研究では、パーソナライズされた説明とレコメンデーションが信頼と品質を高めることが示されている。 さらに、ユーザには説明の一部を批判することで、レコメンデーションを洗練する機会を提供する。 一方、現在のレコメンデータシステムは、リコメンデーション、説明、批判の目的を共同でモデル化しますが、これはそれぞれのパフォーマンスの間に固有のトレードオフを生み出します。 一方,近年の線形評定手法は既存の推薦システム上に構築されているが,各会話のターンに最適化された目的のため,推論における計算不効率に悩まされている。 我々は,マルチモーダルモデリングの仮定に基づくレコメンデーションと説明のための新しい変分オートエンコーダであるm&ms-vaeを用いて,これらの欠陥に対処する。 我々は、完全かつ部分的に観測された変数の両方をシミュレートするために、弱い監督スキームの下でモデルを訓練する。 そして、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。 私たちの仕事で最も重要なイノベーションは、単純なランキング目標で自己監督された方法で構築され、トレーニングされる、クリティキシングモジュールです。 実世界の4つのデータセットの実験により、我々のシステムは、最先端のモデルの中で、推奨、説明、マルチステップのクオリティでパフォーマンスを最初に支配または一致させた。 さらに、M&Ms-VAEは最高の基準線よりも25.6倍高速な批評を処理している。 最後に,本モデルでは,マルチモーダルモデルとトレーニング方式により,弱い監督下でもコヒーレント継手とクロスジェネレーションを推定できることを示す。

Recent studies have shown that providing personalized explanations alongside recommendations increases trust and perceived quality. Furthermore, it gives users an opportunity to refine the recommendations by critiquing parts of the explanations. On one hand, current recommender systems model the recommendation, explanation, and critiquing objectives jointly, but this creates an inherent trade-off between their respective performance. On the other hand, although recent latent linear critiquing approaches are built upon an existing recommender system, they suffer from computational inefficiency at inference due to the objective optimized at each conversation's turn. We address these deficiencies with M&Ms-VAE, a novel variational autoencoder for recommendation and explanation that is based on multimodal modeling assumptions. We train the model under a weak supervision scheme to simulate both fully and partially observed variables. Then, we leverage the generalization ability of a trained M&Ms-VAE model to embed the user preference and the critique separately. Our work's most important innovation is our critiquing module, which is built upon and trained in a self-supervised manner with a simple ranking objective. Experiments on four real-world datasets demonstrate that among state-of-the-art models, our system is the first to dominate or match the performance in terms of recommendation, explanation, and multi-step critiquing. Moreover, M&Ms-VAE processes the critiques up to 25.6x faster than the best baselines. Finally, we show that our model infers coherent joint and cross generation, even under weak supervision, thanks to our multimodal-based modeling and training scheme.
翻訳日:2021-05-04 14:15:13 公開日:2021-05-03
# 注意型シームズニューラルネットワークを用いた全参照音声品質推定

Full-Reference Speech Quality Estimation with Attentional Siamese Neural Networks ( http://arxiv.org/abs/2105.00783v1 )

ライセンス: Link先を確認
Gabriel Mittags, Sebastian M\"oller(参考訳) 本稿では,深層学習を用いた全参照音声品質予測モデルを提案する。 モデルは、入力として両方の信号の重みを共有するシアム再帰畳み込みネットワークを介して、参照信号と劣化信号の特徴表現を決定する。 得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。 提案するネットワークアーキテクチャは,Voice-Over-IPネットワークを介して送信される音声信号に対して発生する時間調整問題の簡単な解を示し,そのクリーン参照信号をエンドツーエンドのニューラルネットワークに基づく音声品質モデルに組み込む方法を示す。

In this paper, we present a full-reference speech quality prediction model with a deep learning approach. The model determines a feature representation of the reference and the degraded signal through a siamese recurrent convolutional network that shares the weights for both signals as input. The resulting features are then used to align the signals with an attention mechanism and are finally combined to estimate the overall speech quality. The proposed network architecture represents a simple solution for the time-alignment problem that occurs for speech signals transmitted through Voice-Over-IP networks and shows how the clean reference signal can be incorporated into speech quality models that are based on end-to-end trained neural networks.
翻訳日:2021-05-04 14:14:45 公開日:2021-05-03
# 一般化行動傾向推論のための生成的逆流学習

Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference ( http://arxiv.org/abs/2105.00822v1 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang and Quan Z. Sheng(参考訳) 強化学習の最近の進歩は、強化学習ベースのレコメンダシステムなど、動的インタラクションを通じて適応的にユーザーモデリングを学ぶことへの関心を高めている。 最適化に関するガイドラインを提供するため、ほとんどの強化学習アプリケーションにとって、報酬関数は不可欠です。 しかし,現在の強化学習に基づく手法では,動的環境や騒音環境に適応できない手作業による報酬関数が用いられている。 さらに、一般的には一般化能力を犠牲にするタスク固有の報酬機能を使用する。 本稿では,ユーザの行動嗜好モデリングのための生成的逆強化学習を提案する。 事前定義された報酬機能を使用する代わりに,識別的アクタ-クリティックネットワークとwasserstein ganに基づいて,ユーザのアクションから報酬を自動的に学習する。 提案手法は,交通信号制御,オンラインレコメンデータシステム,スキャンパス予測など,様々なシナリオにおいて最先端の手法よりも優れていることを示す。

Recent advances in reinforcement learning have inspired increasing interest in learning user modeling adaptively through dynamic interactions, e.g., in reinforcement learning based recommender systems. Reward function is crucial for most of reinforcement learning applications as it can provide the guideline about the optimization. However, current reinforcement-learning-based methods rely on manually-defined reward functions, which cannot adapt to dynamic and noisy environments. Besides, they generally use task-specific reward functions that sacrifice generalization ability. We propose a generative inverse reinforcement learning for user behavioral preference modelling, to address the above issues. Instead of using predefined reward functions, our model can automatically learn the rewards from user's actions based on discriminative actor-critic network and Wasserstein GAN. Our model provides a general way of characterizing and explaining underlying behavioral tendencies, and our experiments show our method outperforms state-of-the-art methods in a variety of scenarios, namely traffic signal control, online recommender systems, and scanpath prediction.
翻訳日:2021-05-04 14:14:33 公開日:2021-05-03
# RL-IoT: 強化学習によるIoT相互運用性の実現

RL-IoT: Towards IoT Interoperability via Reinforcement Learning ( http://arxiv.org/abs/2105.00884v1 )

ライセンス: Link先を確認
Giulia Milan, Luca Vassio, Idilio Drago, Marco Mellia(参考訳) 私たちの生活はモノのインターネット(IoT)デバイスで満たされています。 これらのデバイスは、しばしば、未知のフォーマットとセマンティクスを持つ、閉じた、または文書化されたプロトコルに依存する。 このようなデバイスを自律的に操作する方法を学ぶことは、相互運用性と機能の自動検証の鍵となる。 本稿では,未知のIoTデバイスを自動的に操作する方法を探索するシステムであるRL-IoTを提案する。 我々は、プロトコルメッセージの意味を理解するために強化学習(RL)を活用し、対話の回数を最小化しながら、所定の目標に達するためのデバイスを制御する。 セマンティクスが不明なIoTプロトコルメッセージのデータベースを知っていればよいと仮定する。 RL-IoTはターゲットのIoTデバイスとメッセージを交換し、所定の目標に到達するのに有用なコマンドを学ぶ。 その結果、RL-IoTは単純で複雑なタスクを解くことができることがわかった。 パラメータを適切に調整することで、RL-IoTはターゲットデバイスでアクションを実行する方法を学び、ケーススタディ用のYeelightスマート電球は、400のインタラクションで非自明なパターンを完了します。 RL-IoTは、RLを使用して、限られた情報でIoTプロトコルと対話する方法を自動で探求し、相互運用可能なシステムへの道を開く機会を開く。

Our life is getting filled by Internet of Things (IoT) devices. These devices often rely on closed or poorly documented protocols, with unknown formats and semantics. Learning how to interact with such devices in an autonomous manner is key for interoperability and automatic verification of their capabilities. In this paper, we propose RL-IoT -- a system that explores how to automatically interact with possibly unknown IoT devices. We leverage reinforcement learning (RL) to understand the semantics of protocol messages and to control the device to reach a given goal, while minimizing the number of interactions. We assume only to know a database of possible IoT protocol messages, whose semantics are however unknown. RL-IoT exchanges messages with the target IoT device, learning those commands that are useful to reach the given goal. Our results show that RL-IoT is able to solve simple and complex tasks. With properly tuned parameters, RL-IoT learns how to perform actions with the target device, a Yeelight smart bulb for our case study, completing non-trivial patterns with as few as 400 interactions. RL-IoT opens the opportunity to use RL to automatically explore how to interact with IoT protocols with limited information, and paving the road for interoperable systems.
翻訳日:2021-05-04 14:13:45 公開日:2021-05-03
# 交絡によるグラフのバラブシ・アルベルトパラメータの復元

Recovering Barabsi-Albert Parameters of Graphs through Disentanglement ( http://arxiv.org/abs/2105.00997v1 )

ライセンス: Link先を確認
Cristina Guzman, Daphna Keidar, Tristan Meynier, Andreas Opedal, Niklas Stoehr(参考訳) Erdos-Renyi (ER) ランダムグラフやBarabasi-Albert (BA) グラフのような古典的なグラフモデリングアプローチは、ここではスタイリングモデルと呼ばれ、解釈可能な方法で現実世界のグラフの性質を再現することを目的としている。 有用なのですが、スタイリッシュなモデルによるグラフ生成にはドメイン知識と反復試行とエラーシミュレーションが必要です。 Stoehrらによる以前の作品。 (2019) グラフデータから生成プロセスを学習し、より具体的にはβ-variational autoencoder (beta-vae) を使ってこれらの問題に対処する。 彼らはモデルの潜在変数、BAグラフなどのグラフを通じてERグラフの生成パラメータを復元することに成功している。 本研究では,ベータVAEデコーダを逐次的に置き換えることで,BAグラフの生成パラメータの復元に着目する。 まず,グラフニューラルネットワーク (GNN) とランダムフォレスト回帰器 (Random Forest Regressor) を用いて生成BAパラメータを教師付きで学習し,真の生成パラメータと潜伏変数の2乗損失を最小化する。 次に、GNNエンコーダを1段目からLSTMベースのデコーダと、カスタマイズされた損失で組み合わせたベータVAEモデルを訓練する。

Classical graph modeling approaches such as Erdos-Renyi (ER) random graphs or Barabasi-Albert (BA) graphs, here referred to as stylized models, aim to reproduce properties of real-world graphs in an interpretable way. While useful, graph generation with stylized models requires domain knowledge and iterative trial and error simulation. Previous work by Stoehr et al. (2019) addresses these issues by learning the generation process from graph data, using a disentanglement-focused deep autoencoding framework, more specifically, a beta-Variational Autoencoder (beta-VAE). While they successfully recover the generative parameters of ER graphs through the model's latent variables, graphs such as BA graphs, due to their oversimplified decoder. We focus on recovering the generative parameters of BA graphs by replacing their beta-VAE decoder with a sequential one. We first learn the generative BA parameters in a supervised fashion using a Graph Neural Network (GNN) and a Random Forest Regressor, by minimizing the squared loss between the true generative parameters and the latent variables. Next, we train a beta-VAE model, combining the GNN encoder from the first stage with an LSTM-based decoder with a customized loss.
翻訳日:2021-05-04 14:12:02 公開日:2021-05-03
# レール上の世界から運転を学ぶ

Learning to drive from a world on rails ( http://arxiv.org/abs/2105.00636v1 )

ライセンス: Link先を確認
Dian Chen, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。 世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。 事前に記録されたログからの学習を支援するため、世界はレール上にあり、エージェントもアクションも環境に影響を与えないと仮定する。 この仮定は学習問題を大いに単純化し、ダイナミクスを非反応性の世界モデルとエゴ車両の低次元かつコンパクトな前方モデルに分解する。 本稿では,ベルマン方程式の表型動的プログラミング評価を用いて,各学習軌跡に対する動作値を計算する。 レールの仮定にもかかわらず、最終的な運転方針は動的でリアクティブな世界でうまく機能する。 提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。 また,本手法は,procgenベンチマークのナビゲーションタスクにおいて,最先端のモデルフリー強化学習技術よりもサンプル効率が桁違いに向上する。

We learn an interactive vision-based driving policy from pre-recorded driving logs via a model-based approach. A forward model of the world supervises a driving policy that predicts the outcome of any potential driving trajectory. To support learning from pre-recorded logs, we assume that the world is on rails, meaning neither the agent nor its actions influence the environment. This assumption greatly simplifies the learning problem, factorizing the dynamics into a nonreactive world model and a low-dimensional and compact forward model of the ego-vehicle. Our approach computes action-values for each training trajectory using a tabular dynamic-programming evaluation of the Bellman equations; these action-values in turn supervise the final vision-based driving policy. Despite the world-on-rails assumption, the final driving policy acts well in a dynamic and reactive world. Our method ranks first on the CARLA leaderboard, attaining a 25% higher driving score while using 40 times less data. Our method is also an order of magnitude more sample-efficient than state-of-the-art model-free reinforcement learning techniques on navigational tasks in the ProcGen benchmark.
翻訳日:2021-05-04 14:09:51 公開日:2021-05-03
# Bird-Area Water-Bodies Dataset (BAWD) and Predictive AI Model for Avian Botulism Outbreak (AVI-BoT)

Bird-Area Water-Bodies Dataset (BAWD) and Predictive AI Model for Avian Botulism Outbreak (AVI-BoT) ( http://arxiv.org/abs/2105.00924v1 )

ライセンス: Link先を確認
Narayani Bhatia, Devang Mahesh, Jashandeep Singh, and Manan Suri(参考訳) 細菌Clostridium botulinumによって引き起こされる鳥のボツリヌス症は、しばしば高い死亡率につながる鳥類の麻痺性疾患を引き起こし、通常は分子技術を用いて診断される。 マウス・バイオアッセイ(英語版)、ELISA、PCR(英語版)、これらは全て時間を費やし、手間がかかり、感染した部位から侵入サンプルを採取する必要がある。 本研究では,グローバルバードエリア水球データセット(bawd)を用いた,初のマルチスペクトル・リモートセンシング画像を構築した。 鳥の動物相にとって重要な水域の画像が融合した衛星画像) 発生の証拠が地上で報告されている 現在のバージョンでは、bawdは2つのオープンソース衛星プロジェクト(sentinelとlandsat)から904 sq.kmの面積をカバーしている。 BAWDは4大陸にまたがる17の地形学的に多様なグローバルな場所で構成され、2016-2020年に3年間にわたって観測された。 BAWDと最先端のディープラーニング技術を用いて、AVI-BoT(Aerosol, Visible, Infra-red (NIR/SWIR)、Bands of Thermal)と呼ばれる鳥のボツリヌスの発生を予測するための、初の人工知能ベース(AI)モデルを提案する。 AVI-BoTは、水体(10バンド)の融合したマルチスペクトル衛星画像を入力として使用し、潜在的な鳥類のボツリヌスの発生確率を示す空間予測マップを生成する。 また,より単純な(5バンド)因果因子モデル(文献で報告されている顕著な生理的要因に基づく)を鳥の動植物学予測のために訓練し,検討した。 avi-botを用いて0.94のトレーニング精度とbawd上で0.96の検証精度を実現する。 提案手法は,有意義な動物相を救える可能性を秘めた,大規模で低コストで非侵襲的な鳥類生息地モニタリング手法を提案する。

Avian botulism caused by a bacterium, Clostridium botulinum, causes a paralytic disease in birds often leading to high fatality, and is usually diagnosed using molecular techniques. Diagnostic techniques for Avian botulism include: Mouse Bioassay, ELISA, PCR, all of which are time-consuming, laborious and require invasive sample collection from affected sites. In this study, we build a first-ever multi-spectral, remote-sensing imagery based global Bird-Area Water-bodies Dataset (BAWD) (i.e. fused satellite images of water-body sites important for avian fauna) backed by on-ground reporting evidence of outbreaks. In the current version, BAWD covers a total ground area of 904 sq.km from two open source satellite projects (Sentinel and Landsat). BAWD consists of 17 topographically diverse global sites spanning across 4 continents, with locations monitored over a time-span of 3 years (2016-2020). Using BAWD and state-of-the-art deep-learning techniques we propose a first-ever Artificial Intelligence based (AI) model to predict potential outbreak of Avian botulism called AVI-BoT (Aerosol, Visible, Infra-red (NIR/SWIR) and Bands of Thermal). AVI-BoT uses fused multi-spectral satellite images of water-bodies (10-bands) as input to generate a spatial prediction map depicting probability of potential Avian botulism outbreaks. We also train and investigate a simpler (5-band) Causative-Factor model (based on prominent physiological factors reported in literature as conducive for outbreak) to predict Avian botulism. Using AVI-BoT, we achieve a training accuracy of 0.94 and validation accuracy of 0.96 on BAWD, far superior in comparison to our Causative factors model. The proposed technique presents a scale-able, low-cost, non-invasive methodology for continuous monitoring of bird-habitats against botulism outbreaks with the potential of saving valuable fauna lives.
翻訳日:2021-05-04 14:09:36 公開日:2021-05-03
# Pseudo Siamese Network for Few-shot Intent Generation

Pseudo Siamese Network for Few-shot Intent Generation ( http://arxiv.org/abs/2105.00896v1 )

ライセンス: Link先を確認
Congying Xia, Caiming Xiong, Philip Yu(参考訳) わずかなインテント検出は、スカアアノテーションの問題のため、難しいタスクです。 本稿では,ごくわずかなインテントに対してラベル付きデータを生成し,この問題を緩和するための疑似シャムネットワーク(psn)を提案する。 psnは同じ構造で異なる重みを持つ2つの同一のサブネットワークから成り、アクションネットワークとオブジェクトネットワークである。 各サブネットワークはトランスフォーマティブベースの変分オートエンコーダであり、文中の異なるコンポーネントの潜在分布をモデル化しようとする。 アクションネットワークはアクショントークンを理解するために学習され、オブジェクトネットワークはオブジェクト関連の表現に焦点を当てる。 アクションと与えられた意図に存在するオブジェクトとの発話を生成するための解釈可能なフレームワークを提供する。 2つの実世界のデータセットにおける実験は、psnが一般化された少数のショットインテント検出タスクで最先端のパフォーマンスを達成していることを示している。

Few-shot intent detection is a challenging task due to the scare annotation problem. In this paper, we propose a Pseudo Siamese Network (PSN) to generate labeled data for few-shot intents and alleviate this problem. PSN consists of two identical subnetworks with the same structure but different weights: an action network and an object network. Each subnetwork is a transformer-based variational autoencoder that tries to model the latent distribution of different components in the sentence. The action network is learned to understand action tokens and the object network focuses on object-related expressions. It provides an interpretable framework for generating an utterance with an action and an object existing in a given intent. Experiments on two real-world datasets show that PSN achieves state-of-the-art performance for the generalized few shot intent detection task.
翻訳日:2021-05-04 14:08:00 公開日:2021-05-03
# 言語モデルにおける性別偏差単語埋め込みの効果

Impact of Gender Debiased Word Embeddings in Language Modeling ( http://arxiv.org/abs/2105.00908v1 )

ライセンス: Link先を確認
Christine R. Basta and Marta R. Costa-juss\`a(参考訳) ジェンダー、人種、社会バイアスは、近年、自然言語処理の応用における不公平さの顕著な例として検出されている。 公平への鍵となる道は、データとアルゴリズムを理解し、分析し、解釈することです。 近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。 さらに、現在のアルゴリズムはデータからのバイアスを増幅することが証明されている。 これらの懸念にさらに対処するため,本論文では,既訓練の標準と偏りのある単語埋め込みを用いて,女性を下書きするデータに基づいて,最先端のリカレントニューラルネットワークモデルがどのように振る舞うかを考察する。 その結果、事前学習された組込みを使用する場合、言語モデルは、タスク内でトレーニングされた組込みを使用する場合と比較して、不均衡なデータでトレーニングされた場合、高いバイアスを継承することが示された。 さらに, 言語モデルでは, 標準の事前学習エンデディングに比べて, 偏りのあるプレトレーニングエンデディングを用いることで, バイアスの低減が図られている。

Gender, race and social biases have recently been detected as evident examples of unfairness in applications of Natural Language Processing. A key path towards fairness is to understand, analyse and interpret our data and algorithms. Recent studies have shown that the human-generated data used in training is an apparent factor of getting biases. In addition, current algorithms have also been proven to amplify biases from data. To further address these concerns, in this paper, we study how an state-of-the-art recurrent neural language model behaves when trained on data, which under-represents females, using pre-trained standard and debiased word embeddings. Results show that language models inherit higher bias when trained on unbalanced data when using pre-trained embeddings, in comparison with using embeddings trained within the task. Moreover, results show that, on the same data, language models inherit lower bias when using debiased pre-trained emdeddings, compared to using standard pre-trained embeddings.
翻訳日:2021-05-04 14:07:46 公開日:2021-05-03
# ロシアのニュースクラスタリングと見出し選択共有タスク

Russian News Clustering and Headline Selection Shared Task ( http://arxiv.org/abs/2105.00981v1 )

ライセンス: Link先を確認
Ilya Gusev, Ivan Smurov(参考訳) 本稿では,ロシア語ニュースクラスタリングと見出し選択共有タスクの結果について述べる。 その中のひとつとして,ロシアのニュースイベント検出,見出し選択,見出し生成のタスクを提案する。 これらのタスクにはデータセットとベースラインが伴う。 イベント検出と見出し選択のための提示されたデータセットは、彼らのタスクのための最初の公開ロシアのデータセットである。 ヘッドライン生成データセットはクラスタリングに基づいており、以前のデータセットとは異なり、クラスタ毎に複数の参照ヘッドラインを提供する。 最後に、共有タスク参加者が提案するアプローチを報告し、分析する。

This paper presents the results of the Russian News Clustering and Headline Selection shared task. As a part of it, we propose the tasks of Russian news event detection, headline selection, and headline generation. These tasks are accompanied by datasets and baselines. The presented datasets for event detection and headline selection are the first public Russian datasets for their tasks. The headline generation dataset is based on clustering and provides multiple reference headlines for every cluster, unlike the previous datasets. Finally, the approaches proposed by the shared task participants are reported and analyzed.
翻訳日:2021-05-04 14:07:27 公開日:2021-05-03
# 深部ニューラルネットワーク分類器のための物理世界支援信号 -防御も攻撃も-

Physical world assistive signals for deep neural network classifiers -- neither defense nor attack ( http://arxiv.org/abs/2105.00622v1 )

ライセンス: Link先を確認
Camilo Pestana, Wei Liu, David Glance, Robyn Owens, Ajmal Mian(参考訳) ディープニューラルネットワークは、コンピュータビジョンタスクの最先端技術をリードしている。 それにもかかわらず、ニューラルネットワークは、入力の小さな変更が予測結果と信頼性に大きな影響を及ぼすという、脆弱である。 その結果、この分野での研究は主に敵の攻撃と防衛に焦点を当てた。 本稿では,モデルが攻撃を受けているか否かに関わらず,モデルの信頼度を向上させるために最適化された補助信号の概念を導入する。 異なる照明条件と視野角をシミュレートした実生活シナリオにおいて,これらの摂動の興味深い特性を分析し,3次元空間における補助信号を最適化するアイデアを拡張した。 実験により,提案手法により生成された補助信号は,従来の2次元空間で動作する手法よりも深部モデルの精度と信頼性を高めることが示された。 さらに、私たちのAssistive Signalsは、実際のオブジェクトの特定のパターンに対するMLモデルの固有のバイアスを示しています。 我々は、現実世界の物体の検知可能性に寄与する可能性のあるパターンを再考したり、回避するために、これらの洞察を利用する方法について議論する。

Deep Neural Networks lead the state of the art of computer vision tasks. Despite this, Neural Networks are brittle in that small changes in the input can drastically affect their prediction outcome and confidence. Consequently and naturally, research in this area mainly focus on adversarial attacks and defenses. In this paper, we take an alternative stance and introduce the concept of Assistive Signals, which are optimized to improve a model's confidence score regardless if it's under attack or not. We analyse some interesting properties of these assistive perturbations and extend the idea to optimize assistive signals in the 3D space for real-life scenarios simulating different lighting conditions and viewing angles. Experimental evaluations show that the assistive signals generated by our optimization method increase the accuracy and confidence of deep models more than those generated by conventional methods that work in the 2D space. In addition, our Assistive Signals illustrate the intrinsic bias of ML models towards certain patterns in real-life objects. We discuss how we can exploit these insights to re-think, or avoid, some patterns that might contribute to, or degrade, the detectability of objects in the real-world.
翻訳日:2021-05-04 14:02:04 公開日:2021-05-03
# Black-Box Dissector: 消去型ハードラベルモデルステアリング攻撃を目指して

Black-Box Dissector: Towards Erasing-based Hard-Label Model Stealing Attack ( http://arxiv.org/abs/2105.00623v1 )

ライセンス: Link先を確認
Yixu Wang, Jie Li, Hong Liu, Yongjian Wu, Rongrong Ji(参考訳) モデル盗み攻撃は、被害者のターゲットモデルの能力を盗む代替モデルを作ることを目的としている。 しかし、既存の手法のほとんどは、最も現実的なシナリオでは利用できない被害者モデルからの完全な確率出力に依存する。 より実用的なハードラベル設定に着目し、確率予測に豊富な情報がないため、既存の手法は破滅的な性能劣化に悩まされる。 知識蒸留に触発された新しいハードラベルモデル盗用法である \emph{black-box dissector} は,被害者モデルからハードラベルに隠された情報をマイニングするカム駆動消去戦略と,ハードラベルによる過剰フィッティングやミスキャリブレーションを避けるために代替モデルからソフトラベルを利用したランダム消去ベースの自己認識蒸留モジュールを含む。 広く使われている4つのデータセットに関する広範囲な実験により、この手法は最先端の手法よりも優れており、少なくとも9.92\%$である。 さらに,実世界のAPI実験により,本手法の有効性がさらに証明された。 また,既存の防衛手法を無効にすることで,本手法の実用化の可能性を示す。

Model stealing attack aims to create a substitute model that steals the ability of the victim target model. However, most of the existing methods depend on the full probability outputs from the victim model, which is unavailable in most realistic scenarios. Focusing on the more practical hard-label setting, due to the lack of rich information in the probability prediction, the existing methods suffer from catastrophic performance degradation. Inspired by knowledge distillation, we propose a novel hard-label model stealing method termed \emph{black-box dissector}, which includes a CAM-driven erasing strategy to mine the hidden information in hard labels from the victim model, and a random-erasing-based self-knowledge distillation module utilizing soft labels from substitute model to avoid overfitting and miscalibration caused by hard labels. Extensive experiments on four widely-used datasets consistently show that our method outperforms state-of-the-art methods, with an improvement of at most $9.92\%$. In addition, experiments on real-world APIs further prove the effectiveness of our method. Our method also can invalidate existing defense methods which further demonstrates the practical potential of our methods.
翻訳日:2021-05-04 14:01:50 公開日:2021-05-03
# ISTR: トランスフォーマーによるエンドツーエンドインスタンスセグメンテーション

ISTR: End-to-End Instance Segmentation with Transformers ( http://arxiv.org/abs/2105.00637v1 )

ライセンス: Link先を確認
Jie Hu, Liujuan Cao, Lu Yao, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Rongrong Ji, Ling Shao(参考訳) エンドツーエンドのパラダイムは、様々なディープラーニングベースのコンピュータビジョンモデルの精度を大幅に向上させる。 この目的のために、オブジェクト検出のようなタスクは、二部マッチングに基づくセット損失によるトレーニングによる非最大抑制を取り除くなど、非エンドツーエンドコンポーネントを置き換えることでアップグレードされている。 しかし、このようなアップグレードは、オブジェクト検出に比べて出力次元がかなり大きいため、インスタンスセグメンテーションには適用できない。 本稿では,この方式の最初のエンドツーエンドフレームワークである ISTR と呼ばれるインスタンス分割変換器を提案する。 ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。 さらに、istrは、既存のトップダウンおよびボトムアップフレームワークと比較して、インスタンスセグメンテーションを達成する新しい方法を提供する、反復的なリファインメント戦略で、検出とセグメンテーションを同時に実施する。 ISTRは、提案したエンドツーエンドメカニズムから、近似に基づく準最適埋め込みであっても、最先端の性能を示す。 具体的には、ResNet50-FPNを用いて46.8/38.6ボックス/マスクAP、MS COCOデータセット上でResNet101-FPNを用いて48.1/39.9ボックス/マスクAPを得る。 定量的および定性的な結果は、インスタンスレベルの認識のための固体ベースラインとしてのISTRの有望な可能性を明らかにする。 コードは、https://github.com/hujiecpp/ISTR.comで公開されている。

End-to-end paradigms significantly improve the accuracy of various deep-learning-based computer vision models. To this end, tasks like object detection have been upgraded by replacing non-end-to-end components, such as removing non-maximum suppression by training with a set loss based on bipartite matching. However, such an upgrade is not applicable to instance segmentation, due to its significantly higher output dimensions compared to object detection. In this paper, we propose an instance segmentation Transformer, termed ISTR, which is the first end-to-end framework of its kind. ISTR predicts low-dimensional mask embeddings, and matches them with ground truth mask embeddings for the set loss. Besides, ISTR concurrently conducts detection and segmentation with a recurrent refinement strategy, which provides a new way to achieve instance segmentation compared to the existing top-down and bottom-up frameworks. Benefiting from the proposed end-to-end mechanism, ISTR demonstrates state-of-the-art performance even with approximation-based suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO dataset. Quantitative and qualitative results reveal the promising potential of ISTR as a solid baseline for instance-level recognition. Code has been made available at: https://github.com/hujiecpp/ISTR.
翻訳日:2021-05-04 14:01:27 公開日:2021-05-03
# s3net: 深度誘導画像リライトのための単一ストリーム構造

S3Net: A Single Stream Structure for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00681v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and and Sy-Yen Kuo(参考訳) depth guided any-to-any image relightingは、与えられたガイド画像とその深度マップの照明設定に合うように、元の画像と対応する深度マップからリライト画像を生成することを目的としている。 私たちの知る限りでは、このタスクは以前の文献では解決されていない新しい課題です。 この問題に対処するために,深層誘導画像リライトのための深層学習型ニューラルネットワークs3netを提案する。 このネットワークはエンコーダ-デコーダモデルである。 すべての画像と対応する深度マップを入力として結合し、それらをモデルに入力します。 デコーダ部は、注目モジュールと、ガイド画像中のリライト関連領域にフォーカスする強化モジュールとを含む。 NTIRE 2021 Depth Guided Any-to-any Relighting Challengeでは,提案モデルが3番目に高いSSIMを達成した。

Depth guided any-to-any image relighting aims to generate a relit image from the original image and corresponding depth maps to match the illumination setting of the given guided image and its depth map. To the best of our knowledge, this task is a new challenge that has not been addressed in the previous literature. To address this issue, we propose a deep learning-based neural Single Stream Structure network called S3Net for depth guided image relighting. This network is an encoder-decoder model. We concatenate all images and corresponding depth maps as the input and feed them into the model. The decoder part contains the attention module and the enhanced module to focus on the relighting-related regions in the guided images. Experiments performed on challenging benchmark show that the proposed model achieves the 3 rd highest SSIM in the NTIRE 2021 Depth Guided Any-to-any Relighting Challenge.
翻訳日:2021-05-04 14:01:03 公開日:2021-05-03
# 奥行き誘導画像リライトのためのマルチモーダル分岐ネットワーク

Multi-modal Bifurcated Network for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00690v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and Hao-Lun Luo and Sy-Yen Kuo(参考訳) 画像照明は、画像内の照明設定を再調整することを目的としている。 本稿では,マルチモーダルバイファーケートネットワーク(mbnet)と呼ばれる,深度誘導画像のリライトのための深層学習に基づく手法を提案する。 すなわち、画像と対応する深度マップが与えられた場合、所定の輝度角と色温度を持つ新しい画像がネットワークによって生成される。 このモデルは、エンコーダ内の分岐ネットワークによる画像と深度の特徴を抽出する。 この2つの特徴を効果的に利用するために,デコーダの動的拡張ピラミッドモジュールを採用する。 さらに,トレーニングデータの種類を増やすために,トレーニングデータ数を増やすための新しいデータ処理パイプラインを提案する。 VIDITデータセットを用いて行った実験の結果,提案手法は NTIRE 2021 Depth Guide One-to-one Relighting Challenge において,SSIM と PMS の点において \textbf{1}$^{st}$ place が得られることがわかった。

Image relighting aims to recalibrate the illumination setting in an image. In this paper, we propose a deep learning-based method called multi-modal bifurcated network (MBNet) for depth guided image relighting. That is, given an image and the corresponding depth maps, a new image with the given illuminant angle and color temperature is generated by our network. This model extracts the image and the depth features by the bifurcated network in the encoder. To use the two features effectively, we adopt the dynamic dilated pyramid modules in the decoder. Moreover, to increase the variety of training data, we propose a novel data process pipeline to increase the number of the training data. Experiments conducted on the VIDIT dataset show that the proposed solution obtains the \textbf{1}$^{st}$ place in terms of SSIM and PMS in the NTIRE 2021 Depth Guide One-to-one Relighting Challenge.
翻訳日:2021-05-04 14:00:49 公開日:2021-05-03
# モデル選択のための合成データ

Synthetic Data for Model Selection ( http://arxiv.org/abs/2105.00717v1 )

ライセンス: Link先を確認
Matan Fintz, Alon Shoshan, Nadav Bhonker, Igor Kviatkovsky, Gerard Medioni(参考訳) 合成データ生成の最近の改良により、高フォトリアリスティックで実際の画像と区別できない画像が作成できるようになった。 さらに、合成生成パイプラインは無制限に画像を生成できる可能性がある。 高いフォトリアリズムとスケールの組み合わせにより、合成データは、さまざまな機械学習(ML)パイプラインを改善するための有望な候補になる。 これまでのところ、この分野の大規模な研究は、トレーニングデータの強化と拡大によって、トレーニングに合成画像を使うことに重点を置いている。 本研究は, 合成データを用いた学習とは対照的に, 合成データがモデル選択に有用かどうかを考察する。 画像分類のタスクを考慮すると、データが不足している場合には、合成データを使用して保持された検証セットを置き換え、より大きなデータセットでトレーニングできることが示される。

Recent improvements in synthetic data generation make it possible to produce images that are highly photorealistic and indistinguishable from real ones. Furthermore, synthetic generation pipelines have the potential to generate an unlimited number of images. The combination of high photorealism and scale turn the synthetic data into a promising candidate for potentially improving various machine learning (ML) pipelines. Thus far, a large body of research in this field has focused on using synthetic images for training, by augmenting and enlarging training data. In contrast to using synthetic data for training, in this work we explore whether synthetic data can be beneficial for model selection. Considering the task of image classification, we demonstrate that when data is scarce, synthetic data can be used to replace the held out validation set, thus allowing to train on a larger dataset.
翻訳日:2021-05-04 14:00:35 公開日:2021-05-03
# ピクセル単位でセグメンテーションを監督する以外に、いくつかのグローバル形状記述子は驚くほど良い!

Beyond pixel-wise supervision for segmentation: A few global shape descriptors might be surprisingly good! ( http://arxiv.org/abs/2105.00859v1 )

ライセンス: Link先を確認
Hoel Kervadec and Houda Bahig and Laurent Letourneau-Guillon and Jose Dolz and Ismail Ben Ayed(参考訳) ディープセグメンテーションネットワークを訓練するための標準的な損失は、予測されたセグメンテーションのグローバル形状を監督する代わりに、ピクセルの個別の分類と見なすことができる。 有効ではあるが、画像の各ピクセルのラベルの正確な知識が必要である。 本研究では,深層ネットワークの学習におけるセグメンテーション損失として使用する場合,グローバル幾何形状記述子の有効性について検討する。 低次形状のモーメントを近似するアノテーションは、フルマスクのモーメントよりもはるかに扱いにくい可能性があり、解剖学的な先行は容易に不変形状の記述にエンコードでき、アノテーションの負担を軽減することができる。 また, 課題が与えられた場合, 画像取得プロトコルやモダリティ, 被写体集団間で, 特定の形状記述が不変であり, 医用画像セグメンテーションの一般化に向けた興味深い研究の道を開く可能性がある。 深部セグメンテーションの文脈でいくつかの形状記述子を導入・定式化し、2つの異なる課題における独立的な損失として評価する。 近年のディープネットワークの制約付き最適化に触発されて,ピクセルレベルのラベルを使わずにセグメント化を監督する手法を提案する。 驚くべきことに、クラス毎のディスクリプタ値は、65k個の個別ラベルを持つセグメンテーションマスクのパフォーマンスに近づくことができます。 また、形状記述子はタスクに関する解剖学的事前情報をエンコードする有効な方法であり、追加のアノテーションなしで専門家の知識を活用できることがわかった。 私たちの実装は公開されており、他のタスクやディスクリプタにも簡単に拡張できます。

Standard losses for training deep segmentation networks could be seen as individual classifications of pixels, instead of supervising the global shape of the predicted segmentations. While effective, they require exact knowledge of the label of each pixel in an image. This study investigates how effective global geometric shape descriptors could be, when used on their own as segmentation losses for training deep networks. Not only interesting theoretically, there exist deeper motivations to posing segmentation problems as a reconstruction of shape descriptors: Annotations to obtain approximations of low-order shape moments could be much less cumbersome than their full-mask counterparts, and anatomical priors could be readily encoded into invariant shape descriptions, which might alleviate the annotation burden. Also, and most importantly, we hypothesize that, given a task, certain shape descriptions might be invariant across image acquisition protocols/modalities and subject populations, which might open interesting research avenues for generalization in medical image segmentation. We introduce and formulate a few shape descriptors in the context of deep segmentation, and evaluate their potential as standalone losses on two different challenging tasks. Inspired by recent works in constrained optimization for deep networks, we propose a way to use those descriptors to supervise segmentation, without any pixel-level label. Very surprisingly, as little as 4 descriptors values per class can approach the performance of a segmentation mask with 65k individual discrete labels. We also found that shape descriptors can be a valid way to encode anatomical priors about the task, enabling to leverage expert knowledge without additional annotations. Our implementation is publicly available and can be easily extended to other tasks and descriptors: https://github.com/hkervadec/shape_descriptors
翻訳日:2021-05-04 14:00:24 公開日:2021-05-03
# cma-net:光場サルエント物体検出のためのカスケード相互注意ネットワーク

CMA-Net: A Cascaded Mutual Attention Network for Light Field Salient Object Detection ( http://arxiv.org/abs/2105.00949v1 )

ライセンス: Link先を確認
Yi Zhang, Lu Zhang, Wassim Hamidouche and Olivier Deforges(参考訳) 近年,RGB(All-in-focus)画像から有能なオブジェクトを分割する作業に対処するために,多数のディープラーニング手法が提案されている。 しかし、これらのアプローチは、大規模な自然画像を収集し、マルチビュー、マイクロレンズ画像、深度マップなどの複数のモダリティを提供する広範に使われている光フィールドサリエント物体検出(SOD)データセットの最先端性能を達成するには至らなかった。 最近提案された光場SOD法は精度の向上を図りつつも、粗い物体の構造を予測し、速度を遅くする。 そこで本研究では,cma-netを提案する。cma-netは,全焦点と深さのモダリティからハイレベルな特徴を融合することを目的とした,2つの新しいカスケードされた相互注意モジュールである。 提案するcma-netは、広く適用された2つのライトフィールドベンチマークデータセットで30のsodメソッド(大きなマージン)を上回る。 さらに提案したCMA-Netは53fpsの速度で動作可能であるため、最先端のマルチモーダルSOD法よりもはるかに高速である。 広汎な定量的および定性的実験は、我々のCMA-Netの有効性と効率を実証し、RGB-Dおよび光場SODのためのマルチモーダル学習の今後の発展を促している。

In the past few years, numerous deep learning methods have been proposed to address the task of segmenting salient objects from RGB (all-in-focus) images. However, these approaches depending on single modality fail to achieve the state-of-the-art performance on widely used light field salient object detection (SOD) datasets, which collect large-scale natural images and provide multiple modalities such as multi-view, micro-lens images and depth maps. Most recently proposed light field SOD methods have acquired improving detecting accuracy, yet still predict rough objects' structures and perform slow inference speed. To this end, we propose CMA-Net, which consists of two novel cascaded mutual attention modules aiming at fusing the high level features from the modalities of all-in-focus and depth. Our proposed CMA-Net outperforms 30 SOD methods (by a large margin) on two widely applied light field benchmark datasets. Besides, the proposed CMA-Net can run at a speed of 53 fps, thus being much faster than the state-of-the-art multi-modal SOD methods. Extensive quantitative and qualitative experiments illustrate both the effectiveness and efficiency of our CMA-Net, inspiring future development of multi-modal learning for both the RGB-D and light field SOD.
翻訳日:2021-05-04 13:59:56 公開日:2021-05-03
# 画素間コントラスト学習による普遍的弱教師付きセグメンテーション

Universal Weakly Supervised Segmentation by Pixel-to-Segment Contrastive Learning ( http://arxiv.org/abs/2105.00957v1 )

ライセンス: Link先を確認
Tsung-Wei Ke, Jyh-Jing Hwang, Stella X. Yu(参考訳) 弱い教師付きセグメンテーションでは、イメージレベルのタグ、オブジェクト境界ボックス、ラベル付きポイント、スクリブルなどの部分アノテーションを持つトレーニングインスタンスに基づいて、各ピクセルにラベルを割り当てる必要がある。 粗いアノテーション(タグ、ボックス)は正確なピクセルローカライゼーションを欠いているのに対して、スパースアノテーション(ポイント、スクリブル)は広い範囲のカバレッジを欠いているため、このタスクは難しい。 クラスアクティベーションマップは粗いラベルをローカライズし、セグメンテーションモデルを反復的に洗練するために使用され、一方条件付きランダムフィールドはスパースラベルを画像全体に伝播するために使用される。 我々は、弱い教師付きセグメンテーションを半教師付きメトリック学習問題として定式化し、同じ(異なる)セグメンテーションのピクセルを同じ(連続的な)特徴にマッピングする必要がある。 本稿では,特徴空間における画素とセグメント間の対比関係として,低レベル画像の類似性,意味的アノテーション,共起性,特徴の親和性を示す4つのタイプを提案する。 特に、トレーニング画像中のラベルなし画素は、各画像内のデータ駆動グループ化だけでなく、画像内および画像間の識別的特徴学習にも関与する。 我々はPascal VOCとDensePoseに大きな利益をもたらす、普遍的な弱教師付きセグメンタを提供する。

Weakly supervised segmentation requires assigning a label to every pixel based on training instances with partial annotations such as image-level tags, object bounding boxes, labeled points and scribbles. This task is challenging, as coarse annotations (tags, boxes) lack precise pixel localization whereas sparse annotations (points, scribbles) lack broad region coverage. Existing methods tackle these two types of weak supervision differently: Class activation maps are used to localize coarse labels and iteratively refine the segmentation model, whereas conditional random fields are used to propagate sparse labels to the entire image. We formulate weakly supervised segmentation as a semi-supervised metric learning problem, where pixels of the same (different) semantics need to be mapped to the same (distinctive) features. We propose 4 types of contrastive relationships between pixels and segments in the feature space, capturing low-level image similarity, semantic annotation, co-occurrence, and feature affinity They act as priors; the pixel-wise feature can be learned from training images with any partial annotations in a data-driven fashion. In particular, unlabeled pixels in training images participate not only in data-driven grouping within each image, but also in discriminative feature learning within and across images. We deliver a universal weakly supervised segmenter with significant gains on Pascal VOC and DensePose.
翻訳日:2021-05-04 13:59:31 公開日:2021-05-03
# オープンワールド構成ゼロショット学習のためのグラフ埋め込み学習

Learning Graph Embeddings for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2105.01017v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata(参考訳) コンポジションゼロショット学習(CZSL)は、トレーニング中に見られる状態とオブジェクトの視覚的プリミティブの見えない構成を認識することを目的としている。 標準的なCZSLの問題は、テスト時に見当たらないコンポジションが利用できるかを知るという仮定である。 本研究は,テスト時の合成空間に制限が課されないオープンワールド環境でのこの仮定を克服し,探索空間に多数の見当たらない合成が含まれていることを示す。 この問題に対処するために,2つの原則に基づいた新しい手法であるComposeal Cosine Graph Embeddings (Co-CGE)を提案する。 まず、Co-CGEはグラフ畳み込みニューラルネットワークを通じて状態、オブジェクトとその構成間の依存性をモデル化する。 グラフは目に見えるものから見えないものまで情報を伝達し、その表現を改善する。 第二に、すべての見当たらない合成が等しく実現可能ではなく、学習された表現を損なう可能性があるため、co-cgeは、コサイン類似性に基づく損失のマージンとして、およびグラフの隣接行列の重みとしてスコアを用いて、見当たらない構成ごとに実現可能性スコアを推定する。 実験の結果,オープンワールドシナリオでは従来の手法を上回りながら,標準czslで最先端のパフォーマンスを実現することができた。

Compositional Zero-Shot learning (CZSL) aims to recognize unseen compositions of state and object visual primitives seen during training. A problem with standard CZSL is the assumption of knowing which unseen compositions will be available at test time. In this work, we overcome this assumption operating on the open world setting, where no limit is imposed on the compositional space at test time, and the search space contains a large number of unseen compositions. To address this problem, we propose a new approach, Compositional Cosine Graph Embeddings (Co-CGE), based on two principles. First, Co-CGE models the dependency between states, objects and their compositions through a graph convolutional neural network. The graph propagates information from seen to unseen concepts, improving their representations. Second, since not all unseen compositions are equally feasible, and less feasible ones may damage the learned representations, Co-CGE estimates a feasibility score for each unseen composition, using the scores as margins in a cosine similarity-based loss and as weights in the adjacency matrix of the graphs. Experiments show that our approach achieves state-of-the-art performances in standard CZSL while outperforming previous methods in the open world scenario.
翻訳日:2021-05-04 13:59:04 公開日:2021-05-03
# Collision Replay: 風景幾何学について教えてくれるものは何か?

Collision Replay: What Does Bumping Into Things Tell You About Scene Geometry? ( http://arxiv.org/abs/2105.01061v1 )

ライセンス: Link先を確認
Alexander Raistrick, Nilesh Kulkarni, David F. Fouhey(参考訳) シーンにぶつかって、シーンの幾何学について何を教えてくれるのか? 本稿では,衝突からの学習について考察する。 われわれのアプローチの核心は衝突を再現するという考えであり、衝突の例を使って過去のフレームでの観察を監督する。 我々は衝突リプレイを用いて畳み込みニューラルネットワークを訓練し、新しい画像から衝突時間の分布を予測する。 この分布は、ナビゲーションアフォーアンス(例えば、廊下対オープンスペース)に関する情報を伝達し、我々が示すように、シーン幾何学のための距離関数に変換することができる。 本手法は,フォトリアリスティックシミュレータにおいてノイズアクティベーションを有するエージェントを用いて解析する。

What does bumping into things in a scene tell you about scene geometry? In this paper, we investigate the idea of learning from collisions. At the heart of our approach is the idea of collision replay, where we use examples of a collision to provide supervision for observations at a past frame. We use collision replay to train convolutional neural networks to predict a distribution over collision time from new images. This distribution conveys information about the navigational affordances (e.g., corridors vs open spaces) and, as we show, can be converted into the distance function for the scene geometry. We analyze this approach with an agent that has noisy actuation in a photorealistic simulator.
翻訳日:2021-05-04 13:58:41 公開日:2021-05-03
# 離散的および連続的アクションタスクのためのアクション候補に基づくクリップ型ダブルq学習

Action Candidate Based Clipped Double Q-learning for Discrete and Continuous Action Tasks ( http://arxiv.org/abs/2105.00704v1 )

ライセンス: Link先を確認
Haobo Jiang, Jin Xie, Jian Yang(参考訳) 二重Q学習はマルコフ決定過程(MDP)問題において一般的な強化学習アルゴリズムである。 clipped double q-learning は double q-learning の効果的な変種であり、最大期待アクション値の近似に clipped double estimator を用いる。 クリッピングされた二重推定器の過小評価バイアスのため、クリッピングされた二重Q-ラーニングの性能は確率的な環境で低下する可能性がある。 本稿では,過大評価バイアスを軽減するために,ダブルq学習のためのアクション候補ベースのクリップ型ダブル推定器を提案する。 具体的には,まず,一組の推定器から高い行動値を持つエリート行動候補を選定する。 そして、これらの候補の中から、他の評価指標から最も価値の高い行動を選択する。 最後に,第2の推定器の最大値を用いて第1の推定器における選択された動作の動作値をクリップし,そのクリップ値を用いて最大期待動作値を近似する。 理論的には、カットされた二重Q学習における過小評価バイアスは、アクション候補の数が減少するにつれて単調に崩壊する。 さらに、アクション候補の数は過大評価と過小評価バイアスの間のトレードオフを制御する。 さらに私たちは,エリートな継続的アクション候補を近似することで,クリップされたダブルq-ラーニングを継続的アクションタスクにも拡張しています。 実験により,本アルゴリズムが玩具環境における最大動作値をより正確に推定し,いくつかのベンチマーク問題に対して良好な性能が得られることを検証した。

Double Q-learning is a popular reinforcement learning algorithm in Markov decision process (MDP) problems. Clipped Double Q-learning, as an effective variant of Double Q-learning, employs the clipped double estimator to approximate the maximum expected action value. Due to the underestimation bias of the clipped double estimator, performance of clipped Double Q-learning may be degraded in some stochastic environments. In this paper, in order to reduce the underestimation bias, we propose an action candidate based clipped double estimator for Double Q-learning. Specifically, we first select a set of elite action candidates with the high action values from one set of estimators. Then, among these candidates, we choose the highest valued action from the other set of estimators. Finally, we use the maximum value in the second set of estimators to clip the action value of the chosen action in the first set of estimators and the clipped value is used for approximating the maximum expected action value. Theoretically, the underestimation bias in our clipped Double Q-learning decays monotonically as the number of the action candidates decreases. Moreover, the number of action candidates controls the trade-off between the overestimation and underestimation biases. In addition, we also extend our clipped Double Q-learning to continuous action tasks via approximating the elite continuous action candidates. We empirically verify that our algorithm can more accurately estimate the maximum expected action value on some toy environments and yield good performance on several benchmark problems.
翻訳日:2021-05-04 13:57:20 公開日:2021-05-03
# RetCL:コントラスト学習による再合成のための選択的アプローチ

RetCL: A Selection-based Approach for Retrosynthesis via Contrastive Learning ( http://arxiv.org/abs/2105.00795v1 )

ライセンス: Link先を確認
Hankook Lee, Sungsoo Ahn, Seung-Woo Seo, You Young Song, Sung-Ju Hwang, Eunho Yang, Jinwoo Shin(参考訳) レトロシンセシス(retro synthesis)は、ターゲットプロダクトを合成するための一連の反応物質を見つけることを目的としているが、ディープラーニングの新たな研究分野である。 既存のアプローチは有望な結果を示しているが、現在は反応剤の可利用性(安定性や購入性など)や、目に見えない反応テンプレート(化学反応規則)に一般化する能力が欠けている。 本稿では, 市販分子の候補集合からの反応物質の選択問題にレトロ合成を再構成することで, 問題を緩和する新しいアプローチを提案する。 そこで我々は,グラフニューラルネットワークによって計算された選択スコアに基づいて,全ての候補分子を列挙するretcl(retro synthesis via contrastive learning)という効率的な反応剤選択フレームワークを設計した。 また,スコア関数を学習するために,ハード・ネガティブ・マイニングを用いた新しいコントラスト・トレーニング・スキームを提案する。 広範な実験により,提案手法の利点が示された。 例えば、USPTO {database} の 671k 反応体が候補として与えられると、我々の RetCL は USPTO-50k ベンチマークで 711.3 % の正確な一致精度を、最近の変換器ベースのアプローチでは59.6 % の精度で達成する。 また、テンプレートベースのアプローチとは対照的に、RetCLはさまざまな設定で目に見えないテンプレートによく一般化することを示した。

Retrosynthesis, of which the goal is to find a set of reactants for synthesizing a target product, is an emerging research area of deep learning. While the existing approaches have shown promising results, they currently lack the ability to consider availability (e.g., stability or purchasability) of the reactants or generalize to unseen reaction templates (i.e., chemical reaction rules). In this paper, we propose a new approach that mitigates the issues by reformulating retrosynthesis into a selection problem of reactants from a candidate set of commercially available molecules. To this end, we design an efficient reactant selection framework, named RetCL (retrosynthesis via contrastive learning), for enumerating all of the candidate molecules based on selection scores computed by graph neural networks. For learning the score functions, we also propose a novel contrastive training scheme with hard negative mining. Extensive experiments demonstrate the benefits of the proposed selection-based approach. For example, when all 671k reactants in the USPTO {database} are given as candidates, our RetCL achieves top-1 exact match accuracy of $71.3\%$ for the USPTO-50k benchmark, while a recent transformer-based approach achieves $59.6\%$. We also demonstrate that RetCL generalizes well to unseen templates in various settings in contrast to template-based approaches.
翻訳日:2021-05-04 13:56:59 公開日:2021-05-03
# 物理インフォームドニューラルネットワークのパレートフロントについて

On the Pareto Front of Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.00862v1 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Stefan Posch, Bernhard C. Geiger(参考訳) 近年,物理インフォームドニューラルネットワークと呼ばれる新しいディープラーニング手法が登場している。 偏微分方程式によって支配される問題を解くことに成功しているにもかかわらず、物理インフォームドニューラルネットワークは訓練が難しいことが多い。 頻繁に報告される収束問題はいまだによく理解されておらず、正しいシステムダイナミクスの推論を複雑にしている。 本稿では,物理インフォームドニューラルネットワークのトレーニングプロセスについて光を当てる。 ネットワークトレーニングにおけるデータと物理に基づく制約のトレーディングにより,多目的最適化問題におけるParetoフロントについて検討する。 種々の試験環境における拡散方程式とナビエ・ストークス方程式を用いて, システムパラメータがパレート前面形状に与える影響を分析する。 さらに、最先端適応活性化関数と適応損失重み付け法の有効性を評価する。 本研究は,多目的最適化におけるシステムパラメータの役割を実証し,物理学的ニューラルネットワークの収束特性の理解に寄与する。

Recently a new type of deep learning method has emerged, called physics-informed neural networks. Despite their success in solving problems that are governed by partial differential equations, physics-informed neural networks are often difficult to train. Frequently reported convergence issues are still poorly understood and complicate the inference of correct system dynamics. In this paper, we shed light on the training process of physics-informed neural networks. By trading between data- and physics-based constraints in the network training, we study the Pareto front in multi-objective optimization problems. We use the diffusion equation and Navier-Stokes equations in various test environments to analyze the effects of system parameters on the shape of the Pareto front. Additionally, we assess the effectiveness of state-of-the-art adaptive activation functions and adaptive loss weighting methods. Our results demonstrate the prominent role of system parameters in the multi-objective optimization and contribute to understanding convergence properties of physics-informed neural networks.
翻訳日:2021-05-04 13:56:32 公開日:2021-05-03
# LFI-CAM: より良いビジュアル説明のための特徴の学習

LFI-CAM: Learning Feature Importance for Better Visual Explanation ( http://arxiv.org/abs/2105.00937v1 )

ライセンス: Link先を確認
Kwang Hee Lee, Chaewon Park, Junghyun Oh, Nojun Kwak(参考訳) CAM(Class Activation Mapping)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の意思決定を理解するための強力な手法である。 近年,より優れた視覚的説明を生成するだけでなく,視覚的説明を用いた分類性能の向上が試みられている。 しかし、以前の作品には独自の欠点がある。 本稿では,画像分類と視覚的説明をエンドツーエンドで学習可能な新しいアーキテクチャ LFI-CAM を提案する。 LFI-CAMは、前方伝播中の視覚的説明のための注意マップを生成すると同時に、注意マップを活用して、注意機構による分類性能を向上させる。 我々の特徴重要ネットワーク(FIN)は、より信頼性が高く一貫した注意マップを得るために、注意マップを直接学習するのではなく、特徴の重要性を学習することに焦点を当てている。 我々は,LFI-CAMモデルが特徴量だけでなく,入力画像の重要な特徴に注目するバックボーン特徴表現の強化によって最適化されていることを確認した。 実験結果から,LFI-CAMは,分類作業におけるベースラインモデルの精度よりも優れており,注目マップの品質や,異なるハイパーパラメータに対する安定性の観点からも,従来よりも大幅に向上していることがわかった。

Class Activation Mapping (CAM) is a powerful technique used to understand the decision making of Convolutional Neural Network (CNN) in computer vision. Recently, there have been attempts not only to generate better visual explanations, but also to improve classification performance using visual explanations. However, the previous works still have their own drawbacks. In this paper, we propose a novel architecture, LFI-CAM, which is trainable for image classification and visual explanation in an end-to-end manner. LFI-CAM generates an attention map for visual explanation during forward propagation, at the same time, leverages the attention map to improve the classification performance through the attention mechanism. Our Feature Importance Network (FIN) focuses on learning the feature importance instead of directly learning the attention map to obtain a more reliable and consistent attention map. We confirmed that LFI-CAM model is optimized not only by learning the feature importance but also by enhancing the backbone feature representation to focus more on important features of the input image. Experimental results show that LFI-CAM outperforms the baseline models's accuracy on the classification tasks as well as significantly improves on the previous works in terms of attention map quality and stability over different hyper-parameters.
翻訳日:2021-05-04 13:56:03 公開日:2021-05-03
# 空対空コンバットの階層的強化学習

Hierarchical Reinforcement Learning for Air-to-Air Combat ( http://arxiv.org/abs/2105.00990v1 )

ライセンス: Link先を確認
Adrian P. Pope, Jaime S. Ide, Daria Micovic, Henry Diaz, David Rosenbluth, Lee Ritholtz, Jason C. Twedt, Thayne T. Walker, Kevin Alcedo and Daniel Javorsek(参考訳) 人工知能(AI)は、DARPAのAlphaDogfight Trials(ADT)が最近示したように、防衛産業において重要なコンポーネントになりつつある。 ADTはF-16を模擬空対空戦闘で操縦できるAIアルゴリズムの可能性を検証しようとした。 ADTの参加者として、Lockheed Martin氏のLM(LM)アプローチは、階層アーキテクチャと最大エントロピー強化学習(RL)を組み合わせて、報酬形成を通じて専門家の知識を統合し、ポリシーのモジュラリティをサポートする。 このアプローチはADTの最終大会(合計8つの競技者を含む)で2-2ドルの成績を収め、アメリカ空軍(USAF)のF-16 Weapons Instructor Courseの卒業生をマッチプレーで破った。

Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA`s AlphaDogfight Trials (ADT). ADT sought to vet the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin`s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a $2^{nd}$ place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force's (USAF) F-16 Weapons Instructor Course in match play.
翻訳日:2021-05-04 13:55:39 公開日:2021-05-03
# すべてを支配する1つのモデル:データベースのゼロショット学習に向けて

One Model to Rule them All: Towards Zero-Shot Learning for Databases ( http://arxiv.org/abs/2105.00642v1 )

ライセンス: Link先を確認
Benjamin Hilprecht and Carsten Binnig(参考訳) 本稿では,データベースコンポーネントの新しい学習手法であるデータベースのためのゼロショット学習というビジョンを提案する。 データベースのゼロショット学習は、GPT-3のようなモデルの転送学習の最近の進歩に触発され、新しいモデルをトレーニングすることなく、新しいデータベースを最初からサポートできる。 本論文における最初の具体的な貢献として,物理コスト推定タスクに対するゼロショット学習の実現可能性を示し,非常に有望な初期結果を示す。 さらに、第2の貢献として、データベースのゼロショット学習に関する中核的な課題について論じ、コスト見積や従来のデータベースシステムやワークロードを超えて、ゼロショット学習を他の多くのタスクにも拡張するロードマップを提示します。

In this paper, we present our vision of so called zero-shot learning for databases which is a new learning approach for database components. Zero-shot learning for databases is inspired by recent advances in transfer learning of models such as GPT-3 and can support a new database out-of-the box without the need to train a new model. As a first concrete contribution in this paper, we show the feasibility of zero-shot learning for the task of physical cost estimation and present very promising initial results. Moreover, as a second contribution we discuss the core challenges related to zero-shot learning for databases and present a roadmap to extend zero-shot learning towards many other tasks beyond cost estimation or even beyond classical database systems and workloads.
翻訳日:2021-05-04 13:53:21 公開日:2021-05-03
# 英語会話音声認識の限界について

On the limit of English conversational speech recognition ( http://arxiv.org/abs/2105.00982v1 )

ライセンス: Link先を確認
Zolt\'an T\"uske, George Saon, Brian Kingsbury(参考訳) これまでの研究で,1つの注目エンコーダ・デコーダモデルが,会話音声認識における最先端結果に到達できることを実証した。 本稿では,スイッチボード300と2000の両方の結果をさらに改善する。 改良されたオプティマイザ,話者ベクトル埋め込み,代用音声表現を用いて,Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。 確率比アプローチによるデコーダモデルの補償により、外部言語モデルのより効率的な統合が可能となり、非常に単純なLSTMモデルを用いて、Hub5'00のSWBおよびCHM部分に5.9%と11.5%のWERを報告した。 本研究は,最近提案されたコンフォーマ,より先進的な自己照応に基づく言語モデルについても考察する。 全体として、コンバータはLSTMと同等の性能を示すが、改良されたLMとの組合せと復号化は、SWBおよびCHMではSwitchboard-300で5.0%、WERで10.0%の新記録に達する。 この結果はSwitchboard-2000でも確認され,新たな技術状況が報告され,ベンチマークの限界に達している。

In our previous work we demonstrated that a single headed attention encoder-decoder model is able to reach state-of-the-art results in conversational speech recognition. In this paper, we further improve the results for both Switchboard 300 and 2000. Through use of an improved optimizer, speaker vector embeddings, and alternative speech representations we reduce the recognition errors of our LSTM system on Switchboard-300 by 4% relative. Compensation of the decoder model with the probability ratio approach allows more efficient integration of an external language model, and we report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models. Our study also considers the recently proposed conformer, and more advanced self-attention based language models. Overall, the conformer shows similar performance to the LSTM; nevertheless, their combination and decoding with an improved LM reaches a new record on Switchboard-300, 5.0% and 10.0% WER on SWB and CHM. Our findings are also confirmed on Switchboard-2000, and a new state of the art is reported, practically reaching the limit of the benchmark.
翻訳日:2021-05-04 13:53:08 公開日:2021-05-03
# ソーシャルネットワークにおけるレコメンデーション予測のための多面的因子化モデルのコンテキストアウェアアンサンブル

Context-aware Ensemble of Multifaceted Factorization Models for Recommendation Prediction in Social Networks ( http://arxiv.org/abs/2105.00991v1 )

ライセンス: Link先を確認
Yunwen Chen, Zuotao Liu, Daqi Ji, Yingwei Xin, Wenguang Wang, Lu Yao, Yi Zou(参考訳) KDD-Cup 2012のタスク1におけるShanda Innovationsチームのソリューションについて説明する。 ソーシャルネットワークにおける多面的因子化モデル(Multifaceted Factorization Models)と呼ばれる新しい手法を提案する。 ユーザ間の社会的関係と行動は、推奨精度を改善するために暗黙のフィードバックとして統合される。 キーワード、タグ、プロフィール、時間などの機能は、ユーザーの興味をモデル化するためにも使われる。 さらに、ユーザの行動はレコメンデーションレコードの期間からモデル化される。 コンテキスト対応アンサンブルフレームワークを使用して、複数の予測器を結合し、最終的な推奨結果を生成する。 提案手法はテストデータセットで0.43959 (パブリックスコア) / 0.41874 (プライベートスコア)を獲得し、KDD-Cup競争では2位となった。

This paper describes the solution of Shanda Innovations team to Task 1 of KDD-Cup 2012. A novel approach called Multifaceted Factorization Models is proposed to incorporate a great variety of features in social networks. Social relationships and actions between users are integrated as implicit feedbacks to improve the recommendation accuracy. Keywords, tags, profiles, time and some other features are also utilized for modeling user interests. In addition, user behaviors are modeled from the durations of recommendation records. A context-aware ensemble framework is then applied to combine multiple predictors and produce final recommendation results. The proposed approach obtained 0.43959 (public score) / 0.41874 (private score) on the testing dataset, which achieved the 2nd place in the KDD-Cup competition.
翻訳日:2021-05-04 13:52:48 公開日:2021-05-03
# 次数不均質下におけるスペクトルクラスタリング:ランダムウォークラプラシアンの場合

Spectral clustering under the degree heterogeneity: a case for the random walk Laplacian ( http://arxiv.org/abs/2105.00987v1 )

ライセンス: Link先を確認
Alexander Modell and Patrick Rubin-Delanchy(参考訳) 本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みがノード次数に対して完全に補正されたベクトル表現を生成することを示す。 一般化されたランダムドット積グラフの下では、埋め込みは漸近的にガウス誤差のある次数補正された潜在位置の均一に一貫した推定を与える。 次数補正確率ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。 これらは、隣接性や正規化された対称なラプラシアン行列に基づくアルゴリズムによって一般的に要求されるように、球面投影なしで、後続のクラスタリングステップを通じて、漸近的に完全に回復することができる。 estimandは次数に依存しないが、その推定の漸近的ばらつきは、より低い次数ノードよりも高い次数ノードに埋め込まれている。 したがって、我々の中心極限定理は、重み付けされたガウス混合モデルをその後のクラスタリングステップに当てはめ、期待最大化アルゴリズムを提供する。

This paper shows that graph spectral embedding using the random walk Laplacian produces vector representations which are completely corrected for node degree. Under a generalised random dot product graph, the embedding provides uniformly consistent estimates of degree-corrected latent positions, with asymptotically Gaussian error. In the special case of a degree-corrected stochastic block model, the embedding concentrates about K distinct points, representing communities. These can be recovered perfectly, asymptotically, through a subsequent clustering step, without spherical projection, as commonly required by algorithms based on the adjacency or normalised, symmetric Laplacian matrices. While the estimand does not depend on degree, the asymptotic variance of its estimate does -- higher degree nodes are embedded more accurately than lower degree nodes. Our central limit theorem therefore suggests fitting a weighted Gaussian mixture model as the subsequent clustering step, for which we provide an expectation-maximisation algorithm.
翻訳日:2021-05-04 13:52:25 公開日:2021-05-03
# 深層学習に基づく頭蓋内出血の局在

Weakly supervised deep learning-based intracranial hemorrhage localization ( http://arxiv.org/abs/2105.00781v1 )

ライセンス: Link先を確認
Jakub Nemcek, Tomas Vicar, Roman Jakubicek(参考訳) 頭蓋内出血は生命を脅かす病気であり、迅速な医療介入を必要とする。 データアノテーションの持続期間のため、ヘッドCT画像は通常スライスレベルのラベリングでのみ利用可能である。 本稿では,複数インスタンス学習に基づく位置自由ラベルのみを用いて,軸スライスの出血位置を正確に把握する手法を提案する。 出血度マップを生成し,出血の座標を求めるアルゴリズムが導入された。 58.08%のDice係数は、公開データセットのデータから得られる。

Intracranial hemorrhage is a life-threatening disease, which requires fast medical intervention. Owing to the duration of data annotation, head CT images are usually available only with slice-level labeling. This paper presents a weakly supervised method of precise hemorrhage localization in axial slices using only position-free labels, which is based on multiple instance learning. An algorithm is introduced that generates hemorrhage likelihood maps and finds the coordinates of bleeding. The Dice coefficient of 58.08 % is achieved on data from a publicly available dataset.
翻訳日:2021-05-04 13:48:44 公開日:2021-05-03
# ロバストな3d細胞セグメンテーション : セルポス像の拡張

Robust 3D Cell Segmentation: Extending the View of Cellpose ( http://arxiv.org/abs/2105.00794v1 )

ライセンス: Link先を確認
Dennis Eschweiler and Johannes Stegmaier(参考訳) デジタル顕微鏡画像実験のデータセットサイズの増加は、意味のある生体医学情報を抽出するためにセグメンテーションプロセスの自動化を要求する。 機械学習ベースのアプローチで使用できる注釈付き3D画像データが不足しているため、3Dセグメンテーションアプローチは堅牢で、目に見えないデータに対してうまく一般化する必要がある。 拡散勾配写像の集まりとしてのインスタンスセグメンテーションの問題を再構成することは、細胞セグメンテーションタスクに対するそのような一般化的アプローチであることが証明された。 本稿では,3次元画像データのセグメンテーション精度を向上させるためのcellposeアプローチを拡張し,さらに,ロバストでありながら類似セグメンテーション精度に達するグラデーションマップの定式化を単純化する方法を示す。 A. thalianaの3次元共焦点顕微鏡画像の2つの異なるデータセットを用いて、異なる実験装置を定量的に比較した。

Increasing data set sizes of digital microscopy imaging experiments demand for an automation of segmentation processes to be able to extract meaningful biomedical information. Due to the shortage of annotated 3D image data that can be used for machine learning-based approaches, 3D segmentation approaches are required to be robust and to generalize well to unseen data. Reformulating the problem of instance segmentation as a collection of diffusion gradient maps, proved to be such a generalist approach for cell segmentation tasks. In this paper, we extend the Cellpose approach to improve segmentation accuracy on 3D image data and we further show how the formulation of the gradient maps can be simplified while still being robust and reaching similar segmentation accuracy. We quantitatively compared different experimental setups and validated on two different data sets of 3D confocal microscopy images of A. thaliana.
翻訳日:2021-05-04 13:48:36 公開日:2021-05-03
# MemX:パーソナライズされたモーメントオートキャプチャーのための注意型スマートアイウェアシステム

MemX: An Attention-Aware Smart Eyewear System for Personalized Moment Auto-capture ( http://arxiv.org/abs/2105.00916v1 )

ライセンス: Link先を確認
Yuhu Chang, Yingying Zhao, Mingzhi Dong, Yujiang Wang, Yutian Lu, Qin Lv, Robert P. Dick, Tun Lu, Ning Gu, Li Shang(参考訳) 本研究は,パーソナライズされた視覚memexの長期ビジョンを追求する目的で開発された,生物学的にインスパイアされた注意対応眼鏡システムmemxを提案する。 MemXは人間の視覚的注意をその場で捉え、視覚的コンテンツを分析し、コンパクトなビデオスニペットの形で個人的関心の瞬間を記録する。 資源制約されたプラットフォーム上での正確なシーン検出と解析は、これらのタスクが計算とエネルギー集約性のため困難である。 本稿では,人間の視覚注意追跡と高度視覚コンテンツ分析を統合する新しい時間的視覚注意ネットワークを提案する。 アテンショントラッキングは計算集約的なビデオ分析に注目し、ビデオ分析は人間のアテンション検出とトラッキングをより正確にする。 youtube-visデータセットと30名の参加者を用いて,システムエネルギー効率を維持しつつ,視線追跡アローン法よりも注意トラッキング精度が有意に向上することを示した。 我々はまた,MemXの有効性と潜在的なメリットを実証する,様々な日常的利用シナリオを対象に,11の現地試験を実施した。

This work presents MemX: a biologically-inspired attention-aware eyewear system developed with the goal of pursuing the long-awaited vision of a personalized visual Memex. MemX captures human visual attention on the fly, analyzes the salient visual content, and records moments of personal interest in the form of compact video snippets. Accurate attentive scene detection and analysis on resource-constrained platforms is challenging because these tasks are computation and energy intensive. We propose a new temporal visual attention network that unifies human visual attention tracking and salient visual content analysis. Attention tracking focuses computation-intensive video analysis on salient regions, while video analysis makes human attention detection and tracking more accurate. Using the YouTube-VIS dataset and 30 participants, we experimentally show that MemX significantly improves the attention tracking accuracy over the eye-tracking-alone method, while maintaining high system energy efficiency. We have also conducted 11 in-field pilot studies across a range of daily usage scenarios, which demonstrate the feasibility and potential benefits of MemX.
翻訳日:2021-05-04 13:48:19 公開日:2021-05-03
# enhanced u-net: polyp セグメンテーションのための機能強化ネットワーク

Enhanced U-Net: A Feature Enhancement Network for Polyp Segmentation ( http://arxiv.org/abs/2105.00999v1 )

ライセンス: Link先を確認
Krushi Patel, Andres M. Bur, Guanghui Wang(参考訳) 大腸内視鏡は大腸癌の主要な原因である大腸ポリープを検出する方法である。 しかしポリープのセグメンテーションは,ポリープの形状,サイズ,色,テクスチャの多様性,ポリープとその背景のシャトル差,大腸鏡像のコントラストの低さなどにより困難な課題である。 これらの課題に対処するため,大腸内視鏡像の正確なポリープ分割のための機能拡張ネットワークを提案する。 具体的には,新たな意味的特徴強化モジュール(sfem)を用いて意味情報を強化する。 さらに、各デコーダ層に直接エンコーダ機能を追加するのではなく、エンコーダの重要かつ硬い機能のみに焦点を当てたAdaptive Global Context Module (AGCM)を導入する。 これら2つのモジュールの統合により、層ごとの機能層の品質が向上し、最終的な機能表現が強化される。 提案手法は5つの大腸内視鏡データを用いて評価し,他の最先端モデルと比較して優れた性能を示す。

Colonoscopy is a procedure to detect colorectal polyps which are the primary cause for developing colorectal cancer. However, polyp segmentation is a challenging task due to the diverse shape, size, color, and texture of polyps, shuttle difference between polyp and its background, as well as low contrast of the colonoscopic images. To address these challenges, we propose a feature enhancement network for accurate polyp segmentation in colonoscopy images. Specifically, the proposed network enhances the semantic information using the novel Semantic Feature Enhance Module (SFEM). Furthermore, instead of directly adding encoder features to the respective decoder layer, we introduce an Adaptive Global Context Module (AGCM), which focuses only on the encoder's significant and hard fine-grained features. The integration of these two modules improves the quality of features layer by layer, which in turn enhances the final feature representation. The proposed approach is evaluated on five colonoscopy datasets and demonstrates superior performance compared to other state-of-the-art models.
翻訳日:2021-05-04 13:47:12 公開日:2021-05-03
# サイクル生成逆数ネットワークを用いたPPGに基づく呼吸速度推定手法

An End-to-End and Accurate PPG-based Respiratory Rate Estimation Approach Using Cycle Generative Adversarial Networks ( http://arxiv.org/abs/2105.00594v1 )

ライセンス: Link先を確認
Seyed Amir Hossein Aqajari, Rui Cao, Amir Hosein Afandizadeh Zargari, and Amir M. Rahmani(参考訳) 呼吸速度 (RR) は換気を表す臨床症状である。 RRの異常な変化は、身体が組織への酸素の供給を維持するために、しばしば最初の健康悪化の兆候である。 日常生活におけるRRの遠隔監視への関心が高まっており、光胸腺撮影(PPG)監視ウェアラブルデバイスを魅力的な選択にしている。 PPGシグナルは、呼吸誘導変調の存在によりRR抽出に有用である。 既存のPSGベースのRR推定法は主に手作りのルールと手動パラメータチューニングに依存している。 エンド・ツー・エンドのディープラーニングアプローチが最近提案されているが、その自動的性質にもかかわらず、この手法の性能は実世界データでは理想的ではない。 本稿ではCycleGAN(Cycle Generative Adversarial Networks)を用いたRR推定のためのエンドツーエンドかつ正確なパイプラインを提案し,生PSG信号から呼吸信号を再構成する。 以上の結果から,最大2$\times$のRR推定精度(5倍のクロスバリデーションを用いた1.9$\pm$0.3の絶対誤差)を,同一の公開データセットを用いた最先端技術と比較した。 この結果から,CycleGANは生PSG信号からのRR推定に有用であることが示唆された。

Respiratory rate (RR) is a clinical sign representing ventilation. An abnormal change in RR is often the first sign of health deterioration as the body attempts to maintain oxygen delivery to its tissues. There has been a growing interest in remotely monitoring of RR in everyday settings which has made photoplethysmography (PPG) monitoring wearable devices an attractive choice. PPG signals are useful sources for RR extraction due to the presence of respiration-induced modulations in them. The existing PPG-based RR estimation methods mainly rely on hand-crafted rules and manual parameters tuning. An end-to-end deep learning approach was recently proposed, however, despite its automatic nature, the performance of this method is not ideal using the real world data. In this paper, we present an end-to-end and accurate pipeline for RR estimation using Cycle Generative Adversarial Networks (CycleGAN) to reconstruct respiratory signals from raw PPG signals. Our results demonstrate a higher RR estimation accuracy of up to 2$\times$ (mean absolute error of 1.9$\pm$0.3 using five fold cross validation) compared to the state-of-th-art using a identical publicly available dataset. Our results suggest that CycleGAN can be a valuable method for RR estimation from raw PPG signals.
翻訳日:2021-05-04 13:41:09 公開日:2021-05-03
# 項目ランク付け手法に基づく食料品の推薦アルゴリズム

An Algorithm for Recommending Groceries Based on an Item Ranking Method ( http://arxiv.org/abs/2105.00650v1 )

ライセンス: Link先を確認
Gourab Nath and Jaydip Sen(参考訳) 本研究は,オンライン食料品ショッピングのための新しいレコメンダシステムアルゴリズムを提案する。 このアルゴリズムは、通常食料品は一括購入されるので、食料品推薦システムは一括して商品を推薦する能力を持つべきだという視点に基づいている。 アルゴリズムは、バスケットに追加されたアイテムに基づいて、ユーザーが調理できる料理を特定し、それに応じて具材を推薦する。 我々のアルゴリズムはユーザーの評価に依存しない。 通常、顧客は購入した食料品を評価できる忍耐力を持っていない。 したがって、ユーザの評価に依存しないアルゴリズムを設計する必要がある。 ブルートフォースサーチを使う代わりに、このアルゴリズムは、検索スペースをいくつかのおそらく食品カテゴリーのセットに制限する。 各食品カテゴリーはいくつかの食品区分から構成される。 例えば「米飯」や「ビリャーニ」は、食品カテゴリー「米」に属する食品のサブカテゴリである。 各食品カテゴリーは、食品サブカテゴリーをいかに区別できるかによってランク付けされる。 活性化された検索空間内の食品サブカテゴリごとに、このアルゴリズムはスコアを付加する。 スコアは、バスケットに追加されたアイテムのランクに基づいて算出される。 スコアがしきい値を超えると、対応するサブカテゴリがアクティベートされる。 アルゴリズムは、バスケットとレシピの類似度尺度を使用して、活性化されたサブカテゴリ内で最適なレシピマッチングを識別する。 これにより検索スペースが大幅に削減される。 このアルゴリズムは、ある意味ではコンテンツベースのレコメンデーションシステムに似ているが、制限されたコンテンツ、過剰な仕様化、新しいユーザー問題といった制限に悩まされていない。

This research proposes a new recommender system algorithm for online grocery shopping. The algorithm is based on the perspective that, since the grocery items are usually bought in bulk, a grocery recommender system should be capable of recommending the items in bulk. The algorithm figures out the possible dishes a user may cook based on the items added to the basket and recommends the ingredients accordingly. Our algorithm does not depend on the user ratings. Customers usually do not have the patience to rate the groceries they purchase. Therefore, algorithms that are not dependent on user ratings need to be designed. Instead of using a brute force search, this algorithm limits the search space to a set of only a few probably food categories. Each food category consists of several food subcategories. For example, "fried rice" and "biryani" are food subcategories that belong to the food category "rice". For each food category, items are ranked according to how well they can differentiate a food subcategory. To each food subcategory in the activated search space, this algorithm attaches a score. The score is calculated based on the rank of the items added to the basket. Once the score exceeds a threshold value, its corresponding subcategory gets activated. The algorithm then uses a basket-to-recipe similarity measure to identify the best recipe matches within the activated subcategories only. This reduces the search space to a great extent. We may argue that this algorithm is similar to the content-based recommender system in some sense, but it does not suffer from the limitations like limited content, over-specialization, or the new user problem.
翻訳日:2021-05-04 13:40:46 公開日:2021-05-03
# Epileptic Seizure Detectionのための超次元計算のシステム評価

Systematic Assessment of Hyperdimensional Computing for Epileptic Seizure Detection ( http://arxiv.org/abs/2105.00934v1 )

ライセンス: Link先を確認
Una Pale, Tomas Teijeiro, David Atienza(参考訳) 超次元コンピューティングは低消費電力組み込み機械学習のための有望な新しいパラダイムである。 様々な生物医学的応用、特にてんかん発作の検出に応用されている。 残念なことに、データ準備、セグメンテーション、エンコーディング戦略、パフォーマンスメトリクスの違いのため、結果の比較が難しいため、その知識に基づいて構築することが困難になる。 したがって,本研究の主な目的は,HDベクトルにマッピングされた特徴量を比較することで,てんかん発作検出のためのHDコンピューティングフレームワークを体系的に評価することである。 より正確には、先程実装された2つの機能と、てんかん発作検出のためのHDコンピューティングに関するいくつかの新しいアプローチをテストする。 我々はこれらを同等に評価し、すなわち、同じ前処理設定で、同じ性能測定で評価する。 結論の一般化性を評価するために、2つの異なるデータセットを使用する。 システム評価には,1) 検出性能,2) メモリ要件,3) 計算複雑性の3つの主要な側面が関係している。 分析の結果,手法間の検出性能は有意な差を示したが,高いメモリや計算量を必要とするため,最も性能の高いものはウェアラブルアプリケーションにとって理想的ではない可能性がある。 さらに,てんかん発作のダイナミックスに予測を適応させるポストプロセッシング戦略を評価し,全てのアプローチにおいて性能が著しく改善され,また後処理では,アプローチ間の性能差がはるかに小さいことを示す。

Hyperdimensional computing is a promising novel paradigm for low-power embedded machine learning. It has been applied on different biomedical applications, and particularly on epileptic seizure detection. Unfortunately, due to differences in data preparation, segmentation, encoding strategies, and performance metrics, results are hard to compare, which makes building upon that knowledge difficult. Thus, the main goal of this work is to perform a systematic assessment of the HD computing framework for the detection of epileptic seizures, comparing different feature approaches mapped to HD vectors. More precisely, we test two previously implemented features as well as several novel approaches with HD computing on epileptic seizure detection. We evaluate them in a comparable way, i.e., with the same preprocessing setup, and with the identical performance measures. We use two different datasets in order to assess the generalizability of our conclusions. The systematic assessment involved three primary aspects relevant for potential wearable implementations: 1) detection performance, 2) memory requirements, and 3) computational complexity. Our analysis shows a significant difference in detection performance between approaches, but also that the ones with the highest performance might not be ideal for wearable applications due to their high memory or computational requirements. Furthermore, we evaluate a post-processing strategy to adjust the predictions to the dynamics of epileptic seizures, showing that performance is significantly improved in all the approaches and also that after post-processing, differences in performance are much smaller between approaches.
翻訳日:2021-05-04 13:40:26 公開日:2021-05-03
# UniGNN: グラフとハイパーグラフニューラルネットワークのための統一フレームワーク

UniGNN: a Unified Framework for Graph and Hypergraph Neural Networks ( http://arxiv.org/abs/2105.00956v1 )

ライセンス: Link先を確認
Jing Huang, Jie Yang(参考訳) エンティティ間の高次相関をモデル化するフレキシブルな表現構造であるhypergraphは、近年様々な研究領域から注目を集めている。 グラフ表現学習におけるグラフニューラルネットワーク(GNN)の成功にもかかわらず、強力なGNN変種を直接ハイパーグラフに適応する方法は難しい問題である。 本稿では,一般的なGNNモデルをハイパーグラフに一般化可能な,グラフおよびハイパーグラフニューラルネットワークにおけるメッセージパッシングプロセスの統一的解釈フレームワークUniGNNを提案する。 このフレームワークでは、GNNの深層化を念頭に設計したアーキテクチャを、最小限の努力でハイパーグラフに組み込むこともできる。 複数の実世界のデータセットに対するUniGNNの有効性を示す大規模な実験が行われ、これは最先端のアプローチよりも大きなマージンを持つ。 特にDBLPデータセットでは,半教師付きハイパーノード分類タスクにおいて,77.4\%から88.8\%に精度を向上する。 さらに,提案するメッセージパッシングに基づくunignnモデルは1次元一般化weisfeiler-leman (1-gwl) アルゴリズムと同様に,非同型なハイパーグラフを識別できることを示す。 私たちのコードは \url{https://github.com/OneForward/UniGNN} で利用可能です。

Hypergraph, an expressive structure with flexibility to model the higher-order correlations among entities, has recently attracted increasing attention from various research domains. Despite the success of Graph Neural Networks (GNNs) for graph representation learning, how to adapt the powerful GNN-variants directly into hypergraphs remains a challenging problem. In this paper, we propose UniGNN, a unified framework for interpreting the message passing process in graph and hypergraph neural networks, which can generalize general GNN models into hypergraphs. In this framework, meticulously-designed architectures aiming to deepen GNNs can also be incorporated into hypergraphs with the least effort. Extensive experiments have been conducted to demonstrate the effectiveness of UniGNN on multiple real-world datasets, which outperform the state-of-the-art approaches with a large margin. Especially for the DBLP dataset, we increase the accuracy from 77.4\% to 88.8\% in the semi-supervised hypernode classification task. We further prove that the proposed message-passing based UniGNN models are at most as powerful as the 1-dimensional Generalized Weisfeiler-Leman (1-GWL) algorithm in terms of distinguishing non-isomorphic hypergraphs. Our code is available at \url{https://github.com/OneForward/UniGNN}.
翻訳日:2021-05-04 13:40:03 公開日:2021-05-03
# 自動コレクション作成とレコメンデーション

Automatic Collection Creation and Recommendation ( http://arxiv.org/abs/2105.01004v1 )

ライセンス: Link先を確認
Sanidhya Singal, Piyush Singh, Manjeet Dahiya(参考訳) 本稿では,ユーザレベルで自動的にアイテムのコレクションを作成し,推薦できるコレクションレコメンダシステムを提案する。 トップN関連アイテムを出力する通常のレコメンデータシステムとは異なり、コレクションレコメンデータシステムは、コレクション内のアイテムがユーザに関連するようなアイテムのコレクションを出力し、コレクション内のアイテムは特定のテーマに従う。 提案システムは,項目推薦システムで学習したユーザ・イテム表現に基づいて構築される。 我々は次元削減とクラスタリング技術と直感的なヒューリスティックを用いて、評価とタイトルによるコレクションを作成します。 我々はこれらのアイデアを、ポピュラーな音楽ストリーミングサービスの中で、実際の音楽レコメンデーションの設定でテストする。 アイテムよりもコレクションを推奨する場合、レコメンデーション駆動の消費は2.3倍増加しています。 さらに、これは不動産の有効利用をもたらし、より多様なアイテムのセットを推奨する。 われわれの知る限り、この種の実験はこの種の実験としては初めてである。

We present a collection recommender system that can automatically create and recommend collections of items at a user level. Unlike regular recommender systems, which output top-N relevant items, a collection recommender system outputs collections of items such that the items in the collections are relevant to a user, and the items within a collection follow a specific theme. Our system builds on top of the user-item representations learnt by item recommender systems. We employ dimensionality reduction and clustering techniques along with intuitive heuristics to create collections with their ratings and titles. We test these ideas in a real-world setting of music recommendation, within a popular music streaming service. We find that there is a 2.3x increase in recommendation-driven consumption when recommending collections over items. Further, it results in effective utilization of real estate and leads to recommending a more and diverse set of items. To our knowledge, these are first of its kind experiments at such a large scale.
翻訳日:2021-05-04 13:39:44 公開日:2021-05-03
# リーン強化学習によるロボット手術

Robotic Surgery With Lean Reinforcement Learning ( http://arxiv.org/abs/2105.01006v1 )

ライセンス: Link先を確認
Yotam Barnoy, Molly O'Brien, Will Wang, Gregory Hager(参考訳) 手術ロボットが一般化するにつれて、複雑な人間の操作の負担を省くことがますます実現可能になる。 モデルフリー強化学習 (RL) は, 汎用的な自動手術成績に向けた有望な方向であるが, 効率的で現実的な学習環境の欠如により進歩が鈍化している。 本稿では,外科医が技術スキルを習得し,リハーサルできるように,世界中のトレーニングシミュレーションであるda Vinci Skill Simulatorに強化学習支援を追加することを述べる。 我々は、画像データと状態データの両方を用いて、シミュレータ環境でサブタスクを実行するためにRLベースのエージェントをうまく教える。 私たちが知る限り、手術ロボティクス環境でrlベースのエージェントが視覚データから教えられるのはこれが初めてです。 さらに,ハイブリッドバッチ学習(HBL)と呼ばれる簡単な実装システムを用いて,RLのサンプル非効率に取り組み,Q-ラーニングプロセスに2番目の長期再生バッファを効果的に追加する。 さらに、状態から簡単に学習できるタスクを使用して収集したデータから学習をブートストラップすることができる。 HBLは学習時間を著しく短縮することを示す。

As surgical robots become more common, automating away some of the burden of complex direct human operation becomes ever more feasible. Model-free reinforcement learning (RL) is a promising direction toward generalizable automated surgical performance, but progress has been slowed by the lack of efficient and realistic learning environments. In this paper, we describe adding reinforcement learning support to the da Vinci Skill Simulator, a training simulation used around the world to allow surgeons to learn and rehearse technical skills. We successfully teach an RL-based agent to perform sub-tasks in the simulator environment, using either image or state data. As far as we know, this is the first time an RL-based agent is taught from visual data in a surgical robotics environment. Additionally, we tackle the sample inefficiency of RL using a simple-to-implement system which we term hybrid-batch learning (HBL), effectively adding a second, long-term replay buffer to the Q-learning process. Additionally, this allows us to bootstrap learning from images from the data collected using the easier task of learning from state. We show that HBL decreases our learning times significantly.
翻訳日:2021-05-04 13:39:29 公開日:2021-05-03
# アルゴリズムは中立ではない:協調フィルタリングのバイアス

Algorithms are not neutral: Bias in collaborative filtering ( http://arxiv.org/abs/2105.01031v1 )

ライセンス: Link先を確認
Catherine Stinson(参考訳) アルゴリズムバイアスの議論は、データまたはアルゴリズムを構築している人々が偏っている例に焦点を当てる傾向がある。 これにより、クリーンなデータと善意がバイアスを排除できるという印象を与える。 アルゴリズム自体の中立性は、著名な人工知能研究者によって守られている。 しかし、アルゴリズムは中立ではない。 バイアス付きデータとバイアス付きアルゴリズムメーカに加えて、AIアルゴリズム自体にもバイアスがかかる。 これは、人気に悩まされ、バイアスを均質化することで知られる協調フィルタリングの例で示される。 反復的情報フィルタリングアルゴリズムは一般に、アルゴリズムが推奨する文書に対するユーザの反応から学習する過程で選択バイアスを生成する。 これらの統計バイアスは、単に統計的な意味での偏見ではない。 人間のデータの分布のマージンに関するデータは、マージン化された人々に対応する傾向にある。 人気度と均質化バイアスは、既に限界に達している範囲をさらに狭める効果がある。 この偏りの源は、アルゴリズムによる意思決定の普遍性を考えると、深刻な注意を喚起する。

Discussions of algorithmic bias tend to focus on examples where either the data or the people building the algorithms are biased. This gives the impression that clean data and good intentions could eliminate bias. The neutrality of the algorithms themselves is defended by prominent Artificial Intelligence researchers. However, algorithms are not neutral. In addition to biased data and biased algorithm makers, AI algorithms themselves can be biased. This is illustrated with the example of collaborative filtering, which is known to suffer from popularity, and homogenizing biases. Iterative information filtering algorithms in general create a selection bias in the course of learning from user responses to documents that the algorithm recommended. These are not merely biases in the statistical sense; these statistical biases can cause discriminatory outcomes. Data points on the margins of distributions of human data tend to correspond to marginalized people. Popularity and homogenizing biases have the effect of further marginalizing the already marginal. This source of bias warrants serious attention given the ubiquity of algorithmic decision-making.
翻訳日:2021-05-04 13:39:08 公開日:2021-05-03
# 空間音声生成における部分監督による視聴覚一貫性の活用

Exploiting Audio-Visual Consistency with Partial Supervision for Spatial Audio Generation ( http://arxiv.org/abs/2105.00708v1 )

ライセンス: Link先を確認
Yan-Bo Lin and Yu-Chiang Frank Wang(参考訳) 人間は耳から聞こえる音で豊かな聴覚経験を知覚する。 バイノーラルオーディオで録音されたビデオは、人間が周囲の音を受信する方法をシミュレートする。 しかし、多くのビデオはモノラルオーディオのみを備えており、環境情報の欠如によりユーザエクスペリエンスが低下する可能性がある。 この問題に対処するために,音声と視覚のコンポーネント間の関係を生かして,モノーラル映像をバイノーラル映像に変換するオーディオ空間化フレームワークを提案する。 学習戦略は,音声と視覚の両方における左右の一貫性を保ちながら,自己教師あり学習手法と見なすことができ,訓練中の真理バイノーラル音声データを用いた大量の映像データへの依存を軽減できる。 ベンチマークデータセットを用いた実験により,半教師付きシナリオと完全教師付きシナリオの両方において,提案手法の有効性が確認された。

Human perceives rich auditory experience with distinct sound heard by ears. Videos recorded with binaural audio particular simulate how human receives ambient sound. However, a large number of videos are with monaural audio only, which would degrade the user experience due to the lack of ambient information. To address this issue, we propose an audio spatialization framework to convert a monaural video into a binaural one exploiting the relationship across audio and visual components. By preserving the left-right consistency in both audio and visual modalities, our learning strategy can be viewed as a self-supervised learning technique, and alleviates the dependency on a large amount of video data with ground truth binaural audio data during training. Experiments on benchmark datasets confirm the effectiveness of our proposed framework in both semi-supervised and fully supervised scenarios, with ablation studies and visualization further support the use of our model for audio spatialization.
翻訳日:2021-05-04 13:38:55 公開日:2021-05-03
# 身体的認識を伴う神経単眼3次元モーションキャプチャ

Neural Monocular 3D Human Motion Capture with Physical Awareness ( http://arxiv.org/abs/2105.01057v1 )

ライセンス: Link先を確認
Soshi Shimada and Vladislav Golyanik and Weipeng Xu and Patrick P\'erez and Christian Theobalt(参考訳) 本研究では,物理的に可塑性なマーカーレス3次元モーションキャプチャーのためのトレーニング可能な新しいシステムを提案する。 人間の動きを捉えるためのほとんどの神経的な方法とは異なり、我々のアプローチは身体的および環境的な制約を認識している。 完全に微分可能な方法、すなわち1.比例導出制御器とニューラルネットワークによって予測されるゲインとを組み合わせることで、高速動作の有無でも遅延を低減し、2. 明示的な剛体力学モデル、3. 物理的に目立たない足底浸透をハード制約として防ぐ新しい最適化層を組み合わせる。 システムへの入力は2Dジョイントキーポイントであり、列車とテスト時間の両方で固有のカメラパラメータへの依存性を減らすために、新しい方法で標準化されています。 これにより、汎用性を損なうことなく、より正確なグローバル翻訳推定が可能になる。 私たちのモデルは、3Dアノテーションが利用できない場合にのみ2Dアノテーションで微調整できます。 インタラクティブなフレームレートで、スムーズで物理的に原則化された3Dモーションを生成する。 その利点は、Human 3.6M や MPI-INF-3DHP のような一般的な3Dポーズ推定ベンチマークと大きく異なっている。 質的な結果はhttp://gvv.mpi-inf.mpg.de/projects/PhysAware/で確認できる。

We present a new trainable system for physically plausible markerless 3D human motion capture, which achieves state-of-the-art results in a broad range of challenging scenarios. Unlike most neural methods for human motion capture, our approach, which we dub physionical, is aware of physical and environmental constraints. It combines in a fully differentiable way several key innovations, i.e., 1. a proportional-derivative controller, with gains predicted by a neural network, that reduces delays even in the presence of fast motions, 2. an explicit rigid body dynamics model and 3. a novel optimisation layer that prevents physically implausible foot-floor penetration as a hard constraint. The inputs to our system are 2D joint keypoints, which are canonicalised in a novel way so as to reduce the dependency on intrinsic camera parameters -- both at train and test time. This enables more accurate global translation estimation without generalisability loss. Our model can be finetuned only with 2D annotations when the 3D annotations are not available. It produces smooth and physically principled 3D motions in an interactive frame rate in a wide variety of challenging scenes, including newly recorded ones. Its advantages are especially noticeable on in-the-wild sequences that significantly differ from common 3D pose estimation benchmarks such as Human 3.6M and MPI-INF-3DHP. Qualitative results are available at http://gvv.mpi-inf.mpg.de/projects/PhysAware/
翻訳日:2021-05-04 13:38:38 公開日:2021-05-03
# 非調整ハミルトニアンモンテカルロの混合時間保証

Mixing Time Guarantees for Unadjusted Hamiltonian Monte Carlo ( http://arxiv.org/abs/2105.00887v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee and Andreas Eberle(参考訳) 非調整なハミルトニアンモンテカルロ (uhmc) アルゴリズムに対応するマルコフ連鎖の全変動混合時間の定量的上限を与える。 2つの一般的なモデルのクラスと固定時間離散化ステップサイズ$h$ に対して、混合時間は次元に対数的にのみ依存することが示される。 さらに、UHMC鎖の不変測度と真の目標測度との間の全変動距離について定量的な上限を与える。 その結果、$O\left(d^{3/4}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$勾配評価と$O\left(d^{1/2}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$勾配評価に対して、ターゲット分布の正確な近似$\mu$を、uHMCで達成できることが示されている。 これらの証明は、上界を実現する uHMC のカップリングを成功させることに基づいている。

We provide quantitative upper bounds on the total variation mixing time of the Markov chain corresponding to the unadjusted Hamiltonian Monte Carlo (uHMC) algorithm. For two general classes of models and fixed time discretization step size $h$, the mixing time is shown to depend only logarithmically on the dimension. Moreover, we provide quantitative upper bounds on the total variation distance between the invariant measure of the uHMC chain and the true target measure. As a consequence, we show that an $\varepsilon$-accurate approximation of the target distribution $\mu$ in total variation distance can be achieved by uHMC for a broad class of models with $O\left(d^{3/4}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$ gradient evaluations, and for mean field models with weak interactions with $O\left(d^{1/2}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$ gradient evaluations. The proofs are based on the construction of successful couplings for uHMC that realize the upper bounds.
翻訳日:2021-05-04 13:38:14 公開日:2021-05-03
# 連続報酬を有するマルチアームバンディットゲームにおける平均場平衡

Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward ( http://arxiv.org/abs/2105.00767v1 )

ライセンス: Link先を確認
Xiong Wang, Riheng Jia(参考訳) 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。 既存のマルチエージェントMABの平均場モデルは、主に二項報酬関数を仮定するが、通常は現実的なシナリオでは適用できない。 本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。 具体的には,平均場平衡(MFE)の存在と特異性を導出することに集中し,マルチエージェントシステムの漸近安定性を保証する。 継続的な報酬機能に対応するために,学習した報酬をエージェント状態にエンコードし,その結果を確率的アームプレイングポリシーにマッピングし,実効観察を用いて更新する。 状態の進化は上半連続性であり、MFEの存在が得られていることを示す。 マルコフ解析は主に離散状態の場合のため、確率的連続状態の進化を決定論的常微分方程式(ODE)に変換する。 そこで本研究では,ODE の縮退マッピングを特徴付けることで,バンディットゲームに特有の MFE を実現する。 広範囲な評価は,MFEの特徴を検証し,MAB問題に対する厳密な経験的後悔を示す。

Mean field game facilitates analyzing multi-armed bandit (MAB) for a large number of agents by approximating their interactions with an average effect. Existing mean field models for multi-agent MAB mostly assume a binary reward function, which leads to tractable analysis but is usually not applicable in practical scenarios. In this paper, we study the mean field bandit game with a continuous reward function. Specifically, we focus on deriving the existence and uniqueness of mean field equilibrium (MFE), thereby guaranteeing the asymptotic stability of the multi-agent system. To accommodate the continuous reward function, we encode the learned reward into an agent state, which is in turn mapped to its stochastic arm playing policy and updated using realized observations. We show that the state evolution is upper semi-continuous, based on which the existence of MFE is obtained. As the Markov analysis is mainly for the case of discrete state, we transform the stochastic continuous state evolution into a deterministic ordinary differential equation (ODE). On this basis, we can characterize a contraction mapping for the ODE to ensure a unique MFE for the bandit game. Extensive evaluations validate our MFE characterization, and exhibit tight empirical regret of the MAB problem.
翻訳日:2021-05-04 13:36:28 公開日:2021-05-03
# 高周波時系列モニタリングのための完全学習可能なディープウェーブレット変換

Fully Learnable Deep Wavelet Transform for Unsupervised Monitoring of High-Frequency Time Series ( http://arxiv.org/abs/2105.00899v1 )

ライセンス: Link先を確認
Gabriel Michau and Olga Fink(参考訳) 高周波(HF)信号は産業界に広く存在しており、産業資産の監視に非常に有用である。 ほとんどのディープラーニングツールは、固定および/または非常に限られたサイズの入力のために設計されており、産業文脈における深層学習の多くの成功例は、入力を抽出した特徴として使用する。 本稿では,生のHF信号の意味的かつスパースな表現を抽出できる,完全に教師なしのディープラーニングフレームワークを提案する。 本研究では,(1)カスケードアルゴリズム,(2)ウェーブレットを結合する二次ミラーフィルタ特性,スケーリングおよび遷移フィルタ関数,(3)デノイング係数などの高速離散ウェーブレット変換(FDWT)のアーキテクチャ上の重要な特性を組み込む。 ディープラーニングを使うことで、このアーキテクチャを十分に学習可能にします。ウェーブレットベースとウェーブレット係数の両方が学習可能になります。 この目的を達成するために、ウェーブレット係数の学習可能なハードスレッディングを行う新しいアクティベーション関数を導入する。 我々のフレームワークでは、FDWTは、事前処理や後処理、ウェーブレット変換に関する事前知識を必要としない、完全に学習可能な教師なしツールとなる。 オープンソースサウンドデータセット上で実行される3つの機械学習タスクに,これらすべてのプロパティを組み込むことによるメリットを実証する。 我々は,ベースラインをはるかに上回る結果を得るとともに,各特性がアーキテクチャ性能に与える影響についてアブレーション研究を行う。

High-Frequency (HF) signal are ubiquitous in the industrial world and are of great use for the monitoring of industrial assets. Most deep learning tools are designed for inputs of fixed and/or very limited size and many successful applications of deep learning to the industrial context use as inputs extracted features, which is a manually and often arduously obtained compact representation of the original signal. In this paper, we propose a fully unsupervised deep learning framework that is able to extract meaningful and sparse representation of raw HF signals. We embed in our architecture important properties of the fast discrete wavelet transformation (FDWT) such as (1) the cascade algorithm, (2) the quadrature mirror filter property that relates together the wavelet, the scaling and transposed filter functions, and (3) the coefficient denoising. Using deep learning, we make this architecture fully learnable: both the wavelet bases and the wavelet coefficient denoising are learnable. To achieve this objective, we introduce a new activation function that performs a learnable hard-thresholding of the wavelet coefficients. With our framework, the denoising FDWT becomes a fully learnable unsupervised tool that does neither require any type of pre- nor post-processing, nor any prior knowledge on wavelet transform. We demonstrate the benefit of embedding all these properties on three machine-learning tasks performed on open source sound datasets. We achieve results well above baseline and we perform an ablation study of the impact of each property on the performance of the architecture.
翻訳日:2021-05-04 13:35:03 公開日:2021-05-03
# 交通予測のための動的グラフ畳み込みリカレントネットワーク:ベンチマークと解法

Dynamic Graph Convolutional Recurrent Network for Traffic Prediction: Benchmark and Solution ( http://arxiv.org/abs/2104.14917v2 )

ライセンス: Link先を確認
Fuxian Li, Jie Feng, Huan Yan, Guangyin Jin, Depeng Jin, and Yong Li(参考訳) 交通予測はインテリジェントな交通システムの基盤である。 スマートシティ、すなわちインテリジェントな交通管理と都市計画の応用には、正確な交通予測が不可欠である。 時空間モデリングには様々な手法が提案されているが,道路網における相関の動的特性は無視できる。 一方、ほとんどのリカレントニューラルネットワーク(RNN)ベースの作業は、リカレント操作のために十分に効率が良くない。 さらに、同じデータセット上の異なるメソッド間での公平な比較が極めて欠如している。 本稿では,上記の課題に対処するために,動的グラフ畳み込みリカレントネットワーク(dgcrn)と呼ばれる新しいトラヒック予測フレームワークを提案する。 DGCRNでは、ハイパーネットワークはノード属性から動的特性を活用、抽出するために設計され、動的フィルタのパラメータは各ステップで生成される。 ノードの埋め込みをフィルタリングし、それを使って動的グラフを生成し、事前に定義された静的グラフと統合する。 我々の知る限りでは、動的グラフの微妙なトポロジーを各ステップごとにモデル化する生成法を最初に採用した。 さらに,効率と性能を向上させるために,DGCRNのトレーニング戦略を用いて,前方・後方伝搬におけるデコーダの繰り返し数を制限する。 最後に、公平な比較とさらなる研究のために、再現可能な標準ベンチマークと真新しい代表トラフィックデータセットがオープンされる。 3つのデータセットに対する大規模な実験により、我々のモデルは15のベースラインを一貫して上回ります。

Traffic prediction is the cornerstone of an intelligent transportation system. Accurate traffic forecasting is essential for the applications of smart cities, i.e., intelligent traffic management and urban planning. Although various methods are proposed for spatio-temporal modeling, they ignore the dynamic characteristics of correlations among locations on road networks. Meanwhile, most Recurrent Neural Network (RNN) based works are not efficient enough due to their recurrent operations. Additionally, there is a severe lack of fair comparison among different methods on the same datasets. To address the above challenges, in this paper, we propose a novel traffic prediction framework, named Dynamic Graph Convolutional Recurrent Network (DGCRN). In DGCRN, hyper-networks are designed to leverage and extract dynamic characteristics from node attributes, while the parameters of dynamic filters are generated at each time step. We filter the node embeddings and then use them to generate a dynamic graph, which is integrated with a pre-defined static graph. As far as we know, we are the first to employ a generation method to model fine topology of dynamic graph at each time step. Further, to enhance efficiency and performance, we employ a training strategy for DGCRN by restricting the iteration number of decoder during forward and backward propagation. Finally, a reproducible standardized benchmark and a brand new representative traffic dataset are opened for fair comparison and further research. Extensive experiments on three datasets demonstrate that our model outperforms 15 baselines consistently.
翻訳日:2021-05-04 10:48:24 公開日:2021-05-03
# テクニカルレポートコンパイル:ソースコードによるファイアドリルアンチパターンの検出

Technical Reports Compilation: Detecting the Fire Drill anti-pattern using Source Code ( http://arxiv.org/abs/2104.15090v2 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) プロジェクト管理アンチパターン(AP)の存在を検出するには、現在、この問題の専門家が必要です。 さらに悪いことに、専門家は個々の主観性や偏見を導入することがある。 まず、Fire Drill APを用いて、基礎となるソースコードから抽出された任意のメトリクスやメンテナンスアクティビティなどのイベントで構成された、記述を検出可能なAPに変換する新しい方法を紹介します。 次に,実世界のプロジェクトからデータに基づくap記述への逸脱を定量化しスコア付けする新しい手法を示す。 ファイアドリルをある程度展示する9つの現実世界プロジェクトを用いて、翻訳されたAPをさらに強化する方法を示す。 これらのプロジェクトの基本的真実は2人の専門家から抽出され、両者の間で合意が得られた。 評価は3種類のパターンにまたがり,第1の型は記述から,第2の型はデータによって拡張され,第3の型はデータのみから導出される。 説明から翻訳されたファイアドリルAPは、プロジェクトにおけるアンチパターンの存在を確実に検出する弱い可能性を示すのみである。 APを現実世界のプロジェクトのデータで強化することは、検出を大幅に改善する。 データから派生したパターンを使用することで、スコアと基礎的な真実のほぼ完全に相関する。 一部のapはfire drill apと症状を共有しており、類似したパターンの存在が検出可能であると結論づけている。 さらに,提案手法を用いて特徴的にモデル化できるパターンは検出可能である。

Detecting the presence of project management anti-patterns (AP) currently requires experts on the matter and is an expensive endeavor. Worse, experts may introduce their individual subjectivity or bias. Using the Fire Drill AP, we first introduce a novel way to translate descriptions into detectable AP that are comprised of arbitrary metrics and events such as maintenance activities, which are mined from the underlying source code, thus making the description objective as it becomes data-based. Secondly, we demonstrate a novel method to quantify and score the deviations of real-world projects to data-based AP descriptions. Using nine real-world projects that exhibit a Fire Drill to some degree, we show how to further enhance the translated AP. The ground truth in these projects was extracted from two individual experts and consensus was found between them. Our evaluation spans three kinds of pattern, where the first is purely derived from description, the second type is enhanced by data, and the third kind is derived from data only. The Fire Drill AP as translated from description only shows weak potential of confidently detecting the presence of the anti-pattern in a project. Enriching the AP with data from real-world projects significantly improves the detection. Using patterns derived from data only leads to almost perfect correlations of the scores with the ground truth. Some APs share symptoms with the Fire Drill AP, and we conclude that the presence of similar patterns is most certainly detectable. Furthermore, any pattern that can be characteristically modelled using the proposed approach is potentially well detectable.
翻訳日:2021-05-04 10:47:20 公開日:2021-05-03
# LIDAR支援データ駆動型ミリ波ビーム選択の新展開

A Novel Look at LIDAR-aided Data-driven mmWave Beam Selection ( http://arxiv.org/abs/2104.14579v2 )

ライセンス: Link先を確認
Matteo Zecchin, Mahdi Boloursaz Mashhadi, Mikolaj Jankowski, Deniz Gunduz, Marios Kountouris, David Gesbert(参考訳) 車両間通信(V2I)における効率の良いミリ波 (mmWave) ビーム選択は, 狭いミリ波ビーム幅と高いユーザ移動性のために重要な課題である。 反復ビーム検出手法の探索オーバーヘッドを低減するため、車両に搭載された光検出・測光センサ(LIDAR)からのコンテキスト情報をデータ駆動方式で利用し、有用な側情報を生成する。 本稿では,それに対応するLIDAR前処理とともに,軽量ニューラルネットワーク(NN)アーキテクチャを提案する。 提案手法はモデルの収束速度と最終的な精度の両方を改善する複数の新規性を含んでいる。 特に, 知識蒸留に触発された新しい損失関数を定義し, 視線(los)/非視線(nlos)情報を活用したカリキュラムトレーニング手法を導入し, より困難なnlos症例の性能を向上させるための非局所注意モジュールを提案する。 LIDARデータと受信者位置のみを用いて,我々のNNベースのビーム選択方式は,ビーム探索オーバーヘッドを伴わずに79.9%のスループットを実現し,最大6本のビームを探索することで95%のスループットを達成できることを示す。

Efficient millimeter wave (mmWave) beam selection in vehicle-to-infrastructure (V2I) communication is a crucial yet challenging task due to the narrow mmWave beamwidth and high user mobility. To reduce the search overhead of iterative beam discovery procedures, contextual information from light detection and ranging (LIDAR) sensors mounted on vehicles has been leveraged by data-driven methods to produce useful side information. In this paper, we propose a lightweight neural network (NN) architecture along with the corresponding LIDAR preprocessing, which significantly outperforms previous works. Our solution comprises multiple novelties that improve both the convergence speed and the final accuracy of the model. In particular, we define a novel loss function inspired by the knowledge distillation idea, introduce a curriculum training approach exploiting line-of-sight (LOS)/non-line-of-sight (NLOS) information, and we propose a non-local attention module to improve the performance for the more challenging NLOS cases. Simulation results on benchmark datasets show that, utilizing solely LIDAR data and the receiver position, our NN-based beam selection scheme can achieve 79.9% throughput of an exhaustive beam sweeping approach without any beam search overhead and 95% by searching among as few as 6 beams.
翻訳日:2021-05-04 10:46:57 公開日:2021-05-03