このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200914となっている論文です。

PDF登録状況(公開日: 20200914)

TitleAuthorsAbstract論文公表日・翻訳日
# 3量子ビットの高次特異値分解と還元密度行列

Higher order singular value decomposition and the reduced density matrices of three qubits ( http://arxiv.org/abs/2003.10537v2 )

ライセンス: Link先を確認
P. S. Choong, H. Zainuddin, K. T. Chan, Sh. K. Said Husain(参考訳) 本稿では,高階特異値分解(hosvd)を用いて,局所ユニタリ演算により3量子ビットの特殊状態を識別できることを実証する。 3つの量子ビットの行列展開はその密度行列の減少に関連しているため、HOSVDは同時に3つの量子ビットの1体還元密度行列を対角化する。 HOSVDの全直交条件から、3つの量子ビットの特殊状態を計算した。 さらに, HOSVDを用いたLU演算により, 3量子ビットの特殊状態を全てカプセル化するポリトープを構築することができることを示した。

In this paper, we demonstrate that higher order singular value decomposition (HOSVD) can be used to identify special states in three qubits by local unitary (LU) operations. Since the matrix unfoldings of three qubits are related to their reduced density matrices, HOSVD simultaneously diagonalizes the one-body reduced density matrices of three qubits. From the all-orthogonality conditions of HOSVD, we computed the special states of three qubits. Furthermore, we showed that it is possible to construct a polytope that encapsulates all the special states of three qubits by LU operations with HOSVD.
翻訳日:2023-05-28 07:27:40 公開日:2020-09-14
# メモリ支援デコイ状態量子鍵分布の有限キー解析

Finite-key analysis for memory-assisted decoy-state quantum key distribution ( http://arxiv.org/abs/2005.04435v2 )

ライセンス: Link先を確認
Guillermo Curr\'as-Lorenzo, Mohsen Razavi(参考訳) メモリアシスト量子キー分散(MA-QKD)システムは、チャネル損失を伴うキーレートのスケーリングを改善する新しいソリューションの一つである。 量子ストレージと測定機能を備えた中間ノードを使用することで、シングルノードの量子リピータと同じキーレートスケーリングを提供する。 しかしながら、リピータレスシステムの名目上のキーレートを超える距離は、1秒あたりのビット数では通常長く、量子メモリを扱う際の効率性や相互作用時間の問題のためである。 例えば、キーレート解析のために無限に多くの鍵ビットの交換に依存する場合、このクロスオーバー距離は数百キロである。 しかし、現実的な設定では、分析における有限キー効果を考慮する必要がある。 そこで本研究では,現実的な実装が可能な体制へのクロスオーバー距離を小さくすることで,MA-QKDの設定を実際に好むことを示す。 実験により既に達成可能なメモリパラメータを用いて,MA-QKDのデコイ状態バージョンを有限鍵方式で厳密に解析してこれを実証する。 これにより、メモリベースのシステムを扱うメリットと課題をよりよく理解できます。

Memory-assisted quantum key distribution (MA-QKD) systems are among novel promising solutions that can improve the key-rate scaling with channel loss. By using a middle node with quantum storage and measurement functionalities, they offer the same key-rate scaling with distance as a single-node quantum repeater. However, the distance at which they can surpass the nominal key rate of repeaterless systems, in terms of bits per second, is typically long, owing to the efficiency and/or interaction time issues when one deals with quantum memories. This crossover distance can be a few hundred kilometres, for instance, when one relies on the exchange of infinitely many key bits for the key-rate analysis. In a realistic setup, however, we should account for the finite-key effects in our analysis. Here, we show that accounting for such effects would actually favour MA-QKD setups, by reducing the crossover distance to the regime where realistic implementations can take place. We demonstrate this by rigorously analysing a decoy-state version of MA-QKD, in the finite-key regime, using memory parameters already achievable experimentally. This provides us with a better understanding of the advantages and challenges of working with memory-based systems.
翻訳日:2023-05-20 18:11:46 公開日:2020-09-14
# 量子非破壊結合による原子時計量子シミュレータのモニタリング

Monitoring Quantum Simulators via Quantum Non-Demolition Couplings to Atomic Clock Qubits ( http://arxiv.org/abs/2006.00214v2 )

ライセンス: Link先を確認
Denis V. Vasilyev, Andrey Grankin, Mikhail A. Baranov, Lukas M. Sieberer, Peter Zoller(参考訳) 本稿では, アナログ量子シミュレータの時間発展を, 補助的な 'clock' 量子ビットへの量子的非分解(QND)結合によって監視することについて議論する。 興味のQND変数は、量子多体系の'エネルギー'であり、量子シミュレータのハミルトニアンによって表される。 ツイーザー配列に閉じ込められたrydberg原子に対する基礎となるqndハミルトニアンの物理的実装について,幅広いスピンモデルに対するレーザードレッシング法を用いて述べる。 本研究では, 量子多体系のスペクトル形式因子を測定するための量子プロトコルについて検討し, エルゴード力学と非エルゴード力学のシグネチャを同定することを目的としている。 また,エネルギー測定のための量子位相推定プロトコルの実行のための物理成分や,アナログ量子シミュレータ上で特定スペクトル分解能のためのエネルギー固有状態の作成も行った。

We discuss monitoring the time evolution of an analog quantum simulator via a quantum non-demolition (QND) coupling to an auxiliary `clock' qubit. The QND variable of interest is the `energy' of the quantum many-body system, represented by the Hamiltonian of the quantum simulator. We describe a physical implementation of the underlying QND Hamiltonian for Rydberg atoms trapped in tweezer arrays using laser dressing schemes for a broad class of spin models. As an application, we discuss a quantum protocol for measuring the spectral form factor of quantum many-body systems, where the aim is to identify signatures of ergodic vs. non-ergodic dynamics, which we illustrate for disordered 1D Heisenberg and Floquet spin models on Rydberg platforms. Our results also provide the physical ingredients for running quantum phase estimation protocols for measurement of energies, and preparation of energy eigenstates for a specified spectral resolution on an analog quantum simulator.
翻訳日:2023-05-17 22:47:01 公開日:2020-09-14
# 散逸線型ボゾン系における任意の順序のリウヴィリアン例外点:コヒーレンス関数と${\cal PT}$と$-${\cal PT}$対称性の切り替え

Liouvillian exceptional points of any order in dissipative linear bosonic systems: Coherence functions and switching between ${\cal PT}$ and anti-${\cal PT}$ symmetries ( http://arxiv.org/abs/2006.03557v2 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Adam Miranowicz, Fabrizio Minganti, Franco Nori(参考訳) 通常、開マルコフ的ボソニック系の例外点(EP)を調べるとき、非エルミート的ハミルトニアン(NHH)のスペクトル退化を扱う。 最近提案された量子リウビリアンフレームワークは、NHH形式論において無視される量子ジャンプの影響を考慮に入れ、量子状態におけるそのような系とそのEP(リウビリアンEP(英語版)(Liouvillian EP)と呼ばれる)の動的性質を完全に決定することができる。 さらに、NHHの対称性と固有周波数スペクトルはより大きなリウヴィリア固有空間の一部となる。 したがって、NHH の EP は LEP の部分空間を形成する。 ここでは、散逸線型ボゾン系の NHH がある有限位数$n$ の EP を示すと、対応する LEP が任意の高位数$m\geq n$ となり、無限ヒルベルト空間で定義されることを示す。 最も重要なことは、これらの高次 LEP は定常状態におけるコヒーレンス関数とスペクトル関数によって識別できることである。 コヒーレンス関数は、高次LEP近傍の外部摂動に対する極端システムの感度を探索する便利なツールを提供することができる。 一例として, 2次共役関数による2次および3次共役関数の高次LEPを明らかにするために, 非コヒーレントモード結合をもつ双モーダルキャビティの線形ボソニック系について検討した。 したがって、これらのLEPは、パワーおよび強度変動スペクトルにおいて、正方形および立方形のローレンツスペクトル線でさらに明らかにすることができる。 さらに, これらのEPは, 自発パリティ時間({\cal PT}$)や反${\cal PT}$対称性の破れとも関連があることを実証した。

Usually, when investigating exceptional points (EPs) of an open Markovian bosonic system, one deals with spectral degeneracies of a non-Hermitian Hamiltonian (NHH), which can correctly describe the system dynamics only in the semiclassical regime. A recently proposed quantum Liouvillian framework enables to completely determine the dynamical properties of such systems and their EPs (referred to as Liouvillian EPs, or LEPs) in the quantum regime by taking into account the effects of quantum jumps, which are ignored in the NHH formalism. Moreover, the symmetry and eigenfrequency spectrum of the NHH become a part of much larger Liouvillian eigenspace. As such, the EPs of an NHH form a subspace of the LEPs. Here we show that once an NHH of a dissipative linear bosonic system exhibits an EP of a certain finite order $n$, it immediately implies that the corresponding LEP can become of any higher order $m\geq n$, defined in the infinite Hilbert space. Most importantly, these higher-order LEPs can be identified by the coherence and spectral functions at the steady state. The coherence functions can offer a convenient tool to probe extreme system sensitivity to external perturbations in the vicinity of higher-order LEPs. As an example, we study a linear bosonic system of a bimodal cavity with incoherent mode coupling to reveal its higher-order LEPs; particularly, of second and third order via first- and second-order coherence functions, respectively. Accordingly, these LEPs can be additionally revealed by squared and cubic Lorentzian spectral lineshapes in the power and intensity-fluctuation spectra. Moreover, we demonstrate that these EPs can also be associated with spontaneous parity-time (${\cal PT}$) and anti-${\cal PT}$-symmetry breaking in the system studied.
翻訳日:2023-05-17 01:58:54 公開日:2020-09-14
# 単一スピン量子ビットを用いた量子熱エンジンのアナログ

Analog of a quantum heat engine using a single-spin qubit ( http://arxiv.org/abs/2008.10181v2 )

ライセンス: Link先を確認
K. Ono, S. N. Shevchenko, T. Mori, S. Moriyama, Franco Nori(参考訳) 周期的に変調されたエネルギー分割を持つ量子二層系は、最小の普遍的な量子熱マシンを提供する。 シリコントンネル電界効果トランジスタにおける不純物電子スピンとしての2レベル系の実験的実現と理論的記述について述べる。 非コヒーレントな状態では、システムはオットー熱エンジンや冷蔵庫と同様に振る舞うことができる。 コヒーレントな状態はこれらの2つの状態の重なりとして記述することができ、観測されたソースドレイン電流に特定の干渉線を生じる。

A quantum two-level system with periodically modulated energy splitting could provide a minimal universal quantum heat machine. We present the experimental realization and the theoretical description of such a two-level system as an impurity electron spin in a silicon tunnel field-effect transistor. In the incoherent regime, the system can behave analogously to either an Otto heat engine or a refrigerator. The coherent regime could be described as a superposition of those two regimes, producing specific interference fringes in the observed source-drain current.
翻訳日:2023-05-05 02:19:57 公開日:2020-09-14
# チャーン・シモンポテンシャルによる2次元非相対論的電子およびミューオン原子の解法

Solving two-dimensional non-relativistic electronic and muonic atoms governed by Chern-Simon potential ( http://arxiv.org/abs/2009.03894v2 )

ライセンス: Link先を確認
Francisco Caruso and Jos\'e A. Helay\"el-Neto and Vitor Oguri and Felipe Silveira(参考訳) 二次元ミューオン原子と電子原子は、陽子、重陽子、トリトンからなる原子であり、チャーン・シモンポテンシャルによって制御される。 固有値と固有関数はわずかに修正されたヌメロフ法で決定される。 結果は、同じ原子が2次元空間においても通常の1/r$ポテンシャルと3次元の類似物によって支配されているという仮定と比較される。

Bidimensional muonic and electronic atoms, with nuclei composed of a proton, deuteron, and triton, and governed by Chern-Simons potential, are numerically solved. Their eigenvalues and eigenfunctions are determined with a slightly modified Numerov method. Results are compared with those assuming that the same atoms are governed by the usual $1/r$ potential even in a two-dimensional space, as well as with its three-dimensional analogs.
翻訳日:2023-05-03 05:06:32 公開日:2020-09-14
# 中間非対称半量子鍵分布

Mediated Asymmetric Semi-Quantum Key Distribution ( http://arxiv.org/abs/2009.06283v1 )

ライセンス: Link先を確認
Yi-Fan Yang and Tzonelih Hwang(参考訳) 本研究では,新しい非対称半量子鍵分布(MASQKD)プロトコルを提案する。 不正な第三者の助けを借りて、非対称な量子能力しか持たない2人の古典的参加者は、秘密鍵を共有することができる。 提案プロトコルは、いくつかのよく知られた攻撃に免疫があることが示されている。 さらに,MASQKDプロトコルの改良により,ある参加者の量子能力をさらに低減することができる。

This study proposes a new mediated asymmetric semi-quantum key distribution (MASQKD) protocol. With the help of a dishonest third party, two classical participants, who have only limited asymmetric quantum capabilities, can share a secret key with each other. The proposed protocol is shown to be immune to several well-known attacks. Furthermore, an improved MASQKD protocol is proposed in which the quantum capabilities of one participant can be further reduced.
翻訳日:2023-05-02 06:45:27 公開日:2020-09-14
# 散逸性二段階系の可制御ダイナミクス

Controllable dynamics of a dissipative two-level system ( http://arxiv.org/abs/2009.06255v1 )

ライセンス: Link先を確認
Wei Wu and Ze-Zhou Zhang(参考訳) 本研究では, 散逸ボソニック環境と相互作用する2レベルシステムの非一貫性ダイナミクスを, 補助自由度を導入することによって変調する手法を提案する。 その結果, 2レベル系の崩壊速度は, 補助自由度の適切なステアの下で著しく抑制できることが判明した。 この結果は、デコヒーレンスと戦う代替手段を提供し、制御可能な散逸ダイナミクスを実現する。

We propose a strategy to modulate the decoherence dynamics of a two-level system, which interacts with a dissipative bosonic environment, by introducing an assisted degree of freedom. It is revealed that the decay rate of the two-level system can be significantly suppressed under suitable steers of the assisted degree of freedom. Our result provides an alternative way to fight against decoherence and realize a controllable dissipative dynamics.
翻訳日:2023-05-02 06:45:00 公開日:2020-09-14
# 論理符号空間への物理キュービットの量子テレポーテーション

Quantum teleportation of physical qubits into logical code-spaces ( http://arxiv.org/abs/2009.06242v1 )

ライセンス: Link先を確認
Yi-Han Luo, Ming-Cheng Chen, Manuel Erhard, Han-Sen Zhong, Dian Wu, Hao-Yang Tang, Qi Zhao, Xi-Lin Wang, Keisuke Fujii, Li Li, Nai-Le Liu, Kae Nemoto, William J. Munro, Chao-Yang Lu, Anton Zeilinger, Jian-Wei Pan(参考訳) 量子誤差補正は、大規模に量子情報を処理するタスクを確実に実行するために必要なツールである。 しかし、これらのタスクを達成するために量子回路への統合は、普遍的な量子計算に不可欠な非変換演算がエラーの拡散につながると認識した場合に問題となる。 これに対するエレガントな解決策として量子ゲートテレポーテーションが提案されている。 ここで、これらの脆弱で非変換のインラインゲートを、非変換ゲートを実装するために回路にテレポート可能な、高度に絡み合ったオフラインリソース状態の生成に置き換える。 最初の重要なステップとして、物理と誤り訂正可能な論理量子ビットの間に最大に絡み合った状態を生成し、テレポーテーションリソースとして利用する。 次に、物理キュービット上で符号化された量子情報の、誤差補正された論理キュービットへのテレポーテーションを0.786まで実証する。 我々の方式は完全なフォールトトレラントであり、将来の大規模量子技術で使用できるように設計することができる。

Quantum error correction is an essential tool for reliably performing tasks for processing quantum information on a large scale. However, integration into quantum circuits to achieve these tasks is problematic when one realizes that non-transverse operations, which are essential for universal quantum computation, lead to the spread of errors. Quantum gate teleportation has been proposed as an elegant solution for this. Here, one replaces these fragile, non-transverse inline gates with the generation of specific, highly entangled offline resource states that can be teleported into the circuit to implement the non-transverse gate. As the first important step, we create a maximally entangled state between a physical and an error-correctable logical qubit and use it as a teleportation resource. We then demonstrate the teleportation of quantum information encoded on the physical qubit into the error-corrected logical qubit with fidelities up to 0.786. Our scheme can be designed to be fully fault-tolerant so that it can be used in future large-scale quantum technologies.
翻訳日:2023-05-02 06:44:54 公開日:2020-09-14
# 局所非エルミート不純物ハバードモデルにおける定常ODLRO状態の動的準備

Dynamical preparation of a steady ODLRO state in the Hubbard model with local non-Hermitian impurity ( http://arxiv.org/abs/2009.06167v1 )

ライセンス: Link先を確認
X. Z. Zhang, and Z. Song(参考訳) 非エルミート性と相互作用の協調は、エルミート系の枠組みでは存在できない多くの直観に反する行動をもたらす。 非エルミート不純物がハバードモデルに与える影響を$\eta $対称性の文脈で研究する。 非エルミートハバードハミルトニアンは、局所非エルミート不純物が適用されたとしても、完全実スペクトルを尊重できることを示す。 単一フェルミオンの散逸とオンサイト対のゆらぎのバランスは、オフ対角長距離秩序(ODLRO)を持つ高次結合状態をもたらす。 高次EPの特性に基づいて、臨界非エルミタンハバードモデルは真空状態を含む任意の初期状態からの時間進化を通じて、そのような安定した超伝導状態を生成することができる。 注目すべきことに、この動的スキームはオンサイト相互作用に敏感であり、粒子の散逸と対のゆらぎの位置には全く依存しない。 この結果から, 臨界非エルミート的強相関系による定常ODLRO状態の動的生成の基礎となった。

The cooperation between non-Hermiticity and interaction brings about a lot of counterintuitive behaviors, which are impossible to exist in the framework of the Hermitian system. We study the effect of a non-Hermitian impurity on the Hubbard model in the context of $\eta $ symmetry. We show that the non-Hermitian Hubbard Hamiltonian can respect a full real spectrum even if a local non-Hermitian impurity is applied to. The balance between dissipation of single fermion and on-site pair fluctuation results in a highest-order coalescing state with off-diagonal long-range order (ODLRO). Based on the characteristic of High-order EP, the critical non-Hermitian Hubbard model allows the generation of such a steady superconducting-like state through the time evolution from an arbitrary initial state, including the vacuum state. Remarkably, this dynamic scheme is insensitive to the on-site interaction and entirely independent of the locations of particle dissipation and pair fluctuation. Our results lay the groundwork for the dynamical generation of a steady ODLRO state through the critical non-Hermitian strongly correlated system.
翻訳日:2023-05-02 06:44:07 公開日:2020-09-14
# 原子-光ハイブリッド量子ジャイロスコープ

Atom-light hybrid quantum gyroscope ( http://arxiv.org/abs/2009.06166v1 )

ライセンス: Link先を確認
Yuan Wu, Jinxian Guo, Xiaotian Feng, L. Q. Chen, Chun-Hua Yuan, and Weiping Zhang(参考訳) 新しいタイプの原子-光ハイブリッド型量子ジャイロスコープ(ALHQG)は、高い回転感度のため提案されている。 原子ラマン増幅法に基づく量子ビーム分割/再結合器(QBS/C)としての光サニャックループと原子アンサンブルから構成され、光波と原子スピン波の分割と再結合を実現する。 サニャックループとQBS/Cの量子相関により回転感度を向上させることができる。 最適作業条件は最適感度を達成するために検討される。 数値結果は、回転感度が理想的な条件で標準量子限界(sql)を上回ることを示している。 実用的な条件下での減衰がある場合でも、ALHQGの最高の感度は依然としてSQLに勝ることができ、光ジャイロスコープ(FOG)よりも優れている。 このようなALHQGは、現代の慣性航法システムに適用できる。

A new type of atom-light hybrid quantum gyroscope (ALHQG) is proposed due to its high rotation sensitivity. It consists of an optical Sagnac loop to couple rotation rate and an atomic ensemble as quantum beam splitter/recombiner (QBS/C) based on atomic Raman amplification process to realize the splitting and recombination of the optical wave and the atomic spin wave. The rotation sensitivity can be enhanced by the quantum correlation between Sagnac loop and QBS/C. The optimal working condition is investigated to achieve the best sensitivity. The numerical results show that the rotation sensitivity can beat the standard quantum limit (SQL) in ideal condition. Even in the presence of the attenuation under practical condition, the best sensitivity of the ALHQG can still beat the SQL and is better than that of a fiber optic gyroscope (FOG). Such an ALHQG could be practically applied for modern inertial navigation system.
翻訳日:2023-05-02 06:43:47 公開日:2020-09-14
# 固体デバイスからの共振蛍光におけるスクイージング強度の観察

Observation of intensity squeezing in resonance fluorescence from a solid-state device ( http://arxiv.org/abs/2009.06164v1 )

ライセンス: Link先を確認
Hui Wang, Jian Qin, Si Chen, Ming-Cheng Chen, Xiang You, Xing Ding, Y.-H. Huo, Ying Yu, C. Schneider, Sven Hoefling, Marlan Scully, Chao-Yang Lu, Jian-Wei Pan(参考訳) インテンシティ・スクイーズ、すなわちショットノイズ限界以下の光子数ゆらぎは、量子光学の基本的側面であり、量子計量学に広く応用されている。 1979年に、2レベル量子系からの共鳴蛍光で強度のスクイーズが観測できると予測された。 しかし、固体における実験的な観察は共鳴蛍光の生成、収集、検出の非効率によって妨げられた。 本稿では,量子ドットマイクロピラー系に基づく単一モードファイバー結合共振蛍光単一光子源の強度について報告する。 パルス単光子ストリームを22.6%の効率で検出し,0.59dbの圧縮でサブショットノイズ強度変動を示す。 第1レンズで3.29dbの補正スクイーズを推定した。 観測された強度のスクイージングは、共鳴蛍光の基本像の最後のピースであり、光放射の新しい標準として、および区別できない単一光子を持つスケーラブルな量子メートル法で使用できる。

Intensity squeezing, i.e., photon number fluctuations below the shot noise limit, is a fundamental aspect of quantum optics and has wide applications in quantum metrology. It was predicted in 1979 that the intensity squeezing could be observed in resonance fluorescence from a two-level quantum system. Yet, its experimental observation in solid states was hindered by inefficiencies in generating, collecting and detecting resonance fluorescence. Here, we report the intensity squeezing in a single-mode fibre-coupled resonance fluorescence single-photon source based on a quantum dot-micropillar system. We detect pulsed single-photon streams with 22.6% system efficiency, which show subshot-noise intensity fluctuation with an intensity squeezing of 0.59 dB. We estimate a corrected squeezing of 3.29 dB at the first lens. The observed intensity squeezing provides the last piece of the fundamental picture of resonance fluorescence; which can be used as a new standard for optical radiation and in scalable quantum metrology with indistinguishable single photons.
翻訳日:2023-05-02 06:43:32 公開日:2020-09-14
# 長距離相互作用を用いた高速高忠実多ビット状態伝達

Fast high-fidelity multi-qubit state transfer with long-range interactions ( http://arxiv.org/abs/2009.06587v1 )

ライセンス: Link先を確認
Yifan Hong, Andrew Lucas(参考訳) 長距離相互作用を伴うハミルトニアンダイナミクスを用いた量子状態転送を行うための効率的なプロトコルについて述べる。 n$ qubitsを十分に大きな距離で転送する時間は、$\sqrt{n}$に比例する。 誤差補正がなくても、このマルチキュービット状態移動過程の忠実度は、結合定数における非相関ランダムエラーの存在下で、任意に分離されたキュービットに対して有限である。

We describe an efficient protocol to perform quantum state transfer using Hamiltonian dynamics with long-range interactions. The time to transfer $n$ qubits a sufficiently large distance is proportional to $\sqrt{n}$. Even without error correction, the fidelity of this multi-qubit state transfer process remains finite for arbitrarily well-separated qubits in the presence of uncorrelated random errors in coupling constants.
翻訳日:2023-05-02 06:36:39 公開日:2020-09-14
# WCAGツールとCambridge Simulatorを用いたWebサイトのアクセシビリティ評価

Accessibility evaluation of websites using WCAG tools and Cambridge Simulator ( http://arxiv.org/abs/2009.06526v1 )

ライセンス: Link先を確認
Shashank Kumar, JeevithaShree DV and Pradipta Biswas(参考訳) WCAGに関しては,Webアクセシビリティの自動評価ツールが多数用意されている。 本稿では WCAG ツールのセットと,Web 開発者による理解や実装の容易さを比較検討する。 本稿は,wcagツールに準拠してのみキャプチャできないアクセシビリティの問題を取り上げ,インクルーシブユーザモデルによるアクセシビリティ評価のための追加手法を提案する。 当初、W3 Webサイトから10のWCAGツールを選択し、BBCやWHOのウェブサイトのランディングページにこれらのツールセットを使用しました。 共通点,相違点,詳細量,ユーザビリティの観点から,それらの結果を比較した。 最後に,ユーザインタラクションのシミュレーションが,WCAG分析によって検出されないユーザビリティやアクセシビリティの問題をどのように捉えるかを示した。 本稿は,アクセシビリティシステムとサービスの比較とコントラスト,能力の異なるユーザとのインタラクションをシミュレートし,パーソナライズするための共通ユーザプロファイルフォーマットの提案を締めくくったものである。

There is plethora of tools available for automatic evaluation of web accessibility with respect to WCAG. This paper compares a set of WCAG tools and their results in terms of ease of comprehension and implementation by web developers. The paper highlights accessibility issues that cannot be captured only through conformance to WCAG tools and propose additional methods to evaluate accessibility through an Inclusive User Model. We initially selected ten WCAG tools from W3 website and used a set of these tools on the landing pages of BBC and WHO websites. We compared their outcome in terms of commonality, differences, amount of details and usability. Finally, we briefly introduced the Inclusive User Model and demonstrated how simulation of user interaction can capture usability and accessibility issues that are not detected through WCAG analysis. The paper concludes with a proposal on a Common User Profile format that can be used to compare and contrast accessibility systems and services, and to simulate and personalize interaction for users with different range of abilities.
翻訳日:2023-05-02 06:36:33 公開日:2020-09-14
# colvis: 多様なユーザグループのためのコラボレーションビジュアライゼーションデザインワークショップ

ColVis: Collaborative Visualization Design Workshops for Diverse User Groups ( http://arxiv.org/abs/2009.06522v1 )

ライセンス: Link先を確認
Damla Cay, Till Nagel, Asim Evren Yantac(参考訳) 初心者ユーザーの探索的視覚化が、データソースの増加とともに広まりつつあるため、今日のデータ視覚化分野では、さまざまなタイプのユーザニーズを理解することがさらに重要である。 データ駆動プロジェクトの複雑さは、学際的専門家と初心者ユーザーを含む入力を必要とする。 ワークショップフレームワークは、ユーザや目標のアウトライン化、タスクの特定、データ構築、データ視覚化のアイデア作成など、さまざまなレベルで、専門家や初心者ユーザと共同で設計決定を行う上で役立ちます。 2つの異なるデータ可視化プロジェクトのためのワークショップを開催しました。 各プロジェクトでは、ドメインの専門家であるプロジェクトステークホルダーとワークショップを行い、その後、初心者ユーザによる第2のワークショップを開催しました。 参加者からのフィードバックを収集し、プロセスに対する批判的な反映を使用しました。 その後、このワークショップ構造をどのように他の人が利用できるのかを推奨しました。 主な貢献は,(1)データビジュアライゼーションを設計するためのワークショップフレームワーク,(2)複数のワークショップから得られた成果と教訓を説明することである。

Understanding different types of users' needs can even be more critical in today's data visualization field, as exploratory visualizations for novice users are becoming more widespread with an increasing amount of data sources. The complexity of data-driven projects requires input from including interdisciplinary expert and novice users. Our workshop framework helps taking design decisions collaboratively with experts and novice users, on different levels such as outlining users and goals, identifying tasks, structuring data, and creating data visualization ideas. We conducted workshops for two different data visualization projects. For each project, we conducted a workshop with project stakeholders who are domain experts, then a second workshop with novice users. We collected feedback from participants and used critical reflection on the process. Later on, we created recommendations on how this workshop structure can be used by others. Our main contributions are, (1) the workshop framework for designing data visualizations, (2) describing the outcomes and lessons learned from multiple workshops.
翻訳日:2023-05-02 06:36:16 公開日:2020-09-14
# キャビティ誘起スピン軌道結合を有する平面ボース-アインシュタイン凝縮体の多体相

Many-Body Phases of a Planar Bose-Einstein Condensate with Cavity-Induced Spin-Orbit Coupling ( http://arxiv.org/abs/2009.06475v1 )

ライセンス: Link先を確認
Stefan Ostermann, Helmut Ritsch and Farokh Mivehvar(参考訳) 2次元ボース・アインシュタイン凝縮体の多体相と空洞を介する動的スピン軌道結合について検討する。 2つの非干渉、逆伝播ポンプレーザーと1つの定在波キャビティモードの助けを借りて、量子気体の2つの縮退ゼーマン準準準位は2つの$\lambda$-コンフィギュレーションでラマン結合される。 臨界ポンプ強度を超えて、キャビティモードは2つのポンプレーザーからのコヒーレントな超ラジアントラマン散乱を介してポピュレーションされ、原子の動的スピン軌道結合の出現に繋がる。 我々は、原子とフォトニックの特性が異なる3つの量子位相を同定した: 通常の ``homogeneous' 相、超ラジアント ``spin-helix'' 相、超ラジアント ``supersolid spin-density-wave'' 相。 後者は、共振器に散乱するコヒーレント光子と衝突誘起運動量結合との相互作用により、正方偏心長方形格子構造を持つ創発周期原子密度分布を示す。 創発結晶の横格子間隔は、動的スピン軌道結合によって設定される。

We explore the many-body phases of a two-dimensional Bose-Einstein condensate with cavity-mediated dynamic spin-orbit coupling. By the help of two transverse non-interfering, counterpropagating pump lasers and a single standing-wave cavity mode, two degenerate Zeeman sub-levels of the quantum gas are Raman coupled in a double-$\Lambda$-configuration. Beyond a critical pump strength the cavity mode is populated via coherent superradiant Raman scattering from the two pump lasers, leading to the appearance of a dynamical spin-orbit coupling for the atoms. We identify three quantum phases with distinct atomic and photonic properties: the normal ``homogeneous'' phase, the superradiant ``spin-helix'' phase, and the superradiant ``supersolid spin-density-wave'' phase. The latter exhibits an emergent periodic atomic density distribution with an orthorhombic centered rectangular-lattice structure due to the interplay between the coherent photon scattering into the resonator and the collision-induced momentum coupling. The transverse lattice spacing of the emergent crystal is set by the dynamic spin-orbit coupling.
翻訳日:2023-05-02 06:35:51 公開日:2020-09-14
# 非ガウス的性質と自発パラメトリック非退化三光子生成の絡み合い

Non-Gaussian Nature and Entanglement of Spontaneous Parametric Nondegenerate Triple-Photon Generation ( http://arxiv.org/abs/2009.06348v1 )

ライセンス: Link先を確認
D. Zhang, Y. Cai, Z. Zheng, D. Barral, Y. Zhang, M. Xiao, K. Bencheikh(参考訳) 決定論的に非ガウス的絡み合った状態を作る方法は、連続可変量子情報技術にとって根本的な問題である。 本稿では,3光子自発的パラメトリックダウンコンバージョンによって生成される三重光子状態が,非ガウシアン絡みの純粋超ガウシアン資源であることを示す。 興味深いことに、三光子状態のモード間の絡み合いの度合いは、同じパラメータを持つ二次ハミルトニアンによって生成される2モードの圧縮真空状態に対応するものよりも強い。 さらに,二次射影計測に基づく波長可変非ガウス性を持つ2モード非ガウス絡み状態の生成モデルを提案する。

How to prepare deterministically non-Gaussian entangled states is a fundamental question for continuous-variable quantum information technology. Here, we theoretically demonstrate through numerical methods that the triple-photon state generated by three-photon spontaneous parametric down-conversion is a pure super-Gaussian resource of non-Gaussian entanglement. Interestingly, the degree of entanglement between the modes of the triple-photon state is stronger than that corresponding to the two-mode squeezed vacuum state produced by a quadratic Hamiltonian with the same parameters. Furthermore, we propose a model to prepare two-mode non-Gaussian entangled states with tunable non-Gaussianity based on quadrature projection measurements.
翻訳日:2023-05-02 06:35:16 公開日:2020-09-14
# モノのインターネットのセキュリティとプライバシに関する詳細な研究

A Detail Study of Security and Privacy issues of Internet of Things ( http://arxiv.org/abs/2009.06341v1 )

ライセンス: Link先を確認
Mohan Krishna Kagita, Navod Thilakarathne, Dharmendra Singh Rajput, and Dr Surekha Lanka(参考訳) モノのインターネット(モノのインターネット、Internet of Things、IoT)は、現在インターネットに接続されている地球上の何十億もの物理的オブジェクトを指す。 近年、IoT(Internet of Things)は信じられないほど画期的な技術革新となり、すべての情報が企業、コンピュータデバイス、さらにはキッチン機器や家電を組み込んだ方法で処理される方法に大きな影響を与えています。 この章の主な焦点は、現在の世界のモノのインターネットのセキュリティとプライバシーを体系的に検討することである。 ほとんどのインターネットユーザーは本物だが、情報不正を期待するサイバー犯罪者もいる。 そのような可能性があれば、IoTデバイスの潜在的なセキュリティとプライバシの問題を知る必要がある。 IoTイノベーションは、日々の生活で毎日使用しているシステムにおいて、さまざまなレベルに適用されます。 データ機密性は重要な問題だ。 様々なネットワークの相互接続により、ユーザがデータを広範囲に制御することは不可能である。 最後に、本章では、文献におけるIoTセキュリティの懸念について論じ、現在のアプローチに対する批判的なレビューと、IoTデバイスのプライバシ保護に関する現在の課題に関するソリューションを提案する。

The Internet of Things, or IoT, refers to the billions of physical objects around the planet that are now connected to the Internet, many of which store and exchange the data without human interaction. In recent years the Internet of Things (IoT) has incredibly become a groundbreaking technical innovation that has contributed to massive impact in the ways where all the information is handled incorporate companies, computer devices, and even kitchen equipment and appliances, are designed and made. The main focus of this chapter is to systematically review the security and privacy of the Internet of Things in the present world. Most internet users are genuine, yet others are cybercriminals with individual expectations of misusing information. With such possibilities, users should know the potential security and privacy issues of IoT devices. IoT innovations are applied on numerous levels in a system that we use daily in our day-to-day life. Data confidentiality is a significant issue. The interconnection of various networks makes it impossible for users to assert extensive control of their data. Finally, this chapter discusses the IoT Security concerns in the literature and providing a critical review of the current approach and proposed solutions on present issues on the Privacy protection of IoT devices.
翻訳日:2023-05-02 06:35:06 公開日:2020-09-14
# pt対称キャビティマグノメカニカルシステムの室温におけるマグノメカニカル共振器の基底状態冷却

Ground state cooling of magnomechanical resonator in PT-symmetric cavity magnomechanical system at room temperature ( http://arxiv.org/abs/2009.06293v1 )

ライセンス: Link先を確認
Zhi-Xin Yang, Liang Wang, Yu-Mu Liu, Dong-Yang Wang, Cheng-Hua Bai, Shou Zhang, and Hong-Fu Wang(参考訳) 損失強磁性球とゲインマイクロ波共振器からなるパリティタイム(pt)対称キャビティマグノメカニカルシステムにおいて、マグノメカニカル共振器の基底状態冷却を実現する。 この方式では、マグノメカニカル共振器はマグノメカニカル相互作用により基底状態近くで冷却することができ、pt対称系では非pt対称系よりも冷却効果が高いことが判明した。 磁気力雑音スペクトルを用いて実験可能なパラメータによる最終平均フォノン数を調べ、室温でマグノメカニカル共振器の基底状態冷却が直接達成できることを驚くべきことに発見する。 また, 地中冷却は外部磁場によって柔軟に制御できることを示す。

We propose to realize the ground state cooling of magnomechanical resonator in a parity-time (PT)-symmetric cavity magnomechanical system composed of a loss ferromagnetic sphere and a gain microwave cavity. In the scheme, the magnomechanical resonator can be cooled close to its ground state via the magnomechanical interaction, and it is found that the cooling effect in PT-symmetric system is much higher than that in non-PT-symmetric system. Resorting to the magnetic force noise spectrum, we investigate the final mean phonon number with experimentally feasible parameters and find surprisingly that the ground state cooling of magnomechanical resonator can be directly achieved at room temperature. Furthermore, we also illustrate that the ground state cooling can be flexibly controlled via the external magnetic field.
翻訳日:2023-05-02 06:34:27 公開日:2020-09-14
# ハイゼンベルク図における一般化量子電磁力学の2 + 1$におけるm{\o}ller散乱

M{\o}ller scattering in $2 + 1$ of generalized quantum electrodynamics in the heisenberg picture ( http://arxiv.org/abs/2009.06727v1 )

ライセンス: Link先を確認
David Montenegro(参考訳) 本稿では,電子電子散乱過程 $e^- e^- \rightarrow e^- e^-$,すなわち m{\o}ller 散乱の微分断面積を,ハイゼンベルク像における2+1)$次元で一般化電気力学の枠組みから検討する。 この目的のために、マクスウェル・ワンではなく、平面一般化電磁力学の安定かつユニタリな枠組みで始まる。 ハーグの定理はハイゼンベルク表現における微分断面積の研究を強く示唆している。 その後,ポドルスキー質量カットオフの影響を考察し,凝縮物系に基づくデータを考慮した微分断面積を計算する。

In this paper, we investigate from the framework of generalized electrodynamics the differential cross section of the electron-electron scattering process $e^- e^- \rightarrow e^- e^-$, i.e., M{\o}ller scattering, in $(2+1)$ dimensions in the Heisenberg picture. To this goal, one starts within the stable and unitary framework of planar generalized electrodynamics, instead of Maxwell one. We argue the Haag's theorem strongly suggests the study of the differential cross section in the Heisenberg representation. Afterward, we explore the influence of Podolsky mass cutoff and calculate the differential cross section considering data based on condensed matter systems.
翻訳日:2023-05-02 06:26:33 公開日:2020-09-14
# フリーマン共鳴に対するサブバリアー経路

Sub-barrier pathways to Freeman resonances ( http://arxiv.org/abs/2009.06712v1 )

ライセンス: Link先を確認
Michael Klaiber and Karen Z. Hatsagortsyan and Christoph H. Keitel(参考訳) フリーマン共鳴の問題点 [R。 R. Freeman \textit{et al. とPhys。 Rev. Lett. \textbf{59},1092 (1987)] イオン化中の励起状態の過渡的集団により強電界イオン化が増強されたとき、再訪する。 直観的なモデルでは、非断熱トンネルイオン化中の励起状態の中間集団のメカニズムを、バリアー再結合と再結合を介して説明している。 理論モデルは摂動性強磁場近似(SFA)に基づいており、サブバリア境界連続結合経路は2次SFAで記述され、励起状態からのさらなるイオン化はさらなる摂動ステップによって行われる。 イオン化の促進は、異なるレーザーサイクルに由来する励起振幅への寄与が構成的干渉によって生じることが示されている。 応用モデルは、強電界イオン化におけるフリーマン共鳴中の電子力学の直感的な理解と、プロセスの強化と関連するプロセスへの応用を提供する。

The problem of Freeman resonances [R. R. Freeman \textit{et al.}, Phys. Rev. Lett. \textbf{59}, 1092 (1987)] when strong field ionization is enhanced due to the transient population of excited states during the ionization, is revisited. An intuitive model is put forward which explains the mechanism of the intermediate population of excited states during nonadiabatic tunneling ionization via the under-the-barrier recollision and recombination. The theoretical model is based on perturbative strong-field approximation (SFA), where the sub-barrier bound-continuum-bound pathway is described in the second-order SFA, while the further ionization from the excited state by an additional perturbative step. The enhancement of ionization is shown to arise due to the constructive interference of contributions into the excitation amplitudes originating from different laser cycles. The applied model provides an intuitive understanding of the electron dynamics during a Freeman resonance in strong-field ionization, as well as means of enhancing the process and possible applications to related processes.
翻訳日:2023-05-02 06:26:07 公開日:2020-09-14
# 雑音量子回路における低ランク密度行列の進化

Low Rank Density Matrix Evolution for Noisy Quantum Circuits ( http://arxiv.org/abs/2009.06657v1 )

ライセンス: Link先を確認
Yi-Ting Chen, Collin Farquhar, Robert M. Parrish(参考訳) 本研究では,ノイズ量子回路におけるクラウスデコヒーレンスチャネルの古典的シミュレーションのための効率的なランク圧縮手法を提案する。 この近似は、全行列の保存、操作、対角化を必要とせず、各シミュレーションステップにおける主固有ベイシスに基づく密度行列の反復圧縮によって達成される。 本研究では,本アルゴリズムを社内シミュレータに実装し,既存のフルランクシミュレータよりも2桁以上の精度でシミュレーションを高速化し,目標雑音と最終観測値に無視可能な誤りを発生させることを示す。 最後に,グローバー探索アルゴリズムと量子化学解法のノイズシミュレーションを高速化するアルゴリズムを用いて,関心の代表的な問題に適用できる低ランク法の有用性を示す。

In this work, we present an efficient rank-compression approach for the classical simulation of Kraus decoherence channels in noisy quantum circuits. The approximation is achieved through iterative compression of the density matrix based on its leading eigenbasis during each simulation step without the need to store, manipulate, or diagonalize the full matrix. We implement this algorithm in an in-house simulator, and show that the low rank algorithm speeds up simulations by more than two orders of magnitude over an existing implementation of full rank simulator, and with negligible error in the target noise and final observables. Finally, we demonstrate the utility of the low rank method as applied to representative problems of interest by using the algorithm to speed-up noisy simulations of Grover's search algorithm and quantum chemistry solvers.
翻訳日:2023-05-02 06:24:44 公開日:2020-09-14
# 科学的発見のための物理誘導機械学習:湖の温度分布シミュレーションへの応用

Physics-Guided Machine Learning for Scientific Discovery: An Application in Simulating Lake Temperature Profiles ( http://arxiv.org/abs/2001.11086v3 )

ライセンス: Link先を確認
Xiaowei Jia, Jared Willard, Anuj Karpatne, Jordan S Read, Jacob A Zwart, Michael Steinbach, Vipin Kumar(参考訳) 力学系の物理モデルはしばしば工学や環境システムの研究に用いられる。 広範な使用にもかかわらず、これらのモデルには、モデル化される物理的プロセスの単純な表現や適切なパラメータの選択の困難のために、いくつかのよく知られた制限がある。 最先端の機械学習モデルは、大量のトレーニングデータによって物理ベースのモデルを上回ることがあるが、物理的に一貫性のない結果を生み出すことができる。 本稿では,RNNと物理モデルを組み合わせた物理誘導リカレントニューラルネットワークモデル(PGRNN)を提案する。 具体的には、PGRNNは物理法則と整合した出力を生成しながら、物理モデルよりも予測精度を向上させることができることを示す。 我々のPGRNNアプローチの重要な側面は、物理モデルに符号化された知識を組み込む能力にある。 これにより、非常に少ない真の観測データを使用してpgrnnモデルをトレーニングし、高い予測精度を保証できる。 湖沼の温度のダイナミクスをモデル化する文脈において、この方法論を提示し、評価するが、物理学に基づく(力学としても知られる)モデルが用いられる様々な科学・工学分野、例えば、気候科学、材料科学、計算化学、バイオメディシンに適用できる。

Physics-based models of dynamical systems are often used to study engineering and environmental systems. Despite their extensive use, these models have several well-known limitations due to simplified representations of the physical processes being modeled or challenges in selecting appropriate parameters. While-state-of-the-art machine learning models can sometimes outperform physics-based models given ample amount of training data, they can produce results that are physically inconsistent. This paper proposes a physics-guided recurrent neural network model (PGRNN) that combines RNNs and physics-based models to leverage their complementary strengths and improves the modeling of physical processes. Specifically, we show that a PGRNN can improve prediction accuracy over that of physics-based models, while generating outputs consistent with physical laws. An important aspect of our PGRNN approach lies in its ability to incorporate the knowledge encoded in physics-based models. This allows training the PGRNN model using very few true observed data while also ensuring high prediction accuracy. Although we present and evaluate this methodology in the context of modeling the dynamics of temperature in lakes, it is applicable more widely to a range of scientific and engineering disciplines where physics-based (also known as mechanistic) models are used, e.g., climate science, materials science, computational chemistry, and biomedicine.
翻訳日:2023-01-06 02:59:21 公開日:2020-09-14
# 座標最小化によって解ける線形プログラムのクラス

A Class of Linear Programs Solvable by Coordinate-Wise Minimization ( http://arxiv.org/abs/2001.10467v5 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask, Tom\'a\v{s} Werner(参考訳) 座標最小化は大規模最適化のための単純な一般的な方法である。 残念ながら、一般的な(微分不能な)凸問題では、大域的ミニマは見つからない。 座標最小化が正確に解く線形プログラムのクラスを提案する。 本稿では,いくつかのよく知られた組合せ最適化問題の双対lp緩和がこのクラスにあり,合理的な実行時において十分な精度を持つ大域的最小値を求める。 さらに、このクラスに存在しないこれらの問題を拡張するために、メソッドは適度に良いサブオプティマをもたらす。 提案したLP緩和はより効率的な手法(マックスフローなど)で解けるが、理論上は非自明であり、将来的には新たな大規模最適化アルゴリズムがもたらされる可能性がある。

Coordinate-wise minimization is a simple popular method for large-scale optimization. Unfortunately, for general (non-differentiable) convex problems it may not find global minima. We present a class of linear programs that coordinate-wise minimization solves exactly. We show that dual LP relaxations of several well-known combinatorial optimization problems are in this class and the method finds a global minimum with sufficient accuracy in reasonable runtimes. Moreover, for extensions of these problems that no longer are in this class the method yields reasonably good suboptima. Though the presented LP relaxations can be solved by more efficient methods (such as max-flow), our results are theoretically non-trivial and can lead to new large-scale optimization algorithms in the future.
翻訳日:2023-01-06 02:52:06 公開日:2020-09-14
# レーン検出のためのキーポイント推定とポイントインスタンス分割手法

Key Points Estimation and Point Instance Segmentation Approach for Lane Detection ( http://arxiv.org/abs/2002.06604v4 )

ライセンス: Link先を確認
Yeongmin Ko, Younkwan Lee, Shoaib Azam, Farzeen Munir, Moongu Jeon, and Witold Pedrycz(参考訳) 自律運転の知覚技術は様々な環境に適応すべきである。 交通線検出においては,本質的な認識モジュールとして,交通線数や目標システムの計算能力など,多くの条件を考慮すべきである。 これらの問題に対処するため,本研究では,キーポイント推定とインスタンスセグメンテーションに基づくPINet(Point Instance Network)と呼ばれるトラヒックライン検出手法を提案する。 PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。 したがって、トレーニングされたモデルのサイズは、対象環境の計算能力に応じて選択できる。 我々は,予測されたキーポイントのクラスタリング問題をインスタンスセグメンテーション問題としてキャストした。 PINetは、一般的なレーン検出用のパブリックデータセットであるTuSimpleとCulaneデータセット上で、競合精度と偽陽性を達成する。 私たちのコードはhttps://github.com/koyeongmin/PINet_newで利用可能です。

Perception techniques for autonomous driving should be adaptive to various environments. In the case of traffic line detection, an essential perception module, many condition should be considered, such as number of traffic lines and computing power of the target system. To address these problems, in this paper, we propose a traffic line detection method called Point Instance Network (PINet); the method is based on the key points estimation and instance segmentation approach. The PINet includes several stacked hourglass networks that are trained simultaneously. Therefore the size of the trained models can be chosen according to the computing power of the target environment. We cast a clustering problem of the predicted key points as an instance segmentation problem; the PINet can be trained regardless of the number of the traffic lines. The PINet achieves competitive accuracy and false positive on the TuSimple and Culane datasets, popular public datasets for lane detection. Our code is available at https://github.com/koyeongmin/PINet_new
翻訳日:2022-12-31 17:57:49 公開日:2020-09-14
# グラフネットワークで複雑な物理をシミュレートする学習

Learning to Simulate Complex Physics with Graph Networks ( http://arxiv.org/abs/2002.09405v2 )

ライセンス: Link先を確認
Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, Peter W. Battaglia(参考訳) ここでは,流体,固形固形物,変形可能な材料が相互に相互作用するなど,さまざまな困難な物理的領域をシミュレートすることを学ぶことができる機械学習フレームワークとモデル実装を提案する。 グラフネットワークベースのシミュレータ(gns)と呼ぶこのフレームワークは、物理システムの状態を粒子で表現し、グラフ内のノードとして表現し、学習したメッセージパッシングを通じてダイナミクスを計算する。 我々のモデルは,訓練中に数千の粒子による1段階の予測から,異なる初期条件,数千のタイムステップ,少なくとも1桁以上の粒子をテスト時に一般化できることを示す。 我々のモデルは,様々な評価指標のハイパーパラメータ選択に対して頑健であった。長期的性能の決定要因は,メッセージ通過ステップの数であり,トレーニングデータをノイズで破壊することでエラーの蓄積を軽減した。 我々のGNSフレームワークは、学習された物理シミュレーションの最先端を推し進め、幅広い複雑な前方および逆問題の解法を約束する。

Here we present a machine learning framework and model implementation that can learn to simulate a wide variety of challenging physical domains, involving fluids, rigid solids, and deformable materials interacting with one another. Our framework---which we term "Graph Network-based Simulators" (GNS)---represents the state of a physical system with particles, expressed as nodes in a graph, and computes dynamics via learned message-passing. Our results show that our model can generalize from single-timestep predictions with thousands of particles during training, to different initial conditions, thousands of timesteps, and at least an order of magnitude more particles at test time. Our model was robust to hyperparameter choices across various evaluation metrics: the main determinants of long-term performance were the number of message-passing steps, and mitigating the accumulation of error by corrupting the training data with noise. Our GNS framework advances the state-of-the-art in learned physical simulation, and holds promise for solving a wide range of complex forward and inverse problems.
翻訳日:2022-12-30 01:12:07 公開日:2020-09-14
# Spike-FlowNet:エネルギー効率の良いハイブリッドニューラルネットワークを用いたイベントベース光フロー推定

Spike-FlowNet: Event-based Optical Flow Estimation with Energy-Efficient Hybrid Neural Networks ( http://arxiv.org/abs/2003.06696v3 )

ライセンス: Link先を確認
Chankyu Lee, Adarsh Kumar Kosta, Alex Zihao Zhu, Kenneth Chaney, Kostas Daniilidis, and Kaushik Roy(参考訳) イベントベースのカメラは、従来のフレームベースのカメラがクリティカルな低照度環境での高速モーション検出やナビゲーションなど、さまざまなタスクにおいて大きな可能性を秘めている。 これは高時間分解能、高ダイナミックレンジ、低消費電力による。 しかし、従来のコンピュータビジョン手法やディープアナログニューラルネットワーク(anns)は、イベントカメラ出力の非同期かつ離散的な性質には適していない。 スパイキングニューラルネットワーク(SNN)は、イベントカメラ出力を処理する理想的なパラダイムとして機能するが、スパイク消滅現象により、深いSNNはパフォーマンスに苦しむ。 これらの問題を解決するために、SNNとANNを統合したディープハイブリッドニューラルネットワークアーキテクチャであるSpike-FlowNetを紹介し、スパースイベントカメラ出力からの光フローを性能を犠牲にすることなく効率的に推定する。 ネットワークは、mvsec(multi-vehicle stereo event camera)データセットで自己教師付き学習によってエンドツーエンドでトレーニングされる。 spike-flownetは、光学フロー予測能力の点で、対応するanベースの方法よりも優れた計算効率を提供する。

Event-based cameras display great potential for a variety of tasks such as high-speed motion detection and navigation in low-light environments where conventional frame-based cameras suffer critically. This is attributed to their high temporal resolution, high dynamic range, and low-power consumption. However, conventional computer vision methods as well as deep Analog Neural Networks (ANNs) are not suited to work well with the asynchronous and discrete nature of event camera outputs. Spiking Neural Networks (SNNs) serve as ideal paradigms to handle event camera outputs, but deep SNNs suffer in terms of performance due to the spike vanishing phenomenon. To overcome these issues, we present Spike-FlowNet, a deep hybrid neural network architecture integrating SNNs and ANNs for efficiently estimating optical flow from sparse event camera outputs without sacrificing the performance. The network is end-to-end trained with self-supervised learning on Multi-Vehicle Stereo Event Camera (MVSEC) dataset. Spike-FlowNet outperforms its corresponding ANN-based method in terms of the optical flow prediction capability while providing significant computational efficiency.
翻訳日:2022-12-23 20:03:18 公開日:2020-09-14
# 深い制約付きQ-ラーニング

Deep Constrained Q-learning ( http://arxiv.org/abs/2003.09398v2 )

ライセンス: Link先を確認
Gabriel Kalweit and Maria Huegle and Moritz Werling and Joschka Boedecker(参考訳) 多くの実世界のアプリケーションでは、強化学習エージェントは特定のルールに従いながら複数の目的を最適化するか、制約のリストを満たす必要がある。 報酬のシェーピングに基づく古典的な手法、すなわち報酬信号における異なる目的の重み付けの組み合わせ、または損失関数の制約を含むラグランジアン法は、エージェントがすべての時点における制約を満たす保証がなく、望ましくない行動につながる可能性がある。 離散ポリシーがアクション値関数から抽出されると、最大化時にアクション空間を制限することで安全なアクションが保証されるが、実現可能な選択肢間での最適化ソリューションにつながる可能性がある。 本研究では,制約付きMDPの最適Q-関数とそれに対応する安全ポリシーを学習するために,Q-updateのアクション空間を直接制限する新しい非政治強化学習フレームワークであるConstrained Q-learningを提案する。 本稿では,次の動作のみを参照する単段制約に加えて,停止値関数に基づく現在の目標方針の下での近似多段制約の定式化を提案する。 本研究は,自律運転における高次意思決定の適用において,制約付きQ-ラーニングの利点を分析し,制約付きDQNを報酬形成法とラグランジアン法と比較する。 我々はオープンソースのシミュレータSUMOと実際のHighDデータセットでエージェントを訓練する。

In many real world applications, reinforcement learning agents have to optimize multiple objectives while following certain rules or satisfying a list of constraints. Classical methods based on reward shaping, i.e. a weighted combination of different objectives in the reward signal, or Lagrangian methods, including constraints in the loss function, have no guarantees that the agent satisfies the constraints at all points in time and can lead to undesired behavior. When a discrete policy is extracted from an action-value function, safe actions can be ensured by restricting the action space at maximization, but can lead to sub-optimal solutions among feasible alternatives. In this work, we propose Constrained Q-learning, a novel off-policy reinforcement learning framework restricting the action space directly in the Q-update to learn the optimal Q-function for the induced constrained MDP and the corresponding safe policy. In addition to single-step constraints referring only to the next action, we introduce a formulation for approximate multi-step constraints under the current target policy based on truncated value-functions. We analyze the advantages of Constrained Q-learning in the tabular case and compare Constrained DQN to reward shaping and Lagrangian methods in the application of high-level decision making in autonomous driving, considering constraints for safety, keeping right and comfort. We train our agent in the open-source simulator SUMO and on the real HighD data set.
翻訳日:2022-12-21 22:18:45 公開日:2020-09-14
# 生成型adversarial networkに対するゲーム理論的アプローチ

A game-theoretic approach for Generative Adversarial Networks ( http://arxiv.org/abs/2003.13637v2 )

ライセンス: Link先を確認
Barbara Franci and Sergio Grammatico(参考訳) generative adversarial network (gans) は、正確なサンプルを生成することで知られている生成モデルの一種である。 gansの重要な特徴は、ジェネレータと判別器の2つの敵対的ニューラルネットワークが存在することである。 彼らの実装の主なボトルネックは、ニューラルネットワークのトレーニングが非常に難しいことだ。 性能を改善する一つの方法は、敵のプロセスに信頼できるアルゴリズムを設計することである。 トレーニングは確率的ナッシュ均衡問題としてキャストできるので、変分不等式として書き直し、近似解を計算するアルゴリズムを導入する。 具体的には,GANに対する確率的緩和前向きアルゴリズムを提案する。 ゲームの擬次写像が単調であると証明すると、我々は正確な解またはその近傍に収束する。

Generative adversarial networks (GANs) are a class of generative models, known for producing accurate samples. The key feature of GANs is that there are two antagonistic neural networks: the generator and the discriminator. The main bottleneck for their implementation is that the neural networks are very hard to train. One way to improve their performance is to design reliable algorithms for the adversarial process. Since the training can be cast as a stochastic Nash equilibrium problem, we rewrite it as a variational inequality and introduce an algorithm to compute an approximate solution. Specifically, we propose a stochastic relaxed forward-backward algorithm for GANs. We prove that when the pseudogradient mapping of the game is monotone, we have convergence to an exact solution or in a neighbourhood of it.
翻訳日:2022-12-18 07:18:58 公開日:2020-09-14
# 深層強化学習によるトラベルセールスマン問題の2-optヒューリスティックス学習

Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep Reinforcement Learning ( http://arxiv.org/abs/2004.01608v3 )

ライセンス: Link先を確認
Paulo R. de O. da Costa, Jason Rhuggenaath, Yingqian Zhang, Alp Akcay(参考訳) 近年,トラベリングセールスマン問題(TSP)の解決にディープラーニングを用いた研究は,建設ヒューリスティックスの学習に重点を置いている。 このようなアプローチは品質のよいtspソリューションを見つけるが、ビームサーチやサンプリングのような追加の手順が必要となり、ソリューションを改善し、最先端のパフォーマンスを達成する。 しかし、与えられた解が最適に近い解に達するまで改善されるような改善ヒューリスティックスに焦点を当てた研究はほとんどない。 本研究では,深層強化学習による2-opt演算子に基づく局所探索ヒューリスティックを学ぶことを提案する。 本稿では,現在の解に対して2オプト操作を選択する確率的ポリシを学習するためのポリシ勾配アルゴリズムを提案する。 さらに,従来の手法と異なり,より一般的なk-opt動作に容易に拡張できるポインティングアテンション機構を利用したポリシニューラルネットワークを提案する。 その結果、学習方針はランダム初期解よりも改善し、従来の最先端ディープラーニング手法よりも高速に、最適に近い解にアプローチできることがわかった。

Recent works using deep learning to solve the Traveling Salesman Problem (TSP) have focused on learning construction heuristics. Such approaches find TSP solutions of good quality but require additional procedures such as beam search and sampling to improve solutions and achieve state-of-the-art performance. However, few studies have focused on improvement heuristics, where a given solution is improved until reaching a near-optimal one. In this work, we propose to learn a local search heuristic based on 2-opt operators via deep reinforcement learning. We propose a policy gradient algorithm to learn a stochastic policy that selects 2-opt operations given a current solution. Moreover, we introduce a policy neural network that leverages a pointing attention mechanism, which unlike previous works, can be easily extended to more general k-opt moves. Our results show that the learned policies can improve even over random initial solutions and approach near-optimal solutions at a faster rate than previous state-of-the-art deep learning methods.
翻訳日:2022-12-17 03:44:19 公開日:2020-09-14
# 5Gモバイルネットワークにおけるセキュアなフェデレーション学習

Secure Federated Learning in 5G Mobile Networks ( http://arxiv.org/abs/2004.06700v2 )

ライセンス: Link先を確認
Martin Isaksson, Karl Norrman(参考訳) 機械学習(ML)は,モバイルネットワークの最適化,セキュア化,管理を行う上で重要な手段である。 これにより、ネットワーク機能からのデータの収集と処理が増加し、それによって機密性の高いエンドユーザ情報に対する脅威が増大する可能性がある。 したがって、エンドユーザープライバシに対する脅威を軽減するメカニズムは、MLを最大限に活用するために必要である。 3gpp 5g network data analytics(nwda)アーキテクチャにfederated learning(fl)をシームレスに統合し、ローカル更新の機密性を保護するマルチパーティ計算(mpc)プロトコルを追加しました。 我々は,このプロトコルを評価し,ML性能に影響を与えることなく,従来の作業よりもオーバーヘッドがはるかに小さいことを発見した。

Machine Learning (ML) is an important enabler for optimizing, securing and managing mobile networks. This leads to increased collection and processing of data from network functions, which in turn may increase threats to sensitive end-user information. Consequently, mechanisms to reduce threats to end-user privacy are needed to take full advantage of ML. We seamlessly integrate Federated Learning (FL) into the 3GPP 5G Network Data Analytics (NWDA) architecture, and add a Multi-Party Computation (MPC) protocol for protecting the confidentiality of local updates. We evaluate the protocol and find that it has much lower overhead than previous work, without affecting ML performance.
翻訳日:2022-12-13 12:41:15 公開日:2020-09-14
# 説明可能なマトリックス -- ランダム森林分類のグローバルおよびローカル解釈可能性の可視化

Explainable Matrix -- Visualization for Global and Local Interpretability of Random Forest Classification Ensembles ( http://arxiv.org/abs/2005.04289v2 )

ライセンス: Link先を確認
M\'ario Popolin Neto and Fernando V. Paulovich(参考訳) 過去数十年にわたり、分類モデルはさまざまな領域での可能性と適用性を考えると、重要な機械学習ツールであることが証明されてきた。 近年、研究者の大多数の北部は、メトリクスが伝達するモデルの決定に関する情報がなくても、定量的なメトリクスを改善することになっていた。 このパラダイムは最近シフトし、モデル決定の解釈を支援するためのテーブルや数字を超えた戦略が重要になっている。 この傾向の一部として、分類モデルの解釈性をサポートするために視覚化技術が広く使われており、ルールベースのモデルに重点を置いている。 進歩にもかかわらず、既存のアプローチには視覚的スケーラビリティの限界があり、ランダムフォレスト(RF)技術による大規模で複雑なモデルの可視化は依然として課題である。 本稿では,大量のルールを持つモデルを扱うための新しいRF解釈可能性の可視化手法である Explainable Matrix (ExMatrix) を提案する。 単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールの述語であり、モデル全体の分析と監査の分類結果を可能にする。 ExMatrixの適用性は異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。

Over the past decades, classification models have proven to be essential machine learning tools given their potential and applicability in various domains. In these years, the north of the majority of the researchers had been to improve quantitative metrics, notwithstanding the lack of information about models' decisions such metrics convey. This paradigm has recently shifted, and strategies beyond tables and numbers to assist in interpreting models' decisions are increasing in importance. Part of this trend, visualization techniques have been extensively used to support classification models' interpretability, with a significant focus on rule-based models. Despite the advances, the existing approaches present limitations in terms of visual scalability, and the visualization of large and complex models, such as the ones produced by the Random Forest (RF) technique, remains a challenge. In this paper, we propose Explainable Matrix (ExMatrix), a novel visualization method for RF interpretability that can handle models with massive quantities of rules. It employs a simple yet powerful matrix-like visual metaphor, where rows are rules, columns are features, and cells are rules predicates, enabling the analysis of entire models and auditing classification results. ExMatrix applicability is confirmed via different examples, showing how it can be used in practice to promote RF models interpretability.
翻訳日:2022-12-05 11:59:01 公開日:2020-09-14
# 深層学習によるレーザー機械地形に対する成人骨格幹細胞応答のモデル化

Modeling adult skeletal stem cell response to laser-machined topographies through deep learning ( http://arxiv.org/abs/2006.00248v2 )

ライセンス: Link先を確認
Benita S. Mackay, Matthew Praeger, James A. Grant-Jacob, Janos Kanczler, Robert W. Eason, Richard O.C. Oreffo and Ben Mills(参考訳) 深層ニューラルネットワークにより、フェムト秒レーザー加工により生成された表面トポロジーに対する成人ヒト骨髄間質幹細胞の応答を予測できる。 このネットワークは、確率 p < 0.001 の測位予測を含む、統計的に有意なレベルに対する細胞応答を予測することができ、そのため、組織構造発達および組織工学において、細胞アライメントに必要な最小ライン分離を決定するモデルとして使用できる。 ディープニューラルネットのモデルとしての適用は、地形学的手がかりに対する細胞行動の理解を深めるために必要な実験細胞培養量を減少させ、批判的に、新しい表面構造が組織形成および細胞シグナル伝達に及ぼす影響を迅速に予測する。

The response of adult human bone marrow stromal stem cells to surface topographies generated through femtosecond laser machining can be predicted by a deep neural network. The network is capable of predicting cell response to a statistically significant level, including positioning predictions with a probability P < 0.001, and therefore can be used as a model to determine the minimum line separation required for cell alignment, with implications for tissue structure development and tissue engineering. The application of a deep neural network, as a model, reduces the amount of experimental cell culture required to develop an enhanced understanding of cell behavior to topographical cues and, critically, provides rapid prediction of the effects of novel surface structures on tissue fabrication and cell signaling.
翻訳日:2022-11-26 18:18:21 公開日:2020-09-14
# 不均衡設定における二次判別分析器の改良

Improved Design of Quadratic Discriminant Analysis Classifier in Unbalanced Settings ( http://arxiv.org/abs/2006.06355v3 )

ライセンス: Link先を確認
Amine Bejaoui, Khalil Elkhalil, Abla Kammoun, Mohamed Slim Alouni, Tarek Al-Naffouri(参考訳) 二次判別分析 (QDA) あるいはその正規化バージョン (R-QDA) を分類に用いることは、共分散行列の推定ノイズに対する高い感度がよく認識されているため、しばしば推奨されない。 これは、R-QDAが同じクラスにすべての観測を割り当てる分類器と等価になることが判明した、不均衡なデータ設定における全てのケースとなる。 本稿では,2つの正規化パラメータと修正バイアスを用いた改良型r-qdaを提案し,不均衡設定におけるr-qdaの不適切な挙動を回避し,最善の分類性能を保証する。 提案した分類器の設計は,サンプル数と特徴量とが同時に大きくなると,その性能の漸近解析に基づいて,ビッグデータパラダイム内で頻繁に発生する高次元性に効率的に対応できる。 提案した分類器の性能は実データと合成データの両方で評価され,従来のR-QDAよりもはるかに優れていることが示された。

The use of quadratic discriminant analysis (QDA) or its regularized version (R-QDA) for classification is often not recommended, due to its well-acknowledged high sensitivity to the estimation noise of the covariance matrix. This becomes all the more the case in unbalanced data settings for which it has been found that R-QDA becomes equivalent to the classifier that assigns all observations to the same class. In this paper, we propose an improved R-QDA that is based on the use of two regularization parameters and a modified bias, properly chosen to avoid inappropriate behaviors of R-QDA in unbalanced settings and to ensure the best possible classification performance. The design of the proposed classifier builds on a refined asymptotic analysis of its performance when the number of samples and that of features grow large simultaneously, which allows to cope efficiently with the high-dimensionality frequently met within the big data paradigm. The performance of the proposed classifier is assessed on both real and synthetic data sets and was shown to be much better than what one would expect from a traditional R-QDA.
翻訳日:2022-11-22 09:53:25 公開日:2020-09-14
# sparsityが逆境に - ディープニューラルネットワークに対するエネルギーとレイテンシ攻撃

Sparsity Turns Adversarial: Energy and Latency Attacks on Deep Neural Networks ( http://arxiv.org/abs/2006.08020v3 )

ライセンス: Link先を確認
Sarada Krithivasan, Sanchari Sen, Anand Raghunathan(参考訳) 敵対的攻撃は、DNN入力に対する人間の知覚できない摂動を通じて誤分類を強制する能力を通じて、ディープニューラルネットワーク(DNN)の深刻な脆弱性を露呈している。 分類精度よりもDNNの計算効率を低下させることを目的とした攻撃を提案することで、敵攻撃の分野における新たな方向を探る。 具体的には,内部アクティベーション値のスパーシティ(あるいはゼロ値の存在)を低減するために,dnnの入力を敵が修正するスパーシティ攻撃を提案する。 資源制約のあるシステムでは、DNN効率を改善するために空間性を利用する幅広いハードウェアとソフトウェア技術が提案されている。 提案した攻撃により、スパシティ最適化DNN実装の実行時間とエネルギー消費が増加し、レイテンシやエネルギークリティカルなアプリケーションへのデプロイに対する懸念が高まる。 本研究では,ネットワークの活性化スパーシティを定量化する目的関数を定式化し,この関数を反復的勾配拡散法を用いて最小化する手法を提案する。 我々は、画像認識用DNNに対して、ホワイトボックスとブラックボックスの双方を攻撃し、アクティベーション空間を最大1.82倍まで減少させることを示した。 また,sparsity最適化dnn加速器に対する攻撃の影響を評価し,最大1.59倍のレイテンシ低下を示すとともに,sparsity最適化汎用プロセッサに対する攻撃性能について検討した。 最後に,アクティベーションしきい値設定や入力量子化などの防御技術を評価し,提案手法がそれに耐えられることを示す。

Adversarial attacks have exposed serious vulnerabilities in Deep Neural Networks (DNNs) through their ability to force misclassifications through human-imperceptible perturbations to DNN inputs. We explore a new direction in the field of adversarial attacks by suggesting attacks that aim to degrade the computational efficiency of DNNs rather than their classification accuracy. Specifically, we propose and demonstrate sparsity attacks, which adversarial modify a DNN's inputs so as to reduce sparsity (or the presence of zero values) in its internal activation values. In resource-constrained systems, a wide range of hardware and software techniques have been proposed that exploit sparsity to improve DNN efficiency. The proposed attack increases the execution time and energy consumption of sparsity-optimized DNN implementations, raising concern over their deployment in latency and energy-critical applications. We propose a systematic methodology to generate adversarial inputs for sparsity attacks by formulating an objective function that quantifies the network's activation sparsity, and minimizing this function using iterative gradient-descent techniques. We launch both white-box and black-box versions of adversarial sparsity attacks on image recognition DNNs and demonstrate that they decrease activation sparsity by up to 1.82x. We also evaluate the impact of the attack on a sparsity-optimized DNN accelerator and demonstrate degradations up to 1.59x in latency, and also study the performance of the attack on a sparsity-optimized general-purpose processor. Finally, we evaluate defense techniques such as activation thresholding and input quantization and demonstrate that the proposed attack is able to withstand them, highlighting the need for further efforts in this new direction within the field of adversarial machine learning.
翻訳日:2022-11-21 10:10:36 公開日:2020-09-14
# リレーショナルフュージョンネットワーク:道路ネットワークのためのグラフ畳み込みネットワーク

Relational Fusion Networks: Graph Convolutional Networks for Road Networks ( http://arxiv.org/abs/2006.09030v2 )

ライセンス: Link先を確認
Tobias Skovgaard Jepsen, Christian S. Jensen, Thomas Dyhre Nielsen(参考訳) 道路網の設定における機械学習技術の応用は、多くの重要なインテリジェント輸送アプリケーションを促進する可能性を秘めている。 グラフ畳み込みネットワーク(Graph Convolutional Networks、GCN)は、ネットワークの構造を活用可能なニューラルネットワークである。 しかし、GCNの暗黙の仮定の多くは道路網には適用されない。 本稿では,道路ネットワークに特化した新しいタイプのGCNであるRelational Fusion Network (RFN)を紹介する。 特に,道路ネットワークにおける2つの機械学習タスクにおいて,最先端GCNを21%~40%向上させる手法を提案する。 さらに,最先端のgcnは道路網構造を効果的に活用できず,他の道路網への一般化が困難であることを示す。

The application of machine learning techniques in the setting of road networks holds the potential to facilitate many important intelligent transportation applications. Graph Convolutional Networks (GCNs) are neural networks that are capable of leveraging the structure of a network. However, many implicit assumptions of GCNs do not apply to road networks. We introduce the Relational Fusion Network (RFN), a novel type of GCN designed specifically for road networks. In particular, we propose methods that outperform state-of-the-art GCNs by 21%-40% on two machine learning tasks in road networks. Furthermore, we show that state-of-the-art GCNs may fail to effectively leverage road network structure and may not generalize well to other road networks.
翻訳日:2022-11-20 19:18:06 公開日:2020-09-14
# ニューラルネットワークを用いた学習最適化によるMRI画像再構成

MRI Image Reconstruction via Learning Optimization Using Neural ODEs ( http://arxiv.org/abs/2006.13825v3 )

ライセンス: Link先を確認
Eric Z. Chen, Terrence Chen, Shanhui Sun(参考訳) 本稿では,MRI画像再構成を最適化問題として定式化し,通常の微分方程式(ODE)を用いた動的過程として最適化軌道をモデル化する。 ニューラルネットワークを用いてODEのダイナミクスをモデル化し、オフザシェルフ(固定)ソルバを用いて所望のODEを解き、再構成画像を得る。 このモデルを拡張し、既製のODEソルバの知識をネットワーク設計(学習したソルバ)に組み込む。 3つのodeソルバに基づいて複数のモデルを調査し,固定解法と学習解法を比較した。 提案手法は,UNetやCNNなどの一般的な手法よりも高いパラメータ効率を実現している。 ニューラルODEを用いた連続最適化力学をモデル化し,MRI再構成問題に対処する新しい手法を提案する。

We propose to formulate MRI image reconstruction as an optimization problem and model the optimization trajectory as a dynamic process using ordinary differential equations (ODEs). We model the dynamics in ODE with a neural network and solve the desired ODE with the off-the-shelf (fixed) solver to obtain reconstructed images. We extend this model and incorporate the knowledge of off-the-shelf ODE solvers into the network design (learned solvers). We investigate several models based on three ODE solvers and compare models with fixed solvers and learned solvers. Our models achieve better reconstruction results and are more parameter efficient than other popular methods such as UNet and cascaded CNN. We introduce a new way of tackling the MRI reconstruction problem by modeling the continuous optimization dynamics using neural ODEs.
翻訳日:2022-11-17 13:25:26 公開日:2020-09-14
# 画像分類における自然分布シフトに対するロバスト性の測定

Measuring Robustness to Natural Distribution Shifts in Image Classification ( http://arxiv.org/abs/2007.00644v2 )

ライセンス: Link先を確認
Rohan Taori, Achal Dave, Vaishaal Shankar, Nicholas Carlini, Benjamin Recht, Ludwig Schmidt(参考訳) 本研究では,データセットの自然変動に起因する分布変化に対して,現在のImageNetモデルがいかに堅牢かを検討する。 強靭性に関するほとんどの研究は、合成画像摂動(ノイズ、シミュレーションされた気象アーチファクト、逆方向の例など)に焦点を当てており、これは、合成分布の変動が実際のデータから生じる分布変化といかに関連しているかをオープンにしている。 213の異なるテスト条件における204イメージネットモデルの評価により、現在の合成状態から自然分布シフトへのロバストさの伝達はほとんど、あるいは全くないことがわかった。 さらに,現在の手法では,テストベッド内の自然分布変化に対するロバスト性は認められていない。 主な例外は、大規模で多様なデータセットのトレーニングであり、複数のケースで堅牢性が増すが、パフォーマンスのギャップを縮めるには程遠い。 実データにおける分布変化は,現在オープンな研究課題であることを示す。 今後はhttps://modestyachts.github.io/imagenet-testbed/でテストベッドとデータをリソースとして提供します。

We study how robust current ImageNet models are to distribution shifts arising from natural variations in datasets. Most research on robustness focuses on synthetic image perturbations (noise, simulated weather artifacts, adversarial examples, etc.), which leaves open how robustness on synthetic distribution shift relates to distribution shift arising in real data. Informed by an evaluation of 204 ImageNet models in 213 different test conditions, we find that there is often little to no transfer of robustness from current synthetic to natural distribution shift. Moreover, most current techniques provide no robustness to the natural distribution shifts in our testbed. The main exception is training on larger and more diverse datasets, which in multiple cases increases robustness, but is still far from closing the performance gaps. Our results indicate that distribution shifts arising in real data are currently an open research problem. We provide our testbed and data as a resource for future work at https://modestyachts.github.io/imagenet-testbed/ .
翻訳日:2022-11-14 21:53:05 公開日:2020-09-14
# 損失面を変形させる

Deforming the Loss Surface ( http://arxiv.org/abs/2007.12515v2 )

ライセンス: Link先を確認
Liangming Chen, Long Jin, Xiujuan Du, Shuai Li, and Mei Liu(参考訳) 深層学習では、損失面の形状が固定されていると仮定されることが多い。 そこで,本論文では,新しい変形作用素の概念を最初に提案し,損失面を変形させ,最適化を改善する。 変形関数は変形演算子の一種であり、一般化性能を向上させることができる。 さらに、様々な変形関数をデザインし、損失面への寄与を更に提供する。 そして、元の確率勾配降下最適化器は、シャープなミニマをフィルタリングする才能を持つフラットなミニマフィルタであることが理論的に証明される。 さらに, 提案する変形関数をcifar-100で検証し, 元のオプティマイザとオプティマイザの双方で得られた臨界点付近の損失景観を可視化することにより, フラットターミニマを得ることができた。 実験の結果, 変形関数はより平坦な領域を見出すことがわかった。 さらに、ImageNet、CIFAR-10、CIFAR-100では、変形関数によって強化された一般的な畳み込みニューラルネットワークを対応する原モデルと比較し、変形関数を備えたすべてのモデルで顕著な改善が見られた。 例えば、CIFAR-100上のResNet-20のトップ-1テスト精度は1.46%向上し、計算オーバーヘッドは著しく増加した。

In deep learning, it is usually assumed that the shape of the loss surface is fixed. Differently, a novel concept of deformation operator is first proposed in this paper to deform the loss surface, thereby improving the optimization. Deformation function, as a type of deformation operator, can improve the generalization performance. Moreover, various deformation functions are designed, and their contributions to the loss surface are further provided. Then, the original stochastic gradient descent optimizer is theoretically proved to be a flat minima filter that owns the talent to filter out the sharp minima. Furthermore, the flatter minima could be obtained by exploiting the proposed deformation functions, which is verified on CIFAR-100, with visualizations of loss landscapes near the critical points obtained by both the original optimizer and optimizer enhanced by deformation functions. The experimental results show that deformation functions do find flatter regions. Moreover, on ImageNet, CIFAR-10, and CIFAR-100, popular convolutional neural networks enhanced by deformation functions are compared with the corresponding original models, where significant improvements are observed on all of the involved models equipped with deformation functions. For example, the top-1 test accuracy of ResNet-20 on CIFAR-100 increases by 1.46%, with insignificant additional computational overhead.
翻訳日:2022-11-07 05:47:25 公開日:2020-09-14
# rexup: 視覚的質問応答のための構造的構成的推論で更新する理由

REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering ( http://arxiv.org/abs/2007.13262v2 )

ライセンス: Link先を確認
Siwen Luo, Soyeon Caren Han, Kaiyuan Sun and Josiah Poon(参考訳) 視覚的質問応答(VQA)は、画像と質問の両方の意味的理解だけでなく、正しい回答につながるステップバイステップの推論プロセスの音知覚を必要とする、挑戦的なマルチモーダルタスクである。 これまでのところ、VQAの最も成功した試みは、画像の視覚的ピクセル特徴と質問の単語特徴の相互作用、あるいは単純なオブジェクトで画像内の質問に答える推論プロセスのどちらかにのみ焦点を当てている。 本稿では,視覚構造を意識したテキスト情報を含む深い推論vqaモデルを提案し,ステップバイステップの推論処理や,フォトリアリスティック画像における複雑なオブジェクト関係の検出に有効であることを示す。 REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。 我々は,gqaデータセットのrexupを定量的・質的に評価し,rexupの有効性の背景を探るために広範なアブレーション研究を行う。 私たちの最良のモデルは、バリデーションセットで92.7%、テスト開発セットで73.1%という貴重な最先端を著しく上回っている。

Visual question answering (VQA) is a challenging multi-modal task that requires not only the semantic understanding of both images and questions, but also the sound perception of a step-by-step reasoning process that would lead to the correct answer. So far, most successful attempts in VQA have been focused on only one aspect, either the interaction of visual pixel features of images and word features of questions, or the reasoning process of answering the question in an image with simple objects. In this paper, we propose a deep reasoning VQA model with explicit visual structure-aware textual information, and it works well in capturing step-by-step reasoning process and detecting a complex object-relationship in photo-realistic images. REXUP network consists of two branches, image object-oriented and scene graph oriented, which jointly works with super-diagonal fusion compositional attention network. We quantitatively and qualitatively evaluate REXUP on the GQA dataset and conduct extensive ablation studies to explore the reasons behind REXUP's effectiveness. Our best model significantly outperforms the precious state-of-the-art, which delivers 92.7% on the validation set and 73.1% on the test-dev set.
翻訳日:2022-11-06 07:46:03 公開日:2020-09-14
# I-priorsによる回帰モデリング

Regression modelling with I-priors ( http://arxiv.org/abs/2007.15766v3 )

ライセンス: Link先を確認
Wicher Bergsma and Haziq Jamil(参考訳) I-prior法は,様々な係数,多レベル,縦長,関数共変量と応答を持つモデルなど,さまざまな回帰モデルを推定するための統一フレームワークとして導入する。 また、低次元または高次元の共変量を持つ多クラス分類にも用いられる。 I-プライアーは一般に最大エントロピーとして定義される。 回帰関数に対して、i-prior は、i-prior 下の後方分布から推定される回帰関数のフィッシャー情報に比例する共分散核を持つガウス型である。 I-プライアーは、回帰関数の線形汎関数上でより多くの情報が利用できるほど、先行分散が大きくなり、先行平均が後部分布に与える影響が小さくなるという直感的に魅力的である。 ガウス過程回帰やチコノフ正則化のような競合する手法と比較しての利点は、推定とモデル比較の容易さである。 特に,超パラメータを推定するための単純なEとMステップを持つEMアルゴリズムを開発し,複素モデルの推定を容易にする。 また、各(多次元)共変量に対して1つのスケールパラメータが必要であり、相互作用効果のさらなるパラメータは不要である。 これは、より少ないハイパーパラメータを推定する必要があるため、見積もりを単純化し、同じ共変量を持つモデルのモデル比較を単純化するが、相互作用効果が異なるため、この場合、推定された推定値が最も高いモデルを選択することができる。 広く分析された実データを用いて、我々の方法論の予測性能は競争的であることを示した。 この方法論を実装するRパッケージが提供されている(Jamil, 2019)。

We introduce the I-prior methodology as a unifying framework for estimating a variety of regression models, including varying coefficient, multilevel, longitudinal models, and models with functional covariates and responses. It can also be used for multi-class classification, with low or high dimensional covariates. The I-prior is generally defined as a maximum entropy prior. For a regression function, the I-prior is Gaussian with covariance kernel proportional to the Fisher information on the regression function, which is estimated by its posterior distribution under the I-prior. The I-prior has the intuitively appealing property that the more information is available on a linear functional of the regression function, the larger the prior variance, and the smaller the influence of the prior mean on the posterior distribution. Advantages compared to competing methods, such as Gaussian process regression or Tikhonov regularization, are ease of estimation and model comparison. In particular, we develop an EM algorithm with a simple E and M step for estimating hyperparameters, facilitating estimation for complex models. We also propose a novel parsimonious model formulation, requiring a single scale parameter for each (possibly multidimensional) covariate and no further parameters for interaction effects. This simplifies estimation because fewer hyperparameters need to be estimated, and also simplifies model comparison of models with the same covariates but different interaction effects; in this case, the model with the highest estimated likelihood can be selected. Using a number of widely analyzed real data sets we show that predictive performance of our methodology is competitive. An R-package implementing the methodology is available (Jamil, 2019).
翻訳日:2022-11-05 14:51:12 公開日:2020-09-14
# 実世界のカメラ画面劣化に対する共同生成学習と超解像

Joint Generative Learning and Super-Resolution For Real-World Camera-Screen Degradation ( http://arxiv.org/abs/2008.00195v3 )

ライセンス: Link先を確認
Guanghao Yin, Shouqian Sun, Chao Li, Xin Min(参考訳) 現実世界の単一画像超解像(SISR)タスクでは、低解像度画像は未知のカーネルによってサンプリングされるだけでなく、より複雑な劣化に悩まされる。 しかし、既存のSISR法は一般的に、バイコビック補間(BI)のような合成低分解能発生によって研究され、その性能は大幅に制限される。 近年、カメラとスマートフォンの観点から現実世界のSISRを調査している研究者もいる。 しかし、取得機器を除くと、表示装置はより複雑な劣化も伴う。 本稿では,カメラ画面の劣化に着目し,従来のdiv2kデータセットからhr画像がオリジナル・グラウンド・真実であり,対応するlr画像がカメラキャプチャされたhrsである実世界データセット(cam-screensr)を構築する。 我々は、より現実的な劣化を伴うことがSISRモデルの一般化を改善するのに役立つことを示すために、広範な実験を行う。 さらに,共同2段階モデルを提案する。 まず、ダウンサンプリング劣化GAN(DD-GAN)をトレーニングし、その分解をモデル化し、データ増大に有効であることが検証された様々なLR画像を生成する。 そして、二重残差チャネルアテンションネットワーク(DuRCAN)がSR画像の復元を学習する。 高周波エッジを鋭くするためにL1損失とラプラシア損失の重み付けの組み合わせを適用した。 典型的な合成と複雑な実世界の分解の両方の実験結果は、パラメータの少ない既存のsomaモデルよりも優れており、より速い速度とより良い視覚結果が得られる。 また,実写写真では,よりシャープなエッジ,より少ないアーティファクト,特に従来の手法では達成されていない適切なカラーエンハンスメントにより,最高の視覚品質を提供する。

In real-world single image super-resolution (SISR) task, the low-resolution image suffers more complicated degradations, not only downsampled by unknown kernels. However, existing SISR methods are generally studied with the synthetic low-resolution generation such as bicubic interpolation (BI), which greatly limits their performance. Recently, some researchers investigate real-world SISR from the perspective of the camera and smartphone. However, except the acquisition equipment, the display device also involves more complicated degradations. In this paper, we focus on the camera-screen degradation and build a real-world dataset (Cam-ScreenSR), where HR images are original ground truths from the previous DIV2K dataset and corresponding LR images are camera-captured versions of HRs displayed on the screen. We conduct extensive experiments to demonstrate that involving more real degradations is positive to improve the generalization of SISR models. Moreover, we propose a joint two-stage model. Firstly, the downsampling degradation GAN(DD-GAN) is trained to model the degradation and produces more various of LR images, which is validated to be efficient for data augmentation. Then the dual residual channel attention network (DuRCAN) learns to recover the SR image. The weighted combination of L1 loss and proposed Laplacian loss are applied to sharpen the high-frequency edges. Extensive experimental results in both typical synthetic and complicated real-world degradations validate the proposed method outperforms than existing SOTA models with less parameters, faster speed and better visual results. Moreover, in real captured photographs, our model also delivers best visual quality with sharper edge, less artifacts, especially appropriate color enhancement, which has not been accomplished by previous methods.
翻訳日:2022-11-04 01:04:52 公開日:2020-09-14
# IntroVAC:解釈可能な潜在部分空間学習のためのイントロスペクティブ変分法

IntroVAC: Introspective Variational Classifiers for Learning Interpretable Latent Subspaces ( http://arxiv.org/abs/2008.00760v2 )

ライセンス: Link先を確認
Marco Maggipinto and Matteo Terzi and Gian Antonio Susto(参考訳) 複雑なデータの有用な表現を学ぶことは、長年にわたって広範な研究の対象となっている。 ディープニューラルネットワークの普及に伴い、変分オートコーダは、画像の生成と低次元のサブ空間でのエンコードが可能なエンコーダ/デコーダアーキテクチャに基づくデータ分散の明示的なモデルを提供するため、多くの注目を集めている。 しかし、遅延空間は容易に解釈できないため、画像がぼやけていて詳細が欠けているため、生成能力にはいくつかの制限がある。 本稿では,追加ラベルからの情報を活用して解釈可能な潜在部分空間を学習し,対角的学習戦略により画質を向上させるモデルであるIntroVACを提案する。 CelebAデータセットに対する我々のアプローチを検証する。

Learning useful representations of complex data has been the subject of extensive research for many years. With the diffusion of Deep Neural Networks, Variational Autoencoders have gained lots of attention since they provide an explicit model of the data distribution based on an encoder/decoder architecture which is able to both generate images and encode them in a low-dimensional subspace. However, the latent space is not easily interpretable and the generation capabilities show some limitations since images typically look blurry and lack details. In this paper, we propose the Introspective Variational Classifier (IntroVAC), a model that learns interpretable latent subspaces by exploiting information from an additional label and provides improved image quality thanks to an adversarial training strategy.We show that IntroVAC is able to learn meaningful directions in the latent space enabling fine-grained manipulation of image attributes. We validate our approach on the CelebA dataset.
翻訳日:2022-11-03 05:39:05 公開日:2020-09-14
# 抽象解釈によるモジュラ制約解の協調

Modular Constraint Solver Cooperation via Abstract Interpretation ( http://arxiv.org/abs/2008.01415v2 )

ライセンス: Link先を確認
Pierre Talbot, \'Eric Monfroy and Charlotte Truchet(参考訳) 異なる解法パラダイムは異なる理論的基礎を持つため、制約解法間の協調は困難である。 近年の研究では、抽象解釈は様々な制約解法に対して統一理論を提供できることが示されている。 特に、制約言語を順序構造としてキャプチャする抽象ドメインに依存している。 この論文の重要な洞察は、協調スキームを抽象ドメインの組み合わせとして見ることである。 本稿では,解法と協調スキームをシームレスに追加・組み合わせ可能なモジュラーフレームワークを提案する。 これは、通常、協調スキームが固定されるSMT(例えば、ネルソン=オッペン)のような既存のアプローチとは異なる。 我々は2つの新しい協力計画に貢献する。 i) 抽象ドメインが制限付き制約を交換できるようにする区間プロパゲータ補完 (ii)2つの抽象領域間の制約の超過を交換する遅延積。 さらに、遅延製品は論理プログラミングの遅延目標に基づいており、抽象ドメインは制約解決の制御的な側面も捉えることができることを示している。 最後に,モジュール性を実現するために,抽象ドメインと協調スキームを組み合わせた共有製品を提案する。 当社のアプローチは完全に実装されており,フレキシブルなジョブショップスケジューリング問題に関するさまざまな例を提供している。 TPLPの受容についての検討

Cooperation among constraint solvers is difficult because different solving paradigms have different theoretical foundations. Recent works have shown that abstract interpretation can provide a unifying theory for various constraint solvers. In particular, it relies on abstract domains which capture constraint languages as ordered structures. The key insight of this paper is viewing cooperation schemes as abstract domains combinations. We propose a modular framework in which solvers and cooperation schemes can be seamlessly added and combined. This differs from existing approaches such as SMT where the cooperation scheme is usually fixed (e.g., Nelson-Oppen). We contribute to two new cooperation schemes: (i) interval propagators completion that allows abstract domains to exchange bound constraints, and (ii) delayed product which exchanges over-approximations of constraints between two abstract domains. Moreover, the delayed product is based on delayed goal of logic programming, and it shows that abstract domains can also capture control aspects of constraint solving. Finally, to achieve modularity, we propose the shared product to combine abstract domains and cooperation schemes. Our approach has been fully implemented, and we provide various examples on the flexible job shop scheduling problem. Under consideration for acceptance in TPLP.
翻訳日:2022-11-03 00:13:19 公開日:2020-09-14
# データから安定証明書を学習する

Learning Stability Certificates from Data ( http://arxiv.org/abs/2008.05952v2 )

ライセンス: Link先を確認
Nicholas M. Boffi and Stephen Tu and Nikolai Matni and Jean-Jacques E. Slotine and Vikas Sindhwani(参考訳) 力学系の安定性や安全性を確立するための非線形制御理論の既存の多くのツールは、望ましい性質を保証する証明関数を構築するために蒸留することができる。 しかし、証明関数を合成するアルゴリズムは通常、基礎となる力学のクローズドフォームな解析式を必要とし、現代の多くのロボットプラットフォームでの使用を規定している。 この問題を回避するため,軌道データのみから認証関数を学習するアルゴリズムを開発した。 一般化誤差 - トラジェクトリから学ぶとき、証明書が新しい未知の軌道を証明しない確率 - に境界を設定し、そのような一般化誤差境界をグローバルな安定性保証に変換する。 我々は,複雑なダイナミクスのための証明書を効率的に学習し,学習した証明書を適応制御などの下流タスクに使用できることを示す。

Many existing tools in nonlinear control theory for establishing stability or safety of a dynamical system can be distilled to the construction of a certificate function that guarantees a desired property. However, algorithms for synthesizing certificate functions typically require a closed-form analytical expression of the underlying dynamics, which rules out their use on many modern robotic platforms. To circumvent this issue, we develop algorithms for learning certificate functions only from trajectory data. We establish bounds on the generalization error - the probability that a certificate will not certify a new, unseen trajectory - when learning from trajectories, and we convert such generalization error bounds into global stability guarantees. We demonstrate empirically that certificates for complex dynamics can be efficiently learned, and that the learned certificates can be used for downstream tasks such as adaptive control.
翻訳日:2022-10-30 22:56:06 公開日:2020-09-14
# decoupledスタイル記述子による手書き生成

Generating Handwriting via Decoupled Style Descriptors ( http://arxiv.org/abs/2008.11354v2 )

ライセンス: Link先を確認
Atsunobu Kotani, Stefanie Tellex, James Tompkin(参考訳) 筆跡のスタイル空間を表現するには、それぞれの文字のスタイルと人間の書き手全体のスタイルの両方を表現するという課題が含まれる。 既存のVRNNアプローチで手書きを表現しても、これらの異なるスタイルのコンポーネントを区別することはない。 代わりに、文字レベルと文字レベルの両方を規定する手書き文字用デクリプタ(Decoupled Style Descriptor:DSD)モデルを導入し、我々のモデルが全体的なスタイルの空間を表現できるようにしました。 いくつか例を挙げると、新しいライタースタイルで手書きを生成することができ、また、新しいライタースタイルで新しい文字の書き起こしを生成することができる。 実験では, 得られた結果が, 88%の時間のアートベースライン法よりも好ましく, 20名の書き手に対する文字識別作業では, 1つのサンプル語から89.38%の精度を達成できた。 全体として、DSDは既存の手書きストローク生成手法よりも品質と柔軟性を両立させることができる。

Representing a space of handwriting stroke styles includes the challenge of representing both the style of each character and the overall style of the human writer. Existing VRNN approaches to representing handwriting often do not distinguish between these different style components, which can reduce model capability. Instead, we introduce the Decoupled Style Descriptor (DSD) model for handwriting, which factors both character- and writer-level styles and allows our model to represent an overall greater space of styles. This approach also increases flexibility: given a few examples, we can generate handwriting in new writer styles, and also now generate handwriting of new characters across writer styles. In experiments, our generated results were preferred over a state of the art baseline method 88% of the time, and in a writer identification task on 20 held-out writers, our DSDs achieved 89.38% accuracy from a single sample word. Overall, DSDs allows us to improve both the quality and flexibility over existing handwriting stroke generation approaches.
翻訳日:2022-10-24 21:38:14 公開日:2020-09-14
# デジタル画像における月のクレーター識別

Lunar Crater Identification in Digital Images ( http://arxiv.org/abs/2009.01228v2 )

ライセンス: Link先を確認
John A. Christian, Harm Derksen, and Ryan Watkins(参考訳) しばしば、観測されたクレーターのパターンを月面の1つの画像で特定し、カメラの位置を事前に知ることなく識別する必要がある。 このいわゆる"ロス・イン・スペース"クレーター識別問題は、クレーターベースの地形相対航法(trn)と科学画像の自動登録の両方において一般的である。 クレーターの識別に関する過去の研究は、主にヒューリスティックなスキームに基づいており、狭い範囲の運用体制(例えば、ナディルポインティング画像、小さな探索領域)以外では性能が低かった。 この研究は、一般クレーター識別問題の最初の数学的に厳密な処理を提供する。 遠近投影によって形成される画像において、楕円クレーターリムのパターンを認識できるとき(かつ、そうでないとき)に示される。 パターンを認識することが可能な場合については、すべての視点不変情報を確実にキャプチャする不変理論を用いて記述子を開発する。 これらのディスクリプタは既知のクレーターパターンに対して事前に計算され、高速認識のための検索可能なインデックスに置かれる。 また、クレーターリム観測からのポーズを計算し、クレーターリム対応を評価するための新しい技術も開発されている。 これらの技術は、合成画像と実画像の両方で実証される。

It is often necessary to identify a pattern of observed craters in a single image of the lunar surface and without any prior knowledge of the camera's location. This so-called "lost-in-space" crater identification problem is common in both crater-based terrain relative navigation (TRN) and in automatic registration of scientific imagery. Past work on crater identification has largely been based on heuristic schemes, with poor performance outside of a narrowly defined operating regime (e.g., nadir pointing images, small search areas). This work provides the first mathematically rigorous treatment of the general crater identification problem. It is shown when it is (and when it is not) possible to recognize a pattern of elliptical crater rims in an image formed by perspective projection. For the cases when it is possible to recognize a pattern, descriptors are developed using invariant theory that provably capture all of the viewpoint invariant information. These descriptors may be pre-computed for known crater patterns and placed in a searchable index for fast recognition. New techniques are also developed for computing pose from crater rim observations and for evaluating crater rim correspondences. These techniques are demonstrated on both synthetic and real images.
翻訳日:2022-10-22 19:27:32 公開日:2020-09-14
# 特異値分解を用いた圧縮認識連続学習

Compression-aware Continual Learning using Singular Value Decomposition ( http://arxiv.org/abs/2009.01956v2 )

ライセンス: Link先を確認
Varigonda Pavan Teja, and Priyadarshini Panda(参考訳) 本稿では,ニューラルネットワークを動的に拡張できる圧縮型連続タスク学習手法を提案する。 近年のモデル圧縮技術から着想を得て,ネットワークのコンパクト化を実現するために特異値分解(SVD)を用いた低ランクウェイト近似を行った。 低ランクな重み付けフィルタの学習を促すことで,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。 具体的には、SVDを用いて重みフィルタを分解し、その分解形式による漸進的なタスクでネットワークを訓練する。 このような因子化により、特異値に対してスパーシリティ誘導正規化子を直接課すことができ、各タスクに対してより少ない数のパラメータを使用できる。 さらに,タスク間の新しい共有表現空間ベースの学習について紹介する。 これにより、入力タスクは、以前に学習した重み付けフィルタ上でのみ残留タスク固有の情報を学習し、固定容量制約下での学習に大いに役立つ。 提案手法は,20分割CIFAR-100,miniImageNet,および5系列データセットの精度改善を,最先端のデータセットよりも10.3%,12.3%,15.6%向上した。 さらに,本手法では, ベースライン個別タスクモデルと比較して, パラメータ数がそれぞれ約3.64x, 2.88x, 5.91x少ない圧縮モデルを生成する。 ソースコードはhttps://github.com/pavanteja295/caclで入手できます。

We propose a compression based continual task learning method that can dynamically grow a neural network. Inspired from the recent model compression techniques, we employ compression-aware training and perform low-rank weight approximations using singular value decomposition (SVD) to achieve network compaction. By encouraging the network to learn low-rank weight filters, our method achieves compressed representations with minimal performance degradation without the need for costly fine-tuning. Specifically, we decompose the weight filters using SVD and train the network on incremental tasks in its factorized form. Such a factorization allows us to directly impose sparsity-inducing regularizers over the singular values and allows us to use fewer number of parameters for each task. We further introduce a novel shared representational space based learning between tasks. This promotes the incoming tasks to only learn residual task-specific information on top of the previously learnt weight filters and greatly helps in learning under fixed capacity constraints. Our method significantly outperforms prior continual learning approaches on three benchmark datasets, demonstrating accuracy improvements of 10.3%, 12.3%, 15.6% on 20-split CIFAR-100, miniImageNet and a 5-sequence dataset, respectively, over state-of-the-art. Further, our method yields compressed models that have ~3.64x, 2.88x, 5.91x fewer number of parameters respectively, on the above mentioned datasets in comparison to baseline individual task models. Our source code is available at https://github.com/pavanteja295/CACL.
翻訳日:2022-10-22 07:17:46 公開日:2020-09-14
# 機械学習のカラビヤウフォーフォールド

Machine Learning Calabi-Yau Four-folds ( http://arxiv.org/abs/2009.02544v2 )

ライセンス: Link先を確認
Yang-Hui He, and Andre Lukas(参考訳) カラビ・ヤウ多様体のホッジ数は基礎となる多様体データに非自明に依存し、機械学習に興味深い挑戦を与える。 このレターでは、約900,000の位相型からなる完全交叉カラビ・ヤウ 4次元多様体のデータセットを検討し、これらの多様体に対するホッジ数 h^1,1 および h^3,1 の教師付き学習を研究する。 h^1,1 は完全連結型分類器と回帰器ネットワークにより(精度 96% まで)学習可能である。 どちらのタイプのネットワークもh^3,1ではフェールするが、機能拡張と組み合わせたより複雑な2分岐ネットワークは、少なくともデータのサブセットの場合、h^3,1の効率的な回帰器(最大98%の精度)として機能することを示す。 これは、まだ未知のホッジ数の公式の存在を暗示している。

Hodge numbers of Calabi-Yau manifolds depend non-trivially on the underlying manifold data and they present an interesting challenge for machine learning. In this letter we consider the data set of complete intersection Calabi-Yau four-folds, a set of about 900,000 topological types, and study supervised learning of the Hodge numbers h^1,1 and h^3,1 for these manifolds. We find that h^1,1 can be successfully learned (to 96% precision) by fully connected classifier and regressor networks. While both types of networks fail for h^3,1, we show that a more complicated two-branch network, combined with feature enhancement, can act as an efficient regressor (to 98% precision) for h^3,1, at least for a subset of the data. This hints at the existence of an, as yet unknown, formula for Hodge numbers.
翻訳日:2022-10-21 21:10:30 公開日:2020-09-14
# ホッケー放送映像におけるプレイヤー識別

Player Identification in Hockey Broadcast Videos ( http://arxiv.org/abs/2009.02429v2 )

ライセンス: Link先を確認
Alvin Chan, Martin D. Levine, Mehrsan Javan(参考訳) 我々はNHL放送ビデオにおけるホッケー選手識別の問題を解決するために,CNN(Deep Recurrent Convolutional Neural Network)アプローチを提案する。 プレイヤーの識別は、主にプレイヤーの外観、閉塞性、顔と身体の特徴がぼやけたため、難しいコンピュータビジョンの問題である。 しかし、プレイヤーの可変長画像列(いわゆる「トラックレット」)を処理することで、プレイヤーのジャージ番号を時間とともに観察することができる。 本稿では,残余ネットワーク(ResNet)ベースと長期短期メモリ(LSTM)層を備えたエンドツーエンドのトレーニング可能なResNet+LSTMネットワークを提案する。 この研究のために,ホッケー選手のバウンディングボックスのシーケンスを含む,新しいホッケー選手のトラックレットデータセットを作成した。 さらに、resnet+lstmネットワークの出力を分類するために、後期スコアレベルの融合法として2次1次元畳み込みニューラルネットワーク分類器を用いる。 これにより、新しいデータセットのテスト分割で、全体的なプレイヤー識別精度が87%以上になる。

We present a deep recurrent convolutional neural network (CNN) approach to solve the problem of hockey player identification in NHL broadcast videos. Player identification is a difficult computer vision problem mainly because of the players' similar appearance, occlusion, and blurry facial and physical features. However, we can observe players' jersey numbers over time by processing variable length image sequences of players (aka 'tracklets'). We propose an end-to-end trainable ResNet+LSTM network, with a residual network (ResNet) base and a long short-term memory (LSTM) layer, to discover spatio-temporal features of jersey numbers over time and learn long-term dependencies. For this work, we created a new hockey player tracklet dataset that contains sequences of hockey player bounding boxes. Additionally, we employ a secondary 1-dimensional convolutional neural network classifier as a late score-level fusion method to classify the output of the ResNet+LSTM network. This achieves an overall player identification accuracy score over 87% on the test split of our new dataset.
翻訳日:2022-10-21 21:02:18 公開日:2020-09-14
# 他の技法による知識蒸留の直交性について:アンサンブルの視点から

On the Orthogonality of Knowledge Distillation with Other Techniques: From an Ensemble Perspective ( http://arxiv.org/abs/2009.04120v2 )

ライセンス: Link先を確認
SeongUk Park, KiYoon Yoo, Nojun Kwak(参考訳) 最先端のニューラルネットワークを実用化するためには、テストセット上でのリソース消費とパフォーマンスのトレードオフが良好であるモデルを設計する必要がある。 多くの研究者やエンジニアが、モデルのトレーニングや設計をより効率的に行う方法を開発している。 効率的なモデルの開発には、ネットワークアーキテクチャの探索、刈り取り、量子化、知識の蒸留、安価な畳み込み、正規化、パフォーマンス・リソースのトレードオフにつながるあらゆる技術が含まれる。 これらの技術を組み合わせれば、あるパフォーマンス改善の源が他のものと矛盾しなければ理想的です。 この性質をモデル効率の直交性と呼んでいる。 本稿では, 知識蒸留に着目し, 分析的および経験的に他の効率向上法と直交する知識蒸留法を実証する。 分析的に, 知識蒸留機能は, アンサンブル法, ブートストラップ凝集法に類似していると主張した。 この分析的な説明は、知識蒸留の暗黙のデータ拡張特性の観点から得られる。 実験により,効率的なニューラルネットワークを実用化するための強力な装置として知識蒸留を検証し,他の手法と効果的に統合する方法を導入する。

To put a state-of-the-art neural network to practical use, it is necessary to design a model that has a good trade-off between the resource consumption and performance on the test set. Many researchers and engineers are developing methods that enable training or designing a model more efficiently. Developing an efficient model includes several strategies such as network architecture search, pruning, quantization, knowledge distillation, utilizing cheap convolution, regularization, and also includes any craft that leads to a better performance-resource trade-off. When combining these technologies together, it would be ideal if one source of performance improvement does not conflict with others. We call this property as the orthogonality in model efficiency. In this paper, we focus on knowledge distillation and demonstrate that knowledge distillation methods are orthogonal to other efficiency-enhancing methods both analytically and empirically. Analytically, we claim that knowledge distillation functions analogous to a ensemble method, bootstrap aggregating. This analytical explanation is provided from the perspective of implicit data augmentation property of knowledge distillation. Empirically, we verify knowledge distillation as a powerful apparatus for practical deployment of efficient neural network, and also introduce ways to integrate it with other methods effectively.
翻訳日:2022-10-20 08:47:33 公開日:2020-09-14
# 文書操作検出のためのocrグラフ機能

OCR Graph Features for Manipulation Detection in Documents ( http://arxiv.org/abs/2009.05158v2 )

ライセンス: Link先を確認
Hailey James, Otkrist Gupta, Dan Raviv(参考訳) デジタル文書における操作の検出は情報検証の目的でますます重要になっている。 画像編集ソフトウェアの普及により、文書中のキー情報の変更が広く受け入れられるようになった。 この領域のほとんど全てのアプローチは手続き的アプローチに依存しており、データ駆動で一般化可能なアプローチではなく、注意深く生成された特徴と手動によるスコアリングシステムを使っている。 本稿では,文字境界ボックスを用いたグラフ比較問題として,OCR(Optical Character Recognition)を用いたグラフ特徴を利用したモデルを提案する。 本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するデータ駆動型手法に依存している。 我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。 提案手法は,本課題において最も近縁な文書操作検出モデルよりも大幅に優れる。

Detecting manipulations in digital documents is becoming increasingly important for information verification purposes. Due to the proliferation of image editing software, altering key information in documents has become widely accessible. Nearly all approaches in this domain rely on a procedural approach, using carefully generated features and a hand-tuned scoring system, rather than a data-driven and generalizable approach. We frame this issue as a graph comparison problem using the character bounding boxes, and propose a model that leverages graph features using OCR (Optical Character Recognition). Our model relies on a data-driven approach to detect alterations by training a random forest classifier on the graph-based OCR features. We evaluate our algorithm's forgery detection performance on dataset constructed from real business documents with slight forgery imperfections. Our proposed model dramatically outperforms the most closely-related document manipulation detection model on this task.
翻訳日:2022-10-20 03:18:37 公開日:2020-09-14
# ロバスト・ニューラル・マシン・トランスレーション : オーソグラフィーと相互変動のモデル化

Robust Neural Machine Translation: Modeling Orthographic and Interpunctual Variation ( http://arxiv.org/abs/2009.05460v2 )

ライセンス: Link先を確認
Toms Bergmanis, Art\=urs Stafanovi\v{c}s, M\=arcis Pinnis(参考訳) ニューラル機械翻訳システムは典型的には、非標準正書法や句読法に直面すると、硬化したコーパスで訓練され、壊れる。 しかし、スペルミスやタイプミスに対する耐性は、機械翻訳システムがチャットチャット、ソーシャルメディア投稿、ウェブページなどの非公式な起源のテキストを翻訳するために使用されるため、非常に重要である。 10種類の異なる種類の逆例を生成するための単純な生成雑音モデルを提案する。 これらは機械翻訳システムのトレーニングデータを強化し、ノイズの多いデータでテストすると、逆の例を使って訓練されたシステムはクリーンなデータを翻訳するのとほぼ同等の性能を発揮し、ベースラインシステムのパフォーマンスは2-3 bleuポイント低下することを示した。 機械翻訳システムの出力のロバスト性やノイズ不変性を計測するために,原文の翻訳と雑音のある変種の間の平均翻訳編集率を用いる。 この尺度を用いて,クリーンデータでトレーニングされたベースラインと比較して,平均50%の一貫性向上が得られることを示す。

Neural machine translation systems typically are trained on curated corpora and break when faced with non-standard orthography or punctuation. Resilience to spelling mistakes and typos, however, is crucial as machine translation systems are used to translate texts of informal origins, such as chat conversations, social media posts and web pages. We propose a simple generative noise model to generate adversarial examples of ten different types. We use these to augment machine translation systems' training data and show that, when tested on noisy data, systems trained using adversarial examples perform almost as well as when translating clean data, while baseline systems' performance drops by 2-3 BLEU points. To measure the robustness and noise invariance of machine translation systems' outputs, we use the average translation edit rate between the translation of the original sentence and its noised variants. Using this measure, we show that systems trained on adversarial examples on average yield 50% consistency improvements when compared to baselines trained on clean data.
翻訳日:2022-10-19 21:25:01 公開日:2020-09-14
# PDFFlow:GPU上のパーティション関数

PDFFlow: parton distribution functions on GPU ( http://arxiv.org/abs/2009.06635v1 )

ライセンス: Link先を確認
Stefano Carrazza, Juan M. Cruz-Martinez, Marco Rossi(参考訳) ハードウェアアクセラレータを持つプラットフォーム向けに設計されたパートン分布関数(PDF)を高速に評価するための新しいソフトウェアであるPDFFlowを提案する。 pdfはモンテカルロシミュレーション技術による素粒子物理学観測の計算に不可欠である。 クォークとグルーオンの与えられた運動量分数とエネルギースケールでの一般的なPDFセットの評価は、初めてLHAPDFプロジェクトによって導入された補間アルゴリズムの実装を必要とする。 PDFFlowは、マルチスレッドCPUとGPUセットアップを完全に活用してPDF評価を実行する機能を提供するGoogleのTensorFlowライブラリを使用して、これらの補間アルゴリズムを拡張し、実装する。 このライブラリの性能を粒子物理学コミュニティに関連する複数のシナリオでベンチマークする。

We present PDFFlow, a new software for fast evaluation of parton distribution functions (PDFs) designed for platforms with hardware accelerators. PDFs are essential for the calculation of particle physics observables through Monte Carlo simulation techniques. The evaluation of a generic set of PDFs for quarks and gluon at a given momentum fraction and energy scale requires the implementation of interpolation algorithms as introduced for the first time by the LHAPDF project. PDFFlow extends and implements these interpolation algorithms using Google's TensorFlow library providing the capabilities to perform PDF evaluations taking fully advantage of multi-threading CPU and GPU setups. We benchmark the performance of this library on multiple scenarios relevant for the particle physics community.
翻訳日:2022-10-18 13:19:34 公開日:2020-09-14
# 効率的な多次元統合のための機械学習アプローチ

A machine learning approach for efficient multi-dimensional integration ( http://arxiv.org/abs/2009.06697v1 )

ライセンス: Link先を確認
Boram Yoon(参考訳) 機械学習(ML)技術を用いた新しい多次元統合アルゴリズムを提案する。 ターゲット積分を模倣するためにml回帰モデルをトレーニングした後、回帰モデルは積分の近似を評価するために使用される。 そして、近似と真解との差を算出し、ML予測誤差によって誘導される積分の近似のバイアスを補正する。 バイアス補正のため、積分の最終的な推定は偏りがなく、統計的に正しい誤差推定を持つ。 提案アルゴリズムの性能は,様々な次元における6種類の積分および積分の難易度について実証した。 その結果, インテグレート評価の総数に対して, 新アルゴリズムは, テストケースのほとんどの場合において, VEGASアルゴリズムよりも精度が桁違いに小さい積分推定値を提供することがわかった。

We propose a novel multi-dimensional integration algorithm using a machine learning (ML) technique. After training a ML regression model to mimic a target integrand, the regression model is used to evaluate an approximation of the integral. Then, the difference between the approximation and the true answer is calculated to correct the bias in the approximation of the integral induced by a ML prediction error. Because of the bias correction, the final estimate of the integral is unbiased and has a statistically correct error estimation. The performance of the proposed algorithm is demonstrated on six different types of integrands at various dimensions and integrand difficulties. The results show that, for the same total number of integrand evaluations, the new algorithm provides integral estimates with more than an order of magnitude smaller uncertainties than those of the VEGAS algorithm in most of the test cases.
翻訳日:2022-10-18 13:19:14 公開日:2020-09-14
# 確率的強化学習による量子材料の予測合成

Predictive Synthesis of Quantum Materials by Probabilistic Reinforcement Learning ( http://arxiv.org/abs/2009.06739v1 )

ライセンス: Link先を確認
Pankaj Rajak, Aravind Krishnamoorthy, Ankit Mishra, Rajiv K. Kalia, Aiichiro Nakano and Priya Vashishta(参考訳) 予測材料合成は、新しい機能性および量子材料の実現における主要なボトルネックである。 有望な材料を合成するための戦略は現在、時間を要する試行と誤差のアプローチによって特定されており、新しい材料の合成パラメータを設計するための既知の予測スキームは存在しない。 我々は、化学気相蒸着を用いた半伝導単層MoS$_{2}$の合成において、温度や反応濃度などの反応条件の時間列の最適合成スケジュールを予測するために強化学習を用いる。 CVD合成におけるMoS$_{2}$の結晶性および相合成を時間依存合成条件の関数として捉えるために、予測強化型傾動剤を深部生成モデルに結合する。 このモデルは10000の計算合成シミュレーションに基づいて訓練され、化学反応の開始のための閾値温度と化学ポテンシャルを学習し、よく硫化された結晶および相純mos$_{2}$を生成するための新しい合成スケジュールを予測し、計算合成シミュレーションによって検証された。 このモデルは、多相ヘテロ構造を含む複雑な構造の合成のプロファイルを予測するために拡張することができ、モデルトレーニングに使用されるmdシミュレーションの領域をはるかに超えて、反応系の長時間の挙動を予測することも可能であり、これらの予測は実験合成に直接関係している。

Predictive materials synthesis is the primary bottleneck in realizing new functional and quantum materials. Strategies for synthesis of promising materials are currently identified by time-consuming trial and error approaches and there are no known predictive schemes to design synthesis parameters for new materials. We use reinforcement learning to predict optimal synthesis schedules, i.e. a time-sequence of reaction conditions like temperatures and reactant concentrations, for the synthesis of a prototypical quantum material, semiconducting monolayer MoS$_{2}$, using chemical vapor deposition. The predictive reinforcement leaning agent is coupled to a deep generative model to capture the crystallinity and phase-composition of synthesized MoS$_{2}$ during CVD synthesis as a function of time-dependent synthesis conditions. This model, trained on 10000 computational synthesis simulations, successfully learned threshold temperatures and chemical potentials for the onset of chemical reactions and predicted new synthesis schedules for producing well-sulfidized crystalline and phase-pure MoS$_{2}$, which were validated by computational synthesis simulations. The model can be extended to predict profiles for synthesis of complex structures including multi-phase heterostructures and can also predict long-time behavior of reacting systems, far beyond the domain of the MD simulations used to train the model, making these predictions directly relevant to experimental synthesis.
翻訳日:2022-10-18 13:19:02 公開日:2020-09-14
# 機械学習は重症患者の連続生理データから発熱の早期発症を予測する

Machine learning predicts early onset of fever from continuous physiological data of critically ill patients ( http://arxiv.org/abs/2009.07103v1 )

ライセンス: Link先を確認
Aditya Singh, Akram Mohammed, Lokesh Chinthala, Rishikesan Kamaleswaran(参考訳) 肺炎、デング、敗血症などの様々な疾患の診断および予後に有用な情報を提供することができるため、早期に発熱を予測することは、治療オプションの有効性や治療プロセスの迅速化に役立つ。 本研究の目的は, 連続生理データに機械学習を応用し, 重症心疾患患者の発熱発症を正確に予測する新しいアルゴリズムの開発である。 2年間の集中治療室(ICU)に入院した20万人以上の重症患者のコホートから5分毎に収集された連続的な生理的データを分析した。 同じ患者からの発熱は、それぞれ独立した事象と考えられ、少なくとも24時間以上分離された。 心臓,呼吸,収縮,拡張期血圧,平均動脈圧,酸素飽和など6つの生理的データストリームから記述的統計的特徴を抽出し,これらの特徴を独立して発熱の発症を予測する。 ブートストラップアグリゲーション法を用いて7,801名の発熱患者と発熱患者のバランスの取れたデータセットを作成し,発熱開始4時間前までの特徴を解析した。 その結果,高リコール,精度,F1スコアを有する重症患者の発症までに最大4時間までの発熱を予測できることがわかった。 本研究は,入院中の成人の発熱を機械学習で予測する可能性を示す。 機械学習とディープラーニング技術によるサルエントな理学マーカーの発見は、医学的に脆弱な患者に対する革新的な医療提供プロトコルの開発と実装をさらに加速する可能性がある。

Fever can provide valuable information for diagnosis and prognosis of various diseases such as pneumonia, dengue, sepsis, etc., therefore, predicting fever early can help in the effectiveness of treatment options and expediting the treatment process. This study aims to develop novel algorithms that can accurately predict fever onset in critically ill patients by applying machine learning technique on continuous physiological data. We analyzed continuous physiological data collected every 5-minute from a cohort of over 200,000 critically ill patients admitted to an Intensive Care Unit (ICU) over a 2-year period. Each episode of fever from the same patient were considered as an independent event, with separations of at least 24 hours. We extracted descriptive statistical features from six physiological data streams, including heart rate, respiration, systolic and diastolic blood pressure, mean arterial pressure, and oxygen saturation, and use these features to independently predict the onset of fever. Using a bootstrap aggregation method, we created a balanced dataset of 7,801 afebrile and febrile patients and analyzed features up to 4 hours before the fever onset. We found that supervised machine learning methods can predict fever up to 4 hours before onset in critically ill patients with high recall, precision, and F1-score. This study demonstrates the viability of using machine learning to predict fever among hospitalized adults. The discovery of salient physiomarkers through machine learning and deep learning techniques has the potential to further accelerate the development and implementation of innovative care delivery protocols and strategies for medically vulnerable patients.
翻訳日:2022-10-18 13:18:40 公開日:2020-09-14
# クールノットゲームにおけるマルチエージェント強化学習

Multi-Agent Reinforcement Learning in Cournot Games ( http://arxiv.org/abs/2009.06224v1 )

ライセンス: Link先を確認
Yuanyuan Shi, Baosen Zhang(参考訳) 本研究では,情報フィードバックを限定した連続アクションCournotゲームにおける戦略エージェントの相互作用について検討する。 クールノットゲームは、エージェントがシステムや相互の完全な知識なしに学び、競争する多くの社会経済システムにとって不可欠な市場モデルである。 本稿では,concave cournotゲームにおいて広く採用されている連続制御強化学習アルゴリズムであるポリシー勾配アルゴリズムのダイナミクスについて考察する。 価格関数が線形あるいはエージェントの数が2である場合、政策勾配ダイナミクスのナッシュ平衡への収束性を証明する。 これは(私たちの知る限りでは)非回帰クラスに該当しない連続的な作用空間を持つ学習アルゴリズムの収束性に関する最初の結果である。

In this work, we study the interaction of strategic agents in continuous action Cournot games with limited information feedback. Cournot game is the essential market model for many socio-economic systems where agents learn and compete without the full knowledge of the system or each other. We consider the dynamics of the policy gradient algorithm, which is a widely adopted continuous control reinforcement learning algorithm, in concave Cournot games. We prove the convergence of policy gradient dynamics to the Nash equilibrium when the price function is linear or the number of agents is two. This is the first result (to the best of our knowledge) on the convergence property of learning algorithms with continuous action spaces that do not fall in the no-regret class.
翻訳日:2022-10-18 13:17:54 公開日:2020-09-14
# クラスタ環境における線形回帰アルゴリズムの性能評価

Performance Evaluation of Linear Regression Algorithm in Cluster Environment ( http://arxiv.org/abs/2009.06497v1 )

ライセンス: Link先を確認
Cinantya Paramita, Fauzi Adi Rafrastara, Usman Sudibyo, R.I.W. Agung Wibowo(参考訳) クラスタコンピューティングはスーパーコンピュータの優位性を置き換えるために導入された。 クラスタコンピューティングは、スーパーコンピュータに効果的に対処できない問題を克服することができる。 本稿では,クラスタ環境におけるデータマイニング手法の1つを実行することにより,クラスタコンピューティングの性能を評価する。 この実験では、アパッチスパークをクラスタコンピューティングのフレームワークとする線形回帰アルゴリズムを用いて、飛行遅延の予測を試みる。 その結果、同一仕様のクラスタ環境に5pcを投入することで、スタンドアロン環境と比較して計算性能が39.76%向上することが示された。 クラスタにより多くのノードをアタッチすると、プロセスが大幅に速くなります。

Cluster computing was introduced to replace the superiority of super computers. Cluster computing is able to overcome the problems that cannot be effectively dealt with supercomputers. In this paper, we are going to evaluate the performance of cluster computing by executing one of data mining techniques in the cluster environment. The experiment will attempt to predict the flight delay by using linear regression algorithm with apache spark as a framework for cluster computing. The result shows that, by involving 5 PCs in cluster environment with equal specifications can increase the performance of computation up to 39.76% compared to the standalone one. Attaching more nodes to the cluster can make the process become faster significantly.
翻訳日:2022-10-18 13:11:03 公開日:2020-09-14
# 5G無線アクセスネットワークスライシングにおける動的資源最適化のための強化学習

Reinforcement Learning for Dynamic Resource Optimization in 5G Radio Access Network Slicing ( http://arxiv.org/abs/2009.06579v1 )

ライセンス: Link先を確認
Yi Shi, Yalin E. Sagduyu, Tugba Erpek(参考訳) 本稿では、5g無線アクセスネットワークスライシングのための動的リソース割り当てに対する強化学習ソリューションを提案する。 利用可能な通信資源(周波数時間ブロックと送信電力)と計算資源(プロセッサ使用量)は、ネットワークスライス要求の確率的到着に割り当てられる。 それぞれの要求には優先度(重量)、スループット、計算資源、レイテンシ(遅延)の要件があり、実現可能であれば、要求された期間に割り当てられた通信と計算リソースが提供されます。 リソース割当の決定がリソースの一部を一時的に使用不能にするので、現在のリソース割当のみを最適化できる筋力のあるソリューションは、ネットワークスライシングには効果がない。 そこで、Q-ラーニングソリューションは、通信と計算の制約を受ける時間的地平線上で、許可されたネットワークスライシング要求の総重量の観点から、ネットワークユーティリティを最大化する。 その結果、強化学習は、筋電図、ランダム、そして最初に提供されるソリューションと比較して、5Gネットワークユーティリティに大きな改善をもたらすことがわかった。 強化学習はユーザ数の増加に伴ってスケーラブルなパフォーマンスを維持するが、5gが周波数時間ブロックの一部を動的に占有する可能性のある既存のユーザとスペクトルを共有する必要がある場合に、ネットワークスライスにリソースを割り当てるためにも効果的に使用できる。

The paper presents a reinforcement learning solution to dynamic resource allocation for 5G radio access network slicing. Available communication resources (frequency-time blocks and transmit powers) and computational resources (processor usage) are allocated to stochastic arrivals of network slice requests. Each request arrives with priority (weight), throughput, computational resource, and latency (deadline) requirements, and if feasible, it is served with available communication and computational resources allocated over its requested duration. As each decision of resource allocation makes some of the resources temporarily unavailable for future, the myopic solution that can optimize only the current resource allocation becomes ineffective for network slicing. Therefore, a Q-learning solution is presented to maximize the network utility in terms of the total weight of granted network slicing requests over a time horizon subject to communication and computational constraints. Results show that reinforcement learning provides major improvements in the 5G network utility relative to myopic, random, and first come first served solutions. While reinforcement learning sustains scalable performance as the number of served users increases, it can also be effectively used to assign resources to network slices when 5G needs to share the spectrum with incumbent users that may dynamically occupy some of the frequency-time blocks.
翻訳日:2022-10-18 13:10:53 公開日:2020-09-14
# 確率モデルを用いたデータ品質評価

Data Quality Evaluation using Probability Models ( http://arxiv.org/abs/2009.06672v1 )

ライセンス: Link先を確認
Allen ONeill(参考訳) 本稿では,データセットにおけるデータ品質の良し悪しと良し悪しの違いを評価するために,機械学習確率モデルを用いたアプローチについて述べる。 決定木アルゴリズムは、試験中のデータセットのドメイン知識に基づいてデータ品質を予測する。 以上の結果から, 単純な良質/悪質な事前学習例に基づいてデータ品質を予測する能力は正確であるが, 一般的には, 生産データの品質評価に十分でない可能性が示唆された。

This paper discusses an approach with machine-learning probability models to evaluate the difference between good and bad data quality in a dataset. A decision tree algorithm is used to predict data quality based on no domain knowledge of the datasets under examination. It is shown that for the data examined, the ability to predict the quality of data based on simple good/bad pre-labelled learning examples is accurate, however in general it may not be sufficient for useful production data quality assessment.
翻訳日:2022-10-18 13:10:32 公開日:2020-09-14
# 分散データマイニング研究における調査と分類 : 体系的文献レビュー

A Survey and Taxonomy of Distributed Data Mining Research Studies: A Systematic Literature Review ( http://arxiv.org/abs/2009.10618v1 )

ライセンス: Link先を確認
Fauzi Adi Rafrastara, Qi Deyu(参考訳) コンテキスト: データマイニング(DM)メソッドは年々進化しており、現在では分散データマイニング(DDM)と呼ばれる従来の手法よりも数倍高速に実行できるDM技術の強化も行われている。 データ処理における新しい分野ではないが、近年、多くの研究者がこの領域に注意を払っている。 問題:高評価誌・会議におけるDDMに関する出版件数は著しく増加している。 研究者がさらなる研究を必要とするDDMを包括的に把握することは困難である。 解決策: これまでのDDM分野の研究を地図化するために, 系統的な文献レビューを行った。 本研究の目的は,DDMフィールドとホットエリア自体のギャップを識別し,新たな研究のモチベーションを提供することである。 結果:本文献レビューで提案した7つの研究課題に回答し,いくつかの結論を得た。 また,本論文では,DDM研究領域の分類について述べる。 最後に、この体系的文献レビューは、2000年から2015年までのddmの発展の統計を提供しており、将来の研究者がddmの現状を包括的に概観するのに役立つだろう。

Context: Data Mining (DM) method has been evolving year by year and as of today there is also the enhancement of DM technique that can be run several times faster than the traditional one, called Distributed Data Mining (DDM). It is not a new field in data processing actually, but in the recent years many researchers have been paying more attention on this area. Problems: The number of publication regarding DDM in high reputation journals and conferences has increased significantly. It makes difficult for researchers to gain a comprehensive view of DDM that require further research. Solution: We conducted a systematic literature review to map the previous research in DDM field. Our objective is to provide the motivation for new research by identifying the gap in DDM field as well as the hot area itself. Result: Our analysis came up with some conclusions by answering 7 research questions proposed in this literature review. In addition, the taxonomy of DDM research area is presented in this paper. Finally, this systematic literature review provides the statistic of development of DDM since 2000 to 2015, in which this will help the future researchers to have a comprehensive overview of current situation of DDM.
翻訳日:2022-10-18 13:10:08 公開日:2020-09-14
# VC-Net:高スパース・ノイズ画像データの分割と可視化のための深部ボリューム合成ネットワーク

VC-Net: Deep Volume-Composition Networks for Segmentation and Visualization of Highly Sparse and Noisy Image Data ( http://arxiv.org/abs/2009.06184v1 )

ライセンス: Link先を確認
Yifan Wang, Guoli Yan, Haikuan Zhu, Sagar Buch, Ying Wang, Ewart Mark Haacke, Jing Hua, and Zichun Zhong(参考訳) 私たちの研究の動機は、直接3dボリューム処理とボリュームレンダリングされた手掛かりを組み合わせて、vivo中の微細構造の抽出や可視化といった効果的な3d探索を行うための、可視化誘導型コンピューティングパラダイムを提供することです。 しかし,高感度な3d容器構造の抽出と可視化は,高いスパース性,ノイズ性,複雑なトポロジー変化により依然として困難である。 本稿では,最大強度投影法(MIP)により生成した画像成分を3次元ボリューム画像学習に組み込むことにより,3次元微小血管の堅牢な抽出を行う,エンドツーエンドの深層学習手法VC-Netを提案する。 中心となる新規性は、ボリューム可視化技術(MIP)を自動利用して、ディープラーニングレベルでの3Dデータ探索を強化することである。 MIP埋め込み機能は局所的な血管信号を強化し、血管の幾何学的変動性とスケーラビリティに適応する。 マルチストリーム畳み込みニューラルネットワークは, それぞれ3次元体積と2次元MIPの特徴を学習し, MIP特徴を3次元体積埋め込み空間に投影することにより, 結合体積合成埋め込み空間における相互依存性を探索する。 提案するフレームワークは,小型/小型の容器を捕集し,接続性を向上させる。 私たちの知る限りでは、これは結合畳み込み空間を構築する最初のディープラーニングフレームワークであり、ボリュームレンダリングに基づく2次元投影と3次元ボリュームによる計算された容器確率を相乗的に探索し統合することができる。 実験結果は、従来の3D血管分割法と、患者および実際の脳血管画像データセットにおけるディープラーニングの現状と比較した。 本手法は, 強力なMR動脈造影および血管疾患の静脈造影診断の可能性を示す。

The motivation of our work is to present a new visualization-guided computing paradigm to combine direct 3D volume processing and volume rendered clues for effective 3D exploration such as extracting and visualizing microstructures in-vivo. However, it is still challenging to extract and visualize high fidelity 3D vessel structure due to its high sparseness, noisiness, and complex topology variations. In this paper, we present an end-to-end deep learning method, VC-Net, for robust extraction of 3D microvasculature through embedding the image composition, generated by maximum intensity projection (MIP), into 3D volume image learning to enhance the performance. The core novelty is to automatically leverage the volume visualization technique (MIP) to enhance the 3D data exploration at deep learning level. The MIP embedding features can enhance the local vessel signal and are adaptive to the geometric variability and scalability of vessels, which is crucial in microvascular tracking. A multi-stream convolutional neural network is proposed to learn the 3D volume and 2D MIP features respectively and then explore their inter-dependencies in a joint volume-composition embedding space by unprojecting the MIP features into 3D volume embedding space. The proposed framework can better capture small / micro vessels and improve vessel connectivity. To our knowledge, this is the first deep learning framework to construct a joint convolutional embedding space, where the computed vessel probabilities from volume rendering based 2D projection and 3D volume can be explored and integrated synergistically. Experimental results are compared with the traditional 3D vessel segmentation methods and the deep learning state-of-the-art on public and real patient (micro-)cerebrovascular image datasets. Our method demonstrates the potential in a powerful MR arteriogram and venogram diagnosis of vascular diseases.
翻訳日:2022-10-18 13:09:50 公開日:2020-09-14
# unsupervised multi-scale generative adversarial networkを用いた動脈スピンラベリングmr画像の超解像

Super Resolution of Arterial Spin Labeling MR Imaging Using Unsupervised Multi-Scale Generative Adversarial Network ( http://arxiv.org/abs/2009.06129v1 )

ライセンス: Link先を確認
Jianan Cui, Kuang Gong, Paul Han, Huafeng Liu, Quanzheng Li(参考訳) 動脈スピンラベリング(ASL)磁気共鳴イメージング(MRI)は、脳血流(CBF)を定量的に測定できる強力なイメージング技術である。 しかし、血液のわずかな部分が組織体積と比較してラベル付けされているため、従来のASLは低信号-雑音比(SNR)、空間分解能の低下、長期獲得に苦しむ。 本稿では,教師なし学習によるGAN(Multi-scale Generative Adversarial Network)に基づく超解像法を提案する。 ネットワークは、トレーニングのために低解像度(LR)のASLイメージのみを必要とし、T1重み付きイメージは解剖学的に先行する。 トレーニングペアやプレトレーニングは必要ありません。 lr asl画像からのノイズ干渉を抑制するために、低パスフィルタ誘導項目を付加損失として付加した。 ネットワークをトレーニングした後、アップサンプリングされたLR ASL画像と対応するT1強調画像とを最終層のジェネレータに供給することにより、超解像(SR)画像を生成する。 提案手法の性能評価には, 正規分解能(NR) ASL画像(5.5分取得)と高分解能(HR) ASL画像(44分取得)を用いて, ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)を比較した。 提案手法は, 最寄り, 線形, スプライン補間法と比較して, より詳細な構造情報を復元し, 画像ノイズを視覚的に低減し, HR ASL画像を地上構造として使用する場合に最も高いPSNRおよびSSIMを実現する。

Arterial spin labeling (ASL) magnetic resonance imaging (MRI) is a powerful imaging technology that can measure cerebral blood flow (CBF) quantitatively. However, since only a small portion of blood is labeled compared to the whole tissue volume, conventional ASL suffers from low signal-to-noise ratio (SNR), poor spatial resolution, and long acquisition time. In this paper, we proposed a super-resolution method based on a multi-scale generative adversarial network (GAN) through unsupervised training. The network only needs the low-resolution (LR) ASL image itself for training and the T1-weighted image as the anatomical prior. No training pairs or pre-training are needed. A low-pass filter guided item was added as an additional loss to suppress the noise interference from the LR ASL image. After the network was trained, the super-resolution (SR) image was generated by supplying the upsampled LR ASL image and corresponding T1-weighted image to the generator of the last layer. Performance of the proposed method was evaluated by comparing the peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) using normal-resolution (NR) ASL image (5.5 min acquisition) and high-resolution (HR) ASL image (44 min acquisition) as the ground truth. Compared to the nearest, linear, and spline interpolation methods, the proposed method recovers more detailed structure information, reduces the image noise visually, and achieves the highest PSNR and SSIM when using HR ASL image as the ground-truth.
翻訳日:2022-10-18 13:09:19 公開日:2020-09-14
# 微分プライベートな位置トレースの実用最適化合成

Utility-Optimized Synthesis of Differentially Private Location Traces ( http://arxiv.org/abs/2009.06505v1 )

ライセンス: Link先を確認
Mehmet Emre Gursoy, Vivekanand Rajasekar, Ling Liu(参考訳) Differentially private location trace synthesis (DPLTS) は、モバイルユーザーのプライバシーを保護し、位置情報の分析と共有を可能にするソリューションとして最近登場した。 DPLTSの重要な課題は、データセットの高次元性、複雑さ、不均一性を考慮し、多種多様なユーティリティの概念を考慮し、位置トレースデータセットのユーティリティを最大限に保存することである。 本稿では,DPLTS に対するユーティリティ最適化とターゲットアプローチである OptaTrace を提案する。 実際のトレースデータセットd、プライバシー保護の強さを制御する差分プライバシーパラメータepsilon、および、ユーティリティ/エラーメトリックerr of interest; optatraceは、ベイズ最適化を使用して、出力エラー(所定のメトリックerrで測定される)がepsilon-differential privacyが満たされている間に最小化されるdpltsを最適化する。 さらに optatrace は,ユーティリティベンチマークや err の選択,アクセス可能でインタラクティブな dplts サービス用のフロントエンド web インターフェース など,いくつかの組み込みエラーメトリクスを含むユーティリティモジュールも導入している。 実験により、OptaTraceの最適化された出力は、以前の作業と比べてかなりのユーティリティ改善とエラー削減をもたらすことが示された。

Differentially private location trace synthesis (DPLTS) has recently emerged as a solution to protect mobile users' privacy while enabling the analysis and sharing of their location traces. A key challenge in DPLTS is to best preserve the utility in location trace datasets, which is non-trivial considering the high dimensionality, complexity and heterogeneity of datasets, as well as the diverse types and notions of utility. In this paper, we present OptaTrace: a utility-optimized and targeted approach to DPLTS. Given a real trace dataset D, the differential privacy parameter epsilon controlling the strength of privacy protection, and the utility/error metric Err of interest; OptaTrace uses Bayesian optimization to optimize DPLTS such that the output error (measured in terms of given metric Err) is minimized while epsilon-differential privacy is satisfied. In addition, OptaTrace introduces a utility module that contains several built-in error metrics for utility benchmarking and for choosing Err, as well as a front-end web interface for accessible and interactive DPLTS service. Experiments show that OptaTrace's optimized output can yield substantial utility improvement and error reduction compared to previous work.
翻訳日:2022-10-18 13:08:49 公開日:2020-09-14
# カテゴリー理論による数学的形態学

Mathematical Morphology via Category Theory ( http://arxiv.org/abs/2009.06127v1 )

ライセンス: Link先を確認
Hossein Memarzadeh Sharifipour, Bardia Yousefi(参考訳) 数学的形態学は画像処理領域に多くの利益をもたらす。 これらの手法のいくつかは基本的なものであるが、様々なアプリケーションにおいてデータ処理の最も重要な基礎であると考えられている。 本稿では,リミットとコリミット保存関手を用いたダイレーションや浸食などの形態的操作の基本を変更する(カテゴリ理論)。 画像のよく知られた行列表現を採用すると、マットと呼ばれる行列の圏は画像として表現できる。 ブール環や(max,+)半環のような様々な半環上のマットを豊かにすることで、mat の圏テンソル積を用いて、二値およびグレースケールの画像の古典的な定義に到達することができる。 拡張操作を手作業で行うと、有名なテンソルホム接続を用いて浸食に達することができる。 このアプローチにより,Boolean と (max,+) の半環以外の異なる半環を用いて,行列で表される2つの画像間の新しいタイプの拡張と浸食を定義することができる。 圏論からの形態学的操作の視点は、数学的形態学は線形論理のモデルであるという主張にも当てはまる。

Mathematical morphology contributes many profitable tools to image processing area. Some of these methods considered to be basic but the most important fundamental of data processing in many various applications. In this paper, we modify the fundamental of morphological operations such as dilation and erosion making use of limit and co-limit preserving functors within (Category Theory). Adopting the well-known matrix representation of images, the category of matrix, called Mat, can be represented as an image. With enriching Mat over various semirings such as Boolean and (max,+) semirings, one can arrive at classical definition of binary and gray-scale images using the categorical tensor product in Mat. With dilation operation in hand, the erosion can be reached using the famous tensor-hom adjunction. This approach enables us to define new types of dilation and erosion between two images represented by matrices using different semirings other than Boolean and (max,+) semirings. The viewpoint of morphological operations from category theory can also shed light to the claimed concept that mathematical morphology is a model for linear logic.
翻訳日:2022-10-18 13:02:43 公開日:2020-09-14
# インターネットにおける画像圧縮のための機械学習を用いたドメイン知識の活用

Leveraging Domain Knowledge using Machine Learning for Image Compression in Internet-of-Things ( http://arxiv.org/abs/2009.06742v1 )

ライセンス: Link先を確認
Prabuddha Chakraborty, Jonathan Cruz, Swarup Bhunia(参考訳) iot(internet of things)アプリケーションにおけるインテリジェントエッジデバイスの創発的なエコシステムは、自動監視から精密農業まで、さまざまなイメージデータの記録と処理に依存している。 リソースの制約、例えばエネルギーと通信帯域幅の要件により、これらのアプリケーションは送信前に記録された画像を圧縮する必要がある。 For these applications, image compression commonly requires: (1) maintaining features for coarse-grain pattern recognition instead of the high-level details for human perception due to machine-to-machine communications; (2) high compression ratio that leads to improved energy and transmission efficiency; (3) large dynamic range of compression and an easy trade-off between compression factor and quality of reconstruction to accommodate a wide diversity of IoT applications as well as their time-varying energy/performance needs. そこで本研究では,従来の手法に比べて高い圧縮を実現するため,粗視タスクの精度を維持しつつ,視覚的品質を犠牲にしてはるかに高い圧縮を実現する,新しい機械学習(ml)誘導画像圧縮フレームワークであるmagicを提案する。 中心的な考え方は、アプリケーション固有のドメイン知識を取り込み、高い圧縮を達成するために効率的に利用することである。 我々は、MAGICフレームワークが幅広い圧縮/品質で構成可能であり、JPEG 2000とWebPの標準品質制限を超えて圧縮可能であることを実証した。 2つのビジョンデータセットを使用して代表的IoTアプリケーションの実験を行い、ソースに対して同様の精度で42.65倍の圧縮を示す。 JPEG 2000 や WebP と比較して,画像間の圧縮速度のばらつきが低いことを示す。

The emergent ecosystems of intelligent edge devices in diverse Internet of Things (IoT) applications, from automatic surveillance to precision agriculture, increasingly rely on recording and processing variety of image data. Due to resource constraints, e.g., energy and communication bandwidth requirements, these applications require compressing the recorded images before transmission. For these applications, image compression commonly requires: (1) maintaining features for coarse-grain pattern recognition instead of the high-level details for human perception due to machine-to-machine communications; (2) high compression ratio that leads to improved energy and transmission efficiency; (3) large dynamic range of compression and an easy trade-off between compression factor and quality of reconstruction to accommodate a wide diversity of IoT applications as well as their time-varying energy/performance needs. To address these requirements, we propose, MAGIC, a novel machine learning (ML) guided image compression framework that judiciously sacrifices visual quality to achieve much higher compression when compared to traditional techniques, while maintaining accuracy for coarse-grained vision tasks. The central idea is to capture application-specific domain knowledge and efficiently utilize it in achieving high compression. We demonstrate that the MAGIC framework is configurable across a wide range of compression/quality and is capable of compressing beyond the standard quality factor limits of both JPEG 2000 and WebP. We perform experiments on representative IoT applications using two vision datasets and show up to 42.65x compression at similar accuracy with respect to the source. We highlight low variance in compression rate across images using our technique as compared to JPEG 2000 and WebP.
翻訳日:2022-10-18 13:02:01 公開日:2020-09-14
# ゲート・ツー・ゲイト整合学習を用いたシームズ対向ネットワークを用いた低線量PETの同時Denoisingと運動推定

Simultaneous Denoising and Motion Estimation for Low-dose Gated PET using a Siamese Adversarial Network with Gate-to-Gate Consistency Learning ( http://arxiv.org/abs/2009.06757v1 )

ライセンス: Link先を確認
Bo Zhou, Yu-Jung Tsai, Chi Liu(参考訳) ゲーティングはPET画像において、呼吸運動のぼかしを減らし、より洗練された運動補正方法を容易にするために一般的に用いられる。 しかし、低線量PETの応用では、注入線量を減らすことでノイズが増加し、信号対雑音比(SNR)が減少し、その後運動推定/補正ステップが劣化し、画質が低下する。 これらの問題に対処するため,我々はまず,低線量ゲート画像量から高線量ゲート画像ボリュームを効率的に回収できるsiamese adversarial network (san)を提案する。 回収されたゲートボリューム間の外観整合性を確保するため、sanに組み込まれた事前学習されたモーション推定ネットワークを利用し、ゲート間一貫性(g2g)の制約を可能にする。 高品質回復ゲートボリュームでは、移動推定ネットワークからゲート間移動ベクトルを同時に出力することができる。 被験者29名を対象にした低線量率PETデータセットの総合評価により,PSNR37.16およびSSIM0.97の低線量化PETボリュームを効果的に回収し,その後の運動補正に役立つロバストな動き推定を同時に生成できることが示唆された。

Gating is commonly used in PET imaging to reduce respiratory motion blurring and facilitate more sophisticated motion correction methods. In the applications of low dose PET, however, reducing injection dose causes increased noise and reduces signal-to-noise ratio (SNR), subsequently corrupting the motion estimation/correction steps, causing inferior image quality. To tackle these issues, we first propose a Siamese adversarial network (SAN) that can efficiently recover high dose gated image volume from low dose gated image volume. To ensure the appearance consistency between the recovered gated volumes, we then utilize a pre-trained motion estimation network incorporated into SAN that enables the constraint of gate-to-gate (G2G) consistency. With high-quality recovered gated volumes, gate-to-gate motion vectors can be simultaneously outputted from the motion estimation network. Comprehensive evaluations on a low dose gated PET dataset of 29 subjects demonstrate that our method can effectively recover the low dose gated PET volumes, with an average PSNR of 37.16 and SSIM of 0.97, and simultaneously generate robust motion estimation that could benefit subsequent motion corrections.
翻訳日:2022-10-18 13:01:37 公開日:2020-09-14
# qutrit-inspired complete self-supervised shallow quantum learning network for brain tumor segmentation

Qutrit-inspired Fully Self-supervised Shallow Quantum Learning Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2009.06767v1 )

ライセンス: Link先を確認
Debanjan Konar, Siddhartha Bhattacharyya, Bijaya K. Panigrahi, and Elizabeth Behrman(参考訳) 古典的自己教師付きネットワークは収束問題に苦しめられ、強制終了によるセグメンテーション精度が低下した。 量子ビットや2レベル量子ビットはしばしば量子ニューラルネットワークモデルを記述する。 本稿では,脳MR画像の自動セグメンテーションのために,量子完全自己スーパーバイザニューラルネットワーク(QFS-Net)と呼ばれる高度な3段階量子情報システムを利用した,自己教師付き浅層学習ネットワークモデルを提案する。 QFS-Netモデルは、8次近傍トポロジーを用いてパラメトリックアダマール門を介して接続されたクォートリットの層構造をトリニティとして構成する。 クォート状態の非線形変換により、基礎となる量子ニューラルネットワークモデルが量子状態のエンコードが可能となり、これらの状態のより高速な自己組織化逆伝播が可能となる。 提案したQFS-Netモデルは,Natureレポジトリから収集した癌画像アーカイブ(TCIA)データセットに基づいて調整し,広範囲に検証すると共に,美術監督(U-NetおよびURes-Netアーキテクチャ)と自己監督型QIS-Netモデルと比較する。 その結果,ヒトの介入や計算資源を最小限に抑えることで,腫瘍検出に有望なセグメンテーション結果が得られた。

Classical self-supervised networks suffer from convergence problems and reduced segmentation accuracy due to forceful termination. Qubits or bi-level quantum bits often describe quantum neural network models. In this article, a novel self-supervised shallow learning network model exploiting the sophisticated three-level qutrit-inspired quantum information system referred to as Quantum Fully Self-Supervised Neural Network (QFS-Net) is presented for automated segmentation of brain MR images. The QFS-Net model comprises a trinity of a layered structure of qutrits inter-connected through parametric Hadamard gates using an 8-connected second-order neighborhood-based topology. The non-linear transformation of the qutrit states allows the underlying quantum neural network model to encode the quantum states, thereby enabling a faster self-organized counter-propagation of these states between the layers without supervision. The suggested QFS-Net model is tailored and extensively validated on Cancer Imaging Archive (TCIA) data set collected from Nature repository and also compared with state of the art supervised (U-Net and URes-Net architectures) and the self-supervised QIS-Net model. Results shed promising segmented outcome in detecting tumors in terms of dice similarity and accuracy with minimum human intervention and computational resources.
翻訳日:2022-10-18 13:01:12 公開日:2020-09-14
# 深層宇宙翻訳による古写真復元

Old Photo Restoration via Deep Latent Space Translation ( http://arxiv.org/abs/2009.07047v1 )

ライセンス: Link先を確認
Ziyu Wan, Bo Zhang, Dongdong Chen, Pan Zhang, Dong Chen, Jing Liao, Fang Wen(参考訳) 深層学習による重度の劣化に苦しむ古い写真を復元することを提案する。 教師付き学習によって解決できる従来の修復タスクとは異なり、実際の写真の劣化は複雑であり、合成画像と本物の古い写真の間のドメインギャップはネットワークの一般化に失敗する。 そこで本研究では,実画像と膨大な合成画像ペアを併用して,新しいトリプレット領域翻訳ネットワークを提案する。 具体的には、2つの変分オートエンコーダ(VAE)をトレーニングし、それぞれ古い写真とクリーンな写真を2つの潜伏空間に変換する。 これら2つの潜在空間間の変換は、合成ペアデータによって学習される。 この翻訳は、領域ギャップがコンパクトな潜在空間で閉じているため、実写真にうまく一般化する。 さらに, 1枚の古い写真に混在する多重劣化に対処するため, ひっかき傷やダストスポットなどの構造欠陥を対象とする非局所ブロックを持つグローバルブランチを設計し, ノイズやぼやけなどの非構造欠陥を対象とするローカルブランチを設計した。 2つのブランチが潜在空間で融合し、古い写真を複数の欠陥から復元する能力が向上した。 さらに,古い写真の顔の細部を復元するために別の顔改善ネットワークを適用し,最終的に知覚品質を向上した写真を生成する。 包括的実験により、提案したパイプラインは、古写真復元の視覚的品質の観点から、最先端の手法や既存の商用ツールよりも優れた性能を示す。

We propose to restore old photos that suffer from severe degradation through a deep learning approach. Unlike conventional restoration tasks that can be solved through supervised learning, the degradation in real photos is complex and the domain gap between synthetic images and real old photos makes the network fail to generalize. Therefore, we propose a novel triplet domain translation network by leveraging real photos along with massive synthetic image pairs. Specifically, we train two variational autoencoders (VAEs) to respectively transform old photos and clean photos into two latent spaces. And the translation between these two latent spaces is learned with synthetic paired data. This translation generalizes well to real photos because the domain gap is closed in the compact latent space. Besides, to address multiple degradations mixed in one old photo, we design a global branch with apartial nonlocal block targeting to the structured defects, such as scratches and dust spots, and a local branch targeting to the unstructured defects, such as noises and blurriness. Two branches are fused in the latent space, leading to improved capability to restore old photos from multiple defects. Furthermore, we apply another face refinement network to recover fine details of faces in the old photos, thus ultimately generating photos with enhanced perceptual quality. With comprehensive experiments, the proposed pipeline demonstrates superior performance over state-of-the-art methods as well as existing commercial tools in terms of visual quality for old photos restoration.
翻訳日:2022-10-18 13:00:49 公開日:2020-09-14
# ソフトウェアエンジニアリングツールボックスのコアプリミティブとしてのアナロジー作成

Analogy-Making as a Core Primitive in the Software Engineering Toolbox ( http://arxiv.org/abs/2009.06592v1 )

ライセンス: Link先を確認
Matthew Sotoudeh and Aditya V. Thakur(参考訳) 類似は、2つの対象の間の構造的類似性と対応の識別である。 アナロジー生成の計算モデルは、高レベルの人間の認知をよりよく理解するために認知科学の分野で広く研究されてきた。 例えば、メラニー・ミッチェルとダグラス・ホフスタッターは、文字列間の類似を補完するコピカットアルゴリズムを開発することで、高いレベルの知覚をよりよく理解しようとした。 本稿では,ソフトウェア工学において,アナログ作成は中核的なプリミティブと見なされるべきである,と論じる。 この議論は、プログラム理解やソースコード変換学習といった複雑なソフトウェア工学の問題を、アナログ生成問題の例に減らすことができることを示すことで動機付けている。 我々は、このアイデアを、Copycatのアイデアを適応し拡張するソフトウェア工学アプリケーションに適した、新しいアナロジー作成アルゴリズムであるSifterを使って実証する。 特に、Sifterは、一連の更新ルールアプリケーションを探すため、アナログ作成を減らす。 シフターは、ソフトウェアに埋め込まれた幅広い情報を効果的に表現できる数学的構造に新しい表現を用いる。 我々は、ソフトウェアエンジニアリングにおけるSifterと類推のための今後の仕事の主要な分野を列挙して結論付けます。

An analogy is an identification of structural similarities and correspondences between two objects. Computational models of analogy making have been studied extensively in the field of cognitive science to better understand high-level human cognition. For instance, Melanie Mitchell and Douglas Hofstadter sought to better understand high-level perception by developing the Copycat algorithm for completing analogies between letter sequences. In this paper, we argue that analogy making should be seen as a core primitive in software engineering. We motivate this argument by showing how complex software engineering problems such as program understanding and source-code transformation learning can be reduced to an instance of the analogy-making problem. We demonstrate this idea using Sifter, a new analogy-making algorithm suitable for software engineering applications that adapts and extends ideas from Copycat. In particular, Sifter reduces analogy-making to searching for a sequence of update rule applications. Sifter uses a novel representation for mathematical structures capable of effectively representing the wide variety of information embedded in software. We conclude by listing major areas of future work for Sifter and analogy-making in software engineering.
翻訳日:2022-10-18 13:00:23 公開日:2020-09-14
# 半教師付き学習と真と推定正当性スコアの問題

Semi-supervised learning and the question of true versus estimated propensity scores ( http://arxiv.org/abs/2009.06183v1 )

ライセンス: Link先を確認
Andrew Herren, P. Richard Hahn(参考訳) 半教師付き機械学習の治療効果推定問題への直接的な応用は、治療の割り当てと共変量が観察されるが結果が観察されない場合、データが「ラベルなし」であると考えることである。 この定式化によれば、大きなラベル付きデータセットを用いて高次元の確率関数を推定し、より小さなラベル付きデータセットを用いて因果推論を行うことで、学習された確率スコアを用いて重み付き推定を行うことができる。 無限ラベルのないデータの制限の場合、高次元の確率関数を正確に推定することができる。 しかし、因果推論コミュニティの長年のアドバイスは、(ラベル付きデータのみから)推定された正当性スコアは実際には真の正当性スコアよりも好まれており、この文脈ではラベルなしデータが実際には役に立たないことを示唆している。 本稿では, このパラドックスを考察し, 既知の確率関数が, 従来の文献による治療効果を推定するのに有用であるという強い直感を再現する簡単な手順を提案する。 さらにシミュレーション研究は, 多くの状況において, 直接回帰が逆プロペンシティ重み推定器よりも好ましいことを示唆する。

A straightforward application of semi-supervised machine learning to the problem of treatment effect estimation would be to consider data as "unlabeled" if treatment assignment and covariates are observed but outcomes are unobserved. According to this formulation, large unlabeled data sets could be used to estimate a high dimensional propensity function and causal inference using a much smaller labeled data set could proceed via weighted estimators using the learned propensity scores. In the limiting case of infinite unlabeled data, one may estimate the high dimensional propensity function exactly. However, longstanding advice in the causal inference community suggests that estimated propensity scores (from labeled data alone) are actually preferable to true propensity scores, implying that the unlabeled data is actually useless in this context. In this paper we examine this paradox and propose a simple procedure that reconciles the strong intuition that a known propensity functions should be useful for estimating treatment effects with the previous literature suggesting otherwise. Further, simulation studies suggest that direct regression may be preferable to inverse-propensity weight estimators in many circumstances.
翻訳日:2022-10-18 12:59:46 公開日:2020-09-14
# 無線モバイルネットワークにおける分散電力制御のためのDeep Actor-Critic Learning

Deep Actor-Critic Learning for Distributed Power Control in Wireless Mobile Networks ( http://arxiv.org/abs/2009.06681v1 )

ライセンス: Link先を確認
Yasar Sinan Nasir and Dongning Guo(参考訳) deep reinforcement learningは、無線ネットワークにおける送信電力制御問題を解決するために、教師付きディープラーニングのモデルフリーな代替手段と古典的な最適化を提供する。 マルチエージェント深部強化学習手法では,各送信機をローカル無線環境を観察して送信電力レベルを決定する個別学習エージェントとみなす。 特定のポリシーに従って、これらのエージェントは、例えば和値ユーティリティ関数など、グローバルな目的を協調的に最大化することを学ぶ。 このマルチエージェントスキームは容易にスケーラブルで、大規模セルラーネットワークに適用できる。 本研究では,より深いアクター-批判的学習の助けを借りて,分散的に実行される連続電力制御アルゴリズムを提案する。 さらに,提案する電力制御アルゴリズムを,デバイスが移動可能でチャネル状態が急速に変化するタイムスロットシステムに統合する。 シミュレーション結果を用いて,提案アルゴリズムの機能を示す。

Deep reinforcement learning offers a model-free alternative to supervised deep learning and classical optimization for solving the transmit power control problem in wireless networks. The multi-agent deep reinforcement learning approach considers each transmitter as an individual learning agent that determines its transmit power level by observing the local wireless environment. Following a certain policy, these agents learn to collaboratively maximize a global objective, e.g., a sum-rate utility function. This multi-agent scheme is easily scalable and practically applicable to large-scale cellular networks. In this work, we present a distributively executed continuous power control algorithm with the help of deep actor-critic learning, and more specifically, by adapting deep deterministic policy gradient. Furthermore, we integrate the proposed power control algorithm to a time-slotted system where devices are mobile and channel conditions change rapidly. We demonstrate the functionality of the proposed algorithm using simulation results.
翻訳日:2022-10-18 12:59:24 公開日:2020-09-14
# A Finitist's Manifesto:我々は数学の基礎を改革する必要があるか?

A Finitist's Manifesto: Do we need to Reformulate the Foundations of Mathematics? ( http://arxiv.org/abs/2009.06485v1 )

ライセンス: Link先を確認
Jonathan Lenchner(参考訳) 古典数学の基礎や、計算機科学の基礎でさえも、数学者が無視している問題がある。 このエッセイは、不定形数学の楽園で睡眠中だった数学者に注意を払わせるための呼びかけである。 数学の多くはどちらに依存している。 (i)無限個の要素を含む対象の「共存」 (二)任意の精度で計算する「理論上」の能力、又は (三)任意に多くの時間ステップを計算できる「理論上」の能力。 すべての計算は極限の概念に依存している。 The monumental results of real and complex analysis rely on a seamless notion of the "continuum" of real numbers, which extends in the plane to the complex numbers and gives us, among other things, "rigorous" definitions of continuity, the derivative, various different integrals, as well as the fundamental theorems of calculus and of algebra -the former of which says that the derivative and integral can be viewed as inverse operations, and the latter of which says that every polynomial over $\mathbb{C}$ has a complex root. このエッセイは、「存在」と「理論」の概念に意味を割り当てる方法があるかどうかを問うものである。 (i) (iii)以上。

There is a problem with the foundations of classical mathematics, and potentially even with the foundations of computer science, that mathematicians have by-and-large ignored. This essay is a call for practicing mathematicians who have been sleep-walking in their infinitary mathematical paradise to take heed. Much of mathematics relies upon either (i) the "existence'" of objects that contain an infinite number of elements, (ii) our ability, "in theory", to compute with an arbitrary level of precision, or (iii) our ability, "in theory", to compute for an arbitrarily large number of time steps. All of calculus relies on the notion of a limit. The monumental results of real and complex analysis rely on a seamless notion of the "continuum" of real numbers, which extends in the plane to the complex numbers and gives us, among other things, "rigorous" definitions of continuity, the derivative, various different integrals, as well as the fundamental theorems of calculus and of algebra -- the former of which says that the derivative and integral can be viewed as inverse operations, and the latter of which says that every polynomial over $\mathbb{C}$ has a complex root. This essay is an inquiry into whether there is any way to assign meaning to the notions of "existence" and "in theory'" in (i) to (iii) above.
翻訳日:2022-10-18 12:53:27 公開日:2020-09-14
# あなたの命令で! LaypersonsTeach Robotsの新機能に関する実証的研究

At your Command! An Empirical Study on How LaypersonsTeach Robots New Functions ( http://arxiv.org/abs/2009.06510v1 )

ライセンス: Link先を確認
Sebastian Weigelt and Vanessa Steurer and Walter F. Tichy(参考訳) SiriやGoogle Assistantのようなインテリジェントなシステムは楽しい(そして便利な)ダイアログパートナーであるが、ユーザーは事前に定義された機能にしかアクセスできない。 エンドユーザーによるインテリジェントシステムの機能拡張が、次の大きな課題となるでしょう。 本研究では,この領域の研究を促進するために,ロボットに自然言語による新しい機能を教える実験を行った。 その結果、870人の被験者が提出した3168件からなるラベル付きコーパスが得られた。 データセットの分析の結果、多くの参加者が新しい機能を教えるために特定の単語を使用していたことが判明した。 反対に、3分の1以上(36.93%)は、全く教えの意図を口語化しなかった。 発話に意味的構成要素をラベル付けした:宣言(関数の名前を含む)と中間ステップ。 完全なコーパスが公開されている。 http://dx.doi.org/10.21227/zecn-6c61

Even though intelligent systems such as Siri or Google Assistant are enjoyable (and useful) dialog partners, users can only access predefined functionality. Enabling end-users to extend the functionality of intelligent systems will be the next big thing. To promote research in this area we carried out an empirical study on how laypersons teach robots new functions by means of natural language instructions. The result is a labeled corpus consisting of 3168 submissions given by 870 subjects. The analysis of the dataset revealed that many participants used certain wordings to express their wish to teach new functionality; two corresponding trigrams are among the most frequent. On the contrary, more than one third (36.93%) did not verbalize the teaching intent at all. We labeled the semantic constituents in the utterances: declaration (including the name of the function) and intermediate steps. The full corpus is publicly available: http://dx.doi.org/10.21227/zecn-6c61
翻訳日:2022-10-18 12:53:10 公開日:2020-09-14
# 医療費予測 : 微粒な時間パターンの活用

Healthcare Cost Prediction: Leveraging Fine-grain Temporal Patterns ( http://arxiv.org/abs/2009.06780v1 )

ライセンス: Link先を確認
Mohammad Amin Morid, Olivia R. Liu Sheng, Kensaku Kawamoto, Travis Ault, Josette Dorius, Samir Abdelrahman(参考訳) 目的:個人の時間的データを利用して医療費を予測する方法の設計と評価を行う。 この目的を達成するために、まず患者の時間データを粗粒化ではなく細粒化して使用した。 第2に,コスト予測性能を向上させるための時間パターン抽出のための新しいスパイク検出機能を開発した。 第3に,予測作業における費用情報,訪問情報,医療情報に基づく時間的特徴の異なる種類の有効性を評価した。 資料と方法:2013年から2016年までの3年間の医療・薬局の請求データを医療保険会社から提供し、最初の2年間は3年目のコストを予測するためにモデルを構築した。 モデリングおよび予測のためのデータを作成するために、細粒度特徴(例えば、各時系列を連続したウィンドウのシーケンスに分割し、合計などの様々な統計で各ウィンドウを表す)の形で、コスト、訪問、医療情報の時系列データを抽出した。 次に,新しいスパイク検出機能(すなわち,データ点のゆらぎ)を用いて,時系列の時間パターンを抽出し,細粒化に付加した。 グラデーションブースティングは、抽出された特徴の最終セットに適用された。 さらに,各種類のデータ(コスト,訪問,医療など)の寄与を評価した。 結論: 医療費予測に微粒の時間パターンを利用すると、予測性能が大幅に向上する。 時間的コストと訪問パターンの抽出による微粒化機能の向上は性能を著しく向上させた。 しかし,医療的特徴は予測性能に有意な影響を与えなかった。 勾配ブースティングは、他の全ての予測モデルよりも優れていた。

Objective: To design and assess a method to leverage individuals' temporal data for predicting their healthcare cost. To achieve this goal, we first used patients' temporal data in their fine-grain form as opposed to coarse-grain form. Second, we devised novel spike detection features to extract temporal patterns that improve the performance of cost prediction. Third, we evaluated the effectiveness of different types of temporal features based on cost information, visit information and medical information for the prediction task. Materials and methods: We used three years of medical and pharmacy claims data from 2013 to 2016 from a healthcare insurer, where the first two years were used to build the model to predict the costs in the third year. To prepare the data for modeling and prediction, the time series data of cost, visit and medical information were extracted in the form of fine-grain features (i.e., segmenting each time series into a sequence of consecutive windows and representing each window by various statistics such as sum). Then, temporal patterns of the time series were extracted and added to fine-grain features using a novel set of spike detection features (i.e., the fluctuation of data points). Gradient Boosting was applied on the final set of extracted features. Moreover, the contribution of each type of data (i.e., cost, visit and medical) was assessed. Conclusions: Leveraging fine-grain temporal patterns for healthcare cost prediction significantly improves prediction performance. Enhancing fine-grain features with extraction of temporal cost and visit patterns significantly improved the performance. However, medical features did not have a significant effect on prediction performance. Gradient Boosting outperformed all other prediction models.
翻訳日:2022-10-18 12:52:57 公開日:2020-09-14
# 畳み込みニューラルネットワークを用いた多変量時系列データからの隠れパターンの学習:医療費予測の事例研究

Learning Hidden Patterns from Patient Multivariate Time Series Data Using Convolutional Neural Networks: A Case Study of Healthcare Cost Prediction ( http://arxiv.org/abs/2009.06783v1 )

ライセンス: Link先を確認
Mohammad Amin Morid, Olivia R. Liu Sheng, Kensaku Kawamoto, Samir Abdelrahman(参考訳) 目的: 畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて, 患者保険債権における多変量時系列データから隠れた時間パターンを自動的に学習し, 効果的かつスケーラブルな患者コスト予測手法を開発する。 方法:2013年から2016年までの3年間の医療・薬局の請求データを用いて、最初の2年間のデータを使って3年間のコスト予測モデルを構築した。 データは、患者の健康状態のイメージ(例えば、時間窓のある行列と、他の次元の医療、訪問、費用の特徴)として形成された、多変量時系列のコスト、訪問、医療の特徴で構成された。 患者の多変量時系列画像は,提案アーキテクチャを用いたcnn法に与えられた。 ハイパーパラメータチューニング後、提案アーキテクチャは、LRELUアクティベーション機能と各レイヤにカスタマイズされたカーネルサイズを備えた3つのコンボリューション層とプール層で構成された。 提案するcnn学習時相パターンは,完全連結層への入力となる。 結論: 提案したCNN構成による特徴学習は,個々の医療費予測を大幅に改善した。 提案したCNNは,様々な形状のパターンを抽出できるため,予め定義されたパターン形状の集合を求める時間的パターン検出手法よりも優れていた。 医療,訪問,費用データから得られた時間パターンは,予測性能に大きな貢献をした。 ハイパーパラメータチューニングでは,3ヶ月のデータパターンを考慮すると予測精度が最も高かった。 その結果,多変量時系列データから抽出した患者の画像は,通常の画像と異なり,CNNアーキテクチャのユニークな設計が必要であることがわかった。

Objective: To develop an effective and scalable individual-level patient cost prediction method by automatically learning hidden temporal patterns from multivariate time series data in patient insurance claims using a convolutional neural network (CNN) architecture. Methods: We used three years of medical and pharmacy claims data from 2013 to 2016 from a healthcare insurer, where data from the first two years were used to build the model to predict costs in the third year. The data consisted of the multivariate time series of cost, visit and medical features that were shaped as images of patients' health status (i.e., matrices with time windows on one dimension and the medical, visit and cost features on the other dimension). Patients' multivariate time series images were given to a CNN method with a proposed architecture. After hyper-parameter tuning, the proposed architecture consisted of three building blocks of convolution and pooling layers with an LReLU activation function and a customized kernel size at each layer for healthcare data. The proposed CNN learned temporal patterns became inputs to a fully connected layer. Conclusions: Feature learning through the proposed CNN configuration significantly improved individual-level healthcare cost prediction. The proposed CNN was able to outperform temporal pattern detection methods that look for a pre-defined set of pattern shapes, since it is capable of extracting a variable number of patterns with various shapes. Temporal patterns learned from medical, visit and cost data made significant contributions to the prediction performance. Hyper-parameter tuning showed that considering three-month data patterns has the highest prediction accuracy. Our results showed that patients' images extracted from multivariate time series data are different from regular images, and hence require unique designs of CNN architectures.
翻訳日:2022-10-18 12:52:26 公開日:2020-09-14
# 建物におけるエネルギー効率のためのデータ融合戦略:概観,課題,新しい方向性

Data fusion strategies for energy efficiency in buildings: Overview, challenges and novel orientations ( http://arxiv.org/abs/2009.06345v1 )

ライセンス: Link先を確認
Yassine Himeur, Abdullah Alsalemi, Ayman Al-Kababji, Faycal Bensaali, Abbes Amira(参考訳) 近年、様々な情報を処理できる建物におけるエネルギー効率のためのデータ融合戦略の開発に多大な関心が寄せられている。 しかし、効率的なエネルギー効率システムを設計するために適切なデータ融合戦略を適用するのは簡単ではない。 そこで本稿では,エネルギー研究コミュニティに対して,省エネシステム構築におけるデータ融合戦略,その原理,長所,潜在的応用についてより深く理解することを目的として,既存のデータ融合メカニズムを広範囲に調査し,過度の消費削減と持続可能性の促進に役立てることを提案する。 それらの概念化,利点,課題,欠点を調査し,既存のデータ融合戦略と他の寄与要因の分類を行った。 次に、データ融合レベル、データ融合技術、行動変化インフルエンサー、行動変化インセンティブ、記録データ、プラットフォームアーキテクチャ、IoTテクノロジ、アプリケーションシナリオなど、さまざまなパラメータを使用して、最先端のデータ融合ベースのエネルギー効率フレームワークの包括的な比較を行う。 また,1次元パワー信号を2次元空間に変換し,画像として扱う2次元局所テクスチャ記述器の融合により,新しい家電識別法を提案する。 3つの実際のデータセットで実施された実験的な評価は、99.68%の精度と99.52%のF1スコアが達成された有望なパフォーマンスを示している。 さらに、データ融合に基づくエネルギー効率エコシステムを改善するための様々なオープンリサーチの課題と今後の方向性について検討する。

Recently, tremendous interest has been devoted to develop data fusion strategies for energy efficiency in buildings, where various kinds of information can be processed. However, applying the appropriate data fusion strategy to design an efficient energy efficiency system is not straightforward; it requires a priori knowledge of existing fusion strategies, their applications and their properties. To this regard, seeking to provide the energy research community with a better understanding of data fusion strategies in building energy saving systems, their principles, advantages, and potential applications, this paper proposes an extensive survey of existing data fusion mechanisms deployed to reduce excessive consumption and promote sustainability. We investigate their conceptualizations, advantages, challenges and drawbacks, as well as performing a taxonomy of existing data fusion strategies and other contributing factors. Following, a comprehensive comparison of the state-of-the-art data fusion based energy efficiency frameworks is conducted using various parameters, including data fusion level, data fusion techniques, behavioral change influencer, behavioral change incentive, recorded data, platform architecture, IoT technology and application scenario. Moreover, a novel method for electrical appliance identification is proposed based on the fusion of 2D local texture descriptors, where 1D power signals are transformed into 2D space and treated as images. The empirical evaluation, conducted on three real datasets, shows promising performance, in which up to 99.68% accuracy and 99.52% F1 score have been attained. In addition, various open research challenges and future orientations to improve data fusion based energy efficiency ecosystems are explored.
翻訳日:2022-10-18 12:51:59 公開日:2020-09-14
# X)AIを信頼すべきか? 構造評価のための設計次元

Should We Trust (X)AI? Design Dimensions for Structured Experimental Evaluations ( http://arxiv.org/abs/2009.06433v1 )

ライセンス: Link先を確認
Fabian Sperrle, Mennatallah El-Assady, Grace Guo, Duen Horng Chau, Alex Endert, Daniel Keim(参考訳) 本稿では、説明可能な人工知能(XAI)のアプローチの構造評価のための設計次元を体系的に導出する。 これらの次元は記述的特徴付けを可能にし、異なる研究デザインの比較を容易にする。 彼らはさらにXAIの設計空間を構造化し、XAIの厳密な研究に必要な正確な用語に収束した。 本論文は,比較研究と応用論文を区別し,機械学習,人間-コンピュータインタラクション,視覚分析の方法論的差異を明らかにする。 一般的に、これらの規律はXAIプロセスの特定の部分をターゲットにしている。 得られたギャップを埋めることで,現実シナリオにおけるXAIの全体的評価が可能となり,バイアス源と信頼構築を特徴付ける概念モデルが提案する。 さらに,提案モデルの改良に繋がる観測された研究ギャップに基づいて,今後の研究の可能性を特定し,議論する。

This paper systematically derives design dimensions for the structured evaluation of explainable artificial intelligence (XAI) approaches. These dimensions enable a descriptive characterization, facilitating comparisons between different study designs. They further structure the design space of XAI, converging towards a precise terminology required for a rigorous study of XAI. Our literature review differentiates between comparative studies and application papers, revealing methodological differences between the fields of machine learning, human-computer interaction, and visual analytics. Generally, each of these disciplines targets specific parts of the XAI process. Bridging the resulting gaps enables a holistic evaluation of XAI in real-world scenarios, as proposed by our conceptual model characterizing bias sources and trust-building. Furthermore, we identify and discuss the potential for future work based on observed research gaps that should lead to better coverage of the proposed model.
翻訳日:2022-10-18 12:51:20 公開日:2020-09-14
# 平均因果効果推定のための十分次元削減

Sufficient Dimension Reduction for Average Causal Effect Estimation ( http://arxiv.org/abs/2009.06444v1 )

ライセンス: Link先を確認
Debo Cheng, Jiuyong Li, Lin Liu, Jixue Liu(参考訳) 多数の共変量を持つことは、共変量数がサンプルと比較して大きい場合、共変量調整が信頼できないため、因果効果推定の品質に悪影響を及ぼす可能性がある。 プロペンシティスコアは大きな共変量集合を扱う一般的な方法であるが、プロペンシティスコア推定の精度(通常ロジスティック回帰によって行われる)は多数の共変量にも挑戦される。 本稿では,大小共変量集合を,因果効果推定における調整のための完全な情報をキャプチャする低次元表現に還元できることを実証する。 理論的結果は、因果効果推定に有効なデータ駆動アルゴリズムを可能にする。 本研究では,教師付きカーネル次元低減法を用いて原共変数の低次元表現を探索し,その最小共変数空間における最近傍マッチングを活用し,反事実結果から大規模共変数集合問題を回避するアルゴリズムを開発した。 提案アルゴリズムは,2つの半合成および3つの実世界のデータセットを用いて評価し,提案アルゴリズムの有効性を実証した。

Having a large number of covariates can have a negative impact on the quality of causal effect estimation since confounding adjustment becomes unreliable when the number of covariates is large relative to the samples available. Propensity score is a common way to deal with a large covariate set, but the accuracy of propensity score estimation (normally done by logistic regression) is also challenged by large number of covariates. In this paper, we prove that a large covariate set can be reduced to a lower dimensional representation which captures the complete information for adjustment in causal effect estimation. The theoretical result enables effective data-driven algorithms for causal effect estimation. We develop an algorithm which employs a supervised kernel dimension reduction method to search for a lower dimensional representation for the original covariates, and then utilizes nearest neighbor matching in the reduced covariate space to impute the counterfactual outcomes to avoid large-sized covariate set problem. The proposed algorithm is evaluated on two semi-synthetic and three real-world datasets and the results have demonstrated the effectiveness of the algorithm.
翻訳日:2022-10-18 12:51:08 公開日:2020-09-14
# 単眼的3次元ポーズ推定のための弱い視点

Beyond Weak Perspective for Monocular 3D Human Pose Estimation ( http://arxiv.org/abs/2009.06549v1 )

ライセンス: Link先を確認
Imry Kissos, Lior Fritz, Matan Goldman, Omer Meir, Eduard Oks and Mark Kliger(参考訳) 我々は,スキンド・マルチパーソン・リニア(SMPL)モデルを用いた単眼映像からの3次元関節位置と方向予測の課題を考察した。 まず,市販のポーズ推定アルゴリズムを用いて2次元関節位置を推定する。 我々は、スピンアルゴリズムを用いて、深層回帰ニューラルネットワークから、ボディポーズ、形状、カメラパラメータの初期予測を推定する。 次に、初期パラメータを受信するSMPLifyアルゴリズムに準拠し、SMPLモデルから推定された3次元関節が2次元関節の位置に適合するように最適化する。 このアルゴリズムは、2次元画像平面への3次元関節の投影ステップを含む。 従来のアプローチでは、アドホック焦点長を用いた弱い視点仮定に従う。 3D Poses in the Wild (3DPW) データセットを用いた実験により, カメラ中心と焦点距離を近似したフル視点投影を用いて, 良好な結果が得られることを示した。 我々のアルゴリズムは3DPWチャレンジに勝利し、関節方向の精度で1位に到達した。

We consider the task of 3D joints location and orientation prediction from a monocular video with the skinned multi-person linear (SMPL) model. We first infer 2D joints locations with an off-the-shelf pose estimation algorithm. We use the SPIN algorithm and estimate initial predictions of body pose, shape and camera parameters from a deep regression neural network. We then adhere to the SMPLify algorithm which receives those initial parameters, and optimizes them so that inferred 3D joints from the SMPL model would fit the 2D joints locations. This algorithm involves a projection step of 3D joints to the 2D image plane. The conventional approach is to follow weak perspective assumptions which use ad-hoc focal length. Through experimentation on the 3D Poses in the Wild (3DPW) dataset, we show that using full perspective projection, with the correct camera center and an approximated focal length, provides favorable results. Our algorithm has resulted in a winning entry for the 3DPW Challenge, reaching first place in joints orientation accuracy.
翻訳日:2022-10-18 12:44:13 公開日:2020-09-14
# GIA-Net:低照度イメージングのためのグローバル情報認識ネットワーク

GIA-Net: Global Information Aware Network for Low-light Imaging ( http://arxiv.org/abs/2009.06604v1 )

ライセンス: Link先を確認
Zibo Meng, Runsheng Xu, Chiu Man Ho(参考訳) SNRの低い低照度条件下で知覚可視画像を取得することは極めて困難である。 最近では、U-Netは低照度撮像の有望な結果を示している。 しかし、バニラuネットは、グローバルカラー情報の欠如により、色不整合などのアーティファクトを持つ画像を生成する。 本稿では,グローバル情報をネットワークに抽出・統合し,低光度イメージングの性能を向上させるグローバル情報認識(gia)モジュールを提案する。 GIAモジュールは、学習可能な余分なパラメータや計算コストを無視できるバニラU-Netに挿入することができる。 さらに、GIA-Netを構築、訓練し、大規模な実世界の低光画像データセットで評価する。 実験の結果,提案したGIA-Netは,知覚的類似度を測定する深度指標を含む4つの指標で最先端の手法よりも優れていた。 グローバル情報を利用した低照度撮像におけるGIA-Netの有効性を検証するため,大規模なアブレーション研究が進められている。

It is extremely challenging to acquire perceptually plausible images under low-light conditions due to low SNR. Most recently, U-Nets have shown promising results for low-light imaging. However, vanilla U-Nets generate images with artifacts such as color inconsistency due to the lack of global color information. In this paper, we propose a global information aware (GIA) module, which is capable of extracting and integrating the global information into the network to improve the performance of low-light imaging. The GIA module can be inserted into a vanilla U-Net with negligible extra learnable parameters or computational cost. Moreover, a GIA-Net is constructed, trained and evaluated on a large scale real-world low-light imaging dataset. Experimental results show that the proposed GIA-Net outperforms the state-of-the-art methods in terms of four metrics, including deep metrics that measure perceptual similarities. Extensive ablation studies have been conducted to verify the effectiveness of the proposed GIA-Net for low-light imaging by utilizing global information.
翻訳日:2022-10-18 12:43:37 公開日:2020-09-14
# 視覚マッチングによる適応的テキスト認識

Adaptive Text Recognition through Visual Matching ( http://arxiv.org/abs/2009.06610v1 )

ライセンス: Link先を確認
Chuhan Zhang, Ankush Gupta, Andrew Zisserman(参考訳) 本研究の目的は文書におけるテキスト認識の一般化と柔軟性の問題に対処することである。 言語における文字の反復的性質を生かした新しいモデルを導入し,視覚表現学習と言語モデリングの段階を分離する。 これにより,テキスト認識を形状マッチング問題にし,クラスにおける外観と柔軟性の一般化を実現する。 さまざまなアルファベットにまたがる合成データと実データの両方で新しいモデルを評価し、従来のアーキテクチャが高価なリトレーニングなしでは解決できない課題に対処できることを示します。 (i)新しい見本のないフォントに一般化することができる。 (ii)単に提供された例を変更すれば、柔軟にクラス数を変更することができる。 (iii)新しいグリフセットを提供することで、訓練されていない新しい言語や新しい文字に一般化することができる。 これらすべてのケースで最先端モデルを大幅に改善しています。

In this work, our objective is to address the problems of generalization and flexibility for text recognition in documents. We introduce a new model that exploits the repetitive nature of characters in languages, and decouples the visual representation learning and linguistic modelling stages. By doing this, we turn text recognition into a shape matching problem, and thereby achieve generalization in appearance and flexibility in classes. We evaluate the new model on both synthetic and real datasets across different alphabets and show that it can handle challenges that traditional architectures are not able to solve without expensive retraining, including: (i) it can generalize to unseen fonts without new exemplars from them; (ii) it can flexibly change the number of classes, simply by changing the exemplars provided; and (iii) it can generalize to new languages and new characters that it has not been trained for by providing a new glyph set. We show significant improvements over state-of-the-art models for all these cases.
翻訳日:2022-10-18 12:43:21 公開日:2020-09-14
# WDRN : 画像リライトのためのウェーブレット分解型リライトネット

WDRN : A Wavelet Decomposed RelightNet for Image Relighting ( http://arxiv.org/abs/2009.06678v1 )

ライセンス: Link先を確認
Densen Puthussery, Hrishikesh P.S., Melvin Kuriakose and Jiji C.V(参考訳) 画像中の照明設定を目標設定に再調整するタスクは、relightingとして知られている。 リライト技術は、デジタル写真、ゲーム産業、および拡張現実に潜在的に応用できる。 本稿では,特定の照明条件の入力画像から目標照明設定時の画像が予測される1対1の照明問題に対処する。 そこで本研究では,ウェーブレットに基づく分解と畳み込み層を用いたwdrnと呼ばれる新しいエンコーダ・デコーダネットワークであるウェーブレット分解relightnetを提案する。 また,平面真理画像の異なる方向に沿って輝度の勾配を効率的に学習し,視覚的に優れたリライト画像を生成する,グレイロスと呼ばれる新しい損失関数を提案する。 提案手法は,SSIMとLearned Perceptual Image Patch similarityスコアを用いて測定した平均知覚スコアを用いて,その有効性を実証する,画像操作(AIM)2020ワークショップの先駆けとして,ライティングチャレンジイベントにおいて第1位を獲得した。

The task of recalibrating the illumination settings in an image to a target configuration is known as relighting. Relighting techniques have potential applications in digital photography, gaming industry and in augmented reality. In this paper, we address the one-to-one relighting problem where an image at a target illumination settings is predicted given an input image with specific illumination conditions. To this end, we propose a wavelet decomposed RelightNet called WDRN which is a novel encoder-decoder network employing wavelet based decomposition followed by convolution layers under a muti-resolution framework. We also propose a novel loss function called gray loss that ensures efficient learning of gradient in illumination along different directions of the ground truth image giving rise to visually superior relit images. The proposed solution won the first position in the relighting challenge event in advances in image manipulation (AIM) 2020 workshop which proves its effectiveness measured in terms of a Mean Perceptual Score which in turn is measured using SSIM and a Learned Perceptual Image Patch Similarity score.
翻訳日:2022-10-18 12:42:46 公開日:2020-09-14
# 車両のメーク/モデル分類のためのデータ拡張とクラスタリング

Data Augmentation and Clustering for Vehicle Make/Model Classification ( http://arxiv.org/abs/2009.06679v1 )

ライセンス: Link先を確認
Mohamed Nafzi, Michael Brauckmann, Tobias Glasmachers(参考訳) 車両形状情報は知的交通システム(ITS)において非常に重要である。 本稿では,異なる年内にリリースされ,異なる視点で撮影される車両のトレーニングデータセットを利用する方法を提案する。 また, クラスタリングによる製造・モデル分類の強化効果を示す。 どちらのステップも、分類結果の改善と堅牢性の向上につながった。 ResNetアーキテクチャに基づくより深い畳み込みニューラルネットワークは、車両製造/モデル分類のトレーニングのために設計されている。 トレーニングデータの不平等なクラス分布は、事前確率を生成する。 その除去は偏見の除去と、分類層におけるセントロイドの硬度正規化によって得られ、分類結果を改善する。 製作・モデルと色分類に基づいて手動で映像データ上で車体再識別をテストするためのアプリケーションを開発した。 この事業は一部が助成金によって賄われた。

Vehicle shape information is very important in Intelligent Traffic Systems (ITS). In this paper we present a way to exploit a training data set of vehicles released in different years and captured under different perspectives. Also the efficacy of clustering to enhance the make/model classification is presented. Both steps led to improved classification results and a greater robustness. Deeper convolutional neural network based on ResNet architecture has been designed for the training of the vehicle make/model classification. The unequal class distribution of training data produces an a priori probability. Its elimination, obtained by removing of the bias and through hard normalization of the centroids in the classification layer, improves the classification results. A developed application has been used to test the vehicle re-identification on video data manually based on make/model and color classification. This work was partially funded under the grant.
翻訳日:2022-10-18 12:42:30 公開日:2020-09-14
# SML:Few-shot Semantic Segmentationのためのセマンティックメタラーニング

SML: Semantic Meta-learning for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2009.06680v1 )

ライセンス: Link先を確認
Ayyappa Kumar Pambala, Titir Dutta, Soma Biswas(参考訳) 畳み込みニューラルネットワークのトレーニングに必要な大量のトレーニングデータが、セマンティックセグメンテーションのようなアプリケーションのボトルネックになっている。 アノテーション付きトレーニング画像がほとんどなく、低データ方式で優れたパフォーマンスを実現するために、いくつかのショットセマンティックセマンティックセマンティクスアルゴリズムがこの問題に対処する。 近年,利用可能なトレーニングデータから計算したクラスプロトタイプに基づくアプローチが大きな成功を収めている。 本研究では,クラスレベルの意味記述を生成プロトタイプに組み込んだ新しいメタ学習フレームワークSemantic Meta-Learning(SML)を提案する。 さらに,十分に確立された手法であるリッジ回帰法を用いて,クラスレベルの意味情報をもたらすだけでなく,トレーニングデータに存在する複数の画像から得られる情報を効果的に活用し,プロトタイプ計算を行う。 これは単純な閉形式解を持ち、簡単にかつ効率的に実装できる。 実験条件の異なるPASCAL-5iデータセットのベンチマーク実験により,提案手法の有効性が示された。

The significant amount of training data required for training Convolutional Neural Networks has become a bottleneck for applications like semantic segmentation. Few-shot semantic segmentation algorithms address this problem, with an aim to achieve good performance in the low-data regime, with few annotated training images. Recently, approaches based on class-prototypes computed from available training data have achieved immense success for this task. In this work, we propose a novel meta-learning framework, Semantic Meta-Learning (SML) which incorporates class level semantic descriptions in the generated prototypes for this problem. In addition, we propose to use the well established technique, ridge regression, to not only bring in the class-level semantic information, but also to effectively utilise the information available from multiple images present in the training data for prototype computation. This has a simple closed-form solution, and thus can be implemented easily and efficiently. Extensive experiments on the benchmark PASCAL-5i dataset under different experimental settings show the effectiveness of the proposed framework.
翻訳日:2022-10-18 12:42:18 公開日:2020-09-14
# 車両再識別の方法

Methods of the Vehicle Re-identification ( http://arxiv.org/abs/2009.06687v1 )

ライセンス: Link先を確認
Mohamed Nafzi, Michael Brauckmann, Tobias Glasmachers(参考訳) ほとんどの研究者は、分類に基づいて車両を再識別する。 これは常に、市場での新しい車種をアップデートする必要がある。 本稿では,2種類の車両の再識別について述べる。 第一に、検索車両の画像を必要とする標準手法である。 VRICとVabyIDデータセットは、このモジュールのトレーニングに適している。 分類のために設計された訓練されたネットワークを用いて、この手法の性能を改善する方法について詳しく説明する。 第2の方法は、年と色が同じメイク/モデルで検索車両の代表画像として入力される。 検索車両からのイメージが利用できない場合、非常に有用である。 形と色の特徴を出力として生成する。 これは、データベースにまたがるマッチングによって、検索車両に似た車両を再識別するために使用できる。 例えば、メルセデス・ベンツ(mercedes-benz)は、車両のモデル(model of a vehicle)は、そのメーカーのポートフォリオ内のモデルの種類(例:cクラス)を指し、年は、モデルが反復され、その製造者によって進歩的な変更やアップグレードを受けられるかもしれない。 このように、全ての4つの要素は車両を特異度を増す程度で記述する。 車両形状分類の目的は、これら4つの要素の組み合わせを分類することである。 色分類は別々に訓練されている。 車両の再識別の結果が示される。 開発したツールを用いて,映像および制御されたデータセット上での車両の再識別を行う。 この事業は一部が助成金によって賄われた。

Most of researchers use the vehicle re-identification based on classification. This always requires an update with the new vehicle models in the market. In this paper, two types of vehicle re-identification will be presented. First, the standard method, which needs an image from the search vehicle. VRIC and VehicleID data set are suitable for training this module. It will be explained in detail how to improve the performance of this method using a trained network, which is designed for the classification. The second method takes as input a representative image of the search vehicle with similar make/model, released year and colour. It is very useful when an image from the search vehicle is not available. It produces as output a shape and a colour features. This could be used by the matching across a database to re-identify vehicles, which look similar to the search vehicle. To get a robust module for the re-identification, a fine-grained classification has been trained, which its class consists of four elements: the make of a vehicle refers to the vehicle's manufacturer, e.g. Mercedes-Benz, the model of a vehicle refers to type of model within that manufacturer's portfolio, e.g. C Class, the year refers to the iteration of the model, which may receive progressive alterations and upgrades by its manufacturer and the perspective of the vehicle. Thus, all four elements describe the vehicle at increasing degree of specificity. The aim of the vehicle shape classification is to classify the combination of these four elements. The colour classification has been separately trained. The results of vehicle re-identification will be shown. Using a developed tool, the re-identification of vehicles on video images and on controlled data set will be demonstrated. This work was partially funded under the grant.
翻訳日:2022-10-18 12:42:02 公開日:2020-09-14
# 自然言語クラスタリング現象に対する2つのゆらぎ解析の比較:TaylorとEbeling & Neiman法

A Comparison of Two Fluctuation Analyses for Natural Language Clustering Phenomena: Taylor and Ebeling & Neiman Methods ( http://arxiv.org/abs/2009.06257v1 )

ライセンス: Link先を確認
Kumiko Tanaka-Ishii and Shuntaro Takahashi(参考訳) 本稿ではTaylorとEbeling & Neimanの揺らぎ解析手法について考察する。 どちらも統計力学領域の様々な現象に応用されているが、その類似性と相違は解明されていない。 分析的側面を考慮して,本論文ではこれらの手法を大規模にテキストに適用する。 いずれの手法も、実際のテキストを独立に、同一に分散した(d.d.)シーケンスと区別することができる。 さらに、単語から取得したテイラー指数は、テキストカテゴリーを大まかに区別できるが、これはエベリング指数やネイマン指数にも当てはまる。 さらに、どちらのメソッドもスクリプトの種類をキャプチャする可能性を示している。

This article considers the fluctuation analysis methods of Taylor and Ebeling & Neiman. While both have been applied to various phenomena in the statistical mechanics domain, their similarities and differences have not been clarified. After considering their analytical aspects, this article presents a large-scale application of these methods to text. It is found that both methods can distinguish real text from independently and identically distributed (i.i.d.) sequences. Furthermore, it is found that the Taylor exponents acquired from words can roughly distinguish text categories; this is also the case for Ebeling and Neiman exponents, but to a lesser extent. Additionally, both methods show some possibility of capturing script kinds.
翻訳日:2022-10-18 12:41:39 公開日:2020-09-14
# ビデオ超解法に関するAIM 2020の課題:方法と結果

AIM 2020 Challenge on Video Extreme Super-Resolution: Methods and Results ( http://arxiv.org/abs/2009.06290v1 )

ライセンス: Link先を確認
Dario Fuoli, Zhiwu Huang, Shuhang Gu, Radu Timofte, Arnau Raventos, Aryan Esfandiari, Salah Karout, Xuan Xu, Xin Li, Xin Xiong, Jinge Wang, Pablo Navarrete Michelini, Wenhao Zhang, Dongyang Zhang, Hanwei Zhu, Dan Xia, Haoyu Chen, Jinjin Gu, Zhi Zhang, Tongtong Zhao, Shanshan Zhao, Kazutoshi Akita, Norimichi Ukita, Hrishikesh P S, Densen Puthussery, and Jiji C V(参考訳) 本稿では,ECCV 2020におけるAIM 2020ワークショップに関連する超高解像度映像についてレビューする。 学習ビデオ超解像(VSR)の一般的なスケーリング要因は、第4因子を超えない。 この領域、特に高頻度コンテンツがテクスチャの詳細で構成されているHRビデオでは、欠落情報をよく復元することができる。 この課題の課題は、ビデオの構造的完全性に影響を及ぼすより深刻な劣化をもたらす16の極端な要素によるビデオのスケールアップである。 低解像度(LR)領域の1ピクセルは高解像度(HR)領域の256ピクセルに対応する。 この膨大な情報損失のため、行方不明の情報を正確に復元することは困難である。 トラック1は、PSNRとSSIMによって基底真理への忠実度を測定するような要求されたタスクの最先端度を測定するために設定される。 知覚上高い品質は、可塑性高周波コンテンツを生成することにより、忠実性のトレードオフによって達成できる。 トラック2は、人間の知覚に応じてランク付けされた視覚的に満足な結果を生成することを目的とする。 単一画像超解像(SISR)とは対照的に、VSRは時間領域における追加情報から恩恵を受けることができる。 しかし、生成されたフレームは時間とともに一貫性を持つ必要があるため、これは追加の要件も課す。

This paper reviews the video extreme super-resolution challenge associated with the AIM 2020 workshop at ECCV 2020. Common scaling factors for learned video super-resolution (VSR) do not go beyond factor 4. Missing information can be restored well in this region, especially in HR videos, where the high-frequency content mostly consists of texture details. The task in this challenge is to upscale videos with an extreme factor of 16, which results in more serious degradations that also affect the structural integrity of the videos. A single pixel in the low-resolution (LR) domain corresponds to 256 pixels in the high-resolution (HR) domain. Due to this massive information loss, it is hard to accurately restore the missing information. Track 1 is set up to gauge the state-of-the-art for such a demanding task, where fidelity to the ground truth is measured by PSNR and SSIM. Perceptually higher quality can be achieved in trade-off for fidelity by generating plausible high-frequency content. Track 2 therefore aims at generating visually pleasing results, which are ranked according to human perception, evaluated by a user study. In contrast to single image super-resolution (SISR), VSR can benefit from additional information in the temporal domain. However, this also imposes an additional requirement, as the generated frames need to be consistent along time.
翻訳日:2022-10-18 12:35:33 公開日:2020-09-14
# PRAFlow_RVC:ロバストビジョンチャレンジ2020における光フロー推定のためのピラミッドリカレント全対電場変換

PRAFlow_RVC: Pyramid Recurrent All-Pairs Field Transforms for Optical Flow Estimation in Robust Vision Challenge 2020 ( http://arxiv.org/abs/2009.06360v1 )

ライセンス: Link先を確認
Zhexiong Wan, Yuxin Mao, Yuchao Dai(参考訳) 光フロー推定は、2つのフレーム間の密接な対応を推定することを目的とした重要なコンピュータビジョンタスクである。 RAFT (Recurrent All Pairs Field Transforms) は現在、光フロー推定における最先端の手法である。 優れた一般化能力を有し、いくつかのベンチマークで優れた結果を得た。 さらにロバスト性の向上と正確な光フロー推定を実現するため,ピラミッドネットワーク構造上に構築されたPRAFlow(Pyramid Recurrent All-Pairs Flow)を提案する。 計算限界のため,提案するネットワーク構造は2つのピラミッド層のみを用いる。 各層において、RAFTユニットを使用して、現在の解像度での光学フローを推定する。 私たちのモデルは、シミュレーションおよび実画像データセットでトレーニングされ、同じモデルとパラメータを使用して複数のリーダボードに送信され、eccv 2020ワークショップのoptical flow task: robust vision challengeで2位を獲得しました。

Optical flow estimation is an important computer vision task, which aims at estimating the dense correspondences between two frames. RAFT (Recurrent All Pairs Field Transforms) currently represents the state-of-the-art in optical flow estimation. It has excellent generalization ability and has obtained outstanding results across several benchmarks. To further improve the robustness and achieve accurate optical flow estimation, we present PRAFlow (Pyramid Recurrent All-Pairs Flow), which builds upon the pyramid network structure. Due to computational limitation, our proposed network structure only uses two pyramid layers. At each layer, the RAFT unit is used to estimate the optical flow at the current resolution. Our model was trained on several simulate and real-image datasets, submitted to multiple leaderboards using the same model and parameters, and won the 2nd place in the optical flow task of ECCV 2020 workshop: Robust Vision Challenge.
翻訳日:2022-10-18 12:35:14 公開日:2020-09-14
# 分散マッチングによる完全自己監視群カウント

Completely Self-Supervised Crowd Counting via Distribution Matching ( http://arxiv.org/abs/2009.06420v1 )

ライセンス: Link先を確認
Deepak Babu Sam, Abhinav Agarwalla, Jimmy Joseph, Vishwanath A. Sindagi, R. Venkatesh Babu, Vishal M. Patel(参考訳) Dense crowd countingは、数百万のヘッドアノテーションをトレーニングモデルに要求する難しいタスクである。 既存の自己教師付きアプローチは良い表現を学ぶことができるが、これらの特徴を密度推定の終端タスクにマッピングするためにラベル付きデータを必要とする。 我々はこの問題を、単一のラベル付き画像さえ必要としない完全自己スーパービジョンのパラダイムで緩和する。 トレーニングに必要な入力は、ラベル付けされていない大量の群衆画像を除いて、与えられたデータセットの群衆数に近似した上限である。 提案手法は,自然群集が逆伝播の誤り信号を得るために利用可能な電力法分布に従うという考え方に富む。 密度回帰器は、まず自己超越で事前訓練され、それから2つの間のシンクホーン距離を最適化して予測の分布を予め一致させる。 実験の結果, 群集の特徴を効果的に学習し, 有意な計数性能が得られることがわかった。 さらに,より少ないデータ設定で,本手法の優位性を確立する。 このアプローチのコードとモデルは、https://github.com/val-iisc/css-ccnnで入手できる。

Dense crowd counting is a challenging task that demands millions of head annotations for training models. Though existing self-supervised approaches could learn good representations, they require some labeled data to map these features to the end task of density estimation. We mitigate this issue with the proposed paradigm of complete self-supervision, which does not need even a single labeled image. The only input required to train, apart from a large set of unlabeled crowd images, is the approximate upper limit of the crowd count for the given dataset. Our method dwells on the idea that natural crowds follow a power law distribution, which could be leveraged to yield error signals for backpropagation. A density regressor is first pretrained with self-supervision and then the distribution of predictions is matched to the prior by optimizing Sinkhorn distance between the two. Experiments show that this results in effective learning of crowd features and delivers significant counting performance. Furthermore, we establish the superiority of our method in less data setting as well. The code and models for our approach is available at https://github.com/val-iisc/css-ccnn.
翻訳日:2022-10-18 12:34:35 公開日:2020-09-14
# 不確実な特徴アライメントによる教師なしドメイン適応

Unsupervised Domain Adaptation by Uncertain Feature Alignment ( http://arxiv.org/abs/2009.06483v1 )

ライセンス: Link先を確認
Tobias Ringwald, Rainer Stiefelhagen(参考訳) 教師なしドメイン適応(unsupervised domain adaptation, uda)は、与えられたソースドメインからラベルなしのターゲットドメインへのモデル適応を扱う。 本稿では,モデル固有の予測の不確実性を利用して,ドメイン適応タスクを実現する。 この不確実性はモンテカルロのドロップアウトによって測定され、ユークリッド空間における特徴のアライメントのための不確かさに基づくフィルタと特徴アライメント(UFAL)関数と不確かさに基づくフィルタ(UBF)を組み合わせて提案した。 提案手法は,最近提案されたアーキテクチャを上回り,複数の難題データセットで最先端の結果を得る。 コードはプロジェクトのWebサイトで入手できる。

Unsupervised domain adaptation (UDA) deals with the adaptation of models from a given source domain with labeled data to an unlabeled target domain. In this paper, we utilize the inherent prediction uncertainty of a model to accomplish the domain adaptation task. The uncertainty is measured by Monte-Carlo dropout and used for our proposed Uncertainty-based Filtering and Feature Alignment (UFAL) that combines an Uncertain Feature Loss (UFL) function and an Uncertainty-Based Filtering (UBF) approach for alignment of features in Euclidean space. Our method surpasses recently proposed architectures and achieves state-of-the-art results on multiple challenging datasets. Code is available on the project website.
翻訳日:2022-10-18 12:33:59 公開日:2020-09-14
# ガウス化潜在空間を用いたスタイルGANのインバージョンと生成多様性の改善

Improving Inversion and Generation Diversity in StyleGAN using a Gaussianized Latent Space ( http://arxiv.org/abs/2009.06529v1 )

ライセンス: Link先を確認
Jonas Wulff and Antonio Torralba(参考訳) 現代の生成的敵ネットワークは、低次元の学習された潜在空間に住む潜在ベクターから人工的、フォトリアリスティックな画像を作成することができる。 生成装置が訓練された領域外の画像を含む、広い範囲の画像をこの空間に投影できることが示されている。 しかし、この場合、生成器は画像の画素やテクスチャを再現するが、再構成された潜在ベクトルは不安定であり、小さな摂動は重要な画像歪みをもたらす。 本研究では,潜在空間におけるデータ分布を明示的にモデル化することを提案する。 単純な非線形演算では、データ分布はガウス的であり、したがって十分な統計量を用いて表されることを示す。 これにより、画像の潜在空間への投影を正則化する単純なガウス前駆体が得られる。 結果として生じる投影は、実画像と生成画像の両方の補間性能を用いて示すように、潜在空間のより滑らかでよりよく振る舞う領域にある。 さらに, 潜時空間における分布のガウス的モデルにより, 発生源出力のアーティファクトの起源を調べることができ, 生成した画像の多様性を保ちながらこれらのアーティファクトを削減する方法を提供する。

Modern Generative Adversarial Networks are capable of creating artificial, photorealistic images from latent vectors living in a low-dimensional learned latent space. It has been shown that a wide range of images can be projected into this space, including images outside of the domain that the generator was trained on. However, while in this case the generator reproduces the pixels and textures of the images, the reconstructed latent vectors are unstable and small perturbations result in significant image distortions. In this work, we propose to explicitly model the data distribution in latent space. We show that, under a simple nonlinear operation, the data distribution can be modeled as Gaussian and therefore expressed using sufficient statistics. This yields a simple Gaussian prior, which we use to regularize the projection of images into the latent space. The resulting projections lie in smoother and better behaved regions of the latent space, as shown using interpolation performance for both real and generated images. Furthermore, the Gaussian model of the distribution in latent space allows us to investigate the origins of artifacts in the generator output, and provides a method for reducing these artifacts while maintaining diversity of the generated images.
翻訳日:2022-10-18 12:33:02 公開日:2020-09-14
# GINet:シーン解析のためのグラフインタラクションネットワーク

GINet: Graph Interaction Network for Scene Parsing ( http://arxiv.org/abs/2009.06160v1 )

ライセンス: Link先を確認
Tianyi Wu, Yu Lu, Yu Zhu, Chuang Zhang, Ming Wu, Zhanyu Ma, Guodong Guo(参考訳) 近年,局所畳み込み以外の画像領域を用いた文脈推論がシーン解析に大きな可能性を示している。 本研究では,画像領域上の文脈推論を促進するために,グラフインタラクションユニット(giユニット)と意味的文脈損失(sc-loss)を提案することにより,言語知識を組み込む方法について検討する。 GIユニットは、高レベルの意味論よりも畳み込みネットワークの特徴表現を高め、各サンプルに適応的にセマンティックコヒーレンシーを学習することができる。 具体的には、データセットベースの言語知識をまずgi単位に組み込んで、ビジュアルグラフ上のコンテキスト推論を促進し、その後、進化したビジュアルグラフの表現を各ローカル表現にマッピングし、シーン解析の識別能力を高める。 GIユニットはSC-lossによりさらに改善され、exemplar-based semantic graph上のセマンティック表現が強化される。 アプローチにおける各コンポーネントの有効性を示すための完全なアブレーション研究を行う。 特に、提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。

Recently, context reasoning using image regions beyond local convolution has shown great potential for scene parsing. In this work, we explore how to incorporate the linguistic knowledge to promote context reasoning over image regions by proposing a Graph Interaction unit (GI unit) and a Semantic Context Loss (SC-loss). The GI unit is capable of enhancing feature representations of convolution networks over high-level semantics and learning the semantic coherency adaptively to each sample. Specifically, the dataset-based linguistic knowledge is first incorporated in the GI unit to promote context reasoning over the visual graph, then the evolved representations of the visual graph are mapped to each local representation to enhance the discriminated capability for scene parsing. GI unit is further improved by the SC-loss to enhance the semantic representations over the exemplar-based semantic graph. We perform full ablation studies to demonstrate the effectiveness of each component in our approach. Particularly, the proposed GINet outperforms the state-of-the-art approaches on the popular benchmarks, including Pascal-Context and COCO Stuff.
翻訳日:2022-10-18 12:26:21 公開日:2020-09-14
# ストリーミングデータに基づく3次元物体検出と追跡

3D Object Detection and Tracking Based on Streaming Data ( http://arxiv.org/abs/2009.06169v1 )

ライセンス: Link先を確認
Xusen Guo, Jiangfeng Gu, Silu Guo, Zixiao Xu, Chengzhang Yang, Shanghua Liu, Long Cheng, Kai Huang(参考訳) 近年の3次元物体検出技術は深層学習の発展により大きな進歩を遂げている。 しかし、従来の研究は主に個々のフレームに基づいており、フレーム間の情報の活用は限られている。 本稿では,ストリーミングデータにおける時間情報を活用した3dストリーミングに基づく物体検出と追跡について検討する。 この目的に向けて,キーフレームに基づく3次元物体検出のための双方向ネットワークを構築し,時間情報に導かれた動きに基づく補間アルゴリズムを用いて非鍵フレームに予測を伝播する。 私たちのフレームワークは、フレーム毎のパラダイムに比べてオブジェクト検出に著しい改善があるだけでなく、kitti object tracking benchmarkで76.68%、motpで81.65%の競合結果が得られることが示されています。

Recent approaches for 3D object detection have made tremendous progresses due to the development of deep learning. However, previous researches are mostly based on individual frames, leading to limited exploitation of information between frames. In this paper, we attempt to leverage the temporal information in streaming data and explore 3D streaming based object detection as well as tracking. Toward this goal, we set up a dual-way network for 3D object detection based on keyframes, and then propagate predictions to non-key frames through a motion based interpolation algorithm guided by temporal information. Our framework is not only shown to have significant improvements on object detection compared with frame-by-frame paradigm, but also proven to produce competitive results on KITTI Object Tracking Benchmark, with 76.68% in MOTA and 81.65% in MOTP respectively.
翻訳日:2022-10-18 12:25:48 公開日:2020-09-14
# 自己監督型単眼深度推定のためのカスケードネットワーク

Cascade Network for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2009.06223v1 )

ライセンス: Link先を確認
Chunlai Chai, Yukuan Lou, Shijin Zhang(参考訳) 近年広く注目されている単眼カメラを用いて実景深度マップを得ることは、古典的な計算ビジョン問題である。 しかしながら、このモデルのトレーニングは通常、多数の人工ラベル付きサンプルを必要とする。 この問題を解決するために、一部の研究者は自己教師付き学習モデルを用いてこの問題を克服し、手動ラベル付きデータへの依存を減らす。 しかしながら、これらの手法の精度と信頼性は期待された基準に達していない。 本稿では,カスケードネットワークに基づく自己教師型学習手法を提案する。 従来の自己監督手法と比較して精度と信頼性が向上し,実験によりこれを証明した。 我々は、ターゲットシーンを異なる視線距離の部分に分割し、より深い地図を生成するために個別に訓練するカスケードニューラルネットワークを示す。 我々のアプローチは以下の4つのステップに分けられる。 最初のステップでは、自己監督モデルを用いてシーンの深さを大まかに推定する。 第2ステップでは、第1ステップで生成されたシーンの深さをラベルとして使用して、シーンを異なる深さ部分に分割する。 第3のステップは、異なるパラメータを持つモデルを使用して、ターゲットシーンの異なる深さ部分の深さマップを生成し、第4のステップは深さマップを融合する。 アブレーション実験により, 各コンポーネントの有効性を個別に検証し, KITTIベンチマークで高品質で最先端な結果を示した。

It is a classical compute vision problem to obtain real scene depth maps by using a monocular camera, which has been widely concerned in recent years. However, training this model usually requires a large number of artificially labeled samples. To solve this problem, some researchers use a self-supervised learning model to overcome this problem and reduce the dependence on manually labeled data. Nevertheless, the accuracy and reliability of these methods have not reached the expected standard. In this paper, we propose a new self-supervised learning method based on cascade networks. Compared with the previous self-supervised methods, our method has improved accuracy and reliability, and we have proved this by experiments. We show a cascaded neural network that divides the target scene into parts of different sight distances and trains them separately to generate a better depth map. Our approach is divided into the following four steps. In the first step, we use the self-supervised model to estimate the depth of the scene roughly. In the second step, the depth of the scene generated in the first step is used as a label to divide the scene into different depth parts. The third step is to use models with different parameters to generate depth maps of different depth parts in the target scene, and the fourth step is to fuse the depth map. Through the ablation study, we demonstrated the effectiveness of each component individually and showed high-quality, state-of-the-art results in the KITTI benchmark.
翻訳日:2022-10-18 12:24:41 公開日:2020-09-14
# 属性に関する事前知識:ゼロショット認識のためのより効果的なポテンシャル空間の学習

Prior Knowledge about Attributes: Learning a More Effective Potential Space for Zero-Shot Recognition ( http://arxiv.org/abs/2009.06226v1 )

ライセンス: Link先を確認
Chunlai Chai, Yukuan Lou, Shijin Zhang(参考訳) zero-shot learning (zsl) は既見のクラスや既知の属性を学習することで,未発見のクラスを正確に認識することを目的としている。 この問題を解決するために,グラフ畳み込みネットワークと属性相関を用いてより識別可能な空間を生成する属性相関ポテンシャル空間生成(ACPSG)モデルを構築した。 潜在的な識別空間とユーザ定義属性空間を組み合わせることで、見当たらないクラスを分類することができる。 提案手法は,従来のZSLであっても一般化ZSLであっても,いくつかのベンチマークデータセット上で既存の最先端手法よりも優れている。

Zero-shot learning (ZSL) aims to recognize unseen classes accurately by learning seen classes and known attributes, but correlations in attributes were ignored by previous study which lead to classification results confused. To solve this problem, we build an Attribute Correlation Potential Space Generation (ACPSG) model which uses a graph convolution network and attribute correlation to generate a more discriminating potential space. Combining potential discrimination space and user-defined attribute space, we can better classify unseen classes. Our approach outperforms some existing state-of-the-art methods on several benchmark datasets, whether it is conventional ZSL or generalized ZSL.
翻訳日:2022-10-18 12:24:19 公開日:2020-09-14
# 2020年ベラルーシ大統領選挙における全国レベルviber/street surveyの階層化による多段階回帰

Multilevel regression with poststratification for the national level Viber/Street poll on the 2020 presidential election in Belarus ( http://arxiv.org/abs/2009.06615v1 )

ライセンス: Link先を確認
Ales Zahorski(参考訳) 独立社会学調査はベラルーシで禁止されている。 健全な科学的厳密さのないオンライン世論調査は、代表的な結果を得られない。 しかし、ベラルーシ内外ともに、全ての候補者の正確な評価を得ることが非常に重要である。 これらの評価は選挙結果の信頼できるプロキシとして機能する可能性がある。 我々は、ビベルとベラルーシの街路で収集されたデータの組み合わせに基づいて、独立した世論調査を行う。 viberとstreet dataのサンプルは、それぞれ45000と150のユニークな観測結果で構成されている。 ポストストラトフィケーションによるベイズ回帰は、候補者のレーティングと、人口全体および様々な焦点サブグループにおける早期投票の投票率を推定するために構築された。 公に発表された選挙結果と早期投票率の両方が、非常にあり得ないことを示している。 少なくとも95%の確率で、sviatlana tikhanouskayaの格付けは75%から80%であり、alariaksandr lukashenkaの格付けは13%から18%であり、この方法によって予測された早期投票率は9%から13%である。 これらの結果は、それぞれ10.12%、80.11%、49.54%の公式に発表された結果と矛盾し、このモデルによって予測される99.9%の信頼できる間隔でさえも遠くにある。 ルカシェンカの格付けの99.9%の信頼区間の上限が50%を超えるのは60歳以上の人々と教育を受けていない人々のみである。 農村住民を含む他の全ての辺境のサブグループでは、ルカシェンカの99.9%の信頼区間でさえ50%以下である。 同じことが人口全体にも当てはまります。 したがって、少なくとも99.9%のルカシェンカは、2020年のベラルーシ大統領選挙に勝つのに十分な選挙支持を得ることができなかった。

Independent sociological polls are forbidden in Belarus. Online polls performed without sound scientific rigour do not yield representative results. Yet, both inside and outside Belarus it is of great importance to obtain precise estimates of the ratings of all candidates. These ratings could function as reliable proxies for the election's outcomes. We conduct an independent poll based on the combination of the data collected via Viber and on the streets of Belarus. The Viber and the street data samples consist of almost 45000 and 1150 unique observations respectively. Bayesian regressions with poststratification were build to estimate ratings of the candidates and rates of early voting turnout for the population as a whole and within various focus subgroups. We show that both the officially announced results of the election and early voting rates are highly improbable. With a probability of at least 95%, Sviatlana Tikhanouskaya's rating lies between 75% and 80%, whereas Aliaksandr Lukashenka's rating lies between 13% and 18% and early voting rate predicted by the method ranges from 9% to 13% of those who took part in the election. These results contradict the officially announced outcomes, which are 10.12%, 80.11%, and 49.54% respectively and lie far outside even the 99.9% credible intervals predicted by our model. The only marginal groups of people where the upper bounds of the 99.9% credible intervals of the rating of Lukashenka are above 50% are people older than 60 and uneducated people. For all other marginal subgroups, including rural residents, even the upper bounds of 99.9% credible intervals for Lukashenka are far below 50%. The same is true for the population as a whole. Thus, with a probability of at least 99.9% Lukashenka could not have had enough electoral support to win the 2020 presidential election in Belarus.
翻訳日:2022-10-18 12:18:01 公開日:2020-09-14
# 検索対話のための自己監督タスクを用いた効果的な文脈応答マッチングモデル学習

Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues ( http://arxiv.org/abs/2009.06265v1 )

ライセンス: Link先を確認
Ruijian Xu, Chongyang Tao, Daxin Jiang, Xueliang Zhao, Dongyan Zhao, Rui Yan(参考訳) マルチターンのコンテキストに応じて適切な応答を選択できるインテリジェントな対話システムを構築することは、非常に難しい課題です。 既存の研究では、さまざまなニューラルネットワークやplmとコンテキスト応答マッチングモデルを構築し、通常、単一の応答予測タスクで学習する。 これらのアプローチでは、対話データに含まれる可能性のある多くのトレーニング信号を無視する。 さらに,従来の対話システムから抽出した応答は,一貫性の欠如や一貫性の欠如など,いくつかの重要な課題に直面している。 本稿では,事前学習された言語モデルに基づく対話データに対して,補助的な自己教師ありタスクを用いた文脈応答マッチングモデルの学習を提案する。 具体的には,次のセッション予測,発話の復元,不整合検出と一貫性判定を含む4つの自己教師型タスクを導入し,これらのタスクをマルチタスクで学習する。 つまり、補助的なタスクはマッチングモデルの学習を誘導し、より良い局所的な最適性を達成し、より適切な応答を選択することができる。 2つのベンチマークによる実験結果から,提案した自己教師型タスクは,検索ベース対話における多ターン応答選択に大きな改善をもたらすことが示唆された。

Building an intelligent dialogue system with the ability to select a proper response according to a multi-turn context is a great challenging task. Existing studies focus on building a context-response matching model with various neural architectures or PLMs and typically learning with a single response prediction task. These approaches overlook many potential training signals contained in dialogue data, which might be beneficial for context understanding and produce better features for response prediction. Besides, the response retrieved from existing dialogue systems supervised by the conventional way still faces some critical challenges, including incoherence and inconsistency. To address these issues, in this paper, we propose learning a context-response matching model with auxiliary self-supervised tasks designed for the dialogue data based on pre-trained language models. Specifically, we introduce four self-supervised tasks including next session prediction, utterance restoration, incoherence detection and consistency discrimination, and jointly train the PLM-based response selection model with these auxiliary tasks in a multi-task manner. By this means, the auxiliary tasks can guide the learning of the matching model to achieve a better local optimum and select a more proper response. Experiment results on two benchmarks indicate that the proposed auxiliary self-supervised tasks bring significant improvement for multi-turn response selection in retrieval-based dialogues, and our model achieves new state-of-the-art results on both datasets.
翻訳日:2022-10-18 12:16:48 公開日:2020-09-14
# Bhojpuri, Maithili, Magahiの3つの低資源言語のためのデータセットとディープラーニングベースラインを用いたエンティティ認識器の開発

Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi ( http://arxiv.org/abs/2009.06451v1 )

ライセンス: Link先を確認
Rajesh Kumar Mundotiya, Shantanu Kumar, Ajeet kumar, Umesh Chandra Chaudhary, Supriya Chauhan, Swasti Mishra, Praveen Gatla, Anil Kumar Singh(参考訳) 自然言語処理(NLP)パイプラインにおいて、名前付きエンティティ認識(NER)は、適切な名詞と、ロケーション、パーソナリティ、組織、病気などの他の名前付きエンティティを示す予備的な問題の1つである。 NERモジュールを持たないそのようなエンティティは、機械翻訳システムの性能に悪影響を及ぼす。 NERはこれらのエンティティを別々に認識し処理することでこの問題を克服するのに役立つが、情報抽出システムでも有用である。 Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。 本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。 bhojpuri,maithili,magahi corporaのそれぞれサイズ228373,157468,58190のトークンを22のエンティティラベルでアノテートした。 このアノテーションは、Hindi NERデータセットの1つで使用されるタグセットに続く粗い粒度のアノテーションラベルを考慮している。 また,LSTM-CNNs-CRFモデルを用いたディープラーニングベースラインについても報告する。 Conditional Random Fields モデルを用いて得られた NER ツールの低いベースライン F1 スコアは Bhojpuri の 96.73 、Maithili の 93.33 、Magahi の 95.04 である。 Deep Learning-based Technique (LSTM-CNNs-CRF)はBhojpuriで96.25、Maithiliで93.33、Magahiで95.44を達成した。

In Natural Language Processing (NLP) pipelines, Named Entity Recognition (NER) is one of the preliminary problems, which marks proper nouns and other named entities such as Location, Person, Organization, Disease etc. Such entities, without a NER module, adversely affect the performance of a machine translation system. NER helps in overcoming this problem by recognising and handling such entities separately, although it can be useful in Information Extraction systems also. Bhojpuri, Maithili and Magahi are low resource languages, usually known as Purvanchal languages. This paper focuses on the development of a NER benchmark dataset for the Machine Translation systems developed to translate from these languages to Hindi by annotating parts of their available corpora. Bhojpuri, Maithili and Magahi corpora of sizes 228373, 157468 and 56190 tokens, respectively, were annotated using 22 entity labels. The annotation considers coarse-grained annotation labels followed by the tagset used in one of the Hindi NER datasets. We also report a Deep Learning based baseline that uses an LSTM-CNNs-CRF model. The lower baseline F1-scores from the NER tool obtained by using Conditional Random Fields models are 96.73 for Bhojpuri, 93.33 for Maithili and 95.04 for Magahi. The Deep Learning-based technique (LSTM-CNNs-CRF) achieved 96.25 for Bhojpuri, 93.33 for Maithili and 95.44 for Magahi.
翻訳日:2022-10-18 12:16:23 公開日:2020-09-14
# 多層パーセプトロンのためのAutoMLとFPGA共設計

AutoML for Multilayer Perceptron and FPGA Co-design ( http://arxiv.org/abs/2009.06156v1 )

ライセンス: Link先を確認
Philip Colangelo, Oren Segal, Alex Speicher, Martin Margala(参考訳) 最先端のニューラルネットワークアーキテクチャ(NNAs)は、ハードウェアで効率的な設計と実装が難しい。 この数年間で、自動ニューラルネットワーク検索(nas)ツールの研究と開発が爆発的に増加した。 AutomMLツールは現在、NNA設計の最先端を実現し、ハードウェアの使用と設計の最適化を試みるために使用されている。 NNAの自動設計における最近の研究の多くは、畳み込みネットワークと画像認識に焦点を当てており、データセンターのワークロードのかなりの部分は汎用的なディープニューラルネットワークであるという事実を無視している。 本研究では、任意のデータセットを入力として取り出し、最適化されたNNAとハードウェア設計を自動的に生成できる汎用多層パーセプトロン(MLP)フローの開発と試験を行う。 6つのベンチマークでフローをテストします。 その結果,現在公表されているMLPの精度よりも優れており,非MLPに基づく結果と競合することがわかった。 汎用的および一般的なGPUアーキテクチャとスケーラブルなFPGA設計を比較し、ほとんどのデータセットに対して高い効率と高いスループット(毎秒出力)を達成することができることを示す。 正確なネットワークと高性能ハードウェアの両方の設計空間に関するさらなる洞察は、スループットとスループット、ネットワークサイズと精度、高性能デバイスへのスケーリングを関連づけることで、コデザインのパワーを示す。

State-of-the-art Neural Network Architectures (NNAs) are challenging to design and implement efficiently in hardware. In the past couple of years, this has led to an explosion in research and development of automatic Neural Architecture Search (NAS) tools. AutomML tools are now used to achieve state of the art NNA designs and attempt to optimize for hardware usage and design. Much of the recent research in the auto-design of NNAs has focused on convolution networks and image recognition, ignoring the fact that a significant part of the workload in data centers is general-purpose deep neural networks. In this work, we develop and test a general multilayer perceptron (MLP) flow that can take arbitrary datasets as input and automatically produce optimized NNAs and hardware designs. We test the flow on six benchmarks. Our results show we exceed the performance of currently published MLP accuracy results and are competitive with non-MLP based results. We compare general and common GPU architectures with our scalable FPGA design and show we can achieve higher efficiency and higher throughput (outputs per second) for the majority of datasets. Further insights into the design space for both accurate networks and high performing hardware shows the power of co-design by correlating accuracy versus throughput, network size versus accuracy, and scaling to high-performance devices.
翻訳日:2022-10-18 12:15:51 公開日:2020-09-14
# 知能エージェントのゴール選択説明のための議論に基づくアプローチ

An Argumentation-based Approach for Explaining Goal Selection in Intelligent Agents ( http://arxiv.org/abs/2009.06131v1 )

ライセンス: Link先を確認
Mariela Morveli-Espinoza, Cesar Augusto Tacla, and Henrique Jasinski(参考訳) 実践的推論の第1段階、すなわち熟考または目標選択において、知的エージェントは、与えられた目標のセットを生成し、そのどれを達成するかを選択する。 知的エージェントを含む説明可能な人工知能(XAI)システムは、内部決定を説明できなければならない。 目標選択の文脈では、エージェントは特定の目標を選択(あるいは選択しない)することにつながる推論パスを説明できるべきである。 本稿では,その推論経路に関する説明を生成するために,議論に基づくアプローチを用いる。 また,選択過程における紛争の発生と,その解決方法についての説明を充実させることも目指している。 本稿では, 部分的説明と完全説明という2種類の説明法と, 擬似自然説明を生成するための説明法を提案する。 最後に,我々の提案をよりクリーンな世界シナリオに適用する。

During the first step of practical reasoning, i.e. deliberation or goals selection, an intelligent agent generates a set of pursuable goals and then selects which of them he commits to achieve. Explainable Artificial Intelligence (XAI) systems, including intelligent agents, must be able to explain their internal decisions. In the context of goals selection, agents should be able to explain the reasoning path that leads them to select (or not) a certain goal. In this article, we use an argumentation-based approach for generating explanations about that reasoning path. Besides, we aim to enrich the explanations with information about emerging conflicts during the selection process and how such conflicts were resolved. We propose two types of explanations: the partial one and the complete one and a set of explanatory schemes to generate pseudo-natural explanations. Finally, we apply our proposal to the cleaner world scenario.
翻訳日:2022-10-18 12:15:30 公開日:2020-09-14
# 2モデルニューラルネットワークによる勾配型トポロジー最適化設計

Accelerating gradient-based topology optimization design with dual-model neural networks ( http://arxiv.org/abs/2009.06245v1 )

ライセンス: Link先を確認
Chao Qian, Wenjing Ye(参考訳) トポロジー最適化(to)は自由形式設計においてよく用いられる手法である。 しかし,従来のto-based設計手法では,有限要素解析(fea)などの高次元シミュレーションを用いて繰り返し計算や感度解析を行う必要があるため,計算コストが高くなる。 本研究では、トポロジー最適化の設計プロセスを大幅に加速するために、ニューラルネットワークを前方および感度計算のための効率的なサロゲートモデルとして用いる。 感度解析の精度を向上させるために、前方および感度データの両方でトレーニングされたデュアルモデルニューラルネットワークを構築し、FEAを置き換えるためのSolid Isotropic Material with Penalization(SIMP)メソッドに統合する。 最低コンプライアンス設計とメタマテリアル設計という2つのベンチマーク設計問題に対して,高速化SIMP法の性能を示す。 64x64の大きさの問題で得られる効率は、前方計算で137倍、感度解析で74倍である。 さらに,TO設計に適した効率的なデータ生成手法を検討・開発し,トレーニング時間の大幅な削減につながった。 どちらのベンチマーク設計問題においても、約2000のトレーニングデータで95%の設計精度を達成できる。

Topology optimization (TO) is a common technique used in free-form designs. However, conventional TO-based design approaches suffer from high computational cost due to the need for repetitive forward calculations and/or sensitivity analysis, which are typically done using high-dimensional simulations such as Finite Element Analysis (FEA). In this work, neural networks are used as efficient surrogate models for forward and sensitivity calculations in order to greatly accelerate the design process of topology optimization. To improve the accuracy of sensitivity analyses, dual-model neural networks that are trained with both forward and sensitivity data are constructed and are integrated into the Solid Isotropic Material with Penalization (SIMP) method to replace FEA. The performance of the accelerated SIMP method is demonstrated on two benchmark design problems namely minimum compliance design and metamaterial design. The efficiency gained in the problem with size of 64x64 is 137 times in forward calculation and 74 times in sensitivity analysis. In addition, effective data generation methods suitable for TO designs are investigated and developed, which lead to a great saving in training time. In both benchmark design problems, a design accuracy of 95% can be achieved with only around 2000 training data.
翻訳日:2022-10-18 12:15:16 公開日:2020-09-14
# 未知ではなくアクティブフェアネス

Active Fairness Instead of Unawareness ( http://arxiv.org/abs/2009.06251v1 )

ライセンス: Link先を確認
Boris Ruf and Marcin Detyniecki(参考訳) AIシステムがデータの再生と強制によって差別を促進するリスクは、研究や社会で広く議論されている。 多くの現行の法定基準では、データから機密属性を取り除き、「無意識による公正さ」を達成するよう要求している。 高い相関属性を持つ大きなデータセットが一般的であるビッグデータの時代において、このアプローチは時代遅れである、と我々は主張する。 対照的に,あらゆる種類の識別を観察し,制御することを目的として,敏感な属性を積極的に使用することを提案し,公平な結果をもたらす。

The possible risk that AI systems could promote discrimination by reproducing and enforcing unwanted bias in data has been broadly discussed in research and society. Many current legal standards demand to remove sensitive attributes from data in order to achieve "fairness through unawareness". We argue that this approach is obsolete in the era of big data where large datasets with highly correlated attributes are common. In the contrary, we propose the active use of sensitive attributes with the purpose of observing and controlling any kind of discrimination, and thus leading to fair results.
翻訳日:2022-10-18 12:14:58 公開日:2020-09-14
# フランスにおけるcovid-19ロックダウン時の短期電力負荷予測のための適応的手法

Adaptive Methods for Short-Term Electricity Load Forecasting During COVID-19 Lockdown in France ( http://arxiv.org/abs/2009.06527v1 )

ライセンス: Link先を確認
David Obst, Joseph de Vilmarest, Yannig Goude(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界中の多くの政府に対し、すべての必須でないビジネスが閉鎖され、市民が自宅に留まるよう命令される厳格な封鎖を強制するよう促している。 この政策の結果の1つは、電力消費パターンの大幅な変化である。 負荷予測モデルは、暦や気象情報に依存し、歴史的データに基づいて訓練されているため、ロックダウンによる重大な故障を捉えず、パンデミックの開始以来、パフォーマンスが劣っている。 これにより、電力生産のスケジューリングが難しくなり、電力生産者とグリッド事業者の両方にとって高いコストがかかる。 本稿では,カルマンフィルタとファインチューニングを用いた適応型一般化加算モデルを導入し,新しい電力消費パターンに適応する。 さらに、イタリアのロックダウンに関する知識は、フランスの行動の変化を予想するために移管される。 提案手法は,フランスのロックダウン期間中の電力需要予測に応用され,従来のモデルと比較して予測誤差を著しく低減できることを示した。 最後に、エキスパートアグリゲーションは、各予測の特異性を活用し、さらに結果を高めるために使用される。

The coronavirus disease 2019 (COVID-19) pandemic has urged many governments in the world to enforce a strict lockdown where all nonessential businesses are closed and citizens are ordered to stay at home. One of the consequences of this policy is a significant change in electricity consumption patterns. Since load forecasting models rely on calendar or meteorological information and are trained on historical data, they fail to capture the significant break caused by the lockdown and have exhibited poor performances since the beginning of the pandemic. This makes the scheduling of the electricity production challenging, and has a high cost for both electricity producers and grid operators. In this paper we introduce adaptive generalized additive models using Kalman filters and fine-tuning to adjust to new electricity consumption patterns. Additionally, knowledge from the lockdown in Italy is transferred to anticipate the change of behavior in France. The proposed methods are applied to forecast the electricity demand during the French lockdown period, where they demonstrate their ability to significantly reduce prediction errors compared to traditional models. Finally expert aggregation is used to leverage the specificities of each predictions and enhance results even further.
翻訳日:2022-10-18 12:08:52 公開日:2020-09-14
# 積分フィードバックを用いた分散ミラーダイス:連続時間ダイナミクスの漸近収束解析

Distributed Mirror Descent with Integral Feedback: Asymptotic Convergence Analysis of Continuous-time Dynamics ( http://arxiv.org/abs/2009.06747v1 )

ライセンス: Link先を確認
Youbang Sun, Shahin Shahrampour(参考訳) この作業は分散最適化に対処し、エージェントのネットワークは、大域的な凸目標関数を最小化しようとする。 大域関数は局所凸関数の和として記述することができ、それぞれがエージェントと関連付けられている。 純粋に局所的な情報を用いて大域的最適に収束する連続時間分散ミラー降下アルゴリズムを提案する。 従来の分散ミラー降下法とは異なり、この更新には積分フィードバックが組み込まれており、離散化されるとアルゴリズムは一定のステップサイズに収束する。 我々はリアプノフ安定性解析を用いてアルゴリズムの漸近収束を確立する。 さらに、分散ミラー降下の収束率を改善するために積分フィードバックを採用する利点を検証する数値実験について述べる。

This work addresses distributed optimization, where a network of agents wants to minimize a global strongly convex objective function. The global function can be written as a sum of local convex functions, each of which is associated with an agent. We propose a continuous-time distributed mirror descent algorithm that uses purely local information to converge to the global optimum. Unlike previous work on distributed mirror descent, we incorporate an integral feedback in the update, allowing the algorithm to converge with a constant step-size when discretized. We establish the asymptotic convergence of the algorithm using Lyapunov stability analysis. We further illustrate numerical experiments that verify the advantage of adopting integral feedback for improving the convergence rate of distributed mirror descent.
翻訳日:2022-10-18 12:08:34 公開日:2020-09-14
# privGANアーキテクチャによる分散型ユーザ間のプライベートデータ共有

Private data sharing between decentralized users through the privGAN architecture ( http://arxiv.org/abs/2009.06764v1 )

ライセンス: Link先を確認
Jean-Francois Rajotte, Raymond T Ng(参考訳) 分析や機械学習のタスクには、より多くのデータが常に役立ちます。 しかし、多くの現実的な状況において、企業は競争上の優位性を維持するか、例えば企業のクライアントであるデータソースのプライバシを保護するためにデータを共有できない。 本研究では,データに直接アクセスするモデルのパラメータや実際のデータを共有することなく,データ所有者がデータの合成版や偽版を共有する方法を提案する。 提案手法は,各データサブセットに局所的なGANをトレーニングするPrivGANアーキテクチャに基づいて,所定の偽検体の起源を識別することを目的とした中心判別器から余分なペナルティを課す。 このアプローチが、さまざまなサイズのサブセットに適用された場合、実際の小さなデータセットのユーティリティよりも、所有者の利便性が向上することを示す。 共有された情報は、中央判別器のパラメータ更新のみである。 プライバシはアーキテクチャの最も脆弱な要素に対するホワイトボックス攻撃で実証され、その結果はランダムな推測に近い。 この方法は、連合学習環境で自然に適用される。

More data is almost always beneficial for analysis and machine learning tasks. In many realistic situations however, an enterprise cannot share its data, either to keep a competitive advantage or to protect the privacy of the data sources, the enterprise's clients for example. We propose a method for data owners to share synthetic or fake versions of their data without sharing the actual data, nor the parameters of models that have direct access to the data. The method proposed is based on the privGAN architecture where local GANs are trained on their respective data subsets with an extra penalty from a central discriminator aiming to discriminate the origin of a given fake sample. We demonstrate that this approach, when applied to subsets of various sizes, leads to better utility for the owners than the utility from their real small datasets. The only shared pieces of information are the parameter updates of the central discriminator. The privacy is demonstrated with white-box attacks on the most vulnerable elments of the architecture and the results are close to random guessing. This method would apply naturally in a federated learning setting.
翻訳日:2022-10-18 12:08:22 公開日:2020-09-14
# 回転不変物体認識のための多感覚学習アーキテクチャ

A Multisensory Learning Architecture for Rotation-invariant Object Recognition ( http://arxiv.org/abs/2009.06292v1 )

ライセンス: Link先を確認
Murat Kirtay and Guido Schillaci and Verena V. Hafner(参考訳) 本研究では,3台のカメラと深度センサを備えたiCubロボットを用いて構築した新しいデータセットを用いて,物体認識のための多感覚機械学習アーキテクチャを提案する。 提案アーキテクチャは畳み込みニューラルネットワークとグレースケールカラー画像の表現(つまり特徴)と深度データを処理する多層パーセプトロンアルゴリズムを組み合わせたものである。 この目的のために,異なるモダリティ(色や深さなど)の合同表現を学習し,物体認識に活用することを目的とした。 我々は,異なるセンサの入力と最新のデータ融合技術,すなわち意思決定レベル融合を別々にトレーニングしたモデルを用いて,提案アーキテクチャの性能をベンチマークすることで評価した。 その結果,本アーキテクチャは,単一モードおよび決定レベルのマルチモーダル融合法からの入力を用いたモデルと比較して,認識精度の向上を図っている。

This study presents a multisensory machine learning architecture for object recognition by employing a novel dataset that was constructed with the iCub robot, which is equipped with three cameras and a depth sensor. The proposed architecture combines convolutional neural networks to form representations (i.e., features) for grayscaled color images and a multi-layer perceptron algorithm to process depth data. To this end, we aimed to learn joint representations of different modalities (e.g., color and depth) and employ them for recognizing objects. We evaluate the performance of the proposed architecture by benchmarking the results obtained with the models trained separately with the input of different sensors and a state-of-the-art data fusion technique, namely decision level fusion. The results show that our architecture improves the recognition accuracy compared with the models that use inputs from a single modality and decision level multimodal fusion method.
翻訳日:2022-10-18 12:08:04 公開日:2020-09-14
# 年次輝度シミュレーションのためのディープニューラルネットワークアプローチ

Deep Neural Network Approach for Annual Luminance Simulations ( http://arxiv.org/abs/2009.09928v1 )

ライセンス: Link先を確認
Yue Liu, Alex Colburn, Mehlika Inanici(参考訳) 年次輝度マップは、居住者の視覚的快適さ、嗜好、知覚に有意義な評価を与える。 しかし、長期輝度マップの取得には、労働集約的かつ時間のかかるシミュレーションや、不可能で長期間のフィールド計測が必要となる。 本稿では,年次輝度に基づく評価をより効率的かつアクセスしやすいデータ駆動型機械学習手法を提案する。 この手法は、ディープニューラルネットワーク(dnn)を利用して、限られた数の高ダイナミックレンジ画像から年間輝度マップを予測することに基づいている。 パノラマビューは、複数のビュー方向を研究するために後処理できるため、利用される。 提案したDNNモデルは,30分以内の3つのオプションのうちの1つから,高品質なパノラマ輝度マップを忠実に予測することができる。 a) 夜間に均等に分布する場合において、その年の5%にまたがる点の輝度画像 b) 同日(年の8%)の日中の間に連続して生成又は収集された1ヶ月の時間的画像 c) 春分,夏期,冬至(年間2.5%)周辺で収集された1時間あたりのデータ(年間2.5%)は,年内の輝度マップの予測に十分である。 DNNは、一連の量的および定性的指標を用いて、高品質なパノラマをRPICTレンダリングに対して検証すると予想した。 最も効率的な予測は、春分、夏、冬至の9日間の1時間あたりのデータ収集によって達成される。 提案したDNNワークフローを用いて,複数方向の長期輝度に基づくメトリクスを設計・研究プロセスに効率的に組み込むことができることを示す。

Annual luminance maps provide meaningful evaluations for occupants' visual comfort, preferences, and perception. However, acquiring long-term luminance maps require labor-intensive and time-consuming simulations or impracticable long-term field measurements. This paper presents a novel data-driven machine learning approach that makes annual luminance-based evaluations more efficient and accessible. The methodology is based on predicting the annual luminance maps from a limited number of point-in-time high dynamic range imagery by utilizing a deep neural network (DNN). Panoramic views are utilized, as they can be post-processed to study multiple view directions. The proposed DNN model can faithfully predict high-quality annual panoramic luminance maps from one of the three options within 30 minutes training time: a) point-in-time luminance imagery spanning 5% of the year, when evenly distributed during daylight hours, b) one-month hourly imagery generated or collected continuously during daylight hours around the equinoxes (8% of the year); or c) 9 days of hourly data collected around the spring equinox, summer and winter solstices (2.5% of the year) all suffice to predict the luminance maps for the rest of the year. The DNN predicted high-quality panoramas are validated against Radiance (RPICT) renderings using a series of quantitative and qualitative metrics. The most efficient predictions are achieved with 9 days of hourly data collected around the spring equinox, summer and winter solstices. The results clearly show that practitioners and researchers can efficiently incorporate long-term luminance-based metrics over multiple view directions into the design and research processes using the proposed DNN workflow.
翻訳日:2022-10-18 12:07:21 公開日:2020-09-14
# 高確率離散分布の最適試験

Optimal Testing of Discrete Distributions with High Probability ( http://arxiv.org/abs/2009.06540v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Themis Gouleakis and Daniel M. Kane and John Peebles and Eric Price(参考訳) 本研究では,高確率分布に着目した離散分布テストの問題について検討する。 具体的には、1つ以上の離散分布のサンプルが与えられたとき、$\mathcal{P}$とパラメータ$0< \epsilon, \delta <1$とすると、これらの分布が$\mathcal{P}$を満足するか、または$\epsilon$-farを$\mathcal{P}$と$\mathcal{P}$を全変動距離で区別したい。 分散テストにおけるほとんどの以前の研究は、一定の信頼性ケース($\delta = \Omega(1)$)を研究し、様々な特性に対してサンプル最適化テスターを提供した。 ブラックボックス増幅により、常にそのようなテスターの信頼確率を高めることができるが、この一般的なブースティング法は、通常、準最適サンプル境界につながる。 与えられたプロパティ$\mathcal{P}$に対して、エラー確率$\delta$を含むすべての関連する問題パラメータの関数として$\mathcal{P}$をテストする際のサンプルの複雑さを特徴づけることができるか? この研究に先立ち、一様性テストは、この設定でサンプルの複雑さを特徴付ける唯一の統計的タスクであった。 主な結果として,すべてのパラメータの関数として,サンプル最適であり,定数係数内に存在する近さと独立性テストのための最初のアルゴリズムを提供する。 また、これらの問題のサンプル複雑性について、マッチング情報理論の下限を示す。 我々のテクニックは自然に拡張され、関連する問題に対して最適なテスターを与えます。 提案手法の一般性を説明するため,分布の集合をテストし,不等サイズのサンプルを用いて近接性をテストするアルゴリズムを提案する。

We study the problem of testing discrete distributions with a focus on the high probability regime. Specifically, given samples from one or more discrete distributions, a property $\mathcal{P}$, and parameters $0< \epsilon, \delta <1$, we want to distinguish {\em with probability at least $1-\delta$} whether these distributions satisfy $\mathcal{P}$ or are $\epsilon$-far from $\mathcal{P}$ in total variation distance. Most prior work in distribution testing studied the constant confidence case (corresponding to $\delta = \Omega(1)$), and provided sample-optimal testers for a range of properties. While one can always boost the confidence probability of any such tester by black-box amplification, this generic boosting method typically leads to sub-optimal sample bounds. Here we study the following broad question: For a given property $\mathcal{P}$, can we {\em characterize} the sample complexity of testing $\mathcal{P}$ as a function of all relevant problem parameters, including the error probability $\delta$? Prior to this work, uniformity testing was the only statistical task whose sample complexity had been characterized in this setting. As our main results, we provide the first algorithms for closeness and independence testing that are sample-optimal, within constant factors, as a function of all relevant parameters. We also show matching information-theoretic lower bounds on the sample complexity of these problems. Our techniques naturally extend to give optimal testers for related problems. To illustrate the generality of our methods, we give optimal algorithms for testing collections of distributions and testing closeness with unequal sized samples.
翻訳日:2022-10-18 12:06:35 公開日:2020-09-14
# 香り米の品質分類のための基本成分分析

Principle Component Analysis for Classification of the Quality of Aromatic Rice ( http://arxiv.org/abs/2009.06496v1 )

ライセンス: Link先を確認
Etika Kartikadarma, Sari Wijayanti, Sari Ayu Wulandari, Fauzi Adi Rafrastara(参考訳) 本研究では, 原理成分分析(PCA)法の特徴抽出を利用して, 香水の品質管理を行う手法を提案する。 提案システム (DNose v0.2) は, 電子鼻またはエノースの原理を用いている。 Enoseは、人間の鼻の機能のような匂いの分類に基づいて機能する検知器である。 分類プロセスで作業する前に、最初に臭いを認識するためにトレーニングする必要があります。 本研究の目的は,特に芳香米を原料とした品質管理機器のエノースシステムを構築することである。 このシステムの利点は操作が容易であり、研究対象を損なうことはない。 本実験では, アトメガ328および6個のガスセンサを電子モジュールに導入し, pca法を用いて分類を行う。

This research introduces an instrument for performing quality control on aromatic rice by utilizing feature extraction of Principle Component Analysis (PCA) method. Our proposed system (DNose v0.2) uses the principle of electronic nose or enose. Enose is a detector instrument that work based on classification of the smell, like function of human nose. It has to be trained first for recognizing the smell before work in classification process. The aim of this research is to build an enose system for quality control instrument, especially on aromatic rice. The advantage of this system is easy to operate and not damaging the object of research. In this experiment, ATMega 328 and 6 gas sensors are involved in the electronic module and PCA method is used for classification process.
翻訳日:2022-10-18 12:00:21 公開日:2020-09-14
# 解釈・説明可能な機械学習システムにおける個人差の役割

The Role of Individual User Differences in Interpretable and Explainable Machine Learning Systems ( http://arxiv.org/abs/2009.06675v1 )

ライセンス: Link先を確認
Lydia P. Gleaves, Reva Schwartz, David A. Broniatowski(参考訳) 非専門家が機械学習(ML)ツールと効果的に対話し、そのようなシステムが生み出す複雑な出力を理解するのを支援することへの関心が高まっている。 本稿では,ML生成モデルからの解釈可能性,説明可能性,知識発見を個人的スキルと性格特性がどのように予測するかを研究するために設計されたユーザ実験について述べる。 我々の研究は、人間が数値的な刺激をどのように処理するかという主要な理論であるファジィトレース理論に依存しており、エンドユーザーがmlシステムと相互作用しながら受信した出力をどのように解釈するかを調べている。 サンプルは小さかったが、システムのアウトプットと説明可能性を理解して、そのアウトプットがどのように生成されたかを理解することが、ユーザエクスペリエンスの異なる側面であることが分かりました。 さらに、メタ認知的モニタリングと編集を促進する個々の特徴が、より詳細で冗長なML出力の処理に関連付けられている場合、被験者はモデル出力をより解釈することができた。 最後に、mlシステムに精通している被験者は、彼らによってよりサポートされ、データに新しいパターンを見つけることができると感じた。 私たちの仕事は、設計プロセス中にユーザのメンタル表現を明示的に考慮し、エンドユーザーの要求をより効果的にサポートするシステムの設計を動機付けます。

There is increased interest in assisting non-expert audiences to effectively interact with machine learning (ML) tools and understand the complex output such systems produce. Here, we describe user experiments designed to study how individual skills and personality traits predict interpretability, explainability, and knowledge discovery from ML generated model output. Our work relies on Fuzzy Trace Theory, a leading theory of how humans process numerical stimuli, to examine how different end users will interpret the output they receive while interacting with the ML system. While our sample was small, we found that interpretability -- being able to make sense of system output -- and explainability -- understanding how that output was generated -- were distinct aspects of user experience. Additionally, subjects were more able to interpret model output if they possessed individual traits that promote metacognitive monitoring and editing, associated with more detailed, verbatim, processing of ML output. Finally, subjects who are more familiar with ML systems felt better supported by them and more able to discover new patterns in data; however, this did not necessarily translate to meaningful insights. Our work motivates the design of systems that explicitly take users' mental representations into account during the design process to more effectively support end user requirements.
翻訳日:2022-10-18 11:58:50 公開日:2020-09-14
# Stop the Clock: タイムアウト効果は本物か?

Stop the Clock: Are Timeout Effects Real? ( http://arxiv.org/abs/2009.06750v1 )

ライセンス: Link先を確認
Niander Assis, Renato Assun\c{c}\~ao and Pedro O. S. Vaz-De-Melo(参考訳) タイムアウト(Timeout)は、ゲーム中に戦略の変更を伝達したり、プレイヤーに休息を与えたり、ゲーム内の負の流れを止めるために使用される短い中断である。 理由が何であれ、コーチはタイムアウト後のチームのパフォーマンス改善を期待しています。 しかし、こうしたタイムアウトはどの程度効果的か? タイムアウト前後のスコアの違いの単純な平均は、効果があり、それが実質的であることを示す証拠として使われてきた。 これらの統計平均は適切な証拠ではなく、より健全なアプローチが必要であると主張する。 nbaの公式プレイバイプレイテーブルの大規模なデータセットを使用して,公式な因果フレームワークを適用し,因果グラフでデータ生成プロセスに関する仮定を作成した。 異なるマッチング手法を用いてタイムアウトの因果効果を推定し、タイムアウトがチームのパフォーマンスに影響を与えないことを結論付けた。 実際、ほとんどのタイムアウトは、対戦チームがより頻繁に得点しているときに呼び出されるので、続く瞬間はチームのパフォーマンスの改善に似ているが、単に平均状態に戻る自然なゲームである。 これは統計学者が平均現象への回帰と呼ぶ別の例である。

Timeout is a short interruption during games used to communicate a change in strategy, to give the players a rest or to stop a negative flow in the game. Whatever the reason, coaches expect an improvement in their team's performance after a timeout. But how effective are these timeouts in doing so? The simple average of the differences between the scores before and after the timeouts has been used as evidence that there is an effect and that it is substantial. We claim that these statistical averages are not proper evidence and a more sound approach is needed. We applied a formal causal framework using a large dataset of official NBA play-by-play tables and drew our assumptions about the data generation process in a causal graph. Using different matching techniques to estimate the causal effect of timeouts, we concluded that timeouts have no effect on teams' performances. Actually, since most timeouts are called when the opposing team is scoring more frequently, the moments that follow resemble an improvement in the team's performance but are just the natural game tendency to return to its average state. This is another example of what statisticians call the regression to the mean phenomenon.
翻訳日:2022-10-18 11:58:27 公開日:2020-09-14
# フェデレーション学習のためのデータ評価の原則的アプローチ

A Principled Approach to Data Valuation for Federated Learning ( http://arxiv.org/abs/2009.06192v1 )

ライセンス: Link先を確認
Tianhao Wang, Johannes Rausch, Ce Zhang, Ruoxi Jia, Dawn Song(参考訳) Federated Learning(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。 データ所有者の長期参加を維持するためには、各データソースを適切に評価し、トレーニングプロセスへの貢献に対してデータ所有者を補償することが重要である。 shapley value (sv) はデータ値の概念に対する多くのデシデラタを満たす一意なペイオフスキームを定義する。 集中型学習におけるトレーニングデータの評価にますます使われてきた。 しかし、svの計算には、データソースのすべてのサブセットにおけるモデル性能を徹底的に評価する必要がある。 さらに、標準SVは、FLのシーケンシャルな性質と矛盾する訓練中のデータソースの順序を無視している。 本稿では,sv amenable から fl への変種を提案し,これをfederated shapley value と呼ぶ。 連合SVは、余分な通信コストを伴わずに計算可能でありながら、標準SVの望ましい特性を保持し、データ値に対する参加順序の影響を捉えることができる。 我々は,様々なベンチマークデータセット上でのノイズラベル検出,敵対的受像者検出,データ要約など,様々なタスクにおけるフェデレーションSVの徹底的な実証研究を行い,FLのデータソースの実効性を反映し,システムの堅牢性,セキュリティ,効率性を向上する可能性を実証した。 また,「障害事例」を報告・分析し,今後の研究の促進を期待する。

Federated learning (FL) is a popular technique to train machine learning (ML) models on decentralized data sources. In order to sustain long-term participation of data owners, it is important to fairly appraise each data source and compensate data owners for their contribution to the training process. The Shapley value (SV) defines a unique payoff scheme that satisfies many desiderata for a data value notion. It has been increasingly used for valuing training data in centralized learning. However, computing the SV requires exhaustively evaluating the model performance on every subset of data sources, which incurs prohibitive communication cost in the federated setting. Besides, the canonical SV ignores the order of data sources during training, which conflicts with the sequential nature of FL. This paper proposes a variant of the SV amenable to FL, which we call the federated Shapley value. The federated SV preserves the desirable properties of the canonical SV while it can be calculated without incurring extra communication cost and is also able to capture the effect of participation order on data value. We conduct a thorough empirical study of the federated SV on a range of tasks, including noisy label detection, adversarial participant detection, and data summarization on different benchmark datasets, and demonstrate that it can reflect the real utility of data sources for FL and has the potential to enhance system robustness, security, and efficiency. We also report and analyze "failure cases" and hope to stimulate future research.
翻訳日:2022-10-18 11:58:09 公開日:2020-09-14
# 学習の指導--内的状態を持つエージェントのシーケンシャルな指導

Teaching to Learn: Sequential Teaching of Agents with Inner States ( http://arxiv.org/abs/2009.06227v1 )

ライセンス: Link先を確認
Mustafa Mert Celikok, Pierre-Alexandre Murena, Samuel Kaski(参考訳) シーケンシャルな機械教育において,教師の目的は,学習者に対して最適な入力シーケンスを提供することであり,それらを最良のモデルに導くことである。 本稿では、この設定を、現在の静的1データセット分析から学習アルゴリズムや潜在状態を変更する学習者へ拡張し、学習中に改善し、新しいデータセットに一般化する。 本稿では,学習者の内的状態が授業操作によって変化する可能性があるマルチエージェントの定式化について紹介する。 このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。 これは、内部状態を持つ学習者のモデリングツールと、メタ学習アルゴリズムの機械教育を提供する。 さらに,教師のいない新しいデータセットにおいて,学習者の一般化と学習をより良くすることを目的とした,より一般的な教育と,効果的にデータを隠蔽し指導にも利用できるマニピュレーション的指導とを区別する。

In sequential machine teaching, a teacher's objective is to provide the optimal sequence of inputs to sequential learners in order to guide them towards the best model. In this paper we extend this setting from current static one-data-set analyses to learners which change their learning algorithm or latent state to improve during learning, and to generalize to new datasets. We introduce a multi-agent formulation in which learners' inner state may change with the teaching interaction, which affects the learning performance in future tasks. In order to teach such learners, we propose an optimal control approach that takes the future performance of the learner after teaching into account. This provides tools for modelling learners having inner states, and machine teaching of meta-learning algorithms. Furthermore, we distinguish manipulative teaching, which can be done by effectively hiding data and also used for indoctrination, from more general education which aims to help the learner become better at generalization and learning in new datasets in the absence of a teacher.
翻訳日:2022-10-18 11:57:44 公開日:2020-09-14
# sapag:gradientsによる自己適応型プライバシー攻撃

SAPAG: A Self-Adaptive Privacy Attack From Gradients ( http://arxiv.org/abs/2009.06228v1 )

ライセンス: Link先を確認
Yijue Wang, Jieren Deng, Dan Guo, Chenghong Wang, Xianrui Meng, Hang Liu, Caiwen Ding, Sanguthevar Rajasekaran(参考訳) フェデレートラーニングやコラボレーティブラーニングといった分散学習は、ユーザからの分散データのモデルトレーニングを可能にし、データプライバシのソースに近いデータを処理するローカル勾配のみを収集する。 トレーニングデータを集中しないことの性質は、プライバシに敏感なデータのプライバシー問題に対処する。 近年の研究では、第三者が分散機械学習システムにおける真のトレーニングデータを、公開共有勾配によって再構築できることが示されている。 しかしながら、既存のレコンストラクション攻撃フレームワークは、異なるディープニューラルネットワーク(dnn)アーキテクチャと異なる重み分布初期化の一般化性に欠けており、初期トレーニングフェーズでしか成功できない。 本稿では,この制限に対処するために,勾配差に基づくガウス核を距離尺度として用いるgradient,sapagより一般的なプライバシ攻撃を提案する。 実験の結果,SAPAGは任意の訓練段階において,重量初期化の異なる異なるDNNとDNNの訓練データを構築することができることがわかった。

Distributed learning such as federated learning or collaborative learning enables model training on decentralized data from users and only collects local gradients, where data is processed close to its sources for data privacy. The nature of not centralizing the training data addresses the privacy issue of privacy-sensitive data. Recent studies show that a third party can reconstruct the true training data in the distributed machine learning system through the publicly-shared gradients. However, existing reconstruction attack frameworks lack generalizability on different Deep Neural Network (DNN) architectures and different weight distribution initialization, and can only succeed in the early training phase. To address these limitations, in this paper, we propose a more general privacy attack from gradient, SAPAG, which uses a Gaussian kernel based of gradient difference as a distance measure. Our experiments demonstrate that SAPAG can construct the training data on different DNNs with different weight initializations and on DNNs in any training phases.
翻訳日:2022-10-18 11:57:28 公開日:2020-09-14
# 嘘に対するロバストな深層学習

Robust Deep Learning Ensemble against Deception ( http://arxiv.org/abs/2009.06589v1 )

ライセンス: Link先を確認
Wenqi Wei and Ling Liu(参考訳) ディープニューラルネットワーク(DNN)モデルは、悪意ある悪質な敵の例や、トレーニングデータから十分な距離で引き出された配布外入力に対して脆弱であることが知られている。 両方のタイプの破壊的な入力を欺くことから機械学習モデルをいかに保護するかは、まだ未解決の課題である。 本稿では,DNNモデルの対角的堅牢性を高めるための多様性アンサンブル検証手法であるXEnsembleを提案する。 XEnsemble by Designには3つのユニークな機能がある。 まず、XEnsembleはさまざまなデータクリーニング技術を活用して、多様な入力記述検証器を構築する。 第2に、xensembleは、予測モデルの出力を欺きから守るための不一致多様性アンサンブル学習手法を開発する。 第三に、xensembleは入力の検証と出力の検証を組み合わせた一連のアルゴリズムを提供し、dnnの予測モデルを逆の例と分布の入力の両方から保護する。 11の一般的な敵攻撃と2つの代表的な分散性データセットを用いて評価し、xensembleは攻撃例に対する高い防御成功率と、分散性データ入力に対する高い検出成功率を達成し、ロバスト性と防御性に関して既存の代表的防御方法よりも優れていることを示した。

Deep neural network (DNN) models are known to be vulnerable to maliciously crafted adversarial examples and to out-of-distribution inputs drawn sufficiently far away from the training data. How to protect a machine learning model against deception of both types of destructive inputs remains an open challenge. This paper presents XEnsemble, a diversity ensemble verification methodology for enhancing the adversarial robustness of DNN models against deception caused by either adversarial examples or out-of-distribution inputs. XEnsemble by design has three unique capabilities. First, XEnsemble builds diverse input denoising verifiers by leveraging different data cleaning techniques. Second, XEnsemble develops a disagreement-diversity ensemble learning methodology for guarding the output of the prediction model against deception. Third, XEnsemble provides a suite of algorithms to combine input verification and output verification to protect the DNN prediction models from both adversarial examples and out of distribution inputs. Evaluated using eleven popular adversarial attacks and two representative out-of-distribution datasets, we show that XEnsemble achieves a high defense success rate against adversarial examples and a high detection success rate against out-of-distribution data inputs, and outperforms existing representative defense methods with respect to robustness and defensibility.
翻訳日:2022-10-18 11:50:54 公開日:2020-09-14
# 圧縮学習が失敗すると、デコーダかスケッチを責めるのか?

When compressive learning fails: blame the decoder or the sketch? ( http://arxiv.org/abs/2009.08273v1 )

ライセンス: Link先を確認
Vincent Schellekens and Laurent Jacques(参考訳) 圧縮学習では、データセットの高度に圧縮された表現として機能する混合モデル(セントロイドまたはガウス混合)がスケッチベクトルから学習される。 これは非凸最適化問題の解法を必要とするため、実際には近似ヒューリスティック(CLOMPRなど)が用いられる。 本研究では, この非凸最適化景観の性質とヒューリスティックスについて, 数値シミュレーションにより考察する。

In compressive learning, a mixture model (a set of centroids or a Gaussian mixture) is learned from a sketch vector, that serves as a highly compressed representation of the dataset. This requires solving a non-convex optimization problem, hence in practice approximate heuristics (such as CLOMPR) are used. In this work we explore, by numerical simulations, properties of this non-convex optimization landscape and those heuristics.
翻訳日:2022-10-18 11:49:55 公開日:2020-09-14
# 建物被害マッピングのためのマルチモーダル・マルチテンポラル地球観測データからの学習

Learning from Multimodal and Multitemporal Earth Observation Data for Building Damage Mapping ( http://arxiv.org/abs/2009.06200v1 )

ライセンス: Link先を確認
Bruno Adriano, Naoto Yokoya, Junshi Xia, Hiroyuki Miura, Wen Liu, Masashi Matsuoka, Shunichi Koshimura(参考訳) 光イメージングや合成開口レーダ(SAR)のような地球観測技術は、継続的に成長する都市環境を監視する優れた手段を提供する。 特に、大規模な災害(津波や地震など)では、応答が非常に時間的に重要な場合、両方のデータモダリティの画像が相互に補完され、災害後の完全な被害状態を正確に伝達することができる。 しかし、気象や衛星の網羅などいくつかの要因により、どのデータモダリティが急激な災害対応に最初に利用できるのかは、しばしば不透明である。 したがって、災害管理には、すべてのアクセス可能なEOデータセットを利用できる新しい手法が不可欠である。 本研究では,損傷マップを構築するためのグローバルマルチセンサとマルチテンポラルデータセットを開発した。 また, 地震, 津波, 台風の3つの災害タイプによる建物被害の特徴や, 3つの建物被害カテゴリーについて検討した。 グローバルデータセットには、災害前後に取得した高解像度光学画像と高解像度マルチバンドSARデータが含まれている。 この包括的なデータセットを用いて,ダメージマッピングのための5つのデータモダリティシナリオ(単一モード(オプティカルおよびsarデータセット),クロスモーダル(プリディスタスタ光学およびポストディスタスタsarデータセット),モード融合シナリオ)を分析した。 深層畳み込みニューラルネットワークアルゴリズムに基づき,損傷建築物の意味セグメンテーションのための損傷マッピングフレームワークを定義した。 我々は、損傷マッピングのための別の最先端ベースラインモデルと比較する。 その結果,我々のデータセットと深層学習ネットワークは,すべてのデータモダリティシナリオに対して許容可能な予測を可能にした。

Earth observation technologies, such as optical imaging and synthetic aperture radar (SAR), provide excellent means to monitor ever-growing urban environments continuously. Notably, in the case of large-scale disasters (e.g., tsunamis and earthquakes), in which a response is highly time-critical, images from both data modalities can complement each other to accurately convey the full damage condition in the disaster's aftermath. However, due to several factors, such as weather and satellite coverage, it is often uncertain which data modality will be the first available for rapid disaster response efforts. Hence, novel methodologies that can utilize all accessible EO datasets are essential for disaster management. In this study, we have developed a global multisensor and multitemporal dataset for building damage mapping. We included building damage characteristics from three disaster types, namely, earthquakes, tsunamis, and typhoons, and considered three building damage categories. The global dataset contains high-resolution optical imagery and high-to-moderate-resolution multiband SAR data acquired before and after each disaster. Using this comprehensive dataset, we analyzed five data modality scenarios for damage mapping: single-mode (optical and SAR datasets), cross-modal (pre-disaster optical and post-disaster SAR datasets), and mode fusion scenarios. We defined a damage mapping framework for the semantic segmentation of damaged buildings based on a deep convolutional neural network algorithm. We compare our approach to another state-of-the-art baseline model for damage mapping. The results indicated that our dataset, together with a deep learning network, enabled acceptable predictions for all the data modality scenarios.
翻訳日:2022-10-18 11:49:33 公開日:2020-09-14
# W-NUT 2020 Task 2: Informative COVID-19 English Tweetsを識別するBERTベースのシステム

Not-NUTs at W-NUT 2020 Task 2: A BERT-based System in Identifying Informative COVID-19 English Tweets ( http://arxiv.org/abs/2009.06372v1 )

ライセンス: Link先を確認
Thai Quoc Hoang and Phuong Thu Vu(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界規模で完全に流行している2020年現在、人々が新型コロナウイルスに関する正当な情報にアクセスできることは、特に関係のない情報が多ければ多いほど、より情報に富むメディアを通じて、これまで以上に緊急である。 そこで我々は、英語のつぶやきを考慮に入れ、そのつぶやきがCOVID-19に関する情報的内容を持っているかどうかを自動的に識別するモデルを提案した。 さまざまなBERTweetモデル構成をアンサンブルすることで、情報のあるクラスにおけるF1スコアの約1%でトップパフォーマンスチームによる結果に匹敵する結果を得たのです。 競争後の期間には、新しいデータセットへの一般化を促進する様々なアプローチの実験も行っています。

As of 2020 when the COVID-19 pandemic is full-blown on a global scale, people's need to have access to legitimate information regarding COVID-19 is more urgent than ever, especially via online media where the abundance of irrelevant information overshadows the more informative ones. In response to such, we proposed a model that, given an English tweet, automatically identifies whether that tweet bears informative content regarding COVID-19 or not. By ensembling different BERTweet model configurations, we have achieved competitive results that are only shy of those by top performing teams by roughly 1% in terms of F1 score on the informative class. In the post-competition period, we have also experimented with various other approaches that potentially boost generalization to a new dataset.
翻訳日:2022-10-18 11:49:07 公開日:2020-09-14
# 直感的韻律特徴を用いた制御可能なニューラルテキスト音声合成

Controllable neural text-to-speech synthesis using intuitive prosodic features ( http://arxiv.org/abs/2009.06775v1 )

ライセンス: Link先を確認
Tuomo Raitio, Ramya Rasipuram, Dan Castellani(参考訳) 現代のニューラルテキスト音声合成(TTS)は、自然な音声と区別できない音声を生成することができる。 しかし、生成した発話の韻律は、広範囲な韻律変化ではなく、データベースの平均韻律スタイルを表すことが多い。 さらに、生成された韻律は入力テキストによってのみ定義され、同じ文に対して異なるスタイルを許さない。 本研究では,音声特徴量に基づくシーケンス-シーケンス間ニューラルネットワークを訓練し,直観的かつ有意義な次元で潜在的韻律空間を学習する。 実験により,各韻律次元を効果的に制御し,多種多様な話し方を生成するとともに,タコトロンベースライン(4.26)に類似した平均意見スコア(4.23)を維持できることがわかった。

Modern neural text-to-speech (TTS) synthesis can generate speech that is indistinguishable from natural speech. However, the prosody of generated utterances often represents the average prosodic style of the database instead of having wide prosodic variation. Moreover, the generated prosody is solely defined by the input text, which does not allow for different styles for the same sentence. In this work, we train a sequence-to-sequence neural network conditioned on acoustic speech features to learn a latent prosody space with intuitive and meaningful dimensions. Experiments show that a model conditioned on sentence-wise pitch, pitch range, phone duration, energy, and spectral tilt can effectively control each prosodic dimension and generate a wide variety of speaking styles, while maintaining similar mean opinion score (4.23) to our Tacotron baseline (4.26).
翻訳日:2022-10-18 11:48:53 公開日:2020-09-14
# リアルな光効果を持つ超現実のシーンで訓練された深部内在分解

Deep intrinsic decomposition trained on surreal scenes yet with realistic light effects ( http://arxiv.org/abs/2009.06295v1 )

ライセンス: Link先を確認
Hassan Sial, Ramon Baldrich, Maria Vanrell(参考訳) 内在的な画像の推定は、小さすぎるか非現実的な問題である地上真実のデータセットの弱点のため、依然として難しい課題である。 一方で、エンド・ツー・エンドのディープラーニングアーキテクチャは、重要な物理的ヒントを無視しなければ改善できると信じている興味深い結果を達成し始めています。 この本では、2つのフレームワークを紹介します。 (a)コヒーレントな照明の外観と大型化等の古典的データセット問題を克服したフレキシブルな画像の生成 (b)本質的損失によって物理的特性を結びつける柔軟なアーキテクチャ。 提案手法は汎用性が高く,計算時間が少なく,最先端の結果が得られる。

Estimation of intrinsic images still remains a challenging task due to weaknesses of ground-truth datasets, which either are too small or present non-realistic issues. On the other hand, end-to-end deep learning architectures start to achieve interesting results that we believe could be improved if important physical hints were not ignored. In this work, we present a twofold framework: (a) a flexible generation of images overcoming some classical dataset problems such as larger size jointly with coherent lighting appearance; and (b) a flexible architecture tying physical properties through intrinsic losses. Our proposal is versatile, presents low computation time, and achieves state-of-the-art results.
翻訳日:2022-10-18 11:48:37 公開日:2020-09-14
# 適応生成モデル:新しいアンサンブル法

Adaptive Generation Model: A New Ensemble Method ( http://arxiv.org/abs/2009.06332v1 )

ライセンス: Link先を確認
Jiacheng Ruan and Jiahao Li(参考訳) 機械学習の一般的な方法として、Ensemble Methodはデータセットから複数のモデルをトレーニングし、特定の組み合わせ戦略によってより良い結果を得るために使われる。 Ensemble Learningメソッドの代表としてスタック方式は、Kaggleのような機械学習コンペティションでよく使用される。 本稿では,gcForest,すなわち適応生成モデル(Adaptive Generation Model, AGM)のアイデアに基づく,スタックモデルの一種を提案する。 適応生成は、各層モデルの幅を広げるために水平方向だけでなく、モデルの深さを広げるために垂直方向においても行われることを意味する。 AGMのベースモデルの場合、それらはすべてプリセットされた基本的な機械学習モデルに由来する。 さらに、モデル全体の精度をさらに向上させるために、レイヤ間で機能拡張法を追加する。 最後に、7つのデータセットの比較実験により、AGMの精度は以前のモデルより優れていることが示された。

As a common method in Machine Learning, Ensemble Method is used to train multiple models from a data set and obtain better results through certain combination strategies. Stacking method, as representatives of Ensemble Learning methods, is often used in Machine Learning Competitions such as Kaggle. This paper proposes a variant of Stacking Model based on the idea of gcForest, namely Adaptive Generation Model (AGM). It means that the adaptive generation is performed not only in the horizontal direction to expand the width of each layer model, but also in the vertical direction to expand the depth of the model. For base models of AGM, they all come from preset basic Machine Learning Models. In addition, a feature augmentation method is added between layers to further improve the overall accuracy of the model. Finally, through comparative experiments on 7 data sets, the results show that the accuracy of AGM are better than its previous models.
翻訳日:2022-10-18 11:42:29 公開日:2020-09-14
# 精度以上のもの:roiによる経験的データのデータ分析

Beyond Accuracy: ROI-driven Data Analytics of Empirical Data ( http://arxiv.org/abs/2009.06492v1 )

ライセンス: Link先を確認
Gouri Deshpande and Guenther Ruhe(参考訳) 本稿では,データ分析を行う際にroi(return-on-investment)を検討することが重要であることを示す。 どの程度の分析が必要なのか? 答えが難しいのです ROIは、何について意思決定を支援するか? どうやって? いくらだ? 特定の問題に対する分析です 方法:提案する概念フレームワークは,mozilla firefoxプロジェクトにおける要件依存性の抽出に注目した2つの実証研究によって検証される。 2つのケーススタディは (i)二元依存分類のためのナイーブベイズおよびランダムフォレストマシン学習者に対する微調整bertの評価と評価 (ii)依存抽出を必要とする受動的学習(ランダムサンプリング)に対するアクティブラーニング。 いずれの場合も、彼らの分析投資(コスト)を推定し、daによる達成可能な利益を予測し、調査の破断点を決定する。 結果: 第1報では,トレーニングデータの40%以上が利用可能である以上,ランダムフォレストよりも微調整されたbertが優れていた。 第2に、Active Learning は、Baseline (Random sample based RF classifier) と比較して、少ないイテレーションで F1 の精度が高く、ROI も高い。 どちらの研究でも、見積もりは、投資した努力に対してどの程度の分析が報われるか。 破断点が示されていた。 結論: 実験データのDAの深さと幅の決定は, 精度測定のみに基づいて行うべきではない。 ROI駆動のData Analyticsは、さまざまなタイプの分析のコストと価値を考慮して、いつさらなる調査を止めるべきかを発見するための、シンプルで効果的な指示を提供するので、過剰な分析データを避けるのに役立つ。

This vision paper demonstrates that it is crucial to consider Return-on-Investment (ROI) when performing Data Analytics. Decisions on "How much analytics is needed"? are hard to answer. ROI could guide for decision support on the What?, How?, and How Much? analytics for a given problem. Method: The proposed conceptual framework is validated through two empirical studies that focus on requirements dependencies extraction in the Mozilla Firefox project. The two case studies are (i) Evaluation of fine-tuned BERT against Naive Bayes and Random Forest machine learners for binary dependency classification and (ii) Active Learning against passive Learning (random sampling) for REQUIRES dependency extraction. For both the cases, their analysis investment (cost) is estimated, and the achievable benefit from DA is predicted, to determine a break-even point of the investigation. Results: For the first study, fine-tuned BERT performed superior to the Random Forest, provided that more than 40% of training data is available. For the second, Active Learning achieved higher F1 accuracy within fewer iterations and higher ROI compared to Baseline (Random sampling based RF classifier). In both the studies, estimate on, How much analysis likely would pay off for the invested efforts?, was indicated by the break-even point. Conclusions: Decisions for the depth and breadth of DA of empirical data should not be made solely based on the accuracy measures. Since ROI-driven Data Analytics provides a simple yet effective direction to discover when to stop further investigation while considering the cost and value of the various types of analysis, it helps to avoid over-analyzing empirical data.
翻訳日:2022-10-18 11:41:50 公開日:2020-09-14
# 可変再生オフポリティィメモリ効率の高いポリシー探索

Variance-Reduced Off-Policy Memory-Efficient Policy Search ( http://arxiv.org/abs/2009.06548v1 )

ライセンス: Link先を確認
Daoming Lyu, Qi Qi, Mohammad Ghavamzadeh, Hengshuai Yao, Tianbao Yang, Bo Liu(参考訳) 政策最適化は強化学習(RL)において難しい問題である。 この問題のために設計されたアルゴリズムは、しばしば推定値のばらつきに苦しめられ、サンプル効率が悪く、収束に問題がある。 ReINFORCEアルゴリズムにおける勾配推定のばらつきを低減するために,確率的最適化からの手法を応用した分散法が最近提案されている。 しかし、これらのアルゴリズムはオフポリシー設定のために設計されておらず、時々大規模な ``reference'' バッチを収集して保存する必要があるため、メモリ非効率である。 そこで本研究では,分散低減されたオフポリシブル・ポリシー最適化を実現するために,メモリ効率が高く,確率的分散低減が可能で,オフポリシブル・サンプルから学習可能なアルゴリズムファミリを提案する。 実証研究は提案手法の有効性を検証する。

Off-policy policy optimization is a challenging problem in reinforcement learning (RL). The algorithms designed for this problem often suffer from high variance in their estimators, which results in poor sample efficiency, and have issues with convergence. A few variance-reduced on-policy policy gradient algorithms have been recently proposed that use methods from stochastic optimization to reduce the variance of the gradient estimate in the REINFORCE algorithm. However, these algorithms are not designed for the off-policy setting and are memory-inefficient, since they need to collect and store a large ``reference'' batch of samples from time to time. To achieve variance-reduced off-policy-stable policy optimization, we propose an algorithm family that is memory-efficient, stochastically variance-reduced, and capable of learning from off-policy samples. Empirical studies validate the effectiveness of the proposed approaches.
翻訳日:2022-10-18 11:40:50 公開日:2020-09-14
# ニューラルネットワークの入力ヘシアン正規化

Input Hessian Regularization of Neural Networks ( http://arxiv.org/abs/2009.06571v1 )

ライセンス: Link先を確認
Waleed Mustafa, Robert A. Vandermeulen, Marius Kloft(参考訳) 入力勾配の規則化は、ニューラルネットワークの堅牢性を促進するのに有効であることが示されている。 したがって、入力のヘッセンの正則化は自然な次のステップである。 ここで重要な課題は、計算の複雑さだ。 入力のヘッセンの計算は計算上不可能である。 本稿では,Hessian演算子-ノルム正規化を用いたディープニューラルネットワークの学習アルゴリズムを提案する。 このアプローチを理論的に解析し、ヘッセン作用素ノルムが敵の攻撃に耐えるニューラルネットワークの能力に関係していることを証明する。 MNISTデータセットとFMNISTデータセットについて予備的な実験的評価を行い、新しい正規化器が実際に実現可能であること、さらに入力勾配正規化よりもニューラルネットワークの堅牢性を高めることを実証した。

Regularizing the input gradient has shown to be effective in promoting the robustness of neural networks. The regularization of the input's Hessian is therefore a natural next step. A key challenge here is the computational complexity. Computing the Hessian of inputs is computationally infeasible. In this paper we propose an efficient algorithm to train deep neural networks with Hessian operator-norm regularization. We analyze the approach theoretically and prove that the Hessian operator norm relates to the ability of a neural network to withstand an adversarial attack. We give a preliminary experimental evaluation on the MNIST and FMNIST datasets, which demonstrates that the new regularizer can, indeed, be feasible and, furthermore, that it increases the robustness of neural networks over input gradient regularization.
翻訳日:2022-10-18 11:39:33 公開日:2020-09-14
# クロスドメインおよびクロスシステムレコメンデーションのためのディープフレームワーク

A Deep Framework for Cross-Domain and Cross-System Recommendations ( http://arxiv.org/abs/2009.06215v1 )

ライセンス: Link先を確認
Feng Zhu, Yan Wang, Chaochao Chen, Guanfeng Liu, Mehmet Orgun, Jia Wu(参考訳) CDR(Cross-Domain Recommendation)とCSR(Cross-System Recommendation)は、リコメンダシステムにおける長年続くデータ空間の問題に対処する、有望な2つのソリューションである。 彼らは、ソースドメインやシステムからのレーティングなど、比較的リッチな情報を利用して、ターゲットドメインやシステムの推奨精度を向上させる。 したがって、ドメインやシステム間で潜伏因子の正確なマッピングを見つけることは、推奨精度を高めるために重要である。 しかし、ソースの潜在要因とターゲットドメインやシステムの間の複雑な関係のため、これは非常に難しいタスクです。 そこで本稿では,行列分解(mf)モデルと完全連結型深層ニューラルネットワーク(dnn)に基づく,dcdcsrと呼ばれる,クロスドメインとクロスシステムのレコメンデーションのための深層フレームワークを提案する。 具体的には、DCDCSRはまずユーザとアイテムの潜伏因子を生成するためにMFモデルを使用し、次にドメインやシステム間で潜伏因子をマッピングするためにDNNを使用する。 さらに、異なるドメインやシステム内の個々のユーザやアイテムのレーティング範囲を考慮し、それらをDNNトレーニングプロセスのガイドとして使用して、評価データをより効果的に活用する。 3つの実世界のデータセットで実施された大規模な実験により、DCDCSRフレームワークは推奨精度において最先端のCDRとCSRアプローチより優れていることが示された。

Cross-Domain Recommendation (CDR) and Cross-System Recommendations (CSR) are two of the promising solutions to address the long-standing data sparsity problem in recommender systems. They leverage the relatively richer information, e.g., ratings, from the source domain or system to improve the recommendation accuracy in the target domain or system. Therefore, finding an accurate mapping of the latent factors across domains or systems is crucial to enhancing recommendation accuracy. However, this is a very challenging task because of the complex relationships between the latent factors of the source and target domains or systems. To this end, in this paper, we propose a Deep framework for both Cross-Domain and Cross-System Recommendations, called DCDCSR, based on Matrix Factorization (MF) models and a fully connected Deep Neural Network (DNN). Specifically, DCDCSR first employs the MF models to generate user and item latent factors and then employs the DNN to map the latent factors across domains or systems. More importantly, we take into account the rating sparsity degrees of individual users and items in different domains or systems and use them to guide the DNN training process for utilizing the rating data more effectively. Extensive experiments conducted on three real-world datasets demonstrate that DCDCSR framework outperforms the state-of-the-art CDR and CSR approaches in terms of recommendation accuracy.
翻訳日:2022-10-18 11:33:16 公開日:2020-09-14
# 経路ノルムを用いた一般活性化機能を有するニューラルネットワークの複雑度対策

Complexity Measures for Neural Networks with General Activation Functions Using Path-based Norms ( http://arxiv.org/abs/2009.06132v1 )

ライセンス: Link先を確認
Zhong Li and Chao Ma and Lei Wu(参考訳) 一般活性化関数を持つニューラルネットワークの複雑性制御を実現するための簡単な手法を提案する。 この手法は、一般活性化関数を1次元のReLUネットワークで近似することにより、ReLUネットワークの複雑性制御に還元する。 具体的には、経路に基づくノルムが複雑度を制御するために導出される2層ネットワークと深い残留ネットワークを考える。 また、これらのノルムによって引き起こされる関数空間の予備解析と、対応する正規化推定子の事前推定も提供する。

A simple approach is proposed to obtain complexity controls for neural networks with general activation functions. The approach is motivated by approximating the general activation functions with one-dimensional ReLU networks, which reduces the problem to the complexity controls of ReLU networks. Specifically, we consider two-layer networks and deep residual networks, for which path-based norms are derived to control complexities. We also provide preliminary analyses of the function spaces induced by these norms and a priori estimates of the corresponding regularized estimators.
翻訳日:2022-10-18 11:32:36 公開日:2020-09-14
# 射撃レグレッサー;ランダム化された勾配に基づくアンサンブル

The Shooting Regressor; Randomized Gradient-Based Ensembles ( http://arxiv.org/abs/2009.06172v1 )

ライセンス: Link先を確認
Nicholas Smith(参考訳) ランダム化と損失関数勾配を利用して予測を計算するアンサンブル法を提案する。 複数の弱相関推定器は、誤差面上のランダムにサンプリングされた点の勾配を近似し、最終解に集約する。 アンサンブル相関と精度の間のトレードオフを制御するスケーリングパラメータを記述する。 パラメータの最適値を推定するための数値的手法について述べる。 実験結果は一般的なデータセット上で計算される。 これらの結果に対する推論統計は,既存の手法を精度向上の観点から上回ることができることを示す。

An ensemble method is introduced that utilizes randomization and loss function gradients to compute a prediction. Multiple weakly-correlated estimators approximate the gradient at randomly sampled points on the error surface and are aggregated into a final solution. A scaling parameter is described that controls a trade-off between ensemble correlation and precision. Numerical methods for estimating optimal values of the parameter are described. Empirical results are computed over a popular dataset. Inferential statistics on these results show that the method is capable of outperforming existing techniques in terms of increased accuracy.
翻訳日:2022-10-18 11:32:26 公開日:2020-09-14
# 半教師付き学習における公正制約

Fairness Constraints in Semi-supervised Learning ( http://arxiv.org/abs/2009.06190v1 )

ライセンス: Link先を確認
Tao Zhang, Tianqing Zhu, Mengde Han, Jing Li, Wanlei Zhou, Philip S. Yu(参考訳) 機械学習の公平性が注目されている。 しかし、フェアラーニングに関するほとんどの研究は、教師なし学習または教師なし学習に焦点を当てている。 半監督設定を考える人はごくわずかである。 しかし実際には、ほとんどの機械学習タスクはラベル付きデータとラベルなしデータの両方を含む大きなデータセットに依存している。 公正学習の大きな問題のひとつは、公平性と正確性のバランスにある。 トレーニングセットのサイズを増やすことは、よりよいトレードオフをもたらす可能性がある、というこれまでの研究。 ラベルのないデータでトレーニングセットを増やせば、同様の結果が得られると考えています。 そこで我々は,最適化問題として定式化された,公平な半教師付き学習のためのフレームワークを開発する。 これには、精度を最適化する分類器の損失、ラベル付きデータ予測を最適化するラベル伝搬損失、ラベル付きデータとラベルなしデータの公正度を最適化するフェアネス制約が含まれる。 このフレームワークはロジスティック回帰において実行され、異なる影響と異なる不適切な処理の公平度尺度の下でベクターマシンをサポートする。 偏り・分散・雑音分解による半教師あり学習における識別源を理論的に分析する。 広範な実験により,本手法は公平な半教師付き学習を実現することができ,公平な教師付き学習よりも正確さと公平さのトレードオフが達成できることが示された。

Fairness in machine learning has received considerable attention. However, most studies on fair learning focus on either supervised learning or unsupervised learning. Very few consider semi-supervised settings. Yet, in reality, most machine learning tasks rely on large datasets that contain both labeled and unlabeled data. One of key issues with fair learning is the balance between fairness and accuracy. Previous studies arguing that increasing the size of the training set can have a better trade-off. We believe that increasing the training set with unlabeled data may achieve the similar result. Hence, we develop a framework for fair semi-supervised learning, which is formulated as an optimization problem. This includes classifier loss to optimize accuracy, label propagation loss to optimize unlabled data prediction, and fairness constraints over labeled and unlabeled data to optimize the fairness level. The framework is conducted in logistic regression and support vector machines under the fairness metrics of disparate impact and disparate mistreatment. We theoretically analyze the source of discrimination in semi-supervised learning via bias, variance and noise decomposition. Extensive experiments show that our method is able to achieve fair semi-supervised learning, and reach a better trade-off between accuracy and fairness than fair supervised learning.
翻訳日:2022-10-18 11:32:09 公開日:2020-09-14
# 解釈可能なスコアカードの垂直フェデレーション学習法とそのクレジット・スコアリングへの応用

A Vertical Federated Learning Method for Interpretable Scorecard and Its Application in Credit Scoring ( http://arxiv.org/abs/2009.06218v1 )

ライセンス: Link先を確認
Fanglan Zheng, Erihe, Kun Li, Jiang Tian, Xiaojia Xiang(参考訳) 多くの分野でビッグデータと人工知能の成功により、ビッグデータ駆動モデルの適用は金融リスク管理、特に信用評価と評価において期待される。 本研究では,データプライバシ保護の前提として,従来のスコアカードの縦型フェデレーション学習フレームワークにおいて,境界制約付きロジスティック回帰(fl-lrbc)に基づく予測型勾配ベース手法を提案する。 後者は、複数の機関が単一のトレーニングセッションで最適化されたスコアカードモデルを共同でトレーニングすることを可能にする。 これは正の係数を持つモデルの形成につながるが、時間を要するパラメータチューニングプロセスは避けることができる。 さらに, FL-LRBCを用いたデータ濃縮により, AUC と Kolmogorov-Smirnov (KS) の両統計値のパフォーマンスが大幅に向上した。 現在、FL-LRBCは中国全土の金融保有グループの信用ビジネスに既に適用されている。

With the success of big data and artificial intelligence in many fields, the applications of big data driven models are expected in financial risk management especially credit scoring and rating. Under the premise of data privacy protection, we propose a projected gradient-based method in the vertical federated learning framework for the traditional scorecard, which is based on logistic regression with bounded constraints, namely FL-LRBC. The latter enables multiple agencies to jointly train an optimized scorecard model in a single training session. It leads to the formation of the model with positive coefficients, while the time-consuming parameter-tuning process can be avoided. Moreover, the performance in terms of both AUC and the Kolmogorov-Smirnov (KS) statistics is significantly improved due to data enrichment using FL-LRBC. At present, FL-LRBC has already been applied to credit business in a China nation-wide financial holdings group.
翻訳日:2022-10-18 11:31:35 公開日:2020-09-14
# ソーシャルスパマー検出のためのリレーショナルシーケンスの多レベル依存性の活用

Leveraging Multi-level Dependency of Relational Sequences for Social Spammer Detection ( http://arxiv.org/abs/2009.06231v1 )

ライセンス: Link先を確認
Jun Yin, Qian Li, Shaowu Liu, Zhiang Wu, Guandong Xu(参考訳) 近年,ソーシャルスパマー検出のための関係依存型・コンテンツ非依存フレームワークの開発が注目されている。 これは、スパマーが悪質な意図を隠そうとしたとき、ユーザー間の関係を変えることが難しいためである。 本研究では,マルチリレーショナルソーシャルネットワークの文脈におけるスパマー検出問題について検討し,異種関係のシーケンスをフル活用して検出精度を向上させる。 具体的には、MDM(Multi-level Dependency Model)を提案する。 mdmは、ユーザのリレーショナルシーケンスに隠された長期的な依存関係と、短期的な依存関係を活用できる。 さらに、MDMは、短期系列のタイプが複数倍であるという事実から、個々のレベルとユニオンレベルの観点から、短期関係列を十分に考慮している。 実世界のマルチリレーショナルソーシャルネットワークの実験結果から,マルチリレーショナルソーシャルスパマー検出におけるMDMの有効性が示された。

Much recent research has shed light on the development of the relation-dependent but content-independent framework for social spammer detection. This is largely because the relation among users is difficult to be altered when spammers attempt to conceal their malicious intents. Our study investigates the spammer detection problem in the context of multi-relation social networks, and makes an attempt to fully exploit the sequences of heterogeneous relations for enhancing the detection accuracy. Specifically, we present the Multi-level Dependency Model (MDM). The MDM is able to exploit user's long-term dependency hidden in their relational sequences along with short-term dependency. Moreover, MDM fully considers short-term relational sequences from the perspectives of individual-level and union-level, due to the fact that the type of short-term sequences is multi-folds. Experimental results on a real-world multi-relational social network demonstrate the effectiveness of our proposed MDM on multi-relational social spammer detection.
翻訳日:2022-10-18 11:31:21 公開日:2020-09-14
# 磁気共鳴画像によるグリオブラスト腫の血管異質性評価のための教師なし学習 : 血行力学的組織像

Unsupervised learning for vascular heterogeneity assessment of glioblastoma based on magnetic resonance imaging: The Hemodynamic Tissue Signature ( http://arxiv.org/abs/2009.06288v1 )

ライセンス: Link先を確認
Javier Juan-Albarrac\'in(参考訳) この論文は、灌流MRIによるグリオ芽腫の血管均一性を記述するための教師なし機械学習アプローチである血行動態組織署名法(HTS)の研究と開発に焦点を当てている。 HTSは生息地の概念に基づいている。 生息地は病変のサブリージョンとして定義されており、特定の生理的行動を記述するMRIプロファイルがある。 The HTS method delineates four habitats within the glioblastoma: the High Angiogenic Tumor (HAT) habitat, as the most perfused region of the enhancing tumor; the Low Angiogenic Tumor (LAT) habitat, as the region of the enhancing tumor with a lower angiogenic profile; the potentially Infiltrated Peripheral Edema (IPE) habitat, as the non-enhancing region adjacent to the tumor with elevated perfusion indexes; and the Vasogenic Peripheral Edema (VPE) habitat, as the remaining edema of the lesion with the lowest perfusion profile. この論文の成果は、医学情報学、統計と確率、放射線と核医学、機械学習とデータマイニングとバイオメディカルエンジニアリングの分野におけるトップランクのジャーナルと会議を含む10の科学論文で発表されている。 スペイン(es201431289a)、ヨーロッパ(ep3190542a1)、eeuu(us20170287133a1)に登録された産業特許も発行され、研究出版物から得た学術的収入以外に有形資産を生産するための論文の努力を要約した。 最後に、この論文で考案された方法、技術、原案が、オンコアナリクス(ONCOANALYTICS CDX)の基礎となり、OnCOhabitats技術の工業化を促進する手段として考えられた医薬品化合物の相補的診断のビジネスモデルに組み込まれた。

This thesis focuses on the research and development of the Hemodynamic Tissue Signature (HTS) method: an unsupervised machine learning approach to describe the vascular heterogeneity of glioblastomas by means of perfusion MRI analysis. The HTS builds on the concept of habitats. An habitat is defined as a sub-region of the lesion with a particular MRI profile describing a specific physiological behavior. The HTS method delineates four habitats within the glioblastoma: the High Angiogenic Tumor (HAT) habitat, as the most perfused region of the enhancing tumor; the Low Angiogenic Tumor (LAT) habitat, as the region of the enhancing tumor with a lower angiogenic profile; the potentially Infiltrated Peripheral Edema (IPE) habitat, as the non-enhancing region adjacent to the tumor with elevated perfusion indexes; and the Vasogenic Peripheral Edema (VPE) habitat, as the remaining edema of the lesion with the lowest perfusion profile. The results of this thesis have been published in ten scientific contributions, including top-ranked journals and conferences in the areas of Medical Informatics, Statistics and Probability, Radiology & Nuclear Medicine, Machine Learning and Data Mining and Biomedical Engineering. An industrial patent registered in Spain (ES201431289A), Europe (EP3190542A1) and EEUU (US20170287133A1) was also issued, summarizing the efforts of the thesis to generate tangible assets besides the academic revenue obtained from research publications. Finally, the methods, technologies and original ideas conceived in this thesis led to the foundation of ONCOANALYTICS CDX, a company framed into the business model of companion diagnostics for pharmaceutical compounds, thought as a vehicle to facilitate the industrialization of the ONCOhabitats technology.
翻訳日:2022-10-18 11:25:43 公開日:2020-09-14
# 最適化器の挙動に影響を与える損失面の変形

Deforming the Loss Surface to Affect the Behaviour of the Optimizer ( http://arxiv.org/abs/2009.08274v1 )

ライセンス: Link先を確認
Liangming Chen, Long Jin, Xiujuan Du, Shuai Li, Mei Liu(参考訳) 深層学習では、通常、最適化処理は形状固定損失面上で行われると仮定される。 そこで,本論文では,まず変形マッピングの新しい概念を提案し,オプティマイザの挙動に影響を及ぼす。 垂直変形写像(VDM)は変形写像の一種であり、最適化器が平坦な領域に入るようにすることができる。 さらに,様々なvdmの設計を行い,損失面への貢献度も提供する。 局所m領域を定義した後、理論的解析により損失面の変形は勾配降下オプティマイザの鋭い極小をフィルターアウトする能力を高めることが示されている。 ロスランドスケープの可視化により,CIFAR-100上のVDMにより拡張されたオリジナルの最適化器と最適化器の両方で得られるミニマの平坦度を評価する。 実験の結果,VDMは平坦な領域を見いだせることがわかった。 さらに、VDMによって強化された一般的な畳み込みニューラルネットワークと、ImageNet、CIFAR-10、CIFAR-100の対応するオリジナルニューラルネットワークを比較した。 VDMを搭載したすべてのモデルに大幅な改善が加えられている。 例えば、CIFAR-100上のResNet-20のトップ-1テスト精度は1.46%向上し、計算オーバーヘッドは著しく増加した。

In deep learning, it is usually assumed that the optimization process is conducted on a shape-fixed loss surface. Differently, we first propose a novel concept of deformation mapping in this paper to affect the behaviour of the optimizer. Vertical deformation mapping (VDM), as a type of deformation mapping, can make the optimizer enter a flat region, which often implies better generalization performance. Moreover, we design various VDMs, and further provide their contributions to the loss surface. After defining the local M region, theoretical analyses show that deforming the loss surface can enhance the gradient descent optimizer's ability to filter out sharp minima. With visualizations of loss landscapes, we evaluate the flatnesses of minima obtained by both the original optimizer and optimizers enhanced by VDMs on CIFAR-100. The experimental results show that VDMs do find flatter regions. Moreover, we compare popular convolutional neural networks enhanced by VDMs with the corresponding original ones on ImageNet, CIFAR-10, and CIFAR-100. The results are surprising: there are significant improvements on all of the involved models equipped with VDMs. For example, the top-1 test accuracy of ResNet-20 on CIFAR-100 increases by 1.46%, with insignificant additional computational overhead.
翻訳日:2022-10-18 11:24:51 公開日:2020-09-14
# ニューラルネットワークのための適応畳み込みカーネル

Adaptive Convolution Kernel for Artificial Neural Networks ( http://arxiv.org/abs/2009.06385v1 )

ライセンス: Link先を確認
F. Boray Tek, \.Ilker \c{C}am, Deniz Karl{\i}(参考訳) 多くのディープニューラルネットワークは、固定および単一サイズの畳み込み層(しばしば3$\times$3)を用いて構築される。 本稿では,1層に異なる大きさのカーネルを提供するために,畳み込みカーネルのサイズを訓練する方法について述べる。 この方法は微分可能であり、したがってベースグリッドで成長または縮小できるバックプロパゲーション訓練可能なガウスエンベロープを用いる。 実験では,提案した適応層を,単純な2層ネットワーク,深い残差ネットワーク,U-Netアーキテクチャの通常の畳み込み層と比較した。 MNIST, MNIST-CLUTTERED, CIFAR-10, Fashion, ``Faces in the Wild'' などの画像分類データセットの結果, 適応型カーネルは通常の畳み込みカーネルに統計的に有意な改善をもたらすことを示した。 オックスフォード・ペッツデータセットのセグメンテーション実験では、U字型ネットワーク内の1つの通常の畳み込み層を7$\times$7適応層に置き換えることで、学習性能と一般化能力が向上することを示した。

Many deep neural networks are built by using stacked convolutional layers of fixed and single size (often 3$\times$3) kernels. This paper describes a method for training the size of convolutional kernels to provide varying size kernels in a single layer. The method utilizes a differentiable, and therefore backpropagation-trainable Gaussian envelope which can grow or shrink in a base grid. Our experiments compared the proposed adaptive layers to ordinary convolution layers in a simple two-layer network, a deeper residual network, and a U-Net architecture. The results in the popular image classification datasets such as MNIST, MNIST-CLUTTERED, CIFAR-10, Fashion, and ``Faces in the Wild'' showed that the adaptive kernels can provide statistically significant improvements on ordinary convolution kernels. A segmentation experiment in the Oxford-Pets dataset demonstrated that replacing a single ordinary convolution layer in a U-shaped network with a single 7$\times$7 adaptive layer can improve its learning performance and ability to generalize.
翻訳日:2022-10-18 11:24:29 公開日:2020-09-14
# スパース分散表現のための可変バインディング:理論と応用

Variable Binding for Sparse Distributed Representations: Theory and Applications ( http://arxiv.org/abs/2009.06734v1 )

ライセンス: Link先を確認
E. Paxon Frady, Denis Kleyko, Friedrich T. Sommer(参考訳) シンボリック推論とニューラルネットワークはしばしば相容れないアプローチとみなされる。 Vector Symbolic Architectures (VSAs)として知られる接続モデルはこのギャップを埋める可能性がある。 しかし、従来のVSAとニューラルネットワークは相容れないと考えられている。 VSAsは密度の高い擬似ランダムベクターでシンボルを符号化し、そこで情報はニューロン全体にわたって分散される。 ニューラルネットワークは特徴をローカルにエンコードし、しばしば神経活性化のスパースベクトルを形成する。 rachkovskij (2001), laiho et al. (2015) に続いて,分散表現のスパースを用いた記号推論について検討する。 VSAsのコア操作は、変数バインディングと集合の表現を表現するベクトル間のダイアディック演算である。 したがって、代数的な操作により、VSAsは固定次元のベクトル空間におけるデータ構造を表現および処理することができる。 圧縮センシングの手法を用いて,まず,vsas内の密度ベクトル間の可変結合が,次元を増加させる演算であるスパースベクトル間のテンソル積結合と数学的に等価であることを示す。 この結果は、一般スパースベクトルに対する次元保存結合は、テンソル行列の単一のスパースベクトルへの還元を含む必要があることを意味する。 sparsity-preserving variable bindingの2つのオプションについて検討した。 一般スパースベクトルの1つの結合法は、テンソル積を円畳み込みのようなベクトルに還元する以前の提案を拡張している。 他の方法はスパースブロック符号、ブロックワイド円形畳み込みのためにのみ定義される。 実験の結果,ブロックコードに対する変数バインディングは理想的な特性を持つが,一般スパースベクトルに対するバインディングも機能するが,従来の提案と同様損失があることがわかった。 認知的推論と分類を応用して, 疎ブロックコードを用いたVSAを実証し, 神経科学とニューラルネットワークとの関連性について考察する。

Symbolic reasoning and neural networks are often considered incompatible approaches. Connectionist models known as Vector Symbolic Architectures (VSAs) can potentially bridge this gap. However, classical VSAs and neural networks are still considered incompatible. VSAs encode symbols by dense pseudo-random vectors, where information is distributed throughout the entire neuron population. Neural networks encode features locally, often forming sparse vectors of neural activation. Following Rachkovskij (2001); Laiho et al. (2015), we explore symbolic reasoning with sparse distributed representations. The core operations in VSAs are dyadic operations between vectors to express variable binding and the representation of sets. Thus, algebraic manipulations enable VSAs to represent and process data structures in a vector space of fixed dimensionality. Using techniques from compressed sensing, we first show that variable binding between dense vectors in VSAs is mathematically equivalent to tensor product binding between sparse vectors, an operation which increases dimensionality. This result implies that dimensionality-preserving binding for general sparse vectors must include a reduction of the tensor matrix into a single sparse vector. Two options for sparsity-preserving variable binding are investigated. One binding method for general sparse vectors extends earlier proposals to reduce the tensor product into a vector, such as circular convolution. The other method is only defined for sparse block-codes, block-wise circular convolution. Our experiments reveal that variable binding for block-codes has ideal properties, whereas binding for general sparse vectors also works, but is lossy, similar to previous proposals. We demonstrate a VSA with sparse block-codes in example applications, cognitive reasoning and classification, and discuss its relevance for neuroscience and neural networks.
翻訳日:2022-10-18 11:24:08 公開日:2020-09-14
# euデータへのカテゴリ埋め込みを用いた深層学習モデルによる食品安全リスク予測

Food safety risk prediction with Deep Learning models using categorical embeddings on European Union data ( http://arxiv.org/abs/2009.06704v1 )

ライセンス: Link先を確認
Alberto Nogales, Rodrigo D\'iaz Mor\'on, \'Alvaro J. Garc\'ia-Tejedor(参考訳) 世界は日々グローバル化しており、人々は世界中のほぼすべての国の製品を地元の店で購入することができる。 国ごとに異なる食品および飼料の安全法を考えると、1977年に欧州連合は、貿易商品に関するすべての不規則を登録し、食品連鎖で公衆衛生へのリスクが検出された場合に、情報と迅速な反応の相互監視を確実にした。 この情報はまた、食品安全に関わる関係者に警告し、資源を最適化するために、予防ツールとして大きな可能性を秘めている。 本稿では,食品問題に関する一連のデータをスクレイプし,機械学習技術を用いて分析し,今後の通知機能を予測することにより,先制措置がとれるようにした。 この研究の斬新さは、Deep Learningモデル(多層パーセプトロンと1次元畳み込みニューラルネットワーク)による分類的埋め込みの使用と、欧州連合における食品問題を予測するためのその応用の2点に依拠している。 モデルでは、製品カテゴリ、ハザードカテゴリ、最終的に適切なアクションなど、いくつかの機能を予測できる。 その結果,74.08%から93.06%の精度でこれらの特徴を予測できることがわかった。

The world is becoming more globalized every day and people can buy products from almost every country in the world in their local stores. Given the different food and feed safety laws from country to country, the European Union began to register in 1977 all irregularities related to traded products to ensure cross-border monitoring of information and a quick reaction when risks to public health are detected in the food chain. This information has also an enormous potential as a preventive tool, in order to warn actors involved in food safety and optimize their resources. In this paper, a set of data related to food issues was scraped and analysed with Machine Learning techniques to predict some features of future notifications, so that pre-emptive measures can be taken. The novelty of the work relies on two points: the use of categorical embeddings with Deep Learning models (Multilayer Perceptron and 1-Dimension Convolutional Neural Networks) and its application to solve the problem of predicting food issues in the European Union. The models allow several features to be predicted: product category, hazard category and finally the proper action to be taken. Results show that the system can predict these features with an accuracy ranging from 74.08% to 93.06%.
翻訳日:2022-10-18 11:23:15 公開日:2020-09-14
# コンピュータビジョンコンペティションにおけるCVPR 2020継続学習:アプローチ,結果,課題,今後の方向性

CVPR 2020 Continual Learning in Computer Vision Competition: Approaches, Results, Current Challenges and Future Directions ( http://arxiv.org/abs/2009.09929v1 )

ライセンス: Link先を確認
Vincenzo Lomonaco, Lorenzo Pellegrini, Pau Rodriguez, Massimo Caccia, Qi She, Yu Chen, Quentin Jodelet, Ruiping Wang, Zheda Mai, David Vazquez, German I. Parisi, Nikhil Churamani, Marc Pickett, Issam Laradji, Davide Maltoni(参考訳) ここ数年、私たちは、現在のAIシステムをより適応的、効率的、自律的にすることを目的として、ディープニューラルネットワークによる継続的学習への関心が急速に高まっているのを目撃してきました。 しかし、破滅的な忘れ込みの問題に対処する分野の重大な進歩にもかかわらず、異なる連続学習アプローチのベンチマークはそれ自体が難しい課題である。 実際、異なる設定、トレーニングおよび評価プロトコル、メトリクスおよび命名法の増加を考えると、連続学習アルゴリズムを適切に特徴付けし、他のソリューションと関連付け、実際の適用可能性を評価するのは、しばしば難しい。 2020年にCVPRで開催された最初のContinuous Learning in Computer Visionチャレンジは、共有評価メトリクスの大規模なセットと、現実的なCORe50ビデオベンチマークに基づく3つの異なる設定を備えた、共通のハードウェア上で異なる連続学習アルゴリズムを評価する最初の機会の1つである。 本稿では,79チーム以上を登録し,11人のファイナリストと2300ドルの賞金を計上した大会の主な結果について報告する。 また、勝利のアプローチ、現在の課題、今後の研究方向性についてもまとめる。

In the last few years, we have witnessed a renewed and fast-growing interest in continual learning with deep neural networks with the shared objective of making current AI systems more adaptive, efficient and autonomous. However, despite the significant and undoubted progress of the field in addressing the issue of catastrophic forgetting, benchmarking different continual learning approaches is a difficult task by itself. In fact, given the proliferation of different settings, training and evaluation protocols, metrics and nomenclature, it is often tricky to properly characterize a continual learning algorithm, relate it to other solutions and gauge its real-world applicability. The first Continual Learning in Computer Vision challenge held at CVPR in 2020 has been one of the first opportunities to evaluate different continual learning algorithms on a common hardware with a large set of shared evaluation metrics and 3 different settings based on the realistic CORe50 video benchmark. In this paper, we report the main results of the competition, which counted more than 79 teams registered, 11 finalists and 2300$ in prizes. We also summarize the winning approaches, current challenges and future research directions.
翻訳日:2022-10-18 11:15:09 公開日:2020-09-14
# 堅牢なディープラーニングのためのリスク境界

Risk Bounds for Robust Deep Learning ( http://arxiv.org/abs/2009.06202v1 )

ライセンス: Link先を確認
Johannes Lederer(参考訳) ある種の損失関数は、データの欠陥に対してディープラーニングパイプラインを堅牢にすることができる。 本稿では,これらの経験的発見を統計的理論で支援する。 特に,非有界リプシッツ連続損失関数,例えば最小絶対偏差損失,フーバー損失,コーシー損失,トゥキーの双重損失などの経験的リスク最小化は,データに対する最小の仮定の下で効率的に予測できることを示す。 より一般的には、ディープラーニングにおけるロバストな損失関数の利点に関する理論的証拠を提供する。

It has been observed that certain loss functions can render deep-learning pipelines robust against flaws in the data. In this paper, we support these empirical findings with statistical theory. We especially show that empirical-risk minimization with unbounded, Lipschitz-continuous loss functions, such as the least-absolute deviation loss, Huber loss, Cauchy loss, and Tukey's biweight loss, can provide efficient prediction under minimal assumptions on the data. More generally speaking, our paper provides theoretical evidence for the benefits of robust loss functions in deep learning.
翻訳日:2022-10-18 11:14:46 公開日:2020-09-14
# 属性-属性相互作用に基づく高レベル分類のための新しい複雑なネットワーク構築手法

New complex network building methodology for High Level Classification based on attribute-attribute interaction ( http://arxiv.org/abs/2009.06762v1 )

ライセンス: Link先を確認
Esteban Wilfredo Vilca Zu\~niga(参考訳) 高レベルの分類アルゴリズムはインスタンス間の相互作用に焦点を当てている。 これらはデータの評価と分類のための新しい形式を生み出します。 このプロセスにおいて、コアは、分類に使用するメトリクスを決定するため、複雑なネットワーク構築手法である。 現在の手法では、これらのグラフを生成するためにkNNのバリエーションを使用している。 しかし、この手法は属性間の隠れパターンを無視し、正確に正規化する必要がある。 本稿では,属性の隠れたパターンを正規化する必要のない属性・属性相互作用に基づくネットワーク構築のための新しい手法を提案する。 現在の結果から,現在のハイレベル技術の改善に有効であることが示された。

High-level classification algorithms focus on the interactions between instances. These produce a new form to evaluate and classify data. In this process, the core is the complex network building methodology because it determines the metrics to be used for classification. The current methodologies use variations of kNN to produce these graphs. However, this technique ignores some hidden pattern between attributes and require normalization to be accurate. In this paper, we propose a new methodology for network building based on attribute-attribute interactions that do not require normalization and capture the hidden patterns of the attributes. The current results show us that could be used to improve some current high-level techniques.
翻訳日:2022-10-18 11:13:52 公開日:2020-09-14