このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201126となっている論文です。

PDF登録状況(公開日: 20201126)

TitleAuthorsAbstract論文公表日・翻訳日
# 先行知識に基づくAlpha Discovery Neural Network

Alpha Discovery Neural Network based on Prior Knowledge ( http://arxiv.org/abs/1912.11761v8 )

ライセンス: Link先を確認
Jie Fang, Shutao Xia, Jianwu Lin, Zhikang Xia, Xiang Liu, and Yong Jiang(参考訳) 遺伝的プログラミング(GP)は、金融自動化機能構築タスクにおける最先端技術である。 逆ポーランド表現を使って特徴を表現し、進化プロセスを実行する。 しかし、ディープラーニングの開発により、より強力な機能抽出ツールが利用可能になった。 本稿では,従来の知識に基づいて,多様な金融技術指標を自動的に構築できるニューラルネットワーク構造であるAlpha Discovery Neural Network (ADNN)を提案する。 私たちは主に3つの貢献をした。 まず、量的取引におけるドメイン知識を用いて、サンプリングルールとオブジェクト関数を設計する。 第二に、事前学習とモデル刈り取りは、より効率的な進化プロセスを実行することができるため、遺伝的プログラミングを置き換えるために使われてきた。 第三に、ADNNの特徴抽出器は異なる特徴抽出器に置き換えられ、異なる機能を生成することができる。 実験の結果,ADNNはGPよりも情報的かつ多様な特徴を構築でき,現行のファクタープールを効果的に強化できることがわかった。 完全接続されたネットワークとリカレントネットワークは、畳み込みニューラルネットワークよりも金融時系列から情報を抽出するのに優れている。 実際には、ADNNが構築した機能は、これらの要因のない投資戦略と比較して、常にマルチファクタ戦略の収益、シャープ比、最大引き出しを改善することができる。

Genetic programming (GP) is the state-of-the-art in financial automated feature construction task. It employs reverse polish expression to represent features and then conducts the evolution process. However, with the development of deep learning, more powerful feature extraction tools are available. This paper proposes Alpha Discovery Neural Network (ADNN), a tailored neural network structure which can automatically construct diversified financial technical indicators based on prior knowledge. We mainly made three contributions. First, we use domain knowledge in quantitative trading to design the sampling rules and object function. Second, pre-training and model pruning has been used to replace genetic programming, because it can conduct more efficient evolution process. Third, the feature extractors in ADNN can be replaced by different feature extractors and produce different functions. The experiment results show that ADNN can construct more informative and diversified features than GP, which can effectively enriches the current factor pool. The fully-connected network and recurrent network are better at extracting information from the financial time series than the convolution neural network. In real practice, features constructed by ADNN can always improve multi-factor strategies' revenue, sharpe ratio, and max draw-down, compared with the investment strategies without these factors.
翻訳日:2023-06-10 08:29:50 公開日:2020-11-26
# 有限温度初期化閉量子系に対する断熱定理

Adiabatic theorem for closed quantum systems initialized at finite temperature ( http://arxiv.org/abs/2002.02947v3 )

ライセンス: Link先を確認
Nikolai Il`in, Anastasia Aristova, Oleg Lychkovskiy(参考訳) 駆動された量子系の進化は、系の状態が時間に依存したハミルトニアンの瞬時固有状態に近づくと断熱的になると言われる。 有名な量子断熱定理は、十分な駆動率を選べば、そのような純粋な状態断熱性は任意の精度で維持できる。 ここで、量子断熱性の概念を、最初は有限温度で準備された閉量子系に拡張する。 この場合 adiabaticity は、系の(混合された)状態がハミルトニアンの瞬時固有状態に基づいて準ギブズ状態の対角線近くにあることを意味する。 有限温度断熱性に対する十分条件を証明する。 これは、特に多体系において、有限温度断熱性が純粋な状態断熱性よりも頑丈であることを意味する。 本稿では,熱力学的極限において有限温度の断熱性が維持され,純状態の断熱性が崩壊する多体系の例を示す。

The evolution of a driven quantum system is said to be adiabatic whenever the state of the system stays close to an instantaneous eigenstate of its time-dependent Hamiltonian. The celebrated quantum adiabatic theorem ensures that such pure state adiabaticity can be maintained with arbitrary accuracy, provided one chooses a small enough driving rate. Here, we extend the notion of quantum adiabaticity to closed quantum systems initially prepared at finite temperature. In this case adiabaticity implies that the (mixed) state of the system stays close to a quasi-Gibbs state diagonal in the basis of the instantaneous eigenstates of the Hamiltonian. We prove a sufficient condition for the finite temperature adiabaticity. Remarkably, it implies that the finite temperature adiabaticity can be more robust than the pure state adiabaticity, particularly in many-body systems. We present an example of a many-body system where, in the thermodynamic limit, the finite temperature adiabaticity is maintained, while the pure state adiabaticity breaks down.
翻訳日:2023-06-04 07:23:28 公開日:2020-11-26
# 導波路におけるイテナントマイクロ波光子のプログラム可能な指向性エミッタと受信

Programmable directional emitter and receiver of itinerant microwave photons in a waveguide ( http://arxiv.org/abs/2004.01924v2 )

ライセンス: Link先を確認
Nicolas Gheeraert, Shingo Kono and Yasunobu Nakamura(参考訳) 理論的には、導波路内の単一イテナントマイクロ波光子の動的二方向性発光と吸収を理論的に示す。 提案装置は、波長4分の1の導波路に結合した2つの量子ビットからなる人工分子である。 入力出力理論に基づくシミュレーションを用いて、2つの量子ビットの適切な絡み合った状態を作成すると、光子を2つの量子ビットの左右に生じる破壊的干渉の結果、方向に放出することを示した。 さらに,この人工分子は,与えられた2つのノード間で量子情報を交換できる完全相互接続型1次元量子ネットワークを構築する上で不可欠な機能である,光子をオンデマンドで吸収・伝達する能力を有することを実証する。

We theoretically demonstrate dynamically selective bidirectional emission and absorption of a single itinerant microwave photon in a waveguide. The proposed device is an artificial molecule composed of two qubits coupled to a waveguide a quarter-wavelength apart. By using simulations based on the input--output theory, we show that upon preparing an appropriate entangled state of the two qubits, a photon is emitted directionally as a result of the destructive interference occurring either at the right or left of the qubits. Moreover, we demonstrate that this artificial molecule possesses the capability of absorbing and transmitting an incoming photon on-demand, a feature essential to the creation of a fully inter-connected one-dimensional quantum network, in which quantum information can be exchanged between any two given nodes.
翻訳日:2023-05-26 11:00:39 公開日:2020-11-26
# 駆動量子点接触による輸送における非平衡相転移

Nonequilibrium phase transition in transport through a driven quantum point contact ( http://arxiv.org/abs/2006.02400v2 )

ライセンス: Link先を確認
Oleksandr Gamayun, Artur Slobodeniuk, Jean-S\'ebastien Caux, Oleg Lychkovskiy(参考訳) 我々は2つの密結合鎖を接続する周期駆動量子点接触(QPC)を介して非相互作用フェルミオンの輸送を研究する。 当初、それぞれの鎖はそれぞれの平衡状態に形成され、一般に化学ポテンシャルと温度のバイアスを持つ。 初期過渡動力学後に確立された非平衡時間周期定常状態における加熱速度(またはサイクル当たりのエネルギー増加)について検討する。 駆動周波数がチェーンの帯域を超えると加熱速度が同じになることがわかった。 まず、熱速度を解析的に計算できる特定のタイプのQPCについて、この事実を確定する。 そして、この非平衡相転移が一般的なQPCに対して存在することを数値的に検証する。 最後に、qpcハミルトニアンが小さな摂動と見なすことができる場合の先行順序において、この効果を摂動的に導出する。 興味深いことに、一部のQPCでは、運転サイクルで平均された電流は、持続的なバイアスにもかかわらず臨界周波数以上で消える。 これは、駆動QPCが周波数制御量子スイッチとして機能することを示している。

We study transport of noninteracting fermions through a periodically driven quantum point contact (QPC) connecting two tight-binding chains. Initially, each chain is prepared in its own equilibrium state, generally with a bias in chemical potentials and temperatures. We examine the heating rate (or, alternatively, energy increase per cycle) in the nonequilibrium time-periodic steady state established after initial transient dynamics. We find that the heating rate vanishes identically when the driving frequency exceeds the bandwidth of the chain. We first establish this fact for a particular type of QPC where the heating rate can be calculated analytically. Then we verify numerically that this nonequilibrium phase transition is present for a generic QPC. Finally, we derive this effect perturbatively in leading order for cases when the QPC Hamiltonian can be considered as a small perturbation. Strikingly, we discover that for certain QPCs the current averaged over the driving cycle also vanishes above the critical frequency, despite a persistent bias. This shows that a driven QPC can act as a frequency-controlled quantum switch.
翻訳日:2023-05-17 06:31:09 公開日:2020-11-26
# 新型コロナウイルスのアウトブレイクの制御--非協力型ゲームの視点から

Controlling the Outbreak of COVID-19: A Noncooperative Game Perspective ( http://arxiv.org/abs/2007.13305v2 )

ライセンス: Link先を確認
Anupam Kumar Bairagi, Mehedi Masud, Do Hyeon Kim, Md. Shirajum Munir, Abdullah Al Nahid, Sarder Fakhrul Abedin, Kazi Masudul Alam, Sujit Biswas, Sultan S Alshamrani, Zhu Han, and Choong Seon Hong(参考訳) 新型コロナウイルスは世界的な流行です。 これまでのところ、この流行に対する治療は行われていない。 しかし、孤立と社会的距離は、このパンデミックを抑える効果的な予防措置であると考えられる。 そこで本稿では,個人の孤立性と社会的分散性を考慮した最適化問題を定式化する。 ソーシャルディスタンスを促進するために,非協力型ゲームを適用し,ソーシャルディスタンスを維持するインセンティブを与えて,新型コロナウイルスの感染拡大を防ぐことで,定式化問題を解決する。 さらに,このロックダウン政策の持続性は,ナッシュ均衡が存在する社会距離を維持するためのゲーム理論インセンティブモデルの助けを借りて解釈した。 最後に,非協力環境におけるcovid-19感染防止のための望ましいソーシャルディスタンシングの実現という観点から,提案手法の有効性を示す広範な数値解析を行う。 数値的な結果から, 個人のインセンティブが85%以上増加し, 住宅隔離の割合が25%から100%に増加したことが示唆された。 数値的な結果は、特定の家庭隔離率において、個人のインセンティブが個人数の増加とともに減少することを示している。

COVID-19 is a global epidemic. Till now, there is no remedy for this epidemic. However, isolation and social distancing are seemed to be effective preventive measures to control this pandemic. Therefore, in this paper, an optimization problem is formulated that accommodates both isolation and social distancing features of the individuals. To promote social distancing, we solve the formulated problem by applying a noncooperative game that can provide an incentive for maintaining social distancing to prevent the spread of COVID-19. Furthermore, the sustainability of the lockdown policy is interpreted with the help of our proposed game-theoretic incentive model for maintaining social distancing where there exists a Nash equilibrium. Finally, we perform an extensive numerical analysis that shows the effectiveness of the proposed approach in terms of achieving the desired social-distancing to prevent the outbreak of the COVID-19 in a noncooperative environment. Numerical results show that the individual incentive increases more than 85% with an increasing percentage of home isolation from 25% to 100% for all considered scenarios. The numerical results also demonstrate that in a particular percentage of home isolation, the individual incentive decreases with an increasing number of individuals.
翻訳日:2023-05-08 02:56:49 公開日:2020-11-26
# 多臨界一次元トポロジー絶縁体におけるスケーリング挙動

Scaling behavior in a multicritical one-dimensional topological insulator ( http://arxiv.org/abs/2008.08158v2 )

ライセンス: Link先を確認
M. Malard, H. Johannesson, W. Chen(参考訳) スピン軌道結合電子のAubry-Andr\e-Harperモデルのクラスは、同じ位相に属する2つの領域が多重臨界点によって分割される位相位相図を示す。 この点で一致する臨界線は、それぞれが位相的量子相転移と基底状態エネルギーの2階非解析性を定義し、制御パラメータに関してスペクトルギャップを線形に閉ざす。 ここで、両方の臨界性は、モデルの位相不変量から定義される曲率関数のスケーリング解析によって特徴づけられる。 ギャップが閉まるブリルアンゾーンの非高対称性点における発散曲率関数の臨界指数を抽出し、高対称性点における平坦曲率関数に対して再正規化群アプローチを適用する。 また,ワニエ状態間の基底非依存相関関数を導出して遷移を特徴付ける。 興味深いことに、スペクトルギャップに関して定義された臨界指数とスケーリング法則は、遷移の順序にかかわらず同じである。

A class of Aubry-Andr\'e-Harper models of spin-orbit coupled electrons exhibits a topological phase diagram where two regions belonging to the same phase are split up by a multicritical point. The critical lines which meet at this point each defines a topological quantum phase transition with a second-order nonanalyticity of the ground-state energy, accompanied by a linear closing of the spectral gap with respect to the control parameter; except at the multicritical point which supports fourth-order transitions with parabolic gap-closing. Here both types of criticality are characterized through a scaling analysis of the curvature function defined from the topological invariant of the model. We extract the critical exponents of the diverging curvature function at the non-high symmetry points in the Brillouin zone where the gap closes, and also apply a renormalization group approach to the flattening curvature function at high symmetry points. We also derive a basis-independent correlation function between Wannier states to characterize the transition. Intriguingly, we find that the critical exponents and scaling law defined with respect to the spectral gap remain the same regardless of the order of the transition.
翻訳日:2023-05-05 22:37:05 公開日:2020-11-26
# 非侵襲的弱測定によるWigner Friendのシナリオ

Wigner Friend scenarios with non-invasive weak measurements ( http://arxiv.org/abs/2008.09003v2 )

ライセンス: Link先を確認
A. Matzkin and D. Sokolovski(参考訳) Wigner Friendのシナリオ — 外部のエージェントが量子力学的に、友人が測定をしている実験室を記述する — は、量子測定の曖昧な性質によって起こりうる矛盾を引き起こす。 本研究では,外的エージェントが研究室内のダイナミクスを非侵襲的に探究できる,より深い友人のシナリオについて検討する。 我々は、友人によって測定されたシステムや、実験室内のポインタや環境と非常に弱い結合性を持つプローブを調べる。 これらの結合は弱測定と呼ばれ、漸近的に小さく、友人やその確率によって得られる結果を変えない。 本手法では, 弱結合プローブは, 量子測定理論の不一致とは関係なく, 外部エージェントに対して一貫した予測を得る方法を示すことを示す。 これらの非侵襲的な結合は、現在の技術で実装できる。

Wigner Friend scenarios -- in which an external agent describes quantum mechanically a laboratory in which a Friend is making a measurement -- give rise to possible inconsistencies due to the ambiguous character of quantum measurements. In this work, we investigate Wigner Friend scenarios in which the external agents can probe in a non-invasive manner the dynamics inside the laboratories. We examine probes that can be very weakly coupled to the systems measured by the Friends, or to the pointers or environments inside the laboratories. These couplings, known as Weak Measurements, are asymptotically small and do not change the outcomes obtained by the Friends nor their probabilities. Within our scheme, we show that the weakly coupled probes indicate to the external agents how to obtain consistent predictions, irrespective of the possible inconsistencies of quantum measurement theory. These non-invasive couplings could be implemented with present-day technologies.
翻訳日:2023-05-05 12:14:02 公開日:2020-11-26
# 衝突脱コヒーレンスモデルにおける固有状態脱コヒーレンス仮説の検証

Testing eigenstate decoherence hypothesis in a model of collisional decoherence ( http://arxiv.org/abs/2009.08509v2 )

ライセンス: Link先を確認
Ivan V. Dudinets, Igor Ermakov, Oleg Lychkovskiy(参考訳) 固有状態脱コヒーレンス仮説 (EDH) は、大きな閉系の個々の固有状態が局所的古典的様相であると主張する。 我々はこの仮説を、光粒子の気体と相互作用する重い粒子に対して検証する。 この系は量子-古典遷移の研究においてパラダイム的であり、重い粒子の還元状態は気体との相互作用によって急速に非古典的特徴を緩めると信じられている。 しかし、EDHが違反しているという数値的な証拠は見出され、このモデルの固有状態は明らかに古典的ではない。 EDHの弱いバージョンのみが固有状態の多数派(総数ではなく)を指す。

The eigenstate decoherence hypothesis (EDH) asserts that each individual eigenstate of a large closed system is locally classical-like. We test this hypothesis for a heavy particle interacting with a gas of light particles. This system is paradigmatic for studies of the quantum-to-classical transition: The reduced state of the heavy particle is widely believed to rapidly loose any nonclassical features due to the interaction with the gas. Yet, we find numerical evidence that the EDH is violated: certain eigenstates of this model are manifestly non-classical. Only the weak version of EDH referring to the majority (instead of the totality) of eigenstates holds.
翻訳日:2023-05-01 23:59:46 公開日:2020-11-26
# 量子アニーラを用いた分子の基底状態の計算

Using Quantum Annealers to Calculate Ground State Properties of Molecules ( http://arxiv.org/abs/2009.10779v2 )

ライセンス: Link先を確認
Justin Copenhaver, Adam Wasserman, Birgit Wehefritz-Kaufmann(参考訳) 量子アンネラ(quantum annealers)は、物理的に実現可能なハミルトニアンの基底状態を見つけるために断熱定理を用いる量子コンピューティングの代替手法である。 これらのデバイスは現在市販されており、いくつかの組合せおよび離散最適化問題に適用されている。 しかし、量子アニールの化学問題への応用は、分子系をイジングモデルハミルトニアンにマッピングすることが困難であるため、研究の領域としては比較的疎いままである。 本稿では,Isingモデルを用いた量子アニールを用いた分子ハミルトニアンの基底状態探索法について述べる。 さらに, H+3およびH2O分子の結合エネルギー, 結合長, 結合角を計算し, そのポテンシャルエネルギー曲線をマッピングすることによって, 各手法の相対効果を比較する。 また,様々なパラメータ値を用いて各分子をシミュレートするのに必要なキュービット数と計算時間を決定することにより,各手法の資源要求を評価する。 これらの手法はそれぞれ、小分子の基底状態特性を正確に予測することができるが、現代の古典的アルゴリズムではまだ優れており、資源要求のスケーリングは依然として課題である。

Quantum annealers are an alternative approach to quantum computing which make use of the adiabatic theorem to efficiently find the ground state of a physically realizable Hamiltonian. Such devices are currently commercially available and have been successfully applied to several combinatorial and discrete optimization problems. However, the application of quantum annealers to problems in chemistry remains a relatively sparse area of research due to the difficulty in mapping molecular systems to the Ising model Hamiltonian. In this paper we review two different methods for finding the ground state of molecular Hamiltonians using Ising model-based quantum annealers. In addition, we compare the relative effectiveness of each method by calculating the binding energies, bond lengths, and bond angles of the H+3and H2O molecules and mapping their potential energy curves. We also assess the resource requirements of each method by determining the number of qubits and computation time required to simulate each molecule using various parameter values. While each of these methods is capable of accurately predicting the ground state properties of small molecules, we find that they are still outperformed by modern classical algorithms and that the scaling of the resource requirements remains a challenge.
翻訳日:2023-05-01 06:47:03 公開日:2020-11-26
# 時間依存型および時間依存型量子多体ハミルトン写像

A map between time-dependent and time-independent quantum many-body Hamiltonians ( http://arxiv.org/abs/2009.13873v4 )

ライセンス: Link先を確認
Oleksandr Gamayun and Oleg Lychkovskiy(参考訳) 時間非依存のハミルトニアン $\widetilde H$ が与えられたとき、ゲージ変換 $H_t=U_t \widetilde H \, U^\dagger_t-i\, U_t\, \partial_t U_t^\dagger$ を用いて時間依存のハミルトニアン $H_t$ を構築することができる。 ここで $u_t$ は対応するシュロディンガー方程式の解を関連付けるユニタリ変換である。 多体の場合、通常、少数体(多くは2体)相互作用を持つハミルトニアンに興味を持つ。 このようなハミルトニアンを「物理的」と呼ぶ。 u_t$ の条件は、$\widetilde h$ が物理的(かつその逆)である限り、$h_t$ が物理的であることを保証する。 このようにして、そのような物理的ハミルトニアン対を見つける一般的な方法を得ることができ、h_t$ によって支配される駆動された多体力学は時間に依存しない $\widetilde h$ のためにクエンチ力学に還元できる。 この手法を多数の多体システムに適用する。 まず、等方的ハイゼンベルク相互作用と任意の時間依存磁場を持つスピン系の磁場のない時間非依存系へのマッピングを概観する(F. Yan, L. Yang, B. Li, Phys. Lett. A 251, 289 (1999); Phys. Lett. A 259, 207 (1999)]。 そして、本質的に同じゲージ変換が相互作用するフェルミオンの系から任意の時間依存磁場を排除することを実証する。 さらに、この手法を量子イジングスピン系とボゾン環境に結合したスピンに適用する。 より一般的な状況では、$\widetilde H = \widetilde H_t$ は時間依存であるが動的に可積分である。

Given a time-independent Hamiltonian $\widetilde H$, one can construct a time-dependent Hamiltonian $H_t$ by means of the gauge transformation $H_t=U_t \widetilde H \, U^\dagger_t-i\, U_t\, \partial_t U_t^\dagger$. Here $U_t$ is the unitary transformation that relates the solutions of the corresponding Schrodinger equations. In the many-body case one is usually interested in Hamiltonians with few-body (often, at most two-body) interactions. We refer to such Hamiltonians as "physical". We formulate sufficient conditions on $U_t$ ensuring that $H_t$ is physical as long as $\widetilde H$ is physical (and vice versa). This way we obtain a general method for finding such pairs of physical Hamiltonians $H_t$, $\widetilde H$ that the driven many-body dynamics governed by $H_t$ can be reduced to the quench dynamics due to the time-independent $\widetilde H$. We apply this method to a number of many-body systems. First we review the mapping of a spin system with isotropic Heisenberg interaction and arbitrary time-dependent magnetic field to the time-independent system without a magnetic field [F. Yan, L. Yang, B. Li, Phys. Lett. A 251, 289 (1999); Phys. Lett. A 259, 207 (1999)]. Then we demonstrate that essentially the same gauge transformation eliminates an arbitrary time-dependent magnetic field from a system of interacting fermions. Further, we apply the method to the quantum Ising spin system and a spin coupled to a bosonic environment. We also discuss a more general situation where $\widetilde H = \widetilde H_t$ is time-dependent but dynamically integrable.
翻訳日:2023-04-30 16:30:30 公開日:2020-11-26
# 空洞QED刺激ラマン断熱路におけるカオスの量子署名

Quantum signatures of chaos in a cavity-QED-based stimulated Raman adiabatic passage ( http://arxiv.org/abs/2010.15536v2 )

ライセンス: Link先を確認
Amit Dey(参考訳) 非線形刺激ラマン断熱通路(stirap)は、カオス相と非カオス相を動的に探索する興味深い物理過程である。 最近の論文では、Phys。 res. 2, 042004 (r) (2020) では、キャビティqedプラットフォームでこのような現象が実現されている。 そこで, カオスの出現とシュリープ効率への影響は, 主に半古典的限界で示される。 本稿では,この問題を量子多体フレームワークで扱う。 古典的なカオスシステムの量子シグネチャを抽出することを目的として、時間外順序付き相関器(OTOC)測定がシステムのカオス的/非カオス的特徴を正確に捉えていることが示されている。 OTOCによる予測は、リアプノフ指数(LE)によって定量化された古典的なカオスと正確に一致している。 さらに, 半古典的後続状態に対応する量子経路はカオス相における単一粒子純度低下に遭遇し, カオスの結果が示されている。 カオス相のダイナミクスは、多体量子状態の拡散と、関与する断熱的固有状態の数の不可逆的な増加に関係している。

A nonlinear stimulated Raman adiabatic passage (STIRAP) is a fascinating physical process that dynamically explores chaotic and non-chaotic phases. In a recent paper Phys. Rev. Res. 2, 042004 (R) (2020), such a phenomenon is realized in a cavity-QED platform. There, the emergence of chaos and its impact on STIRAP efficiency are mainly demonstrated in the semiclassical limit. In the present paper I treat the problem in a fully quantum many-body framework. With the aim of extracting quantum signatures of a classically chaotic system, it is shown that an out-of-time-ordered correlator (OTOC) measure precisely captures chaotic/non-chaotic features of the system. The prediction by OTOC is in precise matching with classical chaos quantified by Lyapunov exponent (LE). Furthermore, it is shown that the quantum route corresponding to the semiclassical followed state encounters a dip in single-particle purity within the chaotic phase, depicting a consequence of chaos. A dynamics through the chaotic phase is associated with spreading of many-body quantum state and an irreversible increase in the number of participating adiabatic eigenstates.
翻訳日:2023-04-27 00:59:46 公開日:2020-11-26
# 予測倫理と不確実性の役割

Anticipatory Ethics and the Role of Uncertainty ( http://arxiv.org/abs/2011.13170v1 )

ライセンス: Link先を確認
Priyanka Nanayakkara, Nicholas Diakopoulos, Jessica Hullman(参考訳) テクノロジーの将来的な影響を推測することは、様々な形の不確実性を減らそうとする試みである。 これらの予想の生成と推論には、それらの潜在的な限界を理解する必要がある。 言い換えれば、下流の結果に対する与えられた予想に関連する不確実性を考慮する体系的な方法が必要である。 本研究は, 将来的な影響を先験的倫理問題として捉え, 社会への技術導入にともない, 合理的な結果とその倫理的影響を反映したシナリオを開発することを目的とする。 様々な形の不確実性が、どのようにして結果のシナリオを理由付けるかを明らかにするために、潜在的なシナリオ構築プロセスで発生する不確実性のタイプを特徴づける。

Making conjectures about future consequences of a technology is an exercise in trying to reduce various forms of uncertainty. Both to produce and reason about these conjectures requires understanding their potential limitations. In other words, we need systematic ways of considering uncertainty associated with given conjectures for downstream consequences. In this work, we frame the task of considering future consequences as an anticipatory ethics problem, where the goal is to develop scenarios that reflect plausible outcomes and their ethical implications following a technology's introduction into society. In order to shed light on how various forms of uncertainty might inform how we reason about a resulting scenario, we provide a characterization of the types of uncertainty that arise in a potential scenario-building process.
翻訳日:2023-04-22 22:53:01 公開日:2020-11-26
# 超伝導量子ビットハミルトニアン近似が量子状態の進化と制御に及ぼす影響

Superconductor Qubits Hamiltonian Approximations Effect on Quantum State Evolution and Control ( http://arxiv.org/abs/2011.13156v1 )

ライセンス: Link先を確認
Javad Sharifi(参考訳) 超伝導電荷量子ビット、位相量子ビット、フラックス量子ビットのブロッホ球面上の量子状態は、外部駆動がなければ、初期状態に安定する。 量子ビットを駆動することで、電荷と磁束のハミルトニアンの近似は、軸の周りのブロッホ球面における量子状態の回転と完全ハミルトニアンの回転ベクトルとは完全に異なる。 位相量子ビットと正確なハミルトニアンの量子状態の軌跡は同じだが、量子可観測性の期待は他の2つの量子ビットとはかなりの誤差を持つ。 マイクロ波駆動制御は近似ハミルトニアンのために設計され、実システム上で実行され、所望の軌道に関して全く異なる軌道を示す。 最後に、外部の$\mu$V電圧制御とnA電流制御を備えた非線形制御を、量子状態を完全に所望の状態に安定化させる一般量子ビット向けに設計する。

Quantum state on Bloch sphere for superconducting charge qubit, phase qubit and flux qubit for all time in absence of external drive is stable to initial state. By driving the qubits, approximation of charge and flux Hamiltonian lead to quantum state rotation in Bloch sphere around an axis completely differ from rotation vector of exact Hamiltonian. The trajectory of quantum state for phase qubit for approximated and exact Hamiltonian is the same but the expectation of quantum observable has considerable errors as two other qubits. microwave drive control is designed for approximated Hamiltonian and exerted on actual systems and shows completely different trajectory with respect to desired trajectory. Finally a nonlinear control with external $\mu$V voltage control and nA current control is designed for general qubit which completely stabilizes quantum state toward a desired state.
翻訳日:2023-04-22 22:52:49 公開日:2020-11-26
# 量子ネットワークにおける決定論的多ビット絡み合い

Deterministic multi-qubit entanglement in a quantum network ( http://arxiv.org/abs/2011.13108v1 )

ライセンス: Link先を確認
Youpeng Zhong, Hung-Shen Chang, Audrey Bienfait, \'Etienne Dumur, Ming-Han Chou, Christopher R. Conner, Joel Grebel, Rhys G. Povey, Haoxiong Yan, David I. Schuster and Andrew N. Cleland(参考訳) 量子エンタングルメント(quantum entanglement)は、量子計算と量子通信の鍵となるリソースである。 大規模量子通信や計算ネットワークへのスケーリングはさらに、多ビットエンタングルメント \cite{Gottesman 1999,Duan 2001,Jiang2007} の決定論的生成を必要とする。 マイクロ波光子 \cite{Kurpiers2018,Axline2018,Campagne2018,Leung2019,Zhong2019},光光子 \cite{Humphreys2018} と表面音響フォノン \cite{Bienfait2019} で、2つのリモート量子ビットの決定論的絡み合いが証明されている。 しかし、多ビットエンタングルメントの決定論的生成と伝達は、主に限られた状態伝達特性のために証明されていない。 本稿では、1メートルの超伝導同軸ケーブルで接続された2つの別々の超伝導量子ノードからなる量子ネットワークについて報告する。 同軸ケーブルを各ノードの1キュービットに直接接続することで、プロセス忠実度0.911\pm0.008$のノード間で量子状態の転送が可能となる。 高忠実度通信リンクを用いて、3ビットのグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)を1つのノードに準備し、この状態を他のノードに決定的に転送し、転送状態の忠実度は0.656\pm 0.014$である。 さらに、このシステムを用いて、2ノードの6ビットGHZ状態を生成し、その状態忠実度は0.722\pm0.021$である。 GHZ状態忠実度は、真のマルチパーティライトエンタングルメントのしきい値である1/2$よりも明らかに高く、このアーキテクチャは、複数の超伝導量子プロセッサをコヒーレントに結合するために使用でき、大規模な量子コンピュータを構築するためのモジュラーアプローチを提供する。

Quantum entanglement is a key resource for quantum computation and quantum communication \cite{Nielsen2010}. Scaling to large quantum communication or computation networks further requires the deterministic generation of multi-qubit entanglement \cite{Gottesman1999,Duan2001,Jiang2007}. The deterministic entanglement of two remote qubits has recently been demonstrated with microwave photons \cite{Kurpiers2018,Axline2018,Campagne2018,Leung2019,Zhong2019}, optical photons \cite{Humphreys2018} and surface acoustic wave phonons \cite{Bienfait2019}. However, the deterministic generation and transmission of multi-qubit entanglement has not been demonstrated, primarily due to limited state transfer fidelities. Here, we report a quantum network comprising two separate superconducting quantum nodes connected by a 1 meter-long superconducting coaxial cable, where each node includes three interconnected qubits. By directly connecting the coaxial cable to one qubit in each node, we can transfer quantum states between the nodes with a process fidelity of $0.911\pm0.008$. Using the high-fidelity communication link, we can prepare a three-qubit Greenberger-Horne-Zeilinger (GHZ) state \cite{Greenberger1990,Neeley2010,Dicarlo2010} in one node and deterministically transfer this state to the other node, with a transferred state fidelity of $0.656\pm 0.014$. We further use this system to deterministically generate a two-node, six-qubit GHZ state, globally distributed within the network, with a state fidelity of $0.722\pm0.021$. The GHZ state fidelities are clearly above the threshold of $1/2$ for genuine multipartite entanglement \cite{Guhne2010}, and show that this architecture can be used to coherently link together multiple superconducting quantum processors, providing a modular approach for building large-scale quantum computers \cite{Monroe2014,Chou2018}.
翻訳日:2023-04-22 22:52:02 公開日:2020-11-26
# 線形秘密鍵容量境界を克服する量子鍵分布の最近の進歩

Recent advances on quantum key distribution overcoming the linear secret key capacity bound ( http://arxiv.org/abs/2011.13092v1 )

ライセンス: Link先を確認
Yingqiu Mao, Pei Zeng, Teng-Yun Chen(参考訳) 量子鍵分布(QKD)の重要な目標は、長距離で無条件にセキュアな鍵を送信することである。 以前の研究では、ポイントツーポイントQKDの鍵レートは秘密鍵レートの容量制限によって制限され、より高い鍵レートは量子リピータを必要とすることが示されている。 2018年、線形秘密鍵容量境界を克服するために、セミナルツインフィールド(TF)QKDプロトコルが提案された。 本稿では,位相整合QKDおよび他のTF-QKD型プロトコルのセキュリティ証明,現実的な条件下でのこれらのプロトコルの理論的検証,最近の実験的実証など,この分野の最近の展開に関する最新の調査を紹介する。

A crucial goal for quantum key distribution (QKD) is to transmit unconditionally secure keys over long distances. Previous studies show that the key rate of point-to-point QKD is limited by a secret key rate capacity bound, and higher key rates would require quantum repeaters. In 2018, the seminal twin-field (TF) QKD protocol was proposed to provide a remarkable solution to overcoming the linear secret key capacity bound. This article presents an up-to-date survey on recent developments in this area, including the security proofs of phase-matching QKD and other TF-QKD type protocols, the theoretical examinations of these protocols under realistic conditions, and the recent experimental demonstrations.
翻訳日:2023-04-22 22:51:21 公開日:2020-11-26
# クビットアレイ近傍の金属物体からの磁気ノイズ

Magnetic Noise from Metal Objects near Qubit Arrays ( http://arxiv.org/abs/2011.13287v1 )

ライセンス: Link先を確認
Jonathan Kenny and Hruday Mallubhotla and Robert Joynt(参考訳) すべての金属物体は、熱効果と量子効果の両方により近傍のエバネッセント波ジョンソンノイズの原因となる変動電流をサポートする。 ノイズフィールドは、近所のキュービットを分解することができる。 b(x,t)b(x',t')$の平均値とその時間フーリエ変換によって定量化される。 特に,ナノスケールデバイスに適した形状である皮膚深度に比べて寸法が小さい物体に対して,フォーマリズムを発達させる。 これにより任意の形状の物体の雑音相関関数の一般的かつ驚くほど単純な公式が導かれる。 この公式は、対象の誘導電流の観点で明らかな物理的解釈を持つ。 また、簡単な数値評価の基礎となることもある。 球面に対して、解は一般化された多極展開の観点から閉形式で与えられる。 ソリューションのプロットは、関連する物理的原則を示します。 本稿では,ノイズの空間的パターンが量子情報処理にどのように影響するかを示す。 この理論は、量子ビット系がスケール$D$に小型化されると、量子ビットのデコヒーレンスレートは1/D$にスケールすることを意味する。

All metal objects support fluctuating currents that are responsible for evanescent-wave Johnson noise in their vicinity due both to thermal and quantum effects. The noise fields can decohere qubits in their neighborhood. It is quantified by the average value of $B(x,t)B(x',t')$ and its time Fourier transform. We develop the formalism particularly for objects whose dimensions are small compared with the skin depth, which is the appropriate regime for nanoscale devices. This leads to a general and surprisingly simple formula for the noise correlation function of an object of arbitrary shape. This formula has a clear physical interpretation in terms of induced currents in the object. It can also be the basis for straightforward numerical evaluation. For a sphere, a solution is given in closed form in terms of a generalized multipole expansion. Plots of the solution illustrate the physical principles involved. We give examples of how the spatial pattern of noise can affect quantum information processing in nearby qubits. The theory implies that if the qubit system is miniaturized to a scale $D$, then decoherence rates of qubits scale as $1/D$.
翻訳日:2023-04-22 22:46:58 公開日:2020-11-26
# 歴史家の直観性向上への概念モデリングの貢献 -プロソポグラフィへの応用-

Contribution of Conceptual Modeling to Enhancing Historians' Intuition -Application to Prosopography ( http://arxiv.org/abs/2011.13276v1 )

ライセンス: Link先を確認
Jacky Akoka (CEDRIC - ISID, IMT-BS), Isabelle Comyn-Wattiau (CEDRIC - ISID), St\'ephane Lamass\'e (LAMOP), C\'edric Du Mouza (CEDRIC - ISID)(参考訳) 歴史家、特にプロソポグラフィの研究者は、データベース構築のために歴史的な情報源から情報抽出とコーディングに多くの労力を注いでいる。 この状況に対処するために、彼らは直観に頼るケースもある。 重要な問題の一つは、これらの研究者に、ソースから抽出された情報を十分に構造化された形式で提供し、データベースをクエリし、仮説を検証することである。 本研究は,歴史学者が自動処理を通して情報を収集・評価する上での課題について考察する。 この問題は、不確実な情報が多すぎると発生する。 高レベル情報融合手法に基づき,プロソポグラフィ領域における歴史家の直観を自動支援する手法を提案する。 その貢献は、概念データモデル、プロセスモデル、ソースの信頼性と情報の信頼性を組み合わせた一連のルールの3つである。

Historians, and in particular researchers in prosopography, focus a lot of effort on extracting and coding information from historical sources to build databases. To deal with this situation, they rely in some cases on their intuition. One important issue is to provide these researchers with the information extracted from the sources in a sufficiently structured form to allow the databases to be queried and to verify, and possibly, to validate hypotheses. The research in this paper attempts to take up the challenge of helping historians capturing and assessing information throughout automatic processes. The issue emerges when too many sources of uncertain information are available. Based on the high-level information fusion approach, we propose a process that automatically supports historians' intuition in the domain of prosopography. The contribution is threefold: a conceptual data model, a process model, and a set of rules combining the reliability of sources and the credibility of information.
翻訳日:2023-04-22 22:46:38 公開日:2020-11-26
# 任意の$n$-光子$D$-次元超角化に対するベル状態の消長極限

Distinguishing limit of Bell states for any $n$-photon $D$-dimensional hyperentanglement ( http://arxiv.org/abs/2011.13251v1 )

ライセンス: Link先を確認
Chunzhen Li, Yi Li, Yongnan Li(参考訳) ベル状態測定は量子情報プロトコルにとって重要であるが、線形光学のみを用いて多光子に符号化されたベル状態をすべて明確に区別することは不可能である。 区別されたベル状態の最大数、すなわち量子通信のチャネル容量を増加させるのに非常に重要な分散限界が存在する。 本稿では、2つのグループにn$-photon $d$-dimensional hyperentanglementを分離する。 u$ (g_1$) の最初のグループでは、${n_1} = nd - (n - 1)$ という制限が得られ、ボソンとフェルミオンの両方のケースに適用できる。 さらに、$U$$(G_2$)の2番目の群を持つ任意の$nD$系の極限$N$を議論し、ベル状態の対称性により少なくとも${D^{n - 1}}$ベル状態が区別可能であることを推測する。 明らかに${N_1} \le {N_2}$は$n>2$である。 最後に, スピン, パス, 軌道角運動量 (OAM) の2光子8次元超角測定のベル状態測定のための光学的セットアップを理論的に設計し, ベル状態の15クラスを区別する。 この結果は、量子通信のチャネル容量を増やすための理論的基礎と実践的基準を提供する。

Bell state measurement is crucial to quantum information protocols, but it is impossible to unambiguously distinguish all the Bell states encoded in multi-photon using only linear optics. There is a maximum number of distinguished Bell states, i.e. distinguising limit which is very important for increasing the channel capacity of quantum communications. In this paper, we separate $n$-photon $D$-dimensional hyperentanglement into two groups. For the first group of $U$ ($G_1$), we obtain the limit ${N_1} = nD - (n - 1)$, which can be applied for both bosons' and fermions' cases. We further discuss the limit $N$ for any $nD$ system with the second group of $U$ ($G_2$), inferring that at least ${D^{n - 1}}$ Bell states can be distinguished due to the symmetry of Bell states. Obviously, ${N_1} \le {N_2}$ for those systems with $n>2$. Finally, we theoretically design an optical setup for Bell state measurement of two-photon eight-dimensional hyperentanglement of spin, path and orbital angular momentum (OAM) and distinguish 15 classes of 64 Bell states. Our results provide a theoretical basis and practical reference to increase the channel capacity of the quantum communication.
翻訳日:2023-04-22 22:45:58 公開日:2020-11-26
# inas量子ドット動的核スピン偏極状態の直接高分解能共鳴ラマン散乱測定

Direct high resolution resonant Raman scattering measurements of InAs quantum dot dynamic nuclear spin polarization states ( http://arxiv.org/abs/2011.13249v1 )

ライセンス: Link先を確認
Aaron M. Ross, Allan S. Bracker, Michael K. Yakes, Daniel Gammon, L.J. Sham, Duncan G. Steel(参考訳) 我々は、前例のない分光分解能を持つ共鳴励起条件下での単一InAs量子ドットにおいて、電子スピン分裂と、それに伴う核スピン偏極(NSP)および変動帯域の直接測定について報告する。 電子スピン分割は、超伝導ナノワイヤによって検出された共鳴スピンフリップ単光子ラマン散乱によって直接測定され、励起放出エネルギーマップを生成する。 観測された2次元写像は、励起周波数に非線形に依存するOH場を明らかにする。 この研究は、いわゆる回避と追跡に関する以前の報告に新たな洞察を与え、エミッションエネルギー軸の付加によって直接2つの異なるNSP応答を示す。 The data show that the polarization processes depend on which electron spin state is optically driven, with surprising differences in the polarization fluctuations for each case: in one case, a stabilized field characterized by a single-peaked distribution shifts monotonically with the laser excitation frequency resulting in a nearly constant optical interaction strength across a wide detuning range, while in the other case the previously reported avoidance behavior is actually the result of a nonlinear dependence on the laser excitation frequency near zero detuning leading to switching between two distinct mesoscopic nuclear spin states. 磁場の大きさは400 mTで、100以下の核スピン感度で測定される。 OH電界分布の安定・不安定な点は電子-トライアン核系の非線形フィードバックループによって観測される。 核スピン偏極状態のスイッチングは、少なくとも25msの速さで160mtで異なる磁場間で起こる。

We report on the direct measurement of the electron spin splitting and the accompanying nuclear Overhauser (OH) field, and thus the underlying nuclear spin polarization (NSP) and fluctuation bandwidth, in a single InAs quantum dot under resonant excitation conditions with unprecedented spectral resolution. The electron spin splitting is measured directly via resonant spin-flip single photon Raman scattering detected by superconducting nanowires to generate excitation-emission energy maps. The observed two-dimensional maps reveal an OH field that has a non-linear dependence on excitation frequency. This study provides new insight into earlier reports of so-called avoidance and tracking, showing two distinct NSP responses directly by the addition of a emission energy axis. The data show that the polarization processes depend on which electron spin state is optically driven, with surprising differences in the polarization fluctuations for each case: in one case, a stabilized field characterized by a single-peaked distribution shifts monotonically with the laser excitation frequency resulting in a nearly constant optical interaction strength across a wide detuning range, while in the other case the previously reported avoidance behavior is actually the result of a nonlinear dependence on the laser excitation frequency near zero detuning leading to switching between two distinct mesoscopic nuclear spin states. The magnitude of the field, which is as large as 400 mT, is measured with sub-100 nuclear spin sensitivity. Stable/unstable points of the OH field distribution are observed, resulting from the non-linear feedback loop in the electron-trion-nuclear system. Nuclear spin polarization state switching occurs between fields differing by 160 mT at least as fast as 25 ms. Control experiments indicate that the strain-induced quadrupolar interaction may explain the measured OH fields.
翻訳日:2023-04-22 22:45:17 公開日:2020-11-26
# 弱結合性物質波ソリトンのメソスコピック量子重ね合わせ状態

Mesoscopic quantum superposition states of weakly-coupled matter-wave solitons ( http://arxiv.org/abs/2011.13196v1 )

ライセンス: Link先を確認
Dmitriy Tsarev, Alexander Alodjants, The Vinh Ngo, and Ray-Kuang Lee(参考訳) ジョセフソンジャンクション (josephson junctions, jjs) は現代の量子技術とメトロロジーの中心にある。 本研究では, 原子ソリトンジョセフソン接合(SJJ)素子の量子的特性を, 負の散乱長を持つ2つの弱結合凝縮体から構成する。 凝縮物は二重井戸ポテンシャルに閉じ込められ、1次元で伸びる。 古典場理論から始めて、2ソリトン問題を実効2モードハミルトニアンに初めて写像し、第二量子化手順を実行する。 従来のボソニック・ジョセフソン接合 (BJJ) 縮合系と比較して、量子領域のSJJモデルは、全粒子数の2乗に比例する有効非線形強度である$N^2$の特異な特徴を示す。 有効トンネルパラメータに対する新しい自己調整効果は,粒子数に依存するSJJモデルでも示され,JJ人口の不均衡が増加するにつれて急速に消失する。 エンタングルフォック状態重ね合わせの形成は量子sjjモデルで予測され、n=0, n$粒子数で「エッジ」で支配的なn00n$状態成分を示す。 エンタングルフォック状態の小さな成分が主要なn00n$状態成分の近傍に存在する場合、得られた量子状態は凝縮物によるわずかな粒子損失に抵抗することが示されている。 この量子sjj-モデルの特異性は、ハーツリーアプローチの枠組みで得られた半古典的類似物との重要な違いを定めている。

The Josephson junctions (JJs) are at the heart of modern quantum technologies and metrology. In this work we establish quantum features of an atomic soliton Josephson junction (SJJ) device, which consists of two weakly-coupled condensates with negative scattering length. The condensates are trapped in a double-well potential and elongated in one dimension. Starting with classical field theory we map for the first time a two-soliton problem onto the effective two-mode Hamiltonian and perform a second quantization procedure. Compared to the conventional Bosonic Josephson junction (BJJ) condensate system, we show that the SJJ-model in quantum domain exhibits unusual features due to its effective nonlinear strength proportional to the square of total particle number, $N^2$. A novel self-tuning effect for the effective tunneling parameter is also demonstrated in the SJJ-model, which depends on the particle number and rapidly vanishes as the JJ population imbalance increases. The formation of entangled Fock state superposition is predicted for the quantum SJJ-model, revealing dominant $N00N$-state components at the "edges" for $n=0, N$ particle number. We have shown that the obtained quantum state is more resistant to few particle losses from the condensates if tiny components of entangled Fock states are present in the vicinity of the major $N00N$-state component. This peculiarity of the quantum SJJ-model establishes an important difference from its semiclassical analogue obtained in the framework of Hartree approach.
翻訳日:2023-04-22 22:44:50 公開日:2020-11-26
# Bose-Einstein condensate soliton qubit state for merological applications

Bose-Einstein condensate soliton qubit states for metrological applications ( http://arxiv.org/abs/2011.13190v1 )

ライセンス: Link先を確認
The Vinh Ngo, Dmitriy Tsarev, Ray-Kuang Lee, and Alexander Alodjants(参考訳) ボース・アインシュタイン凝縮ソリトンを用い、非線形ジョセフソン効果によって光学的に操作され二重ウェルポテンシャルに閉じ込められることにより、2つのソリトン量子ビット状態を持つ新しい量子メトロロジー応用を提案する。 異なるシナリオにおける定常解に加えて、位相空間解析は、人口不均衡-位相差変数の観点からも、マクロ的な量子自己トラッピング状態を示すために行われる。 双対(非直交)状態判別問題の枠組みにおいて, 得られたマクロ状態の識別可能性について, シュリンガー・キャット状態, 最大経路絡み(N00N$)状態, マクロソリトン量子ビットを予測し, 利用した。 線形量子メソロジーの枠組みにおける任意の位相推定について、これらのマクロソリトン状態はハイゼンベルク極限(hl)までスケールすることが明らかとなる。 これらの例は、現在の周波数標準技術の新しい展望を開く凝縮物の接地と最初の励起巨視的状態の間の角周波数のhl推定のために示される。

By utilizing Bose-Einstein condensate solitons, optically manipulated and trapped in a double-well potential, coupled through nonlinear Josephson effect, we propose novel quantum metrology applications with two soliton qubit states. In addition to steady-state solutions in different scenarios, phase space analysis, in terms of population imbalance - phase difference variables, is also performed to demonstrate macroscopic quantum self-trapping regimes. Schr\"odinger-cat states, maximally path-entangled ($N00N$) states, and macroscopic soliton qubits are predicted and exploited for the distinguishability of obtained macroscopic states in the framework of binary (non-orthogonal) state discrimination problem. For arbitrary phase estimation in the framework of linear quantum metrology approach, these macroscopic soliton states are revealed to have a scaling up to the Heisenberg limit (HL). The examples are illustrated for HL estimation of angular frequency between the ground and first excited macroscopic states of the condensate, which opens new perspectives for current frequency standards technologies.
翻訳日:2023-04-22 22:44:21 公開日:2020-11-26
# ビジネスプロセスの長期化の構成について:プロセスマイニング研究から

On the Composition of the Long Tail of Business Processes: Implications from a Process Mining Study ( http://arxiv.org/abs/2011.13188v1 )

ライセンス: Link先を確認
Marcus Fischer, Adrian Hofmann, Florian Imgrund, Christian Janiesch, Axel Winkelmann(参考訳) ディジタルトランスフォーメーションは、企業に対して、現在の顧客ニーズを満たすためのプロセスの再考を迫る。 ビジネスプロセス管理(BPM)は、この変化を構造化し、対処する手段を提供することができます。 しかし、bpmに対するほとんどのアプローチは、複雑さとリソース制限のため、一度に最適化できるプロセス数に制限を受ける。 この欠点を調査すると、ビジネスプロセスのロングテールの概念は、重要なプロセスを集中的に管理し、実行時にプロセスの大部分を段階的に改善するハイブリッドアプローチを示唆する。 この研究はこの観察と対応する意味を精査している。 まず、実行データに基づいてプロセスを自動的に優先順位付けする指標システムを定義する。 第2に、プロセスマイニングを用いて、複数の企業のプロセスを分析し、プロセスバリエーションの観点からプロセス価値の分布を調べる。 第3に,ショートヘッドとロングテールに含まれるプロセス変種の特徴について検討し,その管理のレコメンデーションを導出し,正当化する。 以上の結果から,ロングテール分布の仮定は企業や指標にまたがって存在し,プロセスとその変種全体の改善可能性にも適用できることが示唆された。 いずれの場合も、ロングテールのプロセス変種は顧客との接触が少なく、実行頻度が低く、利害関係者の数が多く、分散改善の候補として適していた。

Digital transformation forces companies to rethink their processes to meet current customer needs. Business Process Management (BPM) can provide the means to structure and tackle this change. However, most approaches to BPM face restrictions on the number of processes they can optimize at a time due to complexity and resource restrictions. Investigating this shortcoming, the concept of the long tail of business processes suggests a hybrid approach that entails managing important processes centrally, while incrementally improving the majority of processes at their place of execution. This study scrutinizes this observation as well as corresponding implications. First, we define a system of indicators to automatically prioritize processes based on execution data. Second, we use process mining to analyze processes from multiple companies to investigate the distribution of process value in terms of their process variants. Third, we examine the characteristics of the process variants contained in the short head and the long tail to derive and justify recommendations for their management. Our results suggest that the assumption of a long-tailed distribution holds across companies and indicators and also applies to the overall improvement potential of processes and their variants. Across all cases, process variants in the long tail were characterized by fewer customer contacts, lower execution frequencies, and a larger number of involved stakeholders, making them suitable candidates for distributed improvement.
翻訳日:2023-04-22 22:43:58 公開日:2020-11-26
# テスト構築におけるmuleに対するmarkdownの使用感の次元と行動意図

Usability Dimensions and Behavioral Intention to Use Markdown to Moodle in Test Construction ( http://arxiv.org/abs/2012.01180v1 )

ライセンス: Link先を確認
Julius G. Garcia, Connie C. Aunario, Go Frendi Gunawan(参考訳) Moodleで多数のアイテムでテストを作成するのは、従来の方法に比べて退屈で直感的ではない。 本研究の目的は,テスト構築プロセスの緩和におけるMarkdown to Moodleパフォーマンスの判定と,アプリケーションの動作意図の根本的要因を説明することである。 markdown to moodleは、テスト項目の大部分をブラウザに直接タイプし、.netコードを生成するアプリケーションである。 博士。 mdと.xmlファイルは ローカルドライブに保存されてる xml は moodle test bank にインポートできる。 これにより、Moodleで一度に1つずつテスト項目を作成する時間が短縮される。 Moodle使用経験のある教師を対象に,研修と調査を行った。 この研究の結果、研究者はアプリケーションのユーザビリティとユーザの行動意図を決定することができた。 これは、テスト構築におけるワークフローの連続性を強調し、アプリケーションの使用とパフォーマンスの鍵となる要素である。

Creating test with numerous items in Moodle can be tedious and less intuitive compared to conventional method. This study aims to determine the Markdown to Moodle performance in easing the test construction process and explain the underlying factors of the behavioral intention to use the application. Markdown to Moodle is an application that allows users to type the bulk of test items directly to the browser and generates .doc, .md and .xml files stored in the local drive. The .xml can be imported to Moodle test bank. This lessens the time of creating test items one at a time in the Moodle. A training and a survey were conducted among teachers with Moodle usage experience. Results from this study allowed the researchers to determine the usability of the application and the users behavioral intention. This highlights the workflow continuity in test construction as a key factor in the usage and performance of the application.
翻訳日:2023-04-22 22:36:24 公開日:2020-11-26
# ソフトウェア工学教育におけるゲームシミュレータソフトウェアincの利用

Using game simulator Software Inc in the Software Engineering education ( http://arxiv.org/abs/2012.01127v1 )

ライセンス: Link先を確認
Tetiana A. Vakaliuk, Valerii V. Kontsedailo, Dmytro S. Antoniuk, Olha V. Korotun, Iryna S. Mintii and Andrey V. Pikilnyak(参考訳) 本稿では,ゲームシミュレータsotware incを高等教育における将来のソフトウェアエンジニアの育成に活用する可能性について述べる。 将来のソフトウェアエンジニアのトレーニングの過程でトレーニングを行う際に考慮すべき、いくつかの特定の設定に注意が向けられます。 ますます多くの教育機関が新しい教育手法を導入して、エンジニアリングの学生、特に将来のソフトウェアエンジニアが、学習プロセスの実際の専門的な状況に対処するために使われるようになっている。 ゲームシミュレータを含む現代のICTの教育過程における利用は、教育教材の品質の向上と、革新的な教育プログラムや方法の使用による教育効果の向上を可能にし、教師が生徒の個別の教育軌道を構築する機会を与えている。 ictを使用することで、学習準備のレベルが異なる学生に対して、異なるアプローチが可能となる。 あらゆるソフトウェアエンジニアの特徴は、ソフトウェアが開発されている関連する主題を理解する必要があることである。 高度に有能な専門家を準備するための重要な条件は、科学研究の学生、その世代、および彼のアイデアを完成した商用製品として実装する独立した達成である。 研究の過程で、学生は知識、将来のITスペシャリストのスキル、知的活動、技術監査、マーケティング、イノベーション市場における製品実現の結果の法的保護の能力を得る。 実世界の実践が学生にとって不可能な場合、実際のソフトウェア開発プロセスをシミュレートするゲームシミュレータが代替となることに注意。

The article presents the possibilities of using game simulator Sotware Inc in the training of future software engineer in higher education. Attention is drawn to some specific settings that need to be taken into account when training in the course of training future software engineers. More and more educational institutions are introducing new teaching methods, which result in the use of engineering students, in particular, future software engineers, to deal with real professional situations in the learning process. The use of modern ICT, including game simulators, in the educational process, allows to improve the quality of educational material and to enhance the educational effects from the use of innovative pedagogical programs and methods, as it gives teachers additional opportunities for constructing individual educational trajectories of students. The use of ICT allows for a differentiated approach to students with different levels of readiness to study. A feature of any software engineer is the need to understand the related subject area for which the software is being developed. An important condition for the preparation of a highly qualified specialist is the independent fulfillment by the student of scientific research, the generation, and implementation of his idea into a finished commercial product. In the process of research, students gain knowledge, skills of the future IT specialist and competences of the legal protection of the results of intellectual activity, technological audit, marketing, product realization in the market of innovations. Note that when the real-world practice is impossible for students, game simulators that simulate real software development processes are an alternative.
翻訳日:2023-04-22 22:35:58 公開日:2020-11-26
# facebookによるフィリピンと日本の学生のソーシャル資本の創出と維持

Creating and Maintaining Filipino and Japanese Students Social Capital with Facebook ( http://arxiv.org/abs/2011.13447v1 )

ライセンス: Link先を確認
Mayumi Kubota, Julius G. Garcia(参考訳) 本研究では,フィリピンの大学生と日本人大学生のFacebook利用の認識とパターンと,これらの要因が学生のソーシャルキャピタル,国際姿勢,コミュニケーション意欲の創造と維持に与える影響について検討した。 学生のオンライン調査を行い,483名の有効回答を得た。 フィリピンと日本人大学生のfbの特徴的使用状況について調査した。 フィリピンの学生に対する国際姿勢, WTC, 知覚, ブリッジング, ボンディング, 利用の相互関係モデルは, 社会資本のブリッジングと社会資本の結合におけるFB利用の重要性を示した。 日本人学生にとって、社会資本の結合は、利用とFB利用とブリッジングを介する。 社会資本の橋渡しは、社会資本の結合によってのみ行われた。 したがって、日本人学生がfbの友人と十分親密でない限り、将来仮想国際化の過程でフィリピン人学生に影響を及ぼす新たな関係を構築することはできない。

This study investigated perceptions and patterns of Facebook use among Filipino and Japanese undergraduate students and the relationship of these factors to creating and maintaining students social capital, international posture, and willingness to communicate. The survey of undergraduate students was conducted online and 483 valid responses were obtained. Data revealed the characteristic uses of FB by Filipino and Japanese undergraduate students. An interrelation model among six factors, International Posture, WTC, Perception, Bridging, Bonding, and Utilization for Filipino students showed the importance of utilization or FB usage for bridging social capital and bonding social capital. For Japanese students, bonding social capital mediated between utilization or FB usage and bridging. Bridging social capital was established only through bonding social capital. Thus, unless Japanese students are close enough to their FB friends, they do not construct new relationships on FB that will influence Filipino students in the process of virtual internationalization in the future.
翻訳日:2023-04-22 22:35:25 公開日:2020-11-26
# 基底光量子化によるNISQデバイス上のハドロン物理のシミュレーション

Simulating Hadronic Physics on NISQ devices using Basis Light-Front Quantization ( http://arxiv.org/abs/2011.13443v1 )

ライセンス: Link先を確認
Michael Kreshchuk, Shaoyang Jia, William M. Kirby, Gary Goldstein, James P. Vary, Peter J. Love(参考訳) 量子化学と光面量子場理論の類似性は、ケネス・g・ウィルソンによって最初に指摘され、量子場理論の光面量子シミュレーションを開発する動機となる。 本研究では,バシライト・フラント量子化フレームワーク内の雑音中規模量子デバイス上で,ハドロン構造の計算方法を示す。 量子量子プロセッサ上の基底表現における有効光面ハミルトニアンを用いて、パイ中間子の光面波動関数を計算する。 変分量子固有解法を用いて基底状態エネルギーと波動関数を求め, ピオン質量半径, 崩壊定数, 弾性形状係数, 電荷半径を計算した。

The analogy between quantum chemistry and light-front quantum field theory, first noted by Kenneth G. Wilson, serves as motivation to develop light-front quantum simulation of quantum field theory. We demonstrate how calculations of hadron structure can be performed on Noisy Intermediate-Scale Quantum devices within the Basis Light-Front Quantization framework. We calculate the light-front wave functions of pions using an effective light-front Hamiltonian in a basis representation on a current quantum processor. We use the Variational Quantum Eigensolver to find the ground state energy and wave function, which is subsequently used to calculate pion mass radius, decay constant, elastic form factor, and charge radius.
翻訳日:2023-04-22 22:35:08 公開日:2020-11-26
# ロバスト位相推定のための一貫性テスト

Consistency testing for robust phase estimation ( http://arxiv.org/abs/2011.13442v1 )

ライセンス: Link先を確認
Antonio E. Russo, William M. Kirby, Kenneth M. Rudinger, Andrew D. Baczewski, Shelby Kimmel(参考訳) 本稿では,予測された統計的範囲外にある不正確な結果を特定することのできる,ロバスト位相推定プロトコルの拡張を提案する。 ロバスト位相推定は、ノイズの多いハードウェアの効率的なプロセスパラメータを推定するなど、アプリケーションにとってますます選択の方法となっているが、その堅牢性は特定のしきい値の仮定を満たすノイズに依存する。 私たちは、それらのしきい値がいつ違反したかを示すことができる一貫性チェックを提供しています。 我々は,いくつかの一般的なノイズモデルに対する一貫性チェックをテストし,さらなる推定を信頼すべきでないロバストな位相推定において,高い精度で2つの可能なチェックを同定する。 これらのチェックの1つは、リソースの可用性に基づいて選択するか、追加の検証を提供するために一緒に使用できる。

We present an extension to the robust phase estimation protocol, which can identify incorrect results that would otherwise lie outside the expected statistical range. Robust phase estimation is increasingly a method of choice for applications such as estimating the effective process parameters of noisy hardware, but its robustness is dependent on the noise satisfying certain threshold assumptions. We provide consistency checks that can indicate when those thresholds have been violated, which can be difficult or impossible to test directly. We test these consistency checks for several common noise models, and identify two possible checks with high accuracy in locating the point in a robust phase estimation run at which further estimates should not be trusted. One of these checks may be chosen based on resource availability, or they can be used together in order to provide additional verification.
翻訳日:2023-04-22 22:34:56 公開日:2020-11-26
# フォノンによる非平衡相関と遠方半導体量子ビット間の絡み合い

Phonon mediated non-equilibrium correlations and entanglement between distant semiconducting qubits ( http://arxiv.org/abs/2011.13394v1 )

ライセンス: Link先を確認
Di Yu, Zhi-Meng Guo, Guang-Wei Deng(参考訳) 一次元結合機械共振器鎖における遠方半導体量子ビット間の非平衡相関と絡み合いについて理論的に検討する。 各量子ビットは二重量子ドット(DQD)で定義され、機械共振器に埋め込まれる。 2つの量子ビットは共振器鎖に沿ってフォノン転移によって結合し、相関し、絡み合うことができる。 異なるフォノン-フォノンカップリング率で非平衡相関と定常絡み合いを計算し,集団反転によって引き起こされる最大定常絡み合いを求める。 その結果, メソスコピック物理と固体量子計算の発展に寄与するフォノン量子ビットハイブリッドシステムによって, 高度に調整可能な相関と絡み合いが生じることが示唆された。

We theoretically study the non-equilibrium correlations and entanglement between distant semiconductor qubits in a one-dimensional coupled-mechanical-resonator chain. Each qubit is defined by a double quantum dot (DQD) and embedded in a mechanical resonator. The two qubits can be coupled, correlated and entangled through phonon transfer along the resonator chain. We calculate the non-equilibrium correlations and steady-state entanglement at different phonon-phonon coupling rates, and find a maximal steady entanglement induced by a population inversion. The results suggest that highly tunable correlations and entanglement can be generated by phonon-qubit hybrid system, which will contribute to the development of mesoscopic physics and solid-state quantum computation.
翻訳日:2023-04-22 22:33:36 公開日:2020-11-26
# 脳腫瘍分離のための転写学習

Transfer Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/1912.12452v2 )

ライセンス: Link先を確認
Jonas Wacker, Marcelo Ladeira, Jos\'e Eduardo Vaz Nascimento(参考訳) グリオーマは、化学療法や手術で治療される最も一般的な悪性脳腫瘍である。 磁気共鳴イメージング(MRI)は、放射線療法士が手動で脳の病変を分類し、治療全体を通してその発達を観察するために用いられる。 手動画像分割プロセスは時間を要するため、結果が人によって異なる傾向がある。 したがって、様々な脳組織タイプの信頼できる正確なセグメンテーションを生成する自動画像セグメンテーションアルゴリズムには、かなりの需要がある。 ディープラーニングの最近の進歩は、様々な視覚認識タスクに優れた畳み込みニューラルネットワークアーキテクチャにつながった。 医学的イメージセグメンテーションを含む医学的文脈への適用が成功している。 特に、U-Netのような完全畳み込みネットワーク(FCN)は、脳腫瘍を自動分割する最先端の結果を生み出している。 MRI脳スキャンは容積的であり、これらのFCNアーキテクチャの入力チャネルとして機能する様々な共登録モダリティに存在する。 この複雑な入力に対する脳腫瘍のセグメンテーションの訓練アルゴリズムは大量の計算資源を必要とし、過度に適合する傾向にある。 本研究では,事前学習した畳み込みエンコーダを用いたFCNを構築する。 この方法でトレーニングプロセスを安定させ,ダイススコアやハウスドルフ距離に関して改善できることを示す。 また, 個人で収集した臨床データを用いて本手法を検証した。

Gliomas are the most common malignant brain tumors that are treated with chemoradiotherapy and surgery. Magnetic Resonance Imaging (MRI) is used by radiotherapists to manually segment brain lesions and to observe their development throughout the therapy. The manual image segmentation process is time-consuming and results tend to vary among different human raters. Therefore, there is a substantial demand for automatic image segmentation algorithms that produce a reliable and accurate segmentation of various brain tissue types. Recent advances in deep learning have led to convolutional neural network architectures that excel at various visual recognition tasks. They have been successfully applied to the medical context including medical image segmentation. In particular, fully convolutional networks (FCNs) such as the U-Net produce state-of-the-art results in the automatic segmentation of brain tumors. MRI brain scans are volumetric and exist in various co-registered modalities that serve as input channels for these FCN architectures. Training algorithms for brain tumor segmentation on this complex input requires large amounts of computational resources and is prone to overfitting. In this work, we construct FCNs with pretrained convolutional encoders. We show that we can stabilize the training process this way and achieve an improvement with respect to dice scores and Hausdorff distances. We also test our method on a privately obtained clinical dataset.
翻訳日:2023-01-17 13:14:36 公開日:2020-11-26
# 3次元オブジェクト意味理解のための人間対応コンセンサス

Human Correspondence Consensus for 3D Object Semantic Understanding ( http://arxiv.org/abs/1912.12577v2 )

ライセンス: Link先を確認
Yujing Lou, Yang You, Chengkun Li, Zhoujun Cheng, Liangwei Li, Lizhuang Ma, Weiming Wang, Cewu Lu(参考訳) 3Dオブジェクトのセマンティック理解は、オブジェクト操作のような多くのアプリケーションにおいて重要である。 しかし、誰もが同意するポイントレベルの意味論を普遍的に定義することは難しい。 我々は、異なる対象から2つの領域間の意味的対応について合意が得られたが、それぞれの領域の正確な意味についてはあまり明確でないことを観察した。 したがって、明示的な意味的ラベルではなく、同じカテゴリの異なるオブジェクト間の人間のラベル付き対応を提供することで、オブジェクトの豊富な意味的情報を回復することができると主張する。 本稿では,CorresPondenceNetという新しいデータセットを提案する。 このデータセットに基づいて、新しい測地的整合性損失を伴う密接なセマンティック埋め込みを学習することができる。 このため、この対応ベンチマークでいくつかの最先端ネットワークを評価した。 さらに、CorresPondenceNetは、異種オブジェクトの詳細な理解を促進するだけでなく、クロスオブジェクト登録や部分オブジェクトマッチングも促進できることを示した。

Semantic understanding of 3D objects is crucial in many applications such as object manipulation. However, it is hard to give a universal definition of point-level semantics that everyone would agree on. We observe that people have a consensus on semantic correspondences between two areas from different objects, but are less certain about the exact semantic meaning of each area. Therefore, we argue that by providing human labeled correspondences between different objects from the same category instead of explicit semantic labels, one can recover rich semantic information of an object. In this paper, we introduce a new dataset named CorresPondenceNet. Based on this dataset, we are able to learn dense semantic embeddings with a novel geodesic consistency loss. Accordingly, several state-of-the-art networks are evaluated on this correspondence benchmark. We further show that CorresPondenceNet could not only boost fine-grained understanding of heterogeneous objects but also cross-object registration and partial object matching.
翻訳日:2023-01-17 07:44:43 公開日:2020-11-26
# GradientDICE: 定常値の一般化オフライン推定を再考する

GradientDICE: Rethinking Generalized Offline Estimation of Stationary Values ( http://arxiv.org/abs/2001.11113v7 )

ライセンス: Link先を確認
Shangtong Zhang, Bo Liu, Shimon Whiteson(参考訳) 本研究では, 対象政策の状態分布とサンプリング分布の密度比を非政治強化学習で推定するグラディエントDICEを提案する。 グラディエントDICEは、密度比を推定する最先端技術であるGenDICE(Zhang et al., 2020)のいくつかの問題を解決する。 すなわち、GenDICEの最適化問題は、最適化変数のパラメータ化における非線形性を導入すると、凸凹サドル点問題ではないため、任意の原始双対アルゴリズムは収束や所望の解を見つけることが保証されない。 しかし、そのような非線形性は表表現でもゲンディケの一貫性を保証するのに不可欠である。 これは、GenDICEの最適化問題のオリジナルの定式化による根本的な矛盾である。 グラディエントDICEでは、ペロン・フロベニウスの定理を用いてGenDICEと異なる目的を最適化し、GenDICEの発散を排除している。 したがって、パラメータ化の非線形性は、線形関数近似の下で確実に収束する勾配化には必要ではない。

We present GradientDICE for estimating the density ratio between the state distribution of the target policy and the sampling distribution in off-policy reinforcement learning. GradientDICE fixes several problems of GenDICE (Zhang et al., 2020), the state-of-the-art for estimating such density ratios. Namely, the optimization problem in GenDICE is not a convex-concave saddle-point problem once nonlinearity in optimization variable parameterization is introduced to ensure positivity, so any primal-dual algorithm is not guaranteed to converge or find the desired solution. However, such nonlinearity is essential to ensure the consistency of GenDICE even with a tabular representation. This is a fundamental contradiction, resulting from GenDICE's original formulation of the optimization problem. In GradientDICE, we optimize a different objective from GenDICE by using the Perron-Frobenius theorem and eliminating GenDICE's use of divergence. Consequently, nonlinearity in parameterization is not necessary for GradientDICE, which is provably convergent under linear function approximation.
翻訳日:2023-01-05 20:54:27 公開日:2020-11-26
# Set2Graph: 集合からグラフを学ぶ

Set2Graph: Learning Graphs From Sets ( http://arxiv.org/abs/2002.08772v3 )

ライセンス: Link先を確認
Hadar Serviansky, Nimrod Segol, Jonathan Shlomi, Kyle Cranmer, Eilam Gross, Haggai Maron, Yaron Lipman(参考訳) 機械学習における多くの問題は、集合からグラフへの学習関数として、あるいはより一般的にはハイパーグラフにキャストすることができる。 例えば、クラスタリング、グラフ上の頂点とエッジの学習、コレクション内のトリプレットの学習機能などだ。 Set2Graphモデルを構築するための自然なアプローチは、すべての線形同変集合-ハイパーグラフ層を特徴付け、それらを非線形アクティベーションで積み重ねることである。 これは2つの課題をもたらします (i)これらのネットワークの表現力はよく理解されておらず、 (II)これらのモデルは、次元が指数関数的に大きくなるにつれて、高い、しばしば難解な計算とメモリの複雑さに悩まされる。 本稿では,コンパクトな集合上で任意の連続的な Set2Graph 関数を近似できる,実用的かつ最大表現力(ユニバーサル)の両方を持つ Set2Graph 関数を学習するためのニューラルネットワークモデルの一群を提唱する。 これらのモデルをさまざまな機械学習タスク(主に粒子物理学への応用)でテストすると、既存のベースラインに好適であることが分かる。

Many problems in machine learning can be cast as learning functions from sets to graphs, or more generally to hypergraphs; in short, Set2Graph functions. Examples include clustering, learning vertex and edge features on graphs, and learning features on triplets in a collection. A natural approach for building Set2Graph models is to characterize all linear equivariant set-to-hypergraph layers and stack them with non-linear activations. This poses two challenges: (i) the expressive power of these networks is not well understood; and (ii) these models would suffer from high, often intractable computational and memory complexity, as their dimension grows exponentially. This paper advocates a family of neural network models for learning Set2Graph functions that is both practical and of maximal expressive power (universal), that is, can approximate arbitrary continuous Set2Graph functions over compact sets. Testing these models on different machine learning tasks, mainly an application to particle physics, we find them favorable to existing baselines.
翻訳日:2022-12-30 06:49:47 公開日:2020-11-26
# Vox2Vox:脳腫瘍切除のための3D-GAN

Vox2Vox: 3D-GAN for Brain Tumour Segmentation ( http://arxiv.org/abs/2003.13653v3 )

ライセンス: Link先を確認
Marco Domenico Cirillo and David Abramian and Anders Eklund(参考訳) グリオーマは最も一般的な一次脳悪性腫瘍であり、攻撃性の程度、予後の変動、様々な異種組織学的亜領域、すなわち腫瘍周囲浮腫、壊死核、増強および非拡張性腫瘍コアがある。 脳腫瘍は, マルチモーダルMRIで容易に検出できるが, 正確な腫瘍セグメンテーションは難しい課題である。 そこで,brats challenge 2020のデータを用いて,脳腫瘍の分節化のための3次元ボリューム・ボリューム・ボリューム・バイバーサリーネットワークを提案する。 vox2voxと呼ばれるこのモデルは、多チャンネルの3dmr画像から現実的なセグメンテーション出力を生成し、87.20%、81.14%、78.67%の平均値で腫瘍全体をセグメンテーションし、10倍のクロスバリデーションで得られた10のvox2voxモデルから得られたブラッツテストセットで6.44mm、24.36mm、18.95mmの幅を持つ。

Gliomas are the most common primary brain malignancies, with different degrees of aggressiveness, variable prognosis and various heterogeneous histological sub-regions, i.e., peritumoral edema, necrotic core, enhancing and non-enhancing tumour core. Although brain tumours can easily be detected using multi-modal MRI, accurate tumor segmentation is a challenging task. Hence, using the data provided by the BraTS Challenge 2020, we propose a 3D volume-to-volume Generative Adversarial Network for segmentation of brain tumours. The model, called Vox2Vox, generates realistic segmentation outputs from multi-channel 3D MR images, segmenting the whole, core and enhancing tumor with mean values of 87.20%, 81.14%, and 78.67% as dice scores and 6.44mm, 24.36mm, and 18.95mm for Hausdorff distance 95 percentile for the BraTS testing set after ensembling 10 Vox2Vox models obtained with a 10-fold cross-validation.
翻訳日:2022-12-22 04:16:50 公開日:2020-11-26
# WaveCRN: エンドツーエンド音声強調のための効率的な畳み込みリカレントニューラルネットワーク

WaveCRN: An Efficient Convolutional Recurrent Neural Network for End-to-end Speech Enhancement ( http://arxiv.org/abs/2004.04098v3 )

ライセンス: Link先を確認
Tsun-An Hsieh, Hsin-Min Wang, Xugang Lu, and Yu Tsao(参考訳) 単純な設計パイプラインのため、音声強調(se)のためのエンドツーエンド(e2e)ニューラルモデルが注目されている。 E2Eモデルの性能を向上させるために, 音声の局所性と時間的連続特性をモデル化時に効率的に考慮する必要がある。 しかし、現在のSEのほとんどのE2Eモデルでは、これらの性質は十分に考慮されていないか、実現できないほど複雑である。 本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。 WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性は積み重ねられた単純な再帰単位(SRU)によってモデル化される。 長い短期メモリ(LSTM)ネットワークを使用する従来の時間的シーケンシャルモデルとは異なり、SRUはより少ないモデルパラメータで計算において効率的に並列化することができる。 さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強調を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。 SRUの軽量アーキテクチャと特徴マスキングに基づくRAMにより、WaveCRNは他の最先端の手法と互換性があり、モデルの複雑さと推論時間が顕著に減少していることを確認した。

Due to the simple design pipeline, end-to-end (E2E) neural models for speech enhancement (SE) have attracted great interest. In order to improve the performance of the E2E model, the locality and temporal sequential properties of speech should be efficiently taken into account when modelling. However, in most current E2E models for SE, these properties are either not fully considered or are too complex to be realized. In this paper, we propose an efficient E2E SE model, termed WaveCRN. In WaveCRN, the speech locality feature is captured by a convolutional neural network (CNN), while the temporal sequential property of the locality feature is modeled by stacked simple recurrent units (SRU). Unlike a conventional temporal sequential model that uses a long short-term memory (LSTM) network, which is difficult to parallelize, SRU can be efficiently parallelized in calculation with even fewer model parameters. In addition, in order to more effectively suppress the noise components in the input noisy speech, we derive a novel restricted feature masking (RFM) approach that performs enhancement on the feature maps in the hidden layers; this is different from the approach that applies the estimated ratio mask on the noisy spectral features, which is commonly used in speech separation methods. Experimental results on speech denoising and compressed speech restoration tasks confirm that with the lightweight architecture of SRU and the feature-mapping-based RFM, WaveCRN performs comparably with other state-of-the-art approaches with notably reduced model complexity and inference time.
翻訳日:2022-12-16 06:19:50 公開日:2020-11-26
# 数値的・絵画的指導による細かな視線指示

Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance ( http://arxiv.org/abs/2004.03064v4 )

ライセンス: Link先を確認
Jingjing Chen, Jichao Zhang, Enver Sangineto, Jiayuan Fan, Tao Chen, Nicu Sebe(参考訳) Gaze redirectionは、所定の顔画像の視線を所望の方向(つまり基準角度)で操作することを目的としており、ビデオ会議やグループ写真撮影といった多くの現実的なシナリオに適用することができる。 しかし,従来の研究は,(1)低品質画像生成と(2)低リダイレクト精度の2つの限界を主に抱えていた。 本稿では,数値と画像方向のガイダンスを併用した新しい視線リダイレクトフレームワークを用いて,粗大な学習戦略と協調してこれらの問題を緩和することを提案する。 具体的には、粗い枝は所望の視線に応じて入力画像に反動する空間変換を学習する。 一方、細粒度分岐は、条件付き残像学習とマルチタスク判別器を備えたジェネレータネットワークから構成される。 この第2分枝は、予め歪んだ画像と接地構造画像とのギャップを小さくし、より微細なテクスチャの詳細を復元する。 さらに、画像の視線マップ記述と数値角を余分なガイドとして用いて、視線リダイレクトの精度をさらに向上させる数値・画像誘導モジュール~(NPG)を提案する。 ベンチマークデータセットの大規模な実験により,提案手法は画像品質とリダイレクト精度の両方において最先端の手法より優れていることが示された。 コードはhttps://github.com/jingjingchen777/cfgrで入手できる。

Gaze redirection aims at manipulating the gaze of a given face image with respect to a desired direction (i.e., a reference angle) and it can be applied to many real life scenarios, such as video-conferencing or taking group photos. However, previous work on this topic mainly suffers of two limitations: (1) Low-quality image generation and (2) Low redirection precision. In this paper, we propose to alleviate these problems by means of a novel gaze redirection framework which exploits both a numerical and a pictorial direction guidance, jointly with a coarse-to-fine learning strategy. Specifically, the coarse branch learns the spatial transformation which warps input image according to desired gaze. On the other hand, the fine-grained branch consists of a generator network with conditional residual image learning and a multi-task discriminator. This second branch reduces the gap between the previously warped image and the ground-truth image and recovers finer texture details. Moreover, we propose a numerical and pictorial guidance module~(NPG) which uses a pictorial gazemap description and numerical angles as an extra guide to further improve the precision of gaze redirection. Extensive experiments on a benchmark dataset show that the proposed method outperforms the state-of-the-art approaches in terms of both image quality and redirection precision. The code is available at https://github.com/jingjingchen777/CFGR
翻訳日:2022-12-15 23:30:57 公開日:2020-11-26
# HDD-Net:相互対話型学習型ハイブリッド検出器

HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning ( http://arxiv.org/abs/2005.05777v2 )

ライセンス: Link先を確認
Axel Barroso-Laguna, Yannick Verdie, Benjamin Busam, Krystian Mikolajczyk(参考訳) 局所特徴抽出は、SLAMや3D再構成、ARアプリケーションといった分野の進歩により、現在も活発な研究領域である。 これらのアプリケーションの成功は、特徴検出器と記述子の性能に依存する。 多くの手法の検出器/ディスクリプタ相互作用は単一ネットワーク検出と記述子の統合に基づいているが,抽出を独立に処理し,パラメータ共有よりも学習過程における相互作用に焦点を当てる手法を提案する。 従来のハードマイニング三重項損失を新しい検出器最適化項として定式化し,ディスクリプタマップに基づいて候補位置を洗練する。 本研究では,多元的手法と手作りと学習のハイブリッドな組み合わせを用いて,設計による回転とスケールのロバスト性を得る高密度ディスクリプタを提案する。 提案手法は,異なるベンチマークに基づいて広範囲に評価し,HPatchにおける画像マッチングと3次元再構成品質の観点から,カメラのローカライゼーションタスクを同等に保ちながら,技術状況の改善を示す。

Local feature extraction remains an active research area due to the advances in fields such as SLAM, 3D reconstructions, or AR applications. The success in these applications relies on the performance of the feature detector and descriptor. While the detector-descriptor interaction of most methods is based on unifying in single network detections and descriptors, we propose a method that treats both extractions independently and focuses on their interaction in the learning process rather than by parameter sharing. We formulate the classical hard-mining triplet loss as a new detector optimisation term to refine candidate positions based on the descriptor map. We propose a dense descriptor that uses a multi-scale approach and a hybrid combination of hand-crafted and learned features to obtain rotation and scale robustness by design. We evaluate our method extensively on different benchmarks and show improvements over the state of the art in terms of image matching on HPatches and 3D reconstruction quality while keeping on par on camera localisation tasks.
翻訳日:2022-12-03 19:28:00 公開日:2020-11-26
# stable style transformer: テキストスタイル転送のためのエンコーダデコーダによる削除と生成アプローチ

Stable Style Transformer: Delete and Generate Approach with Encoder-Decoder for Text Style Transfer ( http://arxiv.org/abs/2005.12086v3 )

ライセンス: Link先を確認
Joosung Lee(参考訳) テキストスタイル転送は、入力文の内容を保持し、スタイルを転送することで文を生成するタスクである。 並列データセットは限定的で構築が難しいため、既存の研究は非並列データセットで進められている。 本研究では,非並列データセットの2段階に従う手法を提案する。 最初の段階は、分類器から直接文の属性マーカーを削除することである。 第2段階は、コンテンツトークンとターゲットスタイルを組み合わせることで、転送文を生成することである。 ベンチマークデータセットを2つ実験し,コンテキスト,スタイル,フラレンシ,セマンティクスを評価した。 これらの自動メトリクスのみを用いて最適なシステムを選択することは難しいが、安定したシステムを選択することは可能である。 我々は,全ての自動評価指標におけるロバストシステムのみを,実アプリケーションで使用可能な最小条件とみなす。 いくつかの評価指標では性能が著しく低いため,従来のシステムでは使用が困難であった。 しかし,本システムは全ての自動評価指標で安定しており,他のモデルに匹敵する結果が得られる。 また,本システムと不安定なシステムの性能を人的評価によって比較した。 私たちのコードとデータはリンクで利用可能です(https://github.com/rungjoo/Stable-Style-Transformer)。

Text style transfer is the task that generates a sentence by preserving the content of the input sentence and transferring the style. Most existing studies are progressing on non-parallel datasets because parallel datasets are limited and hard to construct. In this work, we introduce a method that follows two stages in non-parallel datasets. The first stage is to delete attribute markers of a sentence directly through a classifier. The second stage is to generate a transferred sentence by combining the content tokens and the target style. We experiment on two benchmark datasets and evaluate context, style, fluency, and semantic. It is difficult to select the best system using only these automatic metrics, but it is possible to select stable systems. We consider only robust systems in all automatic evaluation metrics to be the minimum conditions that can be used in real applications. Many previous systems are difficult to use in certain situations because performance is significantly lower in several evaluation metrics. However, our system is stable in all automatic evaluation metrics and has results comparable to other models. Also, we compare the performance results of our system and the unstable system through human evaluation. Our code and data are available at the link (https://github.com/rungjoo/Stable-Style-Transformer).
翻訳日:2022-11-29 05:56:03 公開日:2020-11-26
# CTベースのCOVID-19トリアージ:深層マルチタスク学習により、関節の同定と重症度が向上

CT-based COVID-19 Triage: Deep Multitask Learning Improves Joint Identification and Severity Quantification ( http://arxiv.org/abs/2006.01441v3 )

ライセンス: Link先を確認
Mikhail Goncharov, Maxim Pisov, Alexey Shevtsov, Boris Shirokikh, Anvar Kurmukov, Ivan Blokhin, Valeria Chernina, Alexander Solovev, Victor Gombolevskiy, Sergey Morozov, Mikhail Belyaev(参考訳) 新型コロナウイルスのパンデミックは、放射線科を含む医療システムを過負荷にしている。 CT解析を支援するためにいくつかのディープラーニングアプローチが開発されたが、コンピュータ科学の問題として直接研究のトリアージは考えられなかった。 感染リスクのある患者をできるだけ早期に分離する研究を優先するための新型コロナウイルスの同定、重度定量化、重度患者の研究の強調、病院への誘導、救急医療の提供の2つの基本的な設定について述べる。 我々はこれらのタスクをバイナリ分類と肺の割合の推定として定式化する。 類似した問題は別々に検討されたが、既存の手法はこれらの設定の1つにのみ妥当な品質を提供することを示した。 我々は,2つのトリアージアプローチを統合するためにマルチタスクアプローチを採用し,1つのモデル内で利用可能なラベルを結合する畳み込みニューラルネットワークを提案する。 最も一般的なマルチタスクアプローチとは対照的に、下位ではなく、空間的に詳細なU-Netの上層に分類層を追加します。 当モデルでは, 約2000点のCT検査をトレーニングし, 32例の新型コロナウイルス研究, 30例の細菌性肺炎, 31例の健常患者, 30例の肺疾患患者を対象に, 外来病院における典型的な患者フローをエミュレートした。 提案するマルチタスクモデルは,潜伏型モデルよりも優れており,0.87+-01 (細菌性肺炎) から 0.97+-01 (健康管理) までのroc aucスコアを達成している。 すべてのコードをリリースして、他のコミュニティメンバがテストデータセットでモデルをテスト可能な、公開のリーダボードを作成します。

The current COVID-19 pandemic overloads healthcare systems, including radiology departments. Though several deep learning approaches were developed to assist in CT analysis, nobody considered study triage directly as a computer science problem. We describe two basic setups: Identification of COVID-19 to prioritize studies of potentially infected patients to isolate them as early as possible; Severity quantification to highlight studies of severe patients and direct them to a hospital or provide emergency medical care. We formalize these tasks as binary classification and estimation of affected lung percentage. Though similar problems were well-studied separately, we show that existing methods provide reasonable quality only for one of these setups. We employ a multitask approach to consolidate both triage approaches and propose a convolutional neural network to combine all available labels within a single model. In contrast with the most popular multitask approaches, we add classification layers to the most spatially detailed upper part of U-Net instead of the bottom, less detailed latent representation. We train our model on approximately 2000 publicly available CT studies and test it with a carefully designed set consisting of 32 COVID-19 studies, 30 cases with bacterial pneumonia, 31 healthy patients, and 30 patients with other lung pathologies to emulate a typical patient flow in an out-patient hospital. The proposed multitask model outperforms the latent-based one and achieves ROC AUC scores ranging from 0.87+-01 (bacterial pneumonia) to 0.97+-01 (healthy controls) for Identification of COVID-19 and 0.97+-01 Spearman Correlation for Severity quantification. We release all the code and create a public leaderboard, where other community members can test their models on our test dataset.
翻訳日:2022-11-26 00:55:34 公開日:2020-11-26
# 離散測度のサポートを減少させるランダム化アルゴリズム

A Randomized Algorithm to Reduce the Support of Discrete Measures ( http://arxiv.org/abs/2006.01757v2 )

ライセンス: Link先を確認
Francesco Cosentino, Harald Oberhauser, Alessandro Abate(参考訳) N$原子と$n$実数値関数の集合で支えられる離散確率測度が与えられたとき、元の$N$原子の$n+1$の部分集合で支えられる確率測度が存在し、$n$関数のそれぞれに対して積分されたときと同じ平均を持つ。 もし$ n \gg n$ なら、複雑さは大幅に減少する。 我々は, 負円錐を通じて, ベイセンタの簡単な幾何学的特徴付けを行い, この新しい測度を"greedy geometric sampling" によって計算するランダム化アルゴリズムを導出する。 次にその特性を調べ、合成データと実世界のデータでベンチマークし、n\gg n$レジームで非常に有益であることを示す。 Pythonの実装は \url{https://github.com/FraCose/Recombination_Random_Algos} で利用可能である。

Given a discrete probability measure supported on $N$ atoms and a set of $n$ real-valued functions, there exists a probability measure that is supported on a subset of $n+1$ of the original $N$ atoms and has the same mean when integrated against each of the $n$ functions. If $ N \gg n$ this results in a huge reduction of complexity. We give a simple geometric characterization of barycenters via negative cones and derive a randomized algorithm that computes this new measure by "greedy geometric sampling". We then study its properties, and benchmark it on synthetic and real-world data to show that it can be very beneficial in the $N\gg n$ regime. A Python implementation is available at \url{https://github.com/FraCose/Recombination_Random_Algos}.
翻訳日:2022-11-26 00:03:20 公開日:2020-11-26
# 金融時系列に基づく事前知識蒸留

Prior knowledge distillation based on financial time series ( http://arxiv.org/abs/2006.09247v5 )

ライセンス: Link先を確認
Jie Fang and Jianwu Lin(参考訳) 金融時系列の大きな特徴の1つは、深いニューラルネットワークでは困難である大量の非定常ノイズを含むことである。 通常、人々はこの問題に対処するために様々な機能を使う。 しかし、これらの機能の性能はハイパーパラメータの選択に依存する。 本稿では,これらの指標をニューラルネットワークで表現し,より小さなネットワークを特徴層として構築した大規模ネットワークを訓練し,指標が示す事前知識を微調整することを提案する。 バックプロパゲーションの間、事前知識は勾配降下を通じて人間の論理から機械論理に伝達される。 事前知識はニューラルネットワークの深い信念であり、非定常ノイズの影響を受けないようネットワークに教える。 さらに、共蒸留により、構造をはるかに小さなサイズに蒸留し、冗長な特徴と過剰充填のリスクを低減できる。 さらに、勾配降下の観点からの小さなネットワークの決定は、大規模ネットワークのそれよりも堅牢で慎重である。 数値実験により,我々のアルゴリズムは実際の財務データセットの従来の手法よりも高速で精度が高いことがわかった。 また,本手法の検証と理解を行う実験を行った。

One of the major characteristics of financial time series is that they contain a large amount of non-stationary noise, which is challenging for deep neural networks. People normally use various features to address this problem. However, the performance of these features depends on the choice of hyper-parameters. In this paper, we propose to use neural networks to represent these indicators and train a large network constructed of smaller networks as feature layers to fine-tune the prior knowledge represented by the indicators. During back propagation, prior knowledge is transferred from human logic to machine logic via gradient descent. Prior knowledge is the deep belief of neural network and teaches the network to not be affected by non-stationary noise. Moreover, co-distillation is applied to distill the structure into a much smaller size to reduce redundant features and the risk of overfitting. In addition, the decisions of the smaller networks in terms of gradient descent are more robust and cautious than those of large networks. In numerical experiments, we find that our algorithm is faster and more accurate than traditional methods on real financial datasets. We also conduct experiments to verify and comprehend the method.
翻訳日:2022-11-20 20:11:49 公開日:2020-11-26
# 広ベイズ型ニューラルネットワークの正確な後方分布

Exact posterior distributions of wide Bayesian neural networks ( http://arxiv.org/abs/2006.10541v2 )

ライセンス: Link先を確認
Jiri Hron and Yasaman Bahri and Roman Novak and Jeffrey Pennington and Jascha Sohl-Dickstein(参考訳) 近年の研究では、ディープベイズニューラルネットワーク(bnn)によって引き起こされる事前関数は、全ての層幅が大きくなるにつれてガウス過程(gp)として振る舞うことが示されている。 しかし、多くのBNNアプリケーションは、BNN関数空間の後方に関係している。 1996年) と Matthews et al. (2018年) のオリジナルの著作では、後続収束の実証的な証拠が提示されているが、BNN後続近似の正確性を取得し検証することの難しさから、小さなデータセットやアーキテクチャに限られている。 我々は、正確なBNN後続が、前者のGP極限によって誘導されるものと(弱く)収束するという、欠落した理論的証明を与える。 実験的な検証のために、リジェクションサンプリングにより、小さなデータセット上で有限BNNから正確なサンプルを生成する方法を示す。

Recent work has shown that the prior over functions induced by a deep Bayesian neural network (BNN) behaves as a Gaussian process (GP) as the width of all layers becomes large. However, many BNN applications are concerned with the BNN function space posterior. While some empirical evidence of the posterior convergence was provided in the original works of Neal (1996) and Matthews et al. (2018), it is limited to small datasets or architectures due to the notorious difficulty of obtaining and verifying exactness of BNN posterior approximations. We provide the missing theoretical proof that the exact BNN posterior converges (weakly) to the one induced by the GP limit of the prior. For empirical validation, we show how to generate exact samples from a finite BNN on a small dataset via rejection sampling.
翻訳日:2022-11-19 12:48:44 公開日:2020-11-26
# 屋根を通すカーネルメソッド:何十億ものポイントを効率的に扱う

Kernel methods through the roof: handling billions of points efficiently ( http://arxiv.org/abs/2006.10350v2 )

ライセンス: Link先を確認
Giacomo Meanti, Luigi Carratino, Lorenzo Rosasco, Alessandro Rudi(参考訳) カーネル手法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、na\\ 型実装はデータサイズに乏しいため、大規模な問題ではほとんど利用できない。 最近の進歩は、最適化、数値線形代数、ランダム射影を組み合わせるなど、多くのアルゴリズム的アイデアの利点を示している。 ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器の開発とテストを行います。 そこで我々は,GPUアクセラレーションと並列化の両方を複数のGPUで活用するカーネル手法のための事前条件付き勾配解法を設計し,ハードウェアの最適利用を保証するために,共通線形代数演算の変種を実装した。 さらに,異なる演算の数値精度を最適化し,行列ベクトル乗算の効率を最大化する。 その結果、数十億のポイントを持つデータセットで劇的なスピードアップを実験的に示すことができ、同時に、アートパフォーマンスの状態を保証できます。 さらに、ソフトウェアを使いやすいライブラリとして利用できるようにする。

Kernel methods provide an elegant and principled approach to nonparametric learning, but so far could hardly be used in large scale problems, since na\"ive implementations scale poorly with data size. Recent advances have shown the benefits of a number of algorithmic ideas, for example combining optimization, numerical linear algebra and random projections. Here, we push these efforts further to develop and test a solver that takes full advantage of GPU hardware. Towards this end, we designed a preconditioned gradient solver for kernel methods exploiting both GPU acceleration and parallelization with multiple GPUs, implementing out-of-core variants of common linear algebra operations to guarantee optimal hardware utilization. Further, we optimize the numerical precision of different operations and maximize efficiency of matrix-vector multiplications. As a result we can experimentally show dramatic speedups on datasets with billions of points, while still guaranteeing state of the art performance. Additionally, we make our software available as an easy to use library.
翻訳日:2022-11-19 12:39:57 公開日:2020-11-26
# ハイブリッド型ディープラーニングアーキテクチャによるトカマク全体の一般破壊予測

Hybrid deep learning architecture for general disruption prediction across tokamaks ( http://arxiv.org/abs/2007.01401v4 )

ライセンス: Link先を確認
J.X. Zhu, C. Rea, K. Montes, R.S. Granetz, R. Sweeney, R.A. Tinguely(参考訳) 本稿では,既存のデバイスから新しいデバイスへの知識伝達を効果的に可能にし,新しいデバイスからの非常に限られた破壊データを用いた破壊予測を行う,爆発的データ分析から重要な知見に基づく新しいディープラーニング破壊予測アルゴリズムを提案する。 教師なしクラスタリングによる探索的データ解析により,時系列データの方が瞬時プラズマ状態データよりも破壊的かつ非破壊的挙動の分離装置として優れていることが確認された。 このような重要な知見に基づいて, C-Mod (AUC=0.801), DIII-D (AUC=0.947) および EAST (AUC=0.973) トカマクの高予測精度を実現するマルチマシン破壊予測アルゴリズムを設計した。 数値実験により,EAST予測の精度向上(AUC=0.959)は,20個の破壊放電と数千個の非破壊放電と,DIII-DおよびC-Modからの1000以上の放電とを組み合わせることで達成された。 他のデバイスからの破壊的データを組み合わせることで得られる予測能力の改善は、3つのデバイスのすべての順列に当てはまる。 さらに, 個々の数値実験の予測性能を比較することにより, 非破壊データは機械固有のものであり, 複数デバイスからの破壊データには, 新たなデバイスで発生した破壊の予測に使用するデバイス非依存の知識が含まれていることがわかった。

In this paper, we present a new deep learning disruption prediction algorithm based on important findings from explorative data analysis which effectively allows knowledge transfer from existing devices to new ones, thereby predicting disruptions using very limited disruptive data from the new devices. The explorative data analysis conducted via unsupervised clustering techniques confirms that time-sequence data are much better separators of disruptive and non-disruptive behavior than the instantaneous plasma state data with further advantageous implications for a sequence-based predictor. Based on such important findings, we have designed a new algorithm for multi-machine disruption prediction that achieves high predictive accuracy on the C-Mod (AUC=0.801), DIII-D (AUC=0.947) and EAST (AUC=0.973) tokamaks with limited hyperparameter tuning. Through numerical experiments, we show that boosted accuracy (AUC=0.959) is achieved on EAST predictions by including in the training only 20 disruptive discharges, thousands of non-disruptive discharges from EAST, and combining this with more than a thousand discharges from DIII-D and C-Mod. The improvement of predictive ability obtained by combining disruptive data from other devices is found to be true for all permutations of the three devices. Furthermore, by comparing the predictive performance of each individual numerical experiment, we find that non-disruptive data are machine-specific while disruptive data from multiple devices contain device-independent knowledge that can be used to inform predictions for disruptions occurring on a new device.
翻訳日:2022-11-14 14:54:39 公開日:2020-11-26
# ロバスト骨格に基づく行動認識のためのリッチアクティブグラフ畳み込みネットワーク

Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition ( http://arxiv.org/abs/2008.03791v2 )

ライセンス: Link先を確認
Yi-Fan Song, Zhang Zhang, Caifeng Shan, Liang Wang(参考訳) 骨格に基づく人間の行動認識の現在の方法は、通常は完全な骨格で機能する。 しかし、実際のシナリオでは、不完全またはノイズのある骨格を捕獲することは避けられないため、いくつかの情報的関節が閉塞または乱れたときに、現在の方法の性能が著しく低下する可能性がある。 マルチストリームグラフ畳み込みネットワーク(GCN)は,全ての骨格関節に分散する十分な識別的特徴を探索し,その分散冗長表現により,作用モデルの非標準骨格への感度を低下させる。 具体的には、バックボーンGCNは一連の順序付きストリームによって拡張され、前のストリームによってアクティベートされていない関節から識別的特徴を学習する。 ここでは、各GCNストリームの骨格関節の活性化度をクラス活性化マップ(CAM)で測定し、非活性化継手からの情報のみを次のストリームに渡して、全ての活性継手の豊富な特徴を得る。 したがって、提案手法はリッチアクティブGCN (RA-GCN) と呼ばれる。 最先端(SOTA)手法と比較して、RA-GCNは標準のNTU RGB+D 60と120のデータセットで同等のパフォーマンスを達成している。 さらに, 合成オクルージョンおよびジッタリングデータセットにおいて, 提案するra-gcnを利用することで, 咬合関節および障害関節による性能低下を著しく軽減することができる。

Current methods for skeleton-based human action recognition usually work with complete skeletons. However, in real scenarios, it is inevitable to capture incomplete or noisy skeletons, which could significantly deteriorate the performance of current methods when some informative joints are occluded or disturbed. To improve the robustness of action recognition models, a multi-stream graph convolutional network (GCN) is proposed to explore sufficient discriminative features spreading over all skeleton joints, so that the distributed redundant representation reduces the sensitivity of the action models to non-standard skeletons. Concretely, the backbone GCN is extended by a series of ordered streams which is responsible for learning discriminative features from the joints less activated by preceding streams. Here, the activation degrees of skeleton joints of each GCN stream are measured by the class activation maps (CAM), and only the information from the unactivated joints will be passed to the next stream, by which rich features over all active joints are obtained. Thus, the proposed method is termed richly activated GCN (RA-GCN). Compared to the state-of-the-art (SOTA) methods, the RA-GCN achieves comparable performance on the standard NTU RGB+D 60 and 120 datasets. More crucially, on the synthetic occlusion and jittering datasets, the performance deterioration due to the occluded and disturbed joints can be significantly alleviated by utilizing the proposed RA-GCN.
翻訳日:2022-11-01 04:36:36 公開日:2020-11-26
# 把持場:人間把持のための暗黙表現の学習

Grasping Field: Learning Implicit Representations for Human Grasps ( http://arxiv.org/abs/2008.04451v3 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Jinlong Yang, Yan Zhang, Michael Black, Krikamol Muandet, Siyu Tang(参考訳) 近年,家庭用物体のロボット把持が著しい進歩を遂げている。 しかし、人間の把握はまだ現実的な合成が難しい。 1) 人間の手は多くの自由度(ロボットマニピュレータよりも)を持ち、(2) 合成された手は物体の表面に適合し、(3) 意味的に、物理的に有理な方法で物体と相互作用すべきである。 この方向に進むために、3次元オブジェクト再構成のための学習に基づく暗黙の表現の最近の進歩から着想を得た。 具体的には,深層ニューラルネットワークと効率的に統合し易い人間把握モデリングのための表現表現を提案する。 我々の洞察では、三次元空間のすべての点は、それぞれ手の表面と物体との符号付き距離によって特徴づけられる。 これにより、手と物体と接触領域を共通空間内の暗黙の表面で表現することができ、手と物体との近接を明示的にモデル化することができる。 この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。 提案する把持場は,人間の把持生成に効果的で表現力に富む表現であることを示す。 具体的には、3dオブジェクトポイントクラウド上でのみ、高品質な人間把握を合成することが可能である。 より広範な実験により,我々の生成モデルは強いベースラインと好適に比較され,自然な人間の把握レベルに近づいた。 本手法は,手指接触再建の物理的信頼性を向上し,最新手法と比較して3次元手指再建に匹敵する性能を実現する。

Robotic grasping of house-hold objects has made remarkable progress in recent years. Yet, human grasps are still difficult to synthesize realistically. There are several key reasons: (1) the human hand has many degrees of freedom (more than robotic manipulators); (2) the synthesized hand should conform to the surface of the object; and (3) it should interact with the object in a semantically and physically plausible manner. To make progress in this direction, we draw inspiration from the recent progress on learning-based implicit representations for 3D object reconstruction. Specifically, we propose an expressive representation for human grasp modelling that is efficient and easy to integrate with deep neural networks. Our insight is that every point in a three-dimensional space can be characterized by the signed distances to the surface of the hand and the object, respectively. Consequently, the hand, the object, and the contact area can be represented by implicit surfaces in a common space, in which the proximity between the hand and the object can be modelled explicitly. We name this 3D to 2D mapping as Grasping Field, parameterize it with a deep neural network, and learn it from data. We demonstrate that the proposed grasping field is an effective and expressive representation for human grasp generation. Specifically, our generative model is able to synthesize high-quality human grasps, given only on a 3D object point cloud. The extensive experiments demonstrate that our generative model compares favorably with a strong baseline and approaches the level of natural human grasps. Our method improves the physical plausibility of the hand-object contact reconstruction and achieves comparable performance for 3D hand reconstruction compared to state-of-the-art methods.
翻訳日:2022-10-31 23:14:14 公開日:2020-11-26
# 注意畳み込みネットワークを用いた単一画像からの付着ミストと雨滴除去

Adherent Mist and Raindrop Removal from a Single Image Using Attentive Convolutional Network ( http://arxiv.org/abs/2009.01466v2 )

ライセンス: Link先を確認
Da He, Xiaoyu Shang, Jiajia Luo(参考訳) ガラスに付着した温度差によって引き起こされるミスト、例えばフロントガラス、カメラレンズは、しばしば不均一で曖昧であり、視力を阻害し、画像がひどく劣化する。 付着した雨滴とともに、様々な視覚システムにかなりの課題をもたらすが、十分な注意を払わない。 同様の問題に対する最近の手法では、通常は手作りの先行手法を用いて空間的注意マップを生成する。 本研究では,付着ミストと雨滴による画像劣化の問題を新たに提示する。 注意的畳み込みネットワークを採用し、単一の画像から付着霧や雨滴を視覚的に除去する。 一般的なチャネルワイドアテンション、空間アテンション、マルチレベル特徴融合を備えたベースラインアーキテクチャを用いる。 付着霧と雨滴の変動と地域特性を考慮し,異なるスケールで空間情報を知覚するために補間型ピラミッドアテンションブロックを適用した。 提案手法は,質的および定量的に画像の可視性を著しく改善できることを示す。 より応用された実験により、この過小評価された実践的問題は高レベルの視覚シーンにとって重要であることが示された。 また,従来のデハジング問題や純粋なデレインドロップ問題においても,付着ミストや雨滴を扱う作業に加えて,最先端のパフォーマンスを実現する。

Temperature difference-induced mist adhered to the glass, such as windshield, camera lens, is often inhomogeneous and obscure, easily obstructing the vision and severely degrading the image. Together with adherent raindrops, they bring considerable challenges to various vision systems but without enough attention. Recent methods for other similar problems typically use hand-crafted priors to generate spatial attention maps. In this work, we newly present a problem of image degradation caused by adherent mist and raindrops. An attentive convolutional network is adopted to visually remove the adherent mist and raindrop from a single image. A baseline architecture with general channel-wise attention, spatial attention, and multilevel feature fusion is used. Considering the variations and regional characteristics of adherent mist and raindrops, we apply interpolation-based pyramid-attention blocks to perceive spatial information at different scales. Experiments show that the proposed method can improve severely degraded images' visibility, both qualitatively and quantitatively. More applied experiments show that this underrated practical problem is critical to high-level vision scenes. Our method also achieves state-of-the-art performance on conventional dehazing and pure de-raindrop problems, in addition to our task of handling adherent mist and raindrops.
翻訳日:2022-10-22 07:44:43 公開日:2020-11-26
# スマートビルにおける室内温度予測と暖房制御のための逐次モデリング手法

A Sequential Modelling Approach for Indoor Temperature Prediction and Heating Control in Smart Buildings ( http://arxiv.org/abs/2009.09847v2 )

ライセンス: Link先を確認
Yongchao Huang, Hugh Miles, Pengfei Zhang(参考訳) 大規模データの可用性の向上と計算能力の向上により、Cyber-Physical Systems(CPS)、Internet of Things(IoT)、Smart Building Networks(SBN)といった分野における統計機械学習(ML)アルゴリズムの広範な適用が可能になった。 本稿では,室内温度予測のためのデータ駆動統計手法を逐次に適用する学習ベースのフレームワークを提案する。 このフレームワークは2段階のモデリング作業から成り、第1段階では、環境条件を予測するために不平等時系列モデル(ar)が用いられ、他の制御変数とともに、多変量mlモデル(xgboost)がデプロイされた第2ステージモデリングの入力機能として使用された。 モデルは、センサーネットワークの計測結果から実世界データを使って訓練され、将来の温度軌道を予測するのに使用された。 実験結果は,モデリング手法と制御アルゴリズムの有効性を示し,スマートビルディングアプリケーションにおける混合データ駆動アプローチの有望な可能性を明らかにする。 iotセンサーデータとmlアルゴリズムを賢明に利用することで、スマートビルの効率的なエネルギー管理と持続可能性に貢献します。

The rising availability of large volume data, along with increasing computing power, has enabled a wide application of statistical Machine Learning (ML) algorithms in the domains of Cyber-Physical Systems (CPS), Internet of Things (IoT) and Smart Building Networks (SBN). This paper proposes a learning-based framework for sequentially applying the data-driven statistical methods to predict indoor temperature and yields an algorithm for controlling building heating system accordingly. This framework consists of a two-stage modelling effort: in the first stage, an univariate time series model (AR) was employed to predict ambient conditions; together with other control variables, they served as the input features for a second stage modelling where an multivariate ML model (XGBoost) was deployed. The models were trained with real world data from building sensor network measurements, and used to predict future temperature trajectories. Experimental results demonstrate the effectiveness of the modelling approach and control algorithm, and reveal the promising potential of the mixed data-driven approach in smart building applications. By making wise use of IoT sensory data and ML algorithms, this work contributes to efficient energy management and sustainability in smart buildings.
翻訳日:2022-10-16 05:34:14 公開日:2020-11-26
# el測定によるモジュール電力予測のための深層学習型パイプライン

Deep Learning-based Pipeline for Module Power Prediction from EL Measurements ( http://arxiv.org/abs/2009.14712v2 )

ライセンス: Link先を確認
Mathis Hoffmann, Claudia Buerhop-Lutz, Luca Reeb, Tobias Pickel, Thilo Winkler, Bernd Doll, Tobias W\"urfl, Ian Marius Peters, Christoph Brabec, Andreas Maier and Vincent Christlein(参考訳) 自動検査は大規模太陽光発電プラントの監視において重要な役割を担っている。 一般に、エレクトロルミネセンス測定はソーラーモジュールの様々な種類の欠陥を特定するために用いられるが、モジュールのパワーを決定するために使われていない。 しかし、単一のモジュールのパワーの低下が文字列全体のパフォーマンスに影響を及ぼす可能性があるため、最大パワーポイントでのパワーの知識も重要である。 現在までには、これはモジュールの非接触または降着を必要とする測定値によって決定され、個々のモジュールの定期的な検査が不可能になる。 本研究では,電子ルミネッセンス測定とモジュールのパワー決定のギャップを橋渡しする。 本研究では,モジュールの劣化,特にセルクラックや破壊,最大電力点での対応する電力の719個のエレクトロルミネセンス測定値の大規模なデータセットをコンパイルする。 ここでは,不活性領域と亀裂を主な欠陥タイプとして注目する。 平均絶対誤差は9.0+/-3.7$W_P$ (4.0+/-8.4%) である。 次に,より優れた性能を示すモデル(7.3+/-2.7$W_P$または3.2+/-6.5%)の訓練に深層学習を用い,そのモデルが予測したように,クラス活性化マップの変種を提案する。 この研究により、我々は新しい研究テーマを開くことを目指している。 したがって、データセット、コード、トレーニングされたモデルを公開して、他の研究者が結果と比較できるようにします。 最後に、複数のモジュールを同時に表示するオンサイト計測のためのデータセットサイズや自動前処理パイプラインなど、特定の境界条件を徹底的に評価する。

Automated inspection plays an important role in monitoring large-scale photovoltaic power plants. Commonly, electroluminescense measurements are used to identify various types of defects on solar modules but have not been used to determine the power of a module. However, knowledge of the power at maximum power point is important as well, since drops in the power of a single module can affect the performance of an entire string. By now, this is commonly determined by measurements that require to discontact or even dismount the module, rendering a regular inspection of individual modules infeasible. In this work, we bridge the gap between electroluminescense measurements and the power determination of a module. We compile a large dataset of 719 electroluminescense measurementsof modules at various stages of degradation, especially cell cracks and fractures, and the corresponding power at maximum power point. Here,we focus on inactive regions and cracks as the predominant type of defect. We set up a baseline regression model to predict the power from electroluminescense measurements with a mean absolute error of 9.0+/-3.7$W_P$ (4.0+/-8.4%). Then, we show that deep-learning can be used to train a model that performs significantly better (7.3+/-2.7$W_P$ or 3.2+/-6.5%) and propose a variant of class activation maps to obtain the per cell power loss, as predicted by the model. With this work, we aim to open a new research topic. Therefore, we publicly release the dataset, the code and trained models to empower other researchers to compare against our results. Finally, we present a thorough evaluation of certain boundary conditions like the dataset size and an automated preprocessing pipeline for on-site measurements showing multiple modules at once.
翻訳日:2022-10-12 23:17:49 公開日:2020-11-26
# 次世代セルラーシステムのための連続リソース割り当てを用いた深部強化学習型スケジューリング

Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource Allocation for Next-Generation Cellular Systems ( http://arxiv.org/abs/2010.11269v2 )

ライセンス: Link先を確認
Shu Sun, Xiaofeng Li(参考訳) スケジューリングは、様々なユーザのサービス品質が割り当てられた無線リソースに大きく依存するため、マルチユーザ無線通信において重要な役割を果たす。 本稿では、ユーザを協調的に選択し、リソースブロック(RB)を割り当てる深層強化学習(DRL)に基づく、連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。 スケジューリング問題はマルコフ決定プロセスとしてモデル化され、DRLエージェントは、各RB割り当てステップで、どのユーザと、そのユーザの連続したRB数をスケジュールするかを決定する。 状態空間、行動空間、報酬関数はDRLネットワークを訓練するために微妙に設計されている。 より具体的には、連続FDRAに固有の元々の準連続的な作用空間を有限かつ離散的な作用空間に洗練し、推論レイテンシとシステム性能のトレードオフを得る。 シミュレーションの結果,提案手法はオンライン計算の複雑さを低減しつつ,他の代表的なベースラインスキームよりも優れていることがわかった。

Scheduling plays a pivotal role in multi-user wireless communications, since the quality of service of various users largely depends upon the allocated radio resources. In this paper, we propose a novel scheduling algorithm with contiguous frequency-domain resource allocation (FDRA) based on deep reinforcement learning (DRL) that jointly selects users and allocates resource blocks (RBs). The scheduling problem is modeled as a Markov decision process, and a DRL agent determines which user and how many consecutive RBs for that user should be scheduled at each RB allocation step. The state space, action space, and reward function are delicately designed to train the DRL network. More specifically, the originally quasi-continuous action space, which is inherent to contiguous FDRA, is refined into a finite and discrete action space to obtain a trade-off between the inference latency and system performance. Simulation results show that the proposed DRL-based scheduling algorithm outperforms other representative baseline schemes while having lower online computational complexity.
翻訳日:2022-10-08 14:06:41 公開日:2020-11-26
# 指数重み正規化平滑均質ニューラルネットワークの勾配降下の帰納的バイアス

Inductive Bias of Gradient Descent for Exponentially Weight Normalized Smooth Homogeneous Neural Nets ( http://arxiv.org/abs/2010.12909v2 )

ライセンス: Link先を確認
Depen Morwani, Harish G. Ramaswamy(参考訳) 重み正規化平滑な均質ニューラルネットの勾配降下の帰納的バイアスを指数的またはクロスエントロピー損失を訓練した場合に解析する。 本分析では,半径方向に沿った重量の更新を促進する指数的重み正規化(EWN)に焦点を当てた。 本稿では,EWNを用いた勾配流路が適応的な学習速度を持つ標準ネットワーク上での勾配流路と等価であることを示し,漸近的相対空間性を好む方法で重みを更新する。 これらの結果は、適切な適応学習率によって勾配降下を抑えることができる。 この設定における損失の漸近収束率は$\theta(\frac{1}{t(\log t)^2})$であり、ネットワークの深さとは独立である。 これらの結果と標準重量正規化(swn)および非正規化アーキテクチャの帰納的バイアスを比較し,それらの合成データセットへの影響を実証する。 これは、プルナブルニューラルネットワークの学習における潜在的な応用を実証する。

We analyze the inductive bias of gradient descent for weight normalized smooth homogeneous neural nets, when trained on exponential or cross-entropy loss. Our analysis focuses on exponential weight normalization (EWN), which encourages weight updates along the radial direction. This paper shows that the gradient flow path with EWN is equivalent to gradient flow on standard networks with an adaptive learning rate, and hence causes the weights to be updated in a way that prefers asymptotic relative sparsity. These results can be extended to hold for gradient descent via an appropriate adaptive learning rate. The asymptotic convergence rate of the loss in this setting is given by $\Theta(\frac{1}{t(\log t)^2})$, and is independent of the depth of the network. We contrast these results with the inductive bias of standard weight normalization (SWN) and unnormalized architectures, and demonstrate their implications on synthetic data sets.Experimental results on simple data sets and architectures support our claim on sparse EWN solutions, even with SGD. This demonstrates its potential applications in learning prunable neural networks.
翻訳日:2022-10-03 12:16:08 公開日:2020-11-26
# 成人・幼児の視覚分類における眼球追跡変数の自動選択

Automatic selection of eye tracking variables in visual categorization in adults and infants ( http://arxiv.org/abs/2010.15047v2 )

ライセンス: Link先を確認
Samuel Rivera, Catherine A. Best, Hyungwook Yim, Dirk B. Walther, Vladimir M. Sloutsky, Aleix M. Martinez(参考訳) 視覚カテゴリの視覚分類と学習は初期発症を示すが、初期分類の基本的なメカニズムはよく分かっていない。 これらのメカニズムを調べるための主な制限要因は、乳幼児の協力期間(10~15分)であり、複数の試験を行う余地がほとんどない。 視覚的注意に強く結びついているため、視線追跡はカテゴリー学習のメカニズムにアクセスする上で有望な方法である。 しかし、リッチアイトラッキングデータのどの側面にフォーカスするか、研究者はどのように決めるべきか? これまで、眼球追跡変数は一般に手動選択され、眼球追跡データのバイアスにつながる可能性がある。 本稿では,視覚カテゴリの非学習者から学習者を判別するための有用性の分析に基づいて,視線追跡変数を自動選択する手法を提案する。 乳幼児と成人にカテゴリー学習課題を提示し,眼球運動の追跡を行った。 その後, 持続時間, 確率, 潜時, 固定順, 眼球運動順を含む眼球追跡変数の完全集合を抽出した。 ANOVAランキング,ベイズランキング,L1正規化ロジスティック回帰という,学習者の非学習者の識別に有用な3つの統計手法を比較した。 判別変数の小さな集合を同定する際,これらの手法の間に顕著な一致が認められた。 また、同じ視線追跡変数によって、成人の非学習者や6か月から8ヶ月の幼児から71%以上の確率でカテゴリー学習者を分類できる。

Visual categorization and learning of visual categories exhibit early onset, however the underlying mechanisms of early categorization are not well understood. The main limiting factor for examining these mechanisms is the limited duration of infant cooperation (10-15 minutes), which leaves little room for multiple test trials. With its tight link to visual attention, eye tracking is a promising method for getting access to the mechanisms of category learning. But how should researchers decide which aspects of the rich eye tracking data to focus on? To date, eye tracking variables are generally handpicked, which may lead to biases in the eye tracking data. Here, we propose an automated method for selecting eye tracking variables based on analyses of their usefulness to discriminate learners from non-learners of visual categories. We presented infants and adults with a category learning task and tracked their eye movements. We then extracted an over-complete set of eye tracking variables encompassing durations, probabilities, latencies, and the order of fixations and saccadic eye movements. We compared three statistical techniques for identifying those variables among this large set that are useful for discriminating learners form non-learners: ANOVA ranking, Bayes ranking, and L1 regularized logistic regression. We found remarkable agreement between these methods in identifying a small set of discriminant variables. Moreover, the same eye tracking variables allow us to classify category learners from non-learners among adults and 6- to 8-month-old infants with accuracies above 71%.
翻訳日:2022-10-02 05:56:16 公開日:2020-11-26
# FusiformNet: 異なるレベルで差別的な顔の特徴を抽出する

FusiformNet: Extracting Discriminative Facial Features on Different Levels ( http://arxiv.org/abs/2011.00577v3 )

ライセンス: Link先を確認
Kyo Takano(参考訳) ここ数年、Deep Neural Networkに基づく顔認識の研究は、タスク固有の損失関数、画像の正規化と拡張、ネットワークアーキテクチャなどのアプローチで進化してきた。 しかし、人間の顔が人によってどう違うかに注目するアプローチはほとんどない。 対人差が一般的にも局所的にも人間の顔に現れることを前提として,識別的顔の特徴を生かした特徴抽出のための新しい枠組みであるFusiformNetを提案する。 ワイルドベンチマークでラベル付き顔の画像制限設定でテストされ、外部データ、画像拡張、正規化、特別な損失関数なしで96.67%の最先端の精度を達成した。 同様に、この方法はCASIA-WebFaceデータセットで事前トレーニングされた場合、以前の最先端と同等に実行される。 一般的な特徴と局所的な特徴の両方を抽出できる能力を考えると、FusiformNetの機能は顔認識に限らず、他のDNNベースのタスクにも拡張できる。

Over the last several years, research on facial recognition based on Deep Neural Network has evolved with approaches like task-specific loss functions, image normalization and augmentation, network architectures, etc. However, there have been few approaches with attention to how human faces differ from person to person. Premising that inter-personal differences are found both generally and locally on the human face, I propose FusiformNet, a novel framework for feature extraction that leverages the nature of discriminative facial features. Tested on Image-Unrestricted setting of Labeled Faces in the Wild benchmark, this method achieved a state-of-the-art accuracy of 96.67% without labeled outside data, image augmentation, normalization, or special loss functions. Likewise, the method also performed on a par with previous state-of-the-arts when pre-trained on CASIA-WebFace dataset. Considering its ability to extract both general and local facial features, the utility of FusiformNet may not be limited to facial recognition but also extend to other DNN-based tasks.
翻訳日:2022-09-30 23:28:44 公開日:2020-11-26
# シーン意味セグメンテーション駆動のためのドメイン適応知識蒸留

Domain Adaptive Knowledge Distillation for Driving Scene Semantic Segmentation ( http://arxiv.org/abs/2011.08007v2 )

ライセンス: Link先を確認
Divya Kothandaraman, Athira Nambiar, Anurag Mittal(参考訳) 実用的な自動運転システムは、メモリ制約とドメインギャップの問題という2つの重要な課題に直面している。 本稿では,限られたメモリを持つモデルにおいて,ドメイン適応知識を学習するための新しい手法を提案する。 我々はこれを「ドメイン適応知識蒸留」と呼び、異なるレベルで知識を効果的に区別するために多段階蒸留戦略を提案することにより、教師なしドメイン適応意味セグメンテーションの文脈でこれに対処する。 さらに,教師の擬似ラベルを利用した新しいクロスエントロピー損失について紹介する。 これらの擬似教師ラベルは多面的な役割を担っている。 (i)教員ネットワークから学生ネットワークへの知識蒸留 (ii)問題は完全に管理されていない対象ドメインイメージの根拠真理のプロキシとして機能する。 ドメイン適応知識を蒸留する4つのパラダイムを導入し,実物間及び合成実物間シナリオに関する広範な実験およびアブレーション研究を行う。 提案手法の有効性を実証する実験を行った。

Practical autonomous driving systems face two crucial challenges: memory constraints and domain gap issues. In this paper, we present a novel approach to learn domain adaptive knowledge in models with limited memory, thus bestowing the model with the ability to deal with these issues in a comprehensive manner. We term this as "Domain Adaptive Knowledge Distillation" and address the same in the context of unsupervised domain-adaptive semantic segmentation by proposing a multi-level distillation strategy to effectively distil knowledge at different levels. Further, we introduce a novel cross entropy loss that leverages pseudo labels from the teacher. These pseudo teacher labels play a multifaceted role towards: (i) knowledge distillation from the teacher network to the student network & (ii) serving as a proxy for the ground truth for target domain images, where the problem is completely unsupervised. We introduce four paradigms for distilling domain adaptive knowledge and carry out extensive experiments and ablation studies on real-to-real as well as synthetic-to-real scenarios. Our experiments demonstrate the profound success of our proposed method.
翻訳日:2022-09-30 05:29:14 公開日:2020-11-26
# VEGA: エンドツーエンドのAutoMLパイプラインを目指す

VEGA: Towards an End-to-End Configurable AutoML Pipeline ( http://arxiv.org/abs/2011.01507v4 )

ライセンス: Link先を確認
Bochao Wang, Hang Xu, Jiajin Zhang, Chen Chen, Xiaozhi Fang, Yixing Xu, Ning Kang, Lanqing Hong, Chenhan Jiang, Xinyue Cai, Jiawei Li, Fengwei Zhou, Yong Li, Zhicheng Liu, Xinghao Chen, Kai Han, Han Shu, Dehua Song, Yunhe Wang, Wei Zhang, Chunjing Xu, Zhenguo Li, Wenzhi Liu, Tong Zhang(参考訳) Automated Machine Learning (AutoML)は、機械学習モデルの自動発見とデプロイのための重要な産業ソリューションである。 しかし、統合されたAutoMLシステムの設計には、設定性、スケーラビリティ、統合性、プラットフォームの多様性の4つの大きな課題がある。 本稿では,複数のハードウェアプラットフォームに互換性と最適化を施した,効率的かつ包括的なAutoMLフレームワークであるVEGAを紹介する。 a) VEGAパイプラインは、Neural Architecture Search(NAS)、Hyperparameter Optimization(HPO)、Auto Data Augmentation、Model Compression、Fully Trainなど、AutoMLのさまざまなモジュールを統合する。 b) 様々な検索アルゴリズムとタスクをサポートするため,我々は,新しいきめ細かな検索空間とその記述言語を設計し,異なる検索アルゴリズムやタスクへの適応を容易にする。 c) ディープラーニングフレームワークの共通コンポーネントを統一インターフェースに抽象化する。 VEGAは複数のバックエンドとハードウェアで実行できる。 複数のタスクに関する大規模なベンチマーク実験は、VEGAが既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見することを実証している。例えば、検索されたDNetモデル動物園は、EfficientNet-B5より10倍、ImageNet上のRegNetX-32GFより9.2倍高速である。 VEGAはhttps://github.com/huawei-noah/vega.comでオープンソース化されている。

Automated Machine Learning (AutoML) is an important industrial solution for automatic discovery and deployment of the machine learning models. However, designing an integrated AutoML system faces four great challenges of configurability, scalability, integrability, and platform diversity. In this work, we present VEGA, an efficient and comprehensive AutoML framework that is compatible and optimized for multiple hardware platforms. a) The VEGA pipeline integrates various modules of AutoML, including Neural Architecture Search (NAS), Hyperparameter Optimization (HPO), Auto Data Augmentation, Model Compression, and Fully Train. b) To support a variety of search algorithms and tasks, we design a novel fine-grained search space and its description language to enable easy adaptation to different search algorithms and tasks. c) We abstract the common components of deep learning frameworks into a unified interface. VEGA can be executed with multiple back-ends and hardwares. Extensive benchmark experiments on multiple tasks demonstrate that VEGA can improve the existing AutoML algorithms and discover new high-performance models against SOTA methods, e.g. the searched DNet model zoo for Ascend 10x faster than EfficientNet-B5 and 9.2x faster than RegNetX-32GF on ImageNet. VEGA is open-sourced at https://github.com/huawei-noah/vega.
翻訳日:2022-09-30 05:21:24 公開日:2020-11-26
# 意味セグメンテーションマスクのマップベース検証に向けて

Towards Map-Based Validation of Semantic Segmentation Masks ( http://arxiv.org/abs/2011.08008v2 )

ライセンス: Link先を確認
Laura von Rueden, Tim Wirtz, Fabian Hueger, Jan David Schneider, Christian Bauckhage(参考訳) 自動運転のための人工知能は、安全性と堅牢性に関する厳しい要件を満たす必要がある。 我々は、与えられた事実ラベルだけでなく、追加のa-priori知識を用いて、自動運転車の機械学習モデルを検証することを提案する。 特に,街路地図データを用いてセマンティックセグメンテーションマスクの乾燥領域を検証することを提案する。 地図に基づく検証によって予測誤差を発見できることを示す最初の結果を示す。

Artificial intelligence for autonomous driving must meet strict requirements on safety and robustness. We propose to validate machine learning models for self-driving vehicles not only with given ground truth labels, but also with additional a-priori knowledge. In particular, we suggest to validate the drivable area in semantic segmentation masks using given street map data. We present first results, which indicate that prediction errors can be uncovered by map-based validation.
翻訳日:2022-09-30 03:59:48 公開日:2020-11-26
# 確率的安全性保証によるリアクティブ動作計画

Reactive motion planning with probabilistic safety guarantees ( http://arxiv.org/abs/2011.03590v2 )

ライセンス: Link先を確認
Yuxiao Chen, Ugo Rosolia, Chuchu Fan, Aaron D. Ames, and Richard Murray(参考訳) 複数のエージェントを持つ環境での運動計画は、自動運転車や補助ロボットのような多くの重要な自律的アプリケーションにとって重要である。 本稿では,制御エージェントが複数の非制御エージェントと環境を共有できるモーションプランニングの問題について考察する。 まず、制御されていないエージェントの予測モデルを訓練し、シナリオに基づいて短い地平線内で全ての可能な軌道を予測する。 予測はモデル予測制御に基づいて動作計画モジュールに送信される。 予測モデルの一般化は,ポストブローミング,サポートベクターマシン(svm),コンフォメーション解析の3つの方法によって達成され,いずれも予測者の正しさの確率的保証を生成できることを示した。 提案手法は,自動運転のシナリオを模擬したシミュレーションで実証された。

Motion planning in environments with multiple agents is critical to many important autonomous applications such as autonomous vehicles and assistive robots. This paper considers the problem of motion planning, where the controlled agent shares the environment with multiple uncontrolled agents. First, a predictive model of the uncontrolled agents is trained to predict all possible trajectories within a short horizon based on the scenario. The prediction is then fed to a motion planning module based on model predictive control. We proved generalization bound for the predictive model using three different methods, post-bloating, support vector machine (SVM), and conformal analysis, all capable of generating stochastic guarantees of the correctness of the predictor. The proposed approach is demonstrated in simulation in a scenario emulating autonomous highway driving.
翻訳日:2022-09-29 05:52:02 公開日:2020-11-26
# 新型コロナウイルス(covid-19)感染活動例の予測における小標本サイズの呪い

Curse of Small Sample Size in Forecasting of the Active Cases in COVID-19 Outbreak ( http://arxiv.org/abs/2011.03628v2 )

ライセンス: Link先を確認
Mert Nak{\i}p, Onur \c{C}opur, C\"uneyt G\"uzeli\c{s}(参考訳) 新型コロナウイルス(covid-19)パンデミックの間、このパンデミックの感染者数とその他の将来の傾向を予測するために、膨大な数の試みが行われてきた。 しかし、信頼性の高い方法では、新型コロナウイルスのアウトブレイクの基本的な特徴の中長期的な進化を許容できる精度で予測できない。 本稿では,この予測問題における機械学習モデルの故障について説明する。 本稿では, 線形回帰モデルにより, 2週間の期間にのみ高い予測精度が得られたが, 比較的複雑な機械学習モデルでは, 低誤差で長期予測を学習する可能性があり, 高い一般化能力を有するような予測が得られないことを示す。 本論文では,十分なサンプル数の不足が予測モデルの予測性能の低下の原因であることを示唆している。 有効事例に関する予測結果の信頼性は、予測者の一般化誤差に対する期待値として使用されるクロスバリデーション予測誤差の観点から測定する。 アクティブなケースと最も関連性の高い情報を活用するために,様々な変数に対して特徴選択を行う。 特徴選択法として,ラッソ回帰を用いて特徴選択法,再帰的特徴選択法,特徴選択法をそれぞれ適用し,特徴選択を行わないモデルと比較した。 さらに, 線形回帰, 多重層知覚, 長短項記憶モデルを比較し, 上記の特徴選択法と合わせて, アクティブケースの予測に用いている。 以上の結果から,covid-19データのサンプルサイズが小さければ3日以内で,高い汎化能を有する能動的症例の正確な予測が可能であることが示された。

During the COVID-19 pandemic, a massive number of attempts on the predictions of the number of cases and the other future trends of this pandemic have been made. However, they fail to predict, in a reliable way, the medium and long term evolution of fundamental features of COVID-19 outbreak within acceptable accuracy. This paper gives an explanation for the failure of machine learning models in this particular forecasting problem. The paper shows that simple linear regression models provide high prediction accuracy values reliably but only for a 2-weeks period and that relatively complex machine learning models, which have the potential of learning long term predictions with low errors, cannot achieve to obtain good predictions with possessing a high generalization ability. It is suggested in the paper that the lack of a sufficient number of samples is the source of low prediction performance of the forecasting models. The reliability of the forecasting results about the active cases is measured in terms of the cross-validation prediction errors, which are used as expectations for the generalization errors of the forecasters. To exploit the information, which is of most relevant with the active cases, we perform feature selection over a variety of variables. We apply different feature selection methods, namely the Pairwise Correlation, Recursive Feature Selection, and feature selection by using the Lasso regression and compare them to each other and also with the models not employing any feature selection. Furthermore, we compare Linear Regression, Multi-Layer Perceptron, and Long-Short Term Memory models each of which is used for prediction active cases together with the mentioned feature selection methods. Our results show that the accurate forecasting of the active cases with high generalization ability is possible up to 3 days only because of the small sample size of COVID-19 data.
翻訳日:2022-09-29 04:33:56 公開日:2020-11-26
# 低周波脳波による手の動きの深層学習に基づく分類

Deep learning-based classification of fine hand movements from low frequency EEG ( http://arxiv.org/abs/2011.06791v2 )

ライセンス: Link先を確認
Giulia Bressan, Selina C. Wriessnegger, Giulia Cisotto(参考訳) 脳波信号から異なる手の動きの分類は、脳-コンピュータインタフェースの運動再生への応用など、関連する研究課題を表している。 そこで我々は,手の動き(触覚,握力,手のひら,横方向のつかみ)を自覚的モーダルで行う2つの異なるデータセットを解析した。 提案する畳み込みニューラルネットワーク(convolutional neural network, cnn)のトレーニングとテストを行い,その分類性能を,確立された2つの機械学習モデル,すなわち縮小ldaとランダムフォレストと比較した。 従来の文献と比較して神経科学分野の知識を生かし,いわゆる運動関連皮質電位(MRCP)に基づいてCNNモデルを訓練した。 低周波数での脳波振幅変調、すなわち (0.3, 3) Hz は、運動のいくつかの特性、例えば、つかみの種類、力レベル、速度を符号化することが証明されている。 我々はCNNが両方のデータセットで優れた性能を示し、ベースラインモデルと似ているか優れていることを示した。 また、ベースラインと比較して、我々のCNNはより軽量でより高速な前処理手順を必要としており、例えば多くの脳-コンピュータインタフェースアプリケーションにおいて、オンラインモダリティで使用するための道を開いた。

The classification of different fine hand movements from EEG signals represents a relevant research challenge, e.g., in brain-computer interface applications for motor rehabilitation. Here, we analyzed two different datasets where fine hand movements (touch, grasp, palmar and lateral grasp) were performed in a self-paced modality. We trained and tested a newly proposed convolutional neural network (CNN), and we compared its classification performance into respect to two well-established machine learning models, namely, a shrinked-LDA and a Random Forest. Compared to previous literature, we took advantage of the knowledge of the neuroscience field, and we trained our CNN model on the so-called Movement Related Cortical Potentials (MRCPs)s. They are EEG amplitude modulations at low frequencies, i.e., (0.3, 3) Hz, that have been proved to encode several properties of the movements, e.g., type of grasp, force level and speed. We showed that CNN achieved good performance in both datasets and they were similar or superior to the baseline models. Also, compared to the baseline, our CNN requires a lighter and faster pre-processing procedure, paving the way for its possible use in an online modality, e.g., for many brain-computer interface applications.
翻訳日:2022-09-25 23:52:35 公開日:2020-11-26
# 効率的な異常検出のためのGANとオートエンコーダの組み合わせ

Combining GANs and AutoEncoders for Efficient Anomaly Detection ( http://arxiv.org/abs/2011.08102v2 )

ライセンス: Link先を確認
Fabio Carrara (1), Giuseppe Amato (1), Luca Brombin, Fabrizio Falchi (1), Claudio Gennaro (1) ((1) ISTI CNR, Pisa, Italy)(参考訳) 本研究では,画像の異常検出のための新しい手法であるCBiGANを提案する。この手法では,BiGANのエンコーダとデコーダの両方において,整合性制約が正規化項として導入され,モデリング能力と再構成整合性が極めて良好である。提案手法はMVTec AD(高解像度画像の教師なし異常検出のための実世界のベンチマーク)で評価され,標準ベースラインと最先端アプローチとの比較を行う。 実験により, 提案手法はBiGANの定式化性能を高いマージンで向上し, 計算コストを低減しつつ, 最先端反復法と相容れない性能を示した。 また,本モデルがテクスチャ型異常検出に特に有効であることも確認した。 私たちのコードはhttps://github.com/fabiocarrara/cbigan-ad/で利用可能です。

In this work, we propose CBiGAN -- a novel method for anomaly detection in images, where a consistency constraint is introduced as a regularization term in both the encoder and decoder of a BiGAN. Our model exhibits fairly good modeling power and reconstruction consistency capability. We evaluate the proposed method on MVTec AD -- a real-world benchmark for unsupervised anomaly detection on high-resolution images -- and compare against standard baselines and state-of-the-art approaches. Experiments show that the proposed method improves the performance of BiGAN formulations by a large margin and performs comparably to expensive state-of-the-art iterative methods while reducing the computational cost. We also observe that our model is particularly effective in texture-type anomaly detection, as it sets a new state of the art in this category. Our code is available at https://github.com/fabiocarrara/cbigan-ad/.
翻訳日:2022-09-24 23:20:44 公開日:2020-11-26
# CVEGAN:圧縮ビデオエンハンスメントのための知覚型GAN

CVEGAN: A Perceptually-inspired GAN for Compressed Video Enhancement ( http://arxiv.org/abs/2011.09190v2 )

ライセンス: Link先を確認
Di Ma, Fan Zhang and David R. Bull(参考訳) 本稿では,圧縮映像品質向上のためのジェネレーティブ・アドバイザリアル・ネットワーク(CVEGAN)を提案する。 CVEGANジェネレータは、新しいMul2Resブロック(複数のレベルの残留学習枝を持つ)、強化された残留非局所ブロック(ERNB)、拡張された畳み込みブロックアテンションモジュール(ECBAM)を使用することで恩恵を受ける。 ERNBは、表現能力を改善するために識別器にも採用されている。 トレーニング戦略は、相対論的球面GAN(ReSphereGAN)トレーニング手法と新しい知覚的損失関数を併用するために、特にビデオ圧縮アプリケーションのために再設計されている。 提案手法は後処理 (PP) と空間分解能適応 (SRA) の2つの典型的なビデオ圧縮強化ツールの文脈で完全に評価されている。 CVEGANはMPEG HEVCビデオコーディングテストモデル(HM16.20)に完全に統合されており、実験結果から、複数のデータセットにまたがる両方のコーディングツールのための既存の最先端アーキテクチャよりも、コーディングの大幅な向上(PPは28%、SRAは38%)が示されている。

We propose a new Generative Adversarial Network for Compressed Video quality Enhancement (CVEGAN). The CVEGAN generator benefits from the use of a novel Mul2Res block (with multiple levels of residual learning branches), an enhanced residual non-local block (ERNB) and an enhanced convolutional block attention module (ECBAM). The ERNB has also been employed in the discriminator to improve the representational capability. The training strategy has also been re-designed specifically for video compression applications, to employ a relativistic sphere GAN (ReSphereGAN) training methodology together with new perceptual loss functions. The proposed network has been fully evaluated in the context of two typical video compression enhancement tools: post-processing (PP) and spatial resolution adaptation (SRA). CVEGAN has been fully integrated into the MPEG HEVC video coding test model (HM16.20) and experimental results demonstrate significant coding gains (up to 28% for PP and 38% for SRA compared to the anchor) over existing state-of-the-art architectures for both coding tools across multiple datasets.
翻訳日:2022-09-24 05:07:00 公開日:2020-11-26
# 性別ロバスト性:画像特性の変動を伴う顔認識システムにおける性別検出のロバスト性

GenderRobustness: Robustness of Gender Detection in Facial Recognition Systems with variation in Image Properties ( http://arxiv.org/abs/2011.10472v2 )

ライセンス: Link先を確認
Sharadha Srinivasan, Madan Musuvathi(参考訳) 近年では、暗黙のバイアスを持つコンピュータビジョンの人工知能システムやアルゴリズムに対する非難が高まっている。 これらの会話が普及し、広範なテストを実行し、その地平線を広げることで、システムは改善していますが、まだバイアスがあります。 バイアスが存在すると言われるシステムの1つに顔認識システムがあり、性別、民族、肌の色、その他の顔の特徴に基づいて偏見が観察されている。 これらのシステムが現在の産業のあらゆる部門で使われているという事実を考えると、これはさらに厄介だ。 犯罪の特定と同じくらい重要なものから、出席者を登録するほど単純なものまで、これらのシステムは特に近年、巨大な市場を獲得している。 これらのシステムの開発者がバイアスを最小限あるいは理想的には存在しないものに保ち、特定の性別、人種、階級を選ばせることや、システムに正しく認識できないために偽の告発を受けやすくするといった大きな問題を避けるには、それ自体が十分な理由である。

In recent times, there have been increasing accusations on artificial intelligence systems and algorithms of computer vision of possessing implicit biases. Even though these conversations are more prevalent now and systems are improving by performing extensive testing and broadening their horizon, biases still do exist. One such class of systems where bias is said to exist is facial recognition systems, where bias has been observed on the basis of gender, ethnicity, skin tone and other facial attributes. This is even more disturbing, given the fact that these systems are used in practically every sector of the industries today. From as critical as criminal identification to as simple as getting your attendance registered, these systems have gained a huge market, especially in recent years. That in itself is a good enough reason for developers of these systems to ensure that the bias is kept to a bare minimum or ideally non-existent, to avoid major issues like favoring a particular gender, race, or class of people or rather making a class of people susceptible to false accusations due to inability of these systems to correctly recognize those people.
翻訳日:2022-09-24 04:38:57 公開日:2020-11-26
# 誰もがサインアップ:スポンジ言語から写真リアルな手話ビデオへ

Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video ( http://arxiv.org/abs/2011.09846v4 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 難聴者コミュニティが真に理解し受け入れるためには、自動手話生成(SLP)システムが写真リアリスティックシグナーを生成する必要がある。 グラフィカルなアバターに基づく以前のアプローチは不人気であることが証明されているが、スケルトンポーズ配列を生成する最近の神経SLP研究は、聴覚障害者には理解できないことが示されている。 本稿では,音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルであるSignGANを提案する。 本研究では,混合密度ネットワーク(MDN)を用いたトランスフォーマーアーキテクチャを用いて,音声言語から骨格ポーズへの変換を行う。 次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。 これにより、手書きテキストから直接翻訳された手話ビデオの写実的な制作が可能になる。 さらに,合成された手画像の品質を著しく向上し,キーポイント空間で動作し,動きのぼかしに起因する問題を回避する新しいキーポイントベース損失関数を提案する。 さらに,多種多様な手話データセット上でのトレーニングを可能にし,推論時のシグナーの出現を制御可能な映像生成手法を提案する。 放送映像から抽出した8種類の手話インタプリタのデータセットを用いて,SignGANは定量的な測定と人間の知覚研究において,すべてのベースライン法を著しく上回っていることを示す。

To be truly understandable and accepted by Deaf communities, an automatic Sign Language Production (SLP) system must generate a photo-realistic signer. Prior approaches based on graphical avatars have proven unpopular, whereas recent neural SLP works that produce skeleton pose sequences have been shown to be not understandable to Deaf viewers. In this paper, we propose SignGAN, the first SLP model to produce photo-realistic continuous sign language videos directly from spoken language. We employ a transformer architecture with a Mixture Density Network (MDN) formulation to handle the translation from spoken language to skeletal pose. A pose-conditioned human synthesis model is then introduced to generate a photo-realistic sign language video from the skeletal pose sequence. This allows the photo-realistic production of sign videos directly translated from written text. We further propose a novel keypoint-based loss function, which significantly improves the quality of synthesized hand images, operating in the keypoint space to avoid issues caused by motion blur. In addition, we introduce a method for controllable video generation, enabling training on large, diverse sign language datasets and providing the ability to control the signer appearance at inference. Using a dataset of eight different sign language interpreters extracted from broadcast footage, we show that SignGAN significantly outperforms all baseline methods for quantitative metrics and human perceptual studies.
翻訳日:2022-09-23 20:16:42 公開日:2020-11-26
# NOMA強化屋内知能ロボットの経路設計と資源管理

Path Design and Resource Management for NOMA enhanced Indoor Intelligent Robots ( http://arxiv.org/abs/2011.11745v2 )

ライセンス: Link先を確認
Ruikang Zhong, Xiao Liu, Yuanwei Liu, Yue Chen and Xianbin Wang(参考訳) 通信可能な屋内知的ロボット(IR)サービスフレームワークを提案し,非直交多重アクセス(NOMA)技術を採用し,信頼性の高い通信を実現する。 国際電気通信連合(ITU)が最近提案した超近代屋内チャネルモデルと協調して,無線地図を構築するために室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法を提案する。 調査対象の無線マップは,トレーニング時間とハードウェアコストを節約できる強化学習エージェントを訓練するための仮想環境として起動される。 提案した通信モデルに基づいて、指定されたミッション目的地に到達するために必要なIRの動きと対応するダウンリンク電力配分ポリシーを共同最適化し、IRのミッション効率と通信信頼性を最大化する。 この最適化問題を解決するために,Deep Transfer Deterministic Policy gradient (DT-DPG)アルゴリズムという新しい強化学習手法を提案する。 我々のシミュレーション結果は 1)NOMA技術により、IRの通信信頼性が効果的に向上する。 2) 無線地図は仮想学習環境に適しており、その統計チャネル状態情報はトレーニング効率を約30%向上させる。 3)提案したDT-DPGアルゴリズムは,最適化性能,トレーニング時間,非局所最適化能力の観点から,従来のDeep Deterministic Policy gradient (DDPG)アルゴリズムよりも優れている。

A communication enabled indoor intelligent robots (IRs) service framework is proposed, where non-orthogonal multiple access (NOMA) technique is adopted to enable highly reliable communications. In cooperation with the ultramodern indoor channel model recently proposed by the International Telecommunication Union (ITU), the Lego modeling method is proposed, which can deterministically describe the indoor layout and channel state in order to construct the radio map. The investigated radio map is invoked as a virtual environment to train the reinforcement learning agent, which can save training time and hardware costs. Build on the proposed communication model, motions of IRs who need to reach designated mission destinations and their corresponding down-link power allocation policy are jointly optimized to maximize the mission efficiency and communication reliability of IRs. In an effort to solve this optimization problem, a novel reinforcement learning approach named deep transfer deterministic policy gradient (DT-DPG) algorithm is proposed. Our simulation results demonstrate that 1) With the aid of NOMA techniques, the communication reliability of IRs is effectively improved; 2) The radio map is qualified to be a virtual training environment, and its statistical channel state information improves training efficiency by about 30%; 3) The proposed DT-DPG algorithm is superior to the conventional deep deterministic policy gradient (DDPG) algorithm in terms of optimization performance, training time, and anti-local optimum ability.
翻訳日:2022-09-22 03:15:03 公開日:2020-11-26
# 強化学習によるラストアクションの学習原理

Learning Principle of Least Action with Reinforcement Learning ( http://arxiv.org/abs/2011.11891v2 )

ライセンス: Link先を確認
Zehao Jin, Joshua Yao-Yu Lin, Siao-Fong Li(参考訳) 自然は、物体が伝播する経済的方法を好むため、強化学習によって物理学を理解する手段を提供する。 古典力学の場合には、自然は、作用 $\mathcal{s}$ と呼ばれるラグランジアンの積分に従って、経路に沿って移動する対象を好む。 報酬/報酬を$\mathcal{S}$の関数として設定することを考えると、エージェントは強化学習によって様々な環境における粒子の物理的軌道を学習することができる。 本研究では,屈折率の異なる材料に光がどのように伝播するかを学習し,q-ラーニングに基づくアルゴリズムを用いて,スネルの法則やフェルマーの原理で得られた解と同等の最小時間経路を回復できることを検証した。 また,経路積分形式に対する強化学習アプローチの類似性についても論じる。

Nature provides a way to understand physics with reinforcement learning since nature favors the economical way for an object to propagate. In the case of classical mechanics, nature favors the object to move along the path according to the integral of the Lagrangian, called the action $\mathcal{S}$. We consider setting the reward/penalty as a function of $\mathcal{S}$, so the agent could learn the physical trajectory of particles in various kinds of environments with reinforcement learning. In this work, we verified the idea by using a Q-Learning based algorithm on learning how light propagates in materials with different refraction indices, and show that the agent could recover the minimal-time path equivalent to the solution obtained by Snell's law or Fermat's Principle. We also discuss the similarity of our reinforcement learning approach to the path integral formalism.
翻訳日:2022-09-21 14:13:38 公開日:2020-11-26
# k-meansクラスタリングによるスケッチの有効性とスパース

Effective and Sparse Count-Sketch via k-means clustering ( http://arxiv.org/abs/2011.12046v2 )

ライセンス: Link先を確認
Yuhan Wang, Zijian Lei, Liang Lan(参考訳) Count-sketch は、入力データ行列 X を O(nnz(X)) 時間でスケッチできる一般的な行列スケッチアルゴリズムであり、nnz(X) は X のゼロでないエントリの数を表す。 したがって、カウントスケッチは機械学習における高次元課題への対処に広く用いられている。 しかし、count-sketchの主な制限は2つある:(1)count-sketchを使用するスケッチ行列はランダムに生成され、xの固有のデータ特性を考慮しない。 この密集したスケッチマトリクスは、後の機械学習タスクを元のスパースデータxよりも計算コストが高くなる可能性がある。この2つの制限に対処するために、count-sketch法の再構成誤差を分析して、count-sketchとk-meansクラスタリングの興味深い関係を示す。 そこで本研究では,k-meansクラスタリングアルゴリズムを用いて数値スケッチの再構成誤差を低減し,低次元スケッチ行列を得る。 さらに,-L1球投射による勾配降下を用いたk平均クラスタリングの解法を提案し,スパーススケッチ行列を生成する。 6つの実生活分類データセットに基づく実験結果から,提案手法は従来のカウントスケッチや一般的な行列スケッチアルゴリズムよりも精度が高いことを示した。 また,本手法は他の手法よりもスペーサースケッチデータ行列を生成するので,提案手法の予測コストは他の手法よりも小さくなることを示す。

Count-sketch is a popular matrix sketching algorithm that can produce a sketch of an input data matrix X in O(nnz(X))time where nnz(X) denotes the number of non-zero entries in X. The sketched matrix will be much smaller than X while preserving most of its properties. Therefore, count-sketch is widely used for addressing high-dimensionality challenge in machine learning. However, there are two main limitations of count-sketch: (1) The sketching matrix used count-sketch is generated randomly which does not consider any intrinsic data properties of X. This data-oblivious matrix sketching method could produce a bad sketched matrix which will result in low accuracy for subsequent machine learning tasks (e.g.classification); (2) For highly sparse input data, count-sketch could produce a dense sketched data matrix. This dense sketch matrix could make the subsequent machine learning tasks more computationally expensive than on the original sparse data X. To address these two limitations, we first show an interesting connection between count-sketch and k-means clustering by analyzing the reconstruction error of the count-sketch method. Based on our analysis, we propose to reduce the reconstruction error of count-sketch by using k-means clustering algorithm to obtain the low-dimensional sketched matrix. In addition, we propose to solve k-mean clustering using gradient descent with -L1 ball projection to produce a sparse sketched matrix. Our experimental results based on six real-life classification datasets have demonstrated that our proposed method achieves higher accuracy than the original count-sketch and other popular matrix sketching algorithms. Our results also demonstrate that our method produces a sparser sketched data matrix than other methods and therefore the prediction cost of our method will be smaller than other matrix sketching methods.
翻訳日:2022-09-21 13:57:02 公開日:2020-11-26
# OrgMining 2.0: イベントログから組織モデルマイニングを行う新しいフレームワーク

OrgMining 2.0: A Novel Framework for Organizational Model Mining from Event Logs ( http://arxiv.org/abs/2011.12445v2 )

ライセンス: Link先を確認
Jing Yang, Chun Ouyang, Wil M.P. van der Aalst, Arthur H.M. ter Hofstede, Yang Yu(参考訳) 人的資源に関する適切な構造を提供することで、運用を合理化し、組織の競争力を高めることができる。 この目標を達成するために、現代組織は、常に変化する環境に直面しながら、人的資源グループ化の正確かつタイムリーな理解を得る必要がある。 プロセスマイニングの利用は、情報システムに保存されたイベントログデータを利用することで、ニーズに対処するための有望な方法を提供する。 イベントログからビジネスプロセスに参加しているリソースの実際の振る舞いに関する知識を抽出することで、プロセス実行に関連する人的資源のデファクトグループ化の分析を容易にする組織モデルを構築することができる。 それでも、リソースグループ化の分析に最先端のプロセスマイニングを適用する場合、オープンリサーチのギャップは引き続き解決される。 例えば、組織モデルの発見は、プロセス実行のコンテキストとのつながりが限られているだけである。 また、イベントログデータに対する組織モデルを評価する厳格なソリューションはまだ提案されていない。 本稿では,プロセス実行知識と資源グループを結合する組織モデルのよりリッチな定義に基づく新しいフレームワークを開発することにより,これらの研究課題に取り組むことを目的とする。 組織モデルの適合性チェックの概念を導入することにより、組織モデルの効果的な評価を可能にし、イベントログに基づくリソースグループ化の分析と改善のための基盤を提供する。 組織モデル発見の枠組みに根ざしたアプローチを提案し、実生活イベントログの実験を行い、組織モデルを発見し評価することで、このフレームワークの有効性を実証する。

Providing appropriate structures around human resources can streamline operations and thus facilitate the competitiveness of an organization. To achieve this goal, modern organizations need to acquire an accurate and timely understanding of human resource grouping while faced with an ever-changing environment. The use of process mining offers a promising way to help address the need through utilizing event log data stored in information systems. By extracting knowledge about the actual behavior of resources participating in business processes from event logs, organizational models can be constructed, which facilitate the analysis of the de facto grouping of human resources relevant to process execution. Nevertheless, open research gaps remain to be addressed when applying the state-of-the-art process mining to analyze resource grouping. For one, the discovery of organizational models has only limited connections with the context of process execution. For another, a rigorous solution that evaluates organizational models against event log data is yet to be proposed. In this paper, we aim to tackle these research challenges by developing a novel framework built upon a richer definition of organizational models coupling resource grouping with process execution knowledge. By introducing notions of conformance checking for organizational models, the framework allows effective evaluation of organizational models, and therefore provides a foundation for analyzing and improving resource grouping based on event logs. We demonstrate the feasibility of this framework by proposing an approach underpinned by the framework for organizational model discovery, and also conduct experiments on real-life event logs to discover and evaluate organizational models.
翻訳日:2022-09-21 13:55:47 公開日:2020-11-26
# グローバルsfmのための効率的な初期ポーズグラフ生成

Efficient Initial Pose-graph Generation for Global SfM ( http://arxiv.org/abs/2011.11986v2 )

ライセンス: Link先を確認
Daniel Barath, Dmytro Mishkin, Ivan Eichhardt, Ilia Shipachev, Jiri Matas(参考訳) そこで本研究では,グローバルなStructure-from-Motionアルゴリズムの初期ポーズグラフ生成を高速化する方法を提案する。 ポーズグラフ作成の最も時間を要するステップであるflnnによる仮の点対応とransacによる幾何学的検証を避けるために,画像対は通常連続的にマッチングされるという事実に基づく2つの新しい手法を提案する。 これにより、部分的に構築されたポーズグラフのパスから候補相対ポーズを回収することができる。 画像のグローバルな類似性とポーズグラフエッジの品質を考慮したA*トラバースのヒューリスティックを提案する。 経路からの相対的なポーズが与えられると、ディスクリプタベースの特徴マッチングは既知のエピポーラ幾何を利用して「軽量化」される。 RANSACを適用した場合のPROSACに基づくサンプリングを高速化するため,従来の推定値から不整合確率で対応を順序付けする第3の手法を提案する。 アルゴリズムは1dsfmデータセットから402130のイメージペアでテストされ、17回マッチングした機能をスピードアップし、5回のポーズ推定を行う。

We propose ways to speed up the initial pose-graph generation for global Structure-from-Motion algorithms. To avoid forming tentative point correspondences by FLANN and geometric verification by RANSAC, which are the most time-consuming steps of the pose-graph creation, we propose two new methods - built on the fact that image pairs usually are matched consecutively. Thus, candidate relative poses can be recovered from paths in the partly-built pose-graph. We propose a heuristic for the A* traversal, considering global similarity of images and the quality of the pose-graph edges. Given a relative pose from a path, descriptor-based feature matching is made "light-weight" by exploiting the known epipolar geometry. To speed up PROSAC-based sampling when RANSAC is applied, we propose a third method to order the correspondences by their inlier probabilities from previous estimations. The algorithms are tested on 402130 image pairs from the 1DSfM dataset and they speed up the feature matching 17 times and pose estimation 5 times.
翻訳日:2022-09-21 13:28:14 公開日:2020-11-26
# マルチモーダル学習による医療施設の畳み込みによる臨床成績予測の改善

Improving Clinical Outcome Predictions Using Convolution over Medical Entities with Multimodal Learning ( http://arxiv.org/abs/2011.12349v2 )

ライセンス: Link先を確認
Batuhan Bardak and Mehmet Tan(参考訳) 患者の死亡率と滞在期間(ロス)の早期予測は、患者の生命を救い、病院の資源を管理するのに不可欠である。 電子健康記録(EHR)の可用性は、医療領域に大きな影響を与え、臨床問題を予測するためにいくつかの研究がなされている。 しかし,小ささと高次元性のため,多くの研究は臨床ノートの恩恵を受けなかった。 本研究は, 臨床ノートから医療機関を抽出し, 時系列機能に加えて追加機能として活用し, 予測精度の向上を図る。 我々は、医療機関と患者の時系列ICU信号を効果的に組み合わせて学習するだけでなく、Word2vecやFastTextといった様々な埋め込み技術が医療機関に与える影響を比較することができる畳み込み型マルチモーダルアーキテクチャを提案する。 実験では,提案手法が臨床タスクにおいて異なるマルチモーダルアーキテクチャを含む他のすべてのベースラインモデルよりも頑健に優れることを示す。 提案するメソッドのコードはhttps://github.com/tanlab/convolutionmedicalnerで利用可能である。

Early prediction of mortality and length of stay(LOS) of a patient is vital for saving a patient's life and management of hospital resources. Availability of electronic health records(EHR) makes a huge impact on the healthcare domain and there has seen several works on predicting clinical problems. However, many studies did not benefit from the clinical notes because of the sparse, and high dimensional nature. In this work, we extract medical entities from clinical notes and use them as additional features besides time-series features to improve our predictions. We propose a convolution based multimodal architecture, which not only learns effectively combining medical entities and time-series ICU signals of patients, but also allows us to compare the effect of different embedding techniques such as Word2vec, FastText on medical entities. In the experiments, our proposed method robustly outperforms all other baseline models including different multimodal architectures for all clinical tasks. The code for the proposed method is available at https://github.com/tanlab/ConvolutionMedicalNer.
翻訳日:2022-09-21 12:45:24 公開日:2020-11-26
# 機械学習カンファレンスのレビュープロセスの分析

Analyzing the Machine Learning Conference Review Process ( http://arxiv.org/abs/2011.12919v2 )

ライセンス: Link先を確認
David Tran, Alex Valtchanov, Keshav Ganapathy, Raymond Feng, Eric Slud, Micah Goldblum, Tom Goldstein(参考訳) 主流の機械学習カンファレンスは、近年、参加者の数が劇的に増加し、さまざまな視点が増加している。 機械学習コミュニティのメンバーは、受け入れ決定のランダム性から機関バイアスまで、噂を耳にしがちだ。 本研究は,2017年から2020年にかけてiclrに提出された論文の包括的調査を通じて,レビュープロセスを批判的に分析する。 レビュースコアと受理決定における再現性/ランダム性を定量化し、スコアが紙の影響と相関するかどうかを検討する。 本研究は, 紙の品質管理においても, 受否決定の制度的偏見が強いことを示唆する。 さらに,男女差の証拠も見いだされ,女性著者は男性よりもスコアが低く,受入率も低く,用紙1枚あたりの引用率も低かった。 今後のカンファレンスオーガナイザのためのレコメンデーションで作業を終えます。

Mainstream machine learning conferences have seen a dramatic increase in the number of participants, along with a growing range of perspectives, in recent years. Members of the machine learning community are likely to overhear allegations ranging from randomness of acceptance decisions to institutional bias. In this work, we critically analyze the review process through a comprehensive study of papers submitted to ICLR between 2017 and 2020. We quantify reproducibility/randomness in review scores and acceptance decisions, and examine whether scores correlate with paper impact. Our findings suggest strong institutional bias in accept/reject decisions, even after controlling for paper quality. Furthermore, we find evidence for a gender gap, with female authors receiving lower scores, lower acceptance rates, and fewer citations per paper than their male counterparts. We conclude our work with recommendations for future conference organizers.
翻訳日:2022-09-21 12:08:10 公開日:2020-11-26
# デンマークがtrec covid-19 challengeに参加:covid-19に関する正確な生物医学的科学的情報検索から学んだ教訓

Denmark's Participation in the Search Engine TREC COVID-19 Challenge: Lessons Learned about Searching for Precise Biomedical Scientific Information on COVID-19 ( http://arxiv.org/abs/2011.12684v2 )

ライセンス: Link先を確認
Lucas Chaves Lima, Casper Hansen, Christian Hansen, Dongsheng Wang, Maria Maistro, Birger Larsen, Jakob Grue Simonsen and Christina Lioma(参考訳) 本稿では,コペンハーゲン大学とアルボーグ大学という2つのデンマークの大学が,米国国立標準技術研究所(NIST)とそのテキスト検索会議(TREC)部門が主催する,COVID-19(2020 TREC-COVID Challenge)に関する国際検索エンジンコンペティションに参加することを述べる。 このコンペの目的は、covid-19の正確な生物医学的情報を取得するための最良の検索エンジン戦略を見つけることであり、その時点では、covid-19 -- the covid-19 open research dataset (cord-19) に関するキュレートされた科学文献のデータセットが最大だった。 CORD-19は2020年3月、米国ホワイトハウスによるテクノロジーコミュニティへの行動を呼びかけた結果であり、その後間もなく、アレン・インスティチュート・フォー・AI、チャン・ザッカーバーグ・イニシアチブ、ジョージタウン大学のセキュリティ・新興技術センター、Microsoft、アメリカ国立衛生研究所の国立医学図書館のAIコンペティションとしてKaggleに投稿された。 CORD-19には、新型コロナウイルス(COVID-19)、SARS-CoV-2(SARS-CoV-2)、関連する新型コロナウイルスに関する20万以上の学術論文(うち10万件は全文)が含まれていた。 trec-covidチャレンジは、最良の方法を求めました a) バイオメディカルの専門家が作成したクエリに応答して、正確で正確な科学的情報を検索し、 (b)クエリとの関連により、この情報を徐々にランク付けする。 本稿では,TREC-COVIDコンペティションのセットアップ,それへの参加,そして,パンデミックの最中に,高度に専門化されたクエリに応答して,急速に増大する文学のコーパスから,正確な科学的情報を取得するという急性課題に直面した際の,最先端技術に関する考察と教訓について述べる。

This report describes the participation of two Danish universities, University of Copenhagen and Aalborg University, in the international search engine competition on COVID-19 (the 2020 TREC-COVID Challenge) organised by the U.S. National Institute of Standards and Technology (NIST) and its Text Retrieval Conference (TREC) division. The aim of the competition was to find the best search engine strategy for retrieving precise biomedical scientific information on COVID-19 from the largest, at that point in time, dataset of curated scientific literature on COVID-19 -- the COVID-19 Open Research Dataset (CORD-19). CORD-19 was the result of a call to action to the tech community by the U.S. White House in March 2020, and was shortly thereafter posted on Kaggle as an AI competition by the Allen Institute for AI, the Chan Zuckerberg Initiative, Georgetown University's Center for Security and Emerging Technology, Microsoft, and the National Library of Medicine at the US National Institutes of Health. CORD-19 contained over 200,000 scholarly articles (of which more than 100,000 were with full text) about COVID-19, SARS-CoV-2, and related coronaviruses, gathered from curated biomedical sources. The TREC-COVID challenge asked for the best way to (a) retrieve accurate and precise scientific information, in response to some queries formulated by biomedical experts, and (b) rank this information decreasingly by its relevance to the query. In this document, we describe the TREC-COVID competition setup, our participation to it, and our resulting reflections and lessons learned about the state-of-art technology when faced with the acute task of retrieving precise scientific information from a rapidly growing corpus of literature, in response to highly specialised queries, in the middle of a pandemic.
翻訳日:2022-09-21 03:49:05 公開日:2020-11-26
# 非線形変形プロキシによる医用画像解析のためのプライバシー保護

Privacy Preserving for Medical Image Analysis via Non-Linear Deformation Proxy ( http://arxiv.org/abs/2011.12835v2 )

ライセンス: Link先を確認
Bach Ngoc Kim, Jose Dolz, Christian Desrosiers, Pierre-Marc Jodoin(参考訳) 患者識別を保ちながら多中心医療画像の分析を可能にするクライアントサーバシステムを提案する。 本手法では,入力画像に疑似ランダムな非線形変形を適用することで患者同一性を保護する。 これによりプロキシイメージがサーバに送信され、処理が行われる。 そしてサーバは、クライアントが標準形式に戻す、変形した処理された画像を返却する。 システムには3つの要素があります 1)擬似ランダム変形関数を生成する流れ場発生装置。 2) 処理画像から患者同一性を学ぶシアム判別器 3)プロキシ画像の内容を分析する医用画像処理ネットワーク。 システムは対角的にエンドツーエンドに訓練される。 判別器を騙すことにより、フローフィールド生成器は、入力画像と出力結果の両方から被写体の同一性を排除して回復する双方向の非線形変形を生成する。 エンドツーエンドのトレーニングの後、フローフィールドジェネレータはクライアント側に配置され、セグメンテーションネットワークはサーバ側に配置される。 提案手法は, 2つの異なるデータセットから得られた画像を用いて, mri脳分割のタスクで検証する。 その結果,本手法のセグメンテーション精度は非符号化画像で訓練されたシステムに似ているが,被写体同一性回復能力は大幅に低下することがわかった。

We propose a client-server system which allows for the analysis of multi-centric medical images while preserving patient identity. In our approach, the client protects the patient identity by applying a pseudo-random non-linear deformation to the input image. This results into a proxy image which is sent to the server for processing. The server then returns back the deformed processed image which the client reverts to a canonical form. Our system has three components: 1) a flow-field generator which produces a pseudo-random deformation function, 2) a Siamese discriminator that learns the patient identity from the processed image, 3) a medical image processing network that analyzes the content of the proxy images. The system is trained end-to-end in an adversarial manner. By fooling the discriminator, the flow-field generator learns to produce a bi-directional non-linear deformation which allows to remove and recover the identity of the subject from both the input image and output result. After end-to-end training, the flow-field generator is deployed on the client side and the segmentation network is deployed on the server side. The proposed method is validated on the task of MRI brain segmentation using images from two different datasets. Results show that the segmentation accuracy of our method is similar to a system trained on non-encoded images, while considerably reducing the ability to recover subject identity.
翻訳日:2022-09-21 03:42:14 公開日:2020-11-26
# データ駆動戦略に基づくロバストかつ投機的不動産価格モデルの構築

Towards robust and speculation-reduction real estate pricing models based on a data-driven strategy ( http://arxiv.org/abs/2012.09115v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on and Jorge E. Camargo(参考訳) 多くの国では、不動産評価は、鑑定者のデータ収集・解釈・不動産価格のモデル化能力に依存する従来の手法に基づいている。 不動産オンラインプラットフォームの利用が増え、大量の情報が存在することから、主観性、コスト、不公平といった従来の価格モデルの多くの欠点を克服する可能性がある。 本稿では,人的バイアスを低減させる価格推定のための機械学習手法に基づくデータ駆動不動産価格モデルを提案する。 2016年から2020年にかけて収集した178,865個のフラットリストをテストした。 その結果,提案手法はロバストで正確な不動産価格推定が可能であることがわかった。 このケーススタディは、開発途上国の地方自治体が、すべての不動産市場の利害関係者の公正性を高め、価格投機を減らした大規模なデータセットに基づいて不動産価格モデルについて議論し、構築するインセンティブとなる。

In many countries, real estate appraisal is based on conventional methods that rely on appraisers' abilities to collect data, interpret it and model the price of a real estate property. With the increasing use of real estate online platforms and the large amount of information found therein, there exists the possibility of overcoming many drawbacks of conventional pricing models such as subjectivity, cost, unfairness, among others. In this paper we propose a data-driven real estate pricing model based on machine learning methods to estimate prices reducing human bias. We test the model with 178,865 flats listings from Bogot\'a, collected from 2016 to 2020. Results show that the proposed state-of-the-art model is robust and accurate in estimating real estate prices. This case study serves as an incentive for local governments from developing countries to discuss and build real estate pricing models based on large data sets that increases fairness for all the real estate market stakeholders and reduces price speculation.
翻訳日:2022-09-20 12:54:41 公開日:2020-11-26
# Rを用いたソーシャルメディアネットワークデータの分析 : ユーザ,コメント,コミュニケーションパターンの半自動スクリーニング

Analysing Social Media Network Data with R: Semi-Automated Screening of Users, Comments and Communication Patterns ( http://arxiv.org/abs/2011.13327v1 )

ライセンス: Link先を確認
Dennis Klinkhammer(参考訳) ソーシャルメディアプラットフォーム上でのコミュニケーションは、文化的かつ政治的に重要なだけでなく、社会全体に広まりつつある。 ユーザーはソーシャルメディアプラットフォームを介して通信するだけでなく、情報を検索したり広めたり、情報自体を投稿したりすることもできる。 しかし、フェイクニュース、ヘイトスピーチ、さらには過激化要素は、現代のコミュニケーションの形式の一部である。 これらのメカニズムとコミュニケーションパターンの基本的な理解は、子どものいじめや極端な政治的視点など、ネガティブなコミュニケーション形態に対抗するのに役立つ。 この目的のために、基礎となるコミュニケーションパターンを分解し、個々のユーザーを追跡し、ソーシャルメディアプラットフォーム上でコメントや範囲を検査するための方法が提示される。 この近似は、フレーミングされたソーシャルネットワークとトピックが考慮されている場合、特にアクティブなユーザーを100%の精度で識別することができる。 しかし、ヘイトスピーチ、フェイクニュース、過激化要素を広めるユーザに対する感度と特異性を確保するためには、方法論と反作用アプローチがさらに動的で柔軟でなければならない。

Communication on social media platforms is not only culturally and politically relevant, it is also increasingly widespread across societies. Users not only communicate via social media platforms, but also search specifically for information, disseminate it or post information themselves. However, fake news, hate speech and even radicalizing elements are part of this modern form of communication: Sometimes with far-reaching effects on individuals and societies. A basic understanding of these mechanisms and communication patterns could help to counteract negative forms of communication, e.g. bullying among children or extreme political points of view. To this end, a method will be presented in order to break down the underlying communication patterns, to trace individual users and to inspect their comments and range on social media platforms; Or to contrast them later on via qualitative research. This approeach can identify particularly active users with an accuracy of 100 percent, if the framing social networks as well as the topics are taken into account. However, methodological as well as counteracting approaches must be even more dynamic and flexible to ensure sensitivity and specifity regarding users who spread hate speech, fake news and radicalizing elements.
翻訳日:2022-09-20 12:44:07 公開日:2020-11-26
# 適応非線形制御のための後悔境界

Regret Bounds for Adaptive Nonlinear Control ( http://arxiv.org/abs/2011.13101v1 )

ライセンス: Link先を確認
Nicholas M. Boffi and Stephen Tu and Jean-Jacques E. Slotine(参考訳) 非モデル化外乱を受ける既知の離散時間非線形系を適応的に制御する問題について検討する。 確率的条件下では不確実性に一致した適応非線形制御に対する最初の有限時間後悔境界を証明し、不規則な乱の完全な知識を持つオラクルコントローラと比較して、一定の同値適応制御に苦しむ後悔は期待値$\widetilde{O}(\sqrt{T})$で上界となることを示す。 さらに、入力が$k$のタイムステップ遅延を受けると、後悔は$\widetilde{O}(k \sqrt{T})$に分解される。 非線形制御理論(リャプノフ安定性と収縮理論)における古典的安定性の概念と、オンライン凸最適化による現代の後悔分析の関連性について述べる。 安定性理論を用いることで、挑戦的な無限水平単軌道設定を解析できる。

We study the problem of adaptively controlling a known discrete-time nonlinear system subject to unmodeled disturbances. We prove the first finite-time regret bounds for adaptive nonlinear control with matched uncertainty in the stochastic setting, showing that the regret suffered by certainty equivalence adaptive control, compared to an oracle controller with perfect knowledge of the unmodeled disturbances, is upper bounded by $\widetilde{O}(\sqrt{T})$ in expectation. Furthermore, we show that when the input is subject to a $k$ timestep delay, the regret degrades to $\widetilde{O}(k \sqrt{T})$. Our analysis draws connections between classical stability notions in nonlinear control theory (Lyapunov stability and contraction theory) and modern regret analysis from online convex optimization. The use of stability theory allows us to analyze the challenging infinite-horizon single trajectory setting.
翻訳日:2022-09-20 12:43:47 公開日:2020-11-26
# MPC構築のための入力凸ニューラルネットワーク

Input Convex Neural Networks for Building MPC ( http://arxiv.org/abs/2011.13227v1 )

ライセンス: Link先を確認
Felix B\"unning, Adrian Schalbetter, Ahmed Aboudonia, Mathias Hudoba de Badyn, Philipp Heer, John Lygeros(参考訳) 建物のモデル予測制御は、エネルギー消費を大幅に削減することができる。 建物のための第一原理モデルの作成と維持に必要なコストと労力は、この領域でデータ駆動モデリングを魅力的な代替手段にする。 MPCでは、モデルが最適化問題の基礎を形成し、その解がシステムに適用される制御信号を提供する。 この最適化問題をリアルタイムで繰り返し解決しなければならないという事実は、使用可能な学習アーキテクチャの制約を意味する。 ここでは、MPC構築に使用する1ステップの予測に対して一般的には凸である入力凸ニューラルネットワークを適用する。 我々は,多段階予測のための凸入出力関係を実現するために,その構造と重み付けに付加的な制約を導入する。 スイスのアパートにおける実生活MPC実験において,モデル精度に対する追加制約の結果を評価し,そのモデルをテストする。 2つの5日間の冷却実験において、入力凸ニューラルネットワークを用いたMPCは、冷却エネルギー消費を最小限に抑えながら室温を快適な制約内に保持することができる。

Model Predictive Control in buildings can significantly reduce their energy consumption. The cost and effort necessary for creating and maintaining first principle models for buildings make data-driven modelling an attractive alternative in this domain. In MPC the models form the basis for an optimization problem whose solution provides the control signals to be applied to the system. The fact that this optimization problem has to be solved repeatedly in real-time implies restrictions on the learning architectures that can be used. Here, we adapt Input Convex Neural Networks that are generally only convex for one-step predictions, for use in building MPC. We introduce additional constraints to their structure and weights to achieve a convex input-output relationship for multistep ahead predictions. We assess the consequences of the additional constraints for the model accuracy and test the models in a real-life MPC experiment in an apartment in Switzerland. In two five-day cooling experiments, MPC with Input Convex Neural Networks is able to keep room temperatures within comfort constraints while minimizing cooling energy consumption.
翻訳日:2022-09-20 12:43:27 公開日:2020-11-26
# 強化学習を用いたモデル予測制御更新間隔の最適化

Optimization of the Model Predictive Control Update Interval Using Reinforcement Learning ( http://arxiv.org/abs/2011.13365v1 )

ライセンス: Link先を確認
Eivind B{\o}hn, Sebastien Gros, Signe Moe, Tor Arne Johansen(参考訳) 制御アプリケーションでは、コントローラの複雑さと性能と利用可能な計算資源に関して、しばしば妥協が必要である。 例えば、組み込み制御アプリケーションにおける典型的なハードウェアプラットフォームは、メモリと処理能力に制限があるマイクロコントローラであり、バッテリー駆動アプリケーションでは、制御システムはエネルギー消費のかなりの部分を占めることができる。 本稿では,制御対象に合わせて計算コストを明示的に最適化するコントローラアーキテクチャを提案する。 これは高レベルで計算コストのかかるコントローラが計画を生成する3部構成で実現され、計算的にシンプルなコントローラは予測エラーを補償して実行され、再計算ポリシーは計画の再計算をいつ行うかを決定する。 本稿では,高レベルの計画生成コントローラとしてモデル予測制御(MPC),簡易な補償コントローラとして線形状態フィードバック制御,再計算ポリシーを学ぶために強化学習(RL)を用いる。 2つの例のシミュレーション結果は、MPCアプローチを改善するアーキテクチャの能力を示し、制御目的と拡張された計算資源の性能を測る合理的な妥協を見出す。

In control applications there is often a compromise that needs to be made with regards to the complexity and performance of the controller and the computational resources that are available. For instance, the typical hardware platform in embedded control applications is a microcontroller with limited memory and processing power, and for battery powered applications the control system can account for a significant portion of the energy consumption. We propose a controller architecture in which the computational cost is explicitly optimized along with the control objective. This is achieved by a three-part architecture where a high-level, computationally expensive controller generates plans, which a computationally simpler controller executes by compensating for prediction errors, while a recomputation policy decides when the plan should be recomputed. In this paper, we employ model predictive control (MPC) as the high-level plan-generating controller, a linear state feedback controller as the simpler compensating controller, and reinforcement learning (RL) to learn the recomputation policy. Simulation results for two examples showcase the architecture's ability to improve upon the MPC approach and find reasonable compromises weighing the performance on the control objective and the computational resources expended.
翻訳日:2022-09-20 12:42:53 公開日:2020-11-26
# 結果の不一致

Outcome Indistinguishability ( http://arxiv.org/abs/2011.13426v1 )

ライセンス: Link先を確認
Cynthia Dwork and Michael P. Kim and Omer Reingold and Guy N. Rothblum and Gal Yona(参考訳) 予測アルゴリズムは、一般に「確率」と理解されている個人に数字を割り当てる。がん診断後の5年間の生存確率は? そしてそれが、人生を変える決定の基礎となるのです。 複雑性理論と暗号学で発達した計算不一致性の理解に基づいて,アウトカム不一致性を紹介する。 結果が区別できない予測者は、自然が生み出した実生活観察に基づいて効率的に反論できない結果の生成モデルを得る。 結果識別不能定義の階層について検討し,その厳密性は,識別者が対象の予測者にアクセス可能な程度で向上する。 その結果,アウトカム不識別性は従来研究されていた不識別性の概念と定性的に異なる挙動を示した。 まず、階層のあらゆるレベルで構成を提供します。 そして,最近開発された機械を平均的な細粒度硬さの証明に利用し,より厳密な結果の区別不能性の複雑さを低く評価した。 この難易度の結果は、アルゴリズムのリスク予測機器を検査する際、監査人は単なる歴史的予測ではなく、アルゴリズムへのオラクルアクセスを与えられるべきであるという政治的議論の最初の科学的根拠を提供する。

Prediction algorithms assign numbers to individuals that are popularly understood as individual "probabilities" -- what is the probability of 5-year survival after cancer diagnosis? -- and which increasingly form the basis for life-altering decisions. Drawing on an understanding of computational indistinguishability developed in complexity theory and cryptography, we introduce Outcome Indistinguishability. Predictors that are Outcome Indistinguishable yield a generative model for outcomes that cannot be efficiently refuted on the basis of the real-life observations produced by Nature. We investigate a hierarchy of Outcome Indistinguishability definitions, whose stringency increases with the degree to which distinguishers may access the predictor in question. Our findings reveal that Outcome Indistinguishability behaves qualitatively differently than previously studied notions of indistinguishability. First, we provide constructions at all levels of the hierarchy. Then, leveraging recently-developed machinery for proving average-case fine-grained hardness, we obtain lower bounds on the complexity of the more stringent forms of Outcome Indistinguishability. This hardness result provides the first scientific grounds for the political argument that, when inspecting algorithmic risk prediction instruments, auditors should be granted oracle access to the algorithm, not simply historical predictions.
翻訳日:2022-09-20 12:42:35 公開日:2020-11-26
# 聴覚情報とデモグラフィ情報を用いた肺疾患診断のためのニューラルネットワーク

Neural Networks for Pulmonary Disease Diagnosis using Auditory and Demographic Information ( http://arxiv.org/abs/2011.13194v1 )

ライセンス: Link先を確認
Morteza Hosseini, Haoran Ren, Hasib-Al Rashid, Arnab Neelim Mazumder, Bharat Prakash, and Tinoosh Mohsenin(参考訳) 肺疾患は世界中で毎年何百万もの生命に影響を与えている。 新型の肺感染症である新型コロナウイルス(covid-19)のパンデミックは、呼吸器疾患のマシン支援診断に研究コミュニティの注目を集めている。 そこで本研究では,呼吸障害の分類に機械学習を応用し,診断システムの感度と特異性を高めるためのデータセットとして,相関情報(本研究における聴覚情報と人口統計情報)を多用する枠組みを提案する。 まず,deep convolutional neural network (dcnns) を用いて,公表された肺聴覚データセットの処理と分類を行い,データセット内の既存の人口統計情報を活用し,人口統計情報と連携して聴覚情報に基づいてトレーニングした場合,肺分類の精度が5%向上することを示す。 コンピュータビジョンを用いて人口統計データを抽出できるので、別の並列DCNNを用いて、コンピュータが視認する被験者の人口統計情報を推定することを提案する。 最後に、ユーザの指先で医療システムを実現するための提案として、NVIDIA TX2開発ボードの処理コンポーネントへの聴覚DCNNモデルの展開特性を測定する。

Pulmonary diseases impact millions of lives globally and annually. The recent outbreak of the pandemic of the COVID-19, a novel pulmonary infection, has more than ever brought the attention of the research community to the machine-aided diagnosis of respiratory problems. This paper is thus an effort to exploit machine learning for classification of respiratory problems and proposes a framework that employs as much correlated information (auditory and demographic information in this work) as a dataset provides to increase the sensitivity and specificity of a diagnosing system. First, we use deep convolutional neural networks (DCNNs) to process and classify a publicly released pulmonary auditory dataset, and then we take advantage of the existing demographic information within the dataset and show that the accuracy of the pulmonary classification increases by 5% when trained on the auditory information in conjunction with the demographic information. Since the demographic data can be extracted using computer vision, we suggest using another parallel DCNN to estimate the demographic information of the subject under test visioned by the processing computer. Lastly, as a proposition to bring the healthcare system to users' fingertips, we measure deployment characteristics of the auditory DCNN model onto processing components of an NVIDIA TX2 development board.
翻訳日:2022-09-20 12:35:36 公開日:2020-11-26
# Covid-19パンデミックにおける経済リスク評価のための教師なし学習

Unsupervised learning for economic risk evaluation in the context of Covid-19 pandemic ( http://arxiv.org/abs/2011.13350v1 )

ライセンス: Link先を確認
Santiago Cortes and Yullys M. Quintero(参考訳) 新型コロナウイルス(COVID-19)パンデミックにおけるドラコニア対策の正当化は、個人の権利の制限だけでなく、経済への影響によっても困難であった。 この研究の目的は、同様の健康政策を実施するべき地域を特定するための機械学習アプローチを提供することである。 そこで我々は,教師なし学習と時系列予測を通じて,新たな事例の予測を考慮し,経済的影響の概念を提示するシステムを開発した。 このシステムは、システムのレジリエンスを改善するために、計算上の制約と低いメンテナンス要件を考慮して構築された。 最後に、このシステムはコロンビアのCOVID-19のシミュレーションとデータ分析のためのWebアプリケーションの一部としてデプロイされた(https://covid19.dis.eafit.edu.co)。

Justifying draconian measures during the Covid-19 pandemic was difficult not only because of the restriction of individual rights, but also because of its economic impact. The objective of this work is to present a machine learning approach to identify regions that should implement similar health policies. For that end, we successfully developed a system that gives a notion of economic impact given the prediction of new incidental cases through unsupervised learning and time series forecasting. This system was built taking into account computational restrictions and low maintenance requirements in order to improve the system's resilience. Finally this system was deployed as part of a web application for simulation and data analysis of COVID-19, in Colombia, available at (https://covid19.dis.eafit.edu.co).
翻訳日:2022-09-20 12:34:57 公開日:2020-11-26
# shapeflow: tensorflow用の動的シェイプインタプリタ

ShapeFlow: Dynamic Shape Interpreter for TensorFlow ( http://arxiv.org/abs/2011.13452v1 )

ライセンス: Link先を確認
Sahil Verma and Zhendong Su(参考訳) これはtensorflowの動的抽象インタプリタで、ディープラーニングコードの最も一般的なバグの1つである、テンソル形状の非互換性エラーを素早く検出する。 ShapeFlowはTensorFlowと同じAPIを共有しているが、抽象ドメインであるテンソル形状のみをキャプチャして出力する。 ShapeFlowは、TensorFlowが使用している計算グラフと同様、カスタム形状の計算グラフを構築する。 ShapeFlowはプログラマによるコードアノテーションやコード修正を必要としないため、便利である。 本研究では、従来の実証研究によって収集された52プログラムのShapeFlowを評価し、TensorFlowと比較して形状不整合誤差をいかに高速かつ正確に把握できるかを示す。 最悪の場合のトレーニングデータセットのサイズと、より現実的なデータセットサイズです。 shapeflowは、シェイプ非互換性エラー(偽陽性なし、偽陰性なし)を高精度に検出し、1番目のベースラインで平均499倍、24倍のスピードアップを高い効率で検出する。 ShapeFlowは機械学習開発者の役に立つ実用的なツールだと思います。 私たちはGitHubでShapeFlowをオープンソースにして、開発者と研究コミュニティの両方に公開します。

We present ShapeFlow, a dynamic abstract interpreter for TensorFlow which quickly catches tensor shape incompatibility errors, one of the most common bugs in deep learning code. ShapeFlow shares the same APIs as TensorFlow but only captures and emits tensor shapes, its abstract domain. ShapeFlow constructs a custom shape computational graph, similar to the computational graph used by TensorFlow. ShapeFlow requires no code annotation or code modification by the programmer, and therefore is convenient to use. We evaluate ShapeFlow on 52 programs collected by prior empirical studies to show how fast and accurately it can catch shape incompatibility errors compared to TensorFlow. We use two baselines: a worst-case training dataset size and a more realistic dataset size. ShapeFlow detects shape incompatibility errors highly accurately -- with no false positives and a single false negative -- and highly efficiently -- with an average speed-up of 499X and 24X for the first and second baseline, respectively. We believe ShapeFlow is a practical tool that benefits machine learning developers. We will open-source ShapeFlow on GitHub to make it publicly available to both the developer and research communities.
翻訳日:2022-09-20 12:34:46 公開日:2020-11-26
# 音楽ジェスチャーの対話型機械学習

Interactive Machine Learning of Musical Gesture ( http://arxiv.org/abs/2011.13487v1 )

ライセンス: Link先を確認
Federico Ghelli Visi and Atau Tanaka(参考訳) 本稿では,音楽ジェスチャの分析と設計に応用する対話型機械学習(iml)技術の概要について述べる。 我々は、音声合成システムで行うことを目的として、人間の身体動作にAIM技術を適用し、分析し、適用することに関連する主な課題とニーズを概観する。 本稿では,複雑な合成技術とのインタラクションや,AIML(Assisted Interactive Machine Learning)と呼ばれるインタラクションパラダイムにおける強化学習(Reinforcement Learning, RL)によるインタラクション可能性の探索など,さまざまなタスクに異なるアルゴリズムが利用できるかについて議論する。 本章は,4曲の楽曲開発において,これらの技法のいくつかが著者によってどのように採用されたかを説明するとともに,IMLが音楽実践にもたらす意味を概説した。

This chapter presents an overview of Interactive Machine Learning (IML) techniques applied to the analysis and design of musical gestures. We go through the main challenges and needs related to capturing, analysing, and applying IML techniques to human bodily gestures with the purpose of performing with sound synthesis systems. We discuss how different algorithms may be used to accomplish different tasks, including interacting with complex synthesis techniques and exploring interaction possibilities by means of Reinforcement Learning (RL) in an interaction paradigm we developed called Assisted Interactive Machine Learning (AIML). We conclude the chapter with a description of how some of these techniques were employed by the authors for the development of four musical pieces, thus outlining the implications that IML have for musical practice.
翻訳日:2022-09-20 12:34:25 公開日:2020-11-26
# 機械学習による高速IRドロップ推定

Fast IR Drop Estimation with Machine Learning ( http://arxiv.org/abs/2011.13491v1 )

ライセンス: Link先を確認
Zhiyao Xie, Hai Li, Xiaoqing Xu, Jiang Hu, Yiran Chen(参考訳) IRドロップ制約は、ほとんどすべてのチップ設計で適用される基本的な要件である。 しかし、その評価には時間がかかるため、違反を修正するための緩和技術には多くのイテレーションが必要になる可能性がある。 そのため、設計のターンアラウンド時間を短縮するために、高速で正確なIRドロップ予測が重要となる。 近年、機械学習(ML)技術は、多くの分野でその可能性と成功のために、高速IRドロップ推定のために活発に研究されている。 これらの研究は様々な設計段階を対象としており、異なるMLアルゴリズムが採用され、カスタマイズされる。 本稿では,ML を用いた IR ドロップ推定手法の最近の進歩を概観する。 また、電子設計自動化(EDA)におけるMLアプリケーションで直面するいくつかの一般的な課題について議論し、従来の手法とMLモデルを統合して、EDAツールをより効率的にする方法を実証する手段としても機能する。

IR drop constraint is a fundamental requirement enforced in almost all chip designs. However, its evaluation takes a long time, and mitigation techniques for fixing violations may require numerous iterations. As such, fast and accurate IR drop prediction becomes critical for reducing design turnaround time. Recently, machine learning (ML) techniques have been actively studied for fast IR drop estimation due to their promise and success in many fields. These studies target at various design stages with different emphasis, and accordingly, different ML algorithms are adopted and customized. This paper provides a review to the latest progress in ML-based IR drop estimation techniques. It also serves as a vehicle for discussing some general challenges faced by ML applications in electronics design automation (EDA), and demonstrating how to integrate ML models with conventional techniques for the better efficiency of EDA tools.
翻訳日:2022-09-20 12:34:11 公開日:2020-11-26
# FIST:自動設計フローパラメータチューニングのための特徴重要サンプリングとツリーベース手法

FIST: A Feature-Importance Sampling and Tree-Based Method for Automatic Design Flow Parameter Tuning ( http://arxiv.org/abs/2011.13493v1 )

ライセンス: Link先を確認
Zhiyao Xie, Guan-Qi Fang, Yu-Hung Huang, Haoxing Ren, Yanqing Zhang, Brucek Khailany, Shao-Yun Fang, Jiang Hu, Yiran Chen, Erick Carvajal Barboza(参考訳) 設計フローパラメータはチップの設計品質に最も重要であり、その効果を評価するのに苦痛を伴う長い時間を要する。 実際、フローパラメータチューニングは通常、設計者の経験に基づいて、アドホックな方法で手動で実行される。 本研究では,限られた試行数で最高の設計品質を求めることを目的とした,機械学習に基づく自動パラメータチューニング手法を提案する。 機械学習エンジンを単にプラグインする代わりに、チューニング効率を向上させるためにクラスタリングと近似サンプリング技術を開発した。 この手法の特徴抽出は,従来の設計から知識を再利用することができる。 さらに,最先端のxgboostモデルを利用し,オーバーフィッティングを克服するための新しい動的木手法を提案する。 ベンチマーク回路を用いた実験結果から,提案手法は設計品質の25%向上,サンプリングコストの37%削減を実現していることがわかった。 我々のアプローチは2つの産業設計でさらに検証されている。 可能なパラメータセットの0.02%以下をサンプリングすることで、経験豊富な設計者が手作業で調整した最良のソリューションと比較して、面積を1.83%と1.43%削減できる。

Design flow parameters are of utmost importance to chip design quality and require a painfully long time to evaluate their effects. In reality, flow parameter tuning is usually performed manually based on designers' experience in an ad hoc manner. In this work, we introduce a machine learning-based automatic parameter tuning methodology that aims to find the best design quality with a limited number of trials. Instead of merely plugging in machine learning engines, we develop clustering and approximate sampling techniques for improving tuning efficiency. The feature extraction in this method can reuse knowledge from prior designs. Furthermore, we leverage a state-of-the-art XGBoost model and propose a novel dynamic tree technique to overcome overfitting. Experimental results on benchmark circuits show that our approach achieves 25% improvement in design quality or 37% reduction in sampling cost compared to random forest method, which is the kernel of a highly cited previous work. Our approach is further validated on two industrial designs. By sampling less than 0.02% of possible parameter sets, it reduces area by 1.83% and 1.43% compared to the best solutions hand-tuned by experienced designers.
翻訳日:2022-09-20 12:33:57 公開日:2020-11-26
# PowerNet:最大畳み込みニューラルネットワークによる移動可能な動的IRドロップ推定

PowerNet: Transferable Dynamic IR Drop Estimation via Maximum Convolutional Neural Network ( http://arxiv.org/abs/2011.13494v1 )

ライセンス: Link先を確認
Zhiyao Xie, Haoxing Ren, Brucek Khailany, Ye Sheng, Santosh Santosh, Jiang Hu, Yiran Chen(参考訳) IRドロップは、ほとんどすべてのチップ設計に必要な基本的な制約である。 しかし、その評価は通常、違反を修正するための緩和技術を妨げるのに長い時間がかかる。 本研究では,畳み込みニューラルネットワーク(CNN)に基づく高速な動的IRドロップ推定手法であるPowerNetを開発した。 ベクトルベースとベクトルレスのIR分析の両方を処理できる。 さらに、提案するcnnモデルは汎用的で、異なる設計に移行可能である。 これは、モデルが特定の設計にのみ適用可能な、既存の機械学習(ML)アプローチとは対照的である。 実験結果から,PowerNetはベクトルレスIRドロップの課題に対して,最新のML手法を9%精度で上回り,正確なIRドロップ商用ツールに比べて30倍の高速化を実現していることがわかった。 さらに、PowerNetによってガイドされた緩和ツールは、2つの工業設計でそれぞれIRドロップホットスポットを26%減らし、31%減らし、電力グリッドに非常に限定的な変更を加える。

IR drop is a fundamental constraint required by almost all chip designs. However, its evaluation usually takes a long time that hinders mitigation techniques for fixing its violations. In this work, we develop a fast dynamic IR drop estimation technique, named PowerNet, based on a convolutional neural network (CNN). It can handle both vector-based and vectorless IR analyses. Moreover, the proposed CNN model is general and transferable to different designs. This is in contrast to most existing machine learning (ML) approaches, where a model is applicable only to a specific design. Experimental results show that PowerNet outperforms the latest ML method by 9% in accuracy for the challenging case of vectorless IR drop and achieves a 30 times speedup compared to an accurate IR drop commercial tool. Further, a mitigation tool guided by PowerNet reduces IR drop hotspots by 26% and 31% on two industrial designs, respectively, with very limited modification on their power grids.
翻訳日:2022-09-20 12:33:40 公開日:2020-11-26
# サンフランシスコ湾地域における家賃予測のための統計的・機械学習アルゴリズムの比較

A Comparison of Statistical and Machine Learning Algorithms for Predicting Rents in the San Francisco Bay Area ( http://arxiv.org/abs/2011.14924v1 )

ライセンス: Link先を確認
Paul Waddell and Arezoo Besharati-Zadeh(参考訳) 都市交通と土地利用モデルは、計画アプリケーションに有用なモデルシステムの開発に理論と統計的モデリング手法を用いてきた。 機械学習手法は「ブラックボックス」が多すぎると考えられており、解釈性に欠けており、土地利用や交通モデリングの文献に限られている。 そこで本研究では,予測精度を第一に重要視するユースケースを提示し,ランダムな森林回帰と,通常の最小二乗法を用いた複数回帰法を比較し,craigslist webサイトから収集した大量のレンタルリストを用いて,サンフランシスコベイエリアの平方フィート当たりの賃貸料を予測した。 その結果,ランダムフォレストモデルの予測精度は著しく高いものの,ほぼ排他的アクセシビリティ変数を用いて,両モデルから有用な予測が得られることがわかった。

Urban transportation and land use models have used theory and statistical modeling methods to develop model systems that are useful in planning applications. Machine learning methods have been considered too 'black box', lacking interpretability, and their use has been limited within the land use and transportation modeling literature. We present a use case in which predictive accuracy is of primary importance, and compare the use of random forest regression to multiple regression using ordinary least squares, to predict rents per square foot in the San Francisco Bay Area using a large volume of rental listings scraped from the Craigslist website. We find that we are able to obtain useful predictions from both models using almost exclusively local accessibility variables, though the predictive accuracy of the random forest model is substantially higher.
翻訳日:2022-09-20 12:33:24 公開日:2020-11-26
# モバイルデバイス用物体検出処理パイプラインの省エネルギー化:解析と意味

Energy Drain of the Object Detection Processing Pipeline for Mobile Devices: Analysis and Implications ( http://arxiv.org/abs/2011.13075v1 )

ライセンス: Link先を確認
Haoxin Wang, BaekGyu Kim, Jiang Xie and Zhu Han(参考訳) オブジェクト検出にディープラーニングを適用することで、現実世界の複雑なオブジェクトを正確に検出し、分類することができる。 しかし、このテクノロジーは計算集約的でエネルギー消費が強いため、現在、ディープラーニングを使用するモバイルアプリケーションはほとんどない。 本稿は,我々の知る限り,モバイル拡張現実(AR)クライアントのエネルギー消費と,CNNベースのオブジェクト検出を行うための検出遅延について,スマートフォン上でも,あるいはエッジサーバ上でも,初めて詳細な実験を行ったものである。 スマートフォン上でのエネルギー消費量を正確に測定し、対象検出処理パイプラインの各フェーズで消費されるエネルギーのブレークダウンを得るため、新しい計測戦略を提案する。 我々は,モバイルarクライアントのエネルギー分析を精査し,cnnに基づくオブジェクト検出のエネルギー消費に関するいくつかの興味深い視点を明らかにした。 さらに,実験結果をもとに,いくつかの知見と研究機会を提案する。 本研究から得られた知見は,cnnに基づく物体検出におけるエネルギー効率の高い処理パイプラインの設計を導く。

Applying deep learning to object detection provides the capability to accurately detect and classify complex objects in the real world. However, currently, few mobile applications use deep learning because such technology is computation-intensive and energy-consuming. This paper, to the best of our knowledge, presents the first detailed experimental study of a mobile augmented reality (AR) client's energy consumption and the detection latency of executing Convolutional Neural Networks (CNN) based object detection, either locally on the smartphone or remotely on an edge server. In order to accurately measure the energy consumption on the smartphone and obtain the breakdown of energy consumed by each phase of the object detection processing pipeline, we propose a new measurement strategy. Our detailed measurements refine the energy analysis of mobile AR clients and reveal several interesting perspectives regarding the energy consumption of executing CNN-based object detection. Furthermore, several insights and research opportunities are proposed based on our experimental results. These findings from our experimental study will guide the design of energy-efficient processing pipeline of CNN-based object detection.
翻訳日:2022-09-20 12:33:07 公開日:2020-11-26
# 制約グラフを用いた生成レイアウトモデリング

Generative Layout Modeling using Constraint Graphs ( http://arxiv.org/abs/2011.13417v1 )

ライセンス: Link先を確認
Wamiq Para, Paul Guerrero, Tom Kelly, Leonidas Guibas, Peter Wonka(参考訳) レイアウト生成のための新しい生成モデルを提案する。 3つのステップでレイアウトを生成します。 まず,レイアウト要素をレイアウトグラフのノードとして生成する。 次にレイアウト要素間の制約をレイアウトグラフのエッジとして計算する。 第3に,制約付き最適化を用いて最終レイアウトを解く。 最初の2ステップでは、最近のトランスフォーマーアーキテクチャを構築します。 レイアウト最適化は制約を効率的に実装する。 私たちの作品はユーザ入力を必要とせず、高品質なレイアウトを生み出し、条件付きレイアウト生成のための多くの新しい機能を可能にします。

We propose a new generative model for layout generation. We generate layouts in three steps. First, we generate the layout elements as nodes in a layout graph. Second, we compute constraints between layout elements as edges in the layout graph. Third, we solve for the final layout using constrained optimization. For the first two steps, we build on recent transformer architectures. The layout optimization implements the constraints efficiently. We show three practical contributions compared to the state of the art: our work requires no user input, produces higher quality layouts, and enables many novel capabilities for conditional layout generation.
翻訳日:2022-09-20 12:27:06 公開日:2020-11-26
# CNNベースのPoisson Regressionを用いたパッチの脳病変容積のモデル化

Modelling brain lesion volume in patches with CNN-based Poisson Regression ( http://arxiv.org/abs/2011.13927v1 )

ライセンス: Link先を確認
Kevin Raina(参考訳) 臨床反応には病変進展のモニタリングが重要である。 病変の体積などの統計は客観的で解釈が容易であり、臨床医が病変の成長や崩壊を評価するのに役立つ。 CNNは医療画像のセグメンテーションにおいて、大きなコンテキスト内で有用な特徴とそれに関連する効率的な反復的パッチベースのトレーニングを生成する能力のために一般的に使用されている。 多くのCNNアーキテクチャは、優れたセグメンテーションを得るために数十万のパラメータを必要とする。 本研究では,磁気共鳴(MR)画像から予め定義されたパッチサイズにおける病変ボクセル数を推定するために,効率的な計算コストの高いCNNを実装した。 CNNの出力はパッチ上の条件付きポアソンパラメータとして解釈され、標準のミニバッチ勾配勾配を用いることができる。 isles2015 (siss) データは, 生の特徴量から病変容積を推定することにより, 病変容積が大きい病変像を86%のペア標本パッチで正確に同定し, モデルを訓練し, 評価する。 セグメンテーションのためのモデル選択を支援するために, 病変量を推定する手法の開発と利用について論じる。

Monitoring the progression of lesions is important for clinical response. Summary statistics such as lesion volume are objective and easy to interpret, which can help clinicians assess lesion growth or decay. CNNs are commonly used in medical image segmentation for their ability to produce useful features within large contexts and their associated efficient iterative patch-based training. Many CNN architectures require hundreds of thousands parameters to yield a good segmentation. In this work, an efficient, computationally inexpensive CNN is implemented to estimate the number of lesion voxels in a predefined patch size from magnetic resonance (MR) images. The output of the CNN is interpreted as the conditional Poisson parameter over the patch, allowing standard mini-batch gradient descent to be employed. The ISLES2015 (SISS) data is used to train and evaluate the model, which by estimating lesion volume from raw features, accurately identified the lesion image with the larger lesion volume for 86% of paired sample patches. An argument for the development and use of estimating lesion volumes to also aid in model selection for segmentation is made.
翻訳日:2022-09-20 12:26:59 公開日:2020-11-26
# 胸部X線写真のための深度学習に基づく画像検索システムとその新型コロナウイルス臨床応用

Deep Metric Learning-based Image Retrieval System for Chest Radiograph and its Clinical Applications in COVID-19 ( http://arxiv.org/abs/2012.03663v1 )

ライセンス: Link先を確認
Aoxiao Zhong, Xiang Li, Dufan Wu, Hui Ren, Kyungsang Kim, Younggon Kim, Varun Buch, Nir Neumark, Bernardo Bizzo, Won Young Tak, Soo Young Park, Yu Rim Lee, Min Kyu Kang, Jung Gil Park, Byung Seok Kim, Woo Jin Chung, Ning Guo, Ittai Dayan, Mannudeep K. Kalra, Quanzheng Li(参考訳) 近年,深層学習に基づく画像解析手法が,コンピュータ支援による検出,診断,予後に広く応用され,新型コロナウイルス(covid-19)パンデミックの公衆衛生危機においてその価値が示された。 胸部X線写真(CXR)は、特に米国では、新型コロナウイルス患者のトリアージ、診断、モニタリングにおいて重要な役割を果たしている。 CXRの混合信号や非特異信号を考えると、類似画像と関連する臨床情報の両方を提供するCXRの画像検索モデルは、直接画像診断モデルよりも臨床的に有意義である。 本研究では,深層メトリック学習に基づく新しいcxr画像検索モデルを開発した。 画像からラベルへの直接マッピングを学習することを目的とした従来の診断モデルとは異なり、提案モデルは画像の埋め込み空間を最適化することを目的としており、同じラベルと類似した内容の画像をまとめる。 ハードマイニングサンプリング戦略とアテンションメカニズムを用いて、最適化された埋め込み空間を学習し、クエリ画像に類似した画像を提供する。 このモデルは、3つの異なるソースから収集された国際的な多サイトcovid-19データセットでトレーニングされ、検証される。 COVID-19画像検索および診断タスクの実験結果から、CXR分析および患者管理のための堅牢なソリューションとして提案されたモデルが有効であることが示された。 このモデルは、新しいデータセットからさらなるトレーニングなしで画像の特徴を抽出するために事前訓練されたモデルを適用する、別の臨床判断支援タスクで転送可能性についてもテストされる。 これらの結果は,CXRの検索,診断,予後において,深層学習に基づく画像検索モデルが極めて効率的であることを示し,COVID-19患者の治療・管理に非常に有用であることを示す。

In recent years, deep learning-based image analysis methods have been widely applied in computer-aided detection, diagnosis and prognosis, and has shown its value during the public health crisis of the novel coronavirus disease 2019 (COVID-19) pandemic. Chest radiograph (CXR) has been playing a crucial role in COVID-19 patient triaging, diagnosing and monitoring, particularly in the United States. Considering the mixed and unspecific signals in CXR, an image retrieval model of CXR that provides both similar images and associated clinical information can be more clinically meaningful than a direct image diagnostic model. In this work we develop a novel CXR image retrieval model based on deep metric learning. Unlike traditional diagnostic models which aims at learning the direct mapping from images to labels, the proposed model aims at learning the optimized embedding space of images, where images with the same labels and similar contents are pulled together. It utilizes multi-similarity loss with hard-mining sampling strategy and attention mechanism to learn the optimized embedding space, and provides similar images to the query image. The model is trained and validated on an international multi-site COVID-19 dataset collected from 3 different sources. Experimental results of COVID-19 image retrieval and diagnosis tasks show that the proposed model can serve as a robust solution for CXR analysis and patient management for COVID-19. The model is also tested on its transferability on a different clinical decision support task, where the pre-trained model is applied to extract image features from a new dataset without any further training. These results demonstrate our deep metric learning based image retrieval model is highly efficient in the CXR retrieval, diagnosis and prognosis, and thus has great clinical value for the treatment and management of COVID-19 patients.
翻訳日:2022-09-20 12:26:40 公開日:2020-11-26
# frenet空間の長期短期計画のためのエンド・ツー・エンド深層強化学習手法

An End-to-end Deep Reinforcement Learning Approach for the Long-term Short-term Planning on the Frenet Space ( http://arxiv.org/abs/2011.13098v1 )

ライセンス: Link先を確認
Majid Moghadam, Ali Alizadeh, Engin Tekin and Gabriel Hugh Elkaim(参考訳) 道路利用者の行動予測の複雑さ,環境の多様性,交通相互作用の複雑化などにより,自動運転車の戦術的意思決定と戦略的行動計画が困難である。 本稿では,自動運転車の意思決定と行動計画に対する,新しいエンドツーエンドの連続的深層強化学習手法を提案する。 はじめて、Frenet空間上の状態と行動空間の両方を定義し、周囲のアクターの動的および交通的相互作用よりも運転挙動が道路曲率に変化しないようにする。 エージェントは、周辺車両の過去の軌跡の時系列データを受信し、時間チャネルに沿って畳み込みニューラルネットワークを適用して背骨の特徴を抽出する。 このアルゴリズムは、フィードバックコントローラが追跡するフレネットフレーム上の連続時空間軌道を生成する。 CARLAにおける広汎な高忠実度高速道路シミュレーションは、様々な交通シナリオにおける一般的なベースラインと離散強化学習と比較して、提案手法の優位性を示している。 さらに,1000のランダムなテストシナリオに対して,より包括的な性能評価を行うことで,提案手法の利点を確認した。

Tactical decision making and strategic motion planning for autonomous highway driving are challenging due to the complication of predicting other road users' behaviors, diversity of environments, and complexity of the traffic interactions. This paper presents a novel end-to-end continuous deep reinforcement learning approach towards autonomous cars' decision-making and motion planning. For the first time, we define both states and action spaces on the Frenet space to make the driving behavior less variant to the road curvatures than the surrounding actors' dynamics and traffic interactions. The agent receives time-series data of past trajectories of the surrounding vehicles and applies convolutional neural networks along the time channels to extract features in the backbone. The algorithm generates continuous spatiotemporal trajectories on the Frenet frame for the feedback controller to track. Extensive high-fidelity highway simulations on CARLA show the superiority of the presented approach compared with commonly used baselines and discrete reinforcement learning on various traffic scenarios. Furthermore, the proposed method's advantage is confirmed with a more comprehensive performance evaluation against 1000 randomly generated test scenarios.
翻訳日:2022-09-20 12:25:49 公開日:2020-11-26
# MIDI機器のリアルタイム誤り訂正と性能支援

Real-time error correction and performance aid for MIDI instruments ( http://arxiv.org/abs/2011.13122v1 )

ライセンス: Link先を確認
Georgi Marinov(参考訳) 即興演奏や不慣れな曲であっても、ライブ演奏中にわずかな間違いを犯すことは、見事なリスナーによって容易に発見できる。 例えば、古典時代のソナタで誤って演奏された非常に不協和音や、繰り返しモチーフの突然のオフキー音である。 そうしたエラーを識別して修正する問題は、人工知能によってアプローチできる -- もし訓練された人間が簡単にできるなら、コンピューターは、できるだけ正確にエラーを素早く見つけられるように訓練できるかもしれない。 リアルタイムにエラーを識別し、自動修正する能力は、演奏するミュージシャンにとって非常に有用であるだけでなく、プロデューサーにとって貴重な資産であり、わずかな不完全さによる過剰な重複と再記録を許容する。 本稿では,関連問題に対する最先端ソリューションについて検討し,そのリアルタイム適用性に着目した音楽誤り検出と修正のための新しいソリューションについて検討する。 提案手法では,音楽の文脈や理論による誤り検出や,適切なデータセットに基づいて訓練された事前定義された音楽情報や規則を持たない教師付き学習モデルを検討する。 提示されたソリューションは、純粋に音楽的誤りの修正に焦点を合わせ、生のオーディオ領域ではなく、オーディオ(MIDI)のハイレベルな表現で動作し、電子楽器(MIDIキーボード/ピアノ)から入力を受け、サンプリング装置に送信する前に必要に応じて変更する。 本研究は,midi機器のリアルタイム誤り訂正と性能支援のために,複数の汎用リカレントニューラルネットワークの設計を提案し,結果,限界,今後の改善の可能性について議論する。 また、最新の人工知能プラットフォームとツールを使用することで、研究結果をエンドユーザー音楽愛好家やプロデューサー、パフォーマーに容易にアクセスできるようにすることも強調している。

Making a slight mistake during live music performance can easily be spotted by an astute listener, even if the performance is an improvisation or an unfamiliar piece. An example might be a highly dissonant chord played by mistake in a classical-era sonata, or a sudden off-key note in a recurring motif. The problem of identifying and correcting such errors can be approached with artificial intelligence -- if a trained human can easily do it, maybe a computer can be trained to spot the errors quickly and just as accurately. The ability to identify and auto-correct errors in real-time would be not only extremely useful to performing musicians, but also a valuable asset for producers, allowing much fewer overdubs and re-recording of takes due to small imperfections. This paper examines state-of-the-art solutions to related problems and explores novel solutions for music error detection and correction, focusing on their real-time applicability. The explored approaches consider error detection through music context and theory, as well as supervised learning models with no predefined musical information or rules, trained on appropriate datasets. Focusing purely on correcting musical errors, the presented solutions operate on a high-level representation of the audio (MIDI) instead of the raw audio domain, taking input from an electronic instrument (MIDI keyboard/piano) and altering it when needed before it is sent to the sampler. This work proposes multiple general recurrent neural network designs for real-time error correction and performance aid for MIDI instruments, discusses the results, limitations, and possible future improvements. It also emphasizes on making the research results easily accessible to the end user - music enthusiasts, producers and performers -- by using the latest artificial intelligence platforms and tools.
翻訳日:2022-09-20 12:25:31 公開日:2020-11-26
# 安価中心であること--異種多エージェント集中型ゲームにおける安定性

Being Central on the Cheap: Stability in Heterogeneous Multiagent Centrality Games ( http://arxiv.org/abs/2011.13163v1 )

ライセンス: Link先を確認
Gabriel Istrate and Cosmin Bonchi\c{s}(参考訳) エージェントがネットワーク中心性を最大化するために(コスト的に)リンクを形成しようとする戦略的ネットワーク形成ゲームについて検討する。 我々のモデルはジャクソンとウォリンスキーの対称接続モデルから派生しているが、減衰中心性(ジャクソン=ウォリンスキーモデルに導入された)を古典的中心性やゲーム理論的中心性に置き換えることで、エージェントユーティリティの多様性を可能にしている。 我々は、漸近的に対角安定なネットワーク、すなわち、十分に小さな正のエッジコストに対して対角安定なネットワークを特徴づけることに主に関心を持っている。 ネットワーク中央性(英語版)に対する公理的アプローチにより、中央性ユーティリティ関数の豊富な組み合わせに対する安定したネットワークを予測し、"コア周辺"や"リッチクラブ"ネットワークのような構造特性を連想させる特徴を持つ安定したネットワークを得る。 すなわち、すべてのネットワークが安定したネットワークである可能性がある。 -また、安定したネットワークの構造からエージェントユーティリティのかなりの量を推測できることもしばしば示します。

We study strategic network formation games in which agents attempt to form (costly) links in order to maximize their network centrality. Our model derives from Jackson and Wolinsky's symmetric connection model, but allows for heterogeneity in agent utilities by replacing decay centrality (implicit in the Jackson-Wolinsky model) by a variety of classical centrality and game-theoretic measures of centrality. We are primarily interested in characterizing the asymptotically pairwise stable networks, i.e. those networks that are pairwise stable for all sufficiently small, positive edge costs. We uncover a rich typology of stability: - we give an axiomatic approach to network centrality that allows us to predict the stable network for a rich set of combination of centrality utility functions, yielding stable networks with features reminiscent of structural properties such as "core periphery" and "rich club" networks. - We show that a simple variation on the model renders it universal, i.e. every network may be a stable network. - We also show that often we can infer a significant amount about agent utilities from the structure of stable networks.
翻訳日:2022-09-20 12:24:24 公開日:2020-11-26
# 不均一な末尾依存の生成学習

Generative Learning of Heterogeneous Tail Dependence ( http://arxiv.org/abs/2011.13132v1 )

ライセンス: Link先を確認
Xiangqian Sun, Xing Yan, Qi Wu(参考訳) ビジネスデータや財務データでしばしば発生する複雑な依存構造を捉えるための多変量生成モデルを提案する。 我々のモデルは、各次元のすべての対間の不均一かつ非対称なテール依存を特徴とし、また、辺縁のテールにおける不均一性と非対称性を許容する。 モデル構造の重要な利点は,データセットの次元が大きくなるにつれて,パラメータ推定プロセスにおける誤差の伝播が難しくなるため,非常にスケーラブルである点である。 しかし,この場合のパラメータ推定には,閉形式密度関数の欠如による可能性推定は不可能である。 代わりに、パラメータを学習するための新しいモーメント学習アルゴリズムを考案する。 モデルとその推定器の有効性を実証するために,シミュレーションおよび実世界のデータセットを用いて実験を行った。 その結果、このフレームワークはコプラベースのベンチマークや最近の類似モデルと比較して、より優れた有限サンプル性能が得られることがわかった。

We propose a multivariate generative model to capture the complex dependence structure often encountered in business and financial data. Our model features heterogeneous and asymmetric tail dependence between all pairs of individual dimensions while also allowing heterogeneity and asymmetry in the tails of the marginals. A significant merit of our model structure is that it is not prone to error propagation in the parameter estimation process, hence very scalable, as the dimensions of datasets grow large. However, the likelihood methods are infeasible for parameter estimation in our case due to the lack of a closed-form density function. Instead, we devise a novel moment learning algorithm to learn the parameters. To demonstrate the effectiveness of the model and its estimator, we test them on simulated as well as real-world datasets. Results show that this framework gives better finite-sample performance compared to the copula-based benchmarks as well as recent similar models.
翻訳日:2022-09-20 12:23:51 公開日:2020-11-26
# 正のアンラベレス生存データ解析

Positive-Unlabelled Survival Data Analysis ( http://arxiv.org/abs/2011.13161v1 )

ライセンス: Link先を確認
Tomoki Toyabe, Yasuhiro Hasegawa, and Takahiro Hoshino(参考訳) 本稿では,観察中に事象が生じた被験者に対して,ポジティブなデータ生存時間を,ポジティブなデータとして,かつ、不ラベルなデータ検閲時間として,ポジティブなデータ生存時間として観察する,ポジティブな非ラベルデータの新たな枠組みを考察する。 本研究は,(1)正のデータで検閲時間が観測された場合,(2)観察されなかった場合の2つの事例を考察する。 どちらの場合も、パラメトリックモデル、非パラメトリックモデル、機械学習モデルおよびこれらのモデルの推定戦略を開発した。 シミュレーション研究により, 従来の生存分析では偏りが強く, 提案手法は有効な結果が得られることが示された。

In this paper, we consider a novel framework of positive-unlabeled data in which as positive data survival times are observed for subjects who have events during the observation time as positive data and as unlabeled data censoring times are observed but whether the event occurs or not are unknown for some subjects. We consider two cases: (1) when censoring time is observed in positive data, and (2) when it is not observed. For both cases, we developed parametric models, nonparametric models, and machine learning models and the estimation strategies for these models. Simulation studies show that under this data setup, traditional survival analysis may yield severely biased results, while the proposed estimation method can provide valid results.
翻訳日:2022-09-20 12:17:35 公開日:2020-11-26
# 非リジッドパズル

Non-Rigid Puzzles ( http://arxiv.org/abs/2011.13076v1 )

ライセンス: Link先を確認
Or Litany, Emanuele Rodol\`a, Alex Bronstein, Michael Bronstein, Daniel Cremers(参考訳) 形状対応はコンピュータグラフィックスや視覚の基本的な問題であり、アニメーション、テクスチャマッピング、ロボットビジョン、医療画像、考古学など様々な問題に応用されている。 形状が非剛性変形を許容し、部分的ビューのみが使用可能な環境では、この問題は非常に困難になる。 そこで本研究では,非剛性多部形状マッチングアルゴリズムを提案する。 非剛性変形中の参照形状とその複数の部品が与えられると仮定する。 これらのクエリ部品はそれぞれ、クラッタによってさらに汚染され、他の部分と重複し、欠落している部分や冗長な部分がある可能性がある。 提案手法は,参照モデルのセグメンテーションと,部分の(部分集合)への密接な対応を同時に解決する。 合成および実走査による実験結果から,この難解なシナリオに対処する上で,本手法の有効性が示された。

Shape correspondence is a fundamental problem in computer graphics and vision, with applications in various problems including animation, texture mapping, robotic vision, medical imaging, archaeology and many more. In settings where the shapes are allowed to undergo non-rigid deformations and only partial views are available, the problem becomes very challenging. To this end, we present a non-rigid multi-part shape matching algorithm. We assume to be given a reference shape and its multiple parts undergoing a non-rigid deformation. Each of these query parts can be additionally contaminated by clutter, may overlap with other parts, and there might be missing parts or redundant ones. Our method simultaneously solves for the segmentation of the reference model, and for a dense correspondence to (subsets of) the parts. Experimental results on synthetic as well as real scans demonstrate the effectiveness of our method in dealing with this challenging matching scenario.
翻訳日:2022-09-20 12:17:03 公開日:2020-11-26
# 正則化による関節再建と校正

Joint Reconstruction and Calibration using Regularization by Denoising ( http://arxiv.org/abs/2011.13391v1 )

ライセンス: Link先を確認
Mingyang Xie, Yu Sun, Jiaming Liu, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) 正則化(regularization by denoising, red)は、逆問題を解くための広く適用可能なフレームワークである。 REDは、多くのアプリケーションで最先端のパフォーマンスを提供することが示されているが、既存のREDアルゴリズムは、イメージングシステムを特徴付ける計測演算子の正確な知識を必要とし、測定演算子がパラメトリック不確実性を持つ問題に適用性を制限する。 そこで我々は,未知画像の再構成とともに測定者の共同校正を可能にするCalibrated RED (Cal-RED) と呼ばれる新しい手法を提案する。 cal-redは、従来の赤い方法論を、測定オペレータのキャリブレーションを必要とするイメージング問題にまで拡張している。 コンピュータ断層撮影(CT)における画像再構成問題に対するCal-REDの有効性を検討した。 画像プリエントとして事前訓練した深部ディノイザを用いた共同校正および再構成におけるcal-redの有効性について検討した。

Regularization by denoising (RED) is a broadly applicable framework for solving inverse problems by using priors specified as denoisers. While RED has been shown to provide state-of-the-art performance in a number of applications, existing RED algorithms require exact knowledge of the measurement operator characterizing the imaging system, limiting their applicability in problems where the measurement operator has parametric uncertainties. We propose a new method, called Calibrated RED (Cal-RED), that enables joint calibration of the measurement operator along with reconstruction of the unknown image. Cal-RED extends the traditional RED methodology to imaging problems that require the calibration of the measurement operator. We validate Cal-RED on the problem of image reconstruction in computerized tomography (CT) under perturbed projection angles. Our results corroborate the effectiveness of Cal-RED for joint calibration and reconstruction using pre-trained deep denoisers as image priors.
翻訳日:2022-09-20 12:15:29 公開日:2020-11-26
# ハイブリッド8T-6T SRAMメモリアーキテクチャの深いニューラルネットワークにおける逆攻撃に対するロバスト性と脆弱性

Exposing the Robustness and Vulnerability of Hybrid 8T-6T SRAM Memory Architectures to Adversarial Attacks in Deep Neural Networks ( http://arxiv.org/abs/2011.13392v1 )

ライセンス: Link先を確認
Abhishek Moitra and Priyadarshini Panda(参考訳) ディープラーニングは、かつて不可能だった多くの問題を解決することができる。 しかし、それらは入力敵の攻撃に対して脆弱であり、重要なアプリケーションに自律的に配備できない。 アルゴリズム中心のいくつかの研究は、敵対的攻撃を引き起こし、ディープニューラルネットワーク(dnn)の敵対的ロバスト性を改善する方法を議論している。 本研究では,ハイブリッド6T-8Tメモリのアドバンテージと脆弱性を抽出し,DNNに対する敵対的攻撃を引き起こす。 ハイブリッドメモリ構成(V_DD, 8T-6T比)に基づいて, 誤り6T-SRAMセルによるハイブリットメモリのビットエラーノイズが決定的挙動を示す。 この制御ノイズ(サージカルノイズ)は特定のDNN層に戦略的に導入することができ、DNNの対角精度を向上させることができる。 同時に、ハイブリッドメモリに格納されたDNNパラメータに外科的ノイズを慎重に注入することで、敵の攻撃を引き起こす。 外科的ノイズを用いたDNNの対向的ロバスト性を改善するために,適切なDNN層とそれに対応するハイブリッドメモリ構成を選択して必要な手術ノイズを導入する手法を提案する。 これを用いて,FGSMなどのホワイトボックス攻撃に対して,ベースラインモデルよりも2~8%高い対向精度を達成した(手術ノイズを伴わない)。 そこで本研究では, ハイブリッドメモリバンクに格納されたdnnパラメータに対する新しいホワイトボックス攻撃法を考案し, 90%以上の信頼度で, dnn推定精度が60%以上低下することを示した。 VGG19 と ResNet18 ネットワーク上でベンチマークデータセット-CIFAR10 と CIFAR100 を用いて実験を行った。

Deep Learning is able to solve a plethora of once impossible problems. However, they are vulnerable to input adversarial attacks preventing them from being autonomously deployed in critical applications. Several algorithm-centered works have discussed methods to cause adversarial attacks and improve adversarial robustness of a Deep Neural Network (DNN). In this work, we elicit the advantages and vulnerabilities of hybrid 6T-8T memories to improve the adversarial robustness and cause adversarial attacks on DNNs. We show that bit-error noise in hybrid memories due to erroneous 6T-SRAM cells have deterministic behaviour based on the hybrid memory configurations (V_DD, 8T-6T ratio). This controlled noise (surgical noise) can be strategically introduced into specific DNN layers to improve the adversarial accuracy of DNNs. At the same time, surgical noise can be carefully injected into the DNN parameters stored in hybrid memory to cause adversarial attacks. To improve the adversarial robustness of DNNs using surgical noise, we propose a methodology to select appropriate DNN layers and their corresponding hybrid memory configurations to introduce the required surgical noise. Using this, we achieve 2-8% higher adversarial accuracy without re-training against white-box attacks like FGSM, than the baseline models (with no surgical noise introduced). To demonstrate adversarial attacks using surgical noise, we design a novel, white-box attack on DNN parameters stored in hybrid memory banks that causes the DNN inference accuracy to drop by more than 60% with over 90% confidence value. We support our claims with experiments, performed using benchmark datasets-CIFAR10 and CIFAR100 on VGG19 and ResNet18 networks.
翻訳日:2022-09-20 12:15:16 公開日:2020-11-26
# SemEval-2019 Task 5におけるTwitterの移民・女性に対するヘイトスピーチの多言語検出

Towards Interpretable Multilingual Detection of Hate Speech against Immigrants and Women in Twitter at SemEval-2019 Task 5 ( http://arxiv.org/abs/2011.13238v1 )

ライセンス: Link先を確認
Alvi Md Ishmam(参考訳) 彼の論文は、Twitter上で女性や移民に対するヘイトスピーチを多言語で検出する手法について説明している。 この課題はsemeval-2019 task 5によって設計され、参加者は特定のターゲット(例えば女性や移民)で英語とスペイン語でヘイトスピーチを検出するアルゴリズムを設計する必要がある。 そこで我々は,2つのディープニューラルネットワーク(双方向Gated Recurrent Unit (GRU),キャラクタレベル畳み込みニューラルネットワーク (CNN))と,言語的特徴を利用した1つの機械学習モデルを開発した。 提案モデルでは,英語とスペイン語のタスクAにおいて,57点,75点のスコアが得られた。 タスクBでは、F1スコアは英語で67点、スペイン語で75.33点である。 タスクa(スペイン語)とタスクb(英語とスペイン語の両方)では、f1スコアがそれぞれ2,10,5ポイント向上する。 さらに、アノテーション付きデータセットを調査することにより、カスタム設計の機械学習アーキテクチャの一般化可能性問題に対処できる視覚的解釈可能なモデルを提案する。

his paper describes our techniques to detect hate speech against women and immigrants on Twitter in multilingual contexts, particularly in English and Spanish. The challenge was designed by SemEval-2019 Task 5, where the participants need to design algorithms to detect hate speech in English and Spanish language with a given target (e.g., women or immigrants). Here, we have developed two deep neural networks (Bidirectional Gated Recurrent Unit (GRU), Character-level Convolutional Neural Network (CNN)), and one machine learning model by exploiting the linguistic features. Our proposed model obtained 57 and 75 F1 scores for Task A in English and Spanish language respectively. For Task B, the F1 scores are 67 for English and 75.33 for Spanish. In the case of task A (Spanish) and task B (both English and Spanish), the F1 scores are improved by 2, 10, and 5 points respectively. Besides, we present visually interpretable models that can address the generalizability issues of the custom-designed machine learning architecture by investigating the annotated dataset.
翻訳日:2022-09-20 12:08:22 公開日:2020-11-26
# 航空機パイロットのドキュメンテーションのための質問応答システム

A question-answering system for aircraft pilots' documentation ( http://arxiv.org/abs/2011.13284v1 )

ライセンス: Link先を確認
Alexandre Arnold and G\'erard Dupont and F\'elix Furger and Catherine Kobus and Fran\c{c}ois Lancelot(参考訳) 航空宇宙産業は、システム記述、マニュアル、手順を含む複雑な文書や技術文書の大量収集に依存している。 本稿では, 航空機パイロットが自然にシステムと対話し, 自然言語で質問することで, 情報へのアクセスを支援する質問応答システムを提案する。 ダイアログシステムの各モジュールを記述した後、Flight Crew Operating Manual (FCOM)データセットの性能改善を可能にするマルチタスクベースのQAモジュールのアプローチを提案する。 検索器のスコアとQAモジュールのスコアを組み合わせる方法も提示する。

The aerospace industry relies on massive collections of complex and technical documents covering system descriptions, manuals or procedures. This paper presents a question answering (QA) system that would help aircraft pilots access information in this documentation by naturally interacting with the system and asking questions in natural language. After describing each module of the dialog system, we present a multi-task based approach for the QA module which enables performance improvement on a Flight Crew Operating Manual (FCOM) dataset. A method to combine scores from the retriever and the QA modules is also presented.
翻訳日:2022-09-20 12:08:03 公開日:2020-11-26
# 説明可能なテンソル化ニューラル常微分方程式 forarbitrary-step 時系列予測

Explainable Tensorized Neural Ordinary Differential Equations forArbitrary-step Time Series Prediction ( http://arxiv.org/abs/2011.13174v1 )

ライセンス: Link先を確認
Penglei Gao, Xi Yang, Rui Zhang, Kaizhu Huang(参考訳) 本稿では,任意の時間点における時系列予測のための連続ニューラルネットワークアーキテクチャである Explainable Tensorized Neural Ordinary Differential Equations (ETN-ODE) を提案する。 多段階予測や一段階予測の多変量時系列を主に扱う既存のアプローチとは異なり、ETN-ODEは任意のステップ予測の多変量時系列をモデル化できる。 さらに、時間的注意や変動的な注意といったタンデム的な注意を楽しみ、データに対する説明可能な洞察を提供することができる。 具体的には、ETN-ODEは、説明可能なテンソル化Gated Recurrent Unit(Tensorized GRUまたはTGRU)と通常の微分方程式(ODE)を組み合わせる。 潜在状態の微分はニューラルネットワークでパラメータ化される。 この連続時間ODEネットワークは、任意の時点における多段階予測を可能にする。 5つの異なる多段階予測タスクと1つの任意のステップ予測タスクにおけるETN-ODEの有効性と解釈性について定量的に定量的に検証した。 大規模な実験により、ETN-ODEは任意の時刻における正確な予測を導出し、標準のマルチステップ時系列予測においてベースライン法に対して最高の性能を得ることができた。

We propose a continuous neural network architecture, termed Explainable Tensorized Neural Ordinary Differential Equations (ETN-ODE), for multi-step time series prediction at arbitrary time points. Unlike the existing approaches, which mainly handle univariate time series for multi-step prediction or multivariate time series for single-step prediction, ETN-ODE could model multivariate time series for arbitrary-step prediction. In addition, it enjoys a tandem attention, w.r.t. temporal attention and variable attention, being able to provide explainable insights into the data. Specifically, ETN-ODE combines an explainable Tensorized Gated Recurrent Unit (Tensorized GRU or TGRU) with Ordinary Differential Equations (ODE). The derivative of the latent states is parameterized with a neural network. This continuous-time ODE network enables a multi-step prediction at arbitrary time points. We quantitatively and qualitatively demonstrate the effectiveness and the interpretability of ETN-ODE on five different multi-step prediction tasks and one arbitrary-step prediction task. Extensive experiments show that ETN-ODE can lead to accurate predictions at arbitrary time points while attaining best performance against the baseline methods in standard multi-step time series prediction.
翻訳日:2022-09-20 12:07:40 公開日:2020-11-26
# 線形対称性に基づく絡み合いの計量

A Metric for Linear Symmetry-Based Disentanglement ( http://arxiv.org/abs/2011.13306v1 )

ライセンス: Link先を確認
Luis A. P\'erez Rey, Loek Tonnaer, Vlado Menkovski, Mike Holenderski, Jacobus W. Portegies(参考訳) Higgins et al., 2018) によって提唱された線形対称性に基づく遠方性 (LSBD) の定義は、データの対称性を捉える非交叉表現を特徴づけるべき特性を概説している。 しかしながら、データ表現がこれらのプロパティを満たす程度を計測する方法は明確ではない。 本研究では,データ表現が達成するlsbdのレベルを評価するための指標を提案する。 このメトリックを評価し,それを用いて,$so(2)$対称性を持つ3つのデータセットで得られたデータ表現の不連続性を評価するための実用的な手法を提案する。

The definition of Linear Symmetry-Based Disentanglement (LSBD) proposed by (Higgins et al., 2018) outlines the properties that should characterize a disentangled representation that captures the symmetries of data. However, it is not clear how to measure the degree to which a data representation fulfills these properties. We propose a metric for the evaluation of the level of LSBD that a data representation achieves. We provide a practical method to evaluate this metric and use it to evaluate the disentanglement of the data representations obtained for three datasets with underlying $SO(2)$ symmetries.
翻訳日:2022-09-20 12:07:20 公開日:2020-11-26
# 2段階アプローチによる動的グラフの高速かつ高精度な異常検出

Fast and Accurate Anomaly Detection in Dynamic Graphs with a Two-Pronged Approach ( http://arxiv.org/abs/2011.13085v1 )

ライセンス: Link先を確認
Minji Yoon, Bryan Hooi, Kijung Shin, Christos Faloutsos(参考訳) 動的グラフストリームを考えると,リンクスパムやフォロワブースト,サービス攻撃拒否など,異常なパターンの突然の出現を検知するにはどうすればよいのでしょう? さらに,実際に発生する異常のタイプを分類し,各タイプから発生する異常な兆候を理論的に分析することができるか? 本研究では,動的グラフにおける異常検出のためのオンラインアルゴリズムAnomRankを提案する。 AnomRank氏は、異常を示す2つの新しいメトリクスを定義する2段階のアプローチを使用している。 各メトリクスは'ノードスコア'(またはノードの重要度)関数の独自のバージョンの導関数を追跡する。 これにより、ノードの重要性に対する突然の変化を検出できます。 理論的,実験的に,この2つのアプローチが,エッジに沿った突然の重み変化と,グラフの突然の構造変化の2つの共通なタイプの異常を検出することに成功した。 AnomRankは a) 高速で正確: 最先端の手法よりも49.5倍速く、または35%正確である。 (b)スケーラブル:入力グラフのエッジ数を線形にし、ストックラップトップ/デスクトップ上で2秒以内に数百万のエッジを処理する。 (c)理論的には、二段階アプローチの理論的保証を提供する。

Given a dynamic graph stream, how can we detect the sudden appearance of anomalous patterns, such as link spam, follower boosting, or denial of service attacks? Additionally, can we categorize the types of anomalies that occur in practice, and theoretically analyze the anomalous signs arising from each type? In this work, we propose AnomRank, an online algorithm for anomaly detection in dynamic graphs. AnomRank uses a two-pronged approach defining two novel metrics for anomalousness. Each metric tracks the derivatives of its own version of a 'node score' (or node importance) function. This allows us to detect sudden changes in the importance of any node. We show theoretically and experimentally that the two-pronged approach successfully detects two common types of anomalies: sudden weight changes along an edge, and sudden structural changes to the graph. AnomRank is (a) Fast and Accurate: up to 49.5x faster or 35% more accurate than state-of-the-art methods, (b) Scalable: linear in the number of edges in the input graph, processing millions of edges within 2 seconds on a stock laptop/desktop, and (c) Theoretically Sound: providing theoretical guarantees of the two-pronged approach.
翻訳日:2022-09-20 12:06:29 公開日:2020-11-26
# 近視によるエピソディック自己模倣学習

Episodic Self-Imitation Learning with Hindsight ( http://arxiv.org/abs/2011.13467v1 )

ライセンス: Link先を確認
Tianhong Dai, Hengyan Liu, Anil Anthony Bharath(参考訳) 軌道選択モジュールと適応損失関数を備えた新しい自己模倣アルゴリズムであるエピソディック自己模倣学習を提案し,強化学習を高速化する。 経験リプレイバッファから良好な状態-動作ペアをサンプリングしたオリジナルの自己模倣学習アルゴリズムと比較して,エージェントは全エピソードを後見して自己模倣学習を支援する。 更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入される。 提案手法は,スパース報酬を伴う連続制御環境の処理に不利なトランジッションベース手法である,標準的な自己イメージ学習アルゴリズムの限界を克服する。 実験から,実証的自己想像学習は,複数のロボット制御タスクにおいて,最先端のオフポリシーアルゴリズムに匹敵する性能を達成し,ベースラインのオンポリシーアルゴリズムよりも優れた性能を発揮することが示された。 軌道選択モジュールは、エージェントが望ましくない後見体験を学習することを防止する。 連続的な制御設定においてスパース報酬問題を解く能力により、ロボットの誘導や操作のような連続的な行動空間を持つ現実的な問題に適用できる可能性がある。

Episodic self-imitation learning, a novel self-imitation algorithm with a trajectory selection module and an adaptive loss function, is proposed to speed up reinforcement learning. Compared to the original self-imitation learning algorithm, which samples good state-action pairs from the experience replay buffer, our agent leverages entire episodes with hindsight to aid self-imitation learning. A selection module is introduced to filter uninformative samples from each episode of the update. The proposed method overcomes the limitations of the standard self-imitation learning algorithm, a transitions-based method which performs poorly in handling continuous control environments with sparse rewards. From the experiments, episodic self-imitation learning is shown to perform better than baseline on-policy algorithms, achieving comparable performance to state-of-the-art off-policy algorithms in several simulated robot control tasks. The trajectory selection module is shown to prevent the agent learning undesirable hindsight experiences. With the capability of solving sparse reward problems in continuous control settings, episodic self-imitation learning has the potential to be applied to real-world problems that have continuous action spaces, such as robot guidance and manipulation.
翻訳日:2022-09-20 12:06:11 公開日:2020-11-26
# 学習可能なボリュームアグリゲーションを用いた多視点人文と形状推定

Multi-view Human Pose and Shape Estimation Using Learnable Volumetric Aggregation ( http://arxiv.org/abs/2011.13427v1 )

ライセンス: Link先を確認
Soyong Shin, Eni Halilaj(参考訳) RGB画像からの人間のポーズと形状の推定は、マーカーベースのモーションキャプチャーの代替として非常に求められており、それは面倒であり、高価な機器を必要とし、実験室環境に制約を課している。 しかし、単眼の視覚に基づくアルゴリズムはまだ回転の曖昧さに悩まされており、高い精度が最重要である医療アプリケーションでは翻訳の準備ができていない。 複数の視点からのデータの融合はこれらの課題を克服する可能性があるが、現在のアルゴリズムは臨床上許容できる精度を得るためにさらなる改善が必要である。 本稿では,多視点画像のキャリブレーションから3次元人体のポーズと形状を再構成する学習可能なボリュームアグリゲーション手法を提案する。 我々は人体のパラメトリックな表現を用いて、我々のアプローチを直接医療応用に適用する。 従来の手法と比較すると,提案手法はコスト効率を考慮し,高い精度とリアルタイム予測への期待を示す。

Human pose and shape estimation from RGB images is a highly sought after alternative to marker-based motion capture, which is laborious, requires expensive equipment, and constrains capture to laboratory environments. Monocular vision-based algorithms, however, still suffer from rotational ambiguities and are not ready for translation in healthcare applications, where high accuracy is paramount. While fusion of data from multiple viewpoints could overcome these challenges, current algorithms require further improvement to obtain clinically acceptable accuracies. In this paper, we propose a learnable volumetric aggregation approach to reconstruct 3D human body pose and shape from calibrated multi-view images. We use a parametric representation of the human body, which makes our approach directly applicable to medical applications. Compared to previous approaches, our framework shows higher accuracy and greater promise for real-time prediction, given its cost efficiency.
翻訳日:2022-09-20 09:13:55 公開日:2020-11-26
# 正規化流による脳老化の双方向モデリングと解析

Bidirectional Modeling and Analysis of Brain Aging with Normalizing Flows ( http://arxiv.org/abs/2011.13484v1 )

ライセンス: Link先を確認
Matthias Wilms and Jordan J. Bannister and Pauline Mouches and M. Ethan MacDonald and Deepthi Rajashekar and S\"onke Langner and Nils D. Forkert(参考訳) 脳の老化は広く研究されている縦断的プロセスであり、脳は形態学的変化を起こし、様々な機械学習アプローチが提案されている。 この文脈において、構造的mr画像からの脳年齢予測と年齢特異的脳形態テンプレート生成は、多くの注目を集めている2つの問題である。 ほとんどのアプローチは独立してこれらの課題に取り組むが、それらは脳の形態と年齢変数の間の同じ機能的双方向関係の逆方向であると仮定する。 本稿では,この関係を単一条件正規化フローにモデル化し,新しい方法で脳年齢予測と年齢条件生成モデルを統合することを提案する。 本概念の初回評価では, 正常化脳老化モデルにより, 脳年齢を正確に予測できるとともに, 健常人口における典型的な老化傾向を現実的に表す年齢特異的脳形態学テンプレートを生成できることが示されている。 この研究は、3次元脳形態学と強力な正規化フローを持つ臨床変数との間の機能的関係の統一モデリングへのステップである。

Brain aging is a widely studied longitudinal process throughout which the brain undergoes considerable morphological changes and various machine learning approaches have been proposed to analyze it. Within this context, brain age prediction from structural MR images and age-specific brain morphology template generation are two problems that have attracted much attention. While most approaches tackle these tasks independently, we assume that they are inverse directions of the same functional bidirectional relationship between a brain's morphology and an age variable. In this paper, we propose to model this relationship with a single conditional normalizing flow, which unifies brain age prediction and age-conditioned generative modeling in a novel way. In an initial evaluation of this idea, we show that our normalizing flow brain aging model can accurately predict brain age while also being able to generate age-specific brain morphology templates that realistically represent the typical aging trend in a healthy population. This work is a step towards unified modeling of functional relationships between 3D brain morphology and clinical variables of interest with powerful normalizing flows.
翻訳日:2022-09-20 09:13:21 公開日:2020-11-26
# NLPStatTest: NLPシステムパフォーマンスを比較するツールキット

NLPStatTest: A Toolkit for Comparing NLP System Performance ( http://arxiv.org/abs/2011.13231v1 )

ライセンス: Link先を確認
Haotian Zhu, Denise Mak, Jesse Gioannini, Fei Xia(参考訳) p-値を中心とした統計的意義試験は、一般的にnlpシステムの性能を比較するために用いられるが、p-値だけでは実用的意義とは異なるため不十分である。 後者は効果の大きさを推定することで測定できる。 本稿では,NLPシステムの性能を比較するための3段階の手順を提案し,そのプロセスを自動化するツールキットであるNLPStatTestを提案する。 ユーザはNLPシステム評価スコアをアップロードでき、ツールキットはこれらのスコアを分析し、適切な重要度テストを実行し、効果の大きさを推定し、II型エラーを推定するために電力分析を行う。 このツールキットは、統計意味テストを超えてnlpシステムのパフォーマンスを比較するための便利で体系的な方法を提供する

Statistical significance testing centered on p-values is commonly used to compare NLP system performance, but p-values alone are insufficient because statistical significance differs from practical significance. The latter can be measured by estimating effect size. In this paper, we propose a three-stage procedure for comparing NLP system performance and provide a toolkit, NLPStatTest, that automates the process. Users can upload NLP system evaluation scores and the toolkit will analyze these scores, run appropriate significance tests, estimate effect size, and conduct power analysis to estimate Type II error. The toolkit provides a convenient and systematic way to compare NLP system performance that goes beyond statistical significance testing
翻訳日:2022-09-20 09:12:19 公開日:2020-11-26
# The Devil is in the boundary: Exploiting boundary Representation for Basis-based Instance Segmentation

The Devil is in the Boundary: Exploiting Boundary Representation for Basis-based Instance Segmentation ( http://arxiv.org/abs/2011.13241v1 )

ライセンス: Link先を確認
Myungchul Kim, Sanghyun Woo, Dahun Kim, and In So Kweon(参考訳) リアルタイム視覚アプリケーションに対するより一貫性のあるシーン理解によって、シングルステージのインスタンスセグメンテーションが最近人気を集め、2段階のアプリケーションよりもシンプルで効率的な設計を実現している。 さらに、そのグローバルマスク表現は、これまで支配的であった2段階のMask R-CNNよりも精度が高いことが多い。 単一ステージメソッドの有望な進歩にもかかわらず、インスタンス境界の細かいデライン化はまだ未解決のままである。 実際、境界情報は、単段セグメンタの完全な畳み込みマスク特徴と相乗的に操作できる強力な形状表現を提供する。 本研究では,境界基底に基づくインスタンスセグメンテーション(B2Inst)を提案し,高頻度の詳細を欠く既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習する。 さらに,マスクとバウンダリの両面を統一した品質尺度を考案し,ネットワークブロックを導入し,各インスタンスごとの予測を学習する。 シングルステージインスタンスセグメンテーションにおける最強のベースラインに適用すると、B2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。 単一ステージあるいは2ステージのフレームワークであっても、私たちは、同じResNet-50とResNet-101バックボーンで、COCOデータセットの既存の最先端メソッドよりも優れています。

Pursuing a more coherent scene understanding towards real-time vision applications, single-stage instance segmentation has recently gained popularity, achieving a simpler and more efficient design than its two-stage counterparts. Besides, its global mask representation often leads to superior accuracy to the two-stage Mask R-CNN which has been dominant thus far. Despite the promising advances in single-stage methods, finer delineation of instance boundaries still remains unexcavated. Indeed, boundary information provides a strong shape representation that can operate in synergy with the fully-convolutional mask features of the single-stage segmenter. In this work, we propose Boundary Basis based Instance Segmentation(B2Inst) to learn a global boundary representation that can complement existing global-mask-based methods that are often lacking high-frequency details. Besides, we devise a unified quality measure of both mask and boundary and introduce a network block that learns to score the per-instance predictions of itself. When applied to the strongest baselines in single-stage instance segmentation, our B2Inst leads to consistent improvements and accurately parse out the instance boundaries in a scene. Regardless of being single-stage or two-stage frameworks, we outperform the existing state-of-the-art methods on the COCO dataset with the same ResNet-50 and ResNet-101 backbones.
翻訳日:2022-09-20 09:06:17 公開日:2020-11-26
# 単一インターネット画像からの適応型多面体画像生成

Adaptive Multiplane Image Generation from a Single Internet Picture ( http://arxiv.org/abs/2011.13317v1 )

ライセンス: Link先を確認
Diogo C. Luvizon, Gustavo Sutter P. Carvalho, Andreza A. dos Santos, Jhonatas S. Conceicao, Jose L. Flores-Campana, Luis G. L. Decker, Marcos R. Souza, Helio Pedrini, Antonio Joia, Otavio A. B. Penatti(参考訳) ここ数年、ステレオ画像や単一画像からの新しいビュー合成の問題に、いくつかの作品が取り組んできた。 しかし、従来の手法は計算に高価であり、特に高解像度画像に向いている。 本稿では,1枚の高解像度画像から多面体画像(MPI)を生成する問題に対処する。 本稿では,少ない計算要求で新しいビューをレンダリングできる適応MPI表現を提案する。 そこで本研究では,画像平面の可変数のMPIを生成する適応スライシングアルゴリズムを提案する。 本稿では,大規模ネットワークからの知識蒸留により学習した深度推定のための軽量CNNを提案する。 適応MPIの付加領域も軽量CNNによって塗装される。 提案手法は,従来手法に比べて1桁少ないパラメータで高品質な予測を生成できることを示す。 提案手法のロバスト性は,インターネットからの挑戦的な画像から証明される。

In the last few years, several works have tackled the problem of novel view synthesis from stereo images or even from a single picture. However, previous methods are computationally expensive, specially for high-resolution images. In this paper, we address the problem of generating a multiplane image (MPI) from a single high-resolution picture. We present the adaptive-MPI representation, which allows rendering novel views with low computational requirements. To this end, we propose an adaptive slicing algorithm that produces an MPI with a variable number of image planes. We present a new lightweight CNN for depth estimation, which is learned by knowledge distillation from a larger network. Occluded regions in the adaptive-MPI are inpainted also by a lightweight CNN. We show that our method is capable of producing high-quality predictions with one order of magnitude less parameters compared to previous approaches. The robustness of our method is evidenced on challenging pictures from the Internet.
翻訳日:2022-09-20 09:04:28 公開日:2020-11-26
# AMLSI:新しい高精度行動モデル学習アルゴリズム

AMLSI: A Novel Accurate Action Model Learning Algorithm ( http://arxiv.org/abs/2011.13277v1 )

ライセンス: Link先を確認
Maxence Grand, Humbert Fiorino, Damien Pellier(参考訳) 本稿では,AMLSI行動モデル学習とステートマシンインタラクションを用いた文法誘導に基づく新しい手法を提案する。 AMLSIのアプローチでは、計画トレースのトレーニングデータセットは必要ない。 amlsiは試行錯誤によって進行し、ランダムに生成されたアクションシーケンスで学習するためにシステムをクエリし、システムの状態遷移を観察し、それからシステムに対応するpddlドメインを返す。 ドメイン学習の重要な問題は、学習したドメインで計画する能力である。 小さな学習エラーが、計画に使用できないドメインに繋がることが多いのです。 他のアルゴリズムとは異なり、AMLSIはこのロックを、プランナーが新しい問題を解決するのに十分な精度で、部分的およびノイズの多い観測から学習することで持ち上げることができることを示す。

This paper presents new approach based on grammar induction called AMLSI Action Model Learning with State machine Interactions. The AMLSI approach does not require a training dataset of plan traces to work. AMLSI proceeds by trial and error: it queries the system to learn with randomly generated action sequences, and it observes the state transitions of the system, then AMLSI returns a PDDL domain corresponding to the system. A key issue for domain learning is the ability to plan with the learned domains. It often happens that a small learning error leads to a domain that is unusable for planning. Unlike other algorithms, we show that AMLSI is able to lift this lock by learning domains from partial and noisy observations with sufficient accuracy to allow planners to solve new problems.
翻訳日:2022-09-20 08:57:15 公開日:2020-11-26
# PDDL4Jライブラリにおける全体および部分順序付き階層型プランナ

Totally and Partially Ordered Hierarchical Planners in PDDL4J Library ( http://arxiv.org/abs/2011.13297v1 )

ライセンス: Link先を確認
Damien Pellier, Humbert Fiorino(参考訳) 本稿では,2020年の第1回HTN IPCコンペティションに参加したTFD(Totally Ordered Fast Downward)とPFD(Partially Ordered Fast Downward)階層型プランナの実装について概説する。 これら2つのプランナは、アクション、メソッド、タスク、HTN問題のコンパクトな基底と、フォワードチェーンタスクの分解に基づいている。

In this paper, we outline the implementation of the TFD (Totally Ordered Fast Downward) and the PFD (Partially ordered Fast Downward) hierarchical planners that participated in the first HTN IPC competition in 2020. These two planners are based on forward-chaining task decomposition coupled with a compact grounding of actions, methods, tasks and HTN problems.
翻訳日:2022-09-20 08:57:02 公開日:2020-11-26
# 自然と人工知能におけるメタラーニング

Meta-learning in natural and artificial intelligence ( http://arxiv.org/abs/2011.13464v1 )

ライセンス: Link先を確認
Jane X. Wang(参考訳) メタラーニング(または学習)は、人工知能コミュニティにおける近年の新たな関心を集めている。 しかし、メタラーニングは自然界で驚くほど広まり、認知科学と心理学に深いルーツを持ち、現在、神経科学の様々な形態で研究されている。 本研究の目的は、メタラーニングのレンズ内での生物学的知能の研究において、これらの研究を共通の枠組みに組み込むことである。 より最近のAIと神経科学の相互作用のポイントと、この視点の下で生じる興味深い新しい方向性について論じる。

Meta-learning, or learning to learn, has gained renewed interest in recent years within the artificial intelligence community. However, meta-learning is incredibly prevalent within nature, has deep roots in cognitive science and psychology, and is currently studied in various forms within neuroscience. The aim of this review is to recast previous lines of research in the study of biological intelligence within the lens of meta-learning, placing these works into a common framework. More recent points of interaction between AI and neuroscience will be discussed, as well as interesting new directions that arise under this perspective.
翻訳日:2022-09-20 08:56:54 公開日:2020-11-26
# 光リモートセンシング画像における有意物体検出のためのDense Attention Fluid Network

Dense Attention Fluid Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2011.13144v1 )

ライセンス: Link先を確認
Qijian Zhang, Runmin Cong, Chongyi Li, Ming-Ming Cheng, Yuming Fang, Xiaochun Cao, Yao Zhao, and Sam Kwong(参考訳) 自然シーン画像(NSI)の視覚的サリエンシ解析の進歩にもかかわらず、光学リモートセンシング画像(RSI)のサリエント物体検出(SOD)は依然としてオープンで困難な問題である。 本稿では,光学RSIにおけるSODのためのエンドツーエンドDense Attention Fluid Network (DAFNet)を提案する。 Global Context-Aware Attention (GCA)モジュールは、長距離の意味的関係を適応的に捉えるために提案され、さらにDense Attention Fluid (DAF)構造に埋め込まれている。 具体的には、グローバル特徴集約モジュールは、任意の2つの空間位置から有意な特徴埋め込みの相互強化を達成し、カスケードされたピラミッドアテンションモジュールは、カスケードされたピラミッドフレームワークを構築して、アテンションマップを粗い方法で段階的に洗練するスケール変動問題に取り組む。 さらに,SODのための新しい,かつ挑戦的な光学RSIデータセットを構築した。 我々の提案したDAFNetは、既存の最先端のSODコンペティターよりも大幅に優れています。 https://github.com/rmcong/DAFNet_TIP20

Despite the remarkable advances in visual saliency analysis for natural scene images (NSIs), salient object detection (SOD) for optical remote sensing images (RSIs) still remains an open and challenging problem. In this paper, we propose an end-to-end Dense Attention Fluid Network (DAFNet) for SOD in optical RSIs. A Global Context-aware Attention (GCA) module is proposed to adaptively capture long-range semantic context relationships, and is further embedded in a Dense Attention Fluid (DAF) structure that enables shallow attention cues flow into deep layers to guide the generation of high-level feature attention maps. Specifically, the GCA module is composed of two key components, where the global feature aggregation module achieves mutual reinforcement of salient feature embeddings from any two spatial locations, and the cascaded pyramid attention module tackles the scale variation issue by building up a cascaded pyramid framework to progressively refine the attention map in a coarse-to-fine manner. In addition, we construct a new and challenging optical RSI dataset for SOD that contains 2,000 images with pixel-wise saliency annotations, which is currently the largest publicly available benchmark. Extensive experiments demonstrate that our proposed DAFNet significantly outperforms the existing state-of-the-art SOD competitors. https://github.com/rmcong/DAFNet_TIP20
翻訳日:2022-09-20 08:54:59 公開日:2020-11-26
# 周波数成分の異なるcnnを用いた強ガウス雑音に対する画像デノージング

Image Denoising for Strong Gaussian Noises With Specialized CNNs for Different Frequency Components ( http://arxiv.org/abs/2011.14908v1 )

ライセンス: Link先を確認
Seyed Mohsen Hosseini(参考訳) 画像のノイズ化に対する機械学習アプローチでは、ネットワークがノイズの多い画像からクリーンな画像を復元するように訓練される。 本稿では,単一ネットワークを基盤とする既存の構造とは対照的に,複数の特化ネットワークのトレーニングに基づく新しい構造を提案する。 提案するモデルは,勾配の消失や爆発といった問題を回避するために,非常に深いネットワークをトレーニングする代替手段である。 非常に深いネットワークを2つの小さなネットワークに分割することで、学習可能なパラメータの数が同じになるが、トレーニングが容易な2つの小さなネットワークをトレーニングする必要がある。 ネットワークはMean Square Error(MSE)を一般的な構造や詳細に対して低く保とうとしているため、詳細を見落としてしまう。 この問題は強い雑音の存在下ではより深刻である。 この問題を軽減するため、提案した構造では、画像をその低周波成分と高周波成分に分解し、各成分を使用して別々の分極畳み込みニューラルネットワークを訓練する。 1つのネットワークはイメージの一般的な構造を再構築するために、もう1つのネットワークは詳細を再構築するために特別です。 提案手法は, 強い雑音の存在下で, 高いピーク信号対雑音比 (PSNR) , 構造類似度指数 (SSIM) を示す。

In machine learning approach to image denoising a network is trained to recover a clean image from a noisy one. In this paper a novel structure is proposed based on training multiple specialized networks as opposed to existing structures that are base on a single network. The proposed model is an alternative for training a very deep network to avoid issues like vanishing or exploding gradient. By dividing a very deep network into two smaller networks the same number of learnable parameters will be available, but two smaller networks should be trained which are easier to train. Over smoothing and waxy artifacts are major problems with existing methods; because the network tries to keep the Mean Square Error (MSE) low for general structures and details, which leads to overlooking of details. This problem is more severe in the presence of strong noise. To reduce this problem, in the proposed structure, the image is decomposed into its low and high frequency components and each component is used to train a separate denoising convolutional neural network. One network is specialized to reconstruct the general structure of the image and the other one is specialized to reconstruct the details. Results of the proposed method show higher peak signal to noise ratio (PSNR), and structural similarity index (SSIM) compared to a popular state of the art denoising method in the presence of strong noises.
翻訳日:2022-09-20 08:49:08 公開日:2020-11-26
# 標準テストにおける複数選択質問の自動発散子生成

Automatic Distractor Generation for Multiple Choice Questions in Standard Tests ( http://arxiv.org/abs/2011.13100v1 )

ライセンス: Link先を確認
Zhaopeng Qiu, Xian Wu, Wei Fan(参考訳) 学習者の知識能力を評価するために, 複数選択質問は, 標準テストにおいて, 効率的かつ広範な形式である。 しかし,複数選択問題の構成,特に散逸器の構成は非常に困難である。 気晴らしは、知識を習得していない学習者を混乱させるのに十分な正確さと誤りの両方に要求される。 現在、気晴らしは、費用も時間もかかるドメインの専門家によって生成される。 このことは、様々な領域で様々な標準テストの恩恵を受けることができる自動イントラクタ生成の出現を促す。 本稿では,障害発生の自動化を目的とした質問・回答誘導型障害生成(edge)フレームワークを提案する。 EDGE は,(1) 改革質問モジュール,(2) 改革パスモジュールの3つの主要なモジュールから構成される。(1) 改革質問モジュールと改革パスモジュールは,生成した障害の固有の不正性を保証するためにゲート層を適用し,(2) ディトラクタジェネレータモジュールは,妥当性のレベルを制御するために注意機構を適用している。 大規模パブリックデータセットでの実験的結果は、我々のモデルが既存のモデルを大幅に上回っており、新しい最先端を達成していることを示している。

To assess the knowledge proficiency of a learner, multiple choice question is an efficient and widespread form in standard tests. However, the composition of the multiple choice question, especially the construction of distractors is quite challenging. The distractors are required to both incorrect and plausible enough to confuse the learners who did not master the knowledge. Currently, the distractors are generated by domain experts which are both expensive and time-consuming. This urges the emergence of automatic distractor generation, which can benefit various standard tests in a wide range of domains. In this paper, we propose a question and answer guided distractor generation (EDGE) framework to automate distractor generation. EDGE consists of three major modules: (1) the Reforming Question Module and the Reforming Passage Module apply gate layers to guarantee the inherent incorrectness of the generated distractors; (2) the Distractor Generator Module applies attention mechanism to control the level of plausibility. Experimental results on a large-scale public dataset demonstrate that our model significantly outperforms existing models and achieves a new state-of-the-art.
翻訳日:2022-09-20 08:47:51 公開日:2020-11-26
# テキストから因果ベイズネットワークを学ぶ

Learning Causal Bayesian Networks from Text ( http://arxiv.org/abs/2011.13115v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Afshin Rahimi, Mahsa Baktashmotlagh, Xue Li(参考訳) 因果関係は人工知能システムにおける推論と意思決定の基礎を形成する。 今日利用可能な大量のテキストデータを活用するために、テキストから因果関係の自動発見が近年大きな課題となっている。 この領域における既存のアプローチは、個々のイベント間の低レベルな関係の抽出に限定されている。 本稿では,既存のアプローチの限界を克服するために,概念レベルでの人文言語からの因果関係の自動推論手法を提案する。 この目的のために、テキストから生成された概念の階層構造と言語変数の特性を活用し、因果関係を因果ベイズネットワークの形で表現する。 本実験は,テキストから複雑な因果推論を推定する既存手法に対するアプローチの優位性を実証するものである。

Causal relationships form the basis for reasoning and decision-making in Artificial Intelligence systems. To exploit the large volume of textual data available today, the automatic discovery of causal relationships from text has emerged as a significant challenge in recent years. Existing approaches in this realm are limited to the extraction of low-level relations among individual events. To overcome the limitations of the existing approaches, in this paper, we propose a method for automatic inference of causal relationships from human written language at conceptual level. To this end, we leverage the characteristics of hierarchy of concepts and linguistic variables created from text, and represent the extracted causal relationships in the form of a Causal Bayesian Network. Our experiments demonstrate superiority of our approach over the existing approaches in inferring complex causal reasoning from the text.
翻訳日:2022-09-20 08:47:33 公開日:2020-11-26
# 機械学習を用いた波浪農場の電力出力予測のための推定モデル

Estimator Model for Prediction of Power Output of Wave Farms Using Machine Learning Methods ( http://arxiv.org/abs/2011.13130v1 )

ライセンス: Link先を確認
Bhavana Burramukku(参考訳) ウェーブファームによって発生する電力の量は、通常のウェーブ条件とともにウェーブエネルギー変換器(WEC)の配置に依存する。 したがって、アレイ内のWECの適切な配置を形成することは、パワー吸収を最大化する重要な要素である。 テストサイトから収集されたデータは、ウェーブファームの出力を予測するためのニューラルモデルの設計に使用される。 本稿では,オーストラリア南岸の4つの実波シナリオから得られたデータセットに基づいて,波浪エネルギー予測のためのニューラルモデルの開発に着目する。 応用コンバータモデルはCETOと呼ばれる完全潜水三層コンバータである。 WEC配置の精密な解析を行い, 試験場における波動ファームの発電量を明らかにした。

The amount of power generated by a wave farm depends on the Wave Energy Converter (WEC) arrangement along with the usual wave conditions. Therefore, forming the appropriate arrangement of WECs in an array is an important factor in maximizing power absorption. Data collected from the test sites is used to design a neural model for predicting wave farm's power output generated. This paper focuses on developing a neural model for the prediction of wave energy based on the data set derived from the four real wave scenarios from the southern coast of Australia. The applied converter model is a fully submerged three-tether converter called CETO. A precise analysis of the WEC placement is investigated to reveal the amount of power generated by the wave farms on the test site.
翻訳日:2022-09-20 08:46:40 公開日:2020-11-26
# 発達心理学に基づく概念獲得の進化

The Evolution of Concept-Acquisition based on Developmental Psychology ( http://arxiv.org/abs/2011.13089v1 )

ライセンス: Link先を確認
Hui Wei(参考訳) 知識に基づく人工知能システムの性能向上の鍵は、豊富な意味を持つ概念システムである。 豊富な概念と豊富な意味関係を持ち、開発可能で進化可能であり、マルチタスク環境に適応できる概念システムである一方で、その実際の構成は知識工学の主要な課題の1つだけでなく、知識と概念化の研究の基本的な目標でもある。 概念を表現し、概念システムを構築する新しい方法を見つけることは、多くのインテリジェントシステムの性能を大幅に向上させる。 幸運なことに、人間の認知の中核は比較的完全な概念とシステムの確立と発展を保証するメカニズムを持つシステムである。 人間の概念体系はすぐには達成できないが、徐々に発展しなければならない。 発達心理学は人間の行動レベルにおける概念獲得の過程を注意深く観察し、認知心理学とともにそれらの観察のラフな説明を提案している。 しかし、表現、体系モデル、アルゴリズムの詳細、実現といった側面の研究が欠如しているため、発達心理学の結果の多くは人工概念システムの構築に直接適用されていない。 例えば、karmiloff-smith's representation reescription (rr) は概念の低レベル表現を高レベル表現に再記述する概念獲得過程を反映している。 本稿は,この発達心理学的視点に着想を得たものである。 我々はオブジェクト指向アプローチを用いて、ORパラダイムは外界を記述する自然な方法であり、厳密な文法規則も備えているため、形式的意味論の観点からRR仮定を再記述し、実体化する。

A conceptual system with rich connotation is key to improving the performance of knowledge-based artificial intelligence systems. While a conceptual system, which has abundant concepts and rich semantic relationships, and is developable, evolvable, and adaptable to multi-task environments, its actual construction is not only one of the major challenges of knowledge engineering, but also the fundamental goal of research on knowledge and conceptualization. Finding a new method to represent concepts and construct a conceptual system will therefore greatly improve the performance of many intelligent systems. Fortunately the core of human cognition is a system with relatively complete concepts and a mechanism that ensures the establishment and development of the system. The human conceptual system can not be achieved immediately, but rather must develop gradually. Developmental psychology carefully observes the process of concept acquisition in humans at the behavioral level, and along with cognitive psychology has proposed some rough explanations of those observations. However, due to the lack of research in aspects such as representation, systematic models, algorithm details and realization, many of the results of developmental psychology have not been applied directly to the building of artificial conceptual systems. For example, Karmiloff-Smith's Representation Redescription (RR) supposition reflects a concept-acquisition process that re-describes a lower level representation of a concept to a higher one. This paper is inspired by this developmental psychology viewpoint. We use an object-oriented approach to re-explain and materialize RR supposition from the formal semantic perspective, because the OO paradigm is a natural way to describe the outside world, and it also has strict grammar regulations.
翻訳日:2022-09-20 08:46:31 公開日:2020-11-26
# 深層学習に基づくコンピュータ支援診断システム解説の成果と課題

Achievements and Challenges in Explaining Deep Learning based Computer-Aided Diagnosis Systems ( http://arxiv.org/abs/2011.13169v1 )

ライセンス: Link先を確認
Adriano Lucieri, Muhammad Naseer Bajwa, Andreas Dengel, Sheraz Ahmed(参考訳) 現代の画像ベースのAI手法の顕著な成功と、重要な意思決定プロセスにおける彼らの応用への関心は、そのようなインテリジェントなシステムを透明で説明可能なものにするための努力の急増につながった。 説明可能なAIの必要性は、倫理的および道徳的な根拠だけでなく、AIによって決定されたり支援されたりすることを明確かつ正当化可能な説明を義務付ける世界中の厳格な法律にも起因している。 特に、コンピュータ支援診断が患者の治療や健康に直接的な影響を与えうる医学的文脈では、透明性は研究室研究から実際の臨床実践への安全な移行にとって最も重要である。 本稿では,Deep Learningベースのアルゴリズムを医学研究や病気の診断に応用した解説・解釈における現状を概観する。 我々は、既知の疾患基準の検証、新しい潜在的なバイオマーカーの探索、およびその後のAIモデルの修正方法に関する説明可能なAIの開発における初期の成果について論じる。 視覚的,テキスト的,ポストホック,アントホック,ローカル,グローバルといった様々な説明手法が徹底的かつ批判的に分析されてきた。 続いて、臨床意思決定支援ツールとしてのAIの実践的応用の道に立つ残りの課題を強調し、今後の研究の方向性を推奨する。

Remarkable success of modern image-based AI methods and the resulting interest in their applications in critical decision-making processes has led to a surge in efforts to make such intelligent systems transparent and explainable. The need for explainable AI does not stem only from ethical and moral grounds but also from stricter legislation around the world mandating clear and justifiable explanations of any decision taken or assisted by AI. Especially in the medical context where Computer-Aided Diagnosis can have a direct influence on the treatment and well-being of patients, transparency is of utmost importance for safe transition from lab research to real world clinical practice. This paper provides a comprehensive overview of current state-of-the-art in explaining and interpreting Deep Learning based algorithms in applications of medical research and diagnosis of diseases. We discuss early achievements in development of explainable AI for validation of known disease criteria, exploration of new potential biomarkers, as well as methods for the subsequent correction of AI models. Various explanation methods like visual, textual, post-hoc, ante-hoc, local and global have been thoroughly and critically analyzed. Subsequently, we also highlight some of the remaining challenges that stand in the way of practical applications of AI as a clinical decision support tool and provide recommendations for the direction of future research.
翻訳日:2022-09-20 08:46:04 公開日:2020-11-26
# 奥行き認識:時間熱マップによるポーズ・モーションエンコーディング

Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal Heatmaps ( http://arxiv.org/abs/2011.13399v1 )

ライセンス: Link先を確認
Mattia Segu, Federico Pirovano, Gianmario Fumagalli, Amedeo Fabris(参考訳) アクション認識のための最先端のほとんどの方法は、外観、動き、ポーズを符号化する2次元空間的特徴にのみ依存する。 しかし、2Dデータには奥行き情報がないため、きめ細かい動きを認識するのに不可欠である。 本稿では,行動分類のための統一表現として,ポーズと動作情報をエンコードする奥行き認識型ボリュームディスクリプタを提案する。 我々の枠組みは、例えば視点、シーン、衣服、体形の変化など、行動認識に固有の多くの課題に対して堅牢である。 この手法の重要なコンポーネントは、人体の意味的キーポイントの3d動きをエンコードする新しいビデオディスクリプタであるda-potion(deep-aware pose motion representation)である。 ビデオが与えられたら、最先端の3dポーズレグレッサーを使って各フレームの人間の関節熱マップを作成し、クリップ内の相対時間に応じてそれぞれにユニークな色コードを与えます。 そして,これらの3次元時間エンコードされたヒートマップを集約して,浅い3次元畳み込みニューラルネットワーク(CNN)を用いた動作の分類に適した固定サイズ記述子(DA-PoTion)を得る。 DA-PoTionだけで、Penn Action Datasetの新たな最先端が定義されている。 さらに,jhmdbデータセット上での新たな最先端を定義するために,膨らんだ3d convnet (i3d) と組み合わせることで,ポーズ動作記述子の包括的相補性を活用する。

Most state-of-the-art methods for action recognition rely only on 2D spatial features encoding appearance, motion or pose. However, 2D data lacks the depth information, which is crucial for recognizing fine-grained actions. In this paper, we propose a depth-aware volumetric descriptor that encodes pose and motion information in a unified representation for action classification in-the-wild. Our framework is robust to many challenges inherent to action recognition, e.g. variation in viewpoint, scene, clothing and body shape. The key component of our method is the Depth-Aware Pose Motion representation (DA-PoTion), a new video descriptor that encodes the 3D movement of semantic keypoints of the human body. Given a video, we produce human joint heatmaps for each frame using a state-of-the-art 3D human pose regressor and we give each of them a unique color code according to the relative time in the clip. Then, we aggregate such 3D time-encoded heatmaps for all human joints to obtain a fixed-size descriptor (DA-PoTion), which is suitable for classifying actions using a shallow 3D convolutional neural network (CNN). The DA-PoTion alone defines a new state-of-the-art on the Penn Action Dataset. Moreover, we leverage the intrinsic complementarity of our pose motion descriptor with appearance based approaches by combining it with Inflated 3D ConvNet (I3D) to define a new state-of-the-art on the JHMDB Dataset.
翻訳日:2022-09-20 08:40:02 公開日:2020-11-26
# 層幅関係伝播を用いた構造化データの深層学習モデル

Explaining Deep Learning Models for Structured Data using Layer-Wise Relevance Propagation ( http://arxiv.org/abs/2011.13429v1 )

ライセンス: Link先を確認
hsan Ullah, Andre Rios, Vaibhav Gala and Susan Mckeever(参考訳) 機械学習モデルの信頼性と信頼性は、その決定を説明するモデルの能力によって強化される。 ディープラーニングモデルの説明可能性はよく知られた課題だが、さらに難しいのは説明自体の明確化であり、下流のユーザによって解釈されなければならない。 LRP(Layer-wise Relevance Propagation)は、コンピュータビジョンの深層モデルのための確立された説明可能性技術である。 本稿では,深層ニューラルネットワーク(1D-CNN)を用いた構造化データセットを用いて,クレジットカード不正検出とTelecom Customer Churn予測データセットを初めて適用した。 本稿では,LIME(Local Interpretable Model-Agnostic Ex-planations)とSHAP(Shapley Additive Explanations)の従来の説明可能性概念よりも,LRPが有効であることを示す。 この有効性は、サンプルレベルとテストセット全体に対する全体的の両方に局所的です。 また, LIME (22s) と SHAP (108s) に対する LRP (1-2s) の有意な計算時間優位性についても論じる。 さらに、LRPの検証では、モデル性能向上のための特徴が強調され、XAIを機能サブセット選択のアプローチとして活用する新たな研究領域が開かれた。

Trust and credibility in machine learning models is bolstered by the ability of a model to explain itsdecisions. While explainability of deep learning models is a well-known challenge, a further chal-lenge is clarity of the explanation itself, which must be interpreted by downstream users. Layer-wiseRelevance Propagation (LRP), an established explainability technique developed for deep models incomputer vision, provides intuitive human-readable heat maps of input images. We present the novelapplication of LRP for the first time with structured datasets using a deep neural network (1D-CNN),for Credit Card Fraud detection and Telecom Customer Churn prediction datasets. We show how LRPis more effective than traditional explainability concepts of Local Interpretable Model-agnostic Ex-planations (LIME) and Shapley Additive Explanations (SHAP) for explainability. This effectivenessis both local to a sample level and holistic over the whole testing set. We also discuss the significantcomputational time advantage of LRP (1-2s) over LIME (22s) and SHAP (108s), and thus its poten-tial for real time application scenarios. In addition, our validation of LRP has highlighted features forenhancing model performance, thus opening up a new area of research of using XAI as an approachfor feature subset selection
翻訳日:2022-09-20 08:39:37 公開日:2020-11-26
# 新型コロナウイルスのフェイクニュース検出とファクトチェックのための2段階トランスフォーマーモデル

Two Stage Transformer Model for COVID-19 Fake News Detection and Fact Checking ( http://arxiv.org/abs/2011.13253v1 )

ライセンス: Link先を確認
Rutvik Vijjali, Prathyush Potluri, Siddharth Kumar, Sundeep Teki(参考訳) ソーシャルメディアプラットフォームによるオンラインコミュニケーションにおける技術の急速な進歩は、誤情報やフェイクニュースの普及に大きく結びついている。 偽ニュースは新型コロナウイルス(COVID-19)のパンデミックで特に波及し、虚偽で潜在的に有害な主張や物語を信じる人々がいる。 偽ニュースを素早く検出することは、パニック、カオス、潜在的な健康リスクの拡散を緩和する。 自然言語処理のための最先端機械学習モデルを用いて,covid-19偽ニュース検出のための2段階自動化パイプラインを開発した。 最初のモデルは、新型コロナウイルスに関するユーザーの主張に関する最も関連性の高い事実を検索する、新しい事実チェックアルゴリズムを活用する。 第2のモデルは、クレームと、手動でキュレートされたCOVID-19データセットから取得した真事実の間のテキストの関連性を計算することによって、クレームの真理レベルを検証する。 このデータセットは、5000以上の新型コロナウイルスの偽の主張と検証された説明からなる公開知識ソースに基づいており、そのサブセットは内部で注釈付けされ、モデルのトレーニングと評価のためにクロスバリデーションされた。 従来のテキストベースの特徴に基づく一連のモデルから、より文脈的なトランスフォーマーモデルの評価を行い、2段階のBERTとALBERTに基づくモデルパイプラインがそれぞれ最良の結果をもたらすことを観察する。

The rapid advancement of technology in online communication via social media platforms has led to a prolific rise in the spread of misinformation and fake news. Fake news is especially rampant in the current COVID-19 pandemic, leading to people believing in false and potentially harmful claims and stories. Detecting fake news quickly can alleviate the spread of panic, chaos and potential health hazards. We developed a two stage automated pipeline for COVID-19 fake news detection using state of the art machine learning models for natural language processing. The first model leverages a novel fact checking algorithm that retrieves the most relevant facts concerning user claims about particular COVID-19 claims. The second model verifies the level of truth in the claim by computing the textual entailment between the claim and the true facts retrieved from a manually curated COVID-19 dataset. The dataset is based on a publicly available knowledge source consisting of more than 5000 COVID-19 false claims and verified explanations, a subset of which was internally annotated and cross-validated to train and evaluate our models. We evaluate a series of models based on classical text-based features to more contextual Transformer based models and observe that a model pipeline based on BERT and ALBERT for the two stages respectively yields the best results.
翻訳日:2022-09-20 08:39:11 公開日:2020-11-26
# 学習と進化による物理インフォームド・ニューラルステート・スペースモデル

Physics-Informed Neural State Space Models via Learning and Evolution ( http://arxiv.org/abs/2011.13497v1 )

ライセンス: Link先を確認
Elliott Skomski, Jan Drgona, Aaron Tuor(参考訳) 動的システムモデリングへのディープラーニングの適用を探求する最近の研究は、ニューラルネットワークに物理的事前を埋め込むことにより、より効果的で、物理的に現実的で、データ効率のよいモデルが得られることを示した。 しかし、力学系の物理特性に関する事前知識がなければ、これらのモデルの最適構造と最適化戦略を決定することは困難である。 本研究では,システム同定のための神経状態空間ダイナミクスモデルの発見法について検討する。 ブロック指向状態空間モデルと強い物理先行性を持つ構造線形写像の設計空間から始めて、これらの成分をネットワーク構造、ペナルティ制約、最適化ハイパーパラメータとともにモデルゲノムにエンコードする。 設計空間の全体的有用性を示すために, モデル選択と最適化を交互に交互に行う非同期遺伝的探索アルゴリズムを用い, 空力体, 連鋳タンクリアクター, 2タンク間相互作用システムという3つの物理システムの物理的に一貫性のある正確なモデルを得る。

Recent works exploring deep learning application to dynamical systems modeling have demonstrated that embedding physical priors into neural networks can yield more effective, physically-realistic, and data-efficient models. However, in the absence of complete prior knowledge of a dynamical system's physical characteristics, determining the optimal structure and optimization strategy for these models can be difficult. In this work, we explore methods for discovering neural state space dynamics models for system identification. Starting with a design space of block-oriented state space models and structured linear maps with strong physical priors, we encode these components into a model genome alongside network structure, penalty constraints, and optimization hyperparameters. Demonstrating the overall utility of the design space, we employ an asynchronous genetic search algorithm that alternates between model selection and optimization and obtains accurate physically consistent models of three physical systems: an aerodynamics body, a continuous stirred tank reactor, and a two tank interacting system.
翻訳日:2022-09-20 08:38:35 公開日:2020-11-26
# 時間とリスク依存経路計画のための予測衝突管理

Predictive Collision Management for Time and Risk Dependent Path Planning ( http://arxiv.org/abs/2011.13305v1 )

ライセンス: Link先を確認
Carsten Hahn, Sebastian Feld, Hannes Schroter(参考訳) 自動運転車やパーセルロボットのような自律エージェントは、環境内でうまく動くためには障害物との衝突を認識・回避する必要がある。 しかし、人間は直感的に動きを予測し、前方から障害物を避けることを学んだ。 衝突回避のタスクは、グローバルレベルとローカルレベルに分けられる。 グローバルレベルでは,PCMP(Predictive Collision Management Path Planning)と呼ばれるアプローチを提案する。 局所レベルでは、衝突回避のための解が避けられない衝突を防止するために用いられる。 そこでPCMPの目的は,予測衝突管理を用いて不要な局所衝突シナリオを回避することである。 PCMPは,(1)移動予測,(2)移動予測の時間依存グラフへの統合,(3)時間とリスクに依存した経路計画という3つの部分からなる時間次元に着目したグラフベースのアルゴリズムである。 このアルゴリズムは、最短経路の探索と質問を組み合わせている。 異なるシミュレーションシナリオにおける回避行動を評価し, リスクに敏感なエージェントは衝突シナリオの47.3%を回避でき, 反動は1.3%であった。 リスク回避剤は、衝突シナリオの最大97.3%を39.1%で回避する。 したがって、エージェントの回避行動は、PCMPを用いてアクティブかつリスク依存的に制御できる。

Autonomous agents such as self-driving cars or parcel robots need to recognize and avoid possible collisions with obstacles in order to move successfully in their environment. Humans, however, have learned to predict movements intuitively and to avoid obstacles in a forward-looking way. The task of collision avoidance can be divided into a global and a local level. Regarding the global level, we propose an approach called "Predictive Collision Management Path Planning" (PCMP). At the local level, solutions for collision avoidance are used that prevent an inevitable collision. Therefore, the aim of PCMP is to avoid unnecessary local collision scenarios using predictive collision management. PCMP is a graph-based algorithm with a focus on the time dimension consisting of three parts: (1) movement prediction, (2) integration of movement prediction into a time-dependent graph, and (3) time and risk-dependent path planning. The algorithm combines the search for a shortest path with the question: is the detour worth avoiding a possible collision scenario? We evaluate the evasion behavior in different simulation scenarios and the results show that a risk-sensitive agent can avoid 47.3% of the collision scenarios while making a detour of 1.3%. A risk-averse agent avoids up to 97.3% of the collision scenarios with a detour of 39.1%. Thus, an agent's evasive behavior can be controlled actively and risk-dependent using PCMP.
翻訳日:2022-09-20 08:37:54 公開日:2020-11-26
# t-EVA: 時間効率の良いt-SNEビデオアノテーション

t-EVA: Time-Efficient t-SNE Video Annotation ( http://arxiv.org/abs/2011.13202v1 )

ライセンス: Link先を確認
Soroosh Poorgholi, Osman Semih Kayhan and Jan C. van Gemert(参考訳) ビデオ理解は、いくつかの大規模なビデオデータセットが利用可能であることから、ここ数年で注目されている。 しかし、大規模ビデオデータセットの注釈付けはコストがかかる。 本研究では,時空間的特徴類似度とt-SNE次元の低減を用いた時間効率なビデオアノテーション手法を提案する。 異なるビデオから同じアクションを2次元の空間に配置することは、アノテータがグループラベルのビデオクリップを作成するのに役立ちます。 本研究では,ActivityNetの2つのサブセット(v1.3)とSports-1Mデータセットのサブセットについて評価する。 t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。

Video understanding has received more attention in the past few years due to the availability of several large-scale video datasets. However, annotating large-scale video datasets are cost-intensive. In this work, we propose a time-efficient video annotation method using spatio-temporal feature similarity and t-SNE dimensionality reduction to speed up the annotation process massively. Placing the same actions from different videos near each other in the two-dimensional space based on feature similarity helps the annotator to group-label video clips. We evaluate our method on two subsets of the ActivityNet (v1.3) and a subset of the Sports-1M dataset. We show that t-EVA can outperform other video annotation tools while maintaining test accuracy on video classification.
翻訳日:2022-09-20 08:37:21 公開日:2020-11-26
# 潜時空間仮想対位訓練による正規化

Regularization with Latent Space Virtual Adversarial Training ( http://arxiv.org/abs/2011.13181v1 )

ライセンス: Link先を確認
Genki Osada, Budrul Ahsan, Revoti Prasad Bora, Takashi Nishide(参考訳) VAT(Virtual Adversarial Training)は、最近開発された一貫性正規化と呼ばれる正規化手法の中で印象的な結果を示している。 VATは、入力空間に摂動を注入して生成された対向サンプルをトレーニングに利用し、分類器の一般化能力を高める。 しかし、そのような逆サンプルは、入力データポイント周辺の非常に小さな領域内でのみ生成できるため、逆サンプルの有効性が制限される。 この問題に対処するためにLVAT(Latent space VAT)を提案し、入力空間の代わりに潜時空間の摂動を注入する。 LVATは反対のサンプルを柔軟に生成することができ、より有害な効果をもたらし、より効果的な正則化をもたらす。 潜在空間は生成モデルによって構築され,本論文では変分オートエンコーダと正規化フロー,特にグローの2つの異なるモデルについて検討する。 SVHNとCIFAR-10データセットを用いた画像分類タスクにおいて,教師付き学習シナリオと半教師付き学習シナリオの両方において,本手法の性能評価を行った。 評価の結果,本手法はVATや他の最先端手法よりも優れていた。

Virtual Adversarial Training (VAT) has shown impressive results among recently developed regularization methods called consistency regularization. VAT utilizes adversarial samples, generated by injecting perturbation in the input space, for training and thereby enhances the generalization ability of a classifier. However, such adversarial samples can be generated only within a very small area around the input data point, which limits the adversarial effectiveness of such samples. To address this problem we propose LVAT (Latent space VAT), which injects perturbation in the latent space instead of the input space. LVAT can generate adversarial samples flexibly, resulting in more adverse effects and thus more effective regularization. The latent space is built by a generative model, and in this paper, we examine two different type of models: variational auto-encoder and normalizing flow, specifically Glow. We evaluated the performance of our method in both supervised and semi-supervised learning scenarios for an image classification task using SVHN and CIFAR-10 datasets. In our evaluation, we found that our method outperforms VAT and other state-of-the-art methods.
翻訳日:2022-09-20 08:29:38 公開日:2020-11-26
# 単一インスタンスを越えた教師なし表現学習

Beyond Single Instance Multi-view Unsupervised Representation Learning ( http://arxiv.org/abs/2011.13356v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Xiaohang Zhan and Xiaolin Wei(参考訳) 最近の教師なしコントラスト表現学習(unsupervised contrastive representation learning)は、単一のインスタンスマルチビュー(sim)パラダイムに従っている。 本稿では,Beyond Single Instance Multi-view (BSIM) と呼ばれる効果的な手法を提案する。 具体的には、ランダムにサンプリングされた2つのインスタンスとそれらの混合物、すなわち刺激陽性ペアとの関節類似度を測定することで、より正確なインスタンス識別能力を与える。 符号化された特徴をより均等に分散することで,共同学習の類似性が向上すると考えている。 シムclr,moco,byolなど,教師なしコントラスト表現学習の直交改善として適用する。 我々は、ImageNet-1kとPASCAL VOC 2007の線形分類、MS COCO 2017とVOCのオブジェクト検出など、多くの下流ベンチマークでの学習表現を評価した。 先行技術と比べて、これらのタスクのほぼすべてにおいて、かなりの利益を得ることができます。

Recent unsupervised contrastive representation learning follows a Single Instance Multi-view (SIM) paradigm where positive pairs are usually constructed with intra-image data augmentation. In this paper, we propose an effective approach called Beyond Single Instance Multi-view (BSIM). Specifically, we impose more accurate instance discrimination capability by measuring the joint similarity between two randomly sampled instances and their mixture, namely spurious-positive pairs. We believe that learning joint similarity helps to improve the performance when encoded features are distributed more evenly in the latent space. We apply it as an orthogonal improvement for unsupervised contrastive representation learning, including current outstanding methods SimCLR, MoCo, and BYOL. We evaluate our learned representations on many downstream benchmarks like linear classification on ImageNet-1k and PASCAL VOC 2007, object detection on MS COCO 2017 and VOC, etc. We obtain substantial gains with a large margin almost on all these tasks compared with prior arts.
翻訳日:2022-09-20 08:29:01 公開日:2020-11-26
# ClusterFace: セットベース顔認識のための共同クラスタリングと分類

ClusterFace: Joint Clustering and Classification for Set-Based Face Recognition ( http://arxiv.org/abs/2011.13360v1 )

ライセンス: Link先を確認
S. W. Arachchilage, E. Izquierdo(参考訳) ディープラーニング技術は、高品質の画像が利用可能になったときに複雑な顔特徴のモデリングを成功に導いた。 それでも、現実のシナリオにおける人間の顔の正確なモデリングと認識は「野生」や悪条件下では未解決の問題である。 制約のない顔が深い特徴にマッピングされると、照明、ポーズ、オクルージョンなどのバリエーションが結果の特徴空間における矛盾を生じさせる。 したがって、直接的な関連に基づく結論の導出は、性能低下につながる可能性がある。 これにより、顔認識に先立って基本的な特徴空間分析が要求される。 本稿では,深部顔関連を分かりやすく学習する統合クラスタリングと分類手法を提案する。 我々の手法は階層的なクラスタリングに基づいており、初期イテレーションは高い信頼性を保ちがちである。 提案手法の理論的根拠は,信頼性の高いクラスタリングにより特徴空間の分布を把握でき,次に示す分類を導出できるということである。 3つの課題(顔の検証、顔の識別、ランク順探索)に対する実験的な評価は、最先端の3つの実験よりも優れた、あるいは競争的な性能を示す。

Deep learning technology has enabled successful modeling of complex facial features when high quality images are available. Nonetheless, accurate modeling and recognition of human faces in real world scenarios `on the wild' or under adverse conditions remains an open problem. When unconstrained faces are mapped into deep features, variations such as illumination, pose, occlusion, etc., can create inconsistencies in the resultant feature space. Hence, deriving conclusions based on direct associations could lead to degraded performance. This rises the requirement for a basic feature space analysis prior to face recognition. This paper devises a joint clustering and classification scheme which learns deep face associations in an easy-to-hard way. Our method is based on hierarchical clustering where the early iterations tend to preserve high reliability. The rationale of our method is that a reliable clustering result can provide insights on the distribution of the feature space, that can guide the classification that follows. Experimental evaluations on three tasks, face verification, face identification and rank-order search, demonstrates better or competitive performance compared to the state-of-the-art, on all three experiments.
翻訳日:2022-09-20 08:28:45 公開日:2020-11-26
# SSDL: 顔認識改善のための自己監督型ドメイン学習

SSDL: Self-Supervised Domain Learning for Improved Face Recognition ( http://arxiv.org/abs/2011.13361v1 )

ライセンス: Link先を確認
S. W. Arachchilage, E. Izquierdo(参考訳) 非拘束環境における顔認識は、照明のバリエーション、センシングの質、動きのぼやきなどにより困難である。 個人の顔の外観は、異なる条件下で大きく変化し、列車(ソース)と様々なテスト(ターゲット)データの間にギャップが生じる。 ドメインギャップは、ソースからターゲットへの直接的な知識転送のパフォーマンスレベルを低下させる可能性がある。 ドメイン固有のデータの微調整は効果的な解決策になり得るが、すべてのドメインのデータ収集と注釈は極めて高価である。 そこで本研究では,ラベルなしデータから抽出した三重項を訓練する自己教師付きドメイン学習(ssdl)方式を提案する。 効果的な判別学習の鍵となる要因は、有益三重項の選択である。 最も確実な予測に基づいて、我々は3重項採掘と自己学習を交互に行う「簡単でハードな」スキームに従う。 4つの異なるベンチマークに関する総合的な実験により、SSDLは異なる領域でよく一般化されることが示された。

Face recognition in unconstrained environments is challenging due to variations in illumination, quality of sensing, motion blur and etc. An individual's face appearance can vary drastically under different conditions creating a gap between train (source) and varying test (target) data. The domain gap could cause decreased performance levels in direct knowledge transfer from source to target. Despite fine-tuning with domain specific data could be an effective solution, collecting and annotating data for all domains is extremely expensive. To this end, we propose a self-supervised domain learning (SSDL) scheme that trains on triplets mined from unlabelled data. A key factor in effective discriminative learning, is selecting informative triplets. Building on most confident predictions, we follow an "easy-to-hard" scheme of alternate triplet mining and self-learning. Comprehensive experiments on four different benchmarks show that SSDL generalizes well on different domains.
翻訳日:2022-09-20 08:28:29 公開日:2020-11-26
# グラフ畳み込みネットワークを用いたフレーム意味解析のための構文構成経路の符号化

Encoding Syntactic Constituency Paths for Frame-Semantic Parsing with Graph Convolutional Networks ( http://arxiv.org/abs/2011.13210v1 )

ライセンス: Link先を確認
Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon(参考訳) 本研究では,選択木からの構文情報をフレーム意味解析サブタスク,すなわちターゲット識別(TI),フレーム同定(FI),セマンティックロールラベル(SRL)のニューラルネットワークに統合する問題について検討する。 グラフ畳み込みネットワークを用いて構成成分の特定の表現を学習し、各構成成分が対応する生産文法規則としてプロファイルされる。 我々はこれらの表現を利用して文中の各単語の構文的特徴を構築し、単語と木内のタスク固有ノードの間の経路上のすべての構成要素の和として計算する。 提案手法では,入力としてBERTを使用した場合に,TIとSRLのそれぞれ1%および3.5%の値(+2.5%の追加ポイントは入力としてBERTで得られる)の最先端結果を改善するとともに,CoNLL05データセットで同等の結果を他の構文認識システムに出力する。

We study the problem of integrating syntactic information from constituency trees into a neural model in Frame-semantic parsing sub-tasks, namely Target Identification (TI), FrameIdentification (FI), and Semantic Role Labeling (SRL). We use a Graph Convolutional Network to learn specific representations of constituents, such that each constituent is profiled as the production grammar rule it corresponds to. We leverage these representations to build syntactic features for each word in a sentence, computed as the sum of all the constituents on the path between a word and a task-specific node in the tree, e.g. the target predicate for SRL. Our approach improves state-of-the-art results on the TI and SRL of ~1%and~3.5% points, respectively (+2.5% additional points are gained with BERT as input), when tested on FrameNet 1.5, while yielding comparable results on the CoNLL05 dataset to other syntax-aware systems.
翻訳日:2022-09-20 08:22:13 公開日:2020-11-26
# 語彙サイズの異なる言語モデル性能尺度としてのユニグラム正規化パープレキシティ

Unigram-Normalized Perplexity as a Language Model Performance Measure with Different Vocabulary Sizes ( http://arxiv.org/abs/2011.13220v1 )

ライセンス: Link先を確認
Jihyeon Roh, Sang-Hoon Oh, Soo-Young Lee(参考訳) パープレキシティは言語モデルで広く使われているパフォーマンス指標であるが、値はコーパス内の単語数に大きく依存しており、同じコーパスのパフォーマンスを比較するのに有用である。 本稿では,異なる語彙サイズで言語モデルの性能を評価するための新しい指標を提案する。 提案したユニグラム正規化パープレキシティは, 単純なユニグラムモデルから言語モデルの性能改善を実際に示し, 語彙サイズに頑健である。 理論解析と計算実験の両方が報告されている。

Although Perplexity is a widely used performance metric for language models, the values are highly dependent upon the number of words in the corpus and is useful to compare performance of the same corpus only. In this paper, we propose a new metric that can be used to evaluate language model performance with different vocabulary sizes. The proposed unigram-normalized Perplexity actually presents the performance improvement of the language models from that of simple unigram model, and is robust on the vocabulary size. Both theoretical analysis and computational experiments are reported.
翻訳日:2022-09-20 08:21:52 公開日:2020-11-26
# AutoNLU: 企業のオンデマンドクラウドベースの自然言語理解システム

AutoNLU: An On-demand Cloud-based Natural Language Understanding System for Enterprises ( http://arxiv.org/abs/2011.13470v1 )

ライセンス: Link先を確認
Nham Le, Tuan Lai, Trung Bui and Doo Soon Kim(参考訳) ディープラーニングのルネッサンスにより、ニューラルネットワークは多くの自然言語理解(NLU)タスクにおいて有望な結果を得た。 多くのニューラルネットワークモデルのソースコードが公開されているが、オープンソースモデルから企業における現実的な問題を解決するための大きなギャップがある。 そこで我々は,このギャップを埋めるために,nluモデル開発における一般的なユースケースとステップをすべてカバーした,使いやすいインターフェースを備えたオンデマンドクラウドベースシステムであるautonluを紹介する。 AutoNLUはさまざまなユースケースとデータセットを使ってAdobe内の多くの製品チームをサポートし、迅速に動作するモデルを提供する。 AutoNLUの有効性を示すために,2つのケーススタディを提案する。 i)Photoshopの様々な画像編集要求を処理するための実用的NLUモデルを構築した。 二) 2つの公開ベンチマークで最新の結果を得る強力なキーフレーズ抽出モデルを構築した。 どちらの場合でも、エンドユーザはデータセットをAutoNLUが使用する共通フォーマットに変換するために、少量のコードを書くだけでよい。

With the renaissance of deep learning, neural networks have achieved promising results on many natural language understanding (NLU) tasks. Even though the source codes of many neural network models are publicly available, there is still a large gap from open-sourced models to solving real-world problems in enterprises. Therefore, to fill this gap, we introduce AutoNLU, an on-demand cloud-based system with an easy-to-use interface that covers all common use-cases and steps in developing an NLU model. AutoNLU has supported many product teams within Adobe with different use-cases and datasets, quickly delivering them working models. To demonstrate the effectiveness of AutoNLU, we present two case studies. i) We build a practical NLU model for handling various image-editing requests in Photoshop. ii) We build powerful keyphrase extraction models that achieve state-of-the-art results on two public benchmarks. In both cases, end users only need to write a small amount of code to convert their datasets into a common format used by AutoNLU.
翻訳日:2022-09-20 08:21:14 公開日:2020-11-26
# 機械翻訳における復号化と多様性

Decoding and Diversity in Machine Translation ( http://arxiv.org/abs/2011.13477v1 )

ライセンス: Link先を確認
Nicholas Roberts, Davis Liang, Graham Neubig, Zachary C. Lipton(参考訳) ニューラルネットワーク翻訳(NMT)システムは通常、生成された翻訳と基底真理候補との一致を評価する自動メトリクスを使用して評価される。 これらの指標に関してシステムを改善するため、NLP研究者は条件付きモード(vs.サンプリング)の探索や様々なトレーニングヒューリスティック(ラベルの平滑化など)の導入など、様々なヒューリスティック技術を採用している。 検索戦略はBLEUスコアを大幅に改善するが、人間の翻訳の多様性に欠ける決定論的アウトプットが得られる。 さらに、検索は、翻訳された性別代名詞の分布に偏りがある。 これにより、人間レベルのBLEUは、人間レベルの翻訳多様性を同時に維持しながら、現代のMTシステムは人間レベルのBLEUに近づかないという誤解を招くベンチマークとなる。 本稿では,NMT によるBLEU の楽譜に対する多様性のコストについて検討し,生成翻訳と実翻訳の分布差を特徴付ける。 さらに, ジェンダー代名詞の翻訳において, 既知のバイアスの有意な源として検索が関与している。

Neural Machine Translation (NMT) systems are typically evaluated using automated metrics that assess the agreement between generated translations and ground truth candidates. To improve systems with respect to these metrics, NLP researchers employ a variety of heuristic techniques, including searching for the conditional mode (vs. sampling) and incorporating various training heuristics (e.g., label smoothing). While search strategies significantly improve BLEU score, they yield deterministic outputs that lack the diversity of human translations. Moreover, search tends to bias the distribution of translated gender pronouns. This makes human-level BLEU a misleading benchmark in that modern MT systems cannot approach human-level BLEU while simultaneously maintaining human-level translation diversity. In this paper, we characterize distributional differences between generated and real translations, examining the cost in diversity paid for the BLEU scores enjoyed by NMT. Moreover, our study implicates search as a salient source of known bias when translating gender pronouns.
翻訳日:2022-09-20 08:20:58 公開日:2020-11-26
# 安定型深層強化学習への優先順位と多様性のバランス

Predictive PER: Balancing Priority and Diversity towards Stable Deep Reinforcement Learning ( http://arxiv.org/abs/2011.13093v1 )

ライセンス: Link先を確認
Sanghwa Lee, Jaeyoung Lee, Ichiro Hasuo(参考訳) 優先体験再生(PER)は、深層強化学習エージェントの性能を向上させるために、一様ではなく重要な遷移をサンプリングする。 このような優先順位付けはdqnを安定化させ、忘れないようにするためにサンプルの多様性とバランスをとる必要があると主張している。 PER(Predictive PER, 予測PER)に対する改善策として, 3つの対策(TDInit, TDClip, TDPred)が提案されている。 一 優先外れ及び爆発を除去すること。 (II) DQNを安定化させるため, 標本の多様性と分布を優先的に改善する。 3つの中で最も重要なのは、流通の優先順位を一般化する第2のDNNであるTDPredの導入である。 アブレーション研究とアタリゲームによる完全な実験により、それぞれの対策を独自に行い、PPERは安定性の向上に寄与し、PERよりも性能が向上することを示した。

Prioritized experience replay (PER) samples important transitions, rather than uniformly, to improve the performance of a deep reinforcement learning agent. We claim that such prioritization has to be balanced with sample diversity for making the DQN stabilized and preventing forgetting. Our proposed improvement over PER, called Predictive PER (PPER), takes three countermeasures (TDInit, TDClip, TDPred) to (i) eliminate priority outliers and explosions and (ii) improve the sample diversity and distributions, weighted by priorities, both leading to stabilizing the DQN. The most notable among the three is the introduction of the second DNN called TDPred to generalize the in-distribution priorities. Ablation study and full experiments with Atari games show that each countermeasure by its own way and PPER contribute to successfully enhancing stability and thus performance over PER.
翻訳日:2022-09-20 08:20:42 公開日:2020-11-26
# 言語モデルとドメイン関連課題を用いた分子表現学習

Molecular representation learning with language models and domain-relevant auxiliary tasks ( http://arxiv.org/abs/2011.13230v1 )

ライセンス: Link先を確認
Benedek Fabian, Thomas Edlich, H\'el\'ena Gaspar, Marwin Segler, Joshua Meyers, Marco Fiscato, Mohamed Ahmed(参考訳) 本稿では,トランスフォーマーアーキテクチャ,特にBERTを適用し,薬物発見問題に対するフレキシブルで高品質な分子表現を学習する。 自己教師型タスクの異なる組み合わせによる事前学習の効果について検討し、確立した仮想スクリーニングとQSARベンチマークの結果を示す。 ご覧の通りです 一 事前学習のための適切な自己指導タスクの選択は、仮想スクリーニング等の下流タスクのパフォーマンスに重大な影響を及ぼす。 二 計算された分子特性を予測するための学習等、化学においてよりドメインに関連のある補助的なタスクを使用することにより、学習表現の忠実性が高まること。 iii) 最後に,我々のモデルであるmolbertによって学習される分子表現が,ベンチマークデータセットの現在の技術により向上することを示す。

We apply a Transformer architecture, specifically BERT, to learn flexible and high quality molecular representations for drug discovery problems. We study the impact of using different combinations of self-supervised tasks for pre-training, and present our results for the established Virtual Screening and QSAR benchmarks. We show that: i) The selection of appropriate self-supervised task(s) for pre-training has a significant impact on performance in subsequent downstream tasks such as Virtual Screening. ii) Using auxiliary tasks with more domain relevance for Chemistry, such as learning to predict calculated molecular properties, increases the fidelity of our learnt representations. iii) Finally, we show that molecular representations learnt by our model `MolBert' improve upon the current state of the art on the benchmark datasets.
翻訳日:2022-09-20 08:20:27 公開日:2020-11-26
# スパースフロー持続曲線と入力選択アンサンブルモデルを用いた未観測領域の予測

Prediction in ungauged regions with sparse flow duration curves and input-selection ensemble modeling ( http://arxiv.org/abs/2011.13380v1 )

ライセンス: Link先を確認
Dapeng Feng, Kathryn Lawson and Chaopeng Shen(参考訳) 長寿命短期記憶(LSTM)モデルはストリームフロー予測で恒星の性能を示すが、ゲージのない連続領域や未ゲージ領域(PUR)の予測では大きなリスクがある。 しかし、フロー持続時間曲線(FDC)のようなよりソフトなデータはすでに近くの駅から入手できるか、利用可能になる可能性がある。 本稿では, LSTMベースのネットワークによって, エンコーダを介して, スパースFDCデータを移動・同化できることを実証する。 厳密な地域ベースのホールドアウトテストでは、米国データセットのKling-Gupta効率(KGE)は0.62で、これまでの最先端のグローバルスケールの未掘削盆地試験よりもかなり高かった。 FDCのないベースラインモデルは、既に競争力があった(現在のKGE 0.56)が、FDCを統合することにはかなり価値があった。 入力の不正確な表現のため、ベースラインモデルは時に破滅的な結果をもたらすことがある。 しかし、入力選択の異なるモデルに基づいてアンサンブルをコンパイルすることで、モデル一般化性はさらに向上した。

While long short-term memory (LSTM) models have demonstrated stellar performance with streamflow predictions, there are major risks in applying these models in contiguous regions with no gauges, or predictions in ungauged regions (PUR) problems. However, softer data such as the flow duration curve (FDC) may be already available from nearby stations, or may become available. Here we demonstrate that sparse FDC data can be migrated and assimilated by an LSTM-based network, via an encoder. A stringent region-based holdout test showed a median Kling-Gupta efficiency (KGE) of 0.62 for a US dataset, substantially higher than previous state-of-the-art global-scale ungauged basin tests. The baseline model without FDC was already competitive (median KGE 0.56), but integrating FDCs had substantial value. Because of the inaccurate representation of inputs, the baseline models might sometimes produce catastrophic results. However, model generalizability was further meaningfully improved by compiling an ensemble based on models with different input selections.
翻訳日:2022-09-20 08:20:15 公開日:2020-11-26
# 極限検証レイテンシ学習アルゴリズムの比較解析

Comparative Analysis of Extreme Verification Latency Learning Algorithms ( http://arxiv.org/abs/2011.14917v1 )

ライセンス: Link先を確認
Muhammad Umer, Robi Polikar(参考訳) 計算知能における最も難しい問題の一つは、非定常ストリーミングデータ(コンセプトドリフトとも呼ばれる)から学ぶことである。 おそらくこのシナリオのもっと難しいバージョンは -- ラベル付きデータの小さなセットに従えば -- データストリームはラベルなしのデータのみで構成されます。 このようなシナリオは、通常、初期ラベル付けされた非定常環境での学習、あるいは単に極端な検証レイテンシ(EVL)と呼ばれる。 この問題の非常に困難な性質のため、これまでの文献で提案されているアルゴリズムはごくわずかである。 この研究は、この分野の既存のアルゴリズム(重要/重要)のレビューを研究コミュニティに提供するための、非常に最初の試みである。 具体的には、いくつかの合成および実世界のデータセットを用いて、分類精度、計算複雑性、パラメータ感度の3つの異なる視点から異なるアプローチの弱点と強みを指摘するために、EVLアルゴリズムの包括的および比較分析を行う。

One of the more challenging real-world problems in computational intelligence is to learn from non-stationary streaming data, also known as concept drift. Perhaps even a more challenging version of this scenario is when -- following a small set of initial labeled data -- the data stream consists of unlabeled data only. Such a scenario is typically referred to as learning in initially labeled nonstationary environment, or simply as extreme verification latency (EVL). Because of the very challenging nature of the problem, very few algorithms have been proposed in the literature up to date. This work is a very first effort to provide a review of some of the existing algorithms (important/prominent) in this field to the research community. More specifically, this paper is a comprehensive survey and comparative analysis of some of the EVL algorithms to point out the weaknesses and strengths of different approaches from three different perspectives: classification accuracy, computational complexity and parameter sensitivity using several synthetic and real world datasets.
翻訳日:2022-09-20 08:19:54 公開日:2020-11-26
# 最適な速度/精度トレードオフを持つ自律グラフマイニングアルゴリズム探索

Autonomous Graph Mining Algorithm Search with Best Speed/Accuracy Trade-off ( http://arxiv.org/abs/2011.14925v1 )

ライセンス: Link先を確認
Minji Yoon, Th\'eophile Gervet, Bryan Hooi, and Christos Faloutsos(参考訳) グラフデータは、ソーシャルネットワークからバイオインフォマティクスまで、学界や業界に普及している。 今日のグラフの普及によって、さまざまな質問に答えるアルゴリズムの需要が高まりました。 公の評判を高めるために、どのユーザーが偽フォロワーを買っているか? 様々な新しいグラフマイニングアルゴリズムが毎年提案されており、それぞれに異なる問題定式化、計算時間、メモリフットプリントがある。 この統一性の欠如は、実践者が異なるアルゴリズムを比較して、特定のアプリケーションに適したものを選ぶのを難しくする。 これらの課題 — 非専門家にとってさらに厳しい – は、学術的な環境で開発された最先端の技術が現実世界のアプリケーションに最適にデプロイされないというギャップを生み出します。 このギャップを埋めるため,グラフマイニングアルゴリズムの自動化システムであるAUTOGMを提案する。 まず、PageRankのような従来のアルゴリズムからグラフニューラルネットワークまで、さまざまなメッセージパスベースのグラフアルゴリズムを統合する統一フレームワークUNIFIEDGMを定義します。 UNIFIEDGMは、グラフアルゴリズムを決定するために5つのパラメータを必要とする検索空間を定義する。 この探索空間下では、AUTOGMはベイズ最適化を用いてUNIFIEDGMの最適パラメータセットを明示的に最適化する。 autogmは最適化のための新しい予算認識目的関数を定義し、計算予算の下で最適な速度精度トレードオフを見つけるという現実的な問題をグラフアルゴリズム生成問題に取り入れている。 実世界のベンチマークデータセットの実験では、AUTOGMは、ヒューリスティックパラメータを持つ既存のモデルと比較して、速度/精度のトレードオフが最も優れた新しいグラフマイニングアルゴリズムを生成する。

Graph data is ubiquitous in academia and industry, from social networks to bioinformatics. The pervasiveness of graphs today has raised the demand for algorithms that can answer various questions: Which products would a user like to purchase given her order list? Which users are buying fake followers to increase their public reputation? Myriads of new graph mining algorithms are proposed every year to answer such questions - each with a distinct problem formulation, computational time, and memory footprint. This lack of unity makes it difficult for a practitioner to compare different algorithms and pick the most suitable one for a specific application. These challenges - even more severe for non-experts - create a gap in which state-of-the-art techniques developed in academic settings fail to be optimally deployed in real-world applications. To bridge this gap, we propose AUTOGM, an automated system for graph mining algorithm development. We first define a unified framework UNIFIEDGM that integrates various message-passing based graph algorithms, ranging from conventional algorithms like PageRank to graph neural networks. Then UNIFIEDGM defines a search space in which five parameters are required to determine a graph algorithm. Under this search space, AUTOGM explicitly optimizes for the optimal parameter set of UNIFIEDGM using Bayesian Optimization. AUTOGM defines a novel budget-aware objective function for the optimization to incorporate a practical issue - finding the best speed-accuracy trade-off under a computation budget - into the graph algorithm generation problem. Experiments on real-world benchmark datasets demonstrate that AUTOGM generates novel graph mining algorithms with the best speed/accuracy trade-off compared to existing models with heuristic parameters.
翻訳日:2022-09-20 08:19:38 公開日:2020-11-26
# CYPUR-NN:回帰とニューラルネットワークを用いた作物収量予測

CYPUR-NN: Crop Yield Prediction Using Regression and Neural Networks ( http://arxiv.org/abs/2011.13265v1 )

ライセンス: Link先を確認
Sandesh Ramesh, Anirudh Hebbar, Varun Yadav, Thulasiram Gunta, and A Balachandra(参考訳) 最近の水田収量と関連する条件の歴史的データを用いた研究は、湿度、発光、温度などである。 回帰モデルとニューラルネットワーク(NN)を組み込むことで、水田収量を予測することができる。 シミュレーションの結果,水田収量を高精度に予測でき,同時にヒトの眼に有害な疾患も検出できることがわかった。 回帰とニューラルネットワークを用いた作物収量予測(CYPUR-NN)は、農業者や農家が画像からの利得を予測したり、ウェブインターフェースを介して値を入力することを容易にするシステムとして開発されている。 CYPUR-NNはストック画像でテストされており、実験結果は有望である。

Our recent study using historic data of paddy yield and associated conditions include humidity, luminescence, and temperature. By incorporating regression models and neural networks (NN), one can produce highly satisfactory forecasting of paddy yield. Simulations indicate that our model can predict paddy yield with high accuracy while concurrently detecting diseases that may exist and are oblivious to the human eye. Crop Yield Prediction Using Regression and Neural Networks (CYPUR-NN) is developed here as a system that will facilitate agriculturists and farmers to predict yield from a picture or by entering values via a web interface. CYPUR-NN has been tested on stock images and the experimental results are promising.
翻訳日:2022-09-20 08:11:27 公開日:2020-11-26
# メトリクス学習によるより良い知識保持

Better Knowledge Retention through Metric Learning ( http://arxiv.org/abs/2011.13149v1 )

ライセンス: Link先を確認
Ke Li, Shichong Peng, Kailas Vodrahalli, Jitendra Malik(参考訳) 継続学習では、時間とともに新しいカテゴリを導入し、本来のカテゴリと新しいカテゴリの両方で理想的な学習システムを実現する必要がある。 ディープニューラルネットは古典的教師付き設定で再び成功を収めているが、学習の現在のエピソードで遭遇した例が以前のエピソードで遭遇した例と大きく異なる場合、学習前のエピソードで得られた知識を忘れることが知られている。 本稿では,ディープニューラルネットの表現力を活用することができ,新たなカテゴリが導入されたとき忘れやすい新しい手法を提案する。 提案手法は,既存手法と比較してCIFAR-10では2.3倍から6.9倍,ImageNetでは1.8倍から2.7倍の補正が可能であった。

In continual learning, new categories may be introduced over time, and an ideal learning system should perform well on both the original categories and the new categories. While deep neural nets have achieved resounding success in the classical supervised setting, they are known to forget about knowledge acquired in prior episodes of learning if the examples encountered in the current episode of learning are drastically different from those encountered in prior episodes. In this paper, we propose a new method that can both leverage the expressive power of deep neural nets and is resilient to forgetting when new categories are introduced. We found the proposed method can reduce forgetting by 2.3x to 6.9x on CIFAR-10 compared to existing methods and by 1.8x to 2.7x on ImageNet compared to an oracle baseline.
翻訳日:2022-09-20 08:11:15 公開日:2020-11-26
# Refinement based Point Set Registration を用いた教師なし語訳ペアリング

Unsupervised Word Translation Pairing using Refinement based Point Set Registration ( http://arxiv.org/abs/2011.13200v1 )

ライセンス: Link先を確認
Silviu Oprea and Sourav Dutta and Haytham Assem(参考訳) 単語埋め込みの言語間アライメントは、機械翻訳やその他の多言語アプリケーションを改善するために、言語間の知識伝達において重要な役割を果たす。 現在の教師なしアプローチは、言語間の単語埋め込み空間の幾何学的構造に類似性に依存し、対向ネットワークと洗練された戦略を用いて構造保存線形変換を学ぶ。 しかし、実際にはそのような手法は不安定や収束の問題に苦しむ傾向にあり、正確なパラメータ設定には退屈な微調整が必要となる。 本稿では,両言語単語の埋め込みをベクトル空間に教師なしマッピングするための新しいフレームワークであるBioSpereを提案する。 提案手法は,既存の手法の欠点を軽減し,パラメータ選択やトレーニング損失の面での頑健さを表現し,可変逆学習性能に比較的不変であることを示す。 並列辞書誘導タスクの実験評価により,多言語対に関するフレームワークの現状が示された。

Cross-lingual alignment of word embeddings play an important role in knowledge transfer across languages, for improving machine translation and other multi-lingual applications. Current unsupervised approaches rely on similarities in geometric structure of word embedding spaces across languages, to learn structure-preserving linear transformations using adversarial networks and refinement strategies. However, such techniques, in practice, tend to suffer from instability and convergence issues, requiring tedious fine-tuning for precise parameter setting. This paper proposes BioSpere, a novel framework for unsupervised mapping of bi-lingual word embeddings onto a shared vector space, by combining adversarial initialization and refinement procedure with point set registration algorithm used in image processing. We show that our framework alleviates the shortcomings of existing methodologies, and is relatively invariant to variable adversarial learning performance, depicting robustness in terms of parameter choices and training losses. Experimental evaluation on parallel dictionary induction task demonstrates state-of-the-art results for our framework on diverse language pairs.
翻訳日:2022-09-20 08:10:46 公開日:2020-11-26
# slurp: 音声言語理解リソースパッケージ

SLURP: A Spoken Language Understanding Resource Package ( http://arxiv.org/abs/2011.13205v1 )

ライセンス: Link先を確認
Emanuele Bastianelli, Andrea Vanzo, Pawel Swietojanski, Verena Rieser(参考訳) Spoken Language Understandingは、音声データから直接意味を推測し、エンドユーザアプリケーションにおけるエラーの伝播と誤解を減らすことを約束する。 しかし、公開されているSLUリソースは限られている。 本稿では,(1)既存のデータセットよりも大幅に大きく,言語的に多様である18のドメインにまたがる英語の新しい挑戦的データセットであるSLURP,(2)最先端のNLUおよびASRシステムに基づく競合的ベースライン,(3)改善の潜在的な領域を特定するための詳細なエラー分析を可能にするエンティティラベリングのための新しい透過的メトリクスであるSLURPをリリースする。 SLURPはhttps: //github.com/pswietojanski/slurpで利用可能である。

Spoken Language Understanding infers semantic meaning directly from audio data, and thus promises to reduce error propagation and misunderstandings in end-user applications. However, publicly available SLU resources are limited. In this paper, we release SLURP, a new SLU package containing the following: (1) A new challenging dataset in English spanning 18 domains, which is substantially bigger and linguistically more diverse than existing datasets; (2) Competitive baselines based on state-of-the-art NLU and ASR systems; (3) A new transparent metric for entity labelling which enables a detailed error analysis for identifying potential areas of improvement. SLURP is available at https: //github.com/pswietojanski/slurp.
翻訳日:2022-09-20 08:10:30 公開日:2020-11-26