このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200804となっている論文です。

PDF登録状況(公開日: 20200804)

TitleAuthorsAbstract論文公表日・翻訳日
# MEMSビームステアリングシステムを用いた高忠実二量子ゲートによる個別量子アドレス処理

High-fidelity Two-qubit Gates Using a MEMS-based Beam Steering System for Individual Qubit Addressing ( http://arxiv.org/abs/2003.12430v6 )

ライセンス: Link先を確認
Ye Wang, Stephen Crain, Chao Fang, Bichen Zhang, Shilin Huang, Qiyao Liang, Pak Hong Leung, Kenneth R. Brown, Jungsang Kim(参考訳) 大規模に閉じ込められた原子イオン量子コンピュータでは、高忠実度2量子ビットゲートを個々の制御で全ての量子ビットに拡張する必要がある。 我々は、ラジアルモードを用いて4イオンまでの高忠実度2量子ビットゲートを実現する。 イオンは、マイクロ電気機械システム(mems)ミラーを用いて、2つの密集したビームによって個別に制御される。 二イオン鎖の99.49(7)%、四イオン鎖の99.30(6)%のゲート忠実度を、最大21の2量子ビットゲートのシーケンスを適用し、最終状態忠実度を測定することにより推定する。 残差誤差を特徴付け、フォールトトレラント量子計算と互換性のある値に対するゲート忠実性をさらに向上させる手法について検討する。

In a large scale trapped atomic ion quantum computer, high-fidelity two-qubit gates need to be extended over all qubits with individual control. We realize and characterize high-fidelity two-qubit gates in a system with up to 4 ions using radial modes. The ions are individually addressed by two tightly focused beams steered using micro-electromechanical system (MEMS) mirrors. We deduce a gate fidelity of 99.49(7)% in a two-ion chain and 99.30(6)% in a four-ion chain by applying a sequence of up to 21 two-qubit gates and measuring the final state fidelity. We characterize the residual errors and discuss methods to further improve the gate fidelity towards values that are compatible with fault-tolerant quantum computation.
翻訳日:2023-05-27 18:22:23 公開日:2020-08-04
# 格子ゲージ理論における階段予熱と拘束力学

Staircase Prethermalization and Constrained Dynamics in Lattice Gauge Theories ( http://arxiv.org/abs/2004.07248v2 )

ライセンス: Link先を確認
Jad C. Halimeh and Philipp Hauke(参考訳) 格子ゲージ理論の力学は、局所対称性の制約の豊富さによって特徴づけられる。 NISQ時代の量子シミュレータでは、ゲージ対称性を破る誤差が自然に現れるが、ゲージ理論のダイナミクスへの影響は不十分である。 示すように、強度の小さなゲージ破れ$\lambda$は、長寿命の予熱台地の階段を誘導する。 予熱プラトーの数は、物質場数$L$で増加し、最後のプラトーは時間スケール$\lambda^{-L/2}$で到達し、局所的なゲージの制約の数とともに、共役がダイナミクスを減速させることの親密な関係を示す。 NISQ量子デバイスでは,ゲージ不変違反の拡散時間スケールがシステムサイズにおいて指数関数的に遅延していることが示唆された。

The dynamics of lattice gauge theories is characterized by an abundance of local symmetry constraints. Although errors that break gauge symmetry appear naturally in NISQ-era quantum simulators, their influence on the gauge-theory dynamics is insufficiently investigated. As we show, a small gauge breaking of strength $\lambda$ induces a staircase of long-lived prethermal plateaus. The number of prethermal plateaus increases with the number of matter fields $L$, with the last plateau being reached at a timescale $\lambda^{-L/2}$, showing an intimate relation of the concomitant slowing down of dynamics with the number of local gauge constraints. Our results bode well for NISQ quantum devices, as they indicate that the proliferation timescale of gauge-invariance violation is counterintuitively delayed exponentially in system size.
翻訳日:2023-05-23 09:10:38 公開日:2020-08-04
# 格子ゲージ理論における階段予熱の起源

Origin of staircase prethermalization in lattice gauge theories ( http://arxiv.org/abs/2004.07254v2 )

ライセンス: Link先を確認
Jad C. Halimeh and Philipp Hauke(参考訳) 厳密な局所ゲージ対称性を持つ量子多体系は、制約付きダイナミクスや無秩序局在のような豊富な平衡外物理を示す。 共同提出 (J. C. Halimeh and P. Hauke, arXiv:2004.07248] において、ゲージ不変性の小さな破れを伴い、$\mathrm{Z}_2$格子ゲージ理論において \textit{staircase prethermalization} の証拠を示す。 ここでは、この発見と関連する創発的非摂動時間尺度を解析的および数値的に統合する。 マグナス展開により、異なるゲージ不変スーパーセクター間の正確な共鳴が階段前温化の出現の主な原因であることを示す。 さらに,様々なシステムサイズ,物質充填,ゲージ非分散セクタを含む様々な初期条件に対する結論のロバスト性を示すとともに,最大オンサイト占有率などの境界条件についても紹介する。 また、我々の結論が局所対称性モデルにどう一意であるか、また、大域対称性の破れの場合、なぜ崩壊するかについても詳しく述べる。 さらに、その結果を $\mathrm{U}(1)$ 格子ゲージ理論に拡張し、我々の発見の一般性を説明する。 我々の研究は、格子ゲージ理論の制約付きダイナミクスに対する解析的基礎を提供し、実験的な設定における誤差に対するゲージ理論力学のある種の本質的ロバスト性の証明を提供する。

Quantum many-body systems with exact local gauge symmetries exhibit rich out-of-equilibrium physics such as constrained dynamics and disorder-free localization. In a joint submission [J. C. Halimeh and P. Hauke, arXiv:2004.07248], we present evidence of \textit{staircase prethermalization} in a $\mathrm{Z}_2$ lattice gauge theory subjected to a small breaking of gauge invariance. Here, we consolidate this finding and the associated emergent nonperturbative timescales analytically and numerically. By means of a Magnus expansion, we demonstrate how exact resonances between different gauge-invariant supersectors are the main reason behind the emergence of staircase prethermalization. Furthermore, we showcase the robustness of our conclusions against various initial conditions including different system sizes, matter fillings, and gauge-invariance sectors, in addition to various boundary conditions, such as different maximal on-site matter occupations. We also elaborate on how our conclusions are unique to local-symmetry models and why they break down in the case of global-symmetry breaking. We moreover extend our results to $\mathrm{U}(1)$ lattice gauge theories, illustrating the generality of our findings. Our work offers an analytic footing into the constrained dynamics of lattice gauge theories and provides proof of a certain intrinsic robustness of gauge-theory dynamics to errors in experimental settings.
翻訳日:2023-05-23 08:59:09 公開日:2020-08-04
# 全対全相互作用による量子スクランブルのバウンド

Bound on quantum scrambling with all-to-all interactions ( http://arxiv.org/abs/2005.07558v3 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas(参考訳) 我々は、N$ spin-$\frac{1}{2}$ 自由度を持つ多体系における作用素成長と無限温度の時間外順序相関器の有界性を証明した。 我々の結果は、従来の境界をパラメトリック的に改善し、捕捉されたイオン結晶やキャビティ量子力学を含む量子シミュレータが量子重力を研究するための時間的および時間的制約を厳しく制限する。

We prove bounds on operator growth and infinite temperature out-of-time-ordered correlators in many-body systems with $N$ spin-$\frac{1}{2}$ degrees of freedom which interact via two-body all-to-all interactions. Our results parametrically improve previous bounds, and sharply constrain when and how quantum simulators, including trapped ion crystals and cavity quantum electrodynamics, can study quantum gravity.
翻訳日:2023-05-20 03:14:24 公開日:2020-08-04
# 量子資源理論と可変領域様相論理の関手性

Functoriality of Quantum Resource Theory and Variable-Domain Modal Logic ( http://arxiv.org/abs/2006.16350v2 )

ライセンス: Link先を確認
Patrick Fraser(参考訳) 量子資源理論(Quantum Resource theory)は、現実的な運用制約下での量子力学的原理の実践的な実装を研究するために用いられる最先端のツールである。 これは量子系を可能な、あるいは許容可能な実験演算の制限クラスとしてモデル化することで実現される。 モーダル論理は可能性と不可能性を研究するための形式的なツールを提供する。 ここでは、量子資源理論が、量子資源理論の問題を探索するための新しい形式的手法のクラスを提供する方法として、変数領域S4モーダル論理のモデルに関知的に変換されることを示します。 次に、基礎となる資源理論における資源の可換性事前順序を反映するこれらの論理モデルに構造を加えることによって、この関門関係を射影関係に拡張する。 この視点を具体的にどのように展開するかを議論することで締めくくります。

Quantum resource theory is a cutting-edge tool used to study practical implementations of quantum mechanical principles under realistic operational constraints. It does this by modelling quantum systems as restricted classes of possible or permissible experimental operations. Modal logic provides a formal tool for studying possibility and impossibility is a completely general logical setting. Here, I show that quantum resource theories may be functorially translated into models of variable-domain S4 modal logic in a way that provides a new class of formal techniques for exploring quantum resource-theoretic problems. I then extend this functorial relationship to an injective one by adding structure to these logical models to reflect the convertibility preorder of resources in the underlying resource theory. I conclude by discussing how this viewpoint may be deployed concretely.
翻訳日:2023-05-12 03:19:00 公開日:2020-08-04
# カットクエリを用いたグラフ問題に対する量子アルゴリズム

Quantum algorithms for graph problems with cut queries ( http://arxiv.org/abs/2007.08285v2 )

ライセンス: Link先を確認
Troy Lee and Miklos Santha and Shengyu Zhang(参考訳) g$を$m$のエッジを持つ$n$-vertexグラフにしましょう。 頂点のサブセット$s$を尋ねると、$g$のカットクエリは$s$のちょうど1つのエンドポイントを持つ$g$のエッジ数を返す。 我々は,$O(\log(n)^6)$ 多くのカットクエリを作成した後に,$G$のすべての連結成分を決定する有界エラー量子アルゴリズムが存在することを示す。 対照的に、グラフが接続されているかどうかを判断するだけのランダム化アルゴリズムであっても、通信複雑性の結果、少なくとも$\Omega(n/\log(n))$多くのカットクエリをしなければならない。 さらに、$O(\log(n)^8)$の多くのカットクエリでは、量子アルゴリズムが高確率出力のスパンジングを$G$で得ることを示す。 これらの結果を証明するために,カットクエリを用いたグラフ学習のための量子アルゴリズムを設計する。 量子アルゴリズムは、$O(d \log(n)^2)$多くのカットクエリの後、最大$d$のグラフを学習でき、$O(\sqrt{m} \log(n)^{3/2})$多くのカットクエリを学習できる。 これら2つの上界は多対数因子に密接であり、同じ問題に対してランダム化アルゴリズムが必要とするカットクエリの数に対して、$\Omega(dn)$と$\Omega(m/\log(n))$の下位境界と比較する。 結果の鍵となる要素はbernstein-vaziraniアルゴリズムであり,"or query"で近似カウントし,圧縮センシングのように内積からスパースベクトルを学習する。

Let $G$ be an $n$-vertex graph with $m$ edges. When asked a subset $S$ of vertices, a cut query on $G$ returns the number of edges of $G$ that have exactly one endpoint in $S$. We show that there is a bounded-error quantum algorithm that determines all connected components of $G$ after making $O(\log(n)^6)$ many cut queries. In contrast, it follows from results in communication complexity that any randomized algorithm even just to decide whether the graph is connected or not must make at least $\Omega(n/\log(n))$ many cut queries. We further show that with $O(\log(n)^8)$ many cut queries a quantum algorithm can with high probability output a spanning forest for $G$. En route to proving these results, we design quantum algorithms for learning a graph using cut queries. We show that a quantum algorithm can learn a graph with maximum degree $d$ after $O(d \log(n)^2)$ many cut queries, and can learn a general graph with $O(\sqrt{m} \log(n)^{3/2})$ many cut queries. These two upper bounds are tight up to the poly-logarithmic factors, and compare to $\Omega(dn)$ and $\Omega(m/\log(n))$ lower bounds on the number of cut queries needed by a randomized algorithm for the same problems, respectively. The key ingredients in our results are the Bernstein-Vazirani algorithm, approximate counting with "OR queries", and learning sparse vectors from inner products as in compressed sensing.
翻訳日:2023-05-09 07:12:46 公開日:2020-08-04
# 任意平面間の相関レンズ画像

Correlation Plenoptic Imaging between Arbitrary Planes ( http://arxiv.org/abs/2007.12033v2 )

ライセンス: Link先を確認
Francesco Di Lena, Gianlorenzo Massaro, Alessandro Lupo, Augusto Garuccio, Francesco V. Pepe, and Milena D'Angelo(参考訳) 本研究では, 3次元場において任意に選択された2つの基準面間の光の2次相関を計測し, 回折限界でのplenopticイメージングを行う新しい手法を提案する。 このプロトコルは、カオス光と絡み合った光の照明の両方に対して、被写界面を後処理で変更し、画像解像度と被写界深度を前例のない組み合わせで実現できることを示す。 特に、分解能を回折限界に保ちつつ、前回の相関レンズ画像プロトコルに関する第3因子、および標準撮像に関する第1等級によりフィールドの深さが大きくなる。 その結果、カオス光に基づく相関プレンオプティクイメージングデバイスと、絡み合った光子照明に基づく高snrプレンオプティクイメージングデバイスのためのコンパクトな設計が開発され、商業的なプレンオプティクデバイスと競合する相関プレンオプティクイメージングを効果的に実現する。

We propose a novel method to perform plenoptic imaging at the diffraction limit by measuring second-order correlations of light between two reference planes, arbitrarily chosen, within the tridimensional scene of interest. We show that for both chaotic light and entangled-photon illumination, the protocol enables to change the focused planes, in post-processing, and to achieve an unprecedented combination of image resolution and depth of field. In particular, the depth of field results larger by a factor 3 with respect to previous correlation plenoptic imaging protocols, and by an order of magnitude with respect to standard imaging, while the resolution is kept at the diffraction limit. The results lead the way towards the development of compact designs for correlation plenoptic imaging devices based on chaotic light, as well as high-SNR plenoptic imaging devices based on entangled photon illumination, thus contributing to make correlation plenoptic imaging effectively competitive with commercial plenoptic devices.
翻訳日:2023-05-08 11:00:36 公開日:2020-08-04
# 量子熱機関の高効率大偏差関数

Efficiency large deviation function of quantum heat engines ( http://arxiv.org/abs/2008.00778v2 )

ライセンス: Link先を確認
Tobias Denzler and Eric Lutz(参考訳) 小さな熱機械の効率は一般的に変動量である。 本稿では、2つの模範量子熱機関、高調波発振器および2レベルオットーサイクルの効率大偏差関数について検討する。 効率統計学はバーレーらの「普遍的」理論に従う。 [[nature commun. 5, 4721 (2014)]非断熱駆動については,後者の枠組みは断熱体制では適用されないことが判明した。 この特異な性質は、スケール不変な量子オットー熱エンジンの幅広いクラスで一般的に発生する作業出力と熱入力の完全な反相関と関係し、熱と量子揺らぎを抑制する。

The efficiency of small thermal machines is typically a fluctuating quantity. We here study the efficiency large deviation function of two exemplary quantum heat engines, the harmonic oscillator and the two-level Otto cycles. While the efficiency statistics follows the 'universal' theory of Verley et al. [Nature Commun. 5, 4721 (2014)] for nonadiabatic driving, we find that the latter framework does not apply in the adiabatic regime. We relate this unusual property to the perfect anticorrelation between work output and heat input that generically occurs in the broad class of scale-invariant adiabatic quantum Otto heat engines and suppresses thermal as well as quantum fluctuations.
翻訳日:2023-05-07 06:46:50 公開日:2020-08-04
# パラメトリック非線形性をもつrabiモデルにおけるスクイージングの促進

Enhancement of squeezing in the Rabi model with parametric nonlinearity ( http://arxiv.org/abs/2008.01357v1 )

ライセンス: Link先を確認
V. Yogesh, Prosenjit Maity(参考訳) 相互作用するqubit-oscillator系において生じるスクイーズ効果は、rabiモデルにおけるパラメトリック発振器の存在によって研究される。 広い結合強度とデチューニングによく働く一般化された回転波近似に基づいて、解析的に導かれた近似エネルギースペクトルをハミルトニアンの数値的に決定されたスペクトルと比較する。 バイパルタイト系の初期状態については、振動子に対応する還元密度行列の動的進化は、キュービット自由度を部分的に追従することによって得られる。 発振子の還元密度行列は、二次分散を計算するために用いられるhusimi $q$-functionとして知られる非負位相空間準確率分布を生成する。 パラメトリック非線形項の存在下では,rabiモデルで生成したスクイージングを実質的に強化できることを示した。

The squeezing effect arises in the interacting qubit-oscillator system is studied with the presence of a parametric oscillator in the Rabi model. Based on the generalized rotating wave approximation which works well in the wide range of coupling strength as well as detuning, the analytically derived approximate energy spectrum is compared with the numerically determined spectrum of the Hamiltonian. For the initial state of the bipartite system, the dynamical evolution of the reduced density matrix corresponding to the oscillator is obtained by partial tracing over the qubit degree of freedom. The oscillator's reduced density matrix yields the nonnegative phase space quasi probability distribution known as Husimi $Q$-function which is utilized to compute the quadrature variance. It is shown that the squeezing produced in the Rabi model can be enhanced substantially in the presence of a parametric nonlinear term.
翻訳日:2023-05-07 04:42:39 公開日:2020-08-04
# 共振器強化広帯域フォトニックRabi発振

A cavity-enhanced broadband photonic Rabi oscillation ( http://arxiv.org/abs/2008.01280v1 )

ライセンス: Link先を確認
Rikizo Ikuta, Toshiki Kobayashi, Tomohiro Yamazaki, Nobuyuki Imoto, Takashi Yamamoto(参考訳) 非線形光学相互作用によって提供される異なるエネルギー光子間のコヒーレント結合は、ラビ振動のフォトニックバージョンと見なされる。 非線形性のキャビティの強化は、エネルギー要求を大幅に削減し、フォトニックラビ振動に基づく周波数符号化フォトニック回路のスケーラビリティを押し上げる。 しかし、共振器内の光子の閉じ込めは相互作用可能な周波数モードの数を大幅に制限する。 本稿では,空洞強化非線形光学相互作用とモノリシック積分によるフルサイクル振動を実現する広帯域かつ効率的なフォトニックラビ振動を示す。 また,幾何位相を持つ光子を偏光する全光学制御などの周波数自由度を超えて,その多用途な操作を示す。 この結果により、広帯域モードでの合成次元フォトニックシステムへの完全な制御と、大規模フォトニック量子情報処理が可能となる。

A coherent coupling among different energy photons provided by nonlinear optical interaction is regarded as a photonic version of the Rabi oscillation. Cavity enhancement of the nonlinearity reduces energy requirement significantly and pushes the scalability of the frequency-encoded photonic circuit based on the photonic Rabi oscillation. However, confinement of the photons in the cavity severely limits the number of interactable frequency modes. Here we demonstrate a wide-bandwidth and efficient photonic Rabi oscillation achieving full-cycle oscillation based on a cavity-enhanced nonlinear optical interaction with a monolithic integration. We also show its versatile manipulation beyond the frequency degree of freedom such as an all-optical control for polarizing photons with geometric phase. Our results will open up full control accessible to synthetic dimensional photonic systems over wide frequency modes as well as a large-scale photonic quantum information processing.
翻訳日:2023-05-07 04:41:32 公開日:2020-08-04
# 3次元位相絶縁体における強場物理

Strong-field physics in three-dimensional topological insulators ( http://arxiv.org/abs/2008.01265v1 )

ライセンス: Link先を確認
Denitsa Baykusheva, Alexis Chac\'on, Dasol Kim, Dong Eon Kim, David A. Reis, Shambhu Ghimire(参考訳) 量子材料のトポロジカル絶縁体クラスにおける光-物質相互作用の強磁場状態について理論的に検討する。 特に,高次高次高次高調波発生過程に着目し,高強度中赤外レーザー磁場を受ける3次元トポロジー絶縁体ビスマスセレン化物 (Bi$_2$Se$_3$) を用いた。 我々はスピン軌道結合バルク状態とトポロジカル表面バンドの寄与を別々に分析し、それらの高調波収率がレーザー場の楕円性に依存するかの大きな違いを明らかにする。 バルク高調波は、気体中の高高調波発生を思わせる形で、楕円性が増加するにつれて単調な収率減少を示す。 しかし、表面の寄与は非常に非自明な依存を示し、円偏光場に対して最大となる。 観察された異常な行動は (i)ディラック点近傍におけるバンド間双極子及びベリー接続の振幅の増大と円パターン (ii)ハミルトニアンにおける高次な「ヘキサゴナルワーピング」項の影響は、より高いモータにおけるエネルギー面の六角形変形の原因となっている。 後者はスピン軌道結合パラメータに直接関連している。 この結果から, 強磁場による高調波放射は, バンド構造のトポロジーやスピン軌道相互作用の顕在化に有効であることがわかった。

We investigate theoretically the strong-field regime of light-matter interactions in the topological-insulator class of quantum materials. In particular, we focus on the process of non-perturbative high-order harmonic generation from the paradigmatic three-dimensional topological insulator bismuth selenide (Bi$_2$Se$_3$) subjected to intense mid-infrared laser fields. We analyze the contributions from the spin-orbit-coupled bulk states and the topological surface bands separately and reveal a major difference in how their harmonic yields depend on the ellipticity of the laser field. Bulk harmonics show a monotonous decrease in their yield as the ellipticity increases, in a manner reminiscent of high harmonic generation in gaseous media. However, the surface contribution exhibits a highly non-trivial dependence, culminating with a maximum for circularly polarized fields. We attribute the observed anomalous behaviour to: (i) the enhanced amplitude and the circular pattern of the interband dipole and the Berry connections in the vicinity of the Dirac point; and (ii) the influence of the higher-order, "hexagonal warping" terms in the Hamiltonian, which are responsible for the hexagonal deformation of the energy surface at higher momenta. The latter are associated directly with spin-orbit-coupling parameters. Our results thus establish the sensitivity of strong-field driven high harmonic emission to the topology of the band structure as well as to the manifestations of spin-orbit interaction.
翻訳日:2023-05-07 04:40:45 公開日:2020-08-04
# 分離可能な部分から全体の真の多元的絡み合いの検証

Verifying genuine multipartite entanglement of the whole from its separable parts ( http://arxiv.org/abs/2008.01599v1 )

ライセンス: Link先を確認
Michal Mi\v{c}uda, Robert St\'arek, Jan Provazn\'ik, Olga Leskovjanov\'a, Ladislav Mi\v{s}ta, Jr(参考訳) 分離可能な2量子ビット還元密度行列からのみ証明できる真のマルチパーティライト絡みを持つ3量子状態の存在を実験的に証明する。 量子ビットは一対の相関光子の異なる自由度に符号化され、状態は光子を線形光回路を通して伝播させることによって作られる。 真のマルチパーティの絡み合いの存在は、グローバル状態の縮小にのみ、非自明に作用する完全に分解可能な絡み合いの証人を見つけることによって検証される。 その結果, 複合量子システムの特性が欠落している部分から, 新たに出現する大域的性質を検出できることが確認された。

We prove experimentally the predicted existence of a three-qubit quantum state with genuine multipartite entanglement which can be certified solely from its separable two-qubit reduced density matrices. The qubits are encoded into different degrees of freedom of a pair of correlated photons and the state is prepared by letting the photons to propagate through a linear optical circuit. The presence of genuine multipartite entanglement is verified by finding numerically a fully decomposable entanglement witness acting nontrivially only on the reductions of the global state. Our result confirms viability of detection of emerging global properties of composite quantum systems from their parts which lack the properties.
翻訳日:2023-05-07 04:34:41 公開日:2020-08-04
# 電流による量子信号の処理

Processing quantum signals carried by electrical currents ( http://arxiv.org/abs/2008.01580v1 )

ライセンス: Link先を確認
Benjamin Roussel, Cl\'ement Cabart, Gwendal F\`eve and Pascal Degiovanni(参考訳) 弾道導体における電子のコヒーレントな操作の最近の発展には、周期ごとに1から数個の電子励起を含む周期的電流の生成が含まれる。 しかし、個々の電子を量子情報の担体として空飛ぶ量子ビット計算や量子メトロロジーの応用に利用することで、量子電流に埋め込まれた1粒子の励起を解き放つ一般的な方法と、量子情報のエンコード方法が求められている。 本稿では、任意の周期的量子電流中に存在する信号の電子原子と呼ばれる素粒子状態を抽出する一般的な信号処理アルゴリズムを提案する。 これらの励起と相互量子コヒーレンスは、楽器が発する音信号を音符やスコアで表すのと同じように、過剰な単電子コヒーレンスを記述する。 本手法は, 量子電流の信号処理開発に向けた第一歩として, 実験的な単一電子源の品質評価を行ったものである。 周期的にクロックされるがランダムに注入される単位電荷ローレンツ電圧パルスによって得られるランダム化量子電流の例は、印加電圧のコヒーレンスとパウリ原理の相互作用が、放出された単一粒子励起間の量子コヒーレンスをどのように変化させるかについて議論することができる。

Recent developments in the coherent manipulation of electrons in ballistic conductors include the generation of time-periodic electrical currents involving one to few electronic excitations per period. However, using individual electrons as carrier of quantum information for flying qubit computation or quantum metrology applications calls for a general method to unravel the single-particle excitations embedded in a quantum electrical current and how quantum information is encoded within it. Here, we propose a general signal processing algorithm to extract the elementary single-particle states, called electronic atoms of signal, present in any periodic quantum electrical current. These excitations and their mutual quantum coherence describe the excess single-electron coherence in the same way musical notes and score describe a sound signal emitted by a music instrument. This method, which is the first step towards the development of signal processing of quantum electrical currents is illustrated by assessing the quality of experimentally relevant single electron sources. The example of randomized quantum electrical currents obtained by regularly clocked but randomly injected unit charge Lorentzian voltage pulses enables us to discuss how interplay of the coherence of the applied voltage and of the Pauli principle alter the quantum coherence between the emitted single particle excitations.
翻訳日:2023-05-07 04:34:08 公開日:2020-08-04
# 2量子3次元磁気メトリーにおけるHolevo-Cram\'er-Rao境界の到達性

Attainability of the Holevo-Cram\'er-Rao bound for two-qubit 3D magnetometry ( http://arxiv.org/abs/2008.01502v1 )

ライセンス: Link先を確認
Jamie Friel, Pantita Palittapongarnpim, Francesco Albarelli, and Animesh Datta(参考訳) 2量子ビットを用いた量子制限3次元磁気測定について検討した。 2つのキュービットは、単一のキュービットでは不可能であるため、3つのフェーズの同時推定である3次元磁気メトリーの最小のマルチキュービットシステムを形成する。 本研究では,2キュービット純状態を用いた3次元磁気計測において,Holevo-Cram\'er-Rao界(HCRB)の基本量子境界を解析的に表現し,ランク1射影測定によりその到達性を示す。 また, 数値計算法を用いて, 劣化雑音の存在下でのHCRBの到達可能性についても検討した。 HCRBを得るには、無限に多くのコピーを総合的に測定する必要があるが、高雑音の場合、HCRBは事実上2つのコピーで飽和している。 低騒音では、最大3つのコピーがHCRBに到達することができない。 より一般的には、パラメータの記録前後で複数の独立した状態のコピーが絡み合っている量子古典と古典量子の戦略を比較するために、新しいマルチパラメータチャネル境界を導入する。 それらの相対的な性能はノイズ強度に依存し、古典的量子戦略は高い雑音に対してより良く機能する。 最後に、HCRBが設定した基本量子限界に、最大3つのコピーを用いて2量子3次元磁力計でアプローチする浅い量子回路を用いる。

We study quantum-limited 3D magnetometry using two qubits. Two qubits form the smallest multi-qubit system for 3D magnetometry, the simultaneous estimation of three phases, as it is impossible with a single qubit. We provide an analytical expression for the Holevo-Cram\'er-Rao bound (HCRB),the fundamental attainable quantum bound of multiparameter estimation, for 3D magnetometry using two-qubit pure states and show its attainability by rank-1 projective measurements. We also examine the attainability of the HCRB in the presence of dephasing noise using numerical methods. While attaining the HCRB may require collective measurements over infinitely many copies, we find that for high noise the HCRB is practically saturated by two copies only. In the low noise regime, up to three copies are unable to attain the HCRB. More generally, we introduce new multiparameter channel bounds to compare quantum-classical and classical-quantum strategies where multiple independent copies of the state are entangled before or after recording the parameters respectively. We find that their relative performance depends on the noise strength, with theclassical-quantum strategy performing better for high noise. We end with shallow quantum circuits that approach the fundamental quantum limit set by the HCRB for two-qubit 3D magnetometry using up to three copies.
翻訳日:2023-05-07 04:33:14 公開日:2020-08-04
# 厳密な画期的環境を超えた量子アクセス強化学習

Quantum-accessible reinforcement learning beyond strictly epochal environments ( http://arxiv.org/abs/2008.01481v1 )

ライセンス: Link先を確認
A. Hamann, V. Dunjko and S. W\"olk(参考訳) 近年、量子強化機械学習は量子アルゴリズムの特に実りある応用として現れ、教師なし、教師なし、強化学習の側面をカバーしている。 強化学習は、量子論の応用方法の多くの選択肢を提供し、量子の観点から見て、おそらく最も探索の少ないものである。 ここでエージェントは環境を探索し、何らかのメリットを最適化した行動を見つけようとします。 初期のアプローチのいくつかは、古典的な環境の量子アナログを考慮し、この探索がスピンアップできる設定を調査した。 環境が時間内に厳密な周期構造(すなわち厳密にエピソディック)を持つ場合、そのような環境は量子情報で見られる従来のオラクルに効果的に変換できる。 しかし、一般的な環境では、標準的なオラクルタスクを一般化するシナリオが得られる。 この作業では、環境が厳密にエピソディックではないような一般化を、変化したオラクルとoracleの識別設定にマッピングする。 本事例を解析し, 標準振幅増幅法は, 微修正を伴っても2次高速化に有効であり, 一定の設定に最適であることを示す。 この結果は量子化可能な強化学習の最初の一般化の一つである。

In recent years, quantum-enhanced machine learning has emerged as a particularly fruitful application of quantum algorithms, covering aspects of supervised, unsupervised and reinforcement learning. Reinforcement learning offers numerous options of how quantum theory can be applied, and is arguably the least explored, from a quantum perspective. Here, an agent explores an environment and tries to find a behavior optimizing some figure of merit. Some of the first approaches investigated settings where this exploration can be sped-up, by considering quantum analogs of classical environments, which can then be queried in superposition. If the environments have a strict periodic structure in time (i.e. are strictly episodic), such environments can be effectively converted to conventional oracles encountered in quantum information. However, in general environments, we obtain scenarios that generalize standard oracle tasks. In this work we consider one such generalization, where the environment is not strictly episodic, which is mapped to an oracle identification setting with a changing oracle. We analyze this case and show that standard amplitude-amplification techniques can, with minor modifications, still be applied to achieve quadratic speed-ups, and that this approach is optimal for certain settings. This results constitutes one of the first generalizations of quantum-accessible reinforcement learning.
翻訳日:2023-05-07 04:32:51 公開日:2020-08-04
# 弱熱と強熱の存在下での量子情報スクランブル

Quantum information scrambling in the presence of weak and strong thermalization ( http://arxiv.org/abs/2008.01477v1 )

ライセンス: Link先を確認
Zheng-Hang Sun, Jian Cui, Heng Fan(参考訳) 量子情報は、多体ダイナミクスの下で揺るがすのが基本的関心事である。 トリパーティイト相互情報は、その負の値を介してスクランブルを定量化することができる。 本稿では, 初期状態の異なる強い, 弱い熱化が観測される非可積分イジングモデルにおいて, トリパルタイト相互情報のクエンチダイナミクスについて検討する。 選択した初期状態のエネルギー密度が状態の最大密度を持つ場合、最も速いスクランブルが発生することを数値的に示す。 次に, 超伝導量子ビットアレイの弱熱化と強熱化を観測するための実験プロトコルを提案する。 このプロトコルに基づいて、この研究で明らかになったスクランブルと熱化の関係を超伝導量子シミュレーションにより直接検証することができる。

Quantum information scrambling under many-body dynamics is of fundamental interest. The tripartite mutual information can quantify the scrambling via its negative value. Here, we first study the quench dynamics of tripartite mutual information in a non-integrable Ising model where the strong and weak thermalization are observed with different initial states. We numerically show that the fastest scrambling can occur when the energy density of the chosen initial state possesses the maximum density of states. We then present an experimental protocol for observing weak and strong thermalization in a superconducting qubit array. Based on the protocol, the relation between scrambling and thermalization revealed in this work can be directly verified by superconducting quantum simulations.
翻訳日:2023-05-07 04:32:29 公開日:2020-08-04
# 変調dzyaloshinskii-moriya相互作用によるスピン1/2ハイゼンベルクxxz鎖の量子相関

Quantum correlations in the spin-1/2 Heisenberg XXZ chain with modulated Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2008.01443v1 )

ライセンス: Link先を確認
F. Khastehdel Fumani, B. Beradze, S. Nemati, S. Mahdavifar and G. I. Japaridze(参考訳) 本研究では,dzyaloshinskii-moriya相互作用を交互に行う1次元スピン1/2xxzハイゼンベルクモデルについて,数値ランチョス法を用いて検討した。 近年,このモデルの基底状態(GS)位相図はボゾン化法と密度行列再正規化群計算を用いて構築されている。 4つの量子相 - 飽和強磁性(FM), ルッティンガー液体(LL), および2つの(C1, C2) がGS秩序の複合構造と相違し, 長距離交互二量体, キラリティ, 反強磁性秩序の共存を特徴とする。 ここでは、n = 26 点までの連鎖に対する厳密な対角化ランチョス法を用いて同じ問題を再検討し、量子相関をエンタングルメントと量子不和(qd)として調べ、量子臨界点(qcp)の位置を明示的に検出する。 C1相とC2相を分離したIsing型臨界点とLL-Kosterlitz-Thouless(BKT)相転移点の他に、コンカレンスとQDの第1誘導体によって定量された絡み合いが明らかにできることが示されている。

We study a one-dimensional spin-1/2 XXZ Heisenberg model with alternating Dzyaloshinskii- Moriya interaction, using the numerical Lanczos method. Recently, the ground state (GS) phase diagram of this model has been established using the bosonization approach and extensive density matrix renormalization group computations. Four quantum phases - saturated ferromagnetic (FM), Luttinger liquid (LL), and two (C1 and C2) gapped phases with composite structure of GS order, characterized by the coexistence of long-range alternating dimer, chirality and antiferromagnetic order have been identified. Here we reexamine the same problem using the exact diagonalization Lanczos method for chains up to N = 26 sites and explicitly detect positions of quantum critical points (QCP) by investigating the quantum correlations as the entanglement and the quantum discord (QD). It is shown that the entanglement quantified by concurrence and the first derivative of the QD are able to reveal besides the standard FM QCP also the Berezinskii-Kosterlitz-Thouless (BKT) phase transition point between the LL and the gapped C1 phase and the Ising type critical point separating the C1 and C2 phases.
翻訳日:2023-05-07 04:32:04 公開日:2020-08-04
# 批判的アルゴリズム文学のための設計

Designing for Critical Algorithmic Literacies ( http://arxiv.org/abs/2008.01719v1 )

ライセンス: Link先を確認
Sayamindu Dasgupta and Benjamin Mako Hill(参考訳) 広汎なデータ収集と強力なアルゴリズムが世界中の子供たちの体験を形作るにつれ、計算アルゴリズムを問う能力は重要になってきている。 子どもたちが自分の人生を形作るアルゴリズムシステムを理解し、尋問し、批判するために使える知的ツールを記述するための一連の「文学」を表現しようと試みている。 残念なことに、多くのアルゴリズムは目に見えないため、少数の子供だけがこれらのシステムを批判するために必要な文字を発達させる。 設計者はどのようにして重要なアルゴリズムリテラシーの開発を支援するのか? 2つのデータプログラミングシステムを設計した経験に基づいて、私たちは、子どもたちがアルゴリズムの動作だけでなく、批判や疑問にも答えられるように、リテラシーを開発するのに役立つ4つの設計原則を提示します。

As pervasive data collection and powerful algorithms increasingly shape children's experience of the world and each other, their ability to interrogate computational algorithms has become crucially important. A growing body of work has attempted to articulate a set of "literacies" to describe the intellectual tools that children can use to understand, interrogate, and critique the algorithmic systems that shape their lives. Unfortunately, because many algorithms are invisible, only a small number of children develop the literacies required to critique these systems. How might designers support the development of critical algorithmic literacies? Based on our experience designing two data programming systems, we present four design principles that we argue can help children develop literacies that allow them to understand not only how algorithms work, but also to critique and question them.
翻訳日:2023-05-07 04:25:42 公開日:2020-08-04
# 非エルミートポテンシャルの非対称散乱に対する量子光学的実装

Quantum-optical implementation of non-Hermitian potentials for asymmetric scattering ( http://arxiv.org/abs/2008.01702v1 )

ライセンス: Link先を確認
Andreas Ruschhaupt, Anthony Kiely, Miguel \'Angel Sim\'on, J. Gonzalo Muga(参考訳) 非エルミート的かつ1次元のポテンシャルは非局所的であり、非対称性、すなわち左右からの粒子の入射に対する非対称伝達または反射応答を散乱することができる。 ポテンシャルの対称性は、伝達と反射に対する選択規則を暗示している。 特に、パリティ時(PT)対称性や任意の局所ポテンシャルの対称性は非対称伝送を許さない。 我々は,非エルミート,非局所,非PTポテンシャルの可能な量子光学的実装を提案し,伝送非対称性を含む異なる散乱非対称性を実装した。

Non-Hermitian, one-dimensional potentials which are also non-local, allow for scattering asymmetries, namely, asymmetric transmission or reflection responses to the incidence of a particle from left or right. The symmetries of the potential imply selection rules for transmission and reflection. In particular, parity-time (PT) symmetry or the symmetry of any local potential do not allow for asymmetric transmission. We put forward a feasible quantum-optical implementation of non-Hermitian, non-local, non-PT potentials to implement different scattering asymmetries, including transmission asymmetries.
翻訳日:2023-05-07 04:25:29 公開日:2020-08-04
# 階数保存変換に基づく実験的適応量子状態トモグラフィ

Experimental adaptive quantum state tomography based on rank-preserving transformations ( http://arxiv.org/abs/2008.01691v1 )

ライセンス: Link先を確認
A. D. Moiseevskiy, G. I. Struchalin, S. S. Straupe and S. P. Kulik(参考訳) 量子トモグラフィー(quantum tomography)は、複数の測定データを用いた量子状態再構成のプロセスである。 量子トモグラフィーアルゴリズムの重要な目標は、測定によって得られた未知の量子状態に関する有用な情報を最大化する測定方法を見つけることである。 最近提案された量子トモグラフィーの手法の1つは、ランク保存変換に基づくアルゴリズムである。 主な考え方は、最大混合状態の測定に相当する状況を提供する方法として、基本的な測定セットを変換することである。 完全混合状態のトモグラフィーが他の状態と比較して高速収束している限り、この手法は極めて正確であることが期待される。 本研究では, 推定値の固有ベイジとランダムベイジ・トモグラフィの計測値を含む他の適応手法と, ランク保存トモグラフィの数値的および実験的比較を行った。 また,変換ユニタリ自由度と計測集合補完を用いたランク保存変換法の効率向上法についても検討した。

Quantum tomography is a process of quantum state reconstruction using data from multiple measurements. An essential goal for a quantum tomography algorithm is to find measurements that will maximize the useful information about an unknown quantum state obtained through measurements. One of the recently proposed methods of quantum tomography is the algorithm based on rank-preserving transformations. The main idea is to transform a basic measurement set in a way to provide a situation that is equivalent to measuring the maximally mixed state. As long as tomography of a fully mixed state has the fastest convergence comparing to other states, this method is expected to be highly accurate. We present numerical and experimental comparisons of rank-preserving tomography with another adaptive method, which includes measurements in the estimator eigenbasis and with random-basis tomography. We also study ways to improve the efficiency of the rank-preserving transformations method using transformation unitary freedom and measurement set complementation.
翻訳日:2023-05-07 04:25:19 公開日:2020-08-04
# 質量バネ鎖における無分散パルス輸送:全ての可能な完全ニュートンのクレドル

Dispersionless pulse transport in mass-spring chains: All possible perfect Newton's cradles ( http://arxiv.org/abs/2008.01685v1 )

ライセンス: Link先を確認
Ruggero Vaia(参考訳) ばねで結ばれたN$質量の均一な非散逸鎖上を移動するパルスは、すぐに分散によって分解される。 ここでは、質量と弾性定数の適切な変調により、初期構成が半周期で鏡像へと進化するので、周期的ダイナミクスとチェーン端間の任意のパルスの完全な伝達が得られることを示す。 これにより、チェーンはニュートンのゆりかごとして振る舞う。 直交多項式に基づく既知のアルゴリズムにより、スペクトルから力学行列、対応する質量ばね列に至るまでの一般逆問題を数値的に解くことができ、すべての可能な ``perfect cradles'' が得られる。 量子線型系は古典的系と同じダイナミクスに従うため、これらの結果は量子の場合にも適用される: 例えば、一方の端で局所化された波動関数は反対の鎖の端で鏡像へと進化する。

A pulse traveling on a uniform nondissipative chain of $N$ masses connected by springs is soon destructured by dispersion. Here it is shown that a proper modulation of the masses and the elastic constants makes it possible to obtain a periodic dynamics and a perfect transmission of any kind of pulse between the chain ends, since the initial configuration evolves to its mirror image in the half period. This makes the chain to behave as a Newton's cradle. By a known algorithm based on orthogonal polynomials one can numerically solve the general inverse problem leading from the spectrum to the dynamical matrix and then to the corresponding mass-spring sequence, so yielding all possible ``perfect cradles''. As quantum linear systems obey the same dynamics of their classical counterparts, these results also apply to the quantum case: for instance, a wavefunction localized at one end would evolve to its mirror image at the opposite chain end.
翻訳日:2023-05-07 04:24:33 公開日:2020-08-04
# 新型コロナウイルス感染リスクにおける曝露密度と近隣の格差-大規模位置情報データによる危険地域における住環境の把握-

Exposure Density and Neighborhood Disparities in COVID-19 Infection Risk: Using Large-scale Geolocation Data to Understand Burdens on Vulnerable Communities ( http://arxiv.org/abs/2008.01650v1 )

ライセンス: Link先を確認
Boyeong Hong, Bartosz Bonczak, Arpit Gupta, Lorna Thorpe, and Constantine E. Kontokosta(参考訳) 本研究では,高空間的および時間的解像度で近隣活動レベルを定量化し,社会経済的・人口的特性に応じて,社会的距離政策に対する行動応答がどの程度変化するかを検証する新しい方法を開発した。 被曝密度を,特定地域における活動の局所化量と非居住地および屋外の土地利用における活動の比率の両方の指標として定義する。 このアプローチは,パンデミックによる人々の流入・流出,および残る人々の移動行動の変化を捉えるために活用する。 まず,ニューヨーク大都市圏における1200万人以上のユニークユーザを対象としたスマートフォン位置情報データを用いて,土地利用型による地域活動レベルの評価方法を開発した。 第2に,在宅勤務前後の地域社会における活動水準と特徴のパターンを同定し,地域社会の格差を計測・分析する。 最後に, 地域住民, 社会経済, インフラ特性にともなう感染率, 結果に及ぼす地域住民の社会的距離の影響を評価し, 曝露リスクに関連する健康影響の相違を明らかにする。 本研究は,地域社会におけるソーシャルディスタンシングの有効性をタイムリーに評価し,脆弱でリスクの高い地域社会を支援するために,資源の公平な配分を支援する。 本研究は, 地域ごとの活動パターンについて明らかにした。 曝露密度の変動は感染の危険性に直接的かつ測定可能な影響を及ぼす。

This study develops a new method to quantify neighborhood activity levels at high spatial and temporal resolutions and test whether, and to what extent, behavioral responses to social distancing policies vary with socioeconomic and demographic characteristics. We define exposure density as a measure of both the localized volume of activity in a defined area and the proportion of activity occurring in non-residential and outdoor land uses. We utilize this approach to capture inflows/outflows of people as a result of the pandemic and changes in mobility behavior for those that remain. First, we develop a generalizable method for assessing neighborhood activity levels by land use type using smartphone geolocation data over a three-month period covering more than 12 million unique users within the Greater New York area. Second, we measure and analyze disparities in community social distancing by identifying patterns in neighborhood activity levels and characteristics before and after the stay-at-home order. Finally, we evaluate the effect of social distancing in neighborhoods on COVID-19 infection rates and outcomes associated with localized demographic, socioeconomic, and infrastructure characteristics in order to identify disparities in health outcomes related to exposure risk. Our findings provide insight into the timely evaluation of the effectiveness of social distancing for individual neighborhoods and support a more equitable allocation of resources to support vulnerable and at-risk communities. Our findings demonstrate distinct patterns of activity pre- and post-COVID across neighborhoods. The variation in exposure density has a direct and measurable impact on the risk of infection.
翻訳日:2023-05-07 04:23:43 公開日:2020-08-04
# 空間分離極低温系における超伝導回路間のマイクロ波量子リンク

Microwave Quantum Link between Superconducting Circuits Housed in Spatially Separated Cryogenic Systems ( http://arxiv.org/abs/2008.01642v1 )

ライセンス: Link先を確認
Paul Magnard, Simon Storz, Philipp Kurpiers, Josua Sch\"ar, Fabian Marxer, Janis L\"utolf, Jean-Claude Besse, Mihai Gabureac, Kevin Reuer, Abdulkadir Akin, Baptiste Royer, Alexandre Blais and Andreas Wallraff(参考訳) 超伝導回路は量子コンピューティングシステムを実現するための強力な候補であり、量子光学やハイブリッド量子システムの研究にも成功している。 しかし、その極低温動作温度とコヒーレンス保存マイクロ波-光変換溶液の現在の欠如は、異なる極低温系やより大きな距離にまたがる超伝導量子ネットワークの実現を妨げている。 そこで本研究では, 物理距離5mで分離した2つの希釈冷凍機における極低温導波路のコヒーレントリンク動作について報告する。 基本ネットワークの2つのノード間で、量子ビット状態の転送と、平均転送量85.8 %と目標状態フィデリティ79.5 %のオンデマンドエンタングルメントを生成する。 低温マイクロ波リンクは、量子コンピューティングのシステムをスケールアップし、少なくとも数十メートルのスケールで局所領域量子通信ネットワークを作成する機会を提供する。

Superconducting circuits are a strong contender for realizing quantum computing systems, and are also successfully used to study quantum optics and hybrid quantum systems. However, their cryogenic operation temperatures and the current lack of coherence-preserving microwave-to-optical conversion solutions have hindered the realization of superconducting quantum networks either spanning different cryogenics systems or larger distances. Here, we report the successful operation of a cryogenic waveguide coherently linking transmon qubits located in two dilution refrigerators separated by a physical distance of five meters. We transfer qubit states and generate entanglement on-demand with average transfer and target state fidelities of 85.8 % and 79.5 %, respectively, between the two nodes of this elementary network. Cryogenic microwave links do provide an opportunity to scale up systems for quantum computing and create local area quantum communication networks over length scales of at least tens of meters.
翻訳日:2023-05-07 04:23:18 公開日:2020-08-04
# 加速放射の証人としてのラムゼイ干渉計

Ramsey interferometry as a witness of acceleration radiation ( http://arxiv.org/abs/2008.03112v1 )

ライセンス: Link先を確認
Helder A. S. Costa, Irismar G. da Paz, Paulo R. S. Carvalho, and Marcos Sampaio(参考訳) 単モードキャビティ内に原子を加速できる線形加速器を挿入することにより、典型的なラムゼー干渉計を適応する。 この簡単な手法により、干渉計測による加速度放射の影響を推定できることを示す。 Rydberg-like atom を用いて、GHz の順番の遷移状態と 1 ns の相互作用時間において、加速放射効果は 10^{17}$ m/s$^2$ の加速度に対して観測可能であることを示唆した。

We adapt a typical Ramsey interferometer by inserting a linear accelerator capable of accelerating an atom inside a single-mode cavity. We demonstrate that this simple scheme allows us to estimate the effects of acceleration radiation via interferometric visibility. By using a Rydberg-like atom, our results suggest that, for the transition regime of the order of GHz and interaction time of 1 ns, acceleration radiation effects can be observable for accelerations as low as $10^{17}$ m/s$^2$.
翻訳日:2023-05-07 04:15:54 公開日:2020-08-04
# IBM量子デバイスにおける量子振幅推定アルゴリズム

Quantum amplitude estimation algorithms on IBM quantum devices ( http://arxiv.org/abs/2008.02102v1 )

ライセンス: Link先を確認
Pooja Rao and Kwangmin Yu and Hyunkyung Lim and Dasol Jin and Deokkyu Choi(参考訳) ブラザードらによる量子振幅推定(QAE)アルゴリズムが2002年に発表されて以来、Aaronson et al., 2019, Grinko et al., 2019, Suzuki et al., 2020 など、いくつかのバリエーションが提案されている。 原型と変種の主な違いは、後者による量子位相推定(QPE)の排除である。 この違いは、QPEが元々のQAEの重要なコンポーネントであるが、現在のNISQ時代のデバイスにとって高価なと考えられる多くの操作で構成されている点に注意が必要である。 最近提案された2つの変種(grinko et al., 2019 and suzuki et al., 2020)を、量子コンピューティングのオープンソースフレームワークであるqiskitを使用してibm量子デバイスに実装することで比較した。 我々は,量子コンピュータ上での実装と性能の観点から,各アルゴリズムの利点を分析し,議論する。

Since the publication of the Quantum Amplitude Estimation (QAE) algorithm by Brassard et al., 2002, several variations have been proposed, such as Aaronson et al., 2019, Grinko et al., 2019, and Suzuki et al., 2020. The main difference between the original and the variants is the exclusion of Quantum Phase Estimation (QPE) by the latter. This difference is notable given that QPE is the key component of original QAE, but is composed of many operations considered expensive for the current NISQ era devices. We compare two recently proposed variants (Grinko et al., 2019 and Suzuki et al., 2020) by implementing them on the IBM Quantum device using Qiskit, an open source framework for quantum computing. We analyze and discuss advantages of each algorithm from the point of view of their implementation and performance on a quantum computer.
翻訳日:2023-05-07 04:15:23 公開日:2020-08-04
# 量子エンハンスによるダークマター軸探索

A quantum-enhanced search for dark matter axions ( http://arxiv.org/abs/2008.01853v1 )

ライセンス: Link先を確認
K. M. Backes, D. A. Palken, S. Al Kenany, B. M. Brubaker, S. B. Cahn, A. Droster, Gene C. Hilton, Sumita Ghosh, H. Jackson, S. K. Lamoreaux, A.F. Leder, K. W. Lehnert, S.M. Lewis, M. Malnou, R. H. Maruyama, N. M. Rapidis, M. Simanovskaia, Sukhman Singh, D. H. Speller, I. Urdinaran, Leila R. Vale, E. C. van Assendelft, K. van Bibber, and H. Wang(参考訳) ダークマター軸探索において、量子不確かさは基本的なノイズ源として現れ、検出に使用される二次観測量の測定を制限する。 我々は真空スクイーズを用いて新しい粒子の探索に量子限界を回避している。 マイクロ波電磁界を圧縮状態に準備し, 圧縮された二次状態のみをほぼノイズなく読み取ることにより, 最近の理論的予測で好まれる質量範囲の軸の探索率を2倍にする。 16.96-17.12$ と 17.14-17.28\space\mu\text{ev}/c^2$ の合計で、光子-光子カップリングが $g_{\gamma} = 1.38\times g_{\gamma}^\text{ksvz}$ 以上の場合、ダークマター軸のシグネチャは観測されない。

In dark matter axion searches, quantum uncertainty manifests as a fundamental noise source, limiting the measurement of the quadrature observables used for detection. We use vacuum squeezing to circumvent the quantum limit in a search for a new particle. By preparing a microwave-frequency electromagnetic field in a squeezed state and near-noiselessly reading out only the squeezed quadrature, we double the search rate for axions over a mass range favored by recent theoretical projections. We observe no signature of dark matter axions in the combined $16.96-17.12$ and $17.14-17.28\space\mu\text{eV}/c^2$ mass window for axion-photon couplings above $g_{\gamma} = 1.38\times g_{\gamma}^\text{KSVZ}$, reporting exclusion at the 90% level.
翻訳日:2023-05-07 04:15:05 公開日:2020-08-04
# 異方性膨張時空におけるアリスとボブ

Alice and Bob in an anisotropic expanding spacetime ( http://arxiv.org/abs/2008.01788v1 )

ライセンス: Link先を確認
Helder A. S. Costa and Paulo R. S. Carvalho(参考訳) 異方性拡大時空におけるアリスとボブの間の量子テレポーテーション過程について検討する。 このモデルでは、テレポーテーションの忠実度を計算し、そのスペクトルの振動を方位角の関数として指摘した。 極角 $\phi = \frac{\pi}{2}$ と azimuthal angle $\theta \neq \frac{3\pi}{4} + n\pi$ with $n = 0, 1, 2, ...$ に対して、プロセスの効率は減少し、すなわち、忠実度は 1 未満である。 また, 不均一性に対する異方性効果は, 平滑な膨張と無質量粒子の限界という条件下では, より顕著になることが示された。 一方、高速展開($\frac{\rho}{\omega} \gg 1$)の過程において曲率結合の影響が顕著になる。

We investigate a quantum teleportation process between two comoving observers Alice and Bob in an anisotropic expanding spacetime. In this model, we calculate the fidelity of teleportation and we noted an oscillation of its spectrum as a function of the azimuthal angle. We found that for the polar angle $\phi = \frac{\pi}{2}$ and the azimuthal angle $\theta \neq \frac{3\pi}{4} + n\pi$ with $n = 0, 1, 2, ...$ the efficiency of the process decreases, i.e., the fidelity is less than one. In addition, it is shown that the anisotropic effects on the fidelity becomes more significative in the regime of smooth expansion and the limit of massless particles. On the other hand, the influence of curvature coupling becomes noticeable in the regime of fast expansion (values of $\frac{\rho}{\omega} \gg 1$).
翻訳日:2023-05-07 04:13:42 公開日:2020-08-04
# 崩壊したクーロンポテンシャルの再検討

The truncated Coulomb potential revisited ( http://arxiv.org/abs/2008.01773v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) このフロベニウス法を、回転するクーロンポテンシャルを持つシュル・"{o} ディンガー方程式に適用する。 拡張係数のツリー項反復関係を用いて、系列を切断し、正確な固有関数と固有値を得る。 正確な固有値の正則な配置から、問題のスペクトル全体の有用な情報を導き、単純かつ簡単な補間によって他の固有値を得ることができる。

We apply the Frobenius method to the Schr\"{o}dinger equation with a truncated Coulomb potential. By means of the tree-term recurrence relation for the expansion coefficients we truncate the series and obtain exact eigenfunctions and eigenvalues. From a judicious arrangement of the exact eigenvalues we derive useful information about the whole spectrum of the problem and can obtain other eigenvalues by simple and straightforward interpolation.
翻訳日:2023-05-07 04:12:55 公開日:2020-08-04
# 量子スピンは存在論的イジングスピンの小さな摂動か?

Are quantum spins but small perturbations of ontological Ising spins? ( http://arxiv.org/abs/2008.01721v1 )

ライセンス: Link先を確認
Hans-Thomas Elze(参考訳) 古典的イジングスピンの置換のダイナミクスは、任意の長鎖に対して一般化される。 これは、一元更新演算子を定義する対交換相互作用によって生成される離散ダイナミクスを持つオントロジモデルとして機能する。 このモデルは有限信号速度を組み込んでおり、多くの点で離散自由場理論に似ている。 対応するハミルトニアン作用素を推定し、それが正確なベイカー・カンベル・ハウスドルフ公式を生成することを示す。 この研究の動機は、量子力学のセルオートマトン解釈によってもたらされる。 古典的かつ決定論的である我々の存在論的モデルは、適切な形式的記述において量子力学的種のように見える。 しかし、(原則として)モデルの小さな変形が、それを真の量子論に変えることは印象的である。 これは、量子力学は物理現象を扱う疫学的なアプローチに由来するという見解を支持する。

The dynamics-from-permutations of classical Ising spins is generalized here for an arbitrarily long chain. This serves as an ontological model with discrete dynamics generated by pairwise exchange interactions defining the unitary update operator. The model incorporates a finite signal velocity and resembles in many aspects a discrete free field theory. We deduce the corresponding Hamiltonian operator and show that it generates an exact terminating Baker-Campbell-Hausdorff formula. Motivation for this study is provided by the Cellular Automaton Interpretation of Quantum Mechanics. We find that our ontological model, which is classical and deterministic, appears as if of quantum mechanical kind in an appropriate formal description. However, it is striking that (in principle arbitrarily) small deformations of the model turn it into a genuine quantum theory. This supports the view that quantum mechanics stems from an epistemic approach handling physical phenomena.
翻訳日:2023-05-07 04:12:50 公開日:2020-08-04
# ボースポーラロンのポンププローブ分光:動的形成とコヒーレンス

Pump Probe Spectroscopy of Bose Polarons: Dynamical Formation and Coherence ( http://arxiv.org/abs/2001.00260v3 )

ライセンス: Link先を確認
S.I. Mistakidis, G.C. Katsimiga, G.M. Koutentakis, Th. Busch and P. Schmelcher(参考訳) 本研究では, ボース・アインシュタイン凝縮体に浸漬したフェルミオンまたはボゾン不純物の時間分解ダイナミクスを明らかにするためのポンププローブ分光法を提案する。 このスキームでは、ポンプパルスが最初に不純物を非相互作用から共鳴的に相互作用するスピン状態に転送し、システムが自由に進化する有限時間後にプローブパルスはこの遷移を反転させる。 これは直接的に不純物の非平衡ダイナミクスをモニターすることができ、コヒーレントまたは反発性ボースポーラロンの動的形成とそれらの誘導相互作用のシグネチャがプローブスペクトルにインプリントされる。 種間反発が種内波より大きい場合には, 時間的直交性のカタストロフィーが発生し, 不純物の風味とは無関係にエネルギー再分配プロセスが増加する。 この現象は特徴的なトラップタイムスケールで起こる。 より長い時間スケールでは、定常状態は不純物のコヒーレンスが著しく失われることによって特徴づけられる。 この定常状態は固有状態の熱化と関連しており、系の特性とは独立であることが示されている。

We propose and investigate a pump-probe spectroscopy scheme to unveil the time-resolved dynamics of fermionic or bosonic impurities immersed in a harmonically trapped Bose-Einstein condensate. In this scheme a pump pulse initially transfers the impurities from a noninteracting to a resonantly interacting spin-state and, after a finite time in which the system evolves freely, the probe pulse reverses this transition. This directly allows to monitor the nonequilibrium dynamics of the impurities as the dynamical formation of coherent attractive or repulsive Bose polarons and signatures of their induced-interactions are imprinted in the probe spectra. We show that for interspecies repulsions exceeding the intraspecies ones a temporal orthogonality catastrophe occurs, followed by enhanced energy redistribution processes, independently of the impurity's flavor. This phenomenon takes place over the characteristic trap timescales. For much longer timescales a steady state is reached characterized by substantial losses of coherence of the impurities. This steady state is related to eigenstate thermalization and it is demonstrated to be independent of the system's characteristics.
翻訳日:2023-01-16 09:45:30 公開日:2020-08-04
# NWPU-Crowd: クラウドカウントとローカライゼーションのための大規模ベンチマーク

NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization ( http://arxiv.org/abs/2001.03360v4 )

ライセンス: Link先を確認
Qi Wang, Junyu Gao, Wei Lin, Xuelong Li(参考訳) 過去10年間、群衆数とローカライゼーションは、群衆の監視、公共の安全、宇宙設計など幅広い用途に応用され、研究者の注目を集めてきた。 多くの畳み込みニューラルネットワーク(cnn)がこのタスクに取り組むために設計されている。 しかし、現在リリースされたデータセットは非常に小規模であるため、教師付きCNNベースのアルゴリズムのニーズを満たすことはできない。 この問題を解決するため,5,109枚の画像からなる大規模集客・集客データセットNWPU-Crowdを,合計2,133,375個の点とボックスを付加したアノテートヘッドで構築した。 他の現実世界のデータセットと比較すると、様々な照明シーンを含み、最大の密度範囲 (0~20,033) を持つ。 さらに、異なる手法を公平に評価するためのベンチマークウェブサイトが開発されており、研究者はテストセットの結果を提出することができる。 提案したデータセットに基づいて、データ特性をさらに説明し、いくつかの主流技術(SOTA)手法の性能を評価し、新しいデータに生じる新たな問題を解析する。 さらにベンチマークは \url{https://www.crowdbenchmark.com/} にデプロイされ、データセット/コード/モデル/results は \url{https://gjy3035.github.io/NWPU-Crowd-Sample-Code/} で公開されている。

In the last decade, crowd counting and localization attract much attention of researchers due to its wide-spread applications, including crowd monitoring, public safety, space design, etc. Many Convolutional Neural Networks (CNN) are designed for tackling this task. However, currently released datasets are so small-scale that they can not meet the needs of the supervised CNN-based algorithms. To remedy this problem, we construct a large-scale congested crowd counting and localization dataset, NWPU-Crowd, consisting of 5,109 images, in a total of 2,133,375 annotated heads with points and boxes. Compared with other real-world datasets, it contains various illumination scenes and has the largest density range (0~20,033). Besides, a benchmark website is developed for impartially evaluating the different methods, which allows researchers to submit the results of the test set. Based on the proposed dataset, we further describe the data characteristics, evaluate the performance of some mainstream state-of-the-art (SOTA) methods, and analyze the new problems that arise on the new data. What's more, the benchmark is deployed at \url{https://www.crowdbenchmark.com/}, and the dataset/code/models/results are available at \url{https://gjy3035.github.io/NWPU-Crowd-Sample-Code/}.
翻訳日:2023-01-12 23:15:57 公開日:2020-08-04
# 変分注意を用いたアクション認識

Few-shot Action Recognition with Permutation-invariant Attention ( http://arxiv.org/abs/2001.03905v3 )

ライセンス: Link先を確認
Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz(参考訳) 少数の学習モデルの多くは、画像認識に焦点を当てている。 対照的に、ビデオからの数発のアクション認識という課題に取り組む。 短距離動作パターンをキャプチャする時空間ビデオブロックのためのC3Dエンコーダを構築した。 このようなエンコードされたブロックは、置換不変プーリングによって集約され、同じクラスのクリップであってもパターンが繰り返されない様々なアクション長や時間的依存性に対して、我々のアプローチが堅牢になる。 その後、プールされた表現は、いわゆるクエリとサポートクリップをエンコードする単純なリレーション記述子に結合される。 最後に、クエリとサポートクリップの類似性学習を目標として、関係記述子をコンパレータに供給する。 重要なことに、プール中のブロック貢献を再重み付けするために、空間的および時間的注意モジュールと自己スーパービジョンを利用する。 自然主義的なクリップ(同じクラス)では、時間分布のシフトがあり、識別可能な時間的行動ホットスポットの場所は変化する。 したがって、クリップのブロックをパーミュートし、結果のアテンション領域を非パーミュートクリップのアテンション領域と整列させ、ブロックに不変なアテンション機構を訓練する(したがって長期ホットスポット)。 提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。

Many few-shot learning models focus on recognising images. In contrast, we tackle a challenging task of few-shot action recognition from videos. We build on a C3D encoder for spatio-temporal video blocks to capture short-range action patterns. Such encoded blocks are aggregated by permutation-invariant pooling to make our approach robust to varying action lengths and long-range temporal dependencies whose patterns are unlikely to repeat even in clips of the same class. Subsequently, the pooled representations are combined into simple relation descriptors which encode so-called query and support clips. Finally, relation descriptors are fed to the comparator with the goal of similarity learning between query and support clips. Importantly, to re-weight block contributions during pooling, we exploit spatial and temporal attention modules and self-supervision. In naturalistic clips (of the same class) there exists a temporal distribution shift--the locations of discriminative temporal action hotspots vary. Thus, we permute blocks of a clip and align the resulting attention regions with similarly permuted attention regions of non-permuted clip to train the attention mechanism invariant to block (and thus long-term hotspot) permutations. Our method outperforms the state of the art on the HMDB51, UCF101, miniMIT datasets.
翻訳日:2023-01-12 04:49:01 公開日:2020-08-04
# SOLAR:イメージ検索の2次損失と注意

SOLAR: Second-Order Loss and Attention for Image Retrieval ( http://arxiv.org/abs/2001.08972v5 )

ライセンス: Link先を確認
Tony Ng, Vassileios Balntas, Yurun Tian, Krystian Mikolajczyk(参考訳) ディープラーニングにおける最近の研究で、2次情報は多くのコンピュータビジョンタスクで有用であることが示されている。 2階情報は、空間的文脈と抽象的特徴次元の両方で適用することができる。 本研究では,2次成分について検討する。 1つは、ローカルとグローバルの両方で画像記述子のパフォーマンスを高めるために、2階の空間情報に焦点を当てている。 特徴マップの再重み付けや、その後記述に使用される健全な画像位置の強調に使用される。 第2のコンポーネントは、画像検索のためにグローバルディスクリプタに拡張した第2次類似性(SOS)損失に関するもので、ハード負のマイニングによるトリプルト損失の増大に使用される。 画像検索と画像マッチングのための2つのタスクとデータセットに対するアプローチを検証する。 その結果、2つの2階コンポーネントが相互に補完し、両方のタスクに大幅なパフォーマンス改善をもたらし、公開ベンチマーク全体にわたって最先端の結果をもたらすことがわかった。 コード http://github.com/tonyngjichun/SOLAR

Recent works in deep-learning have shown that second-order information is beneficial in many computer-vision tasks. Second-order information can be enforced both in the spatial context and the abstract feature dimensions. In this work, we explore two second-order components. One is focused on second-order spatial information to increase the performance of image descriptors, both local and global. It is used to re-weight feature maps, and thus emphasise salient image locations that are subsequently used for description. The second component is concerned with a second-order similarity (SOS) loss, that we extend to global descriptors for image retrieval, and is used to enhance the triplet loss with hard-negative mining. We validate our approach on two different tasks and datasets for image retrieval and image matching. The results show that our two second-order components complement each other, bringing significant performance improvements in both tasks and lead to state-of-the-art results across the public benchmarks. Code available at: http://github.com/tonyngjichun/SOLAR
翻訳日:2023-01-07 04:58:38 公開日:2020-08-04
# 逆摂動に対する非分散と感度の基本的なトレードオフ

Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations ( http://arxiv.org/abs/2002.04599v2 )

ライセンス: Link先を確認
Florian Tram\`er and Jens Behrmann and Nicholas Carlini and Nicolas Papernot and J\"orn-Henrik Jacobsen(参考訳) 悪意のある例としては、誤分類を誘発する悪質な入力がある。 一般的に研究されている感度に基づく逆数例は、異なるモデル予測をもたらす入力に意味的に小さな変化をもたらす。 本稿では,入力の真のラベルを修正しながらモデルの予測を保ちながら,最小の意味的変化をもたらす相補的障害モード,不変性に基づく逆例について検討する。 これら2種類の対立例間の根本的なトレードオフを示す。 感度に基づく攻撃に対する防御は、モデルの不変性に基づく攻撃に対する精度に積極的に影響し、どちらの攻撃にも抵抗する新しいアプローチが必要であることを示す。 特に,人間のラベルによる入力のクラスを変更することによって,モデルが(確実に)堅牢であるような小さな摂動を生成することにより,最先端の学習と証明可能なロバストモデルを打ち破る。 最後に、標準データセットにおける過度に不変な分類器の存在は、過度にロバストな予測的特徴の存在から生じることを示す。

Adversarial examples are malicious inputs crafted to induce misclassification. Commonly studied sensitivity-based adversarial examples introduce semantically-small changes to an input that result in a different model prediction. This paper studies a complementary failure mode, invariance-based adversarial examples, that introduce minimal semantic changes that modify an input's true label yet preserve the model's prediction. We demonstrate fundamental tradeoffs between these two types of adversarial examples. We show that defenses against sensitivity-based attacks actively harm a model's accuracy on invariance-based attacks, and that new approaches are needed to resist both attack types. In particular, we break state-of-the-art adversarially-trained and certifiably-robust models by generating small perturbations that the models are (provably) robust to, yet that change an input's class according to human labelers. Finally, we formally show that the existence of excessively invariant classifiers arises from the presence of overly-robust predictive features in standard datasets.
翻訳日:2023-01-02 01:09:34 公開日:2020-08-04
# amp連鎖グラフ:最小分離子と構造学習アルゴリズム

AMP Chain Graphs: Minimal Separators and Structure Learning Algorithms ( http://arxiv.org/abs/2002.10870v2 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Marco Valtorta, Pooyan Jamshidi(参考訳) 我々は,andersson-madigan-perlman chain graph (amp cg) における最小分離子の発見,すなわち,z の固有部分集合がその対を分離しないような,与えられた非隣接ノード対を分離するノードの集合 z を見つける問題に対処する。 この問題のいくつかのバージョンを分析し,それぞれに多項式時間アルゴリズムを提供する。 これには、制限されたノードの集合から最小セパレータを見つけること、与えられた2つの分離集合に対する最小セパレータを見つけること、与えられたセパレータが最小であるかどうかをテストすることが含まれる。 データからAMP CGの構造を学習する問題に対処するため、PCライクなアルゴリズム(Pena, 2012)は、変数が与えられる順序に依存するという意味で、順序に依存していることを示す。 この順序依存の一部を除去するPCライクなアルゴリズムのいくつかの改良を提案する。 また、(Xie et al., 2006) が提案したベイズネットワーク(BN) を学習するための分解に基づくアプローチを拡張し、特に BN を含む AMP CG を忠実性の仮定の下で学習する。 最小分離結果を用いて拡張の正確性を証明する。 実験では,標準ベンチマークと合成モデルおよびデータを用いて,PCライクなアルゴリズムと比較し,LCD-AMPと呼ばれる分解に基づく手法の競合性能を実証した。 LCD-AMPアルゴリズムは、通常PCライクなアルゴリズムよりも優れており、PCライクなアルゴリズムの修正は、特に高次元設定において、元のPCライクなアルゴリズムよりも基礎となる真理グラフに近い構造を学ぶ。 特に、サンプルサイズが合理的に大きく、基礎となるグラフがスパースである場合、両方のアルゴリズムの結果がより正確で安定であることを示す。

We address the problem of finding a minimal separator in an Andersson-Madigan-Perlman chain graph (AMP CG), namely, finding a set Z of nodes that separates a given nonadjacent pair of nodes such that no proper subset of Z separates that pair. We analyze several versions of this problem and offer polynomial-time algorithms for each. These include finding a minimal separator from a restricted set of nodes, finding a minimal separator for two given disjoint sets, and testing whether a given separator is minimal. To address the problem of learning the structure of AMP CGs from data, we show that the PC-like algorithm (Pena, 2012) is order-dependent, in the sense that the output can depend on the order in which the variables are given. We propose several modifications of the PC-like algorithm that remove part or all of this order-dependence. We also extend the decomposition-based approach for learning Bayesian networks (BNs) proposed by (Xie et al., 2006) to learn AMP CGs, which include BNs as a special case, under the faithfulness assumption. We prove the correctness of our extension using the minimal separator results. Using standard benchmarks and synthetically generated models and data in our experiments demonstrate the competitive performance of our decomposition-based method, called LCD-AMP, in comparison with the (modified versions of) PC-like algorithm. The LCD-AMP algorithm usually outperforms the PC-like algorithm, and our modifications of the PC-like algorithm learn structures that are more similar to the underlying ground truth graphs than the original PC-like algorithm, especially in high-dimensional settings. In particular, we empirically show that the results of both algorithms are more accurate and stabler when the sample size is reasonably large and the underlying graph is sparse.
翻訳日:2022-12-29 02:45:31 公開日:2020-08-04
# エンドツーエンドグラフ畳み込みカーネル支援ベクトルマシン

An End-to-End Graph Convolutional Kernel Support Vector Machine ( http://arxiv.org/abs/2003.00226v2 )

ライセンス: Link先を確認
Padraig Corcoran(参考訳) グラフ分類のための新しいカーネルベースサポートベクトルマシン(SVM)を提案する。 SVM特徴空間マッピングは、頂点ごとにベクトル空間表現を生成する一連のグラフ畳み込み層と、グラフの再生カーネルヒルベルト空間(RKHS)表現を生成するプーリング層から構成される。 RKHSを使用することで、明示的にマッピングする計算の複雑さを伴わずに、カーネル関数を使用して、この空間で暗黙的に操作することができる。 提案手法は,カーネル関数およびSVMパラメータを正規化された分類損失に対して協調的に最適化する,教師付きエンドツーエンド方式で訓練される。 このアプローチは、機能工学またはカーネル関数の定義に教師なし学習を使用する既存のカーネルベースのグラフ分類モデルとは異なる。 実験結果から,提案モデルが既存のディープラーニングベースラインモデルよりも優れていることが示された。

A novel kernel-based support vector machine (SVM) for graph classification is proposed. The SVM feature space mapping consists of a sequence of graph convolutional layers, which generates a vector space representation for each vertex, followed by a pooling layer which generates a reproducing kernel Hilbert space (RKHS) representation for the graph. The use of a RKHS offers the ability to implicitly operate in this space using a kernel function without the computational complexity of explicitly mapping into it. The proposed model is trained in a supervised end-to-end manner whereby the convolutional layers, the kernel function and SVM parameters are jointly optimized with respect to a regularized classification loss. This approach is distinct from existing kernel-based graph classification models which instead either use feature engineering or unsupervised learning to define the kernel function. Experimental results demonstrate that the proposed model outperforms existing deep learning baseline models on a number of datasets.
翻訳日:2022-12-27 20:17:47 公開日:2020-08-04
# 多様なパラメータフリーアタックのアンサンブルによる対向ロバスト性の評価

Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks ( http://arxiv.org/abs/2003.01690v2 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) 敵意攻撃に対する防衛戦略の分野は近年大きく成長してきたが、敵意攻撃の評価が不十分な場合が多く、強固さの誤った印象を与えるため、進歩は妨げられている。 多くの有望な防御は後に破られる可能性があり、最新技術を特定するのは難しい。 評価における落とし穴は、攻撃のハイパーパラメータの不適切なチューニング、勾配難読化、マスキングである。 本稿ではまず,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。 次に,新たな攻撃を2つの補完的既存攻撃と組み合わせることで,パラメータフリーで計算可能で,ユーザに依存しない攻撃のアンサンブルを形成し,対向ロバスト性をテストする。 最近のトップ機械学習とコンピュータビジョンの会場で発表された論文から、50以上のモデルにアンサンブルを適用した。 そのうちの1つを除いて、これらの論文で報告されたよりもロバストなテスト精度が低く、しばしば10\%以上の費用で、いくつかの壊れた防御を特定できる。

The field of defense strategies against adversarial attacks has significantly grown over the last years, but progress is hampered as the evaluation of adversarial defenses is often insufficient and thus gives a wrong impression of robustness. Many promising defenses could be broken later on, making it difficult to identify the state-of-the-art. Frequent pitfalls in the evaluation are improper tuning of hyperparameters of the attacks, gradient obfuscation or masking. In this paper we first propose two extensions of the PGD-attack overcoming failures due to suboptimal step size and problems of the objective function. We then combine our novel attacks with two complementary existing ones to form a parameter-free, computationally affordable and user-independent ensemble of attacks to test adversarial robustness. We apply our ensemble to over 50 models from papers published at recent top machine learning and computer vision venues. In all except one of the cases we achieve lower robust test accuracy than reported in these papers, often by more than $10\%$, identifying several broken defenses.
翻訳日:2022-12-26 21:51:29 公開日:2020-08-04
# 深層モデルに基づく強化学習による飛行学習

Learning to Fly via Deep Model-Based Reinforcement Learning ( http://arxiv.org/abs/2003.08876v3 )

ライセンス: Link先を確認
Philip Becker-Ehmck, Maximilian Karl, Jan Peters, Patrick van der Smagt(参考訳) エンジニアリングされたモデルを必要とせずにロボットを制御できることは長期的な目標であり、多様な新しい応用を約束してきた。 しかし、強化学習は、実世界の相互作用の需要が高いため、リアルタイムロボット制御に限られた影響しか与えていない。 本研究では、ドローン力学の学習確率モデルを活用することにより、モデルに基づく強化学習を通じて、四角子に対する推力制御を学習する。 フライトダイナミクスに関する事前知識は想定されず、代わりに、オンラインフィルタとして生成的に使用される逐次潜在変数モデルが生の知覚入力から学習される。 制御器と値関数は、生成された潜在軌道を通して確率的解析勾配を伝播することによって完全に最適化される。 飛べる学習」は1機のドローンで30分未満の経験で達成でき、内蔵の計算リソースとセンサーだけで自己構築型ドローンに展開できることを示した。

Learning to control robots without requiring engineered models has been a long-term goal, promising diverse and novel applications. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand of real-world interactions. In this work, by leveraging a learnt probabilistic model of drone dynamics, we learn a thrust-attitude controller for a quadrotor through model-based reinforcement learning. No prior knowledge of the flight dynamics is assumed; instead, a sequential latent variable model, used generatively and as an online filter, is learnt from raw sensory input. The controller and value function are optimised entirely by propagating stochastic analytic gradients through generated latent trajectories. We show that "learning to fly" can be achieved with less than 30 minutes of experience with a single drone, and can be deployed solely using onboard computational resources and sensors, on a self-built drone.
翻訳日:2022-12-22 03:30:41 公開日:2020-08-04
# バイオメカニカル制約による3次元手の位置推定

Weakly Supervised 3D Hand Pose Estimation via Biomechanical Constraints ( http://arxiv.org/abs/2003.09282v2 )

ライセンス: Link先を確認
Adrian Spurr, Umar Iqbal, Pavlo Molchanov, Otmar Hilliges, Jan Kautz(参考訳) 2次元画像から3次元手ポーズを推定することは、固有のスケールと深さのあいまいさによる逆問題である。 最新の最先端手法は、3次元地中データを用いた完全教師付き深層ニューラルネットワークを訓練する。 しかし、3Dアノテーションの取得は高価であり、通常、校正されたマルチビュー設定や労働集約的なマニュアルアノテーションを必要とする。 2Dキーポイントのアノテーションはより容易に取得できるが、3Dハンドポーズ予測のタスクを改善するために、このような弱い教師付きデータを効率的に活用する方法は、依然として重要な問題である。 重要な難点は、追加の2d監督の直接適用が主に2dプロキシの目的に有利であるが、深さやスケールの曖昧さを軽減できないという事実にある。 この課題を受け入れるために、我々は一連の新しい損失を提案する。 提案する制約により深さの曖昧さが著しく減少し,さらに2次元アノテート画像を効果的に活用できることを示した。 例えば、提案したバイオメカニカル制約を使わずに追加の2Dアノテーションを用いた挑戦的なFreiHANDデータセットでは、深度誤差をわずか15 %$で削減する一方、提案したバイオメカニカル制約を使用すると、エラーは50 %$で大幅に減少する。

Estimating 3D hand pose from 2D images is a difficult, inverse problem due to the inherent scale and depth ambiguities. Current state-of-the-art methods train fully supervised deep neural networks with 3D ground-truth data. However, acquiring 3D annotations is expensive, typically requiring calibrated multi-view setups or labor intensive manual annotations. While annotations of 2D keypoints are much easier to obtain, how to efficiently leverage such weakly-supervised data to improve the task of 3D hand pose prediction remains an important open question. The key difficulty stems from the fact that direct application of additional 2D supervision mostly benefits the 2D proxy objective but does little to alleviate the depth and scale ambiguities. Embracing this challenge we propose a set of novel losses. We show by extensive experiments that our proposed constraints significantly reduce the depth ambiguity and allow the network to more effectively leverage additional 2D annotated images. For example, on the challenging freiHAND dataset using additional 2D annotation without our proposed biomechanical constraints reduces the depth error by only $15\%$, whereas the error is reduced significantly by $50\%$ when the proposed biomechanical constraints are used.
翻訳日:2022-12-21 22:43:10 公開日:2020-08-04
# textcaps: 読み理解を伴う画像キャプションのためのデータセット

TextCaps: a Dataset for Image Captioning with Reading Comprehension ( http://arxiv.org/abs/2003.12462v2 )

ライセンス: Link先を確認
Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh(参考訳) 画像記述は視覚障害者が画像コンテンツを素早く理解するのに役立つ。 画像と光学的文字認識の自動記述には大きな進歩を遂げたが、現在の手法では文字を記述に含めることはできない。 画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。 私たちのデータセットは、テキストを認識し、そのビジュアルコンテキストに関連付け、テキストのどの部分をコピーまたはパラフレーズするかを決定し、複数のテキストトークンとオブジェクトのようなビジュアルエンティティの間の空間的、意味的、視覚的な推論を必要とするモデルに挑戦します。 本研究は,この課題に基礎を置き,既存のアプローチを適応させ,読解によるイメージキャプションと呼ぶ。 自動および人為的な研究による分析によると、新しいTextCapsデータセットは、以前のデータセットよりも多くの新しい技術的課題を提供する。

Image descriptions can help visually impaired people to quickly understand the image content. While we made significant progress in automatically describing images and optical character recognition, current approaches are unable to include written text in their descriptions, although text is omnipresent in human environments and frequently critical to understand our surroundings. To study how to comprehend text in the context of an image we collect a novel dataset, TextCaps, with 145k captions for 28k images. Our dataset challenges a model to recognize text, relate it to its visual context, and decide what part of the text to copy or paraphrase, requiring spatial, semantic, and visual reasoning between multiple text tokens and visual entities, such as objects. We study baselines and adapt existing approaches to this new task, which we refer to as image captioning with reading comprehension. Our analysis with automatic and human studies shows that our new TextCaps dataset provides many new technical challenges over previous datasets.
翻訳日:2022-12-20 08:13:47 公開日:2020-08-04
# オープン集合認識のためのハイブリッドモデル

Hybrid Models for Open Set Recognition ( http://arxiv.org/abs/2003.12506v2 )

ライセンス: Link先を確認
Hongjie Zhang, Ang Li, Jie Guo, Yanwen Guo(参考訳) オープンセット認識は、トレーニングセット内のどのクラスにも属さないサンプルを検出するために分類器を必要とする。 既存の手法は, 埋込空間上のトレーニングサンプルに確率分布を適合させ, この分布に応じて外れ値を検出する。 埋め込み空間は、しばしば識別的分類器から得られる。 しかし、そのような識別的表現は、未知のクラスを区別するのに重要でない既知のクラスのみに焦点を当てる。 表現空間は、不等式分類器と密度推定器(不等式検出器として保存される)から共同で学習されるべきである。 本稿では,入力データを組込み空間にエンコードするエンコーダと,サンプルをイリアークラスに分類する分類器と,サンプルが未知のカテゴリに属するかどうかを検出するフローベース密度推定器とからなるopenhybridフレームワークを提案する。 既存のフローベースモデルの典型的な問題は、アウトレーヤにより高い確率を割り当てることである。 しかし, 判別成分と生成成分の合同表現を学ぶ場合, 実験ではこのような問題は生じないことを実証的に観察する。 標準オープンセットベンチマークの実験では、エンドツーエンドでトレーニングされたopenhybridモデルが最先端のメソッドやフローベースのベースラインを大きく上回っていることも明らかになった。

Open set recognition requires a classifier to detect samples not belonging to any of the classes in its training set. Existing methods fit a probability distribution to the training samples on their embedding space and detect outliers according to this distribution. The embedding space is often obtained from a discriminative classifier. However, such discriminative representation focuses only on known classes, which may not be critical for distinguishing the unknown classes. We argue that the representation space should be jointly learned from the inlier classifier and the density estimator (served as an outlier detector). We propose the OpenHybrid framework, which is composed of an encoder to encode the input data into a joint embedding space, a classifier to classify samples to inlier classes, and a flow-based density estimator to detect whether a sample belongs to the unknown category. A typical problem of existing flow-based models is that they may assign a higher likelihood to outliers. However, we empirically observe that such an issue does not occur in our experiments when learning a joint representation for discriminative and generative components. Experiments on standard open set benchmarks also reveal that an end-to-end trained OpenHybrid model significantly outperforms state-of-the-art methods and flow-based baselines.
翻訳日:2022-12-19 05:22:24 公開日:2020-08-04
# 速度計測のためのパースペクティブ変換を用いた車両の3次元境界ボックスの検出

Detection of 3D Bounding Boxes of Vehicles Using Perspective Transformation for Accurate Speed Measurement ( http://arxiv.org/abs/2003.13137v2 )

ライセンス: Link先を確認
Viktor Kocur and Milan Ft\'a\v{c}nik(参考訳) 交通監視カメラが捉えた車両の検出と追跡は、インテリジェント交通システムの重要な構成要素である。 本稿では,車両の3次元境界ボックスの検出,追跡,その後の速度推定を行うアルゴリズムの改良版を提案する。 本アルゴリズムは,監視シーンにおける消失点の既知の幾何構造を用いて視点変換を行う。 この変換により、標準の2Dオブジェクト検出器を用いて、1つのパラメータで2Dバウンディングボックスを検出することで、3Dバウンディングボックスを検出する問題を直感的に単純化することができる。 本論文の主な貢献は,より頑健で完全自動的な視点変換の構築と,速度推定の実験的評価の改善である。 BrnoCompSpeedデータセットの速度推定タスクにおいて,本アルゴリズムを検証した。 2次元検出における3次元バウンディングボックス検出の精度と計算コストとの関係を,異なる構成で評価した。 テスト済みの構成はすべてリアルタイムで実行され、完全に自動化されている。 他の最先端の完全自動結果と比較して、このアルゴリズムは平均絶対速度測定誤差を32% (1.10 km/h から 0.75 km/h)、絶対中央値誤差を 40% (0.97 km/h から 0.58 km/h) 削減する。

Detection and tracking of vehicles captured by traffic surveillance cameras is a key component of intelligent transportation systems. We present an improved version of our algorithm for detection of 3D bounding boxes of vehicles, their tracking and subsequent speed estimation. Our algorithm utilizes the known geometry of vanishing points in the surveilled scene to construct a perspective transformation. The transformation enables an intuitive simplification of the problem of detecting 3D bounding boxes to detection of 2D bounding boxes with one additional parameter using a standard 2D object detector. Main contribution of this paper is an improved construction of the perspective transformation which is more robust and fully automatic and an extended experimental evaluation of speed estimation. We test our algorithm on the speed estimation task of the BrnoCompSpeed dataset. We evaluate our approach with different configurations to gauge the relationship between accuracy and computational costs and benefits of 3D bounding box detection over 2D detection. All of the tested configurations run in real-time and are fully automatic. Compared to other published state-of-the-art fully automatic results our algorithm reduces the mean absolute speed measurement error by 32% (1.10 km/h to 0.75 km/h) and the absolute median error by 40% (0.97 km/h to 0.58 km/h).
翻訳日:2022-12-18 13:48:54 公開日:2020-08-04
# 近似凸分解を用いた点雲のラベル効率学習

Label-Efficient Learning on Point Clouds using Approximate Convex Decompositions ( http://arxiv.org/abs/2003.13834v2 )

ライセンス: Link先を確認
Matheus Gadelha, Aruni RoyChowdhury, Gopal Sharma, Evangelos Kalogerakis, Liangliang Cao, Erik Learned-Miller, Rui Wang, Subhransu Maji(参考訳) 3次元点雲からの形状分類と部分分割の問題は、ここ数年で注目を集めている。 しかし、どちらも比較的小さなトレーニングセットに悩まされており、統計的に効率的な3次元形状表現の学習方法の必要性が生じる。 本稿では,ACD(Adroximate Convex Decompositions)を自己超越信号として用いて,点雲表現のラベル効率向上を図る。 そこで本研究では,ACDを用いて地上の真理セグメンテーションを近似することで,下流のタスクに非常に効果的である3Dポイントクラウド表現を学習できることを示す。 ModelNet40形状分類データセットの教師なし表現学習の最先端化とShapeNetPartデータセットの少数ショット部分分割の大幅な向上について報告する。

The problems of shape classification and part segmentation from 3D point clouds have garnered increasing attention in the last few years. Both of these problems, however, suffer from relatively small training sets, creating the need for statistically efficient methods to learn 3D shape representations. In this paper, we investigate the use of Approximate Convex Decompositions (ACD) as a self-supervisory signal for label-efficient learning of point cloud representations. We show that using ACD to approximate ground truth segmentation provides excellent self-supervision for learning 3D point cloud representations that are highly effective on downstream tasks. We report improvements over the state-of-the-art for unsupervised representation learning on the ModelNet40 shape classification dataset and significant gains in few-shot part segmentation on the ShapeNetPart dataset.Code available at https://github.com/matheusgadelha/PointCloudLearningACD
翻訳日:2022-12-18 07:27:05 公開日:2020-08-04
# イグボ文書類似度に基づくN-gramテキスト表現の比較解析

Comparative Analysis of N-gram Text Representation on Igbo Text Document Similarity ( http://arxiv.org/abs/2004.00375v2 )

ライセンス: Link先を確認
Nkechi Ifeanyi-Reuben, Chidiebere Ugwu, Nwachukwu E.O(参考訳) 情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。 テキストベースのアプリケーションでは、テキストの類似性が非常に重要です。 本稿では,Igboテキストの類似性に関するn-gramテキスト表現の比較分析を行う。 ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。 類似度尺度の評価は、採用したテキスト表現モデルに基づいている。 モデルはオブジェクト指向の方法論で設計され、Pythonプログラミング言語で実装され、Natural Language Toolkits (NLTK) のツールを使用する。 その結果、ユニグラム表現されたテキストは最も高い距離値を持つのに対し、bigramは最も低い距離値を持つことがわかった。 距離値が低いほど、2つの文書がより類似し、類似度測定を必要とするタスクに使用する場合のモデルの品質が向上する。 2つの文書の類似性は、距離値が0に下がるにつれて増加する(0)。 理想的に解析した結果,bigram表現テキスト上で測定したigboテキスト文書の類似度が正確な類似性を示すことが明らかとなった。 これにより、テキスト分類、クラスタリング、Igboテキストのランキングといったタスクに使用する場合、より良く、効果的で正確な結果が得られる。

The improvement in Information Technology has encouraged the use of Igbo in the creation of text such as resources and news articles online. Text similarity is of great importance in any text-based applications. This paper presents a comparative analysis of n-gram text representation on Igbo text document similarity. It adopted Euclidean similarity measure to determine the similarities between Igbo text documents represented with two word-based n-gram text representation (unigram and bigram) models. The evaluation of the similarity measure is based on the adopted text representation models. The model is designed with Object-Oriented Methodology and implemented with Python programming language with tools from Natural Language Toolkits (NLTK). The result shows that unigram represented text has highest distance values whereas bigram has the lowest corresponding distance values. The lower the distance value, the more similar the two documents and better the quality of the model when used for a task that requires similarity measure. The similarity of two documents increases as the distance value moves down to zero (0). Ideally, the result analyzed revealed that Igbo text document similarity measured on bigram represented text gives accurate similarity result. This will give better, effective and accurate result when used for tasks such as text classification, clustering and ranking on Igbo text.
翻訳日:2022-12-17 18:46:32 公開日:2020-08-04
# 自己拡張: 深層ネットワークをFew-Shot学習の未確認クラスに一般化する

Self-Augmentation: Generalizing Deep Networks to Unseen Classes for Few-Shot Learning ( http://arxiv.org/abs/2004.00251v3 )

ライセンス: Link先を確認
Jin-Woo Seo, Hong-Gyu Jung, Seong-Whan Lee(参考訳) 未確認のクラスをいくつかのトレーニング例で分類することを目的としている。 近年の研究では、慎重に設計された訓練戦略による標準的なミニバッチトレーニングは、未確認クラスの一般化能力を向上させることが示されているが、訓練統計を記憶するといったディープネットワークにおけるよく知られた問題は、数発の学習では研究されていない。 この問題に対処するために,自己混合と自己蒸留を統合した自己拡張を提案する。 具体的には、イメージのパッチを同じイメージ内の他の値に置換する、セルフミックスと呼ばれる地域的ドロップアウト技術を利用する。 次に,独自の分類器を持つ補助ブランチを持つバックボーンネットワークを用いて,知識共有を行う。 最後に,ローカル表現学習者に対して,未確認クラスの学習例をさらに活用する。 実験の結果, 提案手法は, 広く普及しているマイズショットベンチマークの最先端手法よりも優れており, 一般化能力が向上した。

Few-shot learning aims to classify unseen classes with a few training examples. While recent works have shown that standard mini-batch training with a carefully designed training strategy can improve generalization ability for unseen classes, well-known problems in deep networks such as memorizing training statistics have been less explored for few-shot learning. To tackle this issue, we propose self-augmentation that consolidates self-mix and self-distillation. Specifically, we exploit a regional dropout technique called self-mix, in which a patch of an image is substituted into other values in the same image. Then, we employ a backbone network that has auxiliary branches with its own classifier to enforce knowledge sharing. Lastly, we present a local representation learner to further exploit a few training examples for unseen classes. Experimental results show that the proposed method outperforms the state-of-the-art methods for prevalent few-shot benchmarks and improves the generalization ability.
翻訳日:2022-12-17 17:42:15 公開日:2020-08-04
# 科学計算のためのFortran-Kerasディープラーニングブリッジ

A Fortran-Keras Deep Learning Bridge for Scientific Computing ( http://arxiv.org/abs/2004.10652v2 )

ライセンス: Link先を確認
Jordan Ott, Mike Pritchard, Natalie Best, Erik Linstead, Milan Curcic, Pierre Baldi(参考訳) ニューラルネットワークの実装は、pythonのようなハイレベルなプログラミング言語と、kerasのような使いやすいディープラーニングライブラリによって一般的に実現される。 これらのソフトウェアライブラリは、さまざまなネットワークアーキテクチャをプリロードし、自動微分を提供し、高速で効率的な計算のためのGPUをサポートする。 その結果、ディープラーニングの実践者は、これらのツールが簡単に利用できるpythonでニューラルネットワークモデルをトレーニングすることを好む。 しかし、多くの大規模科学計算プロジェクトはFortranで書かれており、現代のディープラーニング手法と統合することは困難である。 この問題を軽減するために,ソフトウェアライブラリであるFortran-Keras Bridge (FKB)を導入する。 この双方向ブリッジは、ディープラーニングリソースが豊富な環境と、不足している環境を結びつける。 本稿は、FKBが提供するいくつかのユニークな機能、例えば、カスタマイズ可能なレイヤ、損失関数、ネットワークアンサンブルについて述べる。 この論文は、FKBを適用したケーススタディで、地球規模の気候シミュレーションに対する実験的なアプローチの堅牢性に関するオープンな疑問に対処し、サブグリッド物理学をディープニューラルネットワークエミュレータにアウトソースする。 この文脈では、fkbは100以上のサブグリッド雲と放射物理学の候補モデルのハイパーパラメータ探索を可能にし、当初はkerasで実装され、fortranで転送および使用される。 このようなプロセスにより、モデルの創発的な振る舞い、すなわち不完全性が惑星スケールの流体力学に結合されたときに評価することができる。 その結果、オフライン検証エラーとオンラインパフォーマンスとの間には、これまで認識されていなかった強い関係があることが判明した。 これは、特に困難なトレーニングデータセットのために、エラーの低減を含む安定性を著しく向上する多くのニューラルネットワークアーキテクチャを明らかにしている。

Implementing artificial neural networks is commonly achieved via high-level programming languages like Python and easy-to-use deep learning libraries like Keras. These software libraries come pre-loaded with a variety of network architectures, provide autodifferentiation, and support GPUs for fast and efficient computation. As a result, a deep learning practitioner will favor training a neural network model in Python, where these tools are readily available. However, many large-scale scientific computation projects are written in Fortran, making it difficult to integrate with modern deep learning methods. To alleviate this problem, we introduce a software library, the Fortran-Keras Bridge (FKB). This two-way bridge connects environments where deep learning resources are plentiful, with those where they are scarce. The paper describes several unique features offered by FKB, such as customizable layers, loss functions, and network ensembles. The paper concludes with a case study that applies FKB to address open questions about the robustness of an experimental approach to global climate simulation, in which subgrid physics are outsourced to deep neural network emulators. In this context, FKB enables a hyperparameter search of one hundred plus candidate models of subgrid cloud and radiation physics, initially implemented in Keras, to be transferred and used in Fortran. Such a process allows the model's emergent behavior to be assessed, i.e. when fit imperfections are coupled to explicit planetary-scale fluid dynamics. The results reveal a previously unrecognized strong relationship between offline validation error and online performance, in which the choice of optimizer proves unexpectedly critical. This reveals many neural network architectures that produce considerable improvements in stability including some with reduced error, for an especially challenging training dataset.
翻訳日:2022-12-13 10:16:42 公開日:2020-08-04
# DeepFake画像の予備解析

Preliminary Forensics Analysis of DeepFake Images ( http://arxiv.org/abs/2004.12626v5 )

ライセンス: Link先を確認
Luca Guarnera (1 and 2), Oliver Giudice (1), Cristina Nastasi (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) 現在最も恐ろしい現象の1つはディープフェイク(deepfake)である。ディープラーニングに基づくアルゴリズムを活用すれば、画像やビデオで顔を自動的に置き換えることができる。 本稿では,顔のディープフェイク画像を生成する技術の概要を紹介する。 これらの画像の標準的手法による法医学的分析が提示される: 驚くべきことに、技術技術が偽物を完全に検出することができない。 これを解決するために、周波数領域の異常を分析して、顔のディープフェイク画像との戦い方に関する予備的アイデアを提示する。

One of the most terrifying phenomenon nowadays is the DeepFake: the possibility to automatically replace a person's face in images and videos by exploiting algorithms based on deep learning. This paper will present a brief overview of technologies able to produce DeepFake images of faces. A forensics analysis of those images with standard methods will be presented: not surprisingly state of the art techniques are not completely able to detect the fakeness. To solve this, a preliminary idea on how to fight DeepFake images of faces will be presented by analysing anomalies in the frequency domain.
翻訳日:2022-12-09 05:47:14 公開日:2020-08-04
# フラストレーション量子系の変分量子固有解法

Variational Quantum Eigensolver for Frustrated Quantum Systems ( http://arxiv.org/abs/2005.00544v2 )

ライセンス: Link先を確認
Alexey Uvarov, Jacob Biamonte, Dmitry Yudin(参考訳) ハイブリッド量子古典アルゴリズムは量子コンピュータの潜在的応用として提案されている。 例えば、変分量子固有解法(VQE)は、量子ハミルトニアンによって定義されたエネルギー空間における大域最小値を決定するように設計されており、量子化学のニーズに訴えるものである。 近年、実験的な実現が報告されており、その効率の理論的推定は激しい努力の対象となっている。 本稿では、最も近い隣り合う隣同士の相互作用と1次元のフェルミオン連鎖を記述するハバード様モデルに対するVQE手法の性能について考察する。 VQEの解を復元することで、正確な結果と一致した基底状態の相関関数を得ることができる。 また,ハミルトニアンに対するバレン高原現象についても検討し,この効果の重大さはフェルミオンの量子ビットへの符号化に依存することを見出した。 我々の結果は量子最適化におけるバレン高原に関する現在の知識と一致している。

Hybrid quantum-classical algorithms have been proposed as a potentially viable application of quantum computers. A particular example - the variational quantum eigensolver, or VQE - is designed to determine a global minimum in an energy landscape specified by a quantum Hamiltonian, which makes it appealing for the needs of quantum chemistry. Experimental realizations have been reported in recent years and theoretical estimates of its efficiency are a subject of intense effort. Here we consider the performance of the VQE technique for a Hubbard-like model describing a one-dimensional chain of fermions with competing nearest- and next-nearest-neighbor interactions. We find that recovering the VQE solution allows one to obtain the correlation function of the ground state consistent with the exact result. We also study the barren plateau phenomenon for the Hamiltonian in question and find that the severity of this effect depends on the encoding of fermions to qubits. Our results are consistent with the current knowledge about the barren plateaus in quantum optimization.
翻訳日:2022-12-08 00:29:43 公開日:2020-08-04
# raw波形を用いた短発話話者照合のためのセグメントアグリゲーション

Segment Aggregation for short utterances speaker verification using raw waveforms ( http://arxiv.org/abs/2005.03329v3 )

ライセンス: Link先を確認
Seung-bin Kim, Jee-weon Jung, Hye-jin Shim, Ju-ho Kim and Ha-Jin Yu(参考訳) 話者照合システムに関するほとんどの研究は、十分な音声情報からなる長命発話に焦点を当てている。 しかし、これらのシステムの性能は、長い発話に比べて音声情報の欠如により、短い発話が入力されると劣化することが知られている。 本稿では,「セグメントアグリゲーション」と呼ばれる短い発話に対する話者検証の性能劣化を補う手法を提案する。 提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。 提案手法は, 入力発話を複数の短い発話に分割し, セグメント化された入力から抽出したセグメント埋め込みを集約し, 話者埋め込みを構成する。 そして、この方法でセグメント埋め込みと集約話者埋め込みを同時に訓練する。 また,提案手法に対する教師・生徒の学習方法も修正した。 VoxCeleb1テストセットを用いた入力長の異なる実験結果から,提案手法は1秒の試験発話条件を持つベースラインシステムと比較して話者検証性能を約45.37%向上することが示された。

Most studies on speaker verification systems focus on long-duration utterances, which are composed of sufficient phonetic information. However, the performances of these systems are known to degrade when short-duration utterances are inputted due to the lack of phonetic information as compared to the long utterances. In this paper, we propose a method that compensates for the performance degradation of speaker verification for short utterances, referred to as "segment aggregation". The proposed method adopts an ensemble-based design to improve the stability and accuracy of speaker verification systems. The proposed method segments an input utterance into several short utterances and then aggregates the segment embeddings extracted from the segmented inputs to compose a speaker embedding. Then, this method simultaneously trains the segment embeddings and the aggregated speaker embedding. In addition, we also modified the teacher-student learning method for the proposed method. Experimental results on different input duration using the VoxCeleb1 test set demonstrate that the proposed technique improves speaker verification performance by about 45.37% relatively compared to the baseline system with 1-second test utterance condition.
翻訳日:2022-12-06 00:18:16 公開日:2020-08-04
# 話者検証からマルチスピーカ音声合成へ, フィードバック制約による深層伝達

From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint ( http://arxiv.org/abs/2005.04587v3 )

ライセンス: Link先を確認
Zexin Cai, Chuxiong Zhang, Ming Li(参考訳) 近年,高忠実度音声はエンドツーエンドの音声合成モデルによって合成されている。 しかし,テキスト対音声システムでは,話者のアイデンティティや韻律,感情といった音声属性へのアクセスや制御が課題となっている。 本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。 我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達を強化することができた。 この制約は、合成された音声と自然な参照音声との話者類似性を改善するために集中した話者アイデンティティに関連する追加の損失によって取られる。 モデルはトレーニングされ、公開されているデータセットで評価される。 話者埋め込み空間の可視化を含む実験結果は, スペクトルレベルの話者同一性クローニングにおいて顕著に改善された。 合成サンプルはオンラインで聴くことができる。 (https://caizexin.github.io/mlspk-syn-samples/index.html)

High-fidelity speech can be synthesized by end-to-end text-to-speech models in recent years. However, accessing and controlling speech attributes such as speaker identity, prosody, and emotion in a text-to-speech system remains a challenge. This paper presents a system involving feedback constraint for multispeaker speech synthesis. We manage to enhance the knowledge transfer from the speaker verification to the speech synthesis by engaging the speaker verification network. The constraint is taken by an added loss related to the speaker identity, which is centralized to improve the speaker similarity between the synthesized speech and its natural reference audio. The model is trained and evaluated on publicly available datasets. Experimental results, including visualization on speaker embedding space, show significant improvement in terms of speaker identity cloning in the spectrogram level. Synthesized samples are available online for listening. (https://caizexin.github.io/mlspk-syn-samples/index.html)
翻訳日:2022-12-05 02:18:37 公開日:2020-08-04
# 離散音声表現を用いたマルチ話者音声合成のための半教師付き学習

Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation ( http://arxiv.org/abs/2005.08024v2 )

ライセンス: Link先を確認
Tao Tu, Yuan-Jui Chen, Alexander H. Liu, Hung-yi Lee(参考訳) 近年,tts(end-to-end multi-speaker text-to-speech)システムは,高品質な音声と対応する書き起こしが多数利用できる状況で成功を収めている。 しかし、多くの研究所が高性能なマルチスピーカーTSシステムを構築するのを妨げている。 本研究では,マルチスピーカTSに対する半教師付き学習手法を提案する。 マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。 実験結果から,ペア音声は1時間で,複数の話者や1つの話者からのデータであっても,異なる音声で知覚可能な音声を生成することができることがわかった。 提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。 さらに,本分析の結果から,ペアデータの話者特性が半教師付きTSの有効性に与える影響が明らかになった。

Recently, end-to-end multi-speaker text-to-speech (TTS) systems gain success in the situation where a lot of high-quality speech plus their corresponding transcriptions are available. However, laborious paired data collection processes prevent many institutes from building multi-speaker TTS systems of great performance. In this work, we propose a semi-supervised learning approach for multi-speaker TTS. A multi-speaker TTS model can learn from the untranscribed audio via the proposed encoder-decoder framework with discrete speech representation. The experiment results demonstrate that with only an hour of paired speech data, no matter the paired data is from multiple speakers or a single speaker, the proposed model can generate intelligible speech in different voices. We found the model can benefit from the proposed semi-supervised learning approach even when part of the unpaired speech data is noisy. In addition, our analysis reveals that different speaker characteristics of the paired data have an impact on the effectiveness of semi-supervised TTS.
翻訳日:2022-12-02 13:40:39 公開日:2020-08-04
# 同時機械翻訳のための効率的なwait-kモデル

Efficient Wait-k Models for Simultaneous Machine Translation ( http://arxiv.org/abs/2005.08595v2 )

ライセンス: Link先を確認
Maha Elbayad, Laurent Besacier, Jakob Verbeek(参考訳) 同時機械翻訳は、入力シーケンス全体が利用可能になる前に出力生成を開始することで構成される。 Wait-kデコーダは、この問題に対してシンプルだが効率的なアプローチを提供する。 最初はkソーストークンを読み、その後ターゲットトークンの生成と別のソーストークンの読み込みを交互に行う。 音声コーパスの低リソース環境におけるwait-k復号の挙動をiwsltデータセットを用いて検討する。 我々は、一方向エンコーダを用いてモデルのトレーニングを改善し、kの複数の値にまたがってトレーニングを行う。 Transformerと2D畳み込みアーキテクチャによる実験により、我々のwait-kモデルは幅広いレイテンシレベルにわたってよく一般化されている。 また, 2次元畳み込みアーキテクチャは, 同時翻訳のためのトランスフォーマーと競合することを示した。

Simultaneous machine translation consists in starting output generation before the entire input sequence is available. Wait-k decoders offer a simple but efficient approach for this problem. They first read k source tokens, after which they alternate between producing a target token and reading another source token. We investigate the behavior of wait-k decoding in low resource settings for spoken corpora using IWSLT datasets. We improve training of these models using unidirectional encoders, and training across multiple values of k. Experiments with Transformer and 2D-convolutional architectures show that our wait-k models generalize well across a wide range of latency levels. We also show that the 2D-convolution architecture is competitive with Transformers for simultaneous translation of spoken language.
翻訳日:2022-12-02 00:16:04 公開日:2020-08-04
# 公正な異常検出

Fair Outlier Detection ( http://arxiv.org/abs/2005.09900v2 )

ライセンス: Link先を確認
Deepak P and Savitha Sam Abraham(参考訳) 異常検出方法は、その感度特性に基づいて定義された特定のグループに対して異常検出の結果が歪まない場合、特定の機密属性に対して公平と考えることができる。 このタスクでは、私たちの最善の知識に対して、公正な異常検出のタスクを初めて考慮します。 本研究では,複数の重値感性属性(性別,人種,宗教,国籍,婚姻状況など)に対する公平なアウトラヤ検出の課題について考察する。 そこで本研究では,一般のlof定式化に触発されたフェア外れ検出法であるfairlofを提案する。 我々は,lof内で不公平を誘導する方法を概説し,fairlof法の基礎となる公平性を高めるための3つのヒューリスティック原理を考案する。 新規なタスクとして,公正な外乱検出のための評価フレームワークを開発し,その結果の品質と公平性についてFairLOFをベンチマークする。 実世界のデータセットに対する広範な実験的な評価を通じて、FairLOFは、フェアネス非依存のLOF法に対して測定された結果品質の限界劣化に対して、フェアネスの大幅な改善を達成可能であることを示す。

An outlier detection method may be considered fair over specified sensitive attributes if the results of outlier detection are not skewed towards particular groups defined on such sensitive attributes. In this task, we consider, for the first time to our best knowledge, the task of fair outlier detection. In this work, we consider the task of fair outlier detection over multiple multi-valued sensitive attributes (e.g., gender, race, religion, nationality, marital status etc.). We propose a fair outlier detection method, FairLOF, that is inspired by the popular LOF formulation for neighborhood-based outlier detection. We outline ways in which unfairness could be induced within LOF and develop three heuristic principles to enhance fairness, which form the basis of the FairLOF method. Being a novel task, we develop an evaluation framework for fair outlier detection, and use that to benchmark FairLOF on quality and fairness of results. Through an extensive empirical evaluation over real-world datasets, we illustrate that FairLOF is able to achieve significant improvements in fairness at sometimes marginal degradations on result quality as measured against the fairness-agnostic LOF method.
翻訳日:2022-12-01 05:03:38 公開日:2020-08-04
# IMUTube:人間の行動認識のためのビデオからの仮想身体加速度計の自動抽出

IMUTube: Automatic Extraction of Virtual on-body Accelerometry from Video for Human Activity Recognition ( http://arxiv.org/abs/2006.05675v2 )

ライセンス: Link先を確認
Hyeokhyen Kwon, Catherine Tong, Harish Haresamudram, Yan Gao, Gregory D. Abowd, Nicholas D. Lane, Thomas Ploetz(参考訳) 大規模ラベル付きデータセットの欠如は、オンボディセンサーに基づく人間活動認識(HAR)のための堅牢で一般化された予測モデルの開発の進展を妨げている。 センサデータ収集は高価であり、アノテーションは時間がかかり、エラーが発生しやすいため、人間の行動認識におけるラベル付きデータは少ない。 この問題に対処するために、既存のコンピュータビジョンと信号処理技術を統合した自動処理パイプラインであるIMUTubeを導入し、人間の活動のビデオからIMUデータの仮想ストリームに変換する。 これらの仮想IMUストリームは、人体の様々な場所で加速度計を表す。 本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。 私たちの最初の成果は非常に有望ですが、この作業のより大きな期待は、コンピュータビジョン、信号処理、アクティビティ認識コミュニティによる、私たちが概説する方法でこの作業を拡張するための集団的アプローチにあります。 これにより、身近なセンサーベースのHARが、大規模データセットのブレークスルーの新たな成功物語になるはずだ。

The lack of large-scale, labeled data sets impedes progress in developing robust and generalized predictive models for on-body sensor-based human activity recognition (HAR). Labeled data in human activity recognition is scarce and hard to come by, as sensor data collection is expensive, and the annotation is time-consuming and error-prone. To address this problem, we introduce IMUTube, an automated processing pipeline that integrates existing computer vision and signal processing techniques to convert videos of human activity into virtual streams of IMU data. These virtual IMU streams represent accelerometry at a wide variety of locations on the human body. We show how the virtually-generated IMU data improves the performance of a variety of models on known HAR datasets. Our initial results are very promising, but the greater promise of this work lies in a collective approach by the computer vision, signal processing, and activity recognition communities to extend this work in ways that we outline. This should lead to on-body, sensor-based HAR becoming yet another success story in large-dataset breakthroughs in recognition.
翻訳日:2022-11-26 23:58:17 公開日:2020-08-04
# 正規化流を伴う医用画像分割における不確かさの定量化

Uncertainty quantification in medical image segmentation with normalizing flows ( http://arxiv.org/abs/2006.02683v2 )

ライセンス: Link先を確認
Raghavendra Selvan, Frederik Faye, Jon Middleton, Akshay Pai(参考訳) 医用画像のセグメンテーションは本質的には、部分体積や解剖学的定義のバリエーションなどの要因により曖昧な作業である。 ほとんどの場合、セグメンテーションの不確実性は関心の構造の境界付近にあるが、レーザー間の大きな違いもある。 条件付き変分オートエンコーダ(cVAE)のクラスは、入力画像に条件付けされた可算セグメンテーション上の分布を推定する原理的なアプローチを提供する。 このような分布のサンプルから推定されるセグメンテーションの不確かさは、ピクセルレベルの確率スコアを使うよりも有益である。 本研究では,条件付き正規化フロー(cflow)に基づく新しい条件付き生成モデルを提案する。 基本的な考え方は、エンコーダの後にcFlow変換ステップを導入することにより、cVAEの表現性を高めることである。 これにより、潜在後続分布の近似が改善され、よりリッチなセグメンテーションの変動を捉えることができる。 これにより,条件生成モデルから得られた試料の品質と多様性が向上することを示す。 cflow netと呼ばれるこのモデルの性能は、最近のcvaeベースのモデルと比較して、質的および定量的な指標の両方において大幅に改善する2つの医用画像データセットで評価されている。

Medical image segmentation is inherently an ambiguous task due to factors such as partial volumes and variations in anatomical definitions. While in most cases the segmentation uncertainty is around the border of structures of interest, there can also be considerable inter-rater differences. The class of conditional variational autoencoders (cVAE) offers a principled approach to inferring distributions over plausible segmentations that are conditioned on input images. Segmentation uncertainty estimated from samples of such distributions can be more informative than using pixel level probability scores. In this work, we propose a novel conditional generative model that is based on conditional Normalizing Flow (cFlow). The basic idea is to increase the expressivity of the cVAE by introducing a cFlow transformation step after the encoder. This yields improved approximations of the latent posterior distribution, allowing the model to capture richer segmentation variations. With this we show that the quality and diversity of samples obtained from our conditional generative model is enhanced. Performance of our model, which we call cFlow Net, is evaluated on two medical imaging datasets demonstrating substantial improvements in both qualitative and quantitative measures when compared to a recent cVAE based model.
翻訳日:2022-11-25 08:56:56 公開日:2020-08-04
# 説明可能なAIのためのジェネリックおよびモデル非依存な模範合成フレームワーク

A Generic and Model-Agnostic Exemplar Synthetization Framework for Explainable AI ( http://arxiv.org/abs/2006.03896v3 )

ライセンス: Link先を確認
Antonio Barbalau, Adrian Cosma, Radu Tudor Ionescu and Marius Popescu(参考訳) 実用的なアプリケーションで採用される深層学習手法の複雑さが高まるにつれて、そのような方法の決定を説明・解釈する必要性が増している。 本研究では、AIの説明に焦点をあて、機械学習モデルから望ましい応答を最大化する入力例を合成するための、新しい汎用的でモデルに依存しないフレームワークを提案する。 この目的のために、データ生成の先行として機能する生成モデルを使用し、モーメント更新を伴う新しい進化戦略を用いて、その潜在空間をトラバースする。 私たちのフレームワークは汎用的です (i)変分自動エンコーダ(VAE)やGAN(Generative Adversarial Networks)など、基礎となるジェネレータを利用することができる。 (ii)画像、テキストサンプル、表データなど、任意の入力データに適用することができる。 我々はゼロ次最適化手法を使っているので、説明しようとする機械学習モデルがブラックボックスであるという意味で、このフレームワークはモデルに依存しない。 我々は、新しいフレームワークはブラックボックスモデルの内部構造やトレーニングデータへのアクセスや知識を必要としないことを強調する。 VAEとGANの2つの生成モデルを用いて実験を行い、様々なデータフォーマット、画像、テキスト、表表の例を合成し、我々のフレームワークが汎用的であることを示す。 また、様々なブラックボックスモデルにプロトタイプ合成フレームワークを採用し、入力と出力フォーマットのみを知っており、モデルに依存しないことを示している。 さらに、我々のフレームワーク(https://github.com/antoniobarbalau/exemplar)を勾配降下に基づくモデル依存アプローチと比較し、我々のフレームワークがより短い計算時間で等質なexemplarを取得することを証明した。

With the growing complexity of deep learning methods adopted in practical applications, there is an increasing and stringent need to explain and interpret the decisions of such methods. In this work, we focus on explainable AI and propose a novel generic and model-agnostic framework for synthesizing input exemplars that maximize a desired response from a machine learning model. To this end, we use a generative model, which acts as a prior for generating data, and traverse its latent space using a novel evolutionary strategy with momentum updates. Our framework is generic because (i) it can employ any underlying generator, e.g. Variational Auto-Encoders (VAEs) or Generative Adversarial Networks (GANs), and (ii) it can be applied to any input data, e.g. images, text samples or tabular data. Since we use a zero-order optimization method, our framework is model-agnostic, in the sense that the machine learning model that we aim to explain is a black-box. We stress out that our novel framework does not require access or knowledge of the internal structure or the training data of the black-box model. We conduct experiments with two generative models, VAEs and GANs, and synthesize exemplars for various data formats, image, text and tabular, demonstrating that our framework is generic. We also employ our prototype synthetization framework on various black-box models, for which we only know the input and the output formats, showing that it is model-agnostic. Moreover, we compare our framework (available at https://github.com/antoniobarbalau/exemplar) with a model-dependent approach based on gradient descent, proving that our framework obtains equally-good exemplars in a shorter computational time.
翻訳日:2022-11-24 21:05:58 公開日:2020-08-04
# 古典的中心性を組み合わせることで、トップインフルエンサーを普遍的に特定できる

Top influencers can be identified universally by combining classical centralities ( http://arxiv.org/abs/2006.07657v2 )

ライセンス: Link先を確認
Doina Bucur(参考訳) 情報の流れ、意見、疫病が構造化ネットワークに広がった。 個々のノード集中度指標を使用して、大きなネットワークでどのノードがトップインフルエンサーやスプレッサーに入るかを予測する場合、単一のノード集中度が一貫して優れたランキング能力を持つことはない。 2つ以上の中心点を入力として使用する統計的分類器は、代わりに様々な静的実世界のトポロジーに対して一貫して予測される。 局所中心性は、固有ベクトル中心性(英語版)、近接性(英語版)、コア数(英語版)のような大域的中心性を追加することによって、ノードの近傍の大きさを測定する。 これは直観的には、局所集中性が密集しているいくつかのノードを高度にランク付けするが、ネットワークの周辺領域--追加のグローバル集中性指標がより中央に位置するノードの優先順位付けに役立つ状況である。 スーパースレッダとして選択されたノードは通常、両方の中央値の最大化を共同で行う。 集中度指標間の相互作用の結果,7つの古典的指標を用いた訓練分類器は,ネットワーク全体の平均精度関数 (0.995) を最大化する。

Information flow, opinion, and epidemics spread over structured networks. When using individual node centrality indicators to predict which nodes will be among the top influencers or spreaders in a large network, no single centrality has consistently good ranking power. We show that statistical classifiers using two or more centralities as input are instead consistently predictive over many diverse, static real-world topologies. Certain pairs of centralities cooperate particularly well in statistically drawing the boundary between the top spreaders and the rest: local centralities measuring the size of a node's neighbourhood benefit from the addition of a global centrality such as the eigenvector centrality, closeness, or the core number. This is, intuitively, because a local centrality may rank highly some nodes which are located in dense, but peripheral regions of the network---a situation in which an additional global centrality indicator can help by prioritising nodes located more centrally. The nodes selected as superspreaders will usually jointly maximise the values of both centralities. As a result of the interplay between centrality indicators, training classifiers with seven classical indicators leads to a nearly maximum average precision function (0.995) across the networks in this study.
翻訳日:2022-11-21 21:37:02 公開日:2020-08-04
# ファウショット学習のための自己教師型知識蒸留

Self-supervised Knowledge Distillation for Few-shot Learning ( http://arxiv.org/abs/2006.09785v2 )

ライセンス: Link先を確認
Jathushan Rajasegaran, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 現実世界には圧倒的な数のオブジェクトクラスがあり、これらすべてを一度に学習することは不可能である。 わずかなサンプルだけで順序分布から素早く学習できるため、ショット学習は有望な学習パラダイムである。 近年の[7, 41]では,優れた機能の埋め込みを単に学習すれば,より高度なメタ学習やメトリック学習アルゴリズムより、数ショットの学習に優れることが示された。 本稿では,少数の学習タスクにおいて,ディープニューラルネットワークの表現能力を向上させるための簡易な手法を提案する。 まず,特徴埋め込みのエントロピーを最大化するためにニューラルネットワークを訓練し,自己教師付き補助損失を用いた最適出力多様体を作成する。 第2段階では、自己教師双生児を結合し、多様体を学生-教師蒸留で制約することにより、特徴埋め込みのエントロピーを最小化する。 実験の結果,第1段階においても,第2段階の蒸留プロセスにより,自己超過は現在の最先端手法より優れていることがわかった。 私たちのコードは、https://github.com/brjathu/SKD.comで利用可能です。

Real-world contains an overwhelmingly large number of object classes, learning all of which at once is infeasible. Few shot learning is a promising learning paradigm due to its ability to learn out of order distributions quickly with only a few samples. Recent works [7, 41] show that simply learning a good feature embedding can outperform more sophisticated meta-learning and metric learning algorithms for few-shot learning. In this paper, we propose a simple approach to improve the representation capacity of deep neural networks for few-shot learning tasks. We follow a two-stage learning process: First, we train a neural network to maximize the entropy of the feature embedding, thus creating an optimal output manifold using a self-supervised auxiliary loss. In the second stage, we minimize the entropy on feature embedding by bringing self-supervised twins together, while constraining the manifold with student-teacher distillation. Our experiments show that, even in the first stage, self-supervision can outperform current state-of-the-art methods, with further gains achieved by our second stage distillation process. Our codes are available at: https://github.com/brjathu/SKD.
翻訳日:2022-11-19 21:03:00 公開日:2020-08-04
# 人工知能による持続的建築物のエネルギー・熱快適制御-システムレビューの拡張的表現

Artificial Intelligence-Assisted Energy and Thermal Comfort Control for Sustainable Buildings: An Extended Representation of the Systematic Review ( http://arxiv.org/abs/2006.12559v2 )

ライセンス: Link先を確認
Ghezlane Halhoul Merabet, Mohamed Essaaidi, Mohamed Ben-Haddou, Basheer Qolomany, Junaid Qadir, Muhammad Anan, Ala Al-Fuqaha, Riduan Mohamed Abid and Driss Benhaddou(参考訳) 温度の快適さ、湿度、空気の質、騒音などの異なる要因は、室内でほとんどの時間を過ごす建物利用者が行う活動の受容性と品質に重要な複合効果をもたらす。 この要因の中には、人体の体温調節に関連しているため、人間の健康に寄与する温暖さがある。 したがって、熱的に快適でエネルギー効率の良い環境の構築は、建物の設計や暖房、換気、空調システムにおいて非常に重要である。 最近の研究は、人間の行動を模倣する能力を持つ人工知能を中心に、より高度な制御戦略に向けられている。 本研究は,建築内部の知的制御戦略の概要と,室内環境における温熱的快適性とエネルギー効率の最適化のバランスをとる能力について検討することを目的とする。 メソッド。 体系的な文献レビューでは、acm digital library、scopus、google scholar、ieee xplore (ieol)、web of science、science direct (sdol)を用いてピアレビューされた研究成果を調査した。 熱の快適性、快適な温度、好みの温度、インテリジェントな制御、高度な制御、人工知能、計算知、建築、屋内、構築された環境。 インクルージョンの基準は: 英語、研究、主に建物における人間の温暖化、およびインテリジェントなアプローチを用いた制御戦略に基づくエネルギー効率である。 システムレビューやメタアナリシスガイドラインの優先項目が用いられた。 当初は1,077条が提出され、120条は最終的に包括的基準を満たし、レビューされた。

Different factors such as thermal comfort, humidity, air quality, and noise have significant combined effects on the acceptability and quality of the activities performed by the building occupants who spend most of their times indoors. Among the factors cited, thermal comfort, which contributes to the human well-being because of its connection with the thermoregulation of the human body. Therefore, the creation of thermally comfortable and energy efficient environments is of great importance in the design of the buildings and hence the heating, ventilation and air-conditioning systems. Recent works have been directed towards more advanced control strategies, based mainly on artificial intelligence which has the ability to imitate human behavior. This systematic literature review aims to provide an overview of the intelligent control strategies inside building and to investigate their ability to balance thermal comfort and energy efficiency optimization in indoor environments. Methods. A systematic literature review examined the peer-reviewed research works using ACM Digital Library, Scopus, Google Scholar, IEEE Xplore (IEOL), Web of Science, and Science Direct (SDOL), besides other sources from manual search. With the following string terms: thermal comfort, comfort temperature, preferred temperature, intelligent control, advanced control, artificial intelligence, computational intelligence, building, indoors, and built environment. Inclusion criteria were: English, studies monitoring, mainly, human thermal comfort in buildings and energy efficiency simultaneously based on control strategies using the intelligent approaches. Preferred Reporting Items for Systematic Reviews and Meta-Analysis guidelines were used. Initially, 1,077 articles were yielded, and 120 ultimately met inclusion criteria and were reviewed.
翻訳日:2022-11-18 06:58:37 公開日:2020-08-04
# 視覚支援のためのUAVの効率的な資源管理

Efficient resource management in UAVs for Visual Assistance ( http://arxiv.org/abs/2007.05854v3 )

ライセンス: Link先を確認
Bapireddy Karri(参考訳) 世界中の農業、軍事、災害管理、航空写真に無人航空機(UAV)を使うことへの関心が高まっている。 UAVはスケーラブルで柔軟性があり、直接の介入が難しい様々な環境で有用である。 一般に、カメラを装着したUAVの使用は、現実のシナリオにおける幅広い応用のために、数が増えてきた。 コンピュータビジョンにおけるディープラーニングモデルの出現により、多くのモデルが視覚タスクで大きな成功を収めている。 しかし、ほとんどの評価モデルはハイエンドのCPUとGPUで行われます。 視覚支援タスクにUAVをリアルタイムに使用する際の大きな課題の1つは、これらのタスクのメモリ使用量と消費電力の管理であり、それらは計算集約的で、UAVのローエンドプロセッサボード上では実行が困難である。 本稿では,UAVハードウェアにおける物体追跡や物体検出などの一般的な画像処理タスクを,飛行時間に影響を与えることなく,遅延や精度を損なうことなく,リアルタイムシナリオで最適化する手法について述べる。

There is an increased interest in the use of Unmanned Aerial Vehicles (UAVs) for agriculture, military, disaster management and aerial photography around the world. UAVs are scalable, flexible and are useful in various environments where direct human intervention is difficult. In general, the use of UAVs with cameras mounted to them has increased in number due to their wide range of applications in real life scenarios. With the advent of deep learning models in computer vision many models have shown great success in visual tasks. But most of evaluation models are done on high end CPUs and GPUs. One of major challenges in using UAVs for Visual Assistance tasks in real time is managing the memory usage and power consumption of the these tasks which are computationally intensive and are difficult to be performed on low end processor board of the UAV. This projects describes a novel method to optimize the general image processing tasks like object tracking and object detection for UAV hardware in real time scenarios without affecting the flight time and not tampering the latency and accuracy of these models.
翻訳日:2022-11-11 13:27:06 公開日:2020-08-04
# 多層パーセプトロンと多変量線形回帰法による入院患者の低ナトリウム血症予測

Forecasting Hyponatremia in hospitalized patients Using Multilayer Perceptron and Multivariate Linear Regression Techniques ( http://arxiv.org/abs/2007.15554v2 )

ライセンス: Link先を確認
Prasannavenkatesan Theerthagiri(参考訳) 低ナトリウム血症により入院した患者の割合が増加している。 低ナトリウム血症はヒト血清中の電解質の欠乏である。 この欠損は副作用を誘発し、アクティブな治療を受けなければ長期の入院や死亡と関係がある可能性がある。 本研究は多層型パーセプトロンと多変量線形回帰アルゴリズムを用いて患者の健康問題の歴史に基づいて患者の未来的ナトリウムレベルを予測する。 本研究は, 糖尿病, 肺炎, 肝疾患, 悪性度, 肺, 敗血症, SIADH, および入院時のナトリウム濃度など, 患者の年齢, その他の疾患に関する情報を分析した。 提案するmlpアルゴリズムの結果をmlrアルゴリズムに基づく結果と比較した。 MLP予測結果は、MLRアルゴリズムよりも23-72高い予測結果を生成する。 そこで提案したMLRアルゴリズムは, 将来のナトリウム濃度範囲を予測するために, MLR結果よりも平均2乗誤差率を57.1削減した。 さらに,提案するmlrアルゴリズムでは,27~50倍高い予測精度が得られる。

The percentage of patients hospitalized due to hyponatremia is getting higher. Hyponatremia is the deficiency of sodium electrolyte in the human serum. This deficiency might indulge adverse effects and also associated with longer hospital stay or mortality, if it wasnt actively treated and managed. This work predicts the futuristic sodium levels of patients based on their history of health problems using multilayer perceptron and multivariate linear regression algorithm. This work analyses the patients age, information about other disease such as diabetes, pneumonia, liver-disease, malignancy, pulmonary, sepsis, SIADH, and sodium level of the patient during admission to the hospital. The results of the proposed MLP algorithm is compared with MLR algorithm based results. The MLP prediction results generates 23-72 of higher prediction results than MLR algorithm. Thus, proposed MLR algorithm has produced 57.1 of reduced mean squared error rate than the MLR results on predicting future sodium ranges of patients. Further, proposed MLR algorithm produces 27-50 of higher prediction precision rate.
翻訳日:2022-11-10 04:43:43 公開日:2020-08-04
# 創発的言語シンボリックセマンティックセグメンテーションとモデル解釈可能性を目指して

Towards Emergent Language Symbolic Semantic Segmentation and Model Interpretability ( http://arxiv.org/abs/2007.09448v2 )

ライセンス: Link先を確認
Alberto Santamaria-Pang, James Kubricht, Aritra Chowdhury, Chitresh Bhushan, Peter Tu(参考訳) 接地問題に焦点を当てた手法の最近の進歩は、特定のドメインに関連するシンボリック言語を構築するのに使用できる技術を生み出した。 人間が言語を通じて複雑なアイデアを伝達する方法に着想を得て、解釈可能なセグメンテーションのための一般化されたシンボリックセマンティクス(\text{s}^2$)フレームワークを開発した。 敵モデル(例えばgans)とは異なり、我々は共通の目標を達成するために協調しなければならない送信者と受信者という2つのエージェント間の協調を明示的にモデル化する。 Senderは、セグメンテーションネットワークの上位層から情報を受信し、カテゴリ分布から派生した記号文を生成する。 受信者はシンボル文を取得し、セグメンテーションマスクを共同生成する。 モデルを収束させるためには、SenderとReceerはプライベート言語を使ってコミュニケーションを学ぶ必要がある。 TCGAデータセット内の腫瘍のセグメント化にアーキテクチャを適用した。 UNetのようなアーキテクチャを用いてシンボリック文を生成するSenderネットワークへの入力を生成し、受信側ネットワークは文に基づいてセグメンテーションマスクを共同生成する。 私たちのセグメンテーションフレームワークは、最先端セグメンテーションメソッドと同等または優れたパフォーマンスを達成しました。 また, 正常と腫瘍の組織, 腫瘍の形態, その他の画像特徴を判別するための記号文の直接解釈も提案する。

Recent advances in methods focused on the grounding problem have resulted in techniques that can be used to construct a symbolic language associated with a specific domain. Inspired by how humans communicate complex ideas through language, we developed a generalized Symbolic Semantic ($\text{S}^2$) framework for interpretable segmentation. Unlike adversarial models (e.g., GANs), we explicitly model cooperation between two agents, a Sender and a Receiver, that must cooperate to achieve a common goal. The Sender receives information from a high layer of a segmentation network and generates a symbolic sentence derived from a categorical distribution. The Receiver obtains the symbolic sentences and co-generates the segmentation mask. In order for the model to converge, the Sender and Receiver must learn to communicate using a private language. We apply our architecture to segment tumors in the TCGA dataset. A UNet-like architecture is used to generate input to the Sender network which produces a symbolic sentence, and a Receiver network co-generates the segmentation mask based on the sentence. Our Segmentation framework achieved similar or better performance compared with state-of-the-art segmentation methods. In addition, our results suggest direct interpretation of the symbolic sentences to discriminate between normal and tumor tissue, tumor morphology, and other image characteristics.
翻訳日:2022-11-09 05:34:28 公開日:2020-08-04
# ビッグデータ時代のイベント予測:体系的調査

Event Prediction in the Big Data Era: A Systematic Survey ( http://arxiv.org/abs/2007.09815v3 )

ライセンス: Link先を確認
Liang Zhao(参考訳) イベントは特定の場所、時間、意味において発生し、社会や市民の不安、システム障害、疫病といった自然に非自明に影響を与えます。 このような事象の発生を事前に予測し、社会の動揺や被害の可能性を低減できることが極めて望ましい。 イベント予測は、伝統的に違法に困難だったが、今やビッグデータ時代において実行可能な選択肢になりつつあるため、急速に成長している。 ヘテロジニアスな多面的出力、複雑な依存関係、ストリーミングデータフィードなど、関連する課題に対処することに焦点を当てた既存の作業が数多く存在する。 既存のほとんどのイベント予測手法は、当初は特定のアプリケーションドメインを扱うように設計されていたが、使用される技術と評価手順は通常、異なるドメイン間で一般化可能である。 しかし、イベント予測のための包括的な文献調査がないため、異なるドメイン間でテクニックを相互参照することは必然的に困難である。 本稿では,ビッグデータ時代における事象予測技術,応用,評価の体系的かつ包括的な調査を行うことを目的とする。 まず、ドメインの専門家による適切な手法の探索とモデル開発者のフロンティアにおける研究の統合を支援するため、既存のテクニックの体系的な分類と要約を示す。 次に、主要なアプリケーションドメインの包括的な分類と概要を提供する。 評価指標と手順は、ステークホルダー、モデル開発者、および様々なアプリケーション領域のドメインエキスパートの間でモデルパフォーマンスの理解を統合するために要約され標準化されます。 最後に、この有望かつ重要な領域に対するオープンな問題と今後の方向性を解明し議論する。

Events are occurrences in specific locations, time, and semantics that nontrivially impact either our society or the nature, such as civil unrest, system failures, and epidemics. It is highly desirable to be able to anticipate the occurrence of such events in advance in order to reduce the potential social upheaval and damage caused. Event prediction, which has traditionally been prohibitively challenging, is now becoming a viable option in the big data era and is thus experiencing rapid growth. There is a large amount of existing work that focuses on addressing the challenges involved, including heterogeneous multi-faceted outputs, complex dependencies, and streaming data feeds. Most existing event prediction methods were initially designed to deal with specific application domains, though the techniques and evaluation procedures utilized are usually generalizable across different domains. However, it is imperative yet difficult to cross-reference the techniques across different domains, given the absence of a comprehensive literature survey for event prediction. This paper aims to provide a systematic and comprehensive survey of the technologies, applications, and evaluations of event prediction in the big data era. First, systematic categorization and summary of existing techniques are presented, which facilitate domain experts' searches for suitable techniques and help model developers consolidate their research at the frontiers. Then, comprehensive categorization and summary of major application domains are provided. Evaluation metrics and procedures are summarized and standardized to unify the understanding of model performance among stakeholders, model developers, and domain experts in various application domains. Finally, open problems and future directions for this promising and important domain are elucidated and discussed.
翻訳日:2022-11-09 00:33:48 公開日:2020-08-04
# ロングテールセッションベース勧告

Long-tail Session-based Recommendation ( http://arxiv.org/abs/2007.12329v2 )

ライセンス: Link先を確認
Siyi Liu and Yujia Zheng(参考訳) セッションベースのレコメンデーションは匿名セッションに基づくユーザアクションの予測に焦点を当てており、ユーザ履歴データがない場合に必須の方法である。 しかし、既存のセッションベースのレコメンデーション方法はいずれも、リコメンデーションの多様性の向上とセレンディピティーの創出に重要な役割を果たすロングテールレコメンデーションを明示的に考慮していない。 セッションベースのレコメンデーションシナリオ(eコマース、音楽、テレビ番組レコメンデーションなど)では、ロングテールのアイテムの流通が一般的であるため、ロングテールのレコメンデーションにもっと注意を払わなければならない。 本稿では,他の手法と比較して競争精度を保ちながら,長期推薦性能を向上させる新しいネットワークアーキテクチャ,すなわちTailNetを提案する。 まず、クリック頻度に基づいて、アイテムをショートヘッド(人気)とロングテール(ニッチ)に分類する。 次に, 2 種類の項目間のユーザの嗜好を判断するためにtailnet で新規の提案と適用を行い,レコメンデーションをソフトに調整し,パーソナライズする。 2つの実世界のデータセットに対する大規模な実験は、最先端の研究と比較して、我々の手法の優位性を検証する。

Session-based recommendation focuses on the prediction of user actions based on anonymous sessions and is a necessary method in the lack of user historical data. However, none of the existing session-based recommendation methods explicitly takes the long-tail recommendation into consideration, which plays an important role in improving the diversity of recommendation and producing the serendipity. As the distribution of items with long-tail is prevalent in session-based recommendation scenarios (e.g., e-commerce, music, and TV program recommendations), more attention should be put on the long-tail session-based recommendation. In this paper, we propose a novel network architecture, namely TailNet, to improve long-tail recommendation performance, while maintaining competitive accuracy performance compared with other methods. We start by classifying items into short-head (popular) and long-tail (niche) items based on click frequency. Then a novel is proposed and applied in TailNet to determine user preference between two types of items, so as to softly adjust and personalize recommendations. Extensive experiments on two real-world datasets verify the superiority of our method compared with state-of-the-art works.
翻訳日:2022-11-07 07:06:01 公開日:2020-08-04
# 対訳 プライバシー保護フィルタ

Adversarial Privacy-preserving Filter ( http://arxiv.org/abs/2007.12861v2 )

ライセンス: Link先を確認
Jiaming Zhang, Jitao Sang, Xian Zhao, Xiaowen Huang, Yanfeng Sun, Yongli Hu(参考訳) 実用的なアプリケーションでは広く採用されているが、顔認識は、顔画像の悪質な利用と潜在的なプライバシー問題、例えば支払いシステムを欺き、個人的妨害を引き起こすことについて批判的に議論されている。 オンライン写真共有サービスは意図せず、悪意のあるクローラや顔認識アプリケーションのメインリポジトリとして機能する。 本研究は,オンライン共有顔画像の悪意ある使用を防止するために,Adversarial Privacy-Preserving Filter(APF)と呼ばれるプライバシ保護ソリューションを開発することを目的としている。 具体的には、(1)画像特異的勾配生成、(2)圧縮プローブモデルによるユーザエンドの画像特異的勾配抽出、(2)サーバクラウド内の画像特異的勾配を微調整する逆勾配伝達、(3)普遍逆摂動強調、(3)画像非依存摂動を付加して最終的な逆雑音を導出する3つのモジュールからなる。 3つのデータセットに対する大規模な実験により、提案手法の有効性と効率が検証された。 プロトタイプアプリケーションもさらなる評価のためにリリースされ、エンドクラウドの共同攻撃フレームワークが、オンラインマルチメディア共有プライバシ保護の問題にユーザー側から対処することを願っている。

While widely adopted in practical applications, face recognition has been critically discussed regarding the malicious use of face images and the potential privacy problems, e.g., deceiving payment system and causing personal sabotage. Online photo sharing services unintentionally act as the main repository for malicious crawler and face recognition applications. This work aims to develop a privacy-preserving solution, called Adversarial Privacy-preserving Filter (APF), to protect the online shared face images from being maliciously used.We propose an end-cloud collaborated adversarial attack solution to satisfy requirements of privacy, utility and nonaccessibility. Specifically, the solutions consist of three modules: (1) image-specific gradient generation, to extract image-specific gradient in the user end with a compressed probe model; (2) adversarial gradient transfer, to fine-tune the image-specific gradient in the server cloud; and (3) universal adversarial perturbation enhancement, to append image-independent perturbation to derive the final adversarial noise. Extensive experiments on three datasets validate the effectiveness and efficiency of the proposed solution. A prototype application is also released for further evaluation.We hope the end-cloud collaborated attack framework could shed light on addressing the issue of online multimedia sharing privacy-preserving issues from user side.
翻訳日:2022-11-07 01:27:43 公開日:2020-08-04
# SemEval-2020 Task 9: Fine-Tuning and Bag-of-Words Approachs to Code-Mixed Sentiment Analysis

Reed at SemEval-2020 Task 9: Fine-Tuning and Bag-of-Words Approaches to Code-Mixed Sentiment Analysis ( http://arxiv.org/abs/2007.13061v2 )

ライセンス: Link先を確認
Vinay Gopalan, Mark Hopkins(参考訳) 本研究では,SemEval-2020 大会第9タスク(SentiMix タスク)の参加者として,Hinglish ツイートに対する感情分析の課題を検討する。 主なアプローチは2つあります 1)微調整による伝達学習の適用とBERTモデル 2) 単語の袋表現に基づくフィードフォワードニューラルネットワークの訓練 評価段階では,f-scoreが71.3%,ベストモデルが62項目中4^{th}$であった。

We explore the task of sentiment analysis on Hinglish (code-mixed Hindi-English) tweets as participants of Task 9 of the SemEval-2020 competition, known as the SentiMix task. We had two main approaches: 1) applying transfer learning by fine-tuning pre-trained BERT models and 2) training feedforward neural networks on bag-of-words representations. During the evaluation phase of the competition, we obtained an F-score of 71.3% with our best model, which placed $4^{th}$ out of 62 entries in the official system rankings.
翻訳日:2022-11-06 19:52:49 公開日:2020-08-04
# 対称正半定義リーマン幾何学と領域適応への応用

Symmetric Positive Semi-definite Riemannian Geometry with Application to Domain Adaptation ( http://arxiv.org/abs/2007.14272v2 )

ライセンス: Link先を確認
Or Yair, Almog Lahav, and Ronen Talmon(参考訳) 本稿では、対称正の半定値行列(SPSD)のリーマン幾何学に関する新しい結果を示す。 まず、既存の測地線経路の近似に基づいて、対数および指数写像の近似を導入する。 次に,パラレルトランスポート(pt)のための閉形式式を提案する。 第3に、SPSD行列の集合に対する標準表現を導出する。 これらの結果に基づき,領域適応アルゴリズム(da)を提案し,その性能を2つの応用(ハイパースペクトル画像の融合と動き同定)で実証する。

In this paper, we present new results on the Riemannian geometry of symmetric positive semi-definite (SPSD) matrices. First, based on an existing approximation of the geodesic path, we introduce approximations of the logarithmic and exponential maps. Second, we present a closed-form expression for Parallel Transport (PT). Third, we derive a canonical representation for a set of SPSD matrices. Based on these results, we propose an algorithm for Domain Adaptation (DA) and demonstrate its performance in two applications: fusion of hyper-spectral images and motion identification.
翻訳日:2022-11-06 01:44:57 公開日:2020-08-04
# 社会選択最適化

Social Choice Optimization ( http://arxiv.org/abs/2007.15393v2 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) 社会的選択とは、個人の意見、好み、関心、福祉から始まる社会福祉に対する集団的決定に関する理論である。 計算社会福祉(Computational Social Welfare)の分野はやや最近で、人工知能コミュニティに影響を及ぼしている。 古典文学は単一話者の嗜好を仮定する、すなわち、選好には順序があり、この順序には大域的な最大値が存在する。 今年は2段階の承認投票システム(TAV)、MWSR(Multi-winner Selection Rules)、IP(Incomplete)、CP(Circular Preferences)に関する理論的結果が発表された。 第一に、私は、(社会的)ゴールへの障害を最小限に抑えるために、最小限の人工知能決定ルールを実装した、最大ステージと最小ステージのTAVの一般化として、社会選択最適化を導入したいと思います。 第二に、私の論文「ソーシャルインクルージョンのオープンな標準化」において、社会選択最適化のグローバルな社会的目標として実践した、オープン標準化とオープン統合理論(リファインメントプロセス)に従い、紹介したいと思います。

Social choice is the theory about collective decision towards social welfare starting from individual opinions, preferences, interests or welfare. The field of Computational Social Welfare is somewhat recent and it is gaining impact in the Artificial Intelligence Community. Classical literature makes the assumption of single-peaked preferences, i.e. there exist a order in the preferences and there is a global maximum in this order. This year some theoretical results were published about Two-stage Approval Voting Systems (TAVs), Multi-winner Selection Rules (MWSR) and Incomplete (IPs) and Circular Preferences (CPs). The purpose of this paper is three-fold: Firstly, I want to introduced Social Choice Optimisation as a generalisation of TAVs where there is a max stage and a min stage implementing thus a Minimax, well-known Artificial Intelligence decision-making rule to minimize hindering towards a (Social) Goal. Secondly, I want to introduce, following my Open Standardization and Open Integration Theory (in refinement process) put in practice in my dissertation, the Open Standardization of Social Inclusion, as a global social goal of Social Choice Optimization.
翻訳日:2022-11-05 14:07:18 公開日:2020-08-04
# SynergicLearning:高精度高次元学習のためのニューラルネットワークに基づく特徴抽出

SynergicLearning: Neural Network-Based Feature Extraction for Highly-Accurate Hyperdimensional Learning ( http://arxiv.org/abs/2007.15222v2 )

ライセンス: Link先を確認
Mahdi Nazemi, Amirhossein Esmaili, Arash Fayyazi, Massoud Pedram(参考訳) 機械学習モデルは、精度、計算/メモリの複雑さ、トレーニング時間、適応性などの点で異なる。 例えば、ニューラルネットワーク(NN)は自動特徴抽出の品質のために高い精度で知られており、一方、脳にインスパイアされた超次元(HD)学習モデルは、迅速なトレーニング、計算効率、適応性で有名である。 本研究は、チップ上でのインクリメンタルなオンライン学習に適した、その特性をすべて備えた、ハイブリッドでシナジーな機械学習モデルを提案する。 提案モデルは、NNと分類器からなる。 NNは機能抽出器として機能し、HDコンピューティングフレームワークを使用する分類器とうまく連携するように特別に訓練されている。 この研究は、任意のNNおよび/または分類器を上記のハードウェアにマッピングするコンパイラを導入しながら、上記の特徴抽出および分類コンポーネントのパラメータ化ハードウェア実装も提示する。 提案されたハイブリッド機械学習モデルは、NNと同じレベルの精度(すなわち$\pm$1%)を持ち、HD学習モデルと比較して少なくとも10%の精度向上を実現している。 さらに、ハイブリッドモデルのエンドツーエンドハードウェア実現により、最先端のハイパフォーマンスなhd学習実装に比べて電力効率が1.60倍向上し、レイテンシが2.13倍向上した。 これらの結果は、認知課題にこのようなシナジーモデルを適用することに深く影響している。

Machine learning models differ in terms of accuracy, computational/memory complexity, training time, and adaptability among other characteristics. For example, neural networks (NNs) are well-known for their high accuracy due to the quality of their automatic feature extraction while brain-inspired hyperdimensional (HD) learning models are famous for their quick training, computational efficiency, and adaptability. This work presents a hybrid, synergic machine learning model that excels at all the said characteristics and is suitable for incremental, on-line learning on a chip. The proposed model comprises an NN and a classifier. The NN acts as a feature extractor and is specifically trained to work well with the classifier that employs the HD computing framework. This work also presents a parameterized hardware implementation of the said feature extraction and classification components while introducing a compiler that maps any arbitrary NN and/or classifier to the aforementioned hardware. The proposed hybrid machine learning model has the same level of accuracy (i.e. $\pm$1%) as NNs while achieving at least 10% improvement in accuracy compared to HD learning models. Additionally, the end-to-end hardware realization of the hybrid model improves power efficiency by 1.60x compared to state-of-the-art, high-performance HD learning implementations while improving latency by 2.13x. These results have profound implications for the application of such synergic models in challenging cognitive tasks.
翻訳日:2022-11-05 13:23:44 公開日:2020-08-04
# クロスドメイン表情認識のための逆グラフ表現適応

Adversarial Graph Representation Adaptation for Cross-Domain Facial Expression Recognition ( http://arxiv.org/abs/2008.00859v2 )

ライセンス: Link先を確認
Yuan Xie, Tianshui Chen, Tao Pu, Hefeng Wu, Liang Lin(参考訳) 主観的アノテートプロセスと異なる収集条件により、異なる表情認識(FER)データセット間でデータの矛盾やバイアスは避けられない。 最近の研究は、ドメインシフトを緩和するために、ドメイン不変機能を学ぶ敵対的メカニズムに依拠している。 しかしながら、これらの作業のほとんどは全体的な機能適応に重点を置いており、異なるデータセット間で転送可能なローカル機能を無視している。 さらに、局所的特徴は表現認識のためのより詳細で識別的な内容を持ち、局所的特徴を統合することで微細な適応が可能となる。 本稿では,クロスドメイン包括的局所的特徴適応のための逆学習とグラフ表現の伝播を統合する新しい逆グラフ表現適応(agra)フレームワークを提案する。 これを実現するために、まず、各ドメイン内の全体的および局所的な領域と、異なるドメインにまたがるこれらの領域を関連付ける別のグラフを関連付けるグラフを構築します。 次に,各領域のクラスごとの統計分布を学習し,入力画像から全体的局所特徴を抽出し,対応するグラフノードを初期化する。 最後に,2つのグラフ畳み込みネットワークを導入し,各領域内の全体的局所的特徴を伝播させ,それらの相互作用を探索し,全体的局所的特徴共適応を行う。 このように、AGRAフレームワークは、きめ細かいドメイン不変の特徴を適応的に学習し、ドメイン間の表現認識を容易にする。 いくつかの人気のあるベンチマークで広範囲かつ公平な実験を行い、提案手法が従来の最先端手法よりも優れた性能を達成していることを示す。

Data inconsistency and bias are inevitable among different facial expression recognition (FER) datasets due to subjective annotating process and different collecting conditions. Recent works resort to adversarial mechanisms that learn domain-invariant features to mitigate domain shift. However, most of these works focus on holistic feature adaptation, and they ignore local features that are more transferable across different datasets. Moreover, local features carry more detailed and discriminative content for expression recognition, and thus integrating local features may enable fine-grained adaptation. In this work, we propose a novel Adversarial Graph Representation Adaptation (AGRA) framework that unifies graph representation propagation with adversarial learning for cross-domain holistic-local feature co-adaptation. To achieve this, we first build a graph to correlate holistic and local regions within each domain and another graph to correlate these regions across different domains. Then, we learn the per-class statistical distribution of each domain and extract holistic-local features from the input image to initialize the corresponding graph nodes. Finally, we introduce two stacked graph convolution networks to propagate holistic-local feature within each domain to explore their interaction and across different domains for holistic-local feature co-adaptation. In this way, the AGRA framework can adaptively learn fine-grained domain-invariant features and thus facilitate cross-domain expression recognition. We conduct extensive and fair experiments on several popular benchmarks and show that the proposed AGRA framework achieves superior performance over previous state-of-the-art methods.
翻訳日:2022-11-03 06:31:33 公開日:2020-08-04
# 逐次取引データを用いた深層学習によるサッカーのダークホースの指標の発見

Discovering indicators of dark horse of soccer games by deep learning from sequential trading data ( http://arxiv.org/abs/2008.00682v2 )

ライセンス: Link先を確認
Liyao Lu and Qiang Lyu(参考訳) さまざまな客観的指標に基づいて、機械学習モデルがサッカーの試合結果の適切な予測精度を提供するのは驚きではない。 しかし、困難で価値のあるマッチを予測するという点では、パフォーマンスはそれほど良くない。 深層学習モデルは、実際の予測市場からの実際の逐次取引データに基づいて設計・訓練され、そのような取引データにはゲーム結果を決定するために重要な潜在情報が含まれていると仮定される。 モデル学習のための投資リターンの高いマッチングに対する選択を偏る新たな損失関数を提案する。 4669試合を総合的に調査したところ、暗黒馬を検知する能力があるため、我々のモデルは高い値を返すための予測精度をオフにした。 さらに,本モデルで発見された大型の黒馬と一般的な馬の特徴を記述するための指標について検討した。

It is not surprise for machine learning models to provide decent prediction accuracy of soccer games outcomes based on various objective metrics. However, the performance is not that decent in terms of predicting difficult and valuable matches. A deep learning model is designed and trained on a real sequential trading data from the real prediction market, with the assumption that such trading data contain critical latent information to determine the game outcomes. A new loss function is proposed which biases the selection toward matches with high investment return to train our model. Full investigation of 4669 top soccer league matches showed that our model traded off prediction accuracy for high value return due to a certain ability to detect dark horses. A further try is conducted to depict some indicators discovered by our model for describing key features of big dark horses and regular hot horses.
翻訳日:2022-11-03 05:48:20 公開日:2020-08-04
# 干渉チャンネルにおけるモデルフリーパワーアロケーションのためのフェデレーション信頼領域最適化

Faded-Experience Trust Region Policy Optimization for Model-Free Power Allocation in Interference Channel ( http://arxiv.org/abs/2008.01705v1 )

ライセンス: Link先を確認
Mohammad G. Khoshkholgh and Halim Yanikomeroglu(参考訳) 政策勾配強化学習技術により、エージェントは環境との相互作用を通じて最適な行動方針を直接学習することができる。 しかし、その利点にもかかわらず、時には収束速度が遅い。 人的意思決定のアプローチに触発されて,最近学習された政策を記憶・利用するためにエージェントを増強することにより,収束速度の向上を目指す。 本手法は,主に移動タスク用に開発された信頼領域ポリシー最適化(TRPO)に適用し,フェード・エクスペリエンス(FE) TRPOを提案する。 その効果を実証するため,ノイズの多いデバイスの位置情報しか得られない場合に,干渉チャネルで連続的な電力制御を学習するために採用する。 その結果,FE-TRPO では TRPO に比べて学習速度が約2倍になることがわかった。 重要なことは、我々の手法は学習の複雑さを高めたり、性能損失を課したりしない。

Policy gradient reinforcement learning techniques enable an agent to directly learn an optimal action policy through the interactions with the environment. Nevertheless, despite its advantages, it sometimes suffers from slow convergence speed. Inspired by human decision making approach, we work toward enhancing its convergence speed by augmenting the agent to memorize and use the recently learned policies. We apply our method to the trust-region policy optimization (TRPO), primarily developed for locomotion tasks, and propose faded-experience (FE) TRPO. To substantiate its effectiveness, we adopt it to learn continuous power control in an interference channel when only noisy location information of devices is available. Results indicate that with FE-TRPO it is possible to almost double the learning speed compared to TRPO. Importantly, our method neither increases the learning complexity nor imposes performance loss.
翻訳日:2022-11-03 01:21:54 公開日:2020-08-04
# helix:ナノホールゲノムベースコールの高速化のためのアルゴリズム/アーキテクチャ共同設計

Helix: Algorithm/Architecture Co-design for Accelerating Nanopore Genome Base-calling ( http://arxiv.org/abs/2008.03107v1 )

ライセンス: Link先を確認
Qian Lou and Sarath Janga and Lei Jiang(参考訳) ナノホールゲノムシークエンシングは、パーソナライズされた医療、グローバル・フード・セキュリティ、ウイルスの監視を可能にする鍵である。 最先端のベースコールはディープニューラルネットワーク(DNN)を使用して、ナノ孔シーケンサによって生成された電気信号をデジタルDNAシンボルに変換する。 DNNベースのベースコールは、ナノ孔シークエンシングパイプラインの実行時間の合計44.5\%を消費する。 しかし、ベースコールを定量化し、量子化されたベースコールを実行するために電力効率の高い処理インメモリ(PIM)を構築することは困難である。 本稿では,PIMを設計した新しいアルゴリズム,Helixを提案し,ナノ孔ベースの呼び出しを効率よく正確に高速化する。 アルゴリズムの観点から,量子化ベースコールにおける系統的エラー数を最小化するために,系統的エラー認識トレーニングを提案する。 アーキテクチャの観点からは,アナログ-デジタル変換処理を行う低消費電力のSOT-MRAMベースのADCアレイを提案し,従来のDNN PIMの電力効率を向上する。 さらに,従来のNVMベースのドット生成エンジンを改良し,CTC復号処理を高速化し,読み出し投票を行うためのSOT-MRAMバイナリコンパレータアレイを作成する。 最先端のPIMと比較して、Helixはベースコールのスループットを6\times$、Wattあたりのスループットを11.9\times$、$mm^2$を7.5\times$に改善する。

Nanopore genome sequencing is the key to enabling personalized medicine, global food security, and virus surveillance. The state-of-the-art base-callers adopt deep neural networks (DNNs) to translate electrical signals generated by nanopore sequencers to digital DNA symbols. A DNN-based base-caller consumes $44.5\%$ of total execution time of a nanopore sequencing pipeline. However, it is difficult to quantize a base-caller and build a power-efficient processing-in-memory (PIM) to run the quantized base-caller. In this paper, we propose a novel algorithm/architecture co-designed PIM, Helix, to power-efficiently and accurately accelerate nanopore base-calling. From algorithm perspective, we present systematic error aware training to minimize the number of systematic errors in a quantized base-caller. From architecture perspective, we propose a low-power SOT-MRAM-based ADC array to process analog-to-digital conversion operations and improve power efficiency of prior DNN PIMs. Moreover, we revised a traditional NVM-based dot-product engine to accelerate CTC decoding operations, and create a SOT-MRAM binary comparator array to process read voting. Compared to state-of-the-art PIMs, Helix improves base-calling throughput by $6\times$, throughput per Watt by $11.9\times$ and per $mm^2$ by $7.5\times$ without degrading base-calling accuracy.
翻訳日:2022-11-03 01:21:40 公開日:2020-08-04
# 線形メモリによる並列化可能な動的時間ワープアライメント

Exact, Parallelizable Dynamic Time Warping Alignment with Linear Memory ( http://arxiv.org/abs/2008.02734v1 )

ライセンス: Link先を確認
Christopher Tralie, Elizabeth Dempsey(参考訳) オーディオアライメントは多くのMIRパイプラインにおける基本的な前処理ステップである。 mとnのフレームを持つ2つのオーディオクリップに対して、最も一般的なアプローチであるdynamic time warping(dtw)は、メモリと計算の両方においてo(mn)要件を持ち、合理的なレートでのフレームレベルのアライメントは禁止されている。 これを解決するために、DTWコストの最適アライメントを近似するために、様々なメモリ効率のアルゴリズムが存在する。 しかし、我々の知る限り、二次記憶障壁を破ることを保証する正確なアルゴリズムは存在しない。 本研究では,O(M+N)メモリを用いたDTWアライメントを高精度に計算する分割・征服アルゴリズムを提案する。 実行時はまだO(MN)であり、2倍の計算量増加のためにメモリをオフにしている。 しかし、このアルゴリズムは同じメモリ制約でmin(M, N)の係数まで並列化できるため、十分なGPUを備えた教科書版よりも効率的に動作することができる。 このアルゴリズムを用いてオーケストラ音楽の集合の正確なアライメントを計算し、それまで不可能であったスケールでのいくつかの一般的な近似アライメントスキームのアライメント精度のベンチマークを行う。

Audio alignment is a fundamental preprocessing step in many MIR pipelines. For two audio clips with M and N frames, respectively, the most popular approach, dynamic time warping (DTW), has O(MN) requirements in both memory and computation, which is prohibitive for frame-level alignments at reasonable rates. To address this, a variety of memory efficient algorithms exist to approximate the optimal alignment under the DTW cost. To our knowledge, however, no exact algorithms exist that are guaranteed to break the quadratic memory barrier. In this work, we present a divide and conquer algorithm that computes the exact globally optimal DTW alignment using O(M+N) memory. Its runtime is still O(MN), trading off memory for a 2x increase in computation. However, the algorithm can be parallelized up to a factor of min(M, N) with the same memory constraints, so it can still run more efficiently than the textbook version with an adequate GPU. We use our algorithm to compute exact alignments on a collection of orchestral music, which we use as ground truth to benchmark the alignment accuracy of several popular approximate alignment schemes at scales that were not previously possible.
翻訳日:2022-11-03 01:21:01 公開日:2020-08-04
# 効率的な特徴選択と機械学習による大腸潰瘍性大腸炎の検出

Detecting ulcerative colitis from colon samples using efficient feature selection and machine learning ( http://arxiv.org/abs/2008.01615v1 )

ライセンス: Link先を確認
Hanieh Marvi Khorasani, Hamid Usefi, and Lourdes Pe\~na-Castillo(参考訳) 潰瘍性大腸炎 (uc) は大腸粘膜層の炎症を特徴とする炎症性腸疾患 (ibd) の最も一般的な形態の1つである。 UCの診断は臨床症状に基づいており、内視鏡、組織学的、検査所見に基づいて確認される。 機能選択と機械学習はこれまで、特定の疾患の診断を容易にするモデルの作成に用いられてきた。 本研究では,最近開発された機能選択アルゴリズム (drpt) とサポートベクターマシン (svm) を組み合わせることで, 健常者と健常者との識別モデルを作成し, 大腸検体中の32遺伝子の発現値に基づいてucを用いた。 UCのアクティブおよび非アクティブ期間の被験者から得られた大腸サンプルの独立遺伝子発現データセットを用いて本モデルを検証した。 モデルは全症例を完全検出し,不活性例の平均精度は0.62であった。 機械学習(BioDiscML)を用いたバイオマーカー発見のためのソフトウェアが最近発表した実験結果と比較すると,UC検出の最終モデルは平均精度で優れた性能を示した。

Ulcerative colitis (UC) is one of the most common forms of inflammatory bowel disease (IBD) characterized by inflammation of the mucosal layer of the colon. Diagnosis of UC is based on clinical symptoms, and then confirmed based on endoscopic, histologic and laboratory findings. Feature selection and machine learning have been previously used for creating models to facilitate the diagnosis of certain diseases. In this work, we used a recently developed feature selection algorithm (DRPT) combined with a support vector machine (SVM) classifier to generate a model to discriminate between healthy subjects and subjects with UC based on the expression values of 32 genes in colon samples. We validated our model with an independent gene expression dataset of colonic samples from subjects in active and inactive periods of UC. Our model perfectly detected all active cases and had an average precision of 0.62 in the inactive cases. Compared with results reported in previous studies and a model generated by a recently published software for biomarker discovery using machine learning (BioDiscML), our final model for detecting UC shows better performance in terms of average precision.
翻訳日:2022-11-03 01:18:32 公開日:2020-08-04
# スマートビル制御のための強化学習への再学習アプローチ

A Relearning Approach to Reinforcement Learning for Control of Smart Buildings ( http://arxiv.org/abs/2008.01879v1 )

ライセンス: Link先を確認
Avisek Naug and Marcos Qui\~nones-Grueiro and Gautam Biswas(参考訳) 本稿では,インクリメンタル深層強化学習(rl)を用いた制御方針の継続的再学習が,非定常プロセスに対する方針学習を改善することを実証する。 本研究では, 大学構内における大規模建築物のエネルギー消費削減のためのHVACコントローラ開発のためのテストベッドとして, データ駆動型「スマートビルディング環境」の構築を実証する。 建築作業と気象パターンの非定常性は、変化する条件に適応する制御戦略を開発することが不可欠である。 ppo(proximal policy optimization)のようなオンポリシーrlアルゴリズムは、この非定常性に対処するためのアプローチを表しているが、実際のシステムに対する探索は安全クリティカルなシステムのための選択肢ではない。 代替として,全体の快適さを犠牲にすることなく建設エネルギーを同時に削減するインクリメンタルRL技術を開発した。 本稿では,再学習機能を実装しない静的RLコントローラとインクリメンタルRLコントローラの性能を比較した。 静的コントローラの性能は時間とともに大幅に低下するが、リラーニングコントローラは快適性と最適なエネルギー性能を確保しながら、条件変化に適応する。

This paper demonstrates that continual relearning of control policies using incremental deep reinforcement learning (RL) can improve policy learning for non-stationary processes. We demonstrate this approach for a data-driven 'smart building environment' that we use as a test-bed for developing HVAC controllers for reducing energy consumption of large buildings on our university campus. The non-stationarity in building operations and weather patterns makes it imperative to develop control strategies that are adaptive to changing conditions. On-policy RL algorithms, such as Proximal Policy Optimization (PPO) represent an approach for addressing this non-stationarity, but exploration on the actual system is not an option for safety-critical systems. As an alternative, we develop an incremental RL technique that simultaneously reduces building energy consumption without sacrificing overall comfort. We compare the performance of our incremental RL controller to that of a static RL controller that does not implement the relearning function. The performance of the static controller diminishes significantly over time, but the relearning controller adjusts to changing conditions while ensuring comfort and optimal energy performance.
翻訳日:2022-11-03 01:17:18 公開日:2020-08-04
# Photo2Buildingの設計とデプロイ: クラウドベースの手続きモデリングツール

Design and Deployment of Photo2Building: A Cloud-based Procedural Modeling Tool as a Service ( http://arxiv.org/abs/2008.01286v1 )

ライセンス: Link先を確認
Manush Bhatt, Rajesh Kalyanam, Gen Nishida, Liu He, Christopher May, Dev Niyogi, Daniel Aliaga(参考訳) 1枚の写真だけで建物の3Dモデルを作成するためのPhoto2Buildingツールを提案する。 本論文では,ジョブキューイング,Webページのサポート,同時使用のサポートなどを備えたクライアントサーバモデルに変換した,以前のデスクトップバージョンをベースとしています。 報告されたクラウドベースのwebアクセス可能なツールは、平均で40秒で建物を再構築でき、現在の価格でわずか0.60米ドルしかかからない。 これは、都市設計および計画アプリケーションで使用するモデルを構築するための、非常にスケーラブルで、おそらくは広範に使えるツールを提供する。 急速な都市化の気象・気候・資源利用への影響が高まる中、このようなサービスへのアクセスは、都市計画者や世界中の都市気象学者が、都市気象の予測を改善し、将来の気候弾力性のある都市を設計するのに役立つと期待されている。

We present a Photo2Building tool to create a plausible 3D model of a building from only a single photograph. Our tool is based on a prior desktop version which, as described in this paper, is converted into a client-server model, with job queuing, web-page support, and support of concurrent usage. The reported cloud-based web-accessible tool can reconstruct a building in 40 seconds on average and costing only 0.60 USD with current pricing. This provides for an extremely scalable and possibly widespread tool for creating building models for use in urban design and planning applications. With the growing impact of rapid urbanization on weather and climate and resource availability, access to such a service is expected to help a wide variety of users such as city planners, urban meteorologists worldwide in the quest to improved prediction of urban weather and designing climate-resilient cities of the future.
翻訳日:2022-11-03 01:17:00 公開日:2020-08-04
# pai-bpr:属性ごとに解釈可能なパーソナライズされた服装推薦方式

PAI-BPR: Personalized Outfit Recommendation Scheme with Attribute-wise Interpretability ( http://arxiv.org/abs/2008.01780v1 )

ライセンス: Link先を確認
Dikshant Sagar, Jatin Garg, Prarthana Kansal, Sejal Bhalla, Rajiv Ratn Shah and Yi Yu(参考訳) ファッションは人間体験の重要な部分である。 インタビュー、会議、結婚などの行事は衣料品のスタイルに基づいて行われることが多い。 ファッション産業の興隆と社会への影響により、衣装の互換性が求められている。 そのため、衣服推奨者を支援するために、服の互換性モデルが必要である。 しかしながら、互換性の極めて主観的な性質から、パーソナライズを考慮すべきである。 本稿では,ユーザ・アイテム間インタラクションと汎用アイテム間インタラクションを捉えた個人選好モデルを用いた属性別解釈可能な互換性スキームを考案する。 本研究は,ファッションアイテム間の不一致と調和性を見出すことにより,服飾の解釈可能性の問題を解決した。 公開された実世界のデータセットIQON3000の大規模な実験結果から,提案モデルの有効性が検証された。

Fashion is an important part of human experience. Events such as interviews, meetings, marriages, etc. are often based on clothing styles. The rise in the fashion industry and its effect on social influencing have made outfit compatibility a need. Thus, it necessitates an outfit compatibility model to aid people in clothing recommendation. However, due to the highly subjective nature of compatibility, it is necessary to account for personalization. Our paper devises an attribute-wise interpretable compatibility scheme with personal preference modelling which captures user-item interaction along with general item-item interaction. Our work solves the problem of interpretability in clothing matching by locating the discordant and harmonious attributes between fashion items. Extensive experiment results on IQON3000, a publicly available real-world dataset, verify the effectiveness of the proposed model.
翻訳日:2022-11-03 01:16:43 公開日:2020-08-04
# 分節化によるq学習に基づくgencosの行動モデリング

GenCos' Behaviors Modeling Based on Q Learning Improved by Dichotomy ( http://arxiv.org/abs/2008.01536v1 )

ライセンス: Link先を確認
Qiangang Jia, Zhaoyu Hu, Yiyan Li, Zheng Yan, Sijie Chen(参考訳) qラーニングは電力市場におけるジェネレーション企業(gencos)の振る舞いをシミュレートするために広く使われている。 しかし、既存のQ学習法は、通常、多くのイテレーションを収束させる必要があり、実際は時間がかかり非効率である。 計算効率を向上させるため,二分法で改良した新しいq学習アルゴリズムを提案する。 この方法は、状態空間と行動空間ステップを段階的に二分することにより、Qテーブルの更新プロセスを変更する。 反復クールノーゲームにおけるシミュレーション結果は,提案アルゴリズムの有効性を示す。

Q learning is widely used to simulate the behaviors of generation companies (GenCos) in an electricity market. However, existing Q learning method usually requires numerous iterations to converge, which is time-consuming and inefficient in practice. To enhance the calculation efficiency, a novel Q learning algorithm improved by dichotomy is proposed in this paper. This method modifies the update process of the Q table by dichotomizing the state space and the action space step by step. Simulation results in a repeated Cournot game show the effectiveness of the proposed algorithm.
翻訳日:2022-11-03 01:15:30 公開日:2020-08-04
# ADMMを用いた高速非凸$T_2^*$マッピング

Fast Nonconvex $T_2^*$ Mapping Using ADMM ( http://arxiv.org/abs/2008.01806v1 )

ライセンス: Link先を確認
Shuai Huang, James J. Lah, Jason W. Allen, Deqiang Qiu(参考訳) 磁気共鳴(MR)-$T_2^*$マッピングは、様々な臨床応用において出血、石灰化、鉄沈着の研究に広く用いられ、組織における所望のコントラストの直接的かつ正確なマッピングを提供する。 しかし,従来の3次元高分解能な$T_2^*$マッピング法で要求される長い取得時間は,患者の不快を招き,再建された画像に運動アーティファクトを導入し,適用性を制限している。 本稿では,圧縮センシング(CS)を用いたアンダーサンプルデータからT_2^*$マッピングを行うことでこの問題に対処する。 再構成を2つの部分問題に分解可能な非凸問題として定式化する。 これらは標準のアプローチで別々に解くか、あるいは乗算器の交互方向法(admm)によって共同で解くことができる。 スピン密度 $\boldsymbol x_0$ と緩和率 $\boldsymbol r_2^*$ のスパース正規化のみを適用した以前のcsベースのアプローチと比較して,複数のエコーにおける$t_2^*$ 重み付き画像に対するスパース事前化を複数回実施し,復元性能を向上させる。 提案アルゴリズムの収束解析を行い,その性能を生体データ上で評価し,異なるサンプリング方式の効果について検討した。 実験結果から,提案手法は一般に最先端手法,特に低サンプリング率方式よりも優れており,高速な3D $T_2^*$マッピングを現実的に行うことが望ましいことがわかった。 この研究で採用されたフレームワークは、MRや他の非線形結合変数による画像モダリティに起因する他の問題にも容易に拡張できる。

Magnetic resonance (MR)-$T_2^*$ mapping is widely used to study hemorrhage, calcification and iron deposition in various clinical applications, it provides a direct and precise mapping of desired contrast in the tissue. However, the long acquisition time required by conventional 3D high-resolution $T_2^*$ mapping method causes discomfort to patients and introduces motion artifacts to reconstructed images, which limits its wider applicability. In this paper we address this issue by performing $T_2^*$ mapping from undersampled data using compressive sensing (CS). We formulate the reconstruction as a nonconvex problem that can be decomposed into two subproblems. They can be solved either separately via the standard approach or jointly via the alternating direction method of multipliers (ADMM). Compared to previous CS-based approaches that only apply sparse regularization on the spin density $\boldsymbol X_0$ and the relaxation rate $\boldsymbol R_2^*$, our formulation enforces additional sparse priors on the $T_2^*$-weighted images at multiple echoes to improve the reconstruction performance. We performed convergence analysis of the proposed algorithm, evaluated its performance on in vivo data, and studied the effects of different sampling schemes. Experimental results showed that the proposed joint-recovery approach generally outperforms the state-of-the-art method, especially in the low-sampling rate regime, making it a preferred choice to perform fast 3D $T_2^*$ mapping in practice. The framework adopted in this work can be easily extended to other problems arising from MR or other imaging modalities with non-linearly coupled variables.
翻訳日:2022-11-03 01:09:34 公開日:2020-08-04
# ビュー合成のための深層多層パノラマ

Deep Multi Depth Panoramas for View Synthesis ( http://arxiv.org/abs/2008.01815v1 )

ライセンス: Link先を確認
Kai-En Lin, Zexiang Xu, Ben Mildenhall, Pratul P. Srinivasan, Yannick Hold-Geoffroy, Stephen DiVerdi, Qi Sun, Kalyan Sunkavalli, and Ravi Ramamoorthi(参考訳) マルチカメラ360$^{\circ}$ Panorama capture rigs のための新しいビュー合成のための学習に基づくアプローチを提案する。 以前の研究は、そのようなデータからRGBDパノラマを構築し、少量の翻訳でビューを合成できるが、大きな翻訳によって引き起こされる排除やビュー依存効果には対処できない。 この問題に対処するため,我々は,複数のrgbd$\alpha$パノラマで構成され,シーンの形状と外観の両方を表現する,新しいシーン表現であるマルチ深度パノラマ(mdp)を提案する。 マルチカメラ360$^{\circ}$画像からMDPを再構成するディープニューラルネットワークを用いた手法を実証する。 MDPは従来の3Dシーン表現よりもコンパクトであり、高品質で効率的な新しいビューレンダリングを可能にする。 我々は,合成データと実データの両方について実験を行い,学習に基づくアプローチと古典的なrgbdベースの手法の両方にまたがる従来の最先端手法との比較を行った。

We propose a learning-based approach for novel view synthesis for multi-camera 360$^{\circ}$ panorama capture rigs. Previous work constructs RGBD panoramas from such data, allowing for view synthesis with small amounts of translation, but cannot handle the disocclusions and view-dependent effects that are caused by large translations. To address this issue, we present a novel scene representation - Multi Depth Panorama (MDP) - that consists of multiple RGBD$\alpha$ panoramas that represent both scene geometry and appearance. We demonstrate a deep neural network-based method to reconstruct MDPs from multi-camera 360$^{\circ}$ images. MDPs are more compact than previous 3D scene representations and enable high-quality, efficient new view rendering. We demonstrate this via experiments on both synthetic and real data and comparisons with previous state-of-the-art methods spanning both learning-based approaches and classical RGBD-based methods.
翻訳日:2022-11-03 01:09:01 公開日:2020-08-04
# 最前線のジャズ変圧器 : 定量的測定によるAI合成音楽の欠点を探る

The Jazz Transformer on the Front Line: Exploring the Shortcomings of AI-composed Music through Quantitative Measures ( http://arxiv.org/abs/2008.01307v1 )

ライセンス: Link先を確認
Shih-Lun Wu and Yi-Hsuan Yang(参考訳) 本稿では,ジャズ音楽のリードシートのモデル化にtransformer-xlと呼ばれるニューラルシーケンスモデルを用いた生成モデルであるjazz transformerを提案する。 さらに、モデルがWeimar Jazz Database(WJazzD)に存在する構造イベントを組み込んで、生成された音楽の構造を誘導する。 トレーニング損失を低い値に抑えることができるが、聴取テストでは、生成した楽曲の平均評価と実際の構成との明確なギャップが示唆されている。 そこで我々はさらに一歩進んで、異なる観点から生成された合成の一連の計算分析を行う。 これには、ピッチクラス、グルービング、コード進行の統計分析、フィットネススケーププロットの助けを借りて音楽の構造を評価すること、ミレックスのような継続予測タスクを通じてジャズ音楽に対するモデルの理解を評価することが含まれる。 我々の研究は、なぜ現在まで機械生成音楽が人類の芸術に及ばないのか分析的な方法で示し、今後の自動作曲の目標を更に追求する。

This paper presents the Jazz Transformer, a generative model that utilizes a neural sequence model called the Transformer-XL for modeling lead sheets of Jazz music. Moreover, the model endeavors to incorporate structural events present in the Weimar Jazz Database (WJazzD) for inducing structures in the generated music. While we are able to reduce the training loss to a low value, our listening test suggests however a clear gap between the average ratings of the generated and real compositions. We therefore go one step further and conduct a series of computational analysis of the generated compositions from different perspectives. This includes analyzing the statistics of the pitch class, grooving, and chord progression, assessing the structureness of the music with the help of the fitness scape plot, and evaluating the model's understanding of Jazz music through a MIREX-like continuation prediction task. Our work presents in an analytical manner why machine-generated music to date still falls short of the artwork of humanity, and sets some goals for future work on automatic composition to further pursue.
翻訳日:2022-11-03 01:08:45 公開日:2020-08-04
# AIとロボットの権利の公的な認識を集める

Collecting the Public Perception of AI and Robot Rights ( http://arxiv.org/abs/2008.01339v1 )

ライセンス: Link先を確認
Gabriel Lima, Changyeon Kim, Seungho Ryu, Chihyung Jeon, Meeyoung Cha(参考訳) 人工知能(ai)とロボットに権利を与えるかは、欧州議会が先進的なロボットに「電子的個性」を与えることができると提案して以来、センシティブな話題となっている。 その実現を好む、あるいは否定する多くの学者がこの議論に参加した。 本稿では,N=1270の実験を行う。 1) 将来の自律型電子エージェントに付与される可能性のある11の権利に関するオンラインユーザの最初の印象を収集する。 2 提案に関する共通誤解が問題に対する態度を変えるか否かを検討する。 その結果、オンラインユーザーは主にAIとロボットの権利を嫌うが、電子エージェントを残酷な扱いから保護することを支持している(すなわち、残酷な扱いに対する権利を支持する)。 さらに、権利を持つ非人間的存在や神話を否定する言明に関する情報が与えられたことで、人々の認識はより肯定的になった。 aiとロボットの権利を導入するのに使われたスタイルは、参加者が提案をどのように認識するかに大きく影響した。 頑健性のために、米国住民のより代表的なサンプル(n=164)で実験を繰り返し、オンライン利用者や一般住民の認識が類似していることを発見した。

Whether to give rights to artificial intelligence (AI) and robots has been a sensitive topic since the European Parliament proposed advanced robots could be granted "electronic personalities." Numerous scholars who favor or disfavor its feasibility have participated in the debate. This paper presents an experiment (N=1270) that 1) collects online users' first impressions of 11 possible rights that could be granted to autonomous electronic agents of the future and 2) examines whether debunking common misconceptions on the proposal modifies one's stance toward the issue. The results indicate that even though online users mainly disfavor AI and robot rights, they are supportive of protecting electronic agents from cruelty (i.e., favor the right against cruel treatment). Furthermore, people's perceptions became more positive when given information about rights-bearing non-human entities or myth-refuting statements. The style used to introduce AI and robot rights significantly affected how the participants perceived the proposal, similar to the way metaphors function in creating laws. For robustness, we repeated the experiment over a more representative sample of U.S. residents (N=164) and found that perceptions gathered from online users and those by the general population are similar.
翻訳日:2022-11-03 01:08:28 公開日:2020-08-04
# 顔アニメーション信号のリアルタイムクリーニングと高精度化

Real-Time Cleaning and Refinement of Facial Animation Signals ( http://arxiv.org/abs/2008.01332v1 )

ライセンス: Link先を確認
Elo\"ise Berson, Catherine Soladi\'e, Nicolas Stoiber(参考訳) エンターテイメント業界などにおけるリアルタイム3Dコンテンツの需要が高まり、パフォーマンスベースのアニメーションは、学術界と産業界の両方で注目を集めている。 最近のモーションキャプチャアニメーションのソリューションは素晴らしい成果を上げているが、生成されたアニメーションにはしばしばアーティファクトが含まれているため、手作りのポストプロセッシングがしばしば必要である。 既存のリアルタイムモーションキャプチャソリューションは、結果のアニメーションの時間的コヒーレンスを強化し、不正確さを取り除くために、標準的な信号処理方法を選択している。 これらの手法はスムーズな結果をもたらすが、それらは本質的に、高周波過渡運動のような顔の動きのダイナミクスの一部をフィルタリングする。 本研究では,顔の動きの自然なダイナミクスを保存し,あるいは復元するリアルタイムアニメーション精製システムを提案する。 そのため、クリーンなアニメーションデータ上で適切な顔のダイナミックスパターンを学習する、既製のリカレントニューラルネットワークアーキテクチャを活用する。 我々は,信号の時間微分を用いてシステムのパラメータ化を行い,ネットワークが任意のフレームレートでアニメーションを処理できるようにする。 定性的な結果から,本システムは雑音や劣化した入力アニメーションから自然運動信号を検索できることがわかった。

With the increasing demand for real-time animated 3D content in the entertainment industry and beyond, performance-based animation has garnered interest among both academic and industrial communities. While recent solutions for motion-capture animation have achieved impressive results, handmade post-processing is often needed, as the generated animations often contain artifacts. Existing real-time motion capture solutions have opted for standard signal processing methods to strengthen temporal coherence of the resulting animations and remove inaccuracies. While these methods produce smooth results, they inherently filter-out part of the dynamics of facial motion, such as high frequency transient movements. In this work, we propose a real-time animation refining system that preserves -- or even restores -- the natural dynamics of facial motions. To do so, we leverage an off-the-shelf recurrent neural network architecture that learns proper facial dynamics patterns on clean animation data. We parametrize our system using the temporal derivatives of the signal, enabling our network to process animations at any framerate. Qualitative results show that our system is able to retrieve natural motion signals from noisy or degraded input animation.
翻訳日:2022-11-03 01:07:51 公開日:2020-08-04
# 分散非負性テンソル列車分解

Distributed Non-Negative Tensor Train Decomposition ( http://arxiv.org/abs/2008.01340v1 )

ライセンス: Link先を確認
Manish Bhattarai, Gopinath Chennupati, Erik Skau, Raviteja Vangara, Hirsto Djidjev, Boian Alexandrov(参考訳) エクサスケールコンピューティングの時代は、多くの科学、工学、商業分野における革新と発見のための新しい場所を開く。 しかしexaflopsには、高性能コンピューティングによって生成される超大容量の高次元データも含まれる。 高次元データは多次元配列、別名テンソルとして表される。 テンソルにおける潜在構造(直接観測できない)の存在は、古典的なテンソル分解技術によってデータの一意的な表現と圧縮を可能にする。 しかしながら、古典テンソル法は必ずしも安定ではないし、あるいはそのメモリ要件において指数関数的でもあるため、高次元テンソルには適さない。 テンソルトレイン(TT)は、高次元テンソルの分解のために導入された最先端テンソルネットワークである。 tt は、線形保存のみを必要とする三次元テンソルのネットワークにおける初期高次元テンソルを変換する。 密度、温度、人口、確率などの実世界のデータの多くは非負であり、容易に解釈できるため、非負性を保存するアルゴリズムが好ましい。 本稿では,分散非負のテンソルトレインを導入し,そのスケーラビリティと合成および実世界のビッグデータの圧縮を実証する。

The era of exascale computing opens new venues for innovations and discoveries in many scientific, engineering, and commercial fields. However, with the exaflops also come the extra-large high-dimensional data generated by high-performance computing. High-dimensional data is presented as multidimensional arrays, aka tensors. The presence of latent (not directly observable) structures in the tensor allows a unique representation and compression of the data by classical tensor factorization techniques. However, the classical tensor methods are not always stable or they can be exponential in their memory requirements, which makes them not suitable for high-dimensional tensors. Tensor train (TT) is a state-of-the-art tensor network introduced for factorization of high-dimensional tensors. TT transforms the initial high-dimensional tensor in a network of three-dimensional tensors that requires only a linear storage. Many real-world data, such as, density, temperature, population, probability, etc., are non-negative and for an easy interpretation, the algorithms preserving non-negativity are preferred. Here, we introduce a distributed non-negative tensor-train and demonstrate its scalability and the compression on synthetic and real-world big datasets.
翻訳日:2022-11-03 01:07:31 公開日:2020-08-04
# ニューラルネットワークとしての世界

The world as a neural network ( http://arxiv.org/abs/2008.01540v1 )

ライセンス: Link先を確認
Vitaly Vanchurin(参考訳) 我々は、宇宙全体が最も基本的なレベルでニューラルネットワークである可能性について議論する。 我々は「訓練可能な」変数(バイアスベクトルや重み行列など)と「隠れた」変数(ニューロンの状態ベクトルなど)の2種類の動的自由度を同定する。 まず、トレーニング可能な変数の確率的進化を考えると、それらの力学はマドルング方程式(位相を表す自由エネルギーを持つ)によってよく近似され、さらにハミルトン-ヤコビ方程式(ハミルトンの主函数を表す自由エネルギーを持つ)によって平衡から遠ざかっている。 このことは、訓練可能な変数は、隠れた変数を表すニューロンの状態ベクトルで古典的および量子的挙動を示すことができることを示している。 次に、隠れ変数の確率的進化について、平均状態ベクトルを持つ非相互作用部分系$D$、平均状態ベクトル$\bar{\bf x}^{1}$、..., $\bar{\bf x}^{D}$、および全体平均状態ベクトル$\bar{\bf x}^{0}$を考える。 重み行列が置換行列である極限において、$\bar{\bf x}^{\mu}$ の力学は、創発的な$d+1$ 次元ミンコフスキー時空における相対論的弦の項で記述できる。 もしサブシステムが最小相互作用であり、計量テンソルによって記述された相互作用を持つならば、創発的な時空は湾曲する。 そのような系におけるエントロピー生成は計量テンソルの局所関数であり、オンサーガーテンソルの対称性によって決定されるべきである。 非常に単純で高度に対称なオンサーガーテンソルがアインシュタイン・ヒルベルト項によって記述されたエントロピー生成につながることが判明した。 これは、ニューラルネットワークの学習ダイナミクスが、量子力学と一般相対性理論の両方によって記述された近似的な振る舞いを示すことができることを示している。 また、2つの記述が互いにホログラム双対である可能性についても論じる。

We discuss a possibility that the entire universe on its most fundamental level is a neural network. We identify two different types of dynamical degrees of freedom: "trainable" variables (e.g. bias vector or weight matrix) and "hidden" variables (e.g. state vector of neurons). We first consider stochastic evolution of the trainable variables to argue that near equilibrium their dynamics is well approximated by Madelung equations (with free energy representing the phase) and further away from the equilibrium by Hamilton-Jacobi equations (with free energy representing the Hamilton's principal function). This shows that the trainable variables can indeed exhibit classical and quantum behaviors with the state vector of neurons representing the hidden variables. We then study stochastic evolution of the hidden variables by considering $D$ non-interacting subsystems with average state vectors, $\bar{\bf x}^{1}$, ..., $\bar{\bf x}^{D}$ and an overall average state vector $\bar{\bf x}^{0}$. In the limit when the weight matrix is a permutation matrix, the dynamics of $\bar{\bf x}^{\mu}$ can be described in terms of relativistic strings in an emergent $D+1$ dimensional Minkowski space-time. If the subsystems are minimally interacting, with interactions described by a metric tensor, then the emergent space-time becomes curved. We argue that the entropy production in such a system is a local function of the metric tensor which should be determined by the symmetries of the Onsager tensor. It turns out that a very simple and highly symmetric Onsager tensor leads to the entropy production described by the Einstein-Hilbert term. This shows that the learning dynamics of a neural network can indeed exhibit approximate behaviors described by both quantum mechanics and general relativity. We also discuss a possibility that the two descriptions are holographic duals of each other.
翻訳日:2022-11-03 01:07:04 公開日:2020-08-04
# 低パスグラフ信号処理のためのユーザガイドとその応用

A User Guide to Low-Pass Graph Signal Processing and its Applications ( http://arxiv.org/abs/2008.01305v1 )

ライセンス: Link先を確認
Raksha Ramakrishna, Hoi-To Wai, Anna Scaglione(参考訳) グラフフィルタの概念は、グラフデータの生成モデルを定義するのに使うことができる。 実際、ネットワークダイナミクスの多くの例から得られたデータはグラフフィルタの出力と見なすことができる。 この解釈により、周波数分析のような古典的な信号処理ツールはグラフデータに対する類似の解釈にうまく適用され、データ科学の新しい洞察を生み出す。 グラフフィルタは、生成するグラフフィルタが低パスである特定の種類のグラフデータに対するユーザガイド、すなわち、フィルタは、低周波のコンテンツを保持しながら、高次グラフ周波数のコンテンツを減衰させる。 私たちの選択は、ソーシャルネットワーク、金融市場、電力システムといったアプリケーションドメインにおける低パスモデルの普及によるものです。 グラフトポロジを学習したり,そのコミュニティ構造を識別するために,低域グラフフィルタの特性を利用する方法,サンプリングによるグラフデータの効率的な表現,計測の欠如の回復,グラフデータのデノイズ化などについて説明する。

The notion of graph filters can be used to define generative models for graph data. In fact, the data obtained from many examples of network dynamics may be viewed as the output of a graph filter. With this interpretation, classical signal processing tools such as frequency analysis have been successfully applied with analogous interpretation to graph data, generating new insights for data science. What follows is a user guide on a specific class of graph data, where the generating graph filters are low-pass, i.e., the filter attenuates contents in the higher graph frequencies while retaining contents in the lower frequencies. Our choice is motivated by the prevalence of low-pass models in application domains such as social networks, financial markets, and power systems. We illustrate how to leverage properties of low-pass graph filters to learn the graph topology or identify its community structure; efficiently represent graph data through sampling, recover missing measurements, and de-noise graph data; the low-pass property is also used as the baseline to detect anomalies.
翻訳日:2022-11-03 01:01:01 公開日:2020-08-04
# 複雑な対話システムの形式的検証のための概念的作業物の意味的モデル

Semantic based model of Conceptual Work Products for formal verification of complex interactive systems ( http://arxiv.org/abs/2008.01623v1 )

ライセンス: Link先を確認
Mohcine Madkour, Keith Butler, Eric Mercer, Ali Bahrami, Cui Tao(参考訳) 多くの臨床ワークフローは、診断、治療計画、ケアコーディネーション、ケースマネジメントなど、高度に技術的で概念的な作業製品のための対話型コンピュータシステムに依存している。 我々は,これらの高度に技術的だが抽象的な作業製品に対して客観的な仕様を検証する自動論理推論器について述べる。 概念ワークプロダクトの仕様は基本的な出力要件として機能し、明確に述べられ、正しく、解決されなければならない。 このような仕様は、システムモデルチェックによって、ユーザプロシージャで取られたマシン機能が、実際にこれらの抽象的な製品を達成することができるかどうかを検証できるため、戦略的に重要である。 難治性難治性多発性硬化症 (MS) の症例管理を症例として選択した。 第1のステップとして、umlのグラフィカルクラスと状態ダイアグラムが、ケースマネジメントの概念的なワークプロダクトの仕様として機能するために、主題の専門家とどのように開発され、批判されるかを説明します。 重要な特徴は、仕様が宣言的であり、従っていかなるプロセスや技術にも依存していないことである。 セマンティックWebのツールを使った作業ドメインオントロジーは、自動推論による解決可能性の検証のためにUMLクラスと状態図を翻訳するために必要です。 解決可能なモデルは、ヒューマンプロシージャとマシン機能のシステムに対するモデルチェックで、その後の使用に備えられる。 我々は、表現型ルール言語SPARQL Inference Notation(SPIN)を使用して、UMLクラス図、状態マシン、およびそれらの相互作用の形式表現を開発しました。 SPINを用いて静的概念と動的概念の相互作用の整合性を実証した。 我々は新しいSPINルールエンジンをオブジェクト管理グループ(OMG)オントロジー定義メタモデル(ODM)に組み込む方法について論じた。

Many clinical workflows depend on interactive computer systems for highly technical, conceptual work products, such as diagnoses, treatment plans, care coordination, and case management. We describe an automatic logic reasoner to verify objective specifications for these highly technical, but abstract, work products that are essential to care. The conceptual work products specifications serve as a fundamental output requirement, which must be clearly stated, correct and solvable. There is strategic importance for such specifications because, in turn, they enable system model checking to verify that machine functions taken with user procedures are actually able to achieve these abstract products. We chose case management of Multiple Sclerosis (MS) outpatients as our use case for its challenging complexity. As a first step, we illustrate how graphical class and state diagrams from UML can be developed and critiqued with subject matter experts to serve as specifications of the conceptual work product of case management. A key feature is that the specification must be declarative and thus independent of any process or technology. Our Work Domain Ontology with tools from Semantic Web is needed to translate UML class and state diagrams for verification of solvability with automatic reasoning. The solvable model will then be ready for subsequent use with model checking on the system of human procedures and machine functions. We used the expressive rule language SPARQL Inferencing Notation (SPIN) to develop formal representations of the UML class diagram, the state machine, and their interactions. Using SPIN, we proved the consistency of the interactions of static and dynamic concepts. We discussed how the new SPIN rule engine could be incorporated in the Object Management Group (OMG) Ontology Definition Metamodel (ODM)
翻訳日:2022-11-03 01:00:45 公開日:2020-08-04
# 「これはヒューストンです。もう一度言ってください」 アポロ11号Fearless Steps ChallengeのためのBehavoxシステム(フェーズII)

"This is Houston. Say again, please". The Behavox system for the Apollo-11 Fearless Steps Challenge (phase II) ( http://arxiv.org/abs/2008.01504v1 )

ライセンス: Link先を確認
Arseniy Gorin, Daniil Kulko, Steven Grima, Alex Glasman(参考訳) 音声活動検出(SAD)、話者ダイアリゼーション(SD)、およびBehavoxチームによるFearless Steps Challenge(FSC-2)のための自動音声認識(ASR)実験について述べる。 比較的少量のラベル付きデータ、多種多様な話者とチャネルの歪み、特定のレキシコンとスピーキングスタイルは、このデータを含むシステムに高いエラー率をもたらした。 約36時間のアノテートされたNASAのミッション記録に加えて、オーガナイザはより大きくてラベルなしの19k時間アポロ11コーパスを提供し、AFR音響モデルと言語モデルの半教師付きトレーニングを探索し、FSC-2データのみのトレーニングに比べて17%以上の相対的な単語エラー率の改善を観測した。 また、複数のSADとSDシステムを比較し、課題の最も難しいトラック(ダイアリゼーション用トラック1とASR用トラック1)にアプローチし、長い30分間の音声記録をセグメント化や話者情報なしで評価する。 全システムについて、FSC-2ベースラインシステムと比較して大幅な性能向上を報告し、SDとASRでは1位、SADでは4位となった。

We describe the speech activity detection (SAD), speaker diarization (SD), and automatic speech recognition (ASR) experiments conducted by the Behavox team for the Interspeech 2020 Fearless Steps Challenge (FSC-2). A relatively small amount of labeled data, a large variety of speakers and channel distortions, specific lexicon and speaking style resulted in high error rates on the systems which involved this data. In addition to approximately 36 hours of annotated NASA mission recordings, the organizers provided a much larger but unlabeled 19k hour Apollo-11 corpus that we also explore for semi-supervised training of ASR acoustic and language models, observing more than 17% relative word error rate improvement compared to training on the FSC-2 data only. We also compare several SAD and SD systems to approach the most difficult tracks of the challenge (track 1 for diarization and ASR), where long 30-minute audio recordings are provided for evaluation without segmentation or speaker information. For all systems, we report substantial performance improvements compared to the FSC-2 baseline systems, and achieved a first-place ranking for SD and ASR and fourth-place for SAD in the challenge.
翻訳日:2022-11-03 01:00:18 公開日:2020-08-04
# 視覚的嗜好モデルを用いた服装推薦におけるコールドスタート問題への取り組み

Addressing the Cold-Start Problem in Outfit Recommendation Using Visual Preference Modelling ( http://arxiv.org/abs/2008.01437v1 )

ライセンス: Link先を確認
Dhruv Verma, Kshitij Gulati and Rajiv Ratn Shah(参考訳) ファッション産業のグローバルな変化と、世界中のファッションアイテムの需要の高まりにより、効果的なファッションレコメンデーションの必要性はもはや高まっていない。 ファッションレコメンデーションをパーソナライズするための様々な最先端のソリューションが提案されたが、新しいエンティティ、すなわちコールドスタート問題に対するパフォーマンスの低さにより、この技術は依然として制限されている。 本稿では,少数の入力画像に対して,新しい視覚的嗜好モデリングアプローチを活用することで,新しいユーザにとってのコールドスタート問題に対処する。 このアプローチを機能重み付けクラスタリングを用いて,時折実施する服装推薦をパーソナライズする方法について紹介する。 定量的には,提案手法が衣服属性予測の観点で美術品の状態を上回っていることを示す。 定量的に,本システムの有効性を実証し,コールドスタートシナリオにおいて多様でパーソナライズされたレコメンデーションを提供する。

With the global transformation of the fashion industry and a rise in the demand for fashion items worldwide, the need for an effectual fashion recommendation has never been more. Despite various cutting-edge solutions proposed in the past for personalising fashion recommendation, the technology is still limited by its poor performance on new entities, i.e. the cold-start problem. In this paper, we attempt to address the cold-start problem for new users, by leveraging a novel visual preference modelling approach on a small set of input images. We demonstrate the use of our approach with feature-weighted clustering to personalise occasion-oriented outfit recommendation. Quantitatively, our results show that the proposed visual preference modelling approach outperforms state of the art in terms of clothing attribute prediction. Qualitatively, through a pilot study, we demonstrate the efficacy of our system to provide diverse and personalised recommendations in cold-start scenarios.
翻訳日:2022-11-03 00:58:54 公開日:2020-08-04
# 弱教師付き物体定位のためのエントロピー誘導逆モデル

Entropy Guided Adversarial Model for Weakly Supervised Object Localization ( http://arxiv.org/abs/2008.01786v1 )

ライセンス: Link先を確認
Sabrina Narimene Benassou, Wuzhen Shi, Feng Jiang(参考訳) 境界ボックスアノテーションがないため、弱い教師付きオブジェクトローカライゼーションは困難である。 以前の作業では、オブジェクトをローカライズするためにクラスアクティベーションマップ、すなわちCAMを生成する傾向がある。 残念ながら、ネットワークはオブジェクトを識別する機能のみを起動し、オブジェクト全体をアクティベートしない。 あるメソッドは、CNNが他の特徴を検出するためにオブジェクトの一部を取り除く傾向があり、他のメソッドは、モデルの異なるレベルから複数のCAMを生成するためにネットワーク構造を変更する。 本稿では,ネットワークの一般化能力を生かして,クリーンな例と逆例を用いてモデルを学習し,オブジェクト全体をローカライズする手法を提案する。 逆向きの例は通常、頑健なモデルを訓練するために使われ、摂動が加えられた画像である。 適切な分類精度を得るために、逆の例で訓練されたcnnは、オブジェクトを識別するより多くの特徴を検出せざるを得ない。 我々は、トレーニング中にネットワークが生成したCAMにシャノンエントロピーを適用して誘導することを提案する。 提案手法は画像のどの部分も消去しないが,ネットワークのアーカイブを変更することはなく,広範な実験により,エントロピー誘導アドバーサリアンモデル(egaモデル)により,画像のローカライズと分類の精度が向上した。

Weakly Supervised Object Localization is challenging because of the lack of bounding box annotations. Previous works tend to generate a class activation map i.e CAM to localize the object. Unfortunately, the network activates only the features that discriminate the object and does not activate the whole object. Some methods tend to remove some parts of the object to force the CNN to detect other features, whereas, others change the network structure to generate multiple CAMs from different levels of the model. In this present article, we propose to take advantage of the generalization ability of the network and train the model using clean examples and adversarial examples to localize the whole object. Adversarial examples are typically used to train robust models and are images where a perturbation is added. To get a good classification accuracy, the CNN trained with adversarial examples is forced to detect more features that discriminate the object. We futher propose to apply the shannon entropy on the CAMs generated by the network to guide it during training. Our method does not erase any part of the image neither does it change the network architecure and extensive experiments show that our Entropy Guided Adversarial model (EGA model) improved performance on state of the arts benchmarks for both localization and classification accuracy.
翻訳日:2022-11-03 00:52:06 公開日:2020-08-04
# 長距離制約付き高分解能ニューラルネットワークテクスチャ合成

High resolution neural texture synthesis with long range constraints ( http://arxiv.org/abs/2008.01808v1 )

ライセンス: Link先を確認
Nicolas Gonthier and Yann Gousseau and Sa\"id Ladjal(参考訳) テクスチャ合成の分野は、特に畳み込みニューラルネットワークの利用によって、ここ数年で重要な進歩を遂げている。 しかし、ニューラルシンセシス法はまだ大規模な構造、特に高分解能テクスチャの再現に苦慮している。 この問題に対処するため,我々はまず,長距離依存性を効率的に考慮した簡易なマルチレゾリューションフレームワークを導入する。 次に,追加の統計的制約により,より規則性の高いテクスチャの再現性が向上することを示す。 これは、ニューラルネットワークのグラム行列と画像のパワースペクトルの両方を制約することで実現できる。 あるいは、ネットワークの特徴の自己相関のみを制約し、グラム行列の制約を落としてもよい。 実験では,提案手法を検証し,教師なしの方法とユーザ調査による方法とを比較した。 実験は、高解像度テクスチャのためのマルチスケールスキームの関心と、それを通常のテクスチャのための追加制約と組み合わせることに興味を示す。

The field of texture synthesis has witnessed important progresses over the last years, most notably through the use of Convolutional Neural Networks. However, neural synthesis methods still struggle to reproduce large scale structures, especially with high resolution textures. To address this issue, we first introduce a simple multi-resolution framework that efficiently accounts for long-range dependency. Then, we show that additional statistical constraints further improve the reproduction of textures with strong regularity. This can be achieved by constraining both the Gram matrices of a neural network and the power spectrum of the image. Alternatively one may constrain only the autocorrelation of the features of the network and drop the Gram matrices constraints. In an experimental part, the proposed methods are then extensively tested and compared to alternative approaches, both in an unsupervised way and through a user study. Experiments show the interest of the multi-scale scheme for high resolution textures and the interest of combining it with additional constraints for regular textures.
翻訳日:2022-11-03 00:51:44 公開日:2020-08-04
# セマンティクスセグメンテーションにおけるアクティブラーニングにおける自己一貫性の重要性

Importance of Self-Consistency in Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2008.01860v1 )

ライセンス: Link先を確認
S. Alireza Golestaneh, Kris M. Kitani(参考訳) セマンティックセグメンテーション(セマンティックセグメンテーション)の文脈におけるアクティブラーニングの課題に対処し、少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を大幅に向上させるために、自己整合性が自己超越の強力な源となることを示す。 自己整合性(Self-Consistency)は、水平反転のような変換の下で、特定の画像に対するセマンティックセグメンテーションの結果が変化すべきでないという単純な観察を用いている。 言い換えれば、モデルの出力は同変変換の下で一貫性を持つべきである。 ラベル付きトレーニングデータが少ない場合, モデルが過度に適合する傾向にあるため, 自己整合性の自己監督信号は, アクティブラーニングにおいて特に有用である。 提案するアクティブラーニングフレームワークでは,同変変換下で不確実性の高い画像パッチを選択することにより,ラベル付けが必要な小さな画像パッチを反復的に抽出する。 画像ごとのセグメンテーションネットワークの出力と変換(水平反転)との間の画素単位の自己整合性を適用し、リッチなセルフスーパーバイザ情報を活用し、ネットワークの不確実性を低減させる。 このようにして、現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。 これらの困難なイメージパッチを反復的にトレーニングすることで、我々のアクティブな学習アプローチが、ベンチマークセマンティックセグメンテーションデータセット(CamVidやCityscapesなど)の総データ12ドル%だけを使用することで、すべてのデータでトレーニングされたモデルの最高パフォーマンスの$\sim96\%に達することを示しています。

We address the task of active learning in the context of semantic segmentation and show that self-consistency can be a powerful source of self-supervision to greatly improve the performance of a data-driven model with access to only a small amount of labeled data. Self-consistency uses the simple observation that the results of semantic segmentation for a specific image should not change under transformations like horizontal flipping (i.e., the results should only be flipped). In other words, the output of a model should be consistent under equivariant transformations. The self-supervisory signal of self-consistency is particularly helpful during active learning since the model is prone to overfitting when there is only a small amount of labeled training data. In our proposed active learning framework, we iteratively extract small image patches that need to be labeled, by selecting image patches that have high uncertainty (high entropy) under equivariant transformations. We enforce pixel-wise self-consistency between the outputs of segmentation network for each image and its transformation (horizontally flipped) to utilize the rich self-supervisory information and reduce the uncertainty of the network. In this way, we are able to find the image patches over which the current model struggles the most to classify. By iteratively training over these difficult image patches, our experiments show that our active learning approach reaches $\sim96\%$ of the top performance of a model trained on all data, by using only $12\%$ of the total data on benchmark semantic segmentation datasets (e.g., CamVid and Cityscapes).
翻訳日:2022-11-03 00:51:26 公開日:2020-08-04
# 深層学習によるヒト間葉系幹細胞から骨肉腫細胞分類へ

From Human Mesenchymal Stromal Cells to Osteosarcoma Cells Classification by Deep Learning ( http://arxiv.org/abs/2008.01864v1 )

ライセンス: Link先を確認
Mario D'Acunto, Massimo Martinelli, Davide Moroni(参考訳) 早期がんの診断は、しばしば治療の機会をより広く選択することができる。 がん診断の後、ステージングは体内の疾患の程度と特定の治療に対する期待された反応に関する重要な情報を提供する。 早期のがん患者を高リスクまたは低リスクグループに分類することの重要性は, バイオメディカルおよびバイオインフォマティクスの分野から, 深層学習(DL)法の応用研究まで, 多くの研究チームを導いている。 複雑なデータセットから重要な特徴を検出するDLの能力は、早期診断と細胞癌の進行において重要な成果である。 本稿では骨肉腫に焦点をあてる。 骨肉腫は原発性悪性骨腫瘍の1つで、通常は青年期に苦しむ。 ヒト間葉系間質細胞(mscs)を骨肉腫細胞から識別し,調査中の異なる細胞集団を分類するためにdlアプローチを適用した。 健全な骨細胞(骨芽細胞)と骨肉腫細胞(単細胞または混合細胞)で分化したmscを含む異種細胞集団のガラススライドを培養した。 このような単離された細胞の画像(単一型混合)は、伝統的な光学顕微鏡で記録される。 DLは単一細胞の同定と分類に使用される。 細胞検出と分類問題に対処する畳み込みニューラルネットワークの能力を評価するために、適切なデータ拡張技術とクロスフォールド検証が使用される。 個々の細胞で得られた結果と、我々のDLアプローチの汎用性とスケーラビリティに基づいて、次のステップは、健康組織やがん組織を識別・分類し、デジタル病理を進歩させるための応用である。

Early diagnosis of cancer often allows for a more vast choice of therapy opportunities. After a cancer diagnosis, staging provides essential information about the extent of disease in the body and the expected response to a particular treatment. The leading importance of classifying cancer patients at the early stage into high or low-risk groups has led many research teams, both from the biomedical and bioinformatics field, to study the application of Deep Learning (DL) methods. The ability of DL to detect critical features from complex datasets is a significant achievement in early diagnosis and cell cancer progression. In this paper, we focus the attention on osteosarcoma. Osteosarcoma is one of the primary malignant bone tumors which usually afflicts people in adolescence. Our contribution to the classification of osteosarcoma cells is made as follows: a DL approach is applied to discriminate human Mesenchymal Stromal Cells (MSCs) from osteosarcoma cells and to classify the different cell populations under investigation. Glass slides of differ-ent cell populations were cultured including MSCs, differentiated in healthy bone cells (osteoblasts) and osteosarcoma cells, both single cell populations or mixed. Images of such samples of isolated cells (single-type of mixed) are recorded with traditional optical microscopy. DL is then applied to identify and classify single cells. Proper data augmentation techniques and cross-fold validation are used to appreciate the capabilities of a convolutional neural network to address the cell detection and classification problem. Based on the results obtained on individual cells, and to the versatility and scalability of our DL approach, the next step will be its application to discriminate and classify healthy or cancer tissues to advance digital pathology.
翻訳日:2022-11-03 00:50:54 公開日:2020-08-04
# 正当性分析のための爆発ゲーム理論

Exploiting Game Theory for Analysing Justifications ( http://arxiv.org/abs/2008.01609v1 )

ライセンス: Link先を確認
Simon Marynissen, Bart Bogaerts and Marc Denecker(参考訳) 正当化理論は統一的な意味論である。 それは非単調論理にルーツを持つが、特に説明可能な推論において、計算機科学の様々な分野に適用することができる。 本稿では,三大貢献による正当化理論の研究を継続する。 まず、正当化理論とゲーム理論の関係を研究する。 正当化フレームワークは、特別な種類のゲームと見なすことができる。 確立された接続は、次の2つの貢献の理論的基礎を提供します。 第2の貢献は、正当化理論の2つの異なる方言(説明としてのグラフと説明としての木)が一致する条件下での研究である。 第3の貢献は、正当化理論によって引き起こされる意味論が一貫した結果をもたらすときの正確な基準を確立することである。 過去にそのような意味論が一貫していることを証明するには、面倒で精巧な証明が必要だった。 これらの基準は、論理プログラミングの一般的なセマンティクスに本当に満足していることを示す。 本稿では,論理プログラミングの理論と実践(TPLP)の受容について検討する。

Justification theory is a unifying semantic framework. While it has its roots in non-monotonic logics, it can be applied to various areas in computer science, especially in explainable reasoning; its most central concept is a justification: an explanation why a property holds (or does not hold) in a model. In this paper, we continue the study of justification theory by means of three major contributions. The first is studying the relation between justification theory and game theory. We show that justification frameworks can be seen as a special type of games. The established connection provides the theoretical foundations for our next two contributions. The second contribution is studying under which condition two different dialects of justification theory (graphs as explanations vs trees as explanations) coincide. The third contribution is establishing a precise criterion of when a semantics induced by justification theory yields consistent results. In the past proving that such semantics were consistent took cumbersome and elaborate proofs. We show that these criteria are indeed satisfied for all common semantics of logic programming. This paper is under consideration for acceptance in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-11-03 00:49:04 公開日:2020-08-04
# aiの進歩を予測する:研究課題

Forecasting AI Progress: A Research Agenda ( http://arxiv.org/abs/2008.01848v1 )

ライセンス: Link先を確認
Ross Gruetzemacher, Florian Dorner, Niko Bernaola-Alvarez, Charlie Giattino, David Manheim(参考訳) AIの安全性とAIガバナンスに関する研究努力を適切に計画するためには、不確実性を減らすためにAIの進歩を予測することが不可欠である。 これは一般的には重要な話題であると考えられているが、ほとんど研究が行われておらず、その分野を概観する文書は公開されていない。 さらに、分野は非常に多様であり、その方向性に関するコンセンサスも公表されていない。 本稿では,Delphi技術を利用したAIの進歩を予測するための研究課題の開発について述べる。 論文の残りはこれらの結果の構造に従い、関連する文献を簡潔にレビューし、各トピックに対する今後の作業を提案する。 専門家は、AIの進捗を予測するための様々な方法を検討するべきだと述べた。 さらに専門家は、AIの進歩を予測する問題に対して、一般的かつ完全に独特な有能な質問を特定した。 最も優先度の高いトピックには、(部分的に解決されていない)予測の検証、予測アクションガイドの方法、さまざまなパフォーマンスメトリクスの品質などがあります。 統計的手法はより有望に思われるが、判断技法を補うことは極めて有益であるという認識もある。

Forecasting AI progress is essential to reducing uncertainty in order to appropriately plan for research efforts on AI safety and AI governance. While this is generally considered to be an important topic, little work has been conducted on it and there is no published document that gives and objective overview of the field. Moreover, the field is very diverse and there is no published consensus regarding its direction. This paper describes the development of a research agenda for forecasting AI progress which utilized the Delphi technique to elicit and aggregate experts' opinions on what questions and methods to prioritize. The results of the Delphi are presented; the remainder of the paper follow the structure of these results, briefly reviewing relevant literature and suggesting future work for each topic. Experts indicated that a wide variety of methods should be considered for forecasting AI progress. Moreover, experts identified salient questions that were both general and completely unique to the problem of forecasting AI progress. Some of the highest priority topics include the validation of (partially unresolved) forecasts, how to make forecasting action-guiding and the quality of different performance metrics. While statistical methods seem more promising, there is also recognition that supplementing judgmental techniques can be quite beneficial.
翻訳日:2022-11-03 00:48:50 公開日:2020-08-04
# 自律型AI法理推論のためのオントロジーAIとローフレームワーク

An Ontological AI-and-Law Framework for the Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.07328v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) AILR(Artificial Intelligence and Legal Reasoning)の領域を明確にした、堅牢な自律レベルを識別し、確立するためのフレームワークが提案されている。 そうすることで、AIの法への応用の進歩を評価するための健全で同義的な基礎を提供し、学者によってAI法理学の学術的な追求に利用され、また、法律実務家や法律専門家が、AIの進歩がどのように法律の実践を支援しているか、そして、達成された結果に対する願望の実現に利用することができる。 aiと法的推論のための7つのレベルの自律性は細心の注意を払い、慎重に議論される。

A framework is proposed that seeks to identify and establish a set of robust autonomous levels articulating the realm of Artificial Intelligence and Legal Reasoning (AILR). Doing so provides a sound and parsimonious basis for being able to assess progress in the application of AI to the law, and can be utilized by scholars in academic pursuits of AI legal reasoning, along with being used by law practitioners and legal professionals in gauging how advances in AI are aiding the practice of law and the realization of aspirational versus achieved results. A set of seven levels of autonomy for AI and Legal Reasoning are meticulously proffered and mindfully discussed.
翻訳日:2022-11-03 00:48:32 公開日:2020-08-04
# cylinder3d: 運転-シーンのlidarセマンティクスセグメンテーションのための効果的な3dフレームワーク

Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation ( http://arxiv.org/abs/2008.01550v1 )

ライセンス: Link先を確認
Hui Zhou, Xinge Zhu, Xiao Song, Yuexin Ma, Zhe Wang, Hongsheng Li, Dahua Lin(参考訳) 大規模運転-シーンlidarセマンティクスセグメンテーションのための最先端手法は、しばしば2次元空間内の点雲を投影して処理する。 投影方法は球面投影、鳥眼視投影などを含む。 このプロセスは2d cnnベースのネットワークに適しているが、3dトポロジーと幾何学的関係を必然的に変更し放棄する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。 本研究では,まず2次元空間と3次元空間の異なる表現とバックボーンの詳細な解析を行い,LiDARセグメンテーションにおける3次元表現とネットワークの有効性を明らかにする。 次に,3次元シリンダ分割と3次元シリンダ畳み込みに基づく枠組みであるシリンダ3dを開発した。 さらに, 次元分解型コンテキストモデリングモジュールを導入し, 点群内の高次コンテキスト情報を漸進的に探索する。 本研究では,大規模運転シーンデータセット,すなわちSematicKITTIを用いて提案モデルを評価する。 提案手法は最先端性能を実現し,mIoUで既存手法を6%上回っている。

State-of-the-art methods for large-scale driving-scene LiDAR semantic segmentation often project and process the point clouds in the 2D space. The projection methods includes spherical projection, bird-eye view projection, etc. Although this process makes the point cloud suitable for the 2D CNN-based networks, it inevitably alters and abandons the 3D topology and geometric relations. A straightforward solution to tackle the issue of 3D-to-2D projection is to keep the 3D representation and process the points in the 3D space. In this work, we first perform an in-depth analysis for different representations and backbones in 2D and 3D spaces, and reveal the effectiveness of 3D representations and networks on LiDAR segmentation. Then, we develop a 3D cylinder partition and a 3D cylinder convolution based framework, termed as Cylinder3D, which exploits the 3D topology relations and structures of driving-scene point clouds. Moreover, a dimension-decomposition based context modeling module is introduced to explore the high-rank context information in point clouds in a progressive manner. We evaluate the proposed model on a large-scale driving-scene dataset, i.e. SematicKITTI. Our method achieves state-of-the-art performance and outperforms existing methods by 6% in terms of mIoU.
翻訳日:2022-11-03 00:42:31 公開日:2020-08-04
# コンセンサス最大化とモデル適合

Simultaneous Consensus Maximization and Model Fitting ( http://arxiv.org/abs/2008.01574v1 )

ライセンス: Link先を確認
Fei Wen, Hewen Wei, Yipeng Liu, and Peilin Liu(参考訳) 最大コンセンサス(MC)ロバストフィッティングは、生データを処理するための低レベルのビジョンにおける根本的な問題である。 典型的には、まずは不合理集合を見つけ、その後、コンセンサス集合上のモデルに適合する。 本研究は,従来のMCロバストフィッティングと比較して2つの重要な特徴を有する,MCMEの同時最大コンセンサスとモデル推定を実現するための新しい定式化を提案する。 第一に、不整合の発見において不整合残差を考慮すると、モデルフィッティングの達成可能な残差はMCロバストフィッティングよりも低い。 第2に、二項変数を含む制約のない定式化があり、基礎となる挑戦的組合せ最適化問題に対処するための効果的な半定義緩和(sdr)法の使用が容易である。 sdrの後はまだ非凸であるが、いくつかのアプリケーションではbiconvexとなり、交互最小化アルゴリズムを用いて解決する。 さらに、この問題を低ランク因子化と組み合わせて、効率の良いアルゴリズムを開発する。 実験の結果,MCMEはRANSAC法と決定論的近似MC法を高い出力比で著しく上回ることがわかった。 さらに、回転とユークリッドの登録では、特に高ノイズと異常値の場合、最先端の登録法と比較する。 コードは \textit{https://github.com/fwen/mcme.git}で入手できる。

Maximum consensus (MC) robust fitting is a fundamental problem in low-level vision to process raw-data. Typically, it firstly finds a consensus set of inliers and then fits a model on the consensus set. This work proposes a new formulation to achieve simultaneous maximum consensus and model estimation (MCME), which has two significant features compared with traditional MC robust fitting. First, it takes fitting residual into account in finding inliers, hence its lowest achievable residual in model fitting is lower than that of MC robust fitting. Second, it has an unconstrained formulation involving binary variables, which facilitates the use of the effective semidefinite relaxation (SDR) method to handle the underlying challenging combinatorial optimization problem. Though still nonconvex after SDR, it becomes biconvex in some applications, for which we use an alternating minimization algorithm to solve. Further, the sparsity of the problem is exploited in combination with low-rank factorization to develop an efficient algorithm. Experiments show that MCME significantly outperforms RANSAC and deterministic approximate MC methods at high outlier ratios. Besides, in rotation and Euclidean registration, it also compares favorably with state-of-the-art registration methods, especially in high noise and outliers. Code is available at \textit{https://github.com/FWen/mcme.git}.
翻訳日:2022-11-03 00:42:08 公開日:2020-08-04
# LEGO多ラベル画像分類タスクにおけるLIMEおよびGrad-CAM説明手法の性能評価

Evaluating the performance of the LIME and Grad-CAM explanation methods on a LEGO multi-label image classification task ( http://arxiv.org/abs/2008.01584v1 )

ライセンス: Link先を確認
David Cian, Jan van Gemert, Attila Lengyel(参考訳) 本稿では,LIMEとGrad-CAMという2つの説明手法を,LEGOブロックで画像にラベルを付けるように訓練された畳み込みニューラルネットワーク上で実行した。 ネットワークのコア性能の向上と,システムのユーザに対して生成可能な信頼度という2つの基準で評価した。 Grad-CAMはコアパフォーマンスの観点からより詳細な洞察を得ることができ、回答者の80%がモデルでインスピレーションを受けた信頼について、どちらを選ぶかを尋ねています。 しかし,これらの知見が相補的であるため,これら2つの手法を併用することがより有用であることを示す。

In this paper, we run two methods of explanation, namely LIME and Grad-CAM, on a convolutional neural network trained to label images with the LEGO bricks that are visible in them. We evaluate them on two criteria, the improvement of the network's core performance and the trust they are able to generate for users of the system. We find that in general, Grad-CAM seems to outperform LIME on this specific task: it yields more detailed insight from the point of view of core performance and 80\% of respondents asked to choose between them when it comes to the trust they inspire in the model choose Grad-CAM. However, we also posit that it is more useful to employ these two methods together, as the insights they yield are complementary.
翻訳日:2022-11-03 00:41:30 公開日:2020-08-04
# 領域シフトによる形状整合2次元キーポイント推定

Shape Consistent 2D Keypoint Estimation under Domain Shift ( http://arxiv.org/abs/2008.01589v1 )

ライセンス: Link先を確認
Levi O. Vasconcelos, Massimiliano Mancini, Davide Boscaini, Samuel Rota Bulo, Barbara Caputo, Elisa Ricci(参考訳) 最近の深いアーキテクチャに基づく教師なし領域適応法は、従来の分類タスクだけでなく、構造化予測(セマンティックセグメンテーション、深さ推定など)に関わるより複雑な問題においても顕著な性能を示している。 そこで,本稿では,学習(ソース)とテスト(ターゲット)イメージが視覚的に大きく異なる場合,ドメインシフト下でキーポイントを推定するための新しい深層適応フレームワークを提案する。 本手法は,機能アライメント,敵意トレーニング,自己スーパービジョンの3つの要素をシームレスに結合する。 具体的には、ドメイン固有の分散アライメント層を利用して、機能レベルでターゲット適応を実行する。 さらに、出力空間における整列予測を保証するための逆項と、対象サンプルとその摂動バージョンとの間のコヒーレント予測を保証する幾何学的一貫性項とを組み合わせた新たな損失を提案する。 提案手法が2次元キーポイント予測タスクにおいて最先端のドメイン適応手法よりも優れていることを示す。

Recent unsupervised domain adaptation methods based on deep architectures have shown remarkable performance not only in traditional classification tasks but also in more complex problems involving structured predictions (e.g. semantic segmentation, depth estimation). Following this trend, in this paper we present a novel deep adaptation framework for estimating keypoints under domain shift}, i.e. when the training (source) and the test (target) images significantly differ in terms of visual appearance. Our method seamlessly combines three different components: feature alignment, adversarial training and self-supervision. Specifically, our deep architecture leverages from domain-specific distribution alignment layers to perform target adaptation at the feature level. Furthermore, a novel loss is proposed which combines an adversarial term for ensuring aligned predictions in the output space and a geometric consistency term which guarantees coherent predictions between a target sample and its perturbed version. Our extensive experimental evaluation conducted on three publicly available benchmarks shows that our approach outperforms state-of-the-art domain adaptation methods in the 2D keypoint prediction task.
翻訳日:2022-11-03 00:41:16 公開日:2020-08-04
# CNNのセンス: 深部表現の解釈とINNとの不変性

Making Sense of CNNs: Interpreting Deep Representations & Their Invariances with INNs ( http://arxiv.org/abs/2008.01777v1 )

ライセンス: Link先を確認
Robin Rombach, Patrick Esser, Bj\"orn Ommer(参考訳) ますます複雑なタスクに取り組むために、ニューラルネットワークは抽象表現を学習する重要な能力となっている。 これらのタスク固有の表現、特に、彼らが捉えた不変性は、ニューラルネットワークを解釈性に欠けるブラックボックスモデルに変える。 したがって、そのようなブラックボックスを開くには、モデルが学習した概念と不変であることを学んだ概念の異なる概念を明らかにすることが不可欠である。 INNに基づくアプローチを提案する。 (i)データのばらつきの残存要因とそれとを区別することにより、タスク固有の学習不変性を回復する (ii)これらの回復した不変性をモデル表現と組み合わせて、アクセス可能な意味概念を持つ等しく表現可能なものに変換する。 その結果、ニューラルネットワーク表現は、その手段を提供することで理解できるようになる。 (i)その意味的な意味を明らかにする。 (ii)表現を意味的に修飾すること、及び (iii)個々の学習意味概念と不変性を可視化する。 我々の非可逆的アプローチは、その性能を損なうことなく、最先端ネットワークのポストホックな解釈を可能にすることでブラックボックスモデルを理解する能力を大幅に拡張する。 私たちの実装はhttps://compvis.github.io/invariances/で利用可能です。

To tackle increasingly complex tasks, it has become an essential ability of neural networks to learn abstract representations. These task-specific representations and, particularly, the invariances they capture turn neural networks into black box models that lack interpretability. To open such a black box, it is, therefore, crucial to uncover the different semantic concepts a model has learned as well as those that it has learned to be invariant to. We present an approach based on INNs that (i) recovers the task-specific, learned invariances by disentangling the remaining factor of variation in the data and that (ii) invertibly transforms these recovered invariances combined with the model representation into an equally expressive one with accessible semantic concepts. As a consequence, neural network representations become understandable by providing the means to (i) expose their semantic meaning, (ii) semantically modify a representation, and (iii) visualize individual learned semantic concepts and invariances. Our invertible approach significantly extends the abilities to understand black box models by enabling post-hoc interpretations of state-of-the-art networks without compromising their performance. Our implementation is available at https://compvis.github.io/invariances/ .
翻訳日:2022-11-03 00:39:41 公開日:2020-08-04
# Waymo Open Dataset Challenge 2020の第一位ソリューション - 2Dオブジェクト検出トラック

1st Place Solutions of Waymo Open Dataset Challenge 2020 -- 2D Object Detection Track ( http://arxiv.org/abs/2008.01365v1 )

ライセンス: Link先を確認
Zehao Huang, Zehui Chen, Qiaofei Li, Hongkai Zhang, Naiyan Wang(参考訳) 本稿では,Waymo Open Dataset (WOD) Challenge 2020 - 2D Object Trackのソリューションについて述べる。 基本フレームワークとしてFPNを採用しています。 Cascade RCNN、PAFPN Neck、Double-Headはパフォーマンス改善に使用される。 WODの小さな物体検出問題に対処するために、私たちはトレーニングとテストの両方に非常に大きな画像スケールを使用します。 我々のチームRW-TSDetは,本手法を用いて2次元物体検出トラックで1位を獲得した。

In this technical report, we present our solutions of Waymo Open Dataset (WOD) Challenge 2020 - 2D Object Track. We adopt FPN as our basic framework. Cascade RCNN, stacked PAFPN Neck and Double-Head are used for performance improvements. In order to handle the small object detection problem in WOD, we use very large image scales for both training and testing. Using our methods, our team RW-TSDet achieved the 1st place in the 2D Object Detection Track.
翻訳日:2022-11-03 00:33:38 公開日:2020-08-04
# ExchNet: 大規模微細画像検索のための統一ハッシュネットワーク

ExchNet: A Unified Hashing Network for Large-Scale Fine-Grained Image Retrieval ( http://arxiv.org/abs/2008.01369v1 )

ライセンス: Link先を確認
Quan Cui, Qing-Yuan Jiang, Xiu-Shen Wei, Wu-Jun Li and Osamu Yoshie(参考訳) 大規模な細粒度データセットからコンテンツ関連画像を取得すると、細粒度オブジェクトの微妙な視覚的な差異を識別する高次元の実数値埋め込みが原因で、クエリの速度が不安定で冗長なストレージコストが発生する可能性がある。 本稿では,ハッシュ学習の検索と記憶効率を活用して,上記の問題を緩和する,コンパクトなバイナリコードを生成するための,新しいきめ細かいハッシュトピックについて検討する。 具体的には、ExchNetと呼ばれるエンドツーエンドのトレーニング可能な統合ネットワークを提案する。 注意機構と提案する注意制約に基づいて,まず,局所的特徴と大域的特徴をそれぞれ獲得し,対象部品と細粒度オブジェクト全体を表現する。 さらに,これらの部分レベルの特徴の識別能力と意味的意味の一貫性を確保するため,特徴の交換操作を行うことで,局所的な特徴のアライメント手法を設計する。 その後、代替の学習アルゴリズムを使用して、exchnet全体を最適化し、最終的なバイナリハッシュコードを生成する。 広範な実験によって検証されたこの提案は,5つのきめ細かなデータセットに対して,最先端のジェネリックハッシュメソッドを一貫して上回っている。 さらに、exchnetは、他の近似的な近接メソッドと比較して、最高のスピードアップとストレージの削減を実現し、その効率と実用性を明らかにする。

Retrieving content relevant images from a large-scale fine-grained dataset could suffer from intolerably slow query speed and highly redundant storage cost, due to high-dimensional real-valued embeddings which aim to distinguish subtle visual differences of fine-grained objects. In this paper, we study the novel fine-grained hashing topic to generate compact binary codes for fine-grained images, leveraging the search and storage efficiency of hash learning to alleviate the aforementioned problems. Specifically, we propose a unified end-to-end trainable network, termed as ExchNet. Based on attention mechanisms and proposed attention constraints, it can firstly obtain both local and global features to represent object parts and whole fine-grained objects, respectively. Furthermore, to ensure the discriminative ability and semantic meaning's consistency of these part-level features across images, we design a local feature alignment approach by performing a feature exchanging operation. Later, an alternative learning algorithm is employed to optimize the whole ExchNet and then generate the final binary hash codes. Validated by extensive experiments, our proposal consistently outperforms state-of-the-art generic hashing methods on five fine-grained datasets, which shows our effectiveness. Moreover, compared with other approximate nearest neighbor methods, ExchNet achieves the best speed-up and storage reduction, revealing its efficiency and practicality.
翻訳日:2022-11-03 00:33:30 公開日:2020-08-04
# 多人数3次元ポーズ推定のための教師なしクロスモーダルアライメント

Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2008.01388v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Ambareesh Revanur, Govind Vitthal Waghmare, Rahul Mysore Venkatesh, R. Venkatesh Babu(参考訳) 本稿では,多人数3次元ポーズ推定のためのデプロイフレンドリで高速なボトムアップフレームワークを提案する。 我々は,人物の位置を対応する3Dポーズ表現と統一する多人数3Dポーズのニューラル表現を採用する。 これは、3Dのポーズ予測を確実にするだけでなく、従来のボトムアップアプローチのようにキーポイントグループ化操作を不要にする生成的ポーズ埋め込みを学習することによって実現される。 さらに, 2d と 3d の重ね合わせアノテーションを利用できない実用的な配置パラダイムを提案する。 ペアの監督がない場合は,教師モデルとして凍結したネットワークを活用し,多人数2次元ポーズ推定の補助タスクで学習する。 学習をクロスモーダルアライメント問題として位置づけ,2つの多様なモダリティ間の共有潜在空間を実現するための学習目標を提案する。 本研究の目的は,多人数3次元シーンの人工合成を用いた潜在-3次元ポーズマッピングを充実させることにより,教師ネットワークの限界を超えて,モデルの実行能力を高めることである。 提案手法は,Wild画像への一般化だけでなく,従来のトップダウン手法と比較して,速度と性能のトレードオフも優れている。 また, ボトムアップ方式では, 一定の監督レベルにおいて, 最先端のマルチパーソン3dポーズ推定性能が得られている。

We present a deployment friendly, fast bottom-up framework for multi-person 3D human pose estimation. We adopt a novel neural representation of multi-person 3D pose which unifies the position of person instances with their corresponding 3D pose representation. This is realized by learning a generative pose embedding which not only ensures plausible 3D pose predictions, but also eliminates the usual keypoint grouping operation as employed in prior bottom-up approaches. Further, we propose a practical deployment paradigm where paired 2D or 3D pose annotations are unavailable. In the absence of any paired supervision, we leverage a frozen network, as a teacher model, which is trained on an auxiliary task of multi-person 2D pose estimation. We cast the learning as a cross-modal alignment problem and propose training objectives to realize a shared latent space between two diverse modalities. We aim to enhance the model's ability to perform beyond the limiting teacher network by enriching the latent-to-3D pose mapping using artificially synthesized multi-person 3D scene samples. Our approach not only generalizes to in-the-wild images, but also yields a superior trade-off between speed and performance, compared to prior top-down approaches. Our approach also yields state-of-the-art multi-person 3D pose estimation performance among the bottom-up approaches under consistent supervision levels.
翻訳日:2022-11-03 00:33:06 公開日:2020-08-04
# キャプションアノテーションによる視覚表現の学習

Learning Visual Representations with Caption Annotations ( http://arxiv.org/abs/2008.01392v1 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Julien Perez, Diane Larlus(参考訳) 汎用視覚機能の事前訓練は多くのコンピュータビジョンタスクに取り組む上で重要な部分となっている。 広範囲に注釈付きimagenetデータセットでこのような機能を学べる一方で、最近のアプローチでは、このような事前トレーニングを行うためのアノテーションを、ノイズ、少ない、あるいはまったく使用しない方法を模索している。 キャプション画像が容易にクロール可能であるという観察から始め、この見落とされた情報ソースを活用して視覚的表現のトレーニングを監督することができると論じる。 そのために,近年の言語モデルの進歩に動機づけられ,画像キャプチャペア上で視覚的表現を学ぶためのプロキシタスクである「em image-conditioned masked language modeling」 (icmlm) を導入する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。 この課題に対処するために,視覚的およびテキスト的エンコーダを用いたハイブリッドモデルを提案する。 実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。 プロジェクトウェブサイト: https://europe.naverlabs.com/icmlm

Pretraining general-purpose visual features has become a crucial part of tackling many computer vision tasks. While one can learn such features on the extensively-annotated ImageNet dataset, recent approaches have looked at ways to allow for noisy, fewer, or even no annotations to perform such pretraining. Starting from the observation that captioned images are easily crawlable, we argue that this overlooked source of information can be exploited to supervise the training of visual representations. To do so, motivated by the recent progresses in language models, we introduce {\em image-conditioned masked language modeling} (ICMLM) -- a proxy task to learn visual representations over image-caption pairs. ICMLM consists in predicting masked words in captions by relying on visual cues. To tackle this task, we propose hybrid models, with dedicated visual and textual encoders, and we show that the visual representations learned as a by-product of solving this task transfer well to a variety of target tasks. Our experiments confirm that image captions can be leveraged to inject global and localized semantic information into visual representations. Project website: https://europe.naverlabs.com/icmlm.
翻訳日:2022-11-03 00:32:45 公開日:2020-08-04
# 完全畳み込み空間伝搬ネットワークを用いた空間構成によるハイパースペクトル画像分類

Hyperspectral Image Classification with Spatial Consistence Using Fully Convolutional Spatial Propagation Network ( http://arxiv.org/abs/2008.01421v1 )

ライセンス: Link先を確認
Yenan Jiang, Ying Li, Shanrong Zou, Haokui Zhang, Yunpeng Bai(参考訳) 近年、深層畳み込みニューラルネットワーク(cnns)は、ハイパースペクトル画像(hsis)を表現できる素晴らしい能力を示し、hsi分類において奨励的な結果を得た。 しかし、既存のcnnベースのモデルはパッチレベルで動作し、ピクセルは周囲のイメージのパッチを使って別々にクラスに分類される。 このパッチレベルの分類は、何度も繰り返される計算につながり、分類精度に有益である適切なパッチサイズを決定することは困難である。 加えて、従来のcnnモデルは局所受容場と畳み込みを操作し、文脈的空間情報のモデル化に失敗する。 上記の制限を克服するため、HSI分類のための新しいエンドツーエンドの画素間完全畳み込み空間伝搬ネットワーク(FCSPN)を提案する。 我々のFCSPNは3次元完全畳み込みネットワーク(3D-FCN)と畳み込み空間伝播ネットワーク(CSPN)から構成されている。 特に、3D-FCNは信頼性の高い予備分類のために導入され、新しい二重分離残差(DSR)ユニットが提案され、スペクトル情報と空間情報を少ないパラメータで同時に捕捉する。 さらに、3D-FCNにチャネルワイドアテンション機構を適用し、冗長チャネル情報から最も情報性の高いチャネルを把握する。 最後に、局所線形空間伝播を学習することで、hsiの空間相関を捉えるためにcspnを導入することにより、hsiの空間的一貫性を維持し、さらに分類結果を改善することができる。 3つのHSIベンチマークデータセットによる実験結果から,提案したFCSPNがHSI分類における最先端性能を達成することが示された。

In recent years, deep convolutional neural networks (CNNs) have shown impressive ability to represent hyperspectral images (HSIs) and achieved encouraging results in HSI classification. However, the existing CNN-based models operate at the patch-level, in which pixel is separately classified into classes using a patch of images around it. This patch-level classification will lead to a large number of repeated calculations, and it is difficult to determine the appropriate patch size that is beneficial to classification accuracy. In addition, the conventional CNN models operate convolutions with local receptive fields, which cause failures in modeling contextual spatial information. To overcome the aforementioned limitations, we propose a novel end-to-end, pixels-to-pixels fully convolutional spatial propagation network (FCSPN) for HSI classification. Our FCSPN consists of a 3D fully convolution network (3D-FCN) and a convolutional spatial propagation network (CSPN). Specifically, the 3D-FCN is firstly introduced for reliable preliminary classification, in which a novel dual separable residual (DSR) unit is proposed to effectively capture spectral and spatial information simultaneously with fewer parameters. Moreover, the channel-wise attention mechanism is adapted in the 3D-FCN to grasp the most informative channels from redundant channel information. Finally, the CSPN is introduced to capture the spatial correlations of HSI via learning a local linear spatial propagation, which allows maintaining the HSI spatial consistency and further refining the classification results. Experimental results on three HSI benchmark datasets demonstrate that the proposed FCSPN achieves state-of-the-art performance on HSI classification.
翻訳日:2022-11-03 00:32:25 公開日:2020-08-04
# 時間行動提案生成のための境界コンテンツグラフニューラルネットワーク

Boundary Content Graph Neural Network for Temporal Action Proposal Generation ( http://arxiv.org/abs/2008.01432v1 )

ライセンス: Link先を確認
Yueran Bai, Yingying Wang, Yunhai Tong, Yang Yang, Qiyue Liu, Junhui Liu(参考訳) 時間的アクション提案生成は、高品質なアクションコンテンツを正確にローカライズする必要があるビデオアクション理解において重要な役割を果たす。 しかし、正確な境界と高品質なアクションコンテンツの両方で時間的提案を生成することは極めて困難である。 この問題に対処するために、グラフニューラルネットワークによる時間的提案の境界と行動内容の洞察力のある関係をモデル化する新しい境界コンテンツグラフニューラルネットワーク(BC-GNN)を提案する。 BC-GNNでは、時間的提案の境界と内容はそれぞれグラフニューラルネットワークのノードとエッジとして、自然にリンクされている。 次に,エッジとノードの特徴を更新する新しいグラフ計算演算を提案する。 その後、更新されたエッジと接続する2つのノードを使用して境界確率とコンテンツ信頼度を予測し、最終的な高品質の提案を生成する。 実験はActivityNet-1.3とTHUMOS14の2つの主要なデータセットで行われている。 ベルとホイッスルがなければ、BC-GNNは、時間的アクション提案と時間的アクション検出タスクの両方において、過去の最先端メソッドよりも優れている。

Temporal action proposal generation plays an important role in video action understanding, which requires localizing high-quality action content precisely. However, generating temporal proposals with both precise boundaries and high-quality action content is extremely challenging. To address this issue, we propose a novel Boundary Content Graph Neural Network (BC-GNN) to model the insightful relations between the boundary and action content of temporal proposals by the graph neural networks. In BC-GNN, the boundaries and content of temporal proposals are taken as the nodes and edges of the graph neural network, respectively, where they are spontaneously linked. Then a novel graph computation operation is proposed to update features of edges and nodes. After that, one updated edge and two nodes it connects are used to predict boundary probabilities and content confidence score, which will be combined to generate a final high-quality proposal. Experiments are conducted on two mainstream datasets: ActivityNet-1.3 and THUMOS14. Without the bells and whistles, BC-GNN outperforms previous state-of-the-art methods in both temporal action proposal and temporal action detection tasks.
翻訳日:2022-11-03 00:31:54 公開日:2020-08-04
# Few-Shotセグメンテーションのための事前案内機能強化ネットワーク

Prior Guided Feature Enrichment Network for Few-Shot Segmentation ( http://arxiv.org/abs/2008.01449v1 )

ライセンス: Link先を確認
Zhuotao Tian, Hengshuang Zhao, Michelle Shu, Zhicheng Yang, Ruiyu Li, Jiaya Jia(参考訳) 最先端のセマンティクスセグメンテーションメソッドは十分な結果を得るために十分なラベル付きデータを必要とし、微調整なしでは見当たらないクラスでは動作しない。 したがって、いくつかのラベル付きサポートサンプルで新しいクラスに迅速に適応するモデルを学ぶことにより、この問題に取り組むために、少数ショットのセグメンテーションが提案されている。 これらのフレームワークは、トレーニングクラスの高レベルなセマンティック情報の使用や、クエリとサポートターゲット間の空間的不整合により、目に見えないクラスに対する一般化能力の低下という課題に直面している。 これらの問題を緩和するため,PFENet(Presideed Guided Feature Enrichment Network)を提案する。 本手法は,(1)一般化能力を保持するだけでなく,モデル性能も向上するトレーニングフリーの先行マスク生成手法と,(2)サポート機能と先行マスクを備えたクエリ機能を適応的に強化することにより,空間的不整合を克服する機能強化モジュール(FEM)からなる。 PASCAL-5$^i$およびCOCOの大規模実験により,提案した先行生成法とFEMの両方がベースライン法を大幅に改善することが確認された。 当社のPFENetは,効率損失を伴わずに,最先端の手法よりも大きなマージンを達成しています。 私たちのモデルがサポートサンプルにラベルをつけずにケースに一般化することさえ驚きです。 私たちのコードはhttps://github.com/jia-research-lab/pfenet/で利用可能です。

State-of-the-art semantic segmentation methods require sufficient labeled data to achieve good results and hardly work on unseen classes without fine-tuning. Few-shot segmentation is thus proposed to tackle this problem by learning a model that quickly adapts to new classes with a few labeled support samples. Theses frameworks still face the challenge of generalization ability reduction on unseen classes due to inappropriate use of high-level semantic information of training classes and spatial inconsistency between query and support targets. To alleviate these issues, we propose the Prior Guided Feature Enrichment Network (PFENet). It consists of novel designs of (1) a training-free prior mask generation method that not only retains generalization power but also improves model performance and (2) Feature Enrichment Module (FEM) that overcomes spatial inconsistency by adaptively enriching query features with support features and prior masks. Extensive experiments on PASCAL-5$^i$ and COCO prove that the proposed prior generation method and FEM both improve the baseline method significantly. Our PFENet also outperforms state-of-the-art methods by a large margin without efficiency loss. It is surprising that our model even generalizes to cases without labeled support samples. Our code is available at https://github.com/Jia-Research-Lab/PFENet/.
翻訳日:2022-11-03 00:31:37 公開日:2020-08-04
# プライムアウェア適応蒸留

Prime-Aware Adaptive Distillation ( http://arxiv.org/abs/2008.01458v1 )

ライセンス: Link先を確認
Youcai Zhang, Zhonghao Lan, Yuchen Dai, Fangao Zeng, Yan Bai, Jie Chang, and Yichen Wei(参考訳) 知識蒸留(kd)は,強力な教員ネットワークからの知識を模倣することにより,学生ネットワークのパフォーマンスを向上させることを目的とする。 既存の方法は、どの知識を移行すべきかの研究に焦点を合わせ、トレーニング中にすべてのサンプルを平等に扱う。 本稿では, 適応試料重み付けをKDに導入する。 従来の有効硬質鉱業法は蒸留には適さないことが判明した。 さらに,不確実性学習を取り入れたプライムアウェア適応蒸留(PAD)を提案する。 PADは蒸留における素試料を認識し、その効果を適応的に強調する。 PADは基本的に異なるものであり、不平等なトレーニングという革新的な視点で既存の手法を洗練するだろう。 このため、PADは汎用的で、分類、メートル法学習、物体検出など様々なタスクに応用されている。 PADは6つのデータセットに10の教師/学生の組み合わせを組み込むことで、既存の蒸留法の性能を高め、最近の最先端の方法より優れている。

Knowledge distillation(KD) aims to improve the performance of a student network by mimicing the knowledge from a powerful teacher network. Existing methods focus on studying what knowledge should be transferred and treat all samples equally during training. This paper introduces the adaptive sample weighting to KD. We discover that previous effective hard mining methods are not appropriate for distillation. Furthermore, we propose Prime-Aware Adaptive Distillation (PAD) by the incorporation of uncertainty learning. PAD perceives the prime samples in distillation and then emphasizes their effect adaptively. PAD is fundamentally different from and would refine existing methods with the innovative view of unequal training. For this reason, PAD is versatile and has been applied in various tasks including classification, metric learning, and object detection. With ten teacher-student combinations on six datasets, PAD promotes the performance of existing distillation methods and outperforms recent state-of-the-art methods.
翻訳日:2022-11-03 00:31:14 公開日:2020-08-04
# 深層学習のための球形特徴変換

Spherical Feature Transform for Deep Metric Learning ( http://arxiv.org/abs/2008.01469v1 )

ライセンス: Link先を確認
Yuke Zhu, Yan Bai, Yichen Wei(参考訳) 機能空間におけるデータ拡張は、データの多様性を高めるのに有効である。 以前の手法では、異なるクラスは特徴分布において同じ共変性を持つと仮定している。 これにより、異なるクラス間の特徴変換が翻訳によって実行される。 しかし、このアプローチは、機能正規化が広く採用され、すべての機能が超球面上にある最近のディープメトリック学習シナリオではもはや有効ではない。 本研究は,新しい球面特徴変換手法を提案する。 これはクラス間の同一共分散の仮定を、超球面上の異なるクラスの類似共分散の仮定に緩和する。 これにより、特徴変換は、球面データ分布を対象とする回転によって行われる。 本研究では,2つの異なる変換の関係について,簡便かつ効果的な学習法と深度解析を行う。 各種ディープメトリック学習ベンチマークと異なるベースラインに関する総合的な実験により,本手法が一貫した性能向上と最先端結果を実現することを確認した。

Data augmentation in feature space is effective to increase data diversity. Previous methods assume that different classes have the same covariance in their feature distributions. Thus, feature transform between different classes is performed via translation. However, this approach is no longer valid for recent deep metric learning scenarios, where feature normalization is widely adopted and all features lie on a hypersphere. This work proposes a novel spherical feature transform approach. It relaxes the assumption of identical covariance between classes to an assumption of similar covariances of different classes on a hypersphere. Consequently, the feature transform is performed by a rotation that respects the spherical data distributions. We provide a simple and effective training method, and in depth analysis on the relation between the two different transforms. Comprehensive experiments on various deep metric learning benchmarks and different baselines verify that our method achieves consistent performance improvement and state-of-the-art results.
翻訳日:2022-11-03 00:31:03 公開日:2020-08-04
# スマートフォン画像を用いた化粧品試行中の皮膚色とニワトリ変化の追跡

Tracking Skin Colour and Wrinkle Changes During Cosmetic Product Trials Using Smartphone Images ( http://arxiv.org/abs/2008.01483v1 )

ライセンス: Link先を確認
Alan F. Smeaton and Swathikiran Srungavarapu and Cyril Messaraa and Claire Tansey(参考訳) 背景: 従来のスマートフォンを用いた消費者レベルの画像を用いて, 皮膚化粧品に対する製品治験の有効性について検討する。 資料と方法:30歳から60歳までの12人の女性が製品試験に参加し,4週間の開始時から終了時にかけて,高解像度3d csカメラを用いて頬部と寺院部のクローズアップ画像を撮影した。 また、試用期間を通じて、顔の同じ領域の「自己」が定期的に取られていた。 皮膚色の変化を識別する自動画像解析は, 3種類の色正規化と, エッジを同定し, その大きさを算出した。 結果: 試験開始から終了までの画像は, スマートフォン画像の正常化のための基礎的真実として機能し, 多くのボランティアの試行において, 色としわの大きさが大きく変化した。 結論: 実験期間中の自撮りスマートフォン画像の定期的な使用は, 試験の有効性の解釈に付加価値を与えることを示す。

Background: To explore how the efficacy of product trials for skin cosmetics can be improved through the use of consumer-level images taken by volunteers using a conventional smartphone. Materials and Methods: 12 women aged 30 to 60 years participated in a product trial and had close-up images of the cheek and temple regions of their faces taken with a high-resolution Antera 3D CS camera at the start and end of a 4-week period. Additionally, they each had ``selfies'' of the same regions of their faces taken regularly throughout the trial period. Automatic image analysis to identify changes in skin colour used three kinds of colour normalisation and analysis for wrinkle composition identified edges and calculated their magnitude. Results: Images taken at the start and end of the trial acted as baseline ground truth for normalisation of smartphone images and showed large changes in both colour and wrinkle magnitude during the trial for many volunteers. Conclusions: Results demonstrate that regular use of selfie smartphone images within trial periods can add value to interpretation of the efficacy of the trial.
翻訳日:2022-11-03 00:30:51 公開日:2020-08-04
# 解集合プログラミングにおける定性理論による符号化と推論の一般化

A Generalised Approach for Encoding and Reasoning with Qualitative Theories in Answer Set Programming ( http://arxiv.org/abs/2008.01519v1 )

ライセンス: Link先を確認
George Baryannis, Ilias Tachmazidis, Sotiris Batsakis, Grigoris Antoniou, Mario Alviano, Emmanuel Papadakis(参考訳) 質的推論は、厳密な数学的量ではなく、自然言語表現のような質的用語に基づく知識の表現と導出を含む。 これまでに40以上の定性的計算が提案されており、主に空間的および時間的領域において、海軍の交通監視、倉庫のプロセス最適化、ロボット操作など、いくつかの実用的な応用がある。 たとえ多くの専門化された定性推論ツールが開発されているとしても、これらのツールが広く採用される上で重要な障壁は、定性推論のみがネイティブにサポートされていることである。 本稿では,非定型的推論に加えて質的推論を必要とする問題に対処するために,aspを統一形式として用いることで,この障壁を克服することを提案する。 バイナリ関係を持つ定性計算を扱えるASPエンコーディングのファミリーが提案されている。 これらの符号化は、通信アンテナの最適カバレッジの決定と、よく知られた2つの専用推論器の性能に基づく実世界のデータセットを用いて実験的に評価される。 実験結果から,提案した符号化法は,論理プログラムの解釈可能性だけでなく,任意のタイプの推論処理の利点も考慮すれば,いずれかの論理プログラムよりも優れていることがわかった。 本論文はTPLPの受容について検討中である。

Qualitative reasoning involves expressing and deriving knowledge based on qualitative terms such as natural language expressions, rather than strict mathematical quantities. Well over 40 qualitative calculi have been proposed so far, mostly in the spatial and temporal domains, with several practical applications such as naval traffic monitoring, warehouse process optimisation and robot manipulation. Even if a number of specialised qualitative reasoning tools have been developed so far, an important barrier to the wider adoption of these tools is that only qualitative reasoning is supported natively, when real-world problems most often require a combination of qualitative and other forms of reasoning. In this work, we propose to overcome this barrier by using ASP as a unifying formalism to tackle problems that require qualitative reasoning in addition to non-qualitative reasoning. A family of ASP encodings is proposed which can handle any qualitative calculus with binary relations. These encodings are experimentally evaluated using a real-world dataset based on a case study of determining optimal coverage of telecommunication antennas, and compared with the performance of two well-known dedicated reasoners. Experimental results show that the proposed encodings outperform one of the two reasoners, but fall behind the other, an acceptable trade-off given the added benefits of handling any type of reasoning as well as the interpretability of logic programs. This paper is under consideration for acceptance in TPLP.
翻訳日:2022-11-03 00:24:59 公開日:2020-08-04
# 死線更新のための過渡増幅器の構成:立方および四次正則グラフのケーススタディ

Constructing transient amplifiers for death-Birth updating: A case study of cubic and quartic regular graphs ( http://arxiv.org/abs/2008.01446v1 )

ライセンス: Link先を確認
Hendrik Richter(参考訳) グラフにおける進化力学の中心的な問題は、住民の集団で導入された突然変異が生き残り、最終的に全人口に広まるか、絶滅するかである。 結果は自然に変異体の適合度と、変異体や住民がネットワーク上で伝播する可能性のある規則に依存するが、最も決定的な要因はネットワーク構造であることは間違いない。 いくつかの構造化ネットワークは過渡増幅器である。 特定の適合度は、十分に混合された個体群と比較して、有益変異の固定確率が増加する。 出生時更新のための過渡増幅器を同定するための摂動法について検討した。 この方法は、グラフ上のランダムウォークの合体時間を計算し、最大のリメット時間で頂点を見つけることを含む。 この頂点から辺を取り除くことでグラフが摂動するならば、結果として生じる摂動グラフが過渡増幅器である可能性はある。 すべてのペアワイズ非同型立方体および四次正則グラフを一定の大きさまでテストし、したがってこれらのグラフで表現できる構造範囲全体をカバーする。 スペクトル解析を行い、過渡増幅器を構築可能なグラフが特定の構造特性を共有していることを示す。 グラフはパス状であり、コンダクタンスが低く、エッジや頂点を取り除くことでサブグラフに分割するのが比較的容易である。 これは、同一(またはほぼ同一)のビルディングブロックである部分グラフと、カットおよび/またはヒンジ頂点が頻繁に発生する部分グラフと接続される。 スペクトルと構造特性の同定はそのようなネットワークの発見と設計を促進する可能性がある。

A central question of evolutionary dynamics on graphs is whether or not a mutation introduced in a population of residents survives and eventually even spreads to the whole population, or gets extinct. The outcome naturally depends on the fitness of the mutant and the rules by which mutants and residents may propagate on the network, but arguably the most determining factor is the network structure. Some structured networks are transient amplifiers. They increase for a certain fitness range the fixation probability of beneficial mutations as compared to a well-mixed population. We study a perturbation methods for identifying transient amplifiers for death-Birth updating. The method includes calculating the coalescence times of random walks on graphs and finding the vertex with the largest remeeting time. If the graph is perturbed by removing an edge from this vertex, there is a certain likelihood that the resulting perturbed graph is a transient amplifier. We test all pairwise nonisomorphic cubic and quartic regular graphs up to a certain size and thus cover the whole structural range expressible by these graphs. We carry out a spectral analysis and show that the graphs from which the transient amplifiers can be constructed share certain structural properties. The graphs are path-like, have low conductance and are rather easy to divide into subgraphs by removing edges and/or vertices. This is connected with the subgraphs being identical (or almost identical) building blocks and the frequent occurrence of cut and/or hinge vertices. Identifying spectral and structural properties may promote finding and designing such networks.
翻訳日:2022-11-03 00:24:26 公開日:2020-08-04
# 教師なしビデオオブジェクトセグメンテーションのためのCRFによる識別特徴の学習

Learning Discriminative Feature with CRF for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2008.01270v1 )

ライセンス: Link先を確認
Mingmin Zhen, Shiwei Li, Lei Zhou, Jiaxiang Shang, Haoan Feng, Tian Fang, Long Quan(参考訳) 本稿では,非教師付きビデオオブジェクトセグメンテーションタスクに対処するため,識別機能ネットワーク(DFNet)と呼ばれる新しいネットワークを提案する。 映像フレーム間の固有相関を捉えるために,グローバル視点から特徴分布を明らかにする入力画像から識別的特徴(d特徴)を学習する。 D-Featuresは、条件付きランダムフィールド(CRF)の定式化の下で、テスト画像のすべての特徴と対応性を確立するために使用される。 実験の結果、DFNetは最先端の手法よりも、平均IoUスコアが83.4%、DAVIS-2016のリーダーボードでランクインし、パラメータをはるかに少なくし、推論フェーズでより効率的なパフォーマンスを実現している。 さらに、FBMSデータセットとビデオサリエンシデータセットViSal上でDFNetを評価し、新しい最先端技術に到達した。 このフレームワークの汎用性をさらに示すために、dfnetはimage object co-segmentationタスクにも適用されます。 我々は、挑戦的なデータセットPASCAL-VOCの実験を行い、DFNetの優位性を観察する。 詳細な実験では、DFNetが画像の基盤となる関係を捉え、マイニングし、共通のフォアグラウンドオブジェクトを発見することができる。

In this paper, we introduce a novel network, called discriminative feature network (DFNet), to address the unsupervised video object segmentation task. To capture the inherent correlation among video frames, we learn discriminative features (D-features) from the input images that reveal feature distribution from a global perspective. The D-features are then used to establish correspondence with all features of test image under conditional random field (CRF) formulation, which is leveraged to enforce consistency between pixels. The experiments verify that DFNet outperforms state-of-the-art methods by a large margin with a mean IoU score of 83.4% and ranks first on the DAVIS-2016 leaderboard while using much fewer parameters and achieving much more efficient performance in the inference phase. We further evaluate DFNet on the FBMS dataset and the video saliency dataset ViSal, reaching a new state-of-the-art. To further demonstrate the generalizability of our framework, DFNet is also applied to the image object co-segmentation task. We perform experiments on a challenging dataset PASCAL-VOC and observe the superiority of DFNet. The thorough experiments verify that DFNet is able to capture and mine the underlying relations of images and discover the common foreground objects.
翻訳日:2022-11-03 00:23:43 公開日:2020-08-04
# ニューラル3次元マッピングによる静的シーンの追跡

Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping ( http://arxiv.org/abs/2008.01295v1 )

ライセンス: Link先を確認
Adam W. Harley, Shrinidhi K. Lakshmikanth, Paul Schydlo, Katerina Fragkiadaki(参考訳) 静的なシーンで見回せるエージェントは、複雑な動的シーンで3dオブジェクト追跡に適用できるリッチなビジュアル表現を学習できると仮定する。 この追求の動機は、物理的な世界そのものがほとんど静的であり、マルチビュー対応ラベルは、三角測量によって、静的なシーンで比較的安価に収集できるという事実にある。 本稿では,任意のシーン(静的あるいは動的)におけるtextit{static point} のマルチビューデータを活用し,時間的に対応可能な特徴を生成するニューラル3Dマッピングモジュールを学習する。 ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。 ボクセルの特徴を対比的損失を用いて、視点をまたいで対応可能と訓練し、時間を越えた対応性が自動的に出現する。 テスト時には、rgb-dビデオに近似カメラのポーズが与えられ、追跡対象の3dボックスが与えられると、各タイムステップのマップを生成して対象オブジェクトを追跡し、各マップ内のオブジェクトの特徴を突き止めます。 映像ストリームを2Dまたは2.5Dで表現するモデルとは対照的に、我々のモデルの3Dシーン表現はプロジェクションアーティファクトから切り離され、カメラモーション下で安定であり、部分閉塞に対して堅牢である。 提案したアーキテクチャをシミュレーションおよび実データに挑戦して検証し、教師なしオブジェクトトラッカーが教師なし2Dおよび2.5Dトラッカーよりも優れていることを示す。 この研究は、静的データに対するマルチビューの自己監督を通じて、ラベルを追跡せずに3Dオブジェクトトラッカーが現れることを示す。

We hypothesize that an agent that can look around in static scenes can learn rich visual representations applicable to 3D object tracking in complex dynamic scenes. We are motivated in this pursuit by the fact that the physical world itself is mostly static, and multiview correspondence labels are relatively cheap to collect in static scenes, e.g., by triangulation. We propose to leverage multiview data of \textit{static points} in arbitrary scenes (static or dynamic), to learn a neural 3D mapping module which produces features that are correspondable across time. The neural 3D mapper consumes RGB-D data as input, and produces a 3D voxel grid of deep features as output. We train the voxel features to be correspondable across viewpoints, using a contrastive loss, and correspondability across time emerges automatically. At test time, given an RGB-D video with approximate camera poses, and given the 3D box of an object to track, we track the target object by generating a map of each timestep and locating the object's features within each map. In contrast to models that represent video streams in 2D or 2.5D, our model's 3D scene representation is disentangled from projection artifacts, is stable under camera motion, and is robust to partial occlusions. We test the proposed architectures in challenging simulated and real data, and show that our unsupervised 3D object trackers outperform prior unsupervised 2D and 2.5D trackers, and approach the accuracy of supervised trackers. This work demonstrates that 3D object trackers can emerge without tracking labels, through multiview self-supervision on static data.
翻訳日:2022-11-03 00:23:19 公開日:2020-08-04
# 領域ベースオブジェクト検出のための階層的コンテキスト埋め込み

Hierarchical Context Embedding for Region-based Object Detection ( http://arxiv.org/abs/2008.01338v1 )

ライセンス: Link先を確認
Zhao-Min Chen, Xin Jin, Borui Zhao, Xiu-Shen Wei, Yanwen Guo(参考訳) 最先端の2段階オブジェクト検出器は、RoIPoolやRoIAlignによって抽出された領域的な特徴を入力として、スパースなオブジェクト提案に分類器を適用する。 地域的特徴は、提案された場所とよく一致しているが、ノイズのある背景検出をフィルタリングするために必要な重要なコンテキスト情報や、独特の外観を持たない物体を認識できない可能性がある。 この問題に対処するために、我々は、一連の領域ベース検出器の分類能力を高めるために、プラグイン・アンド・プレイコンポーネントとして適用可能な、シンプルで効果的な階層型コンテキスト埋め込み(HCE)フレームワークを提案する。 具体的には、文脈依存オブジェクトカテゴリの認識を進めるために、総合的なイメージレベルコンテキストを利用してオブジェクトレベルの概念を学習するイメージレベルカテゴリ埋め込みモジュールを提案する。 そして、画像全体と関心領域の両方の下に階層的に埋め込まれたコンテキスト情報を利用して、新しいRoI特徴を生成し、従来のRoI特徴を補完する。 さらに,我々の階層型文脈型RoI特徴をフル活用するために,地域型検出器の分類精度を高めるために,早期・後期融合戦略(特徴融合と信頼融合)を提案する。 包括的実験により,我々のhceフレームワークは柔軟かつ一般化可能であり,fpn,カスケードr-cnn,マスクr-cnnなど,様々な領域ベースの検出器に対して有意かつ一貫した改善がもたらされた。

State-of-the-art two-stage object detectors apply a classifier to a sparse set of object proposals, relying on region-wise features extracted by RoIPool or RoIAlign as inputs. The region-wise features, in spite of aligning well with the proposal locations, may still lack the crucial context information which is necessary for filtering out noisy background detections, as well as recognizing objects possessing no distinctive appearances. To address this issue, we present a simple but effective Hierarchical Context Embedding (HCE) framework, which can be applied as a plug-and-play component, to facilitate the classification ability of a series of region-based detectors by mining contextual cues. Specifically, to advance the recognition of context-dependent object categories, we propose an image-level categorical embedding module which leverages the holistic image-level context to learn object-level concepts. Then, novel RoI features are generated by exploiting hierarchically embedded context information beneath both whole images and interested regions, which are also complementary to conventional RoI features. Moreover, to make full use of our hierarchical contextual RoI features, we propose the early-and-late fusion strategies (i.e., feature fusion and confidence fusion), which can be combined to boost the classification accuracy of region-based detectors. Comprehensive experiments demonstrate that our HCE framework is flexible and generalizable, leading to significant and consistent improvements upon various region-based detectors, including FPN, Cascade R-CNN and Mask R-CNN.
翻訳日:2022-11-03 00:22:49 公開日:2020-08-04
# 出現コンセンサス駆動型自己監視型ヒトメッシュリカバリ

Appearance Consensus Driven Self-Supervised Human Mesh Recovery ( http://arxiv.org/abs/2008.01341v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Mugalodi Rakesh, Varun Jampani, Rahul Mysore Venkatesh, R. Venkatesh Babu(参考訳) 我々は,対の監視がなければ,単眼画像から人間のポーズや形状を推測する自己監視型メッシュリカバリフレームワークを提案する。 近年の進歩により、パラメトリック・ヒューマン・モデルのパラメータを2次元のランドマークアノテーションによる大規模データセットに監督することで直接レグレッションする関心が移っている。 これにより、ラベルのない野生環境から画像を操作するためのそのようなアプローチの一般化が制限される。 そこで我々は,新しい外観コンセンサスによる自己監督的目標を提案する。 前景(FG)の人間を効果的に切り離すには、未ラベルの野生ビデオから得られるさまざまなポーズと背景(BG)において同一人物(一貫性のあるFG)を描いた画像対に依存する。 提案したFGの外観整合性は, カラーピッキングと反射対称性の効率的な実現を通じて, 頂点色を得るために, 新たな可微分色回復モジュールを用いている。 我々は,標準的なモデルに基づく3Dポーズ推定ベンチマークを,同等の監督レベルで実現した。 さらに,色付きメッシュ予測は,ポーズや形状推定を超えて,様々な外観関連タスクに対する我々のフレームワークの利用を開放し,優れた一般化性を確立した。

We present a self-supervised human mesh recovery framework to infer human pose and shape from monocular images in the absence of any paired supervision. Recent advances have shifted the interest towards directly regressing parameters of a parametric human model by supervising them on large-scale datasets with 2D landmark annotations. This limits the generalizability of such approaches to operate on images from unlabeled wild environments. Acknowledging this we propose a novel appearance consensus driven self-supervised objective. To effectively disentangle the foreground (FG) human we rely on image pairs depicting the same person (consistent FG) in varied pose and background (BG) which are obtained from unlabeled wild videos. The proposed FG appearance consistency objective makes use of a novel, differentiable Color-recovery module to obtain vertex colors without the need for any appearance network; via efficient realization of color-picking and reflectional symmetry. We achieve state-of-the-art results on the standard model-based 3D pose estimation benchmarks at comparable supervision levels. Furthermore, the resulting colored mesh prediction opens up the usage of our framework for a variety of appearance-related tasks beyond the pose and shape estimation, thus establishing our superior generalizability.
翻訳日:2022-11-03 00:22:22 公開日:2020-08-04
# 未準備消火シナリオのための新しい室内位置決めシステム

A Novel Indoor Positioning System for unprepared firefighting scenarios ( http://arxiv.org/abs/2008.01344v1 )

ライセンス: Link先を確認
Vamsi Karthik Vadlamani, Manish Bhattarai, Meenu Ajith, Manel Mart{\i}nez-Ramon(参考訳) 消防士の状況把握と屋内位置追跡は,捜索救助活動において最も重要な課題の一つである。 屋内測位システム(IPS)にとって、GPSは最良の解決策ではない。 デッドレコメンテーション、Wifi、ブルートゥースによる三角測量、SFM(Structure from Motion)に基づく屋内位置決めシステムのためのシーン再構築など、他の技法はほとんどない。 しかし, 高温, 急速に変化する火の環境, 熱画像の視差が低いため, リアルタイムに状況認識を高めるために必要な消火環境において, 必要な情報を中継するには適していない。 消火環境では、煙と視界の低さにより熱画像カメラが使用されるため、消火点推定から相対方位を得るのは非常に困難である。 本研究の内容である次の技術は、オブジェクト指向推定のための新しい光フローベースビデオコンパスとIPSのためのIMUデータベースアクティビティ認識を実装している。 このテクニックは、最初の応答者が準備が整っていない未知の環境に入り込み、被害者の消防士の位置や方向のような状況認識を維持するのに役立ちます。

Situational awareness and Indoor location tracking for firefighters is one of the tasks with paramount importance in search and rescue operations. For Indoor Positioning systems (IPS), GPS is not the best possible solution. There are few other techniques like dead reckoning, Wifi and bluetooth based triangulation, Structure from Motion (SFM) based scene reconstruction for Indoor positioning system. However due to high temperatures, the rapidly changing environment of fires, and low parallax in the thermal images, these techniques are not suitable for relaying the necessary information in a fire fighting environment needed to increase situational awareness in real time. In fire fighting environments, thermal imaging cameras are used due to smoke and low visibility hence obtaining relative orientation from the vanishing point estimation is very difficult. The following technique that is the content of this research implements a novel optical flow based video compass for orientation estimation and fused IMU data based activity recognition for IPS. This technique helps first responders to go into unprepared, unknown environments and still maintain situational awareness like the orientation and, position of the victim fire fighters.
翻訳日:2022-11-03 00:22:02 公開日:2020-08-04
# 機械翻訳におけるオーソグラフィ情報の調査

A Survey of Orthographic Information in Machine Translation ( http://arxiv.org/abs/2008.01391v1 )

ライセンス: Link先を確認
Bharathi Raja Chakravarthi, Priya Rani, Mihael Arcan and John P. McCrae(参考訳) 機械翻訳は自然言語処理の応用の一つであり、様々な言語で研究されている。 近年,資源不足言語や近縁言語に対する機械翻訳に注目が集まっている。 これらの機械翻訳システムに広く根ざした問題は、従来の手法に多くの問題を引き起こす正書法における変化である。 2つの異なる正書法で記述された2つの言語は比較が難しいが、機械翻訳システムを改善するために正書法情報を利用することもできる。 本稿は, アンダーリソース言語による機械翻訳における正書法の影響について調査する。 機械翻訳におけるアンダーリソース言語の導入と、機械翻訳を改善するための正書法情報の利用方法を紹介する。 この領域における過去の研究について述べ、その基礎となる前提について論じ、また、正書法知識がアンダーリソース言語における機械翻訳の性能をいかに改善するかを示す。 本稿では,機械翻訳のさまざまなタイプについて論じ,機械翻訳手法の確立と正書法情報のリンクを求める最近の傾向を示す。 機械翻訳の異なるレベルにおけるコニャート情報に対する現在の取り組みや、そこから引き出すことができる教訓に、考慮すべき注意が払われる。 さらに、密接に関連する言語の多言語ニューラルマシン翻訳がこの調査に特に焦点をあてている。 本稿は,多言語環境とバイリンガル語彙誘導に着目し,正書法情報を用いた機械翻訳の方向性に関する議論を終える。

Machine translation is one of the applications of natural language processing which has been explored in different languages. Recently researchers started paying attention towards machine translation for resource-poor languages and closely related languages. A widespread and underlying problem for these machine translation systems is the variation in orthographic conventions which causes many issues to traditional approaches. Two languages written in two different orthographies are not easily comparable, but orthographic information can also be used to improve the machine translation system. This article offers a survey of research regarding orthography's influence on machine translation of under-resourced languages. It introduces under-resourced languages in terms of machine translation and how orthographic information can be utilised to improve machine translation. We describe previous work in this area, discussing what underlying assumptions were made, and showing how orthographic knowledge improves the performance of machine translation of under-resourced languages. We discuss different types of machine translation and demonstrate a recent trend that seeks to link orthographic information with well-established machine translation methods. Considerable attention is given to current efforts of cognates information at different levels of machine translation and the lessons that can be drawn from this. Additionally, multilingual neural machine translation of closely related languages is given a particular focus in this survey. This article ends with a discussion of the way forward in machine translation with orthographic information, focusing on multilingual settings and bilingual lexicon induction.
翻訳日:2022-11-03 00:15:13 公開日:2020-08-04
# ソースベース評価スコアからニューラルネットワーク注意スコアを用いた話題成分の自動抽出

Automated Topical Component Extraction Using Neural Network Attention Scores from Source-based Essay Scoring ( http://arxiv.org/abs/2008.01809v1 )

ライセンス: Link先を確認
Haoran Zhang and Diane Litman(参考訳) 自動エッセイスコア(AES)は大規模なエッセイを確実に評価できるが、自動筆記評価(AWE)はエッセイリビジョンをガイドするための形式的なフィードバックを提供する。 しかし、神経性AESは通常、AWEをサポートするのに有用な特徴表現を提供しない。 本稿では,AWEとニューラルAESをリンクする手法として,アテンション層の中間出力を用いて,ソーステキストからエビデンスを表すTopical Components (TC)を抽出する。 特徴量に基づくAESによる性能評価を行った。 結果から、自動または手動で構築されたTCを使用するか、パフォーマンスは同等であることが示された。 1) ルブリック的特徴としてのエッセイの表現 2)エッセイの格付け。

While automated essay scoring (AES) can reliably grade essays at scale, automated writing evaluation (AWE) additionally provides formative feedback to guide essay revision. However, a neural AES typically does not provide useful feature representations for supporting AWE. This paper presents a method for linking AWE and neural AES, by extracting Topical Components (TCs) representing evidence from a source text using the intermediate output of attention layers. We evaluate performance using a feature-based AES requiring TCs. Results show that performance is comparable whether using automatically or manually constructed TCs for 1) representing essays as rubric-based features, 2) grading essays.
翻訳日:2022-11-03 00:13:54 公開日:2020-08-04
# 原子力工学におけるASPの応用:三マイル島原子力事故シナリオの解説

An Application of ASP in Nuclear Engineering: Explaining the Three Mile Island Nuclear Accident Scenario ( http://arxiv.org/abs/2008.01253v1 )

ライセンス: Link先を確認
B. N. Hanna, L. T. Trieu, T. C. Son, and N. T. Dinh(参考訳) 本稿では,原子力発電所(NPP)制御室における運転者支援のための宣言システムの開発について述べる。 NPPで発生した事象の診断と説明の2つのモジュールに焦点が当てられている。 NPP の Answer Set Programming (ASP) 表現は、状態変数、コンポーネント、それらの接続、および植物の振る舞いを符号化する規則からなる。 次に、米国原子力発電所の運用史上最も深刻な事故である3マイル島部隊2号機(TMI-2)の事故の一連の出来事を説明するために、ASPプログラムをどのように利用できるかを示す。 また,「なぜイベントが発生するのか?」や「何をすべきなのか?」といった質問への回答を対象とする説明モジュールについても述べる。 この論文はTPLP Journalに掲載されている。

The paper describes an ongoing effort in developing a declarative system for supporting operators in the Nuclear Power Plant (NPP) control room. The focus is on two modules: diagnosis and explanation of events that happened in NPPs. We describe an Answer Set Programming (ASP) representation of an NPP, which consists of declarations of state variables, components, their connections, and rules encoding the plant behavior. We then show how the ASP program can be used to explain the series of events that occurred in the Three Mile Island, Unit 2 (TMI-2) NPP accident, the most severe accident in the USA nuclear power plant operating history. We also describe an explanation module aimed at addressing answers to questions such as ``why an event occurs?'' or ``what should be done?'' given the collected data. This paper is *under consideration* for acceptance in TPLP Journal.
翻訳日:2022-11-03 00:13:34 公開日:2020-08-04
# パーキンソン病の早期診断に基づく深層学習

Deep Learning Based Early Diagnostics of Parkinsons Disease ( http://arxiv.org/abs/2008.01792v1 )

ライセンス: Link先を確認
Elcin Huseyn(参考訳) 世界では、約700~1000万人の高齢者がパーキンソン病(PD)に苦しんでいる。 パーキンソン病は一般的な神経学的変性疾患であり、その臨床的特徴は震え、剛性、ブラジキネジア、自律性低下である。 臨床症状は多系統萎縮症(MSA)と非常によく似ている。 パーキンソン病の患者は診断時にしばしば不可分な状況に陥ることが示されているため、パーキンソン病はMSA疾患と区別され早期診断を受けることができるため、人々は常に新しい方法を模索している。 ビッグデータの時代が到来すると、ディープラーニングは画像認識と分類において大きなブレークスルーを遂げた。 そこで本研究では,パーキンソン病,多系統萎縮症,健常者の診断に深層学習法を用いることを提案する。 このデータはイスタンブール大学セララパサ医学部病院から入手したものだ。 元の磁気共鳴画像(磁気共鳴画像、MRI)の処理はイスタンブール大学セラパサ医科大学病院の医師が指導している。 この実験の焦点は、既存のニューラルネットワークを改善し、医学的画像認識と診断に優れた結果を得ることができるようにすることである。 パーキンソン病の病態特性に基づいて, 改良されたアルゴリズムを提案し, モデル損失や精度などの指標を比較し, 良好な実験結果を得た。

In the world, about 7 to 10 million elderly people are suffering from Parkinson's Disease (PD) disease. Parkinson's disease is a common neurological degenerative disease, and its clinical characteristics are Tremors, rigidity, bradykinesia, and decreased autonomy. Its clinical manifestations are very similar to Multiple System Atrophy (MSA) disorders. Studies have shown that patients with Parkinson's disease often reach an irreparable situation when diagnosed, so As Parkinson's disease can be distinguished from MSA disease and get an early diagnosis, people are constantly exploring new methods. With the advent of the era of big data, deep learning has made major breakthroughs in image recognition and classification. Therefore, this study proposes to use The deep learning method to realize the diagnosis of Parkinson's disease, multiple system atrophy, and healthy people. This data source is from Istanbul University Cerrahpasa Faculty of Medicine Hospital. The processing of the original magnetic resonance image (Magnetic Resonance Image, MRI) is guided by the doctor of Istanbul University Cerrahpasa Faculty of Medicine Hospital. The focus of this experiment is to improve the existing neural network so that it can obtain good results in medical image recognition and diagnosis. An improved algorithm was proposed based on the pathological characteristics of Parkinson's disease, and good experimental results were obtained by comparing indicators such as model loss and accuracy.
翻訳日:2022-11-03 00:06:45 公開日:2020-08-04
# 胸部X線データセット間の一般化を改善する不変特徴表現の学習

Learning Invariant Feature Representation to Improve Generalization across Chest X-ray Datasets ( http://arxiv.org/abs/2008.04152v1 )

ライセンス: Link先を確認
Sandesh Ghimire, Satyananda Kashyap, Joy T. Wu, Alexandros Karargyris, Mehdi Moradi(参考訳) 胸部X線撮影は、病院におけるスクリーニングと診断のための最も一般的な医用画像検査である。 エントリーレベルの放射線科医のレベルにおける胸部x線の自動解釈は、仕事の優先順位付けとより大きな人口の分析に大いに役立つ。 その後、胸部X線画像に基づく疾患を特定するために、いくつかのデータセットとディープラーニングベースのソリューションが提案されている。 トレーニングデータと同じデータセットでテストされた場合、ディープラーニングモデルは、別のソースからデータセット上でテストされた場合、パフォーマンスが低下し始めます。 本研究では,ネットワークにソース不変表現を学習させることで,新たなソースへの一般化という課題に対処する。 対向的学習戦略を用いることで,ネットワークがソース不変表現を学習せざるを得ないことを示す。 マルチソース胸部X線データセットの肺炎分類実験を通じて,このアルゴリズムが新しいX線データセットの分類精度の向上に役立つことを示す。

Chest radiography is the most common medical image examination for screening and diagnosis in hospitals. Automatic interpretation of chest X-rays at the level of an entry-level radiologist can greatly benefit work prioritization and assist in analyzing a larger population. Subsequently, several datasets and deep learning-based solutions have been proposed to identify diseases based on chest X-ray images. However, these methods are shown to be vulnerable to shift in the source of data: a deep learning model performing well when tested on the same dataset as training data, starts to perform poorly when it is tested on a dataset from a different source. In this work, we address this challenge of generalization to a new source by forcing the network to learn a source-invariant representation. By employing an adversarial training strategy, we show that a network can be forced to learn a source-invariant representation. Through pneumonia-classification experiments on multi-source chest X-ray datasets, we show that this algorithm helps in improving classification accuracy on a new source of X-ray dataset.
翻訳日:2022-11-03 00:05:30 公開日:2020-08-04
# 四元畳み込みニューラルネットワークを用いた回転不変歩行同定

Rotation-Invariant Gait Identification with Quaternion Convolutional Neural Networks ( http://arxiv.org/abs/2008.07393v1 )

ライセンス: Link先を確認
Bowen Jing, Vinay Prabhu, Angela Gu, John Whaley(参考訳) 加速度計による歩行に基づく識別システムの望まれる特性は、テスト中にユーザーが提示する新しいデバイス指向に対して堅牢であるが、トレーニング段階では見えなくなる。 しかしながら、これらのシステムで使用される従来の畳み込みニューラルネットワーク(CNN)は、そのような変換に対して不十分に補償する。 本稿では,入力ベクトルの配列の3次元回転の下で,本質的に階層的かつグローバルに不変なネットワークアーキテクチャであるQuaternion CNNを導入することにより,この問題を解消する。 このネットワークは,マルチユーザ回転不変歩行分類設定において,従来のCNNよりも著しく優れていることを示す。 最後に、このQCNNによって学習されたカーネルをユークリッド空間の基底非依存であるが原点およびキラル性に依存した軌道断片として視覚化し、特徴可視化と抽出の新たなモードが得られることを示す。

A desireable property of accelerometric gait-based identification systems is robustness to new device orientations presented by users during testing but unseen during the training phase. However, traditional Convolutional neural networks (CNNs) used in these systems compensate poorly for such transformations. In this paper, we target this problem by introducing Quaternion CNN, a network architecture which is intrinsically layer-wise equivariant and globally invariant under 3D rotations of an array of input vectors. We show empirically that this network indeed significantly outperforms a traditional CNN in a multi-user rotation-invariant gait classification setting .Lastly, we demonstrate how the kernels learned by this QCNN can also be visualized as basis-independent but origin- and chirality-dependent trajectory fragments in the euclidean space, thus yielding a novel mode of feature visualization and extraction.
翻訳日:2022-11-03 00:05:13 公開日:2020-08-04
# 機能安全基準に適合した統計的機械学習コンポーネントの安全設計概念

Safety design concepts for statistical machine learning components toward accordance with functional safety standards ( http://arxiv.org/abs/2008.01263v1 )

ライセンス: Link先を確認
Akihisa Morikawa and Yutaka Matsubara(参考訳) 近年,深層学習を含む統計的機械学習(SML)の誤判断による意図しない制御が原因で,キュリアルな事故や事故が報告されている。 電気・電子・プログラム可能な(e/e/p)システムの国際機能安全基準は、安全性を改善するために広く普及している。 しかし、これらの多くは、これまで安全クリティカルシステムにSMLを使用することを推奨していない。 実用的には、安全クリティカルシステムにおいてSMLを安全に使用できるように、新しい概念と方法が緊急に必要である。 本稿では,機能安全基準に従って,SMLコンポーネントの5種類の技術安全概念(TSC)を整理する。 我々は、定量的評価基準だけでなく、XAI(eXplainable Artificial Intelligence)とAutomotive SPICEに基づく開発プロセスについても論じ、開発フェーズにおける説明可能性と信頼性を向上させる。 いずれにせよ、TSCのコストと難易度を短時間比較し、多くのコミュニティやドメインでさらなる議論を進めることを期待する。

In recent years, curial incidents and accidents have been reported due to un-intended control caused by misjudgment of statistical machine learning (SML), which include deep learning. The international functional safety standards for Electric/Electronic/Programmable (E/E/P) systems have been widely spread to improve safety. However, most of them do not recom-mended to use SML in safety critical systems so far. In practical the new concepts and methods are urgently required to enable SML to be safely used in safety critical systems. In this paper, we organize five kinds of technical safety concepts (TSCs) for SML components toward accordance with functional safety standards. We discuss not only quantitative evaluation criteria, but also development process based on XAI (eXplainable Artificial Intelligence) and Automotive SPICE to improve explainability and reliability in development phase. Fi-nally, we briefly compare the TSCs in cost and difficulty, and expect to en-courage further discussion in many communities and domain.
翻訳日:2022-11-03 00:04:56 公開日:2020-08-04
# Music SketchNet: ピッチとリズムの因子表現による制御可能な音楽生成

Music SketchNet: Controllable Music Generation via Factorized Representations of Pitch and Rhythm ( http://arxiv.org/abs/2008.01291v1 )

ライセンス: Link先を確認
Ke Chen, Cheng-i Wang, Taylor Berg-Kirkpatrick, Shlomo Dubnov(参考訳) 自動画像補完システムと類似して,ユーザが自動音楽生成を導く部分的な音楽アイデアを指定可能なニューラルネットワークフレームワークであるMusic SketchNetを提案する。 我々は,不完全なモノフォニック楽曲の欠落尺度の生成,周囲の状況の調整,ユーザの指定したピッチやリズムスニペットによる任意指導に焦点を当てた。 まず,SketchVAEという,リズムとピッチの輪郭を明示的に分解し,提案モデルの基礎となる変分自動エンコーダを紹介する。 次に,2つの識別アーキテクチャであるsketchinpainterとsketchconnectorについて紹介する。 アイルランドのフォークミュージックの標準データセット上でsketchnetを評価し、最近の作品のモデルと比較する。 音楽の完成に使用する場合、客観的な測定値と主観的聴力テストの両方で最先端の手法が優れている。 最後に,本モデルが生成プロセス中にユーザ指定スニペットをうまく組み込むことができることを示す。

Drawing an analogy with automatic image completion systems, we propose Music SketchNet, a neural network framework that allows users to specify partial musical ideas guiding automatic music generation. We focus on generating the missing measures in incomplete monophonic musical pieces, conditioned on surrounding context, and optionally guided by user-specified pitch and rhythm snippets. First, we introduce SketchVAE, a novel variational autoencoder that explicitly factorizes rhythm and pitch contour to form the basis of our proposed model. Then we introduce two discriminative architectures, SketchInpainter and SketchConnector, that in conjunction perform the guided music completion, filling in representations for the missing measures conditioned on surrounding context and user-specified snippets. We evaluate SketchNet on a standard dataset of Irish folk music and compare with models from recent works. When used for music completion, our approach outperforms the state-of-the-art both in terms of objective metrics and subjective listening tests. Finally, we demonstrate that our model can successfully incorporate user-specified snippets during the generation process.
翻訳日:2022-11-03 00:04:29 公開日:2020-08-04
# スパース潜在空間モデルにおけるコミュニティ検出

Community detection in sparse latent space models ( http://arxiv.org/abs/2008.01375v1 )

ライセンス: Link先を確認
Fengnan Gao, Zongming Ma, Hongsong Yuan(参考訳) 確率的ブロックモデル文から得られた単純コミュニティ検出アルゴリズムは,広範かつ柔軟な有極空間モデルに対して,一貫性と最適性を達成できることを示す。 モデルは潜在固有モデル (arxiv:0711.1146) を含む。 コミュニティ検出アルゴリズムは、スペクトルクラスタリングと、正規化エッジカウントによる局所的な改善に基づいている。

We show that a simple community detection algorithm originated from stochastic blockmodel literature achieves consistency, and even optimality, for a broad and flexible class of sparse latent space models. The class of models includes latent eigenmodels (arXiv:0711.1146). The community detection algorithm is based on spectral clustering followed by local refinement via normalized edge counting.
翻訳日:2022-11-03 00:04:06 公開日:2020-08-04
# SemEval-2020 Task 12におけるNLPDove: 言語間移動による攻撃言語検出の改善

NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection with Cross-lingual Transfer ( http://arxiv.org/abs/2008.01354v1 )

ライセンス: Link先を確認
Hwijeen Ahn and Jimin Sun and Chan Young Park and Jungyun Seo(参考訳) 本稿では,多言語環境で攻撃的言語を識別するタスクへのアプローチについて述べる。 本研究では,しきい値の異なる付加的な半教師付きラベルと,データ選択を伴う言語間転送の2つのデータ拡張戦略について検討した。 半教師付きデータセットを活用することで、手動で注釈付きデータセットのみをトレーニングしたベースラインと比較してパフォーマンスが向上した。 クロスリンガルデータ選択のためのインスタンスの転送可能性を測定するための新しいメトリックである翻訳埋め込み距離を提案する。 また,多言語多言語bert (mbert) を微調整して攻撃的言語識別を行う手法とともに,ソーシャルメディアテキスト用に調整した様々な前処理手順を導入する。 われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。

This paper describes our approach to the task of identifying offensive languages in a multilingual setting. We investigate two data augmentation strategies: using additional semi-supervised labels with different thresholds and cross-lingual transfer with data selection. Leveraging the semi-supervised dataset resulted in performance improvements compared to the baseline trained solely with the manually-annotated dataset. We propose a new metric, Translation Embedding Distance, to measure the transferability of instances for cross-lingual data selection. We also introduce various preprocessing steps tailored for social media text along with methods to fine-tune the pre-trained multilingual BERT (mBERT) for offensive language identification. Our multilingual systems achieved competitive results in Greek, Danish, and Turkish at OffensEval 2020.
翻訳日:2022-11-03 00:04:01 公開日:2020-08-04
# 深部ニューラルネットワークに基づくベクトル-ベクトル回帰における平均絶対誤差の上界の解析

Analyzing Upper Bounds on Mean Absolute Errors for Deep Neural Network Based Vector-to-Vector Regression ( http://arxiv.org/abs/2008.05459v1 )

ライセンス: Link先を確認
Jun Qi, Jun Du, Sabato Marco Siniscalchi, Xiaoli Ma, Chin-Hui Lee(参考訳) 本稿では,ディープニューラルネットワーク(DNN)を用いたベクトル-ベクトル回帰において,予測された特徴ベクトルと期待される特徴ベクトル間の平均絶対誤差(MAE)の一般化損失が近似誤差,推定誤差,最適化誤差の和で上限値以上であることを示す。 統計的学習理論と非凸最適化理論の誤差分解技術を利用して、上記の3つの誤差の上限を導出し、DNNモデルに必要制約を課す。 さらに,画像のデノイズ化と音声強調実験により理論的結果を評価する。 dnnに基づくベクトル-ベクトル回帰に対するmaeの上界は,実験結果から裏付けられ,上界は"オーバーパラメトリゼーション(over-parametrization)"手法を用いずとも有効である。

In this paper, we show that, in vector-to-vector regression utilizing deep neural networks (DNNs), a generalized loss of mean absolute error (MAE) between the predicted and expected feature vectors is upper bounded by the sum of an approximation error, an estimation error, and an optimization error. Leveraging upon error decomposition techniques in statistical learning theory and non-convex optimization theory, we derive upper bounds for each of the three aforementioned errors and impose necessary constraints on DNN models. Moreover, we assess our theoretical results through a set of image de-noising and speech enhancement experiments. Our proposed upper bounds of MAE for DNN based vector-to-vector regression are corroborated by the experimental results and the upper bounds are valid with and without the "over-parametrization" technique.
翻訳日:2022-11-02 23:56:07 公開日:2020-08-04
# MSDPN: 多段階ニューラルネットワークを用いた部分レーザー観測による単眼深度予測

MSDPN: Monocular Depth Prediction with Partial Laser Observation using Multi-stage Neural Networks ( http://arxiv.org/abs/2008.01405v1 )

ライセンス: Link先を確認
Hyungtae Lim, Hyeonjae Gil and Hyun Myung(参考訳) 本研究では,2次元LiDARと単眼カメラを用いて深度マップを推定するために,MSDPN(Multi-Stage Depth Prediction Network)と呼ばれる深層学習に基づくマルチステージネットワークアーキテクチャを提案する。 提案するネットワークは,多段エンコーダデコーダアーキテクチャとクロスステージ特徴集合(CSFA)から構成される。 提案するマルチステージエンコーダ・デコーダアーキテクチャは,2次元lidarの特性に起因する部分的観測問題を軽減し,csfaはマルチステージネットワークが特徴を希釈することを防止し,ネットワークが特徴間の空間間関係をよりよく学習できるようにする。 これまでの研究では、実際の2D LiDARデータではなく、地上の真実からのサブサンプルデータを入力として使用していた。 対照的に、本手法はモデルをトレーニングし、物理的にコンパイルされた2次元LiDARデータセットを用いて実験を行う。 そこで我々は, KAIST RGBDスキャンデータセットという独自のデータセットを取得し, 現実的な条件下でのMSDPNの有効性とロバスト性を検証した。 実験により,本ネットワークは最先端手法に対して有望な性能を示す。 さらに,異なる入力手法の性能を解析し,未学習シナリオにおいて参照深度マップが堅牢であることを確認した。

In this study, a deep-learning-based multi-stage network architecture called Multi-Stage Depth Prediction Network (MSDPN) is proposed to predict a dense depth map using a 2D LiDAR and a monocular camera. Our proposed network consists of a multi-stage encoder-decoder architecture and Cross Stage Feature Aggregation (CSFA). The proposed multi-stage encoder-decoder architecture alleviates the partial observation problem caused by the characteristics of a 2D LiDAR, and CSFA prevents the multi-stage network from diluting the features and allows the network to learn the inter-spatial relationship between features better. Previous works use sub-sampled data from the ground truth as an input rather than actual 2D LiDAR data. In contrast, our approach trains the model and conducts experiments with a physically-collected 2D LiDAR dataset. To this end, we acquired our own dataset called KAIST RGBD-scan dataset and validated the effectiveness and the robustness of MSDPN under realistic conditions. As verified experimentally, our network yields promising performance against state-of-the-art methods. Additionally, we analyzed the performance of different input methods and confirmed that the reference depth map is robust in untrained scenarios.
翻訳日:2022-11-02 23:55:29 公開日:2020-08-04
# 深層ニューラルネットワークを用いた姿勢認識モデルによる構造物の損傷リスク評価

Applying Incremental Deep Neural Networks-based Posture Recognition Model for Injury Risk Assessment in Construction ( http://arxiv.org/abs/2008.01679v1 )

ライセンス: Link先を確認
Junqi Zhao and Esther Obonyo(参考訳) 不安定な姿勢のモニタリングは、建設における筋骨格障害(MSD)の予防である。 機械学習(ML)モデルは、ウェアラブルセンサーからの姿勢認識に有望な結果を示している。 しかし、さらなる調査が必要となる。 一 訓練されたモデルが新しい姿勢を学習し、学習した姿勢の忘れ方を制御するために適応する漸進的学習(il) 二 認識姿勢によるMSDの評価 本研究では,段階的畳み込み長短期記憶(CLN)モデルを提案し,有効なIL戦略について検討し,認識姿勢を用いたMSDの評価を行った。 9人の労働者を対象にした実験では, 浅い畳み込み層を有するCLNモデルは, パーソナライズ (0.87) と一般化 (0.84) により高い認識性能(F1スコア)を達成した。 many-to-One ILスキームに基づく一般化浅層CLNモデルは、適応(0.73)と学習対象の忘れ忘れ(0.74)のバランスをとることができる。 CLNモデルから認識した姿勢を用いたMSDs評価は, 地下構造と微妙な差異があり, 自動MSDsモニタリングの可能性が示唆された。

Monitoring awkward postures is a proactive prevention for Musculoskeletal Disorders (MSDs)in construction. Machine Learning (ML) models have shown promising results for posture recognition from Wearable Sensors. However, further investigations are needed concerning: i) Incremental Learning (IL), where trained models adapt to learn new postures and control the forgetting of learned postures; ii) MSDs assessment with recognized postures. This study proposed an incremental Convolutional Long Short-Term Memory (CLN) model, investigated effective IL strategies, and evaluated MSDs assessment using recognized postures. Tests with nine workers showed the CLN model with shallow convolutional layers achieved high recognition performance (F1 Score) under personalized (0.87) and generalized (0.84) modeling. Generalized shallow CLN model under Many-to-One IL scheme can balance the adaptation (0.73) and forgetting of learnt subjects (0.74). MSDs assessment using postures recognized from incremental CLN model had minor difference with ground-truth, which demonstrates the high potential for automated MSDs monitoring in construction.
翻訳日:2022-11-02 23:55:08 公開日:2020-08-04
# 類似した質問を識別するための効果的な転送学習: ユーザの質問とcovid-19のfaqのマッチング

Effective Transfer Learning for Identifying Similar Questions: Matching User Questions to COVID-19 FAQs ( http://arxiv.org/abs/2008.13546v1 )

ライセンス: Link先を確認
Clara H. McCreery, Namit Katariya, Anitha Kannan, Manish Chablani, Xavier Amatriain(参考訳) 医師の質問に対する回答を求める人が増えているが、オンラインで質問される割合は、回答する資格のある人の能力を大きく上回っている。 多くの疑問は答えられず、答えが不十分である。 これらの質問の多くはユニークではなく、類似した質問の信頼性の高い識別は、より効率的で効果的な質問応答スキーマを可能にする。 新型コロナウイルス(covid-19)はこの問題を悪化させた。 ほぼすべての政府機関や医療機関が、オンラインFAQを構築して、ユーザの情報ニーズを満たしようと試みてきたが、質問をして、その1ページに答えられるかどうかを知る方法がない。 多くの研究は一般的な質問の類似性の問題に焦点を当てているが、これらのアプローチは医学領域のような意味的類似性を決定するのに専門家の知識を必要とする領域にうまく一般化していない。 本稿では,医療質問対におけるニューラルネットワークの事前学習と,医療質問対の微調整が,医療質問の類似性を決定する究極の目的に対して,特に有効な中間課題であることを示す。 他のプリトレーニングタスクでは78.7%未満の精度が得られるが、同じトレーニングサンプル数で82.6%の精度、より少ないトレーニングセットで80.0%の精度、医療質問データの全コーパスを使用する場合の84.5%の精度が得られる。 また、トレーニングされたモデルを使用して、ユーザの質問と新型コロナウイルス関連のFAQをマッチングする、現在稼働中のシステムについても説明する。

People increasingly search online for answers to their medical questions but the rate at which medical questions are asked online significantly exceeds the capacity of qualified people to answer them. This leaves many questions unanswered or inadequately answered. Many of these questions are not unique, and reliable identification of similar questions would enable more efficient and effective question answering schema. COVID-19 has only exacerbated this problem. Almost every government agency and healthcare organization has tried to meet the informational need of users by building online FAQs, but there is no way for people to ask their question and know if it is answered on one of these pages. While many research efforts have focused on the problem of general question similarity, these approaches do not generalize well to domains that require expert knowledge to determine semantic similarity, such as the medical domain. In this paper, we show how a double fine-tuning approach of pretraining a neural network on medical question-answer pairs followed by fine-tuning on medical question-question pairs is a particularly useful intermediate task for the ultimate goal of determining medical question similarity. While other pretraining tasks yield an accuracy below 78.7% on this task, our model achieves an accuracy of 82.6% with the same number of training examples, an accuracy of 80.0% with a much smaller training set, and an accuracy of 84.5% when the full corpus of medical question-answer data is used. We also describe a currently live system that uses the trained model to match user questions to COVID-related FAQs.
翻訳日:2022-11-02 23:48:58 公開日:2020-08-04
# 時間遅れ因果関係を持つ学習遷移モデル

Learning Transition Models with Time-delayed Causal Relations ( http://arxiv.org/abs/2008.01593v1 )

ライセンス: Link先を確認
Junchi Liang and Abdeslam Boularias(参考訳) 本稿では,モデルベース強化学習(rl)手法のデータ効率と解釈性の向上を目的として,ロボットが任意のタイミングで観測する事象の暗黙的因果関係と遅延因果関係を探索するアルゴリズムを提案する。 提案アルゴリズムはまずマルコフの仮定で観測を予測し、観測の確率性を説明・低減するために新しい隠れ変数を漸進的に導入する。 隠れた変数は、関連する過去のイベントを追跡するメモリユニットである。 このようなイベントは、情報ゲインによって体系的に識別される。 学習した移行モデルと報酬モデルが計画に使用される。 シミュレーションおよび実際のロボットタスクの実験は、この手法が現在のRL技術よりも大幅に改善されていることを示している。

This paper introduces an algorithm for discovering implicit and delayed causal relations between events observed by a robot at arbitrary times, with the objective of improving data-efficiency and interpretability of model-based reinforcement learning (RL) techniques. The proposed algorithm initially predicts observations with the Markov assumption, and incrementally introduces new hidden variables to explain and reduce the stochasticity of the observations. The hidden variables are memory units that keep track of pertinent past events. Such events are systematically identified by their information gains. The learned transition and reward models are then used for planning. Experiments on simulated and real robotic tasks show that this method significantly improves over current RL techniques.
翻訳日:2022-11-02 23:48:08 公開日:2020-08-04
# 都市土地利用における駐車時間モデル化のための機械学習アプローチ

A Machine Learning Approach for Modelling Parking Duration in Urban Land-use ( http://arxiv.org/abs/2008.01674v1 )

ライセンス: Link先を確認
Janak Parmar, Pritikana Das, Sanjaykumar Dave(参考訳) パーキングは急速に成長する途上国では避けられない問題である。 車両の数が増えるにつれて、駐車場に割り当てられる土地はますます増えていく。 しかし、インドのような発展途上国の駐車問題には注意が向けられている。 本研究では,自動車利用者の社会経済的・旅行特性が駐車時間に与える影響を解析するためのモデルを提案する。 具体的には、運転特性と駐車期間の相互関係を捉えるために、ニューラルネットワーク(anns)がデプロイされる。 ANNは、結果の最良の予測のためのパラメータ間の接続を学習し、認識するのに非常に効率的である。 ブラックボックスの性質から、アンの実用性は批判的に制限されているため、この研究はモデル解釈にガーソンアルゴリズムと局所解釈可能なモデル非依存説明(lime)を使用している。 LIMEは、開発された解釈可能なモデルで局所的に近似することで、任意の分類の予測を示す。 本研究は,オフィス・ビジネスと市場・ショッピングの2つの土地利用状況を考慮したインタビュー調査を通じて,現場で収集したマイクロデータに基づく。 その結果, LIMEによる予測の確率が高く, ユビキタスに適用可能であることがわかった。 さらに、両土地利用の結果をもとに、政策含意について論じる。 このユニークな研究は、持続可能性目標を達成するための駐車政策と管理を強化する可能性がある。

Parking is an inevitable issue in the fast-growing developing countries. Increasing number of vehicles require more and more urban land to be allocated for parking. However, a little attention has been conferred to the parking issues in developing countries like India. This study proposes a model for analysing the influence of car users' socioeconomic and travel characteristics on parking duration. Specifically, artificial neural networks (ANNs) is deployed to capture the interrelationship between driver characteristics and parking duration. ANNs are highly efficient in learning and recognizing connections between parameters for best prediction of an outcome. Since, utility of ANNs has been critically limited due to its Black Box nature, the study involves the use of Garson algorithm and Local interpretable model-agnostic explanations (LIME) for model interpretations. LIME shows the prediction for any classification, by approximating it locally with the developed interpretable model. This study is based on microdata collected on-site through interview surveys considering two land-uses: office-business and market/shopping. Results revealed the higher probability of prediction through LIME and therefore, the methodology can be adopted ubiquitously. Further, the policy implications are discussed based on the results for both land-uses. This unique study could lead to enhanced parking policy and management to achieve the sustainability goals.
翻訳日:2022-11-02 23:47:36 公開日:2020-08-04
# 制約付き深い逆q学習

Deep Inverse Q-learning with Constraints ( http://arxiv.org/abs/2008.01712v1 )

ライセンス: Link先を確認
Gabriel Kalweit, Maria Huegle, Moritz Werling, Joschka Boedecker(参考訳) 一般的な最大エントロピー逆強化学習手法は、報酬関数の推定の下で最適政策に対する期待状態訪問頻度の計算を必要とする。 これは通常、アルゴリズムの内部ループにおける中間値の推定を必要とし、収束をかなり遅くする。 本研究では,専門家の方針を回復するためには,実証行動の根底にあるMDPを解くことしか必要としない,新しいアルゴリズムのクラスを導入する。 これはQ-ラーニングの構造内の実演に対する確率的行動仮定を利用する定式化によって可能である。 本稿では,外部エージェントの下位報酬を解析的に完全に回収できる逆アクション値反復を提案する。 さらに、環境のモデルに依存しないサンプリングベースの変種を随伴するクラスを提供する。 このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と、対応するアクション値関数を推定する方法を示し、予め定義された制約のリストを任意に満たしながら、外部エージェントのポリシーにできるだけ近いポリシーを導出する。 objectworldベンチマークでは、逆アクション値反復、逆qラーニング、ディープ逆qラーニングと呼ばれるアルゴリズムを評価し、最大エントロピーアルゴリズムと比較して最大数桁の高速化を示した。 さらに,30分間のデモンストレーションに対応するデータに対して,学習後に有能な運転を実現するオープンソースシミュレータsumoの自律車線変更学習タスクに,深い制約付き逆q学習を適用する。

Popular Maximum Entropy Inverse Reinforcement Learning approaches require the computation of expected state visitation frequencies for the optimal policy under an estimate of the reward function. This usually requires intermediate value estimation in the inner loop of the algorithm, slowing down convergence considerably. In this work, we introduce a novel class of algorithms that only needs to solve the MDP underlying the demonstrated behavior once to recover the expert policy. This is possible through a formulation that exploits a probabilistic behavior assumption for the demonstrations within the structure of Q-learning. We propose Inverse Action-value Iteration which is able to fully recover an underlying reward of an external agent in closed-form analytically. We further provide an accompanying class of sampling-based variants which do not depend on a model of the environment. We show how to extend this class of algorithms to continuous state-spaces via function approximation and how to estimate a corresponding action-value function, leading to a policy as close as possible to the policy of the external agent, while optionally satisfying a list of predefined hard constraints. We evaluate the resulting algorithms called Inverse Action-value Iteration, Inverse Q-learning and Deep Inverse Q-learning on the Objectworld benchmark, showing a speedup of up to several orders of magnitude compared to (Deep) Max-Entropy algorithms. We further apply Deep Constrained Inverse Q-learning on the task of learning autonomous lane-changes in the open-source simulator SUMO achieving competent driving after training on data corresponding to 30 minutes of demonstrations.
翻訳日:2022-11-02 23:46:16 公開日:2020-08-04
# スプラインとしての浅一変量ReLuネットワーク:初期化, ロス表面, ヘッセン, グラディエントフローダイナミクス

Shallow Univariate ReLu Networks as Splines: Initialization, Loss Surface, Hessian, & Gradient Flow Dynamics ( http://arxiv.org/abs/2008.01772v1 )

ライセンス: Link先を確認
Justin Sahs, Ryan Pyle, Aneel Damaraju, Josue Ortega Caro, Onur Tavaslioglu, Andy Lu, Ankit Patel(参考訳) ニューラルネットワーク(NN)の学習力学と帰納バイアスを理解することは、NNパラメータと表現される関数の関係の不透明さによって妨げられる。 本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。 このスプラインレンズを用いて、浅い単変量ReLU NNの学習力学を研究し、予期せぬ洞察といくつかの難解な現象の説明を求める。 我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。 また、標準重み初期化は非常に平坦な関数となり、この平坦さは過度なパラメータ化や初期重みスケールとともに、最近のarXiv:1906.05827と一致する暗黙の正則化の強さとタイプに寄与することを示した。 我々の暗黙的正規化結果は、カーネルベースの引数を介して暗黙的正規化を臨界的に制御する初期化スケールを独立に行う最近の研究であるarxiv: 1906.07842と相補的である。 我々のスプラインベースのアプローチは、重要な暗黙の正規化結果を再現するが、はるかに直感的で透明な方法で再現する。 今後、スプラインベースのアプローチは、多変量および深い設定に自然に拡張され、ニューラルネットワークを理解する上で基礎的な役割を果たすでしょう。 splineベースの可視化を使った学習ダイナミクスのビデオはhttp://shorturl.at/tfwz2.com/で見ることができる。

Understanding the learning dynamics and inductive bias of neural networks (NNs) is hindered by the opacity of the relationship between NN parameters and the function represented. We propose reparametrizing ReLU NNs as continuous piecewise linear splines. Using this spline lens, we study learning dynamics in shallow univariate ReLU NNs, finding unexpected insights and explanations for several perplexing phenomena. We develop a surprisingly simple and transparent view of the structure of the loss surface, including its critical and fixed points, Hessian, and Hessian spectrum. We also show that standard weight initializations yield very flat functions, and that this flatness, together with overparametrization and the initial weight scale, is responsible for the strength and type of implicit regularization, consistent with recent work arXiv:1906.05827. Our implicit regularization results are complementary to recent work arXiv:1906.07842, done independently, which showed that initialization scale critically controls implicit regularization via a kernel-based argument. Our spline-based approach reproduces their key implicit regularization results but in a far more intuitive and transparent manner. Going forward, our spline-based approach is likely to extend naturally to the multivariate and deep settings, and will play a foundational role in efforts to understand neural networks. Videos of learning dynamics using a spline-based visualization are available at http://shorturl.at/tFWZ2.
翻訳日:2022-11-02 23:39:52 公開日:2020-08-04
# 薬物処方の相互注意グラフカーネルネットワーク予測

Cross-Global Attention Graph Kernel Network Prediction of Drug Prescription ( http://arxiv.org/abs/2008.01868v1 )

ライセンス: Link先を確認
Hao-Ren Yao, Der-Chen Chang, Ophir Frieder, Wendy Huang, I-Chia Liang and Chi-Feng Hung(参考訳) 本稿では,慢性疾患処方薬の結果を予測するグラフカーネルを学ぶために,エンドツーエンドで解釈可能なディープラーニングアーキテクチャを提案する。 これは、電子健康記録のグラフィカル表現を用いたサポートベクターマシンの目的と協調したディープメトリック学習によって達成される。 本稿では,適応学習グラフカーネルを用いた2進グラフ分類問題として,患者グラフ間の新たなクロスグローバルアテンションノードマッチングによる予測モデルを定式化し,トレーニングペアやトリプレット生成を伴わずに複数のグラフ上で同時に計算する。 台湾国民健康保険研究データベースを用いた結果,本手法は,精度と解釈可能性の両方において,現在の最先端モデルよりも優れていることが示された。

We present an end-to-end, interpretable, deep-learning architecture to learn a graph kernel that predicts the outcome of chronic disease drug prescription. This is achieved through a deep metric learning collaborative with a Support Vector Machine objective using a graphical representation of Electronic Health Records. We formulate the predictive model as a binary graph classification problem with an adaptive learned graph kernel through novel cross-global attention node matching between patient graphs, simultaneously computing on multiple graphs without training pair or triplet generation. Results using the Taiwanese National Health Insurance Research Database demonstrate that our approach outperforms current start-of-the-art models both in terms of accuracy and interpretability.
翻訳日:2022-11-02 23:39:15 公開日:2020-08-04
# 変動型ディープqネットワークの検討

Exploring Variational Deep Q Networks ( http://arxiv.org/abs/2008.01641v1 )

ライセンス: Link先を確認
A. H. Bell-Thomas(参考訳) 本研究は,変分ベイズ推論を用いた複雑な学習環境における探索の効率を最大化するための新しいアプローチであるTangとKucukelbir's Variational Deep Q Networkの分析および研究対応実装を提供する。 従来のDouble Deep Q NetworksとDouble Deep Q Networksの両方のリファレンス実装に加えて、推論ベースの学習の安定性と堅牢性を向上させるための改善を含むDouble Variational Deep Q Networkという、小さな新しいコントリビューションが提示されている。 最後に,ベイズ深層学習の広い文脈において,これらのアプローチの有効性の評価と議論を行った。

This study provides both analysis and a refined, research-ready implementation of Tang and Kucukelbir's Variational Deep Q Network, a novel approach to maximising the efficiency of exploration in complex learning environments using Variational Bayesian Inference. Alongside reference implementations of both Traditional and Double Deep Q Networks, a small novel contribution is presented - the Double Variational Deep Q Network, which incorporates improvements to increase the stability and robustness of inference-based learning. Finally, an evaluation and discussion of the effectiveness of these approaches is discussed in the wider context of Bayesian Deep Learning.
翻訳日:2022-11-02 23:31:07 公開日:2020-08-04
# 相補的ラベル源領域からの学習:理論とアルゴリズム

Learning from a Complementary-label Source Domain: Theory and Algorithms ( http://arxiv.org/abs/2008.01454v1 )

ライセンス: Link先を確認
Yiyang Zhang, Feng Liu, Zhen Fang, Bo Yuan, Guangquan Zhang, Jie Lu(参考訳) unsupervised domain adaptation(uda)では、ターゲットドメインの分類器は、ソースドメインからの巨大な真のラベルデータと、ターゲットドメインからのラベルなしデータで訓練される。 しかし、ソース領域における完全なラベルデータの収集は、高コストであり、時には不可能である。 真のラベルと比較して、補完ラベルはパターンが属さないクラスを特定するため、補完ラベルの収集は真のラベルの収集よりも手間がかからない。 そこで,本稿では,ソース領域が相補ラベルデータで構成された新しい設定を提案し,その理論的なバウンドを最初に証明する。 1つは、ソースドメインが補完的なラベルデータのみ(完全補完的なドメイン適応、CC-UDA)を持ち、もう1つは、ソースドメインが補完的なラベルデータと、少数の真のラベルデータ(部分的に補完的なドメイン適応、PC-UDA)を持っていることである。 この目的のために,CC-UDAとPC-UDAの問題を解決するために,CLARINET (Comparary label adversarial Network) を提案する。 clarinetは2つのディープネットワークを同時に維持しており、1つは補完ラベルのソースデータを分類し、もう1つはソースからターゲットへの分散適応を扱う。 実験により、CLARINETは手書き文字認識とオブジェクト認識タスクにおいて、一連の有能なベースラインを著しく上回ることが示された。

In unsupervised domain adaptation (UDA), a classifier for the target domain is trained with massive true-label data from the source domain and unlabeled data from the target domain. However, collecting fully-true-label data in the source domain is high-cost and sometimes impossible. Compared to the true labels, a complementary label specifies a class that a pattern does not belong to, hence collecting complementary labels would be less laborious than collecting true labels. Thus, in this paper, we propose a novel setting that the source domain is composed of complementary-label data, and a theoretical bound for it is first proved. We consider two cases of this setting, one is that the source domain only contains complementary-label data (completely complementary unsupervised domain adaptation, CC-UDA), and the other is that the source domain has plenty of complementary-label data and a small amount of true-label data (partly complementary unsupervised domain adaptation, PC-UDA). To this end, a complementary label adversarial network} (CLARINET) is proposed to solve CC-UDA and PC-UDA problems. CLARINET maintains two deep networks simultaneously, where one focuses on classifying complementary-label source data and the other takes care of source-to-target distributional adaptation. Experiments show that CLARINET significantly outperforms a series of competent baselines on handwritten-digits-recognition and objects-recognition tasks.
翻訳日:2022-11-02 23:30:55 公開日:2020-08-04
# 特徴的妥当性の不確実性について:モンテカルロドロップアウトサンプリングアプローチ

On Feature Relevance Uncertainty: A Monte Carlo Dropout Sampling Approach ( http://arxiv.org/abs/2008.01468v1 )

ライセンス: Link先を確認
Kai Fabi, Jonas Schneider(参考訳) ニューラルネットワークによる決定を理解することは、現実世界のアプリケーションにインテリジェントなシステムを配置するための鍵となる。 しかし、これらのシステムの不透明な意思決定プロセスは、解釈可能性が必要となる不利である。 ニューラルネットワークによる決定をよりよく理解するために、ここ数年、多くの機能ベースの説明技術が機械学習の分野で導入され、推論能力を検証する重要なコンポーネントとなっている。 しかし、既存の手法では、特徴の予測に対する関連性に関する不確実性に関する言明を許さない。 本稿では,特徴量不確かさ推定のためのモンテカルロ分布伝播(mcrp)を提案する。 モンテカルロ推定に基づく単純かつ強力な手法は、ニューラルネットワークの知覚と推論のより深い理解を可能にする特徴関係不確実性スコアを計算するために特徴関係分布を推定する。

Understanding decisions made by neural networks is key for the deployment of intelligent systems in real world applications. However, the opaque decision making process of these systems is a disadvantage where interpretability is essential. Many feature-based explanation techniques have been introduced over the last few years in the field of machine learning to better understand decisions made by neural networks and have become an important component to verify their reasoning capabilities. However, existing methods do not allow statements to be made about the uncertainty regarding a feature's relevance for the prediction. In this paper, we introduce Monte Carlo Relevance Propagation (MCRP) for feature relevance uncertainty estimation. A simple but powerful method based on Monte Carlo estimation of the feature relevance distribution to compute feature relevance uncertainty scores that allow a deeper understanding of a neural network's perception and reasoning.
翻訳日:2022-11-02 23:30:29 公開日:2020-08-04
# データストリーム上でのmondrian p{\o}lya林による解釈可能な異常検出

Interpretable Anomaly Detection with Mondrian P{\'o}lya Forests on Data Streams ( http://arxiv.org/abs/2008.01505v1 )

ライセンス: Link先を確認
Charlie Dickens, Eric Meissner, Pablo G. Moreno, Tom Diethe(参考訳) スケールでの異常検出は、非常に困難な実用性の問題である。 データが大規模で高次元の場合には、どの観測が期待された行動に合っていないかを検出するのは難しい。 最近の研究は、異常検出のためのデータを要約する(ランダム)$k$\emph{d-trees} のバリエーションを合体させてきた。 しかし、これらの方法は解釈が容易でないアドホックスコア関数に依存しており、検出された異常の重大度を判断したり、ラベル付き異常がない場合に妥当なしきい値を選択することが困難である。 これらの問題を解決するために,これらの手法をmondrian \polya{} forestと呼ぶ確率的枠組みで文脈化し,データ生成の基盤となる確率密度関数を推定し,先行研究よりも高い解釈可能性を実現する。 さらに,現代的なストリーミング環境で動作可能なメモリ効率のよい変種を開発した。 実験では, 統計的に解釈可能な異常スコアを提供しながら, 最先端のパフォーマンスを実現することを示す。

Anomaly detection at scale is an extremely challenging problem of great practicality. When data is large and high-dimensional, it can be difficult to detect which observations do not fit the expected behaviour. Recent work has coalesced on variations of (random) $k$\emph{d-trees} to summarise data for anomaly detection. However, these methods rely on ad-hoc score functions that are not easy to interpret, making it difficult to asses the severity of the detected anomalies or select a reasonable threshold in the absence of labelled anomalies. To solve these issues, we contextualise these methods in a probabilistic framework which we call the Mondrian \Polya{} Forest for estimating the underlying probability density function generating the data and enabling greater interpretability than prior work. In addition, we develop a memory efficient variant able to operate in the modern streaming environments. Our experiments show that these methods achieves state-of-the-art performance while providing statistically interpretable anomaly scores.
翻訳日:2022-11-02 23:30:02 公開日:2020-08-04
# 異なる品質のゲームプレイからゲームルールを誘導する

Inducing game rules from varying quality game play ( http://arxiv.org/abs/2008.01664v1 )

ライセンス: Link先を確認
Alastair Flynn(参考訳) 汎用ゲームプレイング(英: General Game Playing、GGP)は、人工知能プログラムが様々なゲームを成功させるために必要なフレームワークである。 それはAIと研究のモチベーションのためのテストベッドとして機能する。 AIは実行時にランダムなゲーム記述が与えられ、それが再生される。 このフレームワークはゲームルールのリポジトリを含んでいる。 Inductive General Game Playing (IGGP)問題は、ゲームがプレイされているのを見てこれらのGGPゲームルールを学ぶために機械学習システムに挑戦する。 言い換えれば、IGGPは特定のゲーム観察から一般的なゲームルールを誘導する問題である。 Inductive Logic Programming (ILP) はこの問題に対して有望なアプローチであることが示されているが、まだILPシステムでは難しい問題である。 IGGPの既存の研究は、観測されているプレイヤーがランダムに動くと常に仮定している。 これは、人間がゲームの遊び方を学ぶことを表すものではない。 ランダムなゲームプレイでは、人間がプレイしていないときに通常遭遇する。 この制限に対処するために,知的かつ無作為なゲームプレイトレースの使用の効果と,トレーニングセットにおけるトレース数の変更の効果を分析した。 2014年のggpコンペティションの勝者であるsanchoを使って、多くのゲームでインテリジェントなゲームトレースを生成します。 次に、ILPシステム、Metagol、Aleph、ILASPを使用して、トレースからゲームルールを誘導する。 両方の混合を含むインテリジェントデータとランダムデータの組み合わせでシステムをトレーニングし、テストします。 トレーニングデータの量も異なります。 その結果、いくつかのゲームは実験でより効果的に学習されたが、全体の傾向は統計的に有意ではなかった。 本研究の意義は,本論文で記述したトレーニングデータの品質の変化が,学習したゲームルールの正確性に強い影響を与えることにある。

General Game Playing (GGP) is a framework in which an artificial intelligence program is required to play a variety of games successfully. It acts as a test bed for AI and motivator of research. The AI is given a random game description at runtime which it then plays. The framework includes repositories of game rules. The Inductive General Game Playing (IGGP) problem challenges machine learning systems to learn these GGP game rules by watching the game being played. In other words, IGGP is the problem of inducing general game rules from specific game observations. Inductive Logic Programming (ILP) has shown to be a promising approach to this problem though it has been demonstrated that it is still a hard problem for ILP systems. Existing work on IGGP has always assumed that the game player being observed makes random moves. This is not representative of how a human learns to play a game. With random gameplay situations that would normally be encountered when humans play are not present. To address this limitation, we analyse the effect of using intelligent versus random gameplay traces as well as the effect of varying the number of traces in the training set. We use Sancho, the 2014 GGP competition winner, to generate intelligent game traces for a large number of games. We then use the ILP systems, Metagol, Aleph and ILASP to induce game rules from the traces. We train and test the systems on combinations of intelligent and random data including a mixture of both. We also vary the volume of training data. Our results show that whilst some games were learned more effectively in some of the experiments than others no overall trend was statistically significant. The implications of this work are that varying the quality of training data as described in this paper has strong effects on the accuracy of the learned game rules; however one solution does not work for all games.
翻訳日:2022-11-02 23:29:16 公開日:2020-08-04
# 高性能データマイニングのための空間充填曲線

Space-filling Curves for High-performance Data Mining ( http://arxiv.org/abs/2008.01684v1 )

ライセンス: Link先を確認
Christian B\"ohm(参考訳) ヒルベルト曲線、ペアノ曲線、Z次曲線のような空間充填曲線は、2次元以上の空間から局所性を保存する一次元空間への自然あるいは実数の写像である。 検索構造、コンピュータグラフィックス、数値シミュレーション、暗号など多くの応用があり、様々なアルゴリズムをキャッシュオフブロードすることができる。 本稿ではヒルベルト曲線の詳細について述べる。 ヒルベルト曲線は、2次元座標空間からヒルベルト順序値を決定するミーリー型の有限オートマトンで定義し、逆も対数的なステップ数で定義する。 そして、生成した座標/順序値ペアの数、すなわち座標ペア当たりの一定時間または順序値の線形である時間全体の曲線を生成するための文脈自由文法を定義する。 また,辺長が2のパワーである正方形グリッドに通常の制限を課さずに曲線を生成できる2つの異なる戦略について検討した。 最後に,行列乗算,コレスキー分解,フロイド・ワースホールアルゴリズム,k平均クラスタリング,類似性結合など,いくつかの応用について詳述する。

Space-filling curves like the Hilbert-curve, Peano-curve and Z-order map natural or real numbers from a two or higher dimensional space to a one dimensional space preserving locality. They have numerous applications like search structures, computer graphics, numerical simulation, cryptographics and can be used to make various algorithms cache-oblivious. In this paper, we describe some details of the Hilbert-curve. We define the Hilbert-curve in terms of a finite automaton of Mealy-type which determines from the two-dimensional coordinate space the Hilbert order value and vice versa in a logarithmic number of steps. And we define a context-free grammar to generate the whole curve in a time which is linear in the number of generated coordinate/order value pairs, i.e. a constant time per coordinate pair or order value. We also review two different strategies which enable the generation of curves without the usual restriction to square-like grids where the side-length is a power of two. Finally, we elaborate on a few applications, namely matrix multiplication, Cholesky decomposition, the Floyd-Warshall algorithm, k-Means clustering, and the similarity join.
翻訳日:2022-11-02 23:28:28 公開日:2020-08-04
# 一致した訓練データのない3次元飛行時間MRAのための2段階深層学習

Two-Stage Deep Learning for Accelerated 3D Time-of-Flight MRA without Matched Training Data ( http://arxiv.org/abs/2008.01362v1 )

ライセンス: Link先を確認
Hyungjin Chung, Eunju Cha, Leonard Sunwoo, and Jong Chul Ye(参考訳) 飛行時磁気共鳴血管造影法(TOF-MRA)は血管の可視化に最も広く用いられている非造影MRI画像法の一つである。 したがって, アンダーサンプリングTOF-MRAによる高品質な再構築は, 深層学習における重要な研究課題である。 しかし、既存のディープラーニング研究の多くは、教師付きトレーニングにマッチした参照データを必要とする。 本稿では, 最適輸送理論からサイクガンの最近の理論的理解を拡張することにより, コロナ面に沿ったマルチコイル再構成ネットワークと軸面に沿った多面的改良ネットワークからなる, 新たな2段階非教師なし深層学習手法を提案する。 具体的には、第1のネットワークは、高品質な並列画像再構成を実現するために正方形の平方根(SSoS)で訓練され、第2のリファインメントネットワークは、ダブルヘッドの最大プール判別器を用いて、高活性な血流の特性を効率的に学習するように設計されている。 大規模な実験により,提案した学習プロセスが最先端圧縮センシング(CS)法の性能を上回ることが示され,教師付き学習手法と同等あるいはそれ以上の結果が得られた。

Time-of-flight magnetic resonance angiography (TOF-MRA) is one of the most widely used non-contrast MR imaging methods to visualize blood vessels, but due to the 3-D volume acquisition highly accelerated acquisition is necessary. Accordingly, high quality reconstruction from undersampled TOF-MRA is an important research topic for deep learning. However, most existing deep learning works require matched reference data for supervised training, which are often difficult to obtain. By extending the recent theoretical understanding of cycleGAN from the optimal transport theory, here we propose a novel two-stage unsupervised deep learning approach, which is composed of the multi-coil reconstruction network along the coronal plane followed by a multi-planar refinement network along the axial plane. Specifically, the first network is trained in the square-root of sum of squares (SSoS) domain to achieve high quality parallel image reconstruction, whereas the second refinement network is designed to efficiently learn the characteristics of highly-activated blood flow using double-headed max-pool discriminator. Extensive experiments demonstrate that the proposed learning process without matched reference exceeds performance of state-of-the-art compressed sensing (CS)-based method and provides comparable or even better results than supervised learning approaches.
翻訳日:2022-11-02 23:21:46 公開日:2020-08-04
# クラスインクリメンタルドメイン適応

Class-Incremental Domain Adaptation ( http://arxiv.org/abs/2008.01389v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Rahul Mysore Venkatesh, Naveen Venkat, Ambareesh Revanur, R. Venkatesh Babu(参考訳) 本稿では、CIDA(Class-Incremental Domain Adaptation)と呼ばれる実用的なドメイン適応(DA)パラダイムを紹介する。 既存のdaメソッドはドメインシフトに取り組むが、新しいターゲットドメインクラスを学ぶのに適さない。 一方、CI(class-incremental)メソッドは、ソーストレーニングデータがない場合に新しいクラスを学習できるが、ラベル付き監督なしでドメインシフトで失敗する。 本研究では、CIDAパラダイムにおけるこれらのアプローチの限界を効果的に識別する。 理論的および経験的観察に動機づけられ、ドメインシフト下でも、ターゲットサンプルを共有および新規な(ワンショット)ターゲットクラスに分類できる、プロトタイプネットワークにインスパイアされた効果的な手法を提案する。 提案手法は,CIDAパラダイムにおけるDAメソッドとCIメソッドの両方と比較して,優れた性能が得られる。

We introduce a practical Domain Adaptation (DA) paradigm called Class-Incremental Domain Adaptation (CIDA). Existing DA methods tackle domain-shift but are unsuitable for learning novel target-domain classes. Meanwhile, class-incremental (CI) methods enable learning of new classes in absence of source training data but fail under a domain-shift without labeled supervision. In this work, we effectively identify the limitations of these approaches in the CIDA paradigm. Motivated by theoretical and empirical observations, we propose an effective method, inspired by prototypical networks, that enables classification of target samples into both shared and novel (one-shot) target classes, even under a domain-shift. Our approach yields superior performance as compared to both DA and CI methods in the CIDA paradigm.
翻訳日:2022-11-02 23:21:21 公開日:2020-08-04
# 効率的な画像検索のための多重コードハッシュ

Multiple Code Hashing for Efficient Image Retrieval ( http://arxiv.org/abs/2008.01503v1 )

ライセンス: Link先を確認
Ming-Wei Li, Qing-Yuan Jiang, Wu-Jun Li(参考訳) ストレージコストが低く、クエリ速度が速いため、ハッシュ処理は大規模な画像検索タスクで広く使われている。 ハッシュバケット検索は、所定のハミング半径内にあるデータポイントを各クエリに返します。 しかし,既存のハッシュ法では,画像毎に1つのハッシュコードしか学習できないため,複雑なシナリオでハッシュバケット探索を満足できる検索性能が得られない。 より具体的には、1つのハッシュコードを使って1つのイメージを表現することで、画像の意味情報が複雑である場合、既存のメソッドはバケットに同様のイメージペアを配置するのに失敗する可能性がある。 その結果、学習したコードに基づいて類似の画像を取得するために、大量のハッシュバケットを訪問する必要がある。 これによりハッシュバケット探索の効率が低下する。 本稿では,ハッシュバケット探索の性能向上を図るために,Multiple code hashing (MCH)と呼ばれる新しいハッシュフレームワークを提案する。 MCHの主な考え方は、画像の異なる領域を表す各コードで、各画像の複数のハッシュコードを学ぶことである。 さらに,MCHのパラメータを学習するための深層強化学習アルゴリズムを提案する。 私たちの知る限りでは、画像検索において画像毎に複数のハッシュコードを学ぶことを提案する最初の作業です。 実験により、MCHはハッシュバケット探索において、各画像について1つのハッシュコードのみを学習する既存の方法と比較して、大幅に改善できることが示された。

Due to its low storage cost and fast query speed, hashing has been widely used in large-scale image retrieval tasks. Hash bucket search returns data points within a given Hamming radius to each query, which can enable search at a constant or sub-linear time cost. However, existing hashing methods cannot achieve satisfactory retrieval performance for hash bucket search in complex scenarios, since they learn only one hash code for each image. More specifically, by using one hash code to represent one image, existing methods might fail to put similar image pairs to the buckets with a small Hamming distance to the query when the semantic information of images is complex. As a result, a large number of hash buckets need to be visited for retrieving similar images, based on the learned codes. This will deteriorate the efficiency of hash bucket search. In this paper, we propose a novel hashing framework, called multiple code hashing (MCH), to improve the performance of hash bucket search. The main idea of MCH is to learn multiple hash codes for each image, with each code representing a different region of the image. Furthermore, we propose a deep reinforcement learning algorithm to learn the parameters in MCH. To the best of our knowledge, this is the first work that proposes to learn multiple hash codes for each image in image retrieval. Experiments demonstrate that MCH can achieve a significant improvement in hash bucket search, compared with existing methods that learn only one hash code for each image.
翻訳日:2022-11-02 23:20:45 公開日:2020-08-04
# 深部ニューラルネットワークにおけるインシシタンス

Implicit Saliency in Deep Neural Networks ( http://arxiv.org/abs/2008.01874v1 )

ライセンス: Link先を確認
Yutong Sun, Mohit Prabhushankar and Ghassan AlRegib(参考訳) 本稿では,眼球追跡データやサリエンシーデータセットに露出していない既存の認識と局所化の深層アーキテクチャが,人間の視覚的サリエンシーを予測することができることを示す。 これをディープニューラルネットワークにおける暗黙の敬礼と呼ぶ。 我々は、予測ミスマッチ仮説を教師なしの方法で計算する。 実験の結果, この方法での塩分抽出は, 最先端の教師付きアルゴリズムに比較して, 同等の性能をもたらすことがわかった。 さらに、入力画像に大きなノイズを加えると、ロバスト性はこれらのアルゴリズムよりも優れる。 また,人間の視覚塩分検出のための低レベル機能以上の意味的特徴を示す。

In this paper, we show that existing recognition and localization deep architectures, that have not been exposed to eye tracking data or any saliency datasets, are capable of predicting the human visual saliency. We term this as implicit saliency in deep neural networks. We calculate this implicit saliency using expectancy-mismatch hypothesis in an unsupervised fashion. Our experiments show that extracting saliency in this fashion provides comparable performance when measured against the state-of-art supervised algorithms. Additionally, the robustness outperforms those algorithms when we add large noise to the input images. Also, we show that semantic features contribute more than low-level features for human visual saliency detection.
翻訳日:2022-11-02 23:19:59 公開日:2020-08-04
# 強化エピデミックコントロール:生活と経済の双方を節約する

Reinforced Epidemic Control: Saving Both Lives and Economy ( http://arxiv.org/abs/2008.01257v1 )

ライセンス: Link先を確認
Sirui Song, Zefang Zong, Yong Li, Xue Liu, Yang Yu(参考訳) 生活や経済を救うことは、ほとんどの都市で疫病対策のジレンマであり、スマートトレーシング技術は人々のプライバシーの懸念を高める。 本稿では,個人データを必要としない生活・経済ジレンマに対する解決策を提案する。 我々は,原産地指定(od)データのみに依存する地域間移動の動的制御を通じて,流行の伝達を抑制することにより,個人データ要求を回避した。 本研究では,感染拡大を同時に最小化し,モビリティを最大限に維持できる移動制御ポリシーを探索するためのDURLECA (Dual-jective Reinforcement-Learning Epidemic Control Agent) を開発した。 DURLECAは、都市移動によって引き起こされるウイルス感染リスクを推定するために、新しいグラフニューラルネットワークであるFlow-GNNを採用している。 推定リスクは、モビリティ制御アクションを生成するための強化学習エージェントを支援するために使用される。 DURLECAのトレーニングは、伝染病対策と移動維持の自然なトレードオフ関係を捉える、よく構築された報酬関数で案内される。 さらに,エージェントの探索効率を向上させるための2つの探索戦略を設計し,局所最適化の除去を支援する。 実世界のodデータセットでの広範な実験の結果、デュレカは市内の移動率の76\%を維持しながら、非常に低いレベルで感染を抑えることができることがわかった。 実装はhttps://github.com/anyleopeace/durleca/で利用可能です。

Saving lives or economy is a dilemma for epidemic control in most cities while smart-tracing technology raises people's privacy concerns. In this paper, we propose a solution for the life-or-economy dilemma that does not require private data. We bypass the private-data requirement by suppressing epidemic transmission through a dynamic control on inter-regional mobility that only relies on Origin-Designation (OD) data. We develop DUal-objective Reinforcement-Learning Epidemic Control Agent (DURLECA) to search mobility-control policies that can simultaneously minimize infection spread and maximally retain mobility. DURLECA hires a novel graph neural network, namely Flow-GNN, to estimate the virus-transmission risk induced by urban mobility. The estimated risk is used to support a reinforcement learning agent to generate mobility-control actions. The training of DURLECA is guided with a well-constructed reward function, which captures the natural trade-off relation between epidemic control and mobility retaining. Besides, we design two exploration strategies to improve the agent's searching efficiency and help it get rid of local optimums. Extensive experimental results on a real-world OD dataset show that DURLECA is able to suppress infections at an extremely low level while retaining 76\% of the mobility in the city. Our implementation is available at https://github.com/anyleopeace/DURLECA/.
翻訳日:2022-11-02 23:19:47 公開日:2020-08-04
# 自動車の深部強化学習対応フリーウェイ意思決定の比較分析

A Comparative Analysis of Deep Reinforcement Learning-enabled Freeway Decision-making for Automated Vehicles ( http://arxiv.org/abs/2008.01302v1 )

ライセンス: Link先を確認
Teng Liu, Bing Huang, Xingyu Mu, Fuqing Zhao, Xiaolin Tang, Dongpu Cao(参考訳) 深層強化学習(DRL)は、人工知能問題に対処するための、一般的かつ強力な方法論になりつつある。 自己学習と自己改善の膨大なポテンシャルから、DRLは多くの研究分野で広く利用されている。 本稿では、自動運転車の高速道路意思決定問題に対する複数のDRLアプローチの総合的な比較を行った。 これらのテクニックには、共通の深層Q学習(DQL)、ダブルDQL(DDQL)、デュエルDQL、優先度の高いDQLなどがある。 まず、強化学習(RL)フレームワークを導入する。 拡張として、上記のDRLメソッドの実装が数学的に確立されている。 そして、自動走行車の高速道路運転シナリオを構築し、意思決定問題を制御最適化問題として転送する。 最後に,DRL対応意思決定戦略の制御性能を評価するためのシミュレーション実験を行った。 自律運転結果とこれらのDRL手法の学習特性を結合する比較分析が実現された。

Deep reinforcement learning (DRL) is becoming a prevalent and powerful methodology to address the artificial intelligent problems. Owing to its tremendous potentials in self-learning and self-improvement, DRL is broadly serviced in many research fields. This article conducted a comprehensive comparison of multiple DRL approaches on the freeway decision-making problem for autonomous vehicles. These techniques include the common deep Q learning (DQL), double DQL (DDQL), dueling DQL, and prioritized replay DQL. First, the reinforcement learning (RL) framework is introduced. As an extension, the implementations of the above mentioned DRL methods are established mathematically. Then, the freeway driving scenario for the automated vehicles is constructed, wherein the decision-making problem is transferred as a control optimization problem. Finally, a series of simulation experiments are achieved to evaluate the control performance of these DRL-enabled decision-making strategies. A comparative analysis is realized to connect the autonomous driving results with the learning characteristics of these DRL techniques.
翻訳日:2022-11-02 23:19:22 公開日:2020-08-04
# TOAD-GAN: 単一例によるコヒーレントなスタイルレベルの生成

TOAD-GAN: Coherent Style Level Generation from a Single Example ( http://arxiv.org/abs/2008.01531v1 )

ライセンス: Link先を確認
Maren Awiszus, Frederik Schubert, Bodo Rosenhahn(参考訳) 本研究では,トークンベースのゲームレベルを生成する新しいPCGアルゴリズムであるTOAD-GAN(Token-based One-shot Arbitrary Dimension Generative Adversarial Network)を提案する。 TOAD-GANはSinGANアーキテクチャに従い、1つの例だけでトレーニングできる。 スーパーマリオブラザーズレベルへの応用を実証し、任意のサイズで類似したスタイルの新たなレベルを生成することができる。 我々は,トレーニングレベルのパターンをモデル化し,複数の指標の異なるベースラインと比較することにより,最先端の結果を得る。 さらに,特定のトークン構造の生成過程をユーザが制御し,一貫性のあるグローバルレベルのレイアウトを確実にする手法の拡張を提案する。 私たちはこのツールをコミュニティに提供し、ソースコードを公開することでさらなる研究を促します。

In this work, we present TOAD-GAN (Token-based One-shot Arbitrary Dimension Generative Adversarial Network), a novel Procedural Content Generation (PCG) algorithm that generates token-based video game levels. TOAD-GAN follows the SinGAN architecture and can be trained using only one example. We demonstrate its application for Super Mario Bros. levels and are able to generate new levels of similar style in arbitrary sizes. We achieve state-of-the-art results in modeling the patterns of the training level and provide a comparison with different baselines under several metrics. Additionally, we present an extension of the method that allows the user to control the generation process of certain token structures to ensure a coherent global level layout. We provide this tool to the community to spur further research by publishing our source code.
翻訳日:2022-11-02 23:12:16 公開日:2020-08-04
# 二元ニューラルネットワークの情報容量制御

Controlling Information Capacity of Binary Neural Network ( http://arxiv.org/abs/2008.01438v1 )

ライセンス: Link先を確認
Dmitry Ignatov and Andrey Ignatov(参考訳) ディープラーニング技術の人気が高まっているにもかかわらず、高いメモリ要件と消費電力は、モバイルとIoT領域におけるアプリケーションを制限する。 バイナリ畳み込みネットワークはこれらの問題を緩和できるが、重量のビット幅の制限は予測精度を著しく低下させる。 本稿では,シャノンエントロピーに基づくペナルティを畳み込みフィルタに適用することにより,学習過程を通じて情報容量の安定レベルを維持するバイナリネットワークのトレーニング手法を提案する。 SVHN, CIFAR, ImageNetデータセットを用いて行った実験の結果, 提案手法がバイナリネットワークの精度を統計的に向上することを示した。

Despite the growing popularity of deep learning technologies, high memory requirements and power consumption are essentially limiting their application in mobile and IoT areas. While binary convolutional networks can alleviate these problems, the limited bitwidth of weights is often leading to significant degradation of prediction accuracy. In this paper, we present a method for training binary networks that maintains a stable predefined level of their information capacity throughout the training process by applying Shannon entropy based penalty to convolutional filters. The results of experiments conducted on SVHN, CIFAR and ImageNet datasets demonstrate that the proposed approach can statistically significantly improve the accuracy of binary networks.
翻訳日:2022-11-02 23:11:45 公開日:2020-08-04
# Prompt Agnostic Essay Scorer: クロスプロンプト自動評価のためのドメイン一般化アプローチ

Prompt Agnostic Essay Scorer: A Domain Generalization Approach to Cross-prompt Automated Essay Scoring ( http://arxiv.org/abs/2008.01441v1 )

ライセンス: Link先を確認
Robert Ridley, Liang He, Xinyu Dai, Shujian Huang, Jiajun Chen(参考訳) クロスプロンプト自動エッセイスコア(英語: Cross-prompt automated essay score, AES)は、非標的エッセイを使用して目標エッセイにスコアを付与するシステムである。 特定のプロンプトに大量の事前学習エッセイを得ることは、しばしば困難で非現実的であるため、クロスプロンプトAESの課題は現実世界のAESシステムの開発に不可欠であるが、まだ未調査の分野である。 プロンプト固有のaes向けに設計されたモデルは、プロンプト固有の知識に重きを置き、クロスプロンプト設定では性能が劣るが、クロスプロンプトaesに対する現在のアプローチは、一定の量のラベル付きターゲットプロンプトエッセイを必要とするか、あるいは多段階学習を行うために大量のラベル付きターゲットプロンプトエッセイを必要とする。 これらの問題に対処するために,クロスプロンプト AES のための Prompt Agnostic Essay Scorer (PAES) を導入する。 本手法では,学習中にラベル付きあるいは未ラベルのターゲットプロンプトデータにアクセスする必要がなく,単一段階のアプローチである。 PAESは実践的に簡単に適用でき、自動学生評価賞(ASAP)データセット上で最先端のパフォーマンスを達成する。

Cross-prompt automated essay scoring (AES) requires the system to use non target-prompt essays to award scores to a target-prompt essay. Since obtaining a large quantity of pre-graded essays to a particular prompt is often difficult and unrealistic, the task of cross-prompt AES is vital for the development of real-world AES systems, yet it remains an under-explored area of research. Models designed for prompt-specific AES rely heavily on prompt-specific knowledge and perform poorly in the cross-prompt setting, whereas current approaches to cross-prompt AES either require a certain quantity of labelled target-prompt essays or require a large quantity of unlabelled target-prompt essays to perform transfer learning in a multi-step manner. To address these issues, we introduce Prompt Agnostic Essay Scorer (PAES) for cross-prompt AES. Our method requires no access to labelled or unlabelled target-prompt data during training and is a single-stage approach. PAES is easy to apply in practice and achieves state-of-the-art performance on the Automated Student Assessment Prize (ASAP) dataset.
翻訳日:2022-11-02 23:11:37 公開日:2020-08-04
# 倫理的深層学習に対する非差別的アプローチ

A non-discriminatory approach to ethical deep learning ( http://arxiv.org/abs/2008.01430v1 )

ライセンス: Link先を確認
Enzo Tartaglione and Marco Grangetto(参考訳) 人工ニューラルネットワークは、ますます多くのタスクで最先端のタスクを実行し、今日では驚くほど多くのタスクの解決に使われている。 しかし、典型的な訓練戦略は、訓練されたANNモデルが引き起こす可能性のある法的、倫理的、差別的な潜在的な問題を考慮に入れていない。 本研究では,非差別的正規化戦略であるNDRを提案し,人間の顔の画像分類タスクにおける民族性などの識別的特徴を用いて,ANNモデルが目標タスクを解決するのを防ぐ。 特に、annモデルの一部は、ネットワークの他の部分が所定の学習タスクの学習に集中するように、識別情報を隠すように訓練される。 実験の結果,NDRは最小の計算オーバーヘッドと性能損失の両方で非識別モデルを実現することができることがわかった。

Artificial neural networks perform state-of-the-art in an ever-growing number of tasks, nowadays they are used to solve an incredibly large variety of tasks. However, typical training strategies do not take into account lawful, ethical and discriminatory potential issues the trained ANN models could incur in. In this work we propose NDR, a non-discriminatory regularization strategy to prevent the ANN model to solve the target task using some discriminatory features like, for example, the ethnicity in an image classification task for human faces. In particular, a part of the ANN model is trained to hide the discriminatory information such that the rest of the network focuses in learning the given learning task. Our experiments show that NDR can be exploited to achieve non-discriminatory models with both minimal computational overhead and performance loss.
翻訳日:2022-11-02 23:10:30 公開日:2020-08-04