このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201031となっている論文です。

PDF登録状況(公開日: 20201031)

TitleAuthorsAbstract論文公表日・翻訳日
# フィルムの経時変化による女性表現と衝撃の測定

Measuring Female Representation and Impact in Films over Time ( http://arxiv.org/abs/2001.03513v3 )

ライセンス: Link先を確認
Luoying Yang, Zhou Xu, Jiebo Luo(参考訳) 女性は映画の中で常に過小評価されており、最近まで映画における女性表現が改善されてきた。 そこで本研究では,女性表現の改善と映画の成功との関係について検討するため,女性キャスト率という新たな尺度を提案し,一般的なBechdelテスト結果と比較した。 l_1$ペナルティの一般化線形回帰とランダムフォレストモデルを用いて,女性表現に影響を与える予測者を特定し,女性表現と映画の成功との関係を,収益/予算比,評価,人気度という3つの側面で評価した。 本研究で得られた3つの重要な知見は,映画産業において女性が上流と下流の両方で直面する困難さを浮き彫りにしている。 第一に、女性映画製作者、特に女性劇作家は、映画がより良い女性表現を持つのに役立つが、女性映画製作者の割合は非常に低い。 第二に、女性についての洞察に富んだ物語を語る可能性を持つ映画は、予算が低いことが多いため、通常、より多くの批判を受けることになる。 最後に、映画製作者からの女性のより良い表現を求める声は、映画業界に変化を強いるほど強くない。

Women have always been underrepresented in movies and not until recently has the representation of women in movies improved. To investigate the improvement of female representation and its relationship with a movie's success, we propose a new measure, the female cast ratio, and compare it to the commonly used Bechdel test result. We employ generalized linear regression with $L_1$ penalty and a Random Forest model to identify the predictors that influence female representation, and evaluate the relationship between female representation and a movie's success in three aspects: revenue/budget ratio, rating, and popularity. Three important findings in our study have highlighted the difficulties women in the film industry face both upstream and downstream. First, female filmmakers, especially female screenplay writers, are instrumental for movies to have better female representation, but the percentage of female filmmakers has been very low. Second, movies that have the potential to tell insightful stories about women are often provided with lower budgets, and this usually causes the films to in turn receive more criticism. Finally, the demand for better female representation from moviegoers has also not been strong enough to compel the film industry to change, as movies that have poor female representation can still be very popular and successful in the box office.
翻訳日:2023-06-08 07:20:01 公開日:2020-10-31
# より高速な振幅推定

Faster Amplitude Estimation ( http://arxiv.org/abs/2003.02417v3 )

ライセンス: Link先を確認
Kouhei Nakaji(参考訳) 本稿では,ノイズの多い中間規模量子(NISQ)デバイスで動作する量子振幅推定タスクの効率的なアルゴリズムを提案する。 量子振幅推定は、量子化学、機械学習、金融といった分野に様々な応用がある重要な問題である。 位相推定を用いた量子振幅推定のためのよく知られたアルゴリズムは、NISQデバイスでは実行できないため、近年では別の手法が提案されている。 それらのいくつかは、ほぼハイゼンベルクスケーリングを達成する上限の証明を与える。 しかし、定数係数は大きいので、境界はゆるい。 本稿では,クエリ複雑性の上限がHeisenbergスケーリングをほぼ達成し,定数係数が小さくなるアルゴリズムを提案する。

In this paper, we introduce an efficient algorithm for the quantum amplitude estimation task which works in noisy intermediate-scale quantum(NISQ) devices. The quantum amplitude estimation is an important problem which has various applications in fields such as quantum chemistry, machine learning, and finance. Because the well-known algorithm for the quantum amplitude estimation using the phase estimation cannot be executed in NISQ devices, alternative approaches have been proposed in recent literature. Some of them provide a proof of the upper bound which almost achieves the Heisenberg scaling. However, the constant factor is large and thus the bound is loose. Our contribution in this paper is to provide the algorithm such that the upper bound of query complexity almost achieves the Heisenberg scaling and the constant factor is small.
翻訳日:2023-05-30 11:44:07 公開日:2020-10-31
# 小ギャップ超電導量子ビットの普遍的非断熱制御

Universal non-adiabatic control of small-gap superconducting qubits ( http://arxiv.org/abs/2003.13154v3 )

ライセンス: Link先を確認
Daniel L. Campbell, Yun-Pil Shim, Bharath Kannan, Roni Winik, Alexander Melville, Bethany M. Niedzielski, Jonilyn L. Yoder, Charles Tahan, Simon Gustavsson, William D. Oliver(参考訳) 回転するフレームに見られる2レベル系の共鳴横駆動は、2つの退化状態がラビ周波数で結合する。 自然と人工の量子系の制御に驚くほど成功したが、反回転項のような非イデアル性のためにある種の制限(例えば、達成可能なゲート速度)が発生する可能性がある。 本稿では、固定横結合の存在下での縦パラメータの非共振非断熱駆動に基づく量子制御の相補的アプローチについて検討する。 2つの静電容量結合トランスモン量子ビットから形成された超伝導複合量子ビット(cqb)について紹介する。 我々は,この低周波CQBを,ベースバンドパルス,非断熱遷移,コヒーレントなランダウ・ツェナー干渉のみを用いて制御し,クリフォード忠実度99.7 %を超える高速かつ高忠実な単一ビット演算を実現する。 また、2つの低周波CQB間の結合量子ビット演算を行う。 本研究は、低周波量子ビットの普遍的非断熱制御がベースバンドパルスのみを用いて実現可能であることを示す。

Resonant transverse driving of a two-level system as viewed in the rotating frame couples two degenerate states at the Rabi frequency, an amazing equivalence that emerges in quantum mechanics. While spectacularly successful at controlling natural and artificial quantum systems, certain limitations may arise (e.g., the achievable gate speed) due to non-idealities like the counter-rotating term. Here, we explore a complementary approach to quantum control based on non-resonant, non-adiabatic driving of a longitudinal parameter in the presence of a fixed transverse coupling. We introduce a superconducting composite qubit (CQB), formed from two capacitively coupled transmon qubits, which features a small avoided crossing -- smaller than the environmental temperature -- between two energy levels. We control this low-frequency CQB using solely baseband pulses, non-adiabatic transitions, and coherent Landau-Zener interference to achieve fast, high-fidelity, single-qubit operations with Clifford fidelities exceeding $99.7\%$. We also perform coupled qubit operations between two low-frequency CQBs. This work demonstrates that universal non-adiabatic control of low-frequency qubits is feasible using solely baseband pulses.
翻訳日:2023-05-27 14:21:25 公開日:2020-10-31
# 連続測定機械共振器におけるエントロピー生成の実験評価

Experimental assessment of entropy production in a continuously measured mechanical resonator ( http://arxiv.org/abs/2005.03429v2 )

ライセンス: Link先を確認
Massimiliano Rossi, Luca Mancino, Gabriel T. Landi, Mauro Paternostro, Albert Schliesser, Alessio Belenchia(参考訳) 測定によって得られる量子過程に関する情報は、その非平衡熱力学特性の決定において重要な役割を果たす。 連続観測されたメソスコピック量子系における確率エントロピー生成速度の実験的推測について報告する。 我々は, 連続変位ガウス測定の対象となるオプティメカニクス系を考察し, 個々の軌跡のエントロピー生成速度を特徴付けるとともに, 系の確率力学において, ウィグナーエントロピーの位相空間記述を用いる。 実験の具体的な状況から,測定結果の条件付けから生じるエントロピー生産への情報的貢献を抽出することができる。 我々の実験は、メソスコピック量子スケールにおける基本熱力学過程のフルスケール制御の実証に向けた重要なステップを具現化したものである。

The information on a quantum process acquired through measurements plays a crucial role in the determination of its non-equilibrium thermodynamic properties. We report on the experimental inference of the stochastic entropy production rate for a continuously monitored mesoscopic quantum system. We consider an optomechanical system subjected to continuous displacement Gaussian measurements and characterise the entropy production rate of the individual trajectories followed by the system in its stochastic dynamics, employing a phase-space description in terms of the Wigner entropy. Owing to the specific regime of our experiment, we are able to single out the informational contribution to the entropy production arising from conditioning the state on the measurement outcomes. Our experiment embodies a significant step towards the demonstration of full-scale control of fundamental thermodynamic processes at the mesoscopic quantum scale.
翻訳日:2023-05-20 22:36:38 公開日:2020-10-31
# 隠れマルコフモデルによるqubit読み出しの改善

Improving Qubit Readout with Hidden Markov Models ( http://arxiv.org/abs/2006.00109v2 )

ライセンス: Link先を確認
Luis A. Martinez, Yaniv J. Rosen, and Jonathan L. DuBois(参考訳) 量子ビット読み出しのための隠れマルコフモデル(HMM)を用いたパターン認識アルゴリズムの適用例を示す。 このスキームは、キュービット状態遷移を検出することのできる状態パス軌道法を提供し、多変量ガウス(MVG)や支持ベクトルマシン(SVM)と比較して、開始状態の割り当て忠実度の高いロバストな分類法を提供する。 したがって、この方法は現在のスキームにおけるqubit依存の読み取り時間最適化要求も排除する。 HMM状態判別器を用いて理想的な限界に達する忠実度を推定する。 教師なし学習はトランジッションマトリクス、プリエント、iqディストリビューションへのアクセスを提供し、強い射影読み出し中に量子ビット状態のダイナミクスを研究するためのツールボックスを提供する。

We demonstrate the application of pattern recognition algorithms via hidden Markov models (HMM) for qubit readout. This scheme provides a state-path trajectory approach capable of detecting qubit state transitions and makes for a robust classification scheme with higher starting state assignment fidelity than when compared to a multivariate Gaussian (MVG) or a support vector machine (SVM) scheme. Therefore, the method also eliminates the qubit-dependent readout time optimization requirement in current schemes. Using a HMM state discriminator we estimate fidelities reaching the ideal limit. Unsupervised learning gives access to transition matrix, priors, and IQ distributions, providing a toolbox for studying qubit state dynamics during strong projective readout.
翻訳日:2023-05-18 00:31:54 公開日:2020-10-31
# ワイルチャネルの古典的容量について

On classical capacity of Weyl channels ( http://arxiv.org/abs/2006.05855v3 )

ライセンス: Link先を確認
Grigori Amosov(参考訳) q-cワイルチャネルの変形により得られたワイルチャネルに対して, 最小出力エントロピーの付加性が証明された。 チャネルの古典的な容量は計算される。

The additivity of minimal output entropy is proved for the Weyl channel obtained by the deformation of a q-c Weyl channel. The classical capacity of channel is calculated.
翻訳日:2023-05-16 02:49:11 公開日:2020-10-31
# 量子電池の絡み合い・コヒーレンス・充電過程

Entanglement, coherence and charging process of quantum batteries ( http://arxiv.org/abs/2006.10476v2 )

ライセンス: Link先を確認
F. H. Kamin, F. T. Tabesh, S. Salimi, Alan C. Santos(参考訳) 量子デバイスは、例えばエンタングルメントやコヒーレンスのような量子現象を探索し、古典的な現象に関するいくつかの強化性能を提供するシステムである。 特に量子電池は、充電パワーの高性能において、絡み合いを主要素とする装置である。 本稿では,量子バッテリの性能と充電プロセス中に発生する絡み合い量との関係について検討する。 2セル電池と3セル電池への一般的なアプローチを用いることで、エンタングルメントは量子バッテリの主要なリソースではなく、そのような量子デバイスの高効率化のためのリソースとして非自明な相関コヒーレンストレードオフが存在することを示唆する。

Quantum devices are systems that can explore quantum phenomena, like entanglement or coherence, for example, to provide some enhancement performance concerning their classical counterparts. In particular, quantum batteries are devices that use entanglement as main element in its high performance in the charging powerful. In this paper, we explore the quantum battery performance and its relationship with the amount of entanglement that arises during the charging process. By using a general approach to a two and three-cell battery, our results suggest that entanglement is not the main resource to quantum batteries, where there is a non-trivial correlation-coherence trade-off as resource for the high efficiency of such quantum devices.
翻訳日:2023-05-13 13:45:31 公開日:2020-10-31
# 圧縮認証量子計測

Compressively certifying quantum measurements ( http://arxiv.org/abs/2007.14713v2 )

ライセンス: Link先を確認
I. Gianani, Y. S. Teo, V. Cimini, H. Jeong, G. Leuchs, M. Barbieri, L. L. Sanchez-Soto(参考訳) 我々は, 未知の測定結果から収集したデータのみに基づく極小プローブ状態を用いて, 任意の低ランク量子測定を一意に特徴付ける, 信頼性の高い圧縮手順を提案する。 測定が純粋な検出結果を構成する場合、この手順は最も圧縮的であり、システム次元と線形にスケールする情報的に完全なプローブ状態だけを必要とする。 我々は、必要最小限のプローブ状態の数が、量子制約のため、密接な関係にある古典的位相回帰問題で知られている数よりも一般に低いことを議論し、数値的証拠を与える。 また, ランダムな生成物プローブ状態を用いて, 2-および4-qubit検出器の圧縮挙動を示す偏光実験による肯定的な結果を示す。

We introduce a reliable compressive procedure to uniquely characterize any given low-rank quantum measurement using a minimal set of probe states that is based solely on data collected from the unknown measurement itself. The procedure is most compressive when the measurement constitutes pure detection outcomes, requiring only an informationally complete number of probe states that scales linearly with the system dimension. We argue and provide numerical evidence showing that the minimal number of probe states needed is even generally below the numbers known in the closely-related classical phase-retrieval problem because of the quantum constraint. We also present affirmative results with polarization experiments that illustrate significant compressive behaviors for both two- and four-qubit detectors just by using random product probe states.
翻訳日:2023-05-07 20:41:49 公開日:2020-10-31
# 量子 2-sat 問題の集合の量子アルゴリズム

Quantum algorithm of a set of quantum 2-sat problem ( http://arxiv.org/abs/2009.02600v2 )

ライセンス: Link先を確認
Yanglin Hu, Zhelun Zhang, Biao Wu(参考訳) 2-satisfiability (2sat) 問題の一般化である量子2-satisfiability (q2sat) 問題に対する量子断熱アルゴリズムを提案する。 Q2SAT 問題に対して、ハイゼンベルク連鎖に類似したハミルトニアンを構成する。 与えられたQ2SAT問題のすべての解は退化基底状態の部分空間にまたがる。 ハミルトニアンは、システムが退化部分空間に留まるように、断続的に進化する。 我々の数値的な結果から、我々のアルゴリズムの時間複雑性は$O(n^{3.9})$であり、$m=dn(n-1)/2\ (d\lesssim 0.1)$である。 既知の量子および古典的アルゴリズムに対するアルゴリズムの利点について議論する。

We present a quantum adiabatic algorithm for a set of quantum 2-satisfiability (Q2SAT) problem, which is a generalization of 2-satisfiability (2SAT) problem. For a Q2SAT problem, we construct the Hamiltonian which is similar to that of a Heisenberg chain. All the solutions of the given Q2SAT problem span the subspace of the degenerate ground states. The Hamiltonian is adiabatically evolved so that the system stays in the degenerate subspace. Our numerical results suggest that the time complexity of our algorithm is $O(n^{3.9})$ for yielding non-trivial solutions for problems with the number of clauses $m=dn(n-1)/2\ (d\lesssim 0.1)$. We discuss the advantages of our algorithm over the known quantum and classical algorithms.
翻訳日:2023-05-03 18:41:47 公開日:2020-10-31
# ダイヤモンド中の窒素空洞中心アンサンブルのスペクトル拡大と超高速ダイナミクス

Spectral Broadening and Ultrafast Dynamics of a Nitrogen-Vacancy Center Ensemble in Diamond ( http://arxiv.org/abs/2011.00153v1 )

ライセンス: Link先を確認
Albert Liu and Steven T. Cundiff and Diogo B. Almeida and Ronald Ulbricht(参考訳) ダイヤモンド中の窒素空孔(nv)中心の多くの応用は、スペクトル的に狭く安定な光ゼロフォノン線遷移に依存する。 多くの印象的な原理実証実験が実証されているが、実用的実装に十分頑健なスペクトル特性を持つ工学的nvセンターでは多くの研究が残っている。 環境との相互作用のメカニズムを明らかにするために, 極低温のバルクダイヤモンド中のnv中心アンサンブルに多次元コヒーレント分光法を適用する。 我々のスペクトルは、準局在化振動モードとピコ秒時間スケールでの超高速スペクトル拡散による熱劣化を明らかにする。 内在的, アンサンブル平均等質線幅は, 温度ゼロまで外挿することにより, 数十GHzの範囲内にあることがわかった。 また,nvセンシングプロトコルに関連する励起状態多様体の温度依存性スターク分解も観測した。

Many applications of nitrogen-vacancy (NV) centers in diamond crucially rely on a spectrally narrow and stable optical zero-phonon line transition. Though many impressive proof-of-principle experiments have been demonstrated, much work remains in engineering NV centers with spectral properties that are sufficiently robust for practical implementation. To elucidate the mechanisms underlying their interactions with the environment, we apply multi-dimensional coherent spectroscopy to an NV center ensemble in bulk diamond at cryogenic temperatures. Our spectra reveal thermal dephasing due to quasi-localized vibrational modes as well as ultrafast spectral diffusion on the picosecond timescale. The intrinsic, ensemble-averaged homogeneous linewidth is found to be in the tens of GHz range by extrapolating to zero temperature. We also observe a temperature-dependent Stark splitting of the excited state manifold, relevant to NV sensing protocols.
翻訳日:2023-04-26 05:45:01 公開日:2020-10-31
# 干渉がオープンシステムの波を捕捉する:連続体の束縛状態

Interference traps waves in open system: Bound states in the continuum ( http://arxiv.org/abs/2011.01221v1 )

ライセンス: Link先を確認
Almas F. Sadreev(参考訳) 指向性導波路に開放されたマイクロ波および音響キャビティに対する連続体(BIC)のバウンド状態の4つのメカニズムを概観する。 最も単純なのは、固有モードが導波路の伝播モードに直交するため、空洞内部に局在する対称性保護BICである。 しかし、最も一般的で興味深いのは、BICが外部共振モードの完全な破壊干渉の結果であるフリードリヒ・ウィントゲン機構である。 BICの3番目のタイプであるFabry-Perot BICは、各共振器が理想的なミラーとして機能するときに二重共振器系で発生する。 ついには、共振器の固有モードが固有モードの滑らかな変形によって導波管の連続体に誤って直交することのできる開シナイビリヤードのような対称性のない開キャビティで偶発的BICを実現することができる。 また、スピンまたは偏極またはアハロノフ-ボーム環の経路によって分離された2つの波の完全な破壊的干渉によりBICが発生する一次元系についても検討する。 連続体(bics)の束縛状態を検出する結合モード理論と同値な有効非ヘルミットハミルトニアン法を、ゼロ幅共振を見つけることによって広く利用した。

I review the four mechanisms of bound states in the continuum (BICs) in application to microwave and acoustic cavities open to directional waveguides. The most simple are the symmetry protected BICs which are localized inside the cavity because of the orthogonality of the eigenmodes to the propagating modes of waveguides. However, the most general and interesting is the Friedrich-Wintgen mechanism when the BICs are result of full destructive interference of outgoing resonant modes. The third type of the BICs, the Fabry-Perot BICs, occur in a double resonator system when each resonator can serve as an ideal mirror. At last, the accidental BICs can be realized in the open cavities with no symmetry like the open Sinai billiard in which the eigenmode of the resonator can become orthogonal to the continuum of the waveguide accidentally by a smooth deformation of the eigenmode. We also review the one-dimensional systems in which the BICs occur owing to full destructive interference of two waves separated by spin or polarization or by paths in the Aharonov-Bohm rings. We widely use the method of effective non-Hermitian Hamiltonian equivalent to the coupled mode theory which detects bound states in the continuum (BICs) by finding zero widths resonances.
翻訳日:2023-04-26 05:41:13 公開日:2020-10-31
# 量子化学シミュレーションのためのボロノイ分割不連続ガレルキン法

Discontinuous Galerkin method with Voronoi partitioning for Quantum Simulation of Chemistry ( http://arxiv.org/abs/2011.00367v1 )

ライセンス: Link先を確認
Fabian M. Faulstich, Xiaojie Wu, Lin Lin(参考訳) ガウス型軌道の線形結合に基づく分子軌道は、量子化学シミュレーションにおいて量子デバイスと古典デバイスの両方で最もよく使われる離散化である。 潜在的に高密度な2体相互作用テンソルを回避し、化学の量子シミュレーションの漸近コストを下げるため、二乗分割戦略を用いた不連続なガレルキン(DG)法が最近試験された[McClean et al, New J. Phys 22 093015, 2020]。 DGアプローチは、分子軌道による2体相互作用テンソルのコンパクトな記述と、平面波双対基底集合のような原始基底集合による対角的特徴とを制御可能な方法で補間する。 dg法は、2電子反発積分の数を減少させる2体相互作用のブロック対角表現を生じさせ、量子シミュレーションのコストを減少させる。 本研究では、このアプローチを任意の幾何学の分子および結晶系に適用できるように拡張する。 平面波双対基底の柔軟性を利用して、不連続なガレルキン手順とボロノイ分解に基づく一般的な分割戦略を組み合わせる。 本研究では, 水素鎖を用いた準1D, 2D, 3D分割法, H$_4$, CH$_4$を例に, 平均場, 相関レベルでの性能を数値的に検討した。 また,この手法を結晶系の原型例としてグラフェンに適用した。

Molecular orbitals based on the linear combination of Gaussian type orbitals are arguably the most employed discretization in quantum chemistry simulations, both on quantum and classical devices. To circumvent a potentially dense two-body interaction tensor and obtain lower asymptotic costs for quantum simulations of chemistry, the discontinuous Galerkin (DG) procedure using a rectangular partitioning strategy was recently piloted [McClean et al, New J. Phys. 22, 093015, 2020]. The DG approach interpolates in a controllable way between a compact description of the two-body interaction tensor through molecular orbitals and a diagonal characterization through primitive basis sets, such as a planewave dual basis set. The DG procedure gives rise to a block-diagonal representation of the two-body interaction with reduced number of two-electron repulsion integrals, which in turn reduces the cost of quantum simulations. In the present work we extend this approach to be applicable to molecular and crystalline systems of arbitrary geometry. We take advantage of the flexibility of the planewave dual basis set, and combine the discontinuous Galerkin procedure with a general partitioning strategy based on the Voronoi decomposition. We numerically investigate the performance, at the mean-field and correlated levels, with quasi-1D, 2D and 3D partitions using hydrogen chains, H$_4$, CH$_4$ as examples, respectively. We also apply the method to graphene as a prototypical example of crystalline systems.
翻訳日:2023-04-26 05:40:53 公開日:2020-10-31
# シャッテン類再訪の最適2-一様凸性

Optimal 2-uniform convexity of Schatten classes revisited ( http://arxiv.org/abs/2011.00354v1 )

ライセンス: Link先を確認
Haonan Zhang(参考訳) シャッテン類 $S_p, 1<p\le 2$ の最適 2-一様凸性は、Ball, Carlen and Lieb \cite{BCL94} によって初めて証明された。 本稿では、この結果を複数の演算子積分と量子情報理論における一般化単調計量を用いて再検討する。

The optimal 2-uniform convexity of Schatten classes $S_p, 1<p\le 2$ was first proved by Ball, Carlen and Lieb \cite{BCL94}. In this note we revisit this result using multiple operator integrals and generalized monotone metrics in quantum information theory.
翻訳日:2023-04-26 05:40:25 公開日:2020-10-31
# コヒーレント形状自由電子を用いた原子分解能量子測定に向けて

Towards atomic-resolution quantum measurements with coherently-shaped free electrons ( http://arxiv.org/abs/2011.00348v1 )

ライセンス: Link先を確認
Ron Ruimy, Alexey Gorlach, Chen Mechel, Nicholas Rivera and Ido Kaminer(参考訳) 自由電子は原子スケールの空間分解能で材料特性を探査する強力なツールを提供する。 超高速電子顕微鏡の最近の進歩は、レーザーパルスを用いた自由電子波動関数の操作を可能にする。 電子プローブの空間分解能とレーザーパルスの量子系におけるコヒーレント現象の観測能力とを組み合わせることができれば、非常に重要である。 この目的のために, レーザーパルスによってコヒーレント形状の自由電子を利用して物質中の量子コヒーレンスを測定する新しい手法を提案する。 材料中の電子量子ビット相互作用の量子論を展開し、レーザー形電子のエネルギースペクトルが量子ビットブロック球状態とデコヒーレンス時間(t2)を測定する方法を示す。 最後に、このような形状の電子が複数の量子ビットから超放射を検出・定量化する方法を示す。 提案手法は超高速透過電子顕微鏡(UTEM)で実装でき、原子スケールでの量子系の状態の完全な評価に向けた道を開くことができる。

Free electrons provide a powerful tool to probe material properties at atomic-scale spatial resolution. Recent advances in ultrafast electron microscopy enable the manipulation of free electron wavefunctions using laser pulses. It would be of great importance if one could combine the spatial resolution of electron probes with the ability of laser pulses to probe coherent phenomena in quantum systems. To this end, we propose a novel technique that leverages free electrons that are coherently-shaped by laser pulses to measure quantum coherence in materials. Developing a quantum theory of electron-qubit interactions in materials, we show how the energy spectrum of laser-shaped electrons enables measuring the qubit Block-sphere state and decoherence time (T2). Finally, we present how such shaped electrons can detect and quantify superradiance from multiple qubits. Our scheme could be implemented in an ultrafast transmission electron microscope (UTEM), opening the way towards the full characterization of the state of quantum systems at atomic-scale resolution.
翻訳日:2023-04-26 05:40:18 公開日:2020-10-31
# 都市ハイチにおける廃棄物処理の最適化 : DataKindとSOILの連携

Optimizing Waste Management Collection Routes in Urban Haiti: A Collaboration between DataKind and SOIL ( http://arxiv.org/abs/2011.00303v1 )

ライセンス: Link先を確認
Michael Dowd, Anna Dixon, Benjamin Kinsella(参考訳) sustainable organic integrated livinglihoods (soil) は、ハイチの都市コミュニティにおける費用対効果の高い家庭衛生サービスへのアクセスを増やすことを目的とした研究開発組織である。 毎週、SOILは1,000世帯以上に環境浄化用トイレを提供し、廃棄物をリッチコンポストに変換する。 しかし、SOILは混合車両ルーティングの経路最適化に関していくつかの課題に直面している。 本稿は、Bloombergの2019 Data for Good Exchange (D4GX)への著者の提出に基づいて、データサイエンスの非営利団体であるDataKindとSOILが共同で共同で行った予備的な調査結果を紹介する。 この研究は、最適化アルゴリズムとオープンソースツール(OpenStreetMapやGoogle OR-Toolsなど)が、特に発展途上国の状況において、混在するルーティング問題の改善と削減にどのように役立つかを示す。 この研究の結果、SOILは異なる道路条件と車両タイプを考慮した収集経路の改善が可能となった。 これらの改良は運用コストと燃料使用を削減し、これが今後数年間のサービス拡大に不可欠である。

Sustainable Organic Integrated Livelihoods (SOIL) is a research and development organization that aims to increase access to cost-effective household sanitation services in urban communities in Haiti. Each week, SOIL provides over 1,000 households with ecological sanitation toilets, then transports the waste to be transformed into rich compost. However, SOIL faces several challenges regarding the route optimization of their mixed fleet vehicle routing. This paper builds upon the authors' submission to Bloomberg's 2019 Data for Good Exchange (D4GX), presenting preliminary findings from a joint collaboration between DataKind, a data science nonprofit, and SOIL. This research showcases how optimization algorithms and open source tools (i.e., OpenStreetMap and Google OR-Tools) can help improve and reduce the costs of mixed-fleet routing problems, particularly in the context of developing countries. As a result of this work, SOIL is able to make improvement to their collection routes, which account for different road conditions and vehicle types. These improvements reduce operational costs and fuel use, which are essential to the service's expansion in the coming years.
翻訳日:2023-04-26 05:39:01 公開日:2020-10-31
# ユニバーサル量子コンピュータにおけるストリーミングアルゴリズムの空間複雑性

Space Complexity of Streaming Algorithms on Universal Quantum Computers ( http://arxiv.org/abs/2011.00302v1 )

ライセンス: Link先を確認
Yanglin Hu, Darya Melnyk, Yuyi Wang and Roger Wattenhofer(参考訳) ユニバーサル量子コンピュータ(Universal quantum computer)は、今日まで実装できる唯一の汎用量子コンピュータである。 これらのコンピュータは、量子メモリを制御する古典的なメモリコンポーネントで構成されている。 本稿では,ユビキタス量子コンピュータにおいて,部分モッドや等式などのデータストリーム問題の空間複雑性について検討する。 これらの問題の量子アルゴリズムは、古典的アルゴリズムよりも優れていると考えられている。 しかし、普遍量子コンピュータは量子ゲートの制御に加えて古典ビットを必要とする。 解析の結果、量子アルゴリズムで使用される古典ビットの数は、対応する古典アルゴリズムで使用される古典ビットと等しいかそれ以上であることがわかった。 これらの結果は、空間複雑性が考慮されるとき、古典的コンピュータではなく、普遍的量子コンピュータにデータストリーム問題を実装する利点がないことを示唆する。

Universal quantum computers are the only general purpose quantum computers known that can be implemented as of today. These computers consist of a classical memory component which controls the quantum memory. In this paper, the space complexity of some data stream problems, such as PartialMOD and Equality, is investigated on universal quantum computers. The quantum algorithms for these problems are believed to outperform their classical counterparts. Universal quantum computers, however, need classical bits for controlling quantum gates in addition to qubits. Our analysis shows that the number of classical bits used in quantum algorithms is equal to or even larger than that of classical bits used in corresponding classical algorithms. These results suggest that there is no advantage of implementing certain data stream problems on universal quantum computers instead of classical computers when space complexity is considered.
翻訳日:2023-04-26 05:38:40 公開日:2020-10-31
# 断片化されたデジタル接続と海上セキュリティ

Fragmented digital connectivity and security at sea ( http://arxiv.org/abs/2011.00251v1 )

ライセンス: Link先を確認
Rikke Bjerg Jensen(参考訳) 本稿では,長期間の海上生活において,不均一で信頼性の低いデジタル接続が日常生活のパターンやルーチンをいかに形成するかを考察する。 このような断片化された接続は、船が接続を移動したり外したり、オンボードのデータ許可が切れたりすると、セキュリティの個人的および集団的概念を損なう可能性のある一連の不確実性を生み出す。 2018年2月から4月までの2週間の航海で、欧州海域の2隻のコンテナ船に43人の船乗りを乗せた。 これは、デジタルが接続、関係、ネットワークをいかに促進し、ますます繋がった船を通して、シーファーラーの生活を形作り変えていくかを実証的に地中調査した。 本研究から得られた知見は、家族や友人との関係を維持するために、船乗りがデジタル的に促進された接続をナビゲートし、交渉する創造的な方法を示すものである。 本稿は,海上における接続性やセキュリティに言及する今後の研究の方向性と実践的意味を明らかにすることで締めくくっている。

This paper explores how uneven and often unreliable digital connections shape the patterns and routines of everyday life, work and rest for seafarers, during long periods at sea. Such fragmented connections, which surface when the ship moves in and out of connectivity or when onboard data allowances run out, create a series of uncertainties that might unsettle individual and collective notions of security. Ethnographic in nature, the study engaged 43 seafarers on board two container ships in European waters, during two two-week voyages between February and April 2018. This provided an empirically grounded exploration of how digitally facilitated connections, relations and networks, enabled through increasingly connected ships, shape and reshape seafarer lives. Findings from this study demonstrate the creative ways in which seafarers navigate and negotiate digitally facilitated connections to maintain relational ties with family and friends. The paper concludes by setting out future research directions and practical implications that speak to connectivity and security at sea.
翻訳日:2023-04-26 05:38:29 公開日:2020-10-31
# cae-lo: 完全教師なし畳み込みオートエンコーダを用いたライダーオドメトリによる興味点検出と特徴記述

CAE-LO: LiDAR Odometry Leveraging Fully Unsupervised Convolutional Auto-Encoder for Interest Point Detection and Feature Description ( http://arxiv.org/abs/2001.01354v3 )

ライセンス: Link先を確認
Deyu Yin, Qian Zhang, Jingbin Liu, Xinlian Liang, Yunsheng Wang, Jyri Maanp\"a\"a, Hao Ma, Juha Hyypp\"a, and Ruizhi Chen(参考訳) 3Dマッピング、自動運転、ロボットナビゲーションにおける重要な技術として、LiDAR odometryは依然として難しい課題だ。 適切なデータ構造と教師なしディープラーニングは、高性能で容易に調整可能なlidarオドメトリソリューションを実現する鍵である。 入力データの元の形状を保存するコンパクトな2次元構造化球面リング投影モデルとボクセルモデルを用いて,2次元caeを用いて球面リングデータから関心点を検出し,3次元caeを用いたマルチレゾリューションボクセルモデルから特徴を抽出する,完全教師なし畳み込み畳み込みオートエンコーダベースlidarオドメトリ(cae-lo)を提案する。 いくつかの重要な貢献をします 1)KITTIデータセットに基づく実験の結果,未構造化シナリオにおける一致の成功率を改善するために,興味点がより局所的な詳細を捉えることが可能であることが確認された。 2) また,マッチングペアの転送に基づくキーフレーム選択法,球面リングからの拡張関心点に基づくキーフレームのオドメトリー補正法,後方ポーズ更新法を提案する。 オドメトリリファインメント実験は,提案手法の有効性と有効性を検証した。

As an important technology in 3D mapping, autonomous driving, and robot navigation, LiDAR odometry is still a challenging task. Appropriate data structure and unsupervised deep learning are the keys to achieve an easy adjusted LiDAR odometry solution with high performance. Utilizing compact 2D structured spherical ring projection model and voxel model which preserves the original shape of input data, we propose a fully unsupervised Convolutional Auto-Encoder based LiDAR Odometry (CAE-LO) that detects interest points from spherical ring data using 2D CAE and extracts features from multi-resolution voxel model using 3D CAE. We make several key contributions: 1) experiments based on KITTI dataset show that our interest points can capture more local details to improve the matching success rate on unstructured scenarios and our features outperform state-of-the-art by more than 50% in matching inlier ratio; 2) besides, we also propose a keyframe selection method based on matching pairs transferring, an odometry refinement method for keyframes based on extended interest points from spherical rings, and a backward pose update method. The odometry refinement experiments verify the proposed ideas' feasibility and effectiveness.
翻訳日:2023-01-14 02:38:22 公開日:2020-10-31
# 軽度体重活性化訓練

Sparse Weight Activation Training ( http://arxiv.org/abs/2001.01969v3 )

ライセンス: Link先を確認
Md Aamir Raihan, Tor M. Aamodt(参考訳) ニューラルネットワークのトレーニングは計算とメモリ集約である。 スパーストレーニングは、スパース計算を高速化するために設計された新興ハードウェアプラットフォームの負担を軽減することができるが、ネットワーク収束に影響を与える可能性がある。 本研究では,新しいCNNトレーニングアルゴリズムであるSparse Weight Activation Training (SWAT)を提案する。 SWATは従来のトレーニングよりも計算とメモリ効率が高い。 SWATは、トレーニング中の収束が除去に頑健であるという経験的洞察に基づいて、バックプロパゲーションを変更する (i)前方通過時の小等級 (ii)後方通過時の小さな大きさの重みと活性化の両方。 CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, ResNet, VGG, DenseNet, WideResNetなどの最近のCNNアーキテクチャのSWATを評価する。 ImageNet SWATのResNet-50では、トレーニング中の合計浮動小数点演算(FLOPS)を80%削減し、新興プラットフォームを模擬したスパース学習アクセラレータ上で実行した場合のトレーニングスピードアップは3.3$\times$になる。 さらに、SWATは後方通過時のメモリフットプリントを、活性化時に23%から50%、重量時に50%から90%削減する。

Neural network training is computationally and memory intensive. Sparse training can reduce the burden on emerging hardware platforms designed to accelerate sparse computations, but it can affect network convergence. In this work, we propose a novel CNN training algorithm Sparse Weight Activation Training (SWAT). SWAT is more computation and memory-efficient than conventional training. SWAT modifies back-propagation based on the empirical insight that convergence during training tends to be robust to the elimination of (i) small magnitude weights during the forward pass and (ii) both small magnitude weights and activations during the backward pass. We evaluate SWAT on recent CNN architectures such as ResNet, VGG, DenseNet and WideResNet using CIFAR-10, CIFAR-100 and ImageNet datasets. For ResNet-50 on ImageNet SWAT reduces total floating-point operations (FLOPS) during training by 80% resulting in a 3.3$\times$ training speedup when run on a simulated sparse learning accelerator representative of emerging platforms while incurring only 1.63% reduction in validation accuracy. Moreover, SWAT reduces memory footprint during the backward pass by 23% to 50% for activations and 50% to 90% for weights.
翻訳日:2023-01-13 20:16:54 公開日:2020-10-31
# 固有問題に対する逐次的手法の入出力収束

Entrywise convergence of iterative methods for eigenproblems ( http://arxiv.org/abs/2002.08491v2 )

ライセンス: Link先を確認
Vasileios Charisopoulos, Austin R. Benson, Anil Damle(参考訳) 機械学習、統計学、その他の分野におけるいくつかの問題は固有ベクトルの計算に依存する。 大規模問題の場合、これらの固有ベクトルの計算は通常、部分空間反復法やクリロフ法のような反復スキームによって行われる。 スペクトルノルムに関して部分空間収束保証の古典的かつ包括的解析があるが、現代の多くの応用において、他の部分空間距離の概念はより適切である。 最近の理論的研究は、$\ell_{2 \to \infty}$ノルムで測定された部分空間の摂動に焦点を当てているが、固有ベクトルの実際の計算は考慮していない。 ここでは、距離が$\ell_{2 \to \infty}$ノルムで測られるときの部分空間反復の収束に対処し、決定論的境界を与える。 我々は,本分析を実践的な停止基準で補完し,数値実験による適用性を実証する。 その結果,ダウンストリームタスクで同等のパフォーマンスが得られると同時に,少ないイテレーションを要し,計算時間を大幅に節約できることがわかった。

Several problems in machine learning, statistics, and other fields rely on computing eigenvectors. For large scale problems, the computation of these eigenvectors is typically performed via iterative schemes such as subspace iteration or Krylov methods. While there is classical and comprehensive analysis for subspace convergence guarantees with respect to the spectral norm, in many modern applications other notions of subspace distance are more appropriate. Recent theoretical work has focused on perturbations of subspaces measured in the $\ell_{2 \to \infty}$ norm, but does not consider the actual computation of eigenvectors. Here we address the convergence of subspace iteration when distances are measured in the $\ell_{2 \to \infty}$ norm and provide deterministic bounds. We complement our analysis with a practical stopping criterion and demonstrate its applicability via numerical experiments. Our results show that one can get comparable performance on downstream tasks while requiring fewer iterations, thereby saving substantial computational time.
翻訳日:2022-12-30 13:53:42 公開日:2020-10-31
# マルチタスク学習に基づくニューラルブリッジ参照分解能

Multi-task Learning Based Neural Bridging Reference Resolution ( http://arxiv.org/abs/2003.03666v2 )

ライセンス: Link先を確認
Juntao Yu and Massimo Poesio(参考訳) 本稿では,2つの課題に対処するブリッジ参照を解決するためのマルチタスク学習型ニューラルモデルを提案する。 第一の課題は、大きなコーポラの欠如とブリッジの参照である。 これに対処するために、私たちはマルチタスク学習を使用して、参照解像度をコリファレンスレゾリューションで橋渡しするのに役立ちます。 このアーキテクチャによる完全なブリッジ解像度では,最大8pの大幅な改善が達成可能であることを示す。 2つめの課題は、異なるコーパスで使用されるブリッジの異なる定義である。つまり、1つのコーパス用に設計された特別な特徴を用いたハンドコードされたシステムやシステムは、他のコーパスとうまく動作しない。 我々のニューラルモデルは少数のコーパス独立機能のみを使用するため、異なるコーパスに適用することができる。 全く異なるブリッジングコーパス(arrau、isnotes、bashi、scicorp)による評価では、我々のアーキテクチャは全てのコーパスで等しく動作し、すべてのコーパスに対して完全なブリッジング解像度でsota結果を達成し、最大36.3 p. のベストな結果を上回っています。

We propose a multi task learning-based neural model for resolving bridging references tackling two key challenges. The first challenge is the lack of large corpora annotated with bridging references. To address this, we use multi-task learning to help bridging reference resolution with coreference resolution. We show that substantial improvements of up to 8 p.p. can be achieved on full bridging resolution with this architecture. The second challenge is the different definitions of bridging used in different corpora, meaning that hand-coded systems or systems using special features designed for one corpus do not work well with other corpora. Our neural model only uses a small number of corpus independent features, thus can be applied to different corpora. Evaluations with very different bridging corpora (ARRAU, ISNOTES, BASHI and SCICORP) suggest that our architecture works equally well on all corpora, and achieves the SoTA results on full bridging resolution for all corpora, outperforming the best reported results by up to 36.3 p.p..
翻訳日:2022-12-25 19:49:25 公開日:2020-10-31
# 成層木の構造学習のためのRパッケージステージツリー

The R Package stagedtrees for Structural Learning of Stratified Staged Trees ( http://arxiv.org/abs/2004.06459v2 )

ライセンス: Link先を確認
Federico Carli, Manuele Leonelli, Eva Riccomagno, Gherardo Varando(参考訳) stagedtreesは、データからステージツリーとチェーンイベントグラフの構造を学習するアルゴリズムを含むRパッケージである。 スコアベースおよびクラスタリングベースのアルゴリズムが実装され、モデルのプロットや推論を行うための様々な機能が実装されている。 stagedtreesの機能は、主にパッケージに含まれるかrにバンドルされた2つのデータセットを使用して図示される。

stagedtrees is an R package which includes several algorithms for learning the structure of staged trees and chain event graphs from data. Score-based and clustering-based algorithms are implemented, as well as various functionalities to plot the models and perform inference. The capabilities of stagedtrees are illustrated using mainly two datasets both included in the package or bundled in R.
翻訳日:2022-12-13 10:19:01 公開日:2020-10-31
# GPT-2からの言語生成における談話関係の評価

Assessing Discourse Relations in Language Generation from GPT-2 ( http://arxiv.org/abs/2004.12506v3 )

ライセンス: Link先を確認
Wei-Jen Ko, Junyi Jessy Li(参考訳) NLPの最近の進歩は、大規模な事前訓練言語モデルの出現によるものである。 特にGPT-2は、左から右への言語モデリングの目的から、生成タスクに適しているが、生成したテキストの言語的品質はほとんど探索されていない。 我々の研究は、談話コヒーレンスの観点から、GPT-2の出力を理解するための一歩を踏み出した。 我々は,有機生成シナリオと微調整シナリオの両方において,GPT-2の出力における明示的談話関係の有効性について包括的な研究を行った。 結果、GPT-2は必ずしも有効な談話関係を含むテキストを生成するわけではない。 本稿では,これらの問題を緩和するための分離戦略を提案し,言論情報を明示的にモデル化することの重要性を強調する。

Recent advances in NLP have been attributed to the emergence of large-scale pre-trained language models. GPT-2, in particular, is suited for generation tasks given its left-to-right language modeling objective, yet the linguistic quality of its generated text has largely remain unexplored. Our work takes a step in understanding GPT-2's outputs in terms of discourse coherence. We perform a comprehensive study on the validity of explicit discourse relations in GPT-2's outputs under both organic generation and fine-tuned scenarios. Results show GPT-2 does not always generate text containing valid discourse relations; nevertheless, its text is more aligned with human expectation in the fine-tuned scenario. We propose a decoupled strategy to mitigate these problems and highlight the importance of explicitly modeling discourse information.
翻訳日:2022-12-09 13:25:53 公開日:2020-10-31
# ニューラルネットワーク翻訳における遠隔領域適応のための語彙適応

Vocabulary Adaptation for Distant Domain Adaptation in Neural Machine Translation ( http://arxiv.org/abs/2004.14821v2 )

ライセンス: Link先を確認
Shoetsu Sato, Jin Sakuma, Naoki Yoshinaga, Masashi Toyoda, Masaru Kitsuregawa(参考訳) ニューラルネットワークメソッドは、少数のリソース豊富なドメインでのみ強力なパフォーマンスを示す。 したがって、実践者は、ほとんどの場合、ターゲットドメインから離れたリソース豊富なドメインからのドメイン適応を採用する。 しかし、遠隔領域間のドメイン適応(例えば、映画サブタイトルや研究論文)は語彙のミスマッチのために効果的に実行することはできない。 本研究では、ニューラルネットワーク翻訳(NMT)のドメイン適応におけるこれらの語彙ミスマッチを解決するために、与えられたトレーニング済みNMTモデルへの埋め込み層を対象ドメインに適応させる効果的な微調整法である語彙適応を提案する。 微調整に先立って,本手法では,対象領域の単言語データから誘導される一般単語埋め込みをソースドメイン埋め込み空間に投影することにより,NMTモデルの埋め込み層を置き換える。 実験結果から,提案手法は従来法に比べて3.86点,3.28点の微調整性能が向上することが示唆された。

Neural network methods exhibit strong performance only in a few resource-rich domains. Practitioners, therefore, employ domain adaptation from resource-rich domains that are, in most cases, distant from the target domain. Domain adaptation between distant domains (e.g., movie subtitles and research papers), however, cannot be performed effectively due to mismatches in vocabulary; it will encounter many domain-specific words (e.g., "angstrom") and words whose meanings shift across domains(e.g., "conductor"). In this study, aiming to solve these vocabulary mismatches in domain adaptation for neural machine translation (NMT), we propose vocabulary adaptation, a simple method for effective fine-tuning that adapts embedding layers in a given pre-trained NMT model to the target domain. Prior to fine-tuning, our method replaces the embedding layers of the NMT model by projecting general word embeddings induced from monolingual data in a target domain onto a source-domain embedding space. Experimental results indicate that our method improves the performance of conventional fine-tuning by 3.86 and 3.28 BLEU points in En-Ja and De-En translation, respectively.
翻訳日:2022-12-08 04:24:23 公開日:2020-10-31
# ヒートマップに基づくドライバの認知的歪み推定法

Heatmap-Based Method for Estimating Drivers' Cognitive Distraction ( http://arxiv.org/abs/2005.14136v2 )

ライセンス: Link先を確認
Antonyo Musabini, Mounsif Chetitah(参考訳) 道路の安全性を高めるために、視覚的および手動的な注意散らしの中で、現代のインテリジェントな車両は認知的な注意散らばった運転(つまり運転者の気遣い)を検出する必要がある。 本研究では,認知過程がドライバの視線行動に及ぼす影響について検討した。 認知的障害を推定するために,ドライバの視線分散のイメージベース表現を提案する。 データは高速道路の公道で収集され、認知的注意をそらすためのプロトコルが組み込まれている。 生成された形状の視覚的な違いは、ドライバーが中性運転の広い領域を探索することを示している。 これにより、サポートベクトルマシン(SVM)ベースの分類器が訓練され、小さなデータセットであっても、2クラス問題に対して85.2%の精度が達成される。 そこで,本提案手法は,視線情報を用いて認識障害を認識する識別能力を有する。 最後に、この画像に基づく表現が、注意をそらした運転検出の他のケースにどのように役立つかを詳述する。

In order to increase road safety, among the visual and manual distractions, modern intelligent vehicles need also to detect cognitive distracted driving (i.e., the drivers mind wandering). In this study, the influence of cognitive processes on the drivers gaze behavior is explored. A novel image-based representation of the driver's eye-gaze dispersion is proposed to estimate cognitive distraction. Data are collected on open highway roads, with a tailored protocol to create cognitive distraction. The visual difference of created shapes shows that a driver explores a wider area in neutral driving compared to distracted driving. Thus, support vector machine (SVM)-based classifiers are trained, and 85.2% of accuracy is achieved for a two-class problem, even with a small dataset. Thus, the proposed method has the discriminative power to recognize cognitive distraction using gaze information. Finally, this work details how this image-based representation could be useful for other cases of distracted driving detection.
翻訳日:2022-11-27 06:04:49 公開日:2020-10-31
# 株主の目で見る:初対人ビデオにおける視線と行動

In the Eye of the Beholder: Gaze and Actions in First Person Video ( http://arxiv.org/abs/2006.00626v2 )

ライセンス: Link先を確認
Yin Li, Miao Liu, James M. Rehg(参考訳) 頭部カメラで撮影された映像の分析に基づいて、人物が何をしているか、どこを見ているのかを共同で決定するタスクに対処する。 本稿では,EGTEA Gaze+データセットについて紹介する。 当社のデータセットにはビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれており、ファーストパーソンビジョン(fpv)の最も包括的なベンチマークを提供します。 データセットを超えて、FPVにおける共同視線推定と行動認識のための新しいディープモデルを提案する。 本手法では,参加者の視線を確率変数として表現し,その分布をディープネットワーク内の確率単位を用いてモデル化する。 これらの確率単位からさらにサンプルを採取し,行動認識のための視覚的特徴の集約を導くための注意マップを作成した。 提案手法はEGTEA Gaze+データセットを用いて評価し,その性能レベルが最先端よりも大幅に向上することを示す。 さらに,このモデルが大規模fpvデータセットに適用可能であることを実証する。--epic-kitchensは視線を使わずに,fpvアクション認識に関する最新結果を新たに提供する。

We address the task of jointly determining what a person is doing and where they are looking based on the analysis of video captured by a headworn camera. To facilitate our research, we first introduce the EGTEA Gaze+ dataset. Our dataset comes with videos, gaze tracking data, hand masks and action annotations, thereby providing the most comprehensive benchmark for First Person Vision (FPV). Moving beyond the dataset, we propose a novel deep model for joint gaze estimation and action recognition in FPV. Our method describes the participant's gaze as a probabilistic variable and models its distribution using stochastic units in a deep network. We further sample from these stochastic units, generating an attention map to guide the aggregation of visual features for action recognition. Our method is evaluated on our EGTEA Gaze+ dataset and achieves a performance level that exceeds the state-of-the-art by a significant margin. More importantly, we demonstrate that our model can be applied to larger scale FPV dataset---EPIC-Kitchens even without using gaze, offering new state-of-the-art results on FPV action recognition.
翻訳日:2022-11-26 12:58:39 公開日:2020-10-31
# MeshSDF: 微分可能なアイソ面抽出

MeshSDF: Differentiable Iso-Surface Extraction ( http://arxiv.org/abs/2006.03997v2 )

ライセンス: Link先を確認
Edoardo Remelli, Artem Lukoianov, Stephan R. Richter, Beno\^it Guillard, Timur Bagautdinov, Pierre Baque and Pascal Fua(参考訳) Geometric Deep Learningは最近、継続的なDeep Implicit Fieldsの出現で大きな進歩を遂げた。 これにより、3次元ユークリッド格子に依存しない任意のトポロジーの水密曲面の詳細なモデリングが可能となり、その結果、解像度が制限されない学習可能なパラメータ化が可能となる。 残念ながらこれらの手法は、暗黙の場をそのような表現に変換するため、暗黙の場に対して区別できないマーチングキューブアルゴリズムに依存するため、明示的なメッシュベースの表面表現を必要とするアプリケーションには適さないことが多い。 本研究では,この制限を除去し,Deep Signed Distance Functionから表面メッシュ表現を明示的に生成する方法を提案する。 私たちの重要な洞察は、暗黙的場の摂動が局所的な表面幾何にどのように影響するかを推論することで、基礎となる深い暗黙的場に関して最終的に表面サンプルの3d位置を区別できるということです。 これを利用して、そのトポロジーを変えることができるエンドツーエンドの微分可能なメッシュ表現である meshsdf を定義する。 我々は、微分レンダリングによる単一視点再構成と物理駆動形状最適化という、2つの異なるアプリケーションを用いて理論的洞察を検証する。 どちらの場合も、微分可能なパラメータ化は最先端のアルゴリズムよりも有利である。

Geometric Deep Learning has recently made striking progress with the advent of continuous Deep Implicit Fields. They allow for detailed modeling of watertight surfaces of arbitrary topology while not relying on a 3D Euclidean grid, resulting in a learnable parameterization that is not limited in resolution. Unfortunately, these methods are often not suitable for applications that require an explicit mesh-based surface representation because converting an implicit field to such a representation relies on the Marching Cubes algorithm, which cannot be differentiated with respect to the underlying implicit field. In this work, we remove this limitation and introduce a differentiable way to produce explicit surface mesh representations from Deep Signed Distance Functions. Our key insight is that by reasoning on how implicit field perturbations impact local surface geometry, one can ultimately differentiate the 3D location of surface samples with respect to the underlying deep implicit field. We exploit this to define MeshSDF, an end-to-end differentiable mesh representation which can vary its topology. We use two different applications to validate our theoretical insight: Single-View Reconstruction via Differentiable Rendering and Physically-Driven Shape Optimization. In both cases our differentiable parameterization gives us an edge over state-of-the-art algorithms.
翻訳日:2022-11-24 21:50:16 公開日:2020-10-31
# 対称性論による進化アルゴリズムのランタイム解析

Runtime Analysis of Evolutionary Algorithms via Symmetry Arguments ( http://arxiv.org/abs/2006.04663v3 )

ライセンス: Link先を確認
Benjamin Doerr(参考訳) Sutton and Witt (GECCO 2019) が分析した選択自由定常遺伝的アルゴリズムが、特定のターゲット探索点を見つけるために、期待される数$\Omega(2^n / \sqrt n)$イテレーションを取ることを証明するために、グループアクションに基本的な引数構造を用いる。 この境界はすべての集団サイズに$\mu$で有効である。 我々の結果は、以前の$\Omega(\exp(n^{\delta/2})$の下位境界よりも改善され、人口サイズが$\mu = O(n^{1/2\delta})$, $0 < \delta < 1/2$となる。

We use an elementary argument building on group actions to prove that the selection-free steady state genetic algorithm analyzed by Sutton and Witt (GECCO 2019) takes an expected number of $\Omega(2^n / \sqrt n)$ iterations to find any particular target search point. This bound is valid for all population sizes $\mu$. Our result improves over the previous lower bound of $\Omega(\exp(n^{\delta/2}))$ valid for population sizes $\mu = O(n^{1/2 - \delta})$, $0 < \delta < 1/2$.
翻訳日:2022-11-24 01:53:27 公開日:2020-10-31
# 機械学習による社会バイアスの強化--信用スコアの視点

Societal biases reinforcement through machine learning: A credit scoring perspective ( http://arxiv.org/abs/2006.08350v2 )

ライセンス: Link先を確認
Bertrand K. Hassani(参考訳) 機械学習とAIは社会的偏見を育むか? 本稿ではこの問題を分析することを目的とする。 実際、アルゴリズムがデータによって通知されるので、もしこれらが破損した場合、良い機械学習アルゴリズムは、提供されたデータから学習し、分類または意図した回帰に関する予測に基づいて学習したパターンを再検証する。 言い換えれば、社会が肯定的であるか否定的であるかは、必ずしもモデルによって反映される。 本稿では、顧客から提供される全く同じ情報を用いて、顧客の性別または民族性を予測することにより、データの社会的バイアスがどのように銀行融資承認に伝達されるかを分析する。

Does machine learning and AI ensure that social biases thrive ? This paper aims to analyse this issue. Indeed, as algorithms are informed by data, if these are corrupted, from a social bias perspective, good machine learning algorithms would learn from the data provided and reverberate the patterns learnt on the predictions related to either the classification or the regression intended. In other words, the way society behaves whether positively or negatively, would necessarily be reflected by the models. In this paper, we analyse how social biases are transmitted from the data into banks loan approvals by predicting either the gender or the ethnicity of the customers using the exact same information provided by customers through their applications.
翻訳日:2022-11-21 03:51:23 公開日:2020-10-31
# 階層分割とデータ依存グルーピングによるマルチラベル分類

Multilabel Classification by Hierarchical Partitioning and Data-dependent Grouping ( http://arxiv.org/abs/2006.14084v2 )

ライセンス: Link先を確認
Shashanka Ubaru, Sanjeeb Dash, Arya Mazumdar, Oktay Gunluk(参考訳) 現代のマルチラベル分類問題では、各データインスタンスは、多数のクラスからの少数のクラスに属している。 言い換えれば、これらの問題は非常にスパースなバイナリラベルベクトルを学習する。 さらに、大規模な問題では、ラベルは通常特定の(未知の)階層を持つ。 本稿では,ラベルベクトルのスパーシティと階層構造を利用して,ラベルグルーピングを用いた低次元空間への埋め込みを行う。 そこで,より低い次元空間における分類問題を解き,適切に定義された昇降法を用いて元の空間のラベルを得る。 提案手法は,マルチラベル分類のためのグループテストについても検討したUbaru & Mazumdar(2017)の成果に基づいている。 まず,トレーニングインスタンスのラベル行列の低ランク非負行列分解(nmf)に基づくグループ構成を用いた,新しいデータ依存型グループ化手法を提案する。 この構成により、最近の結果を用いて、ラベル数に対数ランタイムを持つ高速な予測アルゴリズムを開発することができる。 次に、大規模問題におけるラベル階層を利用して、大きなラベル空間を分割し、より小さなサブプロブレムを生成する階層的分割手法を提案する。 多くのベンチマークデータセットの数値的な結果から,提案手法は他の一般的な手法と比較して,計算コストを大幅に削減して競争精度を向上することを示した。

In modern multilabel classification problems, each data instance belongs to a small number of classes from a large set of classes. In other words, these problems involve learning very sparse binary label vectors. Moreover, in large-scale problems, the labels typically have certain (unknown) hierarchy. In this paper we exploit the sparsity of label vectors and the hierarchical structure to embed them in low-dimensional space using label groupings. Consequently, we solve the classification problem in a much lower dimensional space and then obtain labels in the original space using an appropriately defined lifting. Our method builds on the work of (Ubaru & Mazumdar, 2017), where the idea of group testing was also explored for multilabel classification. We first present a novel data-dependent grouping approach, where we use a group construction based on a low-rank Nonnegative Matrix Factorization (NMF) of the label matrix of training instances. The construction also allows us, using recent results, to develop a fast prediction algorithm that has a logarithmic runtime in the number of labels. We then present a hierarchical partitioning approach that exploits the label hierarchy in large scale problems to divide up the large label space and create smaller sub-problems, which can then be solved independently via the grouping approach. Numerical results on many benchmark datasets illustrate that, compared to other popular methods, our proposed methods achieve competitive accuracy with significantly lower computational costs.
翻訳日:2022-11-17 09:32:05 公開日:2020-10-31
# 2状態q-learningによる強化学習による画像分類

Image Classification by Reinforcement Learning with Two-State Q-Learning ( http://arxiv.org/abs/2007.01298v3 )

ライセンス: Link先を確認
Abdul Mueed Hafiz(参考訳) 本稿では,深層学習と強化学習に基づく,シンプルで効率的なハイブリッド分類器を提案する。 ここで、q-learningは2つの状態と2、3のアクションで使われている。 文献で見られる他のテクニックは、畳み込みニューラルネットワークから抽出された特徴マップを使用し、過去の歴史とともにQ状態で使用する。 これは、機能マップの寸法が大きいため、状態数が多いため、これらのアプローチでは技術的に困難をもたらす。 提案手法は2つのQ状態のみを使用するため、単純であり、最適化パラメータがはるかに少ないため、単純な報酬関数も持つ。 また,本手法は文献で見られる他の手法と比較して,画像処理に新しい手法を用いる。 提案手法の性能は,ImageNet, Cats and Dogs Dataset, Caltech-101 Datasetなどの人気データベース上でのResNet50, InceptionV3などの最近のアルゴリズムと比較される。 提案されたアプローチは、使用するすべてのデータセットで他のテクニックを上回っている。

In this paper, a simple and efficient Hybrid Classifier is presented which is based on deep learning and reinforcement learning. Here, Q-Learning has been used with two states and 'two or three' actions. Other techniques found in the literature use feature map extracted from Convolutional Neural Networks and use these in the Q-states along with past history. This leads to technical difficulties in these approaches because the number of states is high due to large dimensions of the feature map. Because the proposed technique uses only two Q-states it is straightforward and consequently has much lesser number of optimization parameters, and thus also has a simple reward function. Also, the proposed technique uses novel actions for processing images as compared to other techniques found in literature. The performance of the proposed technique is compared with other recent algorithms like ResNet50, InceptionV3, etc. on popular databases including ImageNet, Cats and Dogs Dataset, and Caltech-101 Dataset. The proposed approach outperforms others techniques on all the datasets used.
翻訳日:2022-11-16 02:32:35 公開日:2020-10-31
# one-versus-all deep network分類器を用いたデジタル画像認識

Digit Image Recognition Using an Ensemble of One-Versus-All Deep Network Classifiers ( http://arxiv.org/abs/2007.01192v2 )

ライセンス: Link先を確認
Abdul Mueed Hafiz and Mahmoud Hassaballah(参考訳) 多クラスディープネットワーク分類器では、異なるクラスのサンプルを分類する責任が1つの分類器に課される。 その結果、最適な分類精度が得られない。 また、単一のCPU/GPU上でCNNトレーニングを実行するため、トレーニング時間も大きい。 しかし、分類器のアンサンブルを用いることで性能が向上することが知られている。 また、別々のプロセッサ上でアンサンブルの各部材を実行することにより、トレーニング時間を短縮することができる。 アンサンブル・ラーニングは、伝統的手法に様々な範囲で用いられており、ホットな話題となっている。 深層学習の出現により、前者にもアンサンブル学習が適用された。 しかし、未探索で潜在能力を持つ領域は、一対一(ova)の深層アンサンブル学習である。 本稿では,深層ネットワークのovaアンサンブルを用いることで,深層ネットワークの性能向上が期待できることを示す。 本稿では,バイナリ分類 (ova) 深層ネットワークのアンサンブルを用いることにより,深層ネットワークの分類能力をさらに高めることができることを示す。 本稿では,デジタル画像認識とテストのための新しい手法を実装し,その上で評価する。 提案手法では、各カテゴリに1つのOVAディープネットワーク分類器を割り当てる。 その後,OVA深層ネットワークアンサンブルについて検討した。 アンサンブル内のすべてのネットワークは、SGDMA(Stochastic Gradient Descent with Momentum Algorithm)を用いてOVAトレーニング技術によって訓練されている。 テストサンプルを分類するために、サンプルはアンサンブル内の各ネットワークに提示される。 予測スコアの投票の後、最もスコアが大きいネットワークがサンプルを分類したと仮定される。 この実験は、MNIST桁データセット、USPS+桁データセット、MATLAB桁画像データセットで実施された。 提案手法は,全データセットのデジット画像認識におけるベースラインを上回っている。

In multiclass deep network classifiers, the burden of classifying samples of different classes is put on a single classifier. As the result the optimum classification accuracy is not obtained. Also training times are large due to running the CNN training on single CPU/GPU. However it is known that using ensembles of classifiers increases the performance. Also, the training times can be reduced by running each member of the ensemble on a separate processor. Ensemble learning has been used in the past for traditional methods to a varying extent and is a hot topic. With the advent of deep learning, ensemble learning has been applied to the former as well. However, an area which is unexplored and has potential is One-Versus-All (OVA) deep ensemble learning. In this paper we explore it and show that by using OVA ensembles of deep networks, improvements in performance of deep networks can be obtained. As shown in this paper, the classification capability of deep networks can be further increased by using an ensemble of binary classification (OVA) deep networks. We implement a novel technique for the case of digit image recognition and test and evaluate it on the same. In the proposed approach, a single OVA deep network classifier is dedicated to each category. Subsequently, OVA deep network ensembles have been investigated. Every network in an ensemble has been trained by an OVA training technique using the Stochastic Gradient Descent with Momentum Algorithm (SGDMA). For classification of a test sample, the sample is presented to each network in the ensemble. After prediction score voting, the network with the largest score is assumed to have classified the sample. The experimentation has been done on the MNIST digit dataset, the USPS+ digit dataset, and MATLAB digit image dataset. Our proposed technique outperforms the baseline on digit image recognition for all datasets.
翻訳日:2022-11-16 01:58:08 公開日:2020-10-31
# テストエラーに対するクロスバリデーション信頼区間

Cross-validation Confidence Intervals for Test Error ( http://arxiv.org/abs/2007.12671v2 )

ライセンス: Link先を確認
Pierre Bayle, Alexandre Bayle, Lucas Janson, Lester Mackey(参考訳) 本研究は,学習アルゴリズムにおける弱安定性条件下での非漸近分散の交叉評価と一貫した推定のための中心極限定理を考案する。 これらの結果は,1つの学習アルゴリズムが他の学習アルゴリズムよりも$k$foldテスト誤差が小さいかどうかを検証し,実効的かつ漸近的に実施される信頼区間を提供する。 これらの結果は、remove-one-out cross-validationの一般的な選択としては最初のものだ。 多様な学習アルゴリズムを用いた実データ実験では、結果の間隔とテストは文献の最も一般的な代替手法よりも優れています。

This work develops central limit theorems for cross-validation and consistent estimators of its asymptotic variance under weak stability conditions on the learning algorithm. Together, these results provide practical, asymptotically-exact confidence intervals for $k$-fold test error and valid, powerful hypothesis tests of whether one learning algorithm has smaller $k$-fold test error than another. These results are also the first of their kind for the popular choice of leave-one-out cross-validation. In our real-data experiments with diverse learning algorithms, the resulting intervals and tests outperform the most popular alternative methods from the literature.
翻訳日:2022-11-07 06:32:50 公開日:2020-10-31
# 高速コンバージェント連合学習

Fast-Convergent Federated Learning ( http://arxiv.org/abs/2007.13137v2 )

ライセンス: Link先を確認
Hung T. Nguyen, Vikash Sehwag, Seyyedali Hosseinalipour, Christopher G. Brinton, Mung Chiang, H. Vincent Poor(参考訳) フェデレートされた学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための有望なソリューションとして最近登場した。 近年の研究では、フェデレーション学習の各ラウンドを通じて達成されるモデル損失の期待値が下方修正されている。 しかし、収束は一般に多数の通信ラウンドを必要とし、モデルトレーニングの遅延を引き起こし、ネットワークリソースの点でコストがかかる。 本稿では,各ラウンドのモデルトレーニングにおけるデバイスのインテリジェントサンプリングを行い,期待収束速度を最適化する,高速収束型フェデレート学習アルゴリズムfolbを提案する。 まず,ローカルモデルが現在のグローバルモデルに与える期待改善に応じてデバイスが選択された場合,各ラウンドにおいて得られる改善率の下限を理論的に特徴付ける。 次に、FOLBは勾配情報に応じてデバイス更新を重み付けすることで、一様サンプリングによりこの境界値を得ることを示す。 FOLBは、デバイスが更新に寄与する能力の見積に応じてアグリゲーションを適用することで、デバイスの通信と計算の不均一性の両方を処理することができる。 既存のフェデレーション学習アルゴリズムと比較し,folbの評価を行い,トレーニングしたモデルの精度,収束速度,および様々な機械学習タスクやデータセットにおけるモデルの安定性を実験的に示した。

Federated learning has emerged recently as a promising solution for distributing machine learning tasks through modern networks of mobile devices. Recent studies have obtained lower bounds on the expected decrease in model loss that is achieved through each round of federated learning. However, convergence generally requires a large number of communication rounds, which induces delay in model training and is costly in terms of network resources. In this paper, we propose a fast-convergent federated learning algorithm, called FOLB, which performs intelligent sampling of devices in each round of model training to optimize the expected convergence speed. We first theoretically characterize a lower bound on improvement that can be obtained in each round if devices are selected according to the expected improvement their local models will provide to the current global model. Then, we show that FOLB obtains this bound through uniform sampling by weighting device updates according to their gradient information. FOLB is able to handle both communication and computation heterogeneity of devices by adapting the aggregations according to estimates of device's capabilities of contributing to the updates. We evaluate FOLB in comparison with existing federated learning algorithms and experimentally show its improvement in trained model accuracy, convergence speed, and/or model stability across various machine learning tasks and datasets.
翻訳日:2022-11-06 20:18:23 公開日:2020-10-31
# NBA選手の給与を法廷での成績に応じて見積もる-機械学習によるアプローチ

Estimating NBA players salary share according to their performance on court: A machine learning approach ( http://arxiv.org/abs/2007.14694v3 )

ライセンス: Link先を確認
Ioanna Papadaki and Michail Tsagris(参考訳) 研究者や実践者は、コート上での選手のパフォーマンスに基づいてnba選手の給与を予測するために線形モデルに適合することが慣例である。 逆に、まず最も重要な決定要因や統計(リーグでの年数、ゲームプレイなど)を選択して、非線形ランダムフォレスト機械学習アルゴリズムを用いてプレイヤーの給与を予測することで、プレイヤーの給与の分配(チームの給与に関するもの)に焦点を当てる。 給与予測を外部から評価するので、ほとんどの論文で見られている過剰フィット現象は避ける。 全体として、2017~2019年の3つの異なる期間のデータを用いて、非常に良好な給与予測を達成する重要な要因を特定し、有用な結論を導き出す。

It is customary for researchers and practitioners to fit linear models in order to predict NBA player's salary based on the players' performance on court. On the contrary, we focus on the players salary share (with regards to the team payroll) by first selecting the most important determinants or statistics (years of experience in the league, games played, etc.) and then utilise them to predict the player salaries by employing a non linear Random Forest machine learning algorithm. We externally evaluate our salary predictions, thus we avoid the phenomenon of over-fitting observed in most papers. Overall, using data from three distinct periods, 2017-2019 we identify the important factors that achieve very satisfactory salary predictions and we draw useful conclusions.
翻訳日:2022-11-05 20:46:21 公開日:2020-10-31
# COVID-19におけるツイートの大規模・言語に依存しない談話分類

Large-scale, Language-agnostic Discourse Classification of Tweets During COVID-19 ( http://arxiv.org/abs/2008.00461v2 )

ライセンス: Link先を確認
Oguzhan Gencoglu(参考訳) 公衆の注意の特徴を定量化することは、パンデミックなどの深刻な出来事における適切な危機管理の必須条件である。 そこで本稿では,機械学習を用いた大規模Twitter談話分類を行うために,言語に依存しないつぶやき表現を提案する。 2600万人以上のCOVID-19ツイートを分析してみると、これらの表現のアウト・オブ・ボックス利用によって、計算的に軽量な分類器によって、公開談話の大規模監視が実現可能であることが分かる。

Quantifying the characteristics of public attention is an essential prerequisite for appropriate crisis management during severe events such as pandemics. For this purpose, we propose language-agnostic tweet representations to perform large-scale Twitter discourse classification with machine learning. Our analysis on more than 26 million COVID-19 tweets shows that large-scale surveillance of public discourse is feasible with computationally lightweight classifiers by out-of-the-box utilization of these representations.
翻訳日:2022-11-03 19:29:31 公開日:2020-10-31
# ニューラルネットワーク設計のための構造化畳み込み

Structured Convolutions for Efficient Neural Network Design ( http://arxiv.org/abs/2008.02454v2 )

ライセンス: Link先を確認
Yash Bhalgat, Yizhe Zhang, Jamie Lin, Fatih Porikli(参考訳) 本研究では,畳み込みニューラルネットワーク構築ブロックの‘textit{implicit structure’における冗長性を利用して,モデル効率に取り組む。 我々は,複合カーネル構造を汎用的に定義し,効率的な,スケールド,サムプールコンポーネントという形で畳み込み操作の実行を可能にする解析を開始する。 特別な場合として、textit{Structured Convolutions} を提案し、これらは畳み込み操作を和プーリング操作に分解し、さらに、より複雑で重量の少ない畳み込みが可能であることを示す。 この分解が2Dカーネルや3Dカーネルや全接続層にも適用可能であることを示す。 さらに、ニューラルネットワーク層が、トレーニング後に無視可能な性能損失で分解可能な方法で、この所望の構造を利用するように促進する構造規則化損失を示す。 この手法を幅広いCNNアーキテクチャに適用することにより、ImageNetとCIFAR-10データセットで1%の精度損失を被ったまま、より効率的な2$\times$のResNetの"構造化"バージョンと、新しいStructured-MobileNetV2を実証する。 また,imagenet と hrnet アーキテクチャ上で,cityscapes データセット上のセマンティクスセグメンテーションに類似した構造バージョンを示す。 提案手法は,既存のテンソル分解法やチャネルプルーニング法と比較して,複雑性の低減の観点からも等しく,あるいは優れている。

In this work, we tackle model efficiency by exploiting redundancy in the \textit{implicit structure} of the building blocks of convolutional neural networks. We start our analysis by introducing a general definition of Composite Kernel structures that enable the execution of convolution operations in the form of efficient, scaled, sum-pooling components. As its special case, we propose \textit{Structured Convolutions} and show that these allow decomposition of the convolution operation into a sum-pooling operation followed by a convolution with significantly lower complexity and fewer weights. We show how this decomposition can be applied to 2D and 3D kernels as well as the fully-connected layers. Furthermore, we present a Structural Regularization loss that promotes neural network layers to leverage on this desired structure in a way that, after training, they can be decomposed with negligible performance loss. By applying our method to a wide range of CNN architectures, we demonstrate "structured" versions of the ResNets that are up to 2$\times$ smaller and a new Structured-MobileNetV2 that is more efficient while staying within an accuracy loss of 1% on ImageNet and CIFAR-10 datasets. We also show similar structured versions of EfficientNet on ImageNet and HRNet architecture for semantic segmentation on the Cityscapes dataset. Our method performs equally well or superior in terms of the complexity reduction in comparison to the existing tensor decomposition and channel pruning methods.
翻訳日:2022-11-02 06:29:04 公開日:2020-10-31
# 無線センサネットワークにおけるセンサパラメータのない分散ソース位置決め

Decentralized Source Localization without Sensor Parameters in Wireless Sensor Networks ( http://arxiv.org/abs/2009.01062v3 )

ライセンス: Link先を確認
Akram Hussain, Yuan Luo(参考訳) 本稿では,センサパラメータを知らずに故障モデル下での分散無線センサネットワーク(WSN)のソース(イベント)ローカライズ問題について検討する。 イベントローカライズには、侵入者のローカライズ、wifiホットスポットとユーザ、電力系統の障害など、多くのアプリケーションがある。 以前の研究では、ソースローカライゼーションのためのセンサパラメータ(例えば、故障モデル確率やソースの影響領域(ROI))の真の知識(あるいは良い推定値)を仮定していた。 しかし,本研究では,センサパラメータを知らずに震源位置を推定するために,フュージョンセンターで設定されたノイズの多いデータのみを利用する打上げセット手法と特徴選択法という,断層モデルに基づく2つの手法を提案する。 提案手法はソースのローカライズを効果的に行うことが示されている。 また, ヒットセット法において, 試料の複雑性要求値の低い値についても検討した。 これらの手法は複数のソースのローカライゼーションにも拡張されている。 さらに,提案する特徴選択手法を最大限に活用するために修正する。 最後に,様々な設定(センサノード数,サンプル複雑性など)に対して広範なシミュレーションを行い,提案手法を遠心率,最大確率,ftml,スナップ推定器と比較検討した。

This paper studies the source (event) localization problem in decentralized wireless sensor networks (WSNs) under the fault model without knowing the sensor parameters. Event localizations have many applications such as localizing intruders, Wifi hotspots and users, and faults in power systems. Previous studies assume the true knowledge (or good estimates) of sensor parameters (e.g., fault model probability or Region of Influence (ROI) of the source) for source localization. However, we propose two methods to estimate the source location in this paper under the fault model: hitting set approach and feature selection method, which only utilize the noisy data set at the fusion center for estimation of the source location without knowing the sensor parameters. The proposed methods have been shown to localize the source effectively. We also study the lower bound on the sample complexity requirement for hitting set method. These methods have also been extended for multiple sources localizations. In addition, we modify the proposed feature selection approach to use maximum likelihood. Finally, extensive simulations are carried out for different settings (i.e., the number of sensor nodes and sample complexity) to validate our proposed methods in comparison to centroid, maximum likelihood, FTML, SNAP estimators.
翻訳日:2022-10-22 18:27:44 公開日:2020-10-31
# 逆学習を用いたニューラルダイアログ生成のためのジェンダーバイアスの緩和

Mitigating Gender Bias for Neural Dialogue Generation with Adversarial Learning ( http://arxiv.org/abs/2009.13028v2 )

ライセンス: Link先を確認
Haochen Liu, Wentao Wang, Yiqi Wang, Hui Liu, Zitao Liu and Jiliang Tang(参考訳) 対話システムは、日常生活の様々な側面において、ますます重要な役割を担っている。 最近の研究では、人間の会話データに基づいて訓練された対話システムが偏っていることが示されている。 特に、それは人々の性的な偏見を反映した反応を生み出すことができる。 単語埋め込みのような様々なNLPタスクに対して多くのデバイアス法が開発されている。 しかし、対話モデルに異なる性別に対する同様の応答を強制する可能性があるため、対話システムに直接は適用されない。 これにより生成された応答の多様性が大幅に低下し、対話モデルの性能が著しく低下する。 本稿では,性別バイアスのない対話モデルを学習し,性能を保ちながら学習する新しい逆学習フレームワークであるDebiased-Chatを提案する。 2つの実世界の会話データセットに対する大規模な実験により、我々のフレームワークは応答品質を維持しながら対話モデルの性別バイアスを著しく低減することが示された。 提案されたフレームワークの実装がリリースされた。

Dialogue systems play an increasingly important role in various aspects of our daily life. It is evident from recent research that dialogue systems trained on human conversation data are biased. In particular, they can produce responses that reflect people's gender prejudice. Many debiasing methods have been developed for various NLP tasks, such as word embedding. However, they are not directly applicable to dialogue systems because they are likely to force dialogue models to generate similar responses for different genders. This greatly degrades the diversity of the generated responses and immensely hurts the performance of the dialogue models. In this paper, we propose a novel adversarial learning framework Debiased-Chat to train dialogue models free from gender bias while keeping their performance. Extensive experiments on two real-world conversation datasets show that our framework significantly reduces gender bias in dialogue models while maintaining the response quality. The implementation of the proposed framework is released.
翻訳日:2022-10-13 20:39:41 公開日:2020-10-31
# 意見三重項抽出のためのマルチタスク学習フレームワーク

A Multi-task Learning Framework for Opinion Triplet Extraction ( http://arxiv.org/abs/2010.01512v2 )

ライセンス: Link先を確認
Chen Zhang, Qiuchi Li, Dawei Song, Benyou Wang(参考訳) 最先端のアスペクトベース感性分析(ABSA)アプローチは主にアスペクト項とその対応する感情極性の検出、あるいはアスペクトと意見項の共抽出に基づいている。 しかし、アスペクト感性ペアの抽出は参照としての意見項を欠いているが、アスペクトと意見の用語の共抽出は感情依存を決定することなく意味のあるペアに繋がることはない。 そこで本研究では,absaを意見三重項抽出タスクとして新しい視点を示し,アスペクト用語と意見語を共同で抽出し,それらの間の感情依存性をバイアフィンスコアで解析するマルチタスク学習フレームワークを提案する。 推定段階では、上記出力に基づく三重項復号法により三重項の抽出が容易になる。 提案するフレームワークを,ASBAの4つのSemEvalベンチマークで評価する。 その結果,本手法は,強いベースラインと最先端アプローチを著しく上回ることがわかった。

The state-of-the-art Aspect-based Sentiment Analysis (ABSA) approaches are mainly based on either detecting aspect terms and their corresponding sentiment polarities, or co-extracting aspect and opinion terms. However, the extraction of aspect-sentiment pairs lacks opinion terms as a reference, while co-extraction of aspect and opinion terms would not lead to meaningful pairs without determining their sentiment dependencies. To address the issue, we present a novel view of ABSA as an opinion triplet extraction task, and propose a multi-task learning framework to jointly extract aspect terms and opinion terms, and simultaneously parses sentiment dependencies between them with a biaffine scorer. At inference phase, the extraction of triplets is facilitated by a triplet decoding method based on the above outputs. We evaluate the proposed framework on four SemEval benchmarks for ASBA. The results demonstrate that our approach significantly outperforms a range of strong baselines and state-of-the-art approaches.
翻訳日:2022-10-11 03:41:14 公開日:2020-10-31
# slotrefine:ジョイントインテント検出とスロット充填のための高速非自己回帰モデル

SlotRefine: A Fast Non-Autoregressive Model for Joint Intent Detection and Slot Filling ( http://arxiv.org/abs/2010.02693v2 )

ライセンス: Link先を確認
Di Wu, Liang Ding, Fan Lu and Jian Xie(参考訳) スロットフィリングとインテント検出は、音声言語理解(SLU)システムにおける2つの主要なタスクである。 本稿では,ジョイントインテント検出とスロット充填のための新しい非自己回帰モデルであるslotrefineを提案する。 さらに,非自己回帰モデルの条件付き独立性に起因する非協調スロット問題に対処する新しい2パス繰り返し機構を設計する。 実験によると、このモデルはスロット充填作業で以前のモデルを大きく上回り、デコード(x10.77まで)を大幅にスピードアップする。 詳細な分析では 1) 事前学習方式は, モデルをさらに強化することができる。 2)2パス機構は、実際には非協調スロットを修復する。

Slot filling and intent detection are two main tasks in spoken language understanding (SLU) system. In this paper, we propose a novel non-autoregressive model named SlotRefine for joint intent detection and slot filling. Besides, we design a novel two-pass iteration mechanism to handle the uncoordinated slots problem caused by conditional independence of non-autoregressive model. Experiments demonstrate that our model significantly outperforms previous models in slot filling task, while considerably speeding up the decoding (up to X 10.77). In-depth analyses show that 1) pretraining schemes could further enhance our model; 2) two-pass mechanism indeed remedy the uncoordinated slots.
翻訳日:2022-10-10 04:50:59 公開日:2020-10-31
# 超音波エラストグラフィーにおける深層学習

Deep Learning in Ultrasound Elastography Imaging ( http://arxiv.org/abs/2010.07360v2 )

ライセンス: Link先を確認
Hongliang Li, Manish Bhatt, Zhen Qu, Shiming Zhang, Martin C. Hartel, Ali Khademhosseini, Guy Cloutier(参考訳) 組織の機械的特性の変化は、特定の疾患の発症と進行と関連していることが知られている。 超音波エラストグラフィーは、準静電エラストグラフィーまたは自然臓器脈拍エラストグラフィーを用いて組織ひずみを測定するか、ダイナミックエラストグラフィーを用いて、ソースまたは自然な振動によって誘起される伝搬せん断波をトレースすることにより、組織硬さを特徴付ける技術である。 近年,超音波エラストグラフィー研究において深層学習が登場し始めている。 本稿では,多層パーセプトロン,畳み込みニューラルネットワーク,リカレントニューラルネットワークなど,コンピュータビジョンコミュニティにおける一般的なディープラーニングフレームワークについて述べる。 そして,このような深層学習技術を用いた超音波エラストグラフィーの最近の進歩を,アルゴリズム開発と臨床診断の観点から再考した。 最後に, 超音波エラストグラフィにおける深層学習の課題と今後の展開を展望する。

It is known that changes in the mechanical properties of tissues are associated with the onset and progression of certain diseases. Ultrasound elastography is a technique to characterize tissue stiffness using ultrasound imaging either by measuring tissue strain using quasi-static elastography or natural organ pulsation elastography, or by tracing a propagated shear wave induced by a source or a natural vibration using dynamic elastography. In recent years, deep learning has begun to emerge in ultrasound elastography research. In this review, several common deep learning frameworks in the computer vision community, such as multilayer perceptron, convolutional neural network, and recurrent neural network are described. Then, recent advances in ultrasound elastography using such deep learning techniques are revisited in terms of algorithm development and clinical diagnosis. Finally, the current challenges and future developments of deep learning in ultrasound elastography are prospected.
翻訳日:2022-10-07 13:10:44 公開日:2020-10-31
# pair the dots: モデル解釈のためのトレーニング履歴とテスト刺激を共同で検討する

Pair the Dots: Jointly Examining Training History and Test Stimuli for Model Interpretability ( http://arxiv.org/abs/2010.06943v2 )

ライセンス: Link先を確認
Yuxian Meng, Chun Fan, Zijun Sun, Eduard Hovy, Fei Wu and Jiwei Li(参考訳) モデルからのあらゆる予測は、学習履歴とテスト刺激の組み合わせによって行われる。 これは、モデルの解釈可能性を改善するための重要な洞察を提供する: トレーニング例のどの部分(s)が、テスト例のどの部分(s)にモデルが従うかである。 残念ながら、モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面のみを捉えることができ、両方の証拠は結合または統合されない。 本稿では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。 テスト刺激はまず勾配に基づく方法によって同定され、モデルが従うテスト例の一部を意味する。 次に、勾配に基づく塩分濃度スコアを影響関数を用いてトレーニング例に伝達し、トレーニング例(s)がモデルにテスト刺激を伴わせる部分を特定する。 このシステムは微分可能で時間効率が良い: 勾配に基づく手法から塩分スコアを採用することで、テスト刺激を通じてモデルの予測を効率的に追跡し、影響関数を通じてトレーニング例に戻ることができる。 提案手法は, 誤り分析, 逆行例の作成, 誤分類例の修正に有用であるとともに, ニューラルモデル決定に関する明確な説明を提供する。

Any prediction from a model is made by a combination of learning history and test stimuli. This provides significant insights for improving model interpretability: {\it because of which part(s) of which training example(s), the model attends to which part(s) of a test example}. Unfortunately, existing methods to interpret a model's predictions are only able to capture a single aspect of either test stimuli or learning history, and evidences from both are never combined or integrated. In this paper, we propose an efficient and differentiable approach to make it feasible to interpret a model's prediction by jointly examining training history and test stimuli. Test stimuli is first identified by gradient-based methods, signifying {\it the part of a test example that the model attends to}. The gradient-based saliency scores are then propagated to training examples using influence functions to identify {\it which part(s) of which training example(s)} make the model attends to the test stimuli. The system is differentiable and time efficient: the adoption of saliency scores from gradient-based methods allows us to efficiently trace a model's prediction through test stimuli, and then back to training examples through influence functions. We demonstrate that the proposed methodology offers clear explanations about neural model decisions, along with being useful for performing error analysis, crafting adversarial examples and fixing erroneously classified examples.
翻訳日:2022-10-07 12:35:42 公開日:2020-10-31
# characterBERT: Word-Level Open-Vocabulary Representation from CharactersのためのELMoとBERTの再構成

CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters ( http://arxiv.org/abs/2010.10392v3 )

ライセンス: Link先を確認
Hicham El Boukkouri, Olivier Ferret, Thomas Lavergne, Hiroshi Noji, Pierre Zweigenbaum, Junichi Tsujii(参考訳) BERTによる魅力的な改善により、近年の表現モデルはトランスフォーマーアーキテクチャをメインビルディングブロックとして採用し、結果としてトランスフォーマーの概念と本質的に関連付けられていないにもかかわらず、ワードピースのトークン化システムを継承した。 このシステムは文字の柔軟性とフルワードの効率のバランスが良いと考えられているが、特に専門領域(医学領域など)のモデルを構築する場合、一般的なドメインから予め定義された語彙を使用することは必ずしも適切ではない。 さらに、ワードピースのトークン化を採用すると、焦点を単語レベルからサブワードレベルにシフトし、概念的により複雑で、実際は便利ではない。 これらの理由から,ワードピースシステムを完全に廃止し,キャラクタcnnモジュールを使用してキャラクタをコンサルティングする,新しい変種であるキャラクタバートを提案する。 この新モデルは,様々な医療領域タスクにおけるBERTの性能を向上させると同時に,頑健で単語レベルのオープン語彙表現を実現する。

Due to the compelling improvements brought by BERT, many recent representation models adopted the Transformer architecture as their main building block, consequently inheriting the wordpiece tokenization system despite it not being intrinsically linked to the notion of Transformers. While this system is thought to achieve a good balance between the flexibility of characters and the efficiency of full words, using predefined wordpiece vocabularies from the general domain is not always suitable, especially when building models for specialized domains (e.g., the medical domain). Moreover, adopting a wordpiece tokenization shifts the focus from the word level to the subword level, making the models conceptually more complex and arguably less convenient in practice. For these reasons, we propose CharacterBERT, a new variant of BERT that drops the wordpiece system altogether and uses a Character-CNN module instead to represent entire words by consulting their characters. We show that this new model improves the performance of BERT on a variety of medical domain tasks while at the same time producing robust, word-level and open-vocabulary representations.
翻訳日:2022-10-05 06:54:26 公開日:2020-10-31
# 変量再現型オフポリティTDC学習:非漸近収束解析

Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis ( http://arxiv.org/abs/2010.13272v3 )

ライセンス: Link先を確認
Shaocong Ma, Yi Zhou, Shaofeng Zou(参考訳) 時間変化学習(td学習)に分散低減技術が応用され,政策評価におけるサンプル複雑性の向上に寄与している。 しかし、既存の研究は1つの時間スケールのtdアルゴリズムや2つの時間スケールのgtdアルゴリズムに分散還元を適用しているが、有限個のi.i.d.\サンプルがあり、両方のアルゴリズムはオンポリシー設定のみに適用される。 本研究では,2つの時間スケールTDCアルゴリズムの分散低減手法を開発し,その非漸近収束速度をi.d.\ と Markovian の両方で解析する。 i.i.d.\設定では、このアルゴリズムはサンプル複雑性 $o(\epsilon^{-\frac{3}{5}} \log{\epsilon}^{-1})$ を達成し、これは最先端の結果 $o(\epsilon^{-1} \log {\epsilon}^{-1})$ よりも低い。 マルコフ的設定では、我々のアルゴリズムは最先端のサンプル複雑性$O(\epsilon^{-1} \log {\epsilon}^{-1})$をほぼ最適とする。 実験により,提案した分散再現型TDCは,従来のTDCと分散還元型TDより漸近収束誤差が小さいことを示した。

Variance reduction techniques have been successfully applied to temporal-difference (TD) learning and help to improve the sample complexity in policy evaluation. However, the existing work applied variance reduction to either the less popular one time-scale TD algorithm or the two time-scale GTD algorithm but with a finite number of i.i.d.\ samples, and both algorithms apply to only the on-policy setting. In this work, we develop a variance reduction scheme for the two time-scale TDC algorithm in the off-policy setting and analyze its non-asymptotic convergence rate over both i.i.d.\ and Markovian samples. In the i.i.d.\ setting, our algorithm achieves a sample complexity $O(\epsilon^{-\frac{3}{5}} \log{\epsilon}^{-1})$ that is lower than the state-of-the-art result $O(\epsilon^{-1} \log {\epsilon}^{-1})$. In the Markovian setting, our algorithm achieves the state-of-the-art sample complexity $O(\epsilon^{-1} \log {\epsilon}^{-1})$ that is near-optimal. Experiments demonstrate that the proposed variance-reduced TDC achieves a smaller asymptotic convergence error than both the conventional TDC and the variance-reduced TD.
翻訳日:2022-10-02 20:09:06 公開日:2020-10-31
# 二元報酬による実世界ジャグリングのための高加速度強化学習

High Acceleration Reinforcement Learning for Real-World Juggling with Binary Rewards ( http://arxiv.org/abs/2010.13483v3 )

ライセンス: Link先を確認
Kai Ploeger, Michael Lutter, Jan Peters(参考訳) 物理的な世界で学べるロボットは、頑丈でプログラムされた動きから逃れられるロボットにとって重要だ。 ジャグリングのようなダイナミックなハイアクセラレーションタスクでは、ロボットの限界を押し上げ、システムを損なうことなく動作させ、サンプル効率とロボット学習アルゴリズムの安全性を高める必要があるため、現実世界での学習は特に困難である。 学習アルゴリズムを中心とした先行研究とは対照的に,政策表現,初期化,最適化の設計にこれらの要件を直接組み込む学習システムを提案する。 このシステムにより,バレット・ワムマニピュレータは,56分間の経験から2つのボールのジャグリングをバイナリ報酬信号で学習できることを実証する。 最終方針は33分間、または約4500回のキャッチを繰り返す。 学習プロセスと評価に関するビデオはhttps://sites.google.com/view/jugglingbotで見ることができる。

Robots that can learn in the physical world will be important to en-able robots to escape their stiff and pre-programmed movements. For dynamic high-acceleration tasks, such as juggling, learning in the real-world is particularly challenging as one must push the limits of the robot and its actuation without harming the system, amplifying the necessity of sample efficiency and safety for robot learning algorithms. In contrast to prior work which mainly focuses on the learning algorithm, we propose a learning system, that directly incorporates these requirements in the design of the policy representation, initialization, and optimization. We demonstrate that this system enables the high-speed Barrett WAM manipulator to learn juggling two balls from 56 minutes of experience with a binary reward signal. The final policy juggles continuously for up to 33 minutes or about 4500 repeated catches. The videos documenting the learning process and the evaluation can be found at https://sites.google.com/view/jugglingbot
翻訳日:2022-10-02 18:29:01 公開日:2020-10-31
# センサシステムにおけるスマート異常検出:マルチパースペクティブレビュー

Smart Anomaly Detection in Sensor Systems: A Multi-Perspective Review ( http://arxiv.org/abs/2010.14946v2 )

ライセンス: Link先を確認
L. Erhan, M. Ndubuaku, M. Di Mauro, W. Song, M. Chen, G. Fortino, O. Bagdasar, A. Liotta(参考訳) 異常検出は、期待される振る舞いから著しく逸脱するデータパターンを特定することに関わる。 データ分析からe-health、サイバーセキュリティ、予測メンテナンス、障害防止、産業自動化に至るまで、幅広いアプリケーション領域があるため、これは重要な研究課題である。 本稿では、情報融合、データボリューム、データ速度、ネットワーク/エネルギー効率の面で困難な課題となるセンサシステムの特定の領域における異常を検出するために用いられる最先端の手法について概説する。 この文脈では、異常検出は特に難しい問題であり、制約のある環境で計算エネルギーの精度のトレードオフを見つける必要がある。 本研究では,従来の手法(統計手法,時系列解析,信号処理など)からデータ駆動技術(教師あり学習,強化学習,深層学習など)までを分類する。 また、さまざまなアーキテクチャ環境(クラウド、フォッグ、エッジ)がセンサーエコシステムに与える影響についても検討しています。 このレビューは、最も有望なインテリジェントセンシング手法を示し、興味深いオープンな問題と課題のセットを指摘している。

Anomaly detection is concerned with identifying data patterns that deviate remarkably from the expected behaviour. This is an important research problem, due to its broad set of application domains, from data analysis to e-health, cybersecurity, predictive maintenance, fault prevention, and industrial automation. Herein, we review state-of-the-art methods that may be employed to detect anomalies in the specific area of sensor systems, which poses hard challenges in terms of information fusion, data volumes, data speed, and network/energy efficiency, to mention but the most pressing ones. In this context, anomaly detection is a particularly hard problem, given the need to find computing-energy accuracy trade-offs in a constrained environment. We taxonomize methods ranging from conventional techniques (statistical methods, time-series analysis, signal processing, etc.) to data-driven techniques (supervised learning, reinforcement learning, deep learning, etc.). We also look at the impact that different architectural environments (Cloud, Fog, Edge) can have on the sensors ecosystem. The review points to the most promising intelligent-sensing methods, and pinpoints a set of interesting open issues and challenges.
翻訳日:2022-10-02 12:43:28 公開日:2020-10-31
# 注意に基づく核融合と空間的関係制約を用いた脳腫瘍分節ネットワーク

Brain Tumor Segmentation Network Using Attention-based Fusion and Spatial Relationship Constraint ( http://arxiv.org/abs/2010.15647v2 )

ライセンス: Link先を確認
Chenyu Liu, Wangbin Ding, Lei Li, Zhen Zhang, Chenhao Pei, Liqin Huang, Xiahai Zhuang(参考訳) グリオーマの治療にはMRI画像からの脳腫瘍の特定が重要である。 しかし,腫瘍の複雑な外観と曖昧な輪郭が原因で,自動脱線が困難である。 マルチモーダルMR画像は腫瘍の生物学的特性が異なることを考慮し、マルチモーダルMR画像に基づいて脳腫瘍を堅牢に分節する新しいマルチモーダル腫瘍分節ネットワーク(MMTSN)を開発した。 MMTSNは3つのサブブランチと1つのメインブランチで構成されている。 具体的には,マルチモーダル画像から腫瘍の特徴を捉えるためにサブブランチを用い,メインブランチでは空間チャネル融合ブロック(scfb)を設計し,マルチモーダル特徴を効果的に集約する。 また,腫瘍のサブリージョン間の空間的関係が比較的固定されていること,例えば,造影腫瘍が常に腫瘍コア内にあることなどから,腫瘍のサブリージョン間の関係を制約する空間的損失を提案する。 brats2020 (multi-modal brain tumor segmentation challenge 2020) テストセットにおける本手法の評価を行った。 本法は, 全腫瘍, 腫瘍コア, 造影腫瘍に対する0.8764, 0.8243, 0.773サイススコアをそれぞれ達成する。

Delineating the brain tumor from magnetic resonance (MR) images is critical for the treatment of gliomas. However, automatic delineation is challenging due to the complex appearance and ambiguous outlines of tumors. Considering that multi-modal MR images can reflect different tumor biological properties, we develop a novel multi-modal tumor segmentation network (MMTSN) to robustly segment brain tumors based on multi-modal MR images. The MMTSN is composed of three sub-branches and a main branch. Specifically, the sub-branches are used to capture different tumor features from multi-modal images, while in the main branch, we design a spatial-channel fusion block (SCFB) to effectively aggregate multi-modal features. Additionally, inspired by the fact that the spatial relationship between sub-regions of tumor is relatively fixed, e.g., the enhancing tumor is always in the tumor core, we propose a spatial loss to constrain the relationship between different sub-regions of tumor. We evaluate our method on the test set of multi-modal brain tumor segmentation challenge 2020 (BraTs2020). The method achieves 0.8764, 0.8243 and 0.773 dice score for whole tumor, tumor core and enhancing tumor, respectively.
翻訳日:2022-10-01 23:38:03 公開日:2020-10-31
# mad-vae:多様体認識防御変分オートエンコーダ

MAD-VAE: Manifold Awareness Defense Variational Autoencoder ( http://arxiv.org/abs/2011.01755v1 )

ライセンス: Link先を確認
Frederick Morlock, Dingsu Wang(参考訳) ディフェンスGANやディフェンスVAEのような深層生成モデルは、画像分類ニューラルネットワークの敵防衛において大きな進歩を遂げているが、これらの防御を回避できるいくつかの方法が発見されている。 そこで,本研究では,防衛モデルのロバスト性を改善する手法をいくつか紹介する。 本論文で紹介される手法は, 直接前進するが, バニラディフェンス-VAEに対する約束を示す。 MNISTデータセットに関する広範な実験により、異なる攻撃に対するアルゴリズムの有効性を実証した。 我々の実験には、防御モデルの潜在空間に対する攻撃も含まれている。 また,既存の逆潜時空間攻撃の適用可能性についても論じる。

Although deep generative models such as Defense-GAN and Defense-VAE have made significant progress in terms of adversarial defenses of image classification neural networks, several methods have been found to circumvent these defenses. Based on Defense-VAE, in our research we introduce several methods to improve the robustness of defense models. The methods introduced in this paper are straight forward yet show promise over the vanilla Defense-VAE. With extensive experiments on MNIST data set, we have demonstrated the effectiveness of our algorithms against different attacks. Our experiments also include attacks on the latent space of the defensive model. We also discuss the applicability of existing adversarial latent space attacks as they may have a significant flaw.
翻訳日:2022-10-01 05:21:51 公開日:2020-10-31
# 物理インフォームドエコー状態ネットワーク

Physics-Informed Echo State Networks ( http://arxiv.org/abs/2011.02280v1 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Wolfgang Polifke, Luca Magri(参考訳) 本稿では,カオスシステムの進化を予測するための物理インフォームドEcho State Network (ESN)を提案する。 従来のESNと比較して、物理インフォームドESNは教師付き学習課題を解決するために訓練され、予測が物理法則に反しないことを保証する。 これは、システムの制御方程式に基づいてトレーニング中に追加の損失関数を導入することで達成される。 追加損失関数は、追加のトレーニングデータを必要としない非物理的予測をペナルティ化する。 このアプローチはカオス的なローレンツ系とCharney-DeVore系の切り離しで実証される。 従来のESNと比較すると、物理インフォームドESNは予測可能性の地平線を約2倍改善する。 このアプローチは、ノイズに関してロバストであることも示されている。 提案フレームワークは、カオス力学系の時間精度予測を改善するために、機械学習と事前の物理知識を組み合わせる可能性を示す。

We propose a physics-informed Echo State Network (ESN) to predict the evolution of chaotic systems. Compared to conventional ESNs, the physics-informed ESNs are trained to solve supervised learning tasks while ensuring that their predictions do not violate physical laws. This is achieved by introducing an additional loss function during the training, which is based on the system's governing equations. The additional loss function penalizes non-physical predictions without the need of any additional training data. This approach is demonstrated on a chaotic Lorenz system and a truncation of the Charney-DeVore system. Compared to the conventional ESNs, the physics-informed ESNs improve the predictability horizon by about two Lyapunov times. This approach is also shown to be robust with regard to noise. The proposed framework shows the potential of using machine learning combined with prior physical knowledge to improve the time-accurate prediction of chaotic dynamical systems.
翻訳日:2022-10-01 05:21:39 公開日:2020-10-31
# トランスファー学習はタンパク質の景観予測に必要か?

Is Transfer Learning Necessary for Protein Landscape Prediction? ( http://arxiv.org/abs/2011.03443v1 )

ライセンス: Link先を確認
Amir Shanehsazzadeh, David Belanger, David Dohan(参考訳) 近年、タンパク質の表現方法、特に固定長埋め込みの学習に大きな関心が寄せられている。 ディープラーニングは、モデルの隠れた層が潜在的に有用なベクトル埋め込みを生成するため、タンパク質表現学習の一般的なツールとなっている。 TAPEは、多数のベンチマークタスクを導入し、大きなタンパク質コーパス上で言語モデルを事前訓練することで、下流タスクのパフォーマンスを向上させるセミ教師付き学習を示した。 2つのタスク(蛍光予測と安定性予測)は、フィットネスのランドスケープを学ぶことです。 本稿では,教師付き学習のみを用いて学習したcnnモデルが,大規模タンパク質データセット上で高価な事前学習を利用するテープの最良のモデルと競合し,時として勝っていることを示す。 これらのCNNモデルは十分にシンプルで小さく、Google Colabノートブックを使ってトレーニングすることができる。 また、線形回帰が我々のモデルとTAPEモデルより優れる蛍光タスクについても調べる。 TAPEが提案するベンチマークタスクは、モデルがタンパク質機能を予測する能力の優れた測定方法であり、今後使用されるべきである。 しかし,これまでに報告されている半教師付きモデルの性能を考慮に入れるためには,単純なモデルからベースラインを追加することが重要である。

Recently, there has been great interest in learning how to best represent proteins, specifically with fixed-length embeddings. Deep learning has become a popular tool for protein representation learning as a model's hidden layers produce potentially useful vector embeddings. TAPE introduced a number of benchmark tasks and showed that semi-supervised learning, via pretraining language models on a large protein corpus, improved performance on downstream tasks. Two of the tasks (fluorescence prediction and stability prediction) involve learning fitness landscapes. In this paper, we show that CNN models trained solely using supervised learning both compete with and sometimes outperform the best models from TAPE that leverage expensive pretraining on large protein datasets. These CNN models are sufficiently simple and small that they can be trained using a Google Colab notebook. We also find for the fluorescence task that linear regression outperforms our models and the TAPE models. The benchmarking tasks proposed by TAPE are excellent measures of a model's ability to predict protein function and should be used going forward. However, we believe it is important to add baselines from simple models to put the performance of the semi-supervised models that have been reported so far into perspective.
翻訳日:2022-10-01 05:21:27 公開日:2020-10-31
# ラベルなしデータを用いた低温故障診断のための半教師付きデータ駆動法

A Novel Semi-Supervised Data-Driven Method for Chiller Fault Diagnosis with Unlabeled Data ( http://arxiv.org/abs/2011.00187v1 )

ライセンス: Link先を確認
Bingxu Li, Fanyong Cheng, Xin Zhang, Can Cui, Wenjian Cai(参考訳) 実用的な冷媒システムでは、効率的な故障診断技術を適用することで、エネルギー消費を大幅に削減し、建物のエネルギー効率を向上させることができる。 既存のチラーの故障診断手法の成功は、十分なラベル付きデータがトレーニングに利用できるという条件に依存している。 しかし、ラベルの取得は手間がかかり、コストがかかる。 通常、ラベル付きデータの数は限られており、利用可能なデータのほとんどはラベル付きである。 既存の手法ではラベルなしデータに含まれる情報を活用できないため,チラーシステムにおける故障診断性能の向上が著しく制限されている。 本研究では,ラベル付きデータとラベル付きデータの両方を学習プロセスに組み込んだ半世代対向ネットワークをベースとした,ラベル付きデータを用いた半教師付きデータ駆動型故障診断手法を提案する。 半生成型adversarial networkはラベルなしのデータからデータ分布に関する情報を学習することができ、この情報は診断性能を著しく改善するのに役立つ。 実験の結果,提案手法の有効性が示された。 80個のラベル付きサンプルと16000個のラベル付きサンプルしか存在しないというシナリオでは,提案手法は診断精度を84%向上させるが,教師付きベースライン法は最大で65%の精度にしか達しない。 また,ラベルなしサンプルが十分に存在する場合には,提案手法により,必要最小限のラベル付きサンプル数を約60%削減できる。

In practical chiller systems, applying efficient fault diagnosis techniques can significantly reduce energy consumption and improve energy efficiency of buildings. The success of the existing methods for fault diagnosis of chillers relies on the condition that sufficient labeled data are available for training. However, label acquisition is laborious and costly in practice. Usually, the number of labeled data is limited and most data available are unlabeled. The existing methods cannot exploit the information contained in unlabeled data, which significantly limits the improvement of fault diagnosis performance in chiller systems. To make effective use of unlabeled data to further improve fault diagnosis performance and reduce the dependency on labeled data, we proposed a novel semi-supervised data-driven fault diagnosis method for chiller systems based on the semi-generative adversarial network, which incorporates both unlabeled and labeled data into learning process. The semi-generative adversarial network can learn the information of data distribution from unlabeled data and this information can help to significantly improve the diagnostic performance. Experimental results demonstrate the effectiveness of the proposed method. Under the scenario that there are only 80 labeled samples and 16000 unlabeled samples, the proposed method can improve the diagnostic accuracy to 84%, while the supervised baseline methods only reach the accuracy of 65% at most. Besides, the minimal required number of labeled samples can be reduced by about 60% with the proposed method when there are enough unlabeled samples.
翻訳日:2022-10-01 05:21:07 公開日:2020-10-31
# レーザースペックルパターンの低次元埋め込みによる物体表面の高密度画素方向微小運動推定

Dense Pixel-wise Micro-motion Estimation of Object Surface by using Low Dimensional Embedding of Laser Speckle Pattern ( http://arxiv.org/abs/2011.00174v1 )

ライセンス: Link先を確認
Ryusuke Sagawa, Yusuke Higuchi, Hiroshi Kawasaki, Ryo Furukawa, Takahiro Ito(参考訳) 本稿では,カメラと照明の共通設定下で検出するには小さすぎる各画素における物体の微小運動を推定する方法を提案する。 動作を視覚的に検出できるようにするアクティブライティング手法を導入する。 アプローチは、物体表面におけるレーザー光の相互干渉によって生成されるスペックルパターンに基づいており、表面の面外運動に応じてその外観を連続的に変化させる。 さらに、スペックルパターンは大きな動きとは無関係になる。 このような微動と大動を補償するために、スペックルパターンを低次元空間に非線形に埋め込むことにより、各画素での運動パラメータを推定する。 移動パラメータを画像全体で空間的に整合させることにより、外面運動を算出する。 実験では,提案手法を他の測定装置と比較し,本手法の有効性を検証した。

This paper proposes a method of estimating micro-motion of an object at each pixel that is too small to detect under a common setup of camera and illumination. The method introduces an active-lighting approach to make the motion visually detectable. The approach is based on speckle pattern, which is produced by the mutual interference of laser light on object's surface and continuously changes its appearance according to the out-of-plane motion of the surface. In addition, speckle pattern becomes uncorrelated with large motion. To compensate such micro- and large motion, the method estimates the motion parameters up to scale at each pixel by nonlinear embedding of the speckle pattern into low-dimensional space. The out-of-plane motion is calculated by making the motion parameters spatially consistent across the image. In the experiments, the proposed method is compared with other measuring devices to prove the effectiveness of the method.
翻訳日:2022-10-01 05:15:29 公開日:2020-10-31
# 新生児呼吸状態の超音波診断における深層学習

Deep learning in the ultrasound evaluation of neonatal respiratory status ( http://arxiv.org/abs/2011.00337v1 )

ライセンス: Link先を確認
Michela Gravina, Diego Gragnaniello, Luisa Verdoliva, Giovanni Poggi, Iuri Corsini, Carlo Dani, Fabio Meneghin, Gianluca Lista, Salvatore Aversa, Francesco Raimondi, Fiorella Migliaro, Carlo Sansone(参考訳) 肺超音波画像が科学界から関心を集めている。 ひとつは、その無害感と高説明力により、新生児集中治療ユニットの早期新生児の診断やフォローアップといった、敏感な応用に、この種の診断画像が広く採用されていることだ。 一方、最先端の画像分析とパターン認識のアプローチは、最近これらのデータに含まれる豊富な情報を完全に活用できることを証明し、研究コミュニティにとって魅力的なものとなった。 本稿では,近年の深層学習ネットワークの徹底的な分析と,87名の異なる疾患患者と妊娠年齢の多施設データセット上でのトレーニング戦略について述べる。 これらのアプローチは、超音波画像から肺呼吸状態を評価するために用いられ、基準マーカーに対して評価される。 分析の結果,トレーニング手順を誤解させる重要な点を示し,特定のデータやタスクへの適応を提案することで,この問題に光を当てることができた。 得られた成果は, テクスチャ的特徴に基づく先行研究で得られた結果よりも良好に優れており, 人間の専門家が予測した視力との差を狭めている。

Lung ultrasound imaging is reaching growing interest from the scientific community. On one side, thanks to its harmlessness and high descriptive power, this kind of diagnostic imaging has been largely adopted in sensitive applications, like the diagnosis and follow-up of preterm newborns in neonatal intensive care units. On the other side, state-of-the-art image analysis and pattern recognition approaches have recently proven their ability to fully exploit the rich information contained in these data, making them attractive for the research community. In this work, we present a thorough analysis of recent deep learning networks and training strategies carried out on a vast and challenging multicenter dataset comprising 87 patients with different diseases and gestational ages. These approaches are employed to assess the lung respiratory status from ultrasound images and are evaluated against a reference marker. The conducted analysis sheds some light on this problem by showing the critical points that can mislead the training procedure and proposes some adaptations to the specific data and task. The achieved results sensibly outperform those obtained by a previous work, which is based on textural features, and narrow the gap with the visual score predicted by the human experts.
翻訳日:2022-10-01 05:14:28 公開日:2020-10-31
# 特異物体と対称物体のポス推定

Pose Estimation of Specular and Symmetrical Objects ( http://arxiv.org/abs/2011.00372v1 )

ライセンス: Link先を確認
Jiaming Hu, Hongyi Ling, Priyam Parashar, Aayush Naik and Henrik Christensen(参考訳) ロボット産業では、眼鏡とテクスチャレスの金属部品がユビキタスである。 単眼のrgbカメラのみを有する物体の6次元ポーズ推定は,テクスチャの豊富な特徴がないため困難である。 さらに、スペキュラリティの出現は、カメラの視点と、テンプレートマッチングのような従来の手法が失敗する環境光条件に大きく依存する。 過去30年間、鏡面物体のポーズ推定は一貫した課題であり、最も関連する研究は、光のセットアップ、環境、あるいは物体表面に対する膨大な知識モデリングの努力を必要とする。 一方、近年の研究では、畳み込みニューラルネットワーク(CNN)を持つ単眼カメラで6次元ポーズ推定が可能であるが、そのほとんどは不透明物体を用いて評価されている。 本稿では,鏡面物体の6次元姿勢を推定するデータ駆動解を提案し,対称性を扱うためのコスト関数を提案し,システムの実現可能性を示す実験結果を示す。

In the robotic industry, specular and textureless metallic components are ubiquitous. The 6D pose estimation of such objects with only a monocular RGB camera is difficult because of the absence of rich texture features. Furthermore, the appearance of specularity heavily depends on the camera viewpoint and environmental light conditions making traditional methods, like template matching, fail. In the last 30 years, pose estimation of the specular object has been a consistent challenge, and most related works require massive knowledge modeling effort for light setups, environment, or the object surface. On the other hand, recent works exhibit the feasibility of 6D pose estimation on a monocular camera with convolutional neural networks(CNNs) however they mostly use opaque objects for evaluation. This paper provides a data-driven solution to estimate the 6D pose of specular objects for grasping them, proposes a cost function for handling symmetry, and demonstrates experimental results showing the system's feasibility.
翻訳日:2022-10-01 05:14:07 公開日:2020-10-31
# マルチResUnetニューラルネットワークを用いた赤外乳房画像の分割

Segmentation of Infrared Breast Images Using MultiResUnet Neural Network ( http://arxiv.org/abs/2011.00376v1 )

ライセンス: Link先を確認
Ange Lou, Shuyue Guan, Nada Kamona, Murray Loew(参考訳) 乳がんの早期発見は、乳がん患者の生存率を高める鍵となる。 乳がん検診における非侵襲的乳房造影剤として赤外線サーモグラフィーを検討中である。 赤外線イメージングは無放射線、無痛、非接触である。 取得したフルサイズの胸部ir画像からの乳房領域の自動分割は、腫瘍検索の領域を制限し、手作業によるセグメント化の時間と労力を削減できる。 自己エンコーダ様畳み込み畳み込みニューラルネットワーク(C-DCNN)を用いて、以前の研究で乳房領域を自動的にIR画像に分割した。 本研究では,特徴をキャプチャするエンコーダ部と正確な位置推定のためのデコーダ部からなる,最先端のディープラーニングセグメンテーションモデルmultiresunetを適用した。 乳がん患者と健常者のサーマル赤外線カメラ(n2 imager)を用いたパイロット研究で収集した胸部赤外線画像を用いて乳房領域を分割した。 データベースには14人の患者と16人のボランティアから得られた450枚の画像があります。 しきい値法を用いて原画像の干渉を除去し、元の16ビットから8ビットに再マップし、8ビット画像を手作業で切り抜いた。 タニモト類似度を用いて,LOOCV(Left-one-out Cross-validation)を用いた実験を行った結果,MultiResUnetの平均精度は91.47%であり,オートエンコーダよりも約2%高いことがわかった。 MultiResUnetは、我々の以前のモデルよりも、乳房のIR画像を分割するためのより良いアプローチを提供する。

Breast cancer is the second leading cause of death for women in the U.S. Early detection of breast cancer is key to higher survival rates of breast cancer patients. We are investigating infrared (IR) thermography as a noninvasive adjunct to mammography for breast cancer screening. IR imaging is radiation-free, pain-free, and non-contact. Automatic segmentation of the breast area from the acquired full-size breast IR images will help limit the area for tumor search, as well as reduce the time and effort costs of manual segmentation. Autoencoder-like convolutional and deconvolutional neural networks (C-DCNN) had been applied to automatically segment the breast area in IR images in previous studies. In this study, we applied a state-of-the-art deep-learning segmentation model, MultiResUnet, which consists of an encoder part to capture features and a decoder part for precise localization. It was used to segment the breast area by using a set of breast IR images, collected in our pilot study by imaging breast cancer patients and normal volunteers with a thermal infrared camera (N2 Imager). The database we used has 450 images, acquired from 14 patients and 16 volunteers. We used a thresholding method to remove interference in the raw images and remapped them from the original 16-bit to 8-bit, and then cropped and segmented the 8-bit images manually. Experiments using leave-one-out cross-validation (LOOCV) and comparison with the ground-truth images by using Tanimoto similarity show that the average accuracy of MultiResUnet is 91.47%, which is about 2% higher than that of the autoencoder. MultiResUnet offers a better approach to segment breast IR images than our previous model.
翻訳日:2022-10-01 05:13:54 公開日:2020-10-31
# 民営化データを用いた強い一貫した非パラメトリック回帰と分類

Strongly universally consistent nonparametric regression and classification with privatised data ( http://arxiv.org/abs/2011.00216v1 )

ライセンス: Link先を確認
Thomas Berrett, L\'aszl\'o Gy\"orfi, Harro Walk(参考訳) 本稿では,非パラメトリック回帰の古典的な問題を再検討するが,局所微分プライバシー制約を課す。 このような制約の下では、$\mathbb{r}^d \times \mathbb{r}$ の値を取る生データ $(x_1,y_1),\ldots,(x_n,y_n)$ を直接観測することはできず、全ての推定値は適切なプライバシーメカニズムからランダム化された出力の関数である。 統計学者は、プライバシーメカニズムの形式を自由に選択でき、ここでは、特徴ベクトル$X_i$の位置と応答変数$Y_i$の値の離散化にLaplace分散ノイズを追加します。 このランダム化データに基づいて回帰関数の新しい推定器を設計し、よく研究された分割回帰推定器の民営化版とみなすことができる。 主な結果は、推定元が強普遍的に一貫したことである。 我々の手法と分析は、局所的に微分プライベートなデータに対して、強く一貫した二項分類規則をもたらす。

In this paper we revisit the classical problem of nonparametric regression, but impose local differential privacy constraints. Under such constraints, the raw data $(X_1,Y_1),\ldots,(X_n,Y_n)$, taking values in $\mathbb{R}^d \times \mathbb{R}$, cannot be directly observed, and all estimators are functions of the randomised output from a suitable privacy mechanism. The statistician is free to choose the form of the privacy mechanism, and here we add Laplace distributed noise to a discretisation of the location of a feature vector $X_i$ and to the value of its response variable $Y_i$. Based on this randomised data, we design a novel estimator of the regression function, which can be viewed as a privatised version of the well-studied partitioning regression estimator. The main result is that the estimator is strongly universally consistent. Our methods and analysis also give rise to a strongly universally consistent binary classification rule for locally differentially private data.
翻訳日:2022-10-01 05:13:26 公開日:2020-10-31
# 進化的ニューラルアーキテクチャ探索のための自己教師付き表現学習

Self-supervised Representation Learning for Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2011.00186v1 )

ライセンス: Link先を確認
Chen Wei, Yiping Tang, Chuang Niu, Haihong Hu, Yue Wang and Jimin Liang(参考訳) 最近提案されたneural architecture search (nas)アルゴリズムは、アーキテクチャ検索を高速化するためにneural predictorを採用している。 ニューラルネットワークのパフォーマンス指標を正確に予測する神経予測器の能力はNASにとって重要であり、神経予測器のためのトレーニングデータセットの取得には時間がかかる。 少量のトレーニングデータを用いて予測精度の高い神経予測器を得る方法は、神経予測器に基づくNASの中心的な問題である。 本稿では,ニューラルネットワークのグラフ編集距離を計算するために,既存のベクトルベースアーキテクチャ符号化方式の欠点を克服する新しいアーキテクチャ符号化方式を設計する。 ニューラル予測器の予測性能を向上させるために,異なる視点から2つの自己教師付き学習手法を考案し,ニューラル予測器のアーキテクチャ埋め込み部分を事前学習し,ニューラルネットワークの有意義な表現を生成する。 まず、慎重に設計された2つの分岐グラフニューラルネットワークモデルをトレーニングして、2つの入力ニューラルネットワークアーキテクチャのグラフ編集距離を予測する。 第2の方法は,一般的なコントラスト学習に触発され,中央特徴ベクトルを指標として負のペアと正のペアを対比する新しいコントラスト学習アルゴリズムを提案する。 実験結果から、事前学習された神経予測器は、数倍のトレーニングサンプルを持つ教師付き予測器と比較して、同等または優れた性能を達成できることが示された。 NASBench-101とNASBench201のベンチマークで、事前学習したニューラル予測器と進化的NASアルゴリズムを統合する際に、最先端の性能を実現する。

Recently proposed neural architecture search (NAS) algorithms adopt neural predictors to accelerate the architecture search. The capability of neural predictors to accurately predict the performance metrics of neural architecture is critical to NAS, and the acquisition of training datasets for neural predictors is time-consuming. How to obtain a neural predictor with high prediction accuracy using a small amount of training data is a central problem to neural predictor-based NAS. Here, we firstly design a new architecture encoding scheme that overcomes the drawbacks of existing vector-based architecture encoding schemes to calculate the graph edit distance of neural architectures. To enhance the predictive performance of neural predictors, we devise two self-supervised learning methods from different perspectives to pre-train the architecture embedding part of neural predictors to generate a meaningful representation of neural architectures. The first one is to train a carefully designed two branch graph neural network model to predict the graph edit distance of two input neural architectures. The second method is inspired by the prevalently contrastive learning, and we present a new contrastive learning algorithm that utilizes a central feature vector as a proxy to contrast positive pairs against negative pairs. Experimental results illustrate that the pre-trained neural predictors can achieve comparable or superior performance compared with their supervised counterparts with several times less training samples. We achieve state-of-the-art performance on the NASBench-101 and NASBench201 benchmarks when integrating the pre-trained neural predictors with an evolutionary NAS algorithm.
翻訳日:2022-10-01 05:06:27 公開日:2020-10-31
# 拡張バランシングGAN: マイノリティクラスの画像生成

Enhanced Balancing GAN: Minority-class Image Generation ( http://arxiv.org/abs/2011.00189v1 )

ライセンス: Link先を確認
Gaofeng Huang and Amir H. Jafari(参考訳) generative adversarial networks (gans)は最も強力な生成モデルの一つであるが、トレーニングには常に大きなバランスのとれたデータセットが必要である。 従来のGANは、高度に不均衡なデータセットで少数クラスの画像を生成するには適用できない。 この問題を軽減するため、BAGAN(Bavalancing GAN)が提案されているが、花や細胞など、異なるクラスの画像が似ていると不安定である。 本研究では,ラベル付き潜在ベクトルを分散する中間埋め込みモデルを持つ教師付きオートエンコーダを提案する。 オートエンコーダの初期化を改良し、勾配ペナルティ(BAGAN-GP)を持つBAGANのアーキテクチャを構築する。 提案モデルは,バガンの不安定な問題を克服し,高品質な世代に高速に収束する。 mnist fashion, cifar-10, および小型医用画像データセットの非平衡スケールダウン版において, 高い性能を実現する。

Generative adversarial networks (GANs) are one of the most powerful generative models, but always require a large and balanced dataset to train. Traditional GANs are not applicable to generate minority-class images in a highly imbalanced dataset. Balancing GAN (BAGAN) is proposed to mitigate this problem, but it is unstable when images in different classes look similar, e.g. flowers and cells. In this work, we propose a supervised autoencoder with an intermediate embedding model to disperse the labeled latent vectors. With the improved autoencoder initialization, we also build an architecture of BAGAN with gradient penalty (BAGAN-GP). Our proposed model overcomes the unstable issue in original BAGAN and converges faster to high quality generations. Our model achieves high performance on the imbalanced scale-down version of MNIST Fashion, CIFAR-10, and one small-scale medical image dataset.
翻訳日:2022-10-01 05:06:02 公開日:2020-10-31
# 被占領者の3次元姿勢推定と位置推定のための時間的平滑化

Temporal Smoothing for 3D Human Pose Estimation and Localization for Occluded People ( http://arxiv.org/abs/2011.00250v1 )

ライセンス: Link先を確認
Marton Veges, Andras Lorincz(参考訳) マルチパーソンのポーズ推定では、アクターは無視され、他の人の後ろで完全に見えなくなる。 時間的手法は、過去と将来のフレームを使って一時的に消滅したポーズの妥当な推定を予測できるが、それでも大きなエラーを示す。 本稿では,スムーズで有効な軌道を生成するためのエネルギー最小化手法を提案する。 他の補間ベースのアプローチよりも優れており、最先端の成果が得られることを示す。 さらに,MuCo-3DHPデータセットの時間拡張である合成MuCo-Tempデータセットを提案する。 私たちのコードは公開されています。

In multi-person pose estimation actors can be heavily occluded, even become fully invisible behind another person. While temporal methods can still predict a reasonable estimation for a temporarily disappeared pose using past and future frames, they exhibit large errors nevertheless. We present an energy minimization approach to generate smooth, valid trajectories in time, bridging gaps in visibility. We show that it is better than other interpolation based approaches and achieves state of the art results. In addition, we present the synthetic MuCo-Temp dataset, a temporal extension of the MuCo-3DHP dataset. Our code is made publicly available.
翻訳日:2022-10-01 05:05:48 公開日:2020-10-31
# ProxylessKD:顔認識のための継承分類器による直接知識蒸留

ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for Face Recognition ( http://arxiv.org/abs/2011.00265v1 )

ライセンス: Link先を確認
Weidong Shi, Guanghui Ren, Yunpeng Chen, Shuicheng Yan(参考訳) 知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことであり、機械学習におけるモデル性能を高めるために広く使われている。 教師と生徒モデルから生成された埋め込み空間(すなわち、同じ意味論に対応するイメージを異なるモデル間で同じ埋め込みを共有する)を整列させようとする。 本研究では,顔認識におけるその応用に焦点を当てる。 既存の知識蒸留モデルでは, 顔の認識精度を直接最適化するのではなく, 生徒に教師の行動を模倣させるプロキシタスクを最適化する。 したがって、得られた学生モデルは、対象タスクにおいて最適である、あるいは大きなマージン制約(例えばマージンベースソフトマックス)のような高度な制約の恩恵を受けることができない。 次に,教師の分類器を学生の分類器として継承し,教師の埋め込み空間における識別的埋め込みの学習を促すことによって,顔認識の精度を直接最適化するProxylessKDを提案する。 提案されたProxylessKDは実装が非常に簡単で、顔認識以外のタスクにも拡張できるほど汎用的である。 我々は,標準顔認識ベンチマークに関する広範囲な実験を行い,proxylesskdが既存の知識蒸留法よりも優れた性能を達成できることを実証した。

Knowledge Distillation (KD) refers to transferring knowledge from a large model to a smaller one, which is widely used to enhance model performance in machine learning. It tries to align embedding spaces generated from the teacher and the student model (i.e. to make images corresponding to the same semantics share the same embedding across different models). In this work, we focus on its application in face recognition. We observe that existing knowledge distillation models optimize the proxy tasks that force the student to mimic the teacher's behavior, instead of directly optimizing the face recognition accuracy. Consequently, the obtained student models are not guaranteed to be optimal on the target task or able to benefit from advanced constraints, such as large margin constraints (e.g. margin-based softmax). We then propose a novel method named ProxylessKD that directly optimizes face recognition accuracy by inheriting the teacher's classifier as the student's classifier to guide the student to learn discriminative embeddings in the teacher's embedding space. The proposed ProxylessKD is very easy to implement and sufficiently generic to be extended to other tasks beyond face recognition. We conduct extensive experiments on standard face recognition benchmarks, and the results demonstrate that ProxylessKD achieves superior performance over existing knowledge distillation methods.
翻訳日:2022-10-01 05:05:37 公開日:2020-10-31
# リアルタイムテキスト検出と認識

Real-Time Text Detection and Recognition ( http://arxiv.org/abs/2011.00380v1 )

ライセンス: Link先を確認
Shuonan Pei, Mingzhi Zhu(参考訳) 畳み込みニューロネットワーク(convolutionalneuralnet-work, cnn)は,様々な分野に適用可能な強力で知的な技術であり,リアルタイムテキスト検出タスクにアルゴリズムを使用する技術である。 しかし、測光歪みや幾何歪みといった問題はシステムYOLOの精度に影響を与え、システム障害を引き起こす可能性がある。 したがって、システムをより良くするための改善がある。 本稿では,高速かつ高精度なテキスト方向認識システムの実現の可能性について述べる。 本稿は,3つの主要な領域におけるリアルタイムテキスト検出と認識について述べる。 1.ビデオと画像前処理 2.テキスト検出 3. テキスト認識。 アサ成熟技術は、ソリューションを潜在的に改善する多くの方法が存在する。 文献レビューセッションでは、既存の方法をいくつか紹介します。 そこで本稿では,産業的な強み,高精度,リアルタイムテキスト検出・認識ツールを提案する。

Inrecentyears,ConvolutionalNeuralNet-work(CNN) is quite a popular topic, as it is a powerful andintelligent technique that can be applied in various fields.The YOLO is a technique that uses the algorithms for real-time text detection tasks. However, issues like, photometricdistortion and geometric distortion, could affect the systemYOLO accuracy and cause system failure. Therefore, thereare improvements that can make the system work better. Inthis paper, we are going to present our solution - a potentialsolution of a fast and accurate real-time text direction andrecognition system. The paper covers the topic of Real-TimeText detection and recognition in three major areas: 1. videoand image preprocess, 2. Text detection, 3. Text recognition. Asa mature technique, there are many existing methods that canpotentially improve the solution. We will go through some ofthose existing methods in the literature review session. In thisway, we are presenting an industrial strength, high-accuracy,Real-Time Text Detection and recognition tool.
翻訳日:2022-10-01 05:04:26 公開日:2020-10-31
# voxceleb speaker recognition challenge 2020のためのxx205システム

The xx205 System for the VoxCeleb Speaker Recognition Challenge 2020 ( http://arxiv.org/abs/2011.00200v1 )

ライセンス: Link先を確認
Xu Xiang(参考訳) 本報告では、voxceleb speaker recognition challenge (voxsrc) 2020の第1および第2トラックに提出されたシステムについて述べる。 システムパイプラインの3つの重要な点は,(1) ResNet, Res2Net, 2重経路ネットワーク(DPN)を含む複数のCNNアーキテクチャを探索してxベクトルを抽出すること,(2)複合角縁ソフトマックス損失を用いて話者モデルを訓練すること,(3)スコア正規化とシステム融合を適用して性能を向上することである。 VoxSRC-20 Evalセットで測定され、最も優れた提出されたシステムは、EERが$3.808\%、MinDCFが$0. 1958$、EERが$3.798\%、MinDCFが$0.1942$となる。

This report describes the systems submitted to the first and second tracks of the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020, which ranked second in both tracks. Three key points of the system pipeline are explored: (1) investigating multiple CNN architectures including ResNet, Res2Net and dual path network (DPN) to extract the x-vectors, (2) using a composite angular margin softmax loss to train the speaker models, and (3) applying score normalization and system fusion to boost the performance. Measured on the VoxSRC-20 Eval set, the best submitted systems achieve an EER of $3.808\%$ and a MinDCF of $0.1958$ in the close-condition track 1, and an EER of $3.798\%$ and a MinDCF of $0.1942$ in the open-condition track 2, respectively.
翻訳日:2022-10-01 05:04:01 公開日:2020-10-31
# 低資源環境における法的ドメインに対する感情指示器開発への効果的なアプローチ

Effective Approach to Develop a Sentiment Annotator For Legal Domain in a Low Resource Setting ( http://arxiv.org/abs/2011.00318v1 )

ライセンス: Link先を確認
Gathika Ratnayaka, Nisansa de Silva, Amal Shehan Perera, Ramesh Pathirana(参考訳) 法的意見テキストで利用可能な法的意見の感情分析は、法的判断予測、矛盾する声明の識別、政党に基づく感情分析など、いくつかのユースケースを促進することができる。 しかし、ドメイン固有のラベル付きデータやドメインの専門知識の欠如といったリソース制約のため、法的ドメイン固有の感情アノテータを開発するという課題は困難である。 本研究では,データの手動アノテーションの必要性を最小限に抑えつつ,法的ドメインに対する感情アノテータの開発に使用できる新しい手法を提案する。

Analyzing the sentiments of legal opinions available in Legal Opinion Texts can facilitate several use cases such as legal judgement prediction, contradictory statements identification and party-based sentiment analysis. However, the task of developing a legal domain specific sentiment annotator is challenging due to resource constraints such as lack of domain specific labelled data and domain expertise. In this study, we propose novel techniques that can be used to develop a sentiment annotator for the legal domain while minimizing the need for manual annotations of data.
翻訳日:2022-10-01 04:57:43 公開日:2020-10-31
# 戦いを選ぶか、舌を噛むか : 慣用的言語使用における性差の検討

Pick a Fight or Bite your Tongue: Investigation of Gender Differences in Idiomatic Language Usage ( http://arxiv.org/abs/2011.00335v1 )

ライセンス: Link先を確認
Ella Rabinovich, Hila Gonen and Suzanne Stevenson(参考訳) ジェンダー関連言語に関する多くの研究が、その社会学的基盤とともに、語彙的、感情的、トピック的嗜好の男女間差異に関する基礎を確立している。 講演者の性別に注釈を付けた,新たな,大規模かつ多種多様な言語生成コーパスを編纂し,男性と女性の間での「textit{figurative language"」の使用における識別の大規模実験を行った。 Our analyses suggest that (1) idiomatic choices reflect gender-specific lexical and semantic preferences in general language, (2) men's and women's idiomatic usages express higher emotion than their literal language, with detectable, albeit more subtle, differences between male and female authors along the dimension of dominance compared to similar distinctions in their literal utterances, and (3) contextual analysis of idiomatic expressions reveals considerable differences, reflecting subtle divergences in usage environments, shaped by cross-gender communication styles and semantic biases.

A large body of research on gender-linked language has established foundations regarding cross-gender differences in lexical, emotional, and topical preferences, along with their sociological underpinnings. We compile a novel, large and diverse corpus of spontaneous linguistic productions annotated with speakers' gender, and perform a first large-scale empirical study of distinctions in the usage of \textit{figurative language} between male and female authors. Our analyses suggest that (1) idiomatic choices reflect gender-specific lexical and semantic preferences in general language, (2) men's and women's idiomatic usages express higher emotion than their literal language, with detectable, albeit more subtle, differences between male and female authors along the dimension of dominance compared to similar distinctions in their literal utterances, and (3) contextual analysis of idiomatic expressions reveals considerable differences, reflecting subtle divergences in usage environments, shaped by cross-gender communication styles and semantic biases.
翻訳日:2022-10-01 04:57:36 公開日:2020-10-31
# ディープニューラルネットワークを用いたアラビア語感情認識

Efficient Arabic emotion recognition using deep neural networks ( http://arxiv.org/abs/2011.00346v1 )

ライセンス: Link先を確認
Ahmed Ali, Yasser Hifny(参考訳) 深層学習に基づく音声信号からの感情認識は活発な研究領域である。 畳み込みニューラルネットワーク(CNN)がこの領域で支配的な手法である可能性がある。 本稿では,この問題に対処する2つのニューラルアーキテクチャを実装する。 最初のアーキテクチャは注意に基づくCNN-LSTM-DNNモデルである。 本アーキテクチャでは,畳み込み層が有意な特徴を抽出し,双方向長短記憶層(blstm)が音声信号の逐次現象を処理する。 注意層は、完全に連結された高密度層(DNN)に供給される要約ベクトルを抽出し、最終的にソフトマックス出力層に接続する。 第2のアーキテクチャは、ディープCNNモデルに基づいている。 アラビア語の音声感情認識タスクの結果、我々の革新的アプローチは、強力な深層cnnベースラインシステムに対する大幅な改善(2.2%の絶対的改善)につながることが示された。 一方、深層CNNモデルは、トレーニングや分類において注意に基づくCNN-LSTM-DNNモデルよりもはるかに高速である。

Emotion recognition from speech signal based on deep learning is an active research area. Convolutional neural networks (CNNs) may be the dominant method in this area. In this paper, we implement two neural architectures to address this problem. The first architecture is an attention-based CNN-LSTM-DNN model. In this novel architecture, the convolutional layers extract salient features and the bi-directional long short-term memory (BLSTM) layers handle the sequential phenomena of the speech signal. This is followed by an attention layer, which extracts a summary vector that is fed to the fully connected dense layer (DNN), which finally connects to a softmax output layer. The second architecture is based on a deep CNN model. The results on an Arabic speech emotion recognition task show that our innovative approach can lead to significant improvements (2.2% absolute improvements) over a strong deep CNN baseline system. On the other hand, the deep CNN models are significantly faster than the attention based CNN-LSTM-DNN models in training and classification.
翻訳日:2022-10-01 04:57:20 公開日:2020-10-31
# オープンドメイン手続きテキストにおけるエンティティ追跡のためのデータセット

A Dataset for Tracking Entities in Open Domain Procedural Text ( http://arxiv.org/abs/2011.08092v1 )

ライセンス: Link先を確認
Niket Tandon, Keisuke Sakaguchi, Bhavana Dalvi Mishra, Dheeraj Rajagopal, Peter Clark, Michal Guerquin, Kyle Richardson, Eduard Hovy(参考訳) 本稿では,制約のない(オープン)語彙を用いて,任意の領域からの手続きテキストの状態変化を追跡するための最初のデータセットを提案する。 例えば、ジャガイモを使った霧除去を記述したテキストでは、車の窓は霧、粘着性、透明、透明と遷移することがある。 このタスクの以前の定式化は、関連するテキストとエンティティを提供し、それらのエンティティが、小さな事前定義された属性セット(例えば、場所)に対してどのように変化するか尋ねる。 私たちのソリューションは、プロシージャテキストのみを入力として、エンティティ、属性、状態値がオープン語彙から予測されなければならない各ステップに対して、状態変更タプル(entity, at-tribute, before-state, after-state)のセットを生成するという、新しいタスク定式化です。 クラウドソーシングを用いて、高品質なOPENPI1(人間によって判断され、完全に審査された91.5%)と、WikiHow.comの810の手続き的実世界の段落から4,050の文を含む29,928のステートチェンジからなる大規模なデータセットを作成する。 このタスクの現在の最先端生成モデルは、BLEUメトリックに基づいて16.1%のF1を達成する。

We present the first dataset for tracking state changes in procedural text from arbitrary domains by using an unrestricted (open) vocabulary. For example, in a text describing fog removal using potatoes, a car window may transition between being foggy, sticky,opaque, and clear. Previous formulations of this task provide the text and entities involved,and ask how those entities change for just a small, pre-defined set of attributes (e.g., location), limiting their fidelity. Our solution is a new task formulation where given just a procedural text as input, the task is to generate a set of state change tuples(entity, at-tribute, before-state, after-state)for each step,where the entity, attribute, and state values must be predicted from an open vocabulary. Using crowdsourcing, we create OPENPI1, a high-quality (91.5% coverage as judged by humans and completely vetted), and large-scale dataset comprising 29,928 state changes over 4,050 sentences from 810 procedural real-world paragraphs from WikiHow.com. A current state-of-the-art generation model on this task achieves 16.1% F1 based on BLEU metric, leaving enough room for novel model architectures.
翻訳日:2022-10-01 04:57:07 公開日:2020-10-31
# LRA:特徴選択のための属性の局所冗長性に基づく高速化された粗集合フレームワーク

LRA: an accelerated rough set framework based on local redundancy of attribute for feature selection ( http://arxiv.org/abs/2011.00215v1 )

ライセンス: Link先を確認
Shuyin Xia, Wenhua Li, Guoyin Wang, Xinbo Gao, Changqing Zhang, Elisabeth Giem(参考訳) 本稿では, 決定システムにおける属性の安定性に関する定理を提案し, 証明する。 この定理に基づき、粗集合アルゴリズムの高速化のためのLRAフレームワークを提案する。 これは、ほとんどすべての粗い集合メソッドに著しく適用できる汎用フレームワークである。 理論的解析は高い効率を保証する。 効率性の向上は、分類精度の低下につながらないことに注意。 さらに、正近似加速度フレームワークのより簡単な証明を提供する。

In this paper, we propose and prove the theorem regarding the stability of attributes in a decision system. Based on the theorem, we propose the LRA framework for accelerating rough set algorithms. It is a general-purpose framework which can be applied to almost all rough set methods significantly . Theoretical analysis guarantees high efficiency. Note that the enhancement of efficiency will not lead to any decrease of the classification accuracy. Besides, we provide a simpler prove for the positive approximation acceleration framework.
翻訳日:2022-10-01 04:56:42 公開日:2020-10-31
# 計算機と知識

Computing Machinery and Knowledge ( http://arxiv.org/abs/2012.06686v1 )

ライセンス: Link先を確認
Raymond Anneborg(参考訳) 本研究の目的は,コンピュータ機械(AIエージェント)が知識を知り,保持する可能性について議論することである。 これは主に美徳認識論の視点と知識の定義から行われる。 しかし、この調査はまた、人間の状態、それが人間の知る意味、知識を持つことにも光を当てた。 論文は、AIエージェントが、AIにおける現在の最先端技術と、AI開発が超知能AIエージェントの観点でもたらすものの両方から、これを知り、検証することが可能である、と論じている。

The purpose of this paper is to discuss the possibilities for computing machinery, or AI agents, to know and to possess knowledge. This is done mainly from a virtue epistemology perspective and definition of knowledge. However, this inquiry also shed light on the human condition, what it means for a human to know, and to possess knowledge. The paper argues that it is possible for an AI agent to know and examines this from both current state-of-the-art in artificial intelligence as well as from the perspective of what the future AI development might bring in terms of superintelligent AI agents.
翻訳日:2022-10-01 04:56:37 公開日:2020-10-31
# Pixel-Level Cycle Association: ドメイン適応セマンティックセマンティックセグメンテーションの新しい展望

Pixel-Level Cycle Association: A New Perspective for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2011.00147v1 )

ライセンス: Link先を確認
Guoliang Kang, Yunchao Wei, Yi Yang, Yueting Zhuang, Alexander G. Hauptmann(参考訳) ドメイン適応セマンティックセグメンテーションは、ドメイン外(ソース)アノテーションのみを使用して、ターゲットに対して満足いくピクセルレベルの予測を実行するモデルをトレーニングすることを目的としている。 この課題に対する従来の解決策は、ソースとターゲットの相違を最小限に抑え、効果的な知識伝達を可能にすることである。 従来のドメインの差分最小化手法は主に敵の訓練に基づいている。 彼らは、ピクセルワイズ関係を無視し、差別的でない領域の区別を世界規模で考える傾向がある。 本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築し,それらの接続を対照的に強化し,ドメインギャップを小さくし,特徴をより識別可能にすることを提案する。 私たちの知る限りでは、これはこのような困難なタスクに取り組むための新しい視点です。 GTAV $\rightarrow$Cityscapes と SynTHIA $\rightarrow$Cityscapes の2つの代表的なドメイン適応ベンチマークを用いて,提案手法の有効性を検証するとともに,提案手法が従来の最先端技術に対して良好に動作することを示す。 この手法はエンドツーエンドでトレーニングでき、追加のパラメータは導入しない。これは一般的なフレームワークとして機能し、ドメイン適応意味セグメンテーションにおける将来の研究を容易にすることが期待されている。 コードはhttps://github.com/kgl-prml/Pixel- Level-Cycle-Associationで公開されている。

Domain adaptive semantic segmentation aims to train a model performing satisfactory pixel-level predictions on the target with only out-of-domain (source) annotations. The conventional solution to this task is to minimize the discrepancy between source and target to enable effective knowledge transfer. Previous domain discrepancy minimization methods are mainly based on the adversarial training. They tend to consider the domain discrepancy globally, which ignore the pixel-wise relationships and are less discriminative. In this paper, we propose to build the pixel-level cycle association between source and target pixel pairs and contrastively strengthen their connections to diminish the domain gap and make the features more discriminative. To the best of our knowledge, this is a new perspective for tackling such a challenging task. Experiment results on two representative domain adaptation benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes, verify the effectiveness of our proposed method and demonstrate that our method performs favorably against previous state-of-the-arts. Our method can be trained end-to-end in one stage and introduces no additional parameters, which is expected to serve as a general framework and help ease future research in domain adaptive semantic segmentation. Code is available at https://github.com/kgl-prml/Pixel- Level-Cycle-Association.
翻訳日:2022-10-01 04:56:28 公開日:2020-10-31
# 深部皮膚病変セグメンテーションのための畳み込みニューラルネットワークにおける適応色増強の活用

Leveraging Adaptive Color Augmentation in Convolutional Neural Networks for Deep Skin Lesion Segmentation ( http://arxiv.org/abs/2011.00148v1 )

ライセンス: Link先を確認
Anindo Saha, Prem Prasad, Abdullah Thabit(参考訳) 皮膚内視鏡像における皮膚病変の完全自動検出は悪性黒色腫および非メラノーマ皮膚癌の早期診断と抑制を促進する。 畳み込みニューラルネットワークは強力な解であるが、色が重要な識別的特徴である注視皮膚内視鏡検査画像の照度スペクトルによって制限されている。 本稿では,合成データの使用リスクを最小限に抑えるため,色差と彩度を規制しながら,データ表現とモデル性能を向上する適応色増強手法を提案する。 ネットワークによって得られた皮膚病変と正常皮膚組織を識別する意味的構造的特徴を定量的に同定し,検証する。 システム全体のサイコロ比は0.891で0.943の感度と0.932の特異性をisic 2018のセグメンテーションテストセットで達成している。

Fully automatic detection of skin lesions in dermatoscopic images can facilitate early diagnosis and repression of malignant melanoma and non-melanoma skin cancer. Although convolutional neural networks are a powerful solution, they are limited by the illumination spectrum of annotated dermatoscopic screening images, where color is an important discriminative feature. In this paper, we propose an adaptive color augmentation technique to amplify data expression and model performance, while regulating color difference and saturation to minimize the risks of using synthetic data. Through deep visualization, we qualitatively identify and verify the semantic structural features learned by the network for discriminating skin lesions against normal skin tissue. The overall system achieves a Dice Ratio of 0.891 with 0.943 sensitivity and 0.932 specificity on the ISIC 2018 Testing Set for segmentation.
翻訳日:2022-10-01 04:56:05 公開日:2020-10-31
# Aggregated Multi-Resolution Deep Segmentation Features を用いた胸部CTの3次元分類

Weakly Supervised 3D Classification of Chest CT using Aggregated Multi-Resolution Deep Segmentation Features ( http://arxiv.org/abs/2011.00149v1 )

ライセンス: Link先を確認
Anindo Saha, Fakrul I. Tushar, Khrystyna Faryna, Vincent M. D'Anniballe, Rui Hou, Maciej A. Mazurowski, Geoffrey D. Rubin, Joseph Y. Lo(参考訳) CT画像の病気分類の弱さは、ケースレベルのアノテーションによるローカライゼーションの低下に悩まされており、正のスキャンでさえ、複数の平面に沿って数百から数千の負のスライスを保持することができる。 さらに、ディープラーニングのセグメンテーションと分類モデルは、同じターゲットクラス(es)から解剖学的特徴の明確な組み合わせを抽出するが、それらは通常、コンピュータ支援診断(CAD)パイプラインにおいて2つの独立したプロセスと見なされる。 本研究では,マルチ解像度セグメンテーション特徴マップから得られた意味的構造概念を活用し,胸部ctボリュームの弱い教師付き3次元分類を導く医用分類器を提案する。 さらに、比較分析は、特徴融合を取り巻く広大な可能性を探るため、2つの異なるタイプの特徴集約にまたがる。 ルールベースモデルを用いて,ケースレベルでラベル付けされた1593スキャンのデータセットを用いて,肺の4つの代表的な疾患(気腫,肺炎・気腫,腫瘤,結節)の臓器分節化と二分分類を行うために,二重段階畳み込みニューラルネットワーク(CNN)を訓練した。 セグメンテーションと分類の別々の段階を持つベースラインモデルは、AUCが0.791である。 同一のハイパーパラメータを用いて、静的および動的特徴集約を用いた接続アーキテクチャは、それぞれ0.832と0.851のAUCに性能を向上する。 この研究は2つの重要な方法で分野を前進させる。 まず、ケースレベルの報告データを用いて、臓器の複数の同時疾患の3DCT分類器を弱めに監督する。 第二に、セグメンテーションと分類モデルは2つの異なる特徴集約戦略と関連付けられ、分類性能が向上する。

Weakly supervised disease classification of CT imaging suffers from poor localization owing to case-level annotations, where even a positive scan can hold hundreds to thousands of negative slices along multiple planes. Furthermore, although deep learning segmentation and classification models extract distinctly unique combinations of anatomical features from the same target class(es), they are typically seen as two independent processes in a computer-aided diagnosis (CAD) pipeline, with little to no feature reuse. In this research, we propose a medical classifier that leverages the semantic structural concepts learned via multi-resolution segmentation feature maps, to guide weakly supervised 3D classification of chest CT volumes. Additionally, a comparative analysis is drawn across two different types of feature aggregation to explore the vast possibilities surrounding feature fusion. Using a dataset of 1593 scans labeled on a case-level basis via rule-based model, we train a dual-stage convolutional neural network (CNN) to perform organ segmentation and binary classification of four representative diseases (emphysema, pneumonia/atelectasis, mass and nodules) in lungs. The baseline model, with separate stages for segmentation and classification, results in AUC of 0.791. Using identical hyperparameters, the connected architecture using static and dynamic feature aggregation improves performance to AUC of 0.832 and 0.851, respectively. This study advances the field in two key ways. First, case-level report data is used to weakly supervise a 3D CT classifier of multiple, simultaneous diseases for an organ. Second, segmentation and classification models are connected with two different feature aggregation strategies to enhance the classification performance.
翻訳日:2022-10-01 04:55:53 公開日:2020-10-31
# 重度咬合の探索:ゲーテッド・コンボリューションを用いたマルチパーソン3次元電位推定

Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated Convolution ( http://arxiv.org/abs/2011.00184v1 )

ライセンス: Link先を確認
Renshu Gu, Gaoang Wang, Jenq-Neng Hwang(参考訳) 3次元ポーズ推定(HPE)は、人間の行動分析、拡張現実/仮想現実(AR/VR)アプリケーション、自動運転産業など、多くの分野で重要である。 自由に動く単眼カメラから撮影された複数の被写体を含むビデオは、現実のシナリオではよく見られるが、3d hpeは、既存のデータセットに正確な3dグランド真理ラベルがあるようなデータが欠けているため、非常に難しい。 本稿では、2次元関節を3Dに変換し、その間に欠損した関節を復元するゲート畳み込みモジュールを備えた時間回帰ネットワークを提案する。 さらに、正規化されたポーズをグローバルな軌道に変換するために、単純で効果的な局所化アプローチが実施される。 また、本手法の有効性を検証するため、移動カメラによって捉えられた重閉塞者を含む新しい移動カメラマルチヒューマン(MMHuman)データセットも収集した。 3Dグラウンドの真理関節は、正確なモーションキャプチャ(MoCap)システムによって提供される。 スタティックカメラを用いたHuman3.6Mデータと,我々の収集した移動カメラに基づくデータから,提案手法は最先端の2D-to-3Dポーズ推定法よりも優れていることを示す。

3D human pose estimation (HPE) is crucial in many fields, such as human behavior analysis, augmented reality/virtual reality (AR/VR) applications, and self-driving industry. Videos that contain multiple potentially occluded people captured from freely moving monocular cameras are very common in real-world scenarios, while 3D HPE for such scenarios is quite challenging, partially because there is a lack of such data with accurate 3D ground truth labels in existing datasets. In this paper, we propose a temporal regression network with a gated convolution module to transform 2D joints to 3D and recover the missing occluded joints in the meantime. A simple yet effective localization approach is further conducted to transform the normalized pose to the global trajectory. To verify the effectiveness of our approach, we also collect a new moving camera multi-human (MMHuman) dataset that includes multiple people with heavy occlusion captured by moving cameras. The 3D ground truth joints are provided by accurate motion capture (MoCap) system. From the experiments on static-camera based Human3.6M data and our own collected moving-camera based data, we show that our proposed method outperforms most state-of-the-art 2D-to-3D pose estimation methods, especially for the scenarios with heavy occlusions.
翻訳日:2022-10-01 04:55:19 公開日:2020-10-31
# 学習の有無にかかわらず点雲からのシーンフロー

Scene Flow from Point Clouds with or without Learning ( http://arxiv.org/abs/2011.00320v1 )

ライセンス: Link先を確認
Jhony Kaesemodel Pontes, James Hays, and Simon Lucey(参考訳) シーンフロー(Scene flow)は、シーンの3次元運動場である。 動的環境におけるオブジェクトの空間的配置と変化率に関する情報を提供する。 現在の学習ベースのアプローチは、ポイントクラウドから直接シーンフローを推定し、最先端のパフォーマンスを達成した。 しかし、教師付き学習法は本質的にドメイン固有であり、大量のラベル付きデータを必要とする。 実世界のポイントクラウド上でのシーンフローのアノテーションは高価かつ困難であり、このようなデータセットの欠如は、最近自己教師付き学習方法への関心を喚起している。 実世界のデータをラベル付けせずに、シーンフロー表現を正確かつ堅牢に学習する方法は、まだ未解決の問題である。 本稿では,ポイントクラウドからシーンフローを復元する簡易かつ解釈可能な目的関数を提案する。 点雲のグラフ Laplacian を用いて、シーンフローを正規化して "as-rigid-as-possible" とする。 提案する目的関数は,学習の有無に関わらず,シーンフロー表現を学習するための自己スーパーバイザリー信号として,あるいは実行時にシーンフローを最適化する非学習ベース手法として使用できる。 当社のアプローチは多くのデータセットで関連する作業より優れています。 また,提案手法を,モーションセグメンテーションとポイントクラウドデンシフィケーションという2つのアプリケーションに適用した。

Scene flow is the three-dimensional (3D) motion field of a scene. It provides information about the spatial arrangement and rate of change of objects in dynamic environments. Current learning-based approaches seek to estimate the scene flow directly from point clouds and have achieved state-of-the-art performance. However, supervised learning methods are inherently domain specific and require a large amount of labeled data. Annotation of scene flow on real-world point clouds is expensive and challenging, and the lack of such datasets has recently sparked interest in self-supervised learning methods. How to accurately and robustly learn scene flow representations without labeled real-world data is still an open problem. Here we present a simple and interpretable objective function to recover the scene flow from point clouds. We use the graph Laplacian of a point cloud to regularize the scene flow to be "as-rigid-as-possible". Our proposed objective function can be used with or without learning---as a self-supervisory signal to learn scene flow representations, or as a non-learning-based method in which the scene flow is optimized during runtime. Our approach outperforms related works in many datasets. We also show the immediate applications of our proposed method for two applications: motion segmentation and point cloud densification.
翻訳日:2022-10-01 04:49:17 公開日:2020-10-31
# TartanVO: 一般化可能な学習ベースVO

TartanVO: A Generalizable Learning-based VO ( http://arxiv.org/abs/2011.00359v1 )

ライセンス: Link先を確認
Wenshan Wang, Yaoyu Hu, Sebastian Scherer(参考訳) 本稿では,複数のデータセットや実世界のシナリオに一般化し,挑戦シーンにおける幾何学的手法よりも優れる,最初の学習ベースビジュアル・オドメトリー(VO)モデルを提案する。 我々はSLAMデータセットであるTartanAirを活用して、課題のある環境で大量の多様な合成データを提供する。 さらに、VOモデルをデータセット全体にわたって一般化させるため、最大スケールの損失関数を提案し、カメラ固有のパラメータをモデルに組み込む。 実験により、合成データのみに基づいて訓練された単一のモデルであるTartanVOが、KITTIやEuRoCのような現実世界のデータセットに一般化できることが示され、挑戦軌跡の幾何学的手法よりも大きな優位性を示している。 私たちのコードはhttps://github.com/castacks/tartanvo.comで利用可能です。

We present the first learning-based visual odometry (VO) model, which generalizes to multiple datasets and real-world scenarios and outperforms geometry-based methods in challenging scenes. We achieve this by leveraging the SLAM dataset TartanAir, which provides a large amount of diverse synthetic data in challenging environments. Furthermore, to make our VO model generalize across datasets, we propose an up-to-scale loss function and incorporate the camera intrinsic parameters into the model. Experiments show that a single model, TartanVO, trained only on synthetic data, without any finetuning, can be generalized to real-world datasets such as KITTI and EuRoC, demonstrating significant advantages over the geometry-based methods on challenging trajectories. Our code is available at https://github.com/castacks/tartanvo.
翻訳日:2022-10-01 04:48:56 公開日:2020-10-31
# 機械学習のための微分プライベートADMMアルゴリズム

Differentially Private ADMM Algorithms for Machine Learning ( http://arxiv.org/abs/2011.00164v1 )

ライセンス: Link先を確認
Tao Xu, Fanhua Shang, Yuanyuan Liu, Hongying Liu, Longjie Shen, Maoguo Gong(参考訳) 本稿では,多くの機械学習問題に対して,勾配摂動を用いた乗算器(ADMM)の効率的な微分プライベート交互方向法について検討する。 滑らかな凸損失関数を(非)平滑な正規化で行う場合, 性能保証が$(\epsilon,\delta)$-differential privacy((\epsilon,\delta)$-DP)となる最初の微分プライベートADMM(DP-ADMM)アルゴリズムを提案する。 理論的解析の観点から,R'enyi Differential Privacy (RDP) とDPの変換関係とガウス機構を用いて,アルゴリズムの包括的なプライバシー分析を行う。 そして,DP-ADMMを含む提案アルゴリズムの収束性を証明するための新しい基準を確立する。 また,DP-ADMMの有用性分析を行った。 さらに,Nesterovの加速技術を用いたDP-ADMM(DP-AccADMM)を提案する。 最後に,提案する2つのアルゴリズムのプライバシ利用性トレードオフを示すために,実世界の多くのデータセットで数値実験を行い,dp-accadmm がより高速に収束し,プライバシ予算 $\epsilon$ がしきい値より大きい場合,dp-admm よりも優れたユーティリティを持つことを示す。

In this paper, we study efficient differentially private alternating direction methods of multipliers (ADMM) via gradient perturbation for many machine learning problems. For smooth convex loss functions with (non)-smooth regularization, we propose the first differentially private ADMM (DP-ADMM) algorithm with performance guarantee of $(\epsilon,\delta)$-differential privacy ($(\epsilon,\delta)$-DP). From the viewpoint of theoretical analysis, we use the Gaussian mechanism and the conversion relationship between R\'enyi Differential Privacy (RDP) and DP to perform a comprehensive privacy analysis for our algorithm. Then we establish a new criterion to prove the convergence of the proposed algorithms including DP-ADMM. We also give the utility analysis of our DP-ADMM. Moreover, we propose an accelerated DP-ADMM (DP-AccADMM) with the Nesterov's acceleration technique. Finally, we conduct numerical experiments on many real-world datasets to show the privacy-utility tradeoff of the two proposed algorithms, and all the comparative analysis shows that DP-AccADMM converges faster and has a better utility than DP-ADMM, when the privacy budget $\epsilon$ is larger than a threshold.
翻訳日:2022-10-01 04:48:41 公開日:2020-10-31
# Aspect-based Sentiment Analysisのための事前学習BERTの理解

Understanding Pre-trained BERT for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2011.00169v1 )

ライセンス: Link先を確認
Hu Xu, Lei Shu, Philip S. Yu, Bing Liu(参考訳) 本稿では、アスペクトベース感情分析(ABSA)におけるタスクに対するBERTのレビューから得られた学習済みの隠れ表現について分析する。 我々の研究は、ABSAのためのBERTベースの言語モデルの最新の動向に動機づけられている。 しかし、アスペクトや意見のアノテーションなしでラベルなしコーパスでトレーニングされた(マスクされた)言語モデルの一般的なプロキシタスクが、ABSAの下流タスクに重要な機能を提供しているかは明らかではない。 ABSAの注釈付きデータセットを利用することで、レビューで事前学習されたBERTの注意と学習表現の両方を調査する。 BERTは文脈語(例えば、アスペクトを示す前置詞や代名詞)と意見語を1つの側面にエンコードするために、非常に少ない自己注意頭を用いていることがわかった。 アスペクトの表現におけるほとんどの特徴は、そのコンテキストから要約された意見を運ぶのではなく、ドメイン(または製品カテゴリ)とアスペクト自体のきめ細かいセマンティクスに特化しています。 この調査は、自己指導型学習、教師なし学習、ABSAの微調整の改善に役立つことを期待している。 事前訓練されたモデルとコードはhttps://github.com/howardhsu/BERT-for-RRC-ABSAで見ることができる。

This paper analyzes the pre-trained hidden representations learned from reviews on BERT for tasks in aspect-based sentiment analysis (ABSA). Our work is motivated by the recent progress in BERT-based language models for ABSA. However, it is not clear how the general proxy task of (masked) language model trained on unlabeled corpus without annotations of aspects or opinions can provide important features for downstream tasks in ABSA. By leveraging the annotated datasets in ABSA, we investigate both the attentions and the learned representations of BERT pre-trained on reviews. We found that BERT uses very few self-attention heads to encode context words (such as prepositions or pronouns that indicating an aspect) and opinion words for an aspect. Most features in the representation of an aspect are dedicated to the fine-grained semantics of the domain (or product category) and the aspect itself, instead of carrying summarized opinions from its context. We hope this investigation can help future research in improving self-supervised learning, unsupervised learning and fine-tuning for ABSA. The pre-trained model and code can be found at https://github.com/howardhsu/BERT-for-RRC-ABSA.
翻訳日:2022-10-01 04:47:45 公開日:2020-10-31
# Free the Plural: Unrestricted Split-Antecedent Anaphora Resolution

Free the Plural: Unrestricted Split-Antecedent Anaphora Resolution ( http://arxiv.org/abs/2011.00245v1 )

ライセンス: Link先を確認
Juntao Yu, Nafise Sadat Moosavi, Silviu Paun and Massimo Poesio(参考訳) 照応参照の単純な形式に対するコリファレンスレゾルバのパフォーマンスが大幅に向上した今、より多くの注意が照応のより複雑な側面に向けられている。 事実上全てのコリファレンス解決モデルの制限の一つは、単発アナフォに焦点をあてることである。 複数の先行する複数のアナプホル(ジョンがメアリーに会ったように)を持つ複数のアナプホルは、オントノテでは注釈がなく、他のコーパスでは比較的少ないため、広く研究されていない。 本稿では,スプリット・アンテシデント・アナフォの非制限分解に対する最初のモデルを提案する。 まずBERT埋め込みによって強化された強いベースラインから始め、スパーシティ問題に対処することで、その性能を大幅に改善できることを示します。 そこで,本研究では,参加者がアノテートした補助コーパスと,要素のブリッジ参照と単一集約コア参照を用いた移動学習モデルを用いて実験を行った。 ゴールドアノテートされたARRAUコーパスの評価では, 3つの補助コーパスによるF1スコアの70%と43.6%の組み合わせを, 厳密な条件で評価すると, ベースラインと比較すると11点, 21ポイントの利得が得られた。

Now that the performance of coreference resolvers on the simpler forms of anaphoric reference has greatly improved, more attention is devoted to more complex aspects of anaphora. One limitation of virtually all coreference resolution models is the focus on single-antecedent anaphors. Plural anaphors with multiple antecedents-so-called split-antecedent anaphors (as in John met Mary. They went to the movies) have not been widely studied, because they are not annotated in ONTONOTES and are relatively infrequent in other corpora. In this paper, we introduce the first model for unrestricted resolution of split-antecedent anaphors. We start with a strong baseline enhanced by BERT embeddings, and show that we can substantially improve its performance by addressing the sparsity issue. To do this, we experiment with auxiliary corpora where split-antecedent anaphors were annotated by the crowd, and with transfer learning models using element-of bridging references and single-antecedent coreference as auxiliary tasks. Evaluation on the gold annotated ARRAU corpus shows that the out best model uses a combination of three auxiliary corpora achieved F1 scores of 70% and 43.6% when evaluated in a lenient and strict setting, respectively, i.e., 11 and 21 percentage points gain when compared with our baseline.
翻訳日:2022-10-01 04:47:05 公開日:2020-10-31
# アラビア語のニューラルコリファレンス分解能

Neural Coreference Resolution for Arabic ( http://arxiv.org/abs/2011.00286v1 )

ライセンス: Link先を確認
Abdulrahman Aloraini, Juntao Yu and Massimo Poesio(参考訳) アラビア語のニューラルコア参照リゾルバは存在せず、実際、我々はアラビア語の学習に基づくコア参照リゾルバを知らない(Bjorkelund and Kuhn, 2014)。 本稿では,lee et al の end to end architecture と bert のアラビア語版と外部参照検出器を組み合わせた,アラビア語のコリファレンス解決システムを提案する。 われわれの知る限りでは、これはアラビア語に特化した最初のニューラルコア参照解決システムであり、OntoNotes 5.0の既存の状態を15.2ポイントのconll F1で大幅に上回っている。 また、これらの課題に対処できるアラビア語および可能なアプローチのタスクの現在の制限についても論じる。

No neural coreference resolver for Arabic exists, in fact we are not aware of any learning-based coreference resolver for Arabic since (Bjorkelund and Kuhn, 2014). In this paper, we introduce a coreference resolution system for Arabic based on Lee et al's end to end architecture combined with the Arabic version of bert and an external mention detector. As far as we know, this is the first neural coreference resolution system aimed specifically to Arabic, and it substantially outperforms the existing state of the art on OntoNotes 5.0 with a gain of 15.2 points conll F1. We also discuss the current limitations of the task for Arabic and possible approaches that can tackle these challenges.
翻訳日:2022-10-01 04:46:22 公開日:2020-10-31
# ウクライナ語テキストのコヒーレンス評価方法

Method of the coherence evaluation of Ukrainian text ( http://arxiv.org/abs/2011.00310v1 )

ライセンス: Link先を確認
S. D. Pogorilyy and A. A. Kramov(参考訳) SEO技術の役割が増大しているため、記事の品質を自動的に分析する必要がある。 このアプローチは、ユーザのクエリに対して最も知的なページを返すのに役立ち、Webサイトの位置をクエリ結果のトップに上げるのに役立ちます。 コヒーレンスの自動評価は、テキストの複雑な解析の一部である。 本稿では,ウクライナ語におけるテキストコヒーレンス測定の主な方法について分析する。 意味的類似性グラフ法を他の手法と比較した場合の頻度について説明する。 文のベクトル表現のためのニューラルネットワークの事前学習による改善が示唆された。 元の方法の実験的検討とその修正がなされた。 訓練と試験の手順は、ウクライナの科学論文の要約や全文から収集されたウクライナ語のテキストのコーパスに基づいて行われる。 テスト手順は、文書識別タスクと挿入タスクという、テキストコヒーレンス評価のための2つの典型的なタスクを実行して実施する。 分析により, 提案手法の修正と, テキストのコヒーレンス測定のためのパラメータの最も効果的な組み合わせが定義できる。

Due to the growing role of the SEO technologies, it is necessary to perform an automated analysis of the article's quality. Such approach helps both to return the most intelligible pages for the user's query and to raise the web sites positions to the top of query results. An automated assessment of a coherence is a part of the complex analysis of the text. In this article, main methods for text coherence measurements for Ukrainian language are analyzed. Expediency of using the semantic similarity graph method in comparison with other methods are explained. It is suggested the improvement of that method by the pre-training of the neural network for vector representations of sentences. Experimental examination of the original method and its modifications is made. Training and examination procedures are made on the corpus of Ukrainian texts, which were previously retrieved from abstracts and full texts of Ukrainian scientific articles. The testing procedure is implemented by performing of two typical tasks for the text coherence assessment: document discrimination task and insertion task. Accordingly to the analysis it is defined the most effective combination of method's modification and its parameter for the measurement of the text coherence.
翻訳日:2022-10-01 04:46:07 公開日:2020-10-31
# ニューラルネットワークアルゴリズムのレビューと超臨界抽出への応用

A review of neural network algorithms and their applications in supercritical extraction ( http://arxiv.org/abs/2011.05279v1 )

ライセンス: Link先を確認
Yu Qi, Zhaolan Zheng(参考訳) ニューラルネットワークは、人間の脳の特定のメカニズムをシミュレートすることで、マルチパラメータ最適化と制御を実現する。 信号処理、インテリジェント駆動、最適な組み合わせ、車両の異常検出、化学プロセス最適化制御など、多くの分野で使用することができる。 超臨界抽出は、主に天然物の分離と精製に使用される、新しいタイプの高効率な化学分離プロセスである。 多くの影響要因がある。 ニューラルネットワークモデルは、プロセスパラメータを迅速に最適化し、異なるプロセス条件下で実験結果を予測できる。 実験の内部法則を理解し、最適な実験条件を決定することは有用である。 本稿では, ニューラルネットワークの基本概念と研究の進展と超臨界抽出について概説し, 超臨界抽出におけるニューラルネットワークアルゴリズムの適用を要約し, 産業技術の発展と革新の参考となることを目的とした。

Neural network realizes multi-parameter optimization and control by simulating certain mechanisms of the human brain. It can be used in many fields such as signal processing, intelligent driving, optimal combination, vehicle abnormality detection, and chemical process optimization control. Supercritical extraction is a new type of high-efficiency chemical separation process, which is mainly used in the separation and purification of natural substances. There are many influencing factors. The neural network model can quickly optimize the process parameters and predict the experimental results under different process conditions. It is helpful to understand the inner law of the experiment and determine the optimal experimental conditions. This paper briefly describes the basic concepts and research progress of neural networks and supercritical extraction, and summarizes the application of neural network algorithms in supercritical extraction, aiming to provide reference for the development and innovation of industry technology.
翻訳日:2022-10-01 04:39:53 公開日:2020-10-31
# Smoothly Adaptive Centered Ridge Estimator

Smoothly Adaptively Centered Ridge Estimator ( http://arxiv.org/abs/2011.00289v1 )

ライセンス: Link先を確認
Edoardo Belli(参考訳) 円滑な機能的共変量を持つ線形モデルに焦点をあて、非ゼロ中心尾根に基づくペナル化フレームワーク(SACR)を提案し、通常のリッジ溶液から初期中心関数として、ペナルティの中心を最適に監督的に重み付けする。 特に,モデルの係数と重み関数を共同で推定する凸定式化を導入し,中心関数に対する粗さのペナルティと重みの制約を加味して,潜在的に滑らかでスパースな解を復元する。 これにより、重み関数は、係数関数全体を一様に縮めるのではなく、非零係数上の不要な収縮を減らすことを目的として、ペナルティを適切な中心に向けるために、初期中心を膨らませたりデフレしたりすることができるため、非定性かつ連続的な変数選択機構が実現される。 本手法の解釈可能性と予測力の実証的証拠として,シミュレーションと2つの実世界分光法を分類と回帰の両方で適用した。

With a focus on linear models with smooth functional covariates, we propose a penalization framework (SACR) based on the nonzero centered ridge, where the center of the penalty is optimally reweighted in a supervised way, starting from the ordinary ridge solution as the initial centerfunction. In particular, we introduce a convex formulation that jointly estimates the model's coefficients and the weight function, with a roughness penalty on the centerfunction and constraints on the weights in order to recover a possibly smooth and/or sparse solution. This allows for a non-iterative and continuous variable selection mechanism, as the weight function can either inflate or deflate the initial center, in order to target the penalty towards a suitable center, with the objective to reduce the unwanted shrinkage on the nonzero coefficients, instead of uniformly shrinking the whole coefficient function. As empirical evidence of the interpretability and predictive power of our method, we provide a simulation study and two real world spectroscopy applications with both classification and regression.
翻訳日:2022-10-01 04:38:26 公開日:2020-10-31
# 手術ロボットにおける自動ジェスチャー認識のためのマルチモーダル・自己教師型表現学習

Multimodal and self-supervised representation learning for automatic gesture recognition in surgical robotics ( http://arxiv.org/abs/2011.00168v1 )

ライセンス: Link先を確認
Aniruddha Tamhane, Jie Ying Wu, Mathias Unberath(参考訳) 自己指導型マルチモーダル学習は複雑なシナリオの全体的表現に成功している。 これは、複数の多様な用途を持つ複数のモダリティからの情報を統合するのに有用である。 手術ロボティクスにおけるその応用は、手術プロセスの一般化された機械的理解を同時に開発し、一般的に入手が困難である品質や専門家のアノテーションへの依存を減らすことに繋がる。 ビデオやキネマティックスから手術用ジェスチャの表現を学習する,自己教師付きマルチモーダル表現学習パラダイムを開発した。 手術ビデオからの表現をエンコードし,それらをデコードしてキネマティクスを生成するエンコーダ・デコーダネットワーク構成を用いる。 ジェスチャー認識における学習表現の有効性(精度69.6 %から77.8 %)、複数のタスク(精度44.6 %から64.8 %)、外科医のスキル分類(精度76.8 %から81.2 %)を定量的に示す。 さらに,自己指導型表現が意味的に意味のある特性(サージョンスキルとジェスチャー)をクラスタ化することを示す。

Self-supervised, multi-modal learning has been successful in holistic representation of complex scenarios. This can be useful to consolidate information from multiple modalities which have multiple, versatile uses. Its application in surgical robotics can lead to simultaneously developing a generalised machine understanding of the surgical process and reduce the dependency on quality, expert annotations which are generally difficult to obtain. We develop a self-supervised, multi-modal representation learning paradigm that learns representations for surgical gestures from video and kinematics. We use an encoder-decoder network configuration that encodes representations from surgical videos and decodes them to yield kinematics. We quantitatively demonstrate the efficacy of our learnt representations for gesture recognition (with accuracy between 69.6 % and 77.8 %), transfer learning across multiple tasks (with accuracy between 44.6 % and 64.8 %) and surgeon skill classification (with accuracy between 76.8 % and 81.2 %). Further, we qualitatively demonstrate that our self-supervised representations cluster in semantically meaningful properties (surgeon skill and gestures).
翻訳日:2022-10-01 04:37:44 公開日:2020-10-31
# 医学データを用いた深層学習のための推論攻撃モデルの評価

Evaluation of Inference Attack Models for Deep Learning on Medical Data ( http://arxiv.org/abs/2011.00177v1 )

ライセンス: Link先を確認
Maoqiang Wu, Xinyue Zhang, Jiahao Ding, Hien Nguyen, Rong Yu, Miao Pan, Stephen T. Wong(参考訳) 深層学習は医療や医療社会に広く関心を集めている。 しかし、医療応用のために訓練されたディープネットワークが生み出すプライバシー問題についてはほとんど研究されていない。 最近開発された推論攻撃アルゴリズムは、ディープネットワークをクエリできる悪意のある関係者によって、画像とテキストレコードを再構築可能であることを示している。 これにより、機密性の高い患者情報を含む医療画像と電子健康記録がこれらの攻撃に対して脆弱であるという懸念が生じる。 本稿では,この課題に対する医学的深層学習コミュニティの研究者の関心を引き付けることを目的としている。 我々は2つの顕著な推論攻撃モデル、すなわち属性推論攻撃とモデル反転攻撃を評価する。 実世界の医療画像と臨床報告を高い忠実度で再現できることを示す。 次に,ラベル摂動やモデル摂動などの防御機構を用いて患者のプライバシーを守る方法について検討する。 本報告では,本モデルと医学的深層学習モデルによる攻撃結果と防御性の比較を行った。 実験評価の結果,提案手法は医学的深層学習の潜在的なプライバシー漏洩を効果的に軽減する可能性が示唆された。

Deep learning has attracted broad interest in healthcare and medical communities. However, there has been little research into the privacy issues created by deep networks trained for medical applications. Recently developed inference attack algorithms indicate that images and text records can be reconstructed by malicious parties that have the ability to query deep networks. This gives rise to the concern that medical images and electronic health records containing sensitive patient information are vulnerable to these attacks. This paper aims to attract interest from researchers in the medical deep learning community to this important problem. We evaluate two prominent inference attack models, namely, attribute inference attack and model inversion attack. We show that they can reconstruct real-world medical images and clinical reports with high fidelity. We then investigate how to protect patients' privacy using defense mechanisms, such as label perturbation and model perturbation. We provide a comparison of attack results between the original and the medical deep learning models with defenses. The experimental evaluations show that our proposed defense approaches can effectively reduce the potential privacy leakage of medical deep learning from the inference attacks.
翻訳日:2022-10-01 04:37:22 公開日:2020-10-31
# MDPにおける適応還元正則化による近似最適政策の探索

Finding the Near Optimal Policy via Adaptive Reduced Regularization in MDPs ( http://arxiv.org/abs/2011.00213v1 )

ライセンス: Link先を確認
Wenhao Yang, Xiang Li, Guangzeng Xie, Zhihua Zhang(参考訳) 正規化 MDP はオリジナルの MDP のスムーズなバージョンとして機能する。 しかし、常に偏った最適政策は正規化されたMDPに対して存在する。 正規化項の係数{\lambda} を十分に小さくするのではなく、元の mdp の最適ポリシーを近似するために {\lambda} の適応還元スキームを提案する。 十分小さな{\lambdaを設定した場合と比較して,最適なポリシを得るためのイテレーションの複雑さを低減できることが示されている。 さらに、還元法と元のmdpを直接解く方法の間には強い双対性関係があり、あるアルゴリズムに対してより適応的な還元法を導出することができる。

Regularized MDPs serve as a smooth version of original MDPs. However, biased optimal policy always exists for regularized MDPs. Instead of making the coefficient{\lambda}of regularized term sufficiently small, we propose an adaptive reduction scheme for {\lambda} to approximate optimal policy of the original MDP. It is shown that the iteration complexity for obtaining an{\epsilon}-optimal policy could be reduced in comparison with setting sufficiently small{\lambda}. In addition, there exists strong duality connection between the reduction method and solving the original MDP directly, from which we can derive more adaptive reduction method for certain algorithms.
翻訳日:2022-10-01 04:30:19 公開日:2020-10-31
# 病理ジオメトリの最適1-nnプロトタイプ

Optimal 1-NN Prototypes for Pathological Geometries ( http://arxiv.org/abs/2011.00228v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Matthias Schonlau(参考訳) トレーニングデータセットのサイズを減らすためにプロトタイプを使用すると、k-nearest近傍の分類器のようなインスタンスベースの学習アルゴリズムによる分類の計算コストが劇的に削減される。 分類器が本来の性能に合致するために必要なプロトタイプの数と分布は、トレーニングデータの幾何と密接な関係がある。 その結果、与えられたデータセットの最適なプロトタイプを見つけることはしばしば困難であり、代わりにヒューリスティックアルゴリズムが使用される。 しかし、一般に使用されるヒューリスティックアルゴリズムが適切なプロトタイプを見つけられず、その代わりに最適なプロトタイプが分析的に発見できるという、特に困難な設定を考える。 また,この設定でほぼ最適に近いプロトタイプを探索するアルゴリズムを提案し,理論結果の実証的検証を行う。

Using prototype methods to reduce the size of training datasets can drastically reduce the computational cost of classification with instance-based learning algorithms like the k-Nearest Neighbour classifier. The number and distribution of prototypes required for the classifier to match its original performance is intimately related to the geometry of the training data. As a result, it is often difficult to find the optimal prototypes for a given dataset, and heuristic algorithms are used instead. However, we consider a particularly challenging setting where commonly used heuristic algorithms fail to find suitable prototypes and show that the optimal prototypes can instead be found analytically. We also propose an algorithm for finding nearly-optimal prototypes in this setting, and use it to empirically validate the theoretical results.
翻訳日:2022-10-01 04:30:07 公開日:2020-10-31
# 依存データを用いた回帰問題におけるディープリカレントニューラルネットワーク推定の収束率について

On the rate of convergence of a deep recurrent neural network estimate in a regression problem with dependent data ( http://arxiv.org/abs/2011.00328v1 )

ライセンス: Link先を確認
Michael Kohler and Adam Krzyzak(参考訳) 依存データによる回帰問題を考察する。 データの依存性に関する正規性の仮定を導入し、回帰関数の適切な構造的仮定の下では、ディープリカレントニューラルネットワーク推定が次元性の呪いを回避することができることを示した。

A regression problem with dependent data is considered. Regularity assumptions on the dependency of the data are introduced, and it is shown that under suitable structural assumptions on the regression function a deep recurrent neural network estimate is able to circumvent the curse of dimensionality.
翻訳日:2022-10-01 04:29:55 公開日:2020-10-31
# 判別的相互点を用いたオープンセットネットワークの学習

Learning Open Set Network with Discriminative Reciprocal Points ( http://arxiv.org/abs/2011.00178v1 )

ライセンス: Link先を確認
Guangyao Chen, Limeng Qiao, Yemin Shi, Peixi Peng, Jia Li, Tiejun Huang, Shiliang Pu, Yonghong Tian(参考訳) オープンセット認識は、事前に定義されたクラスからサンプルを同時に分類し、残りを「未知」として識別することを目的とした、新たな研究分野である。 このプロセスにおいて、重要な課題の1つは、少数の既知のデータから得られた多数の未知のサンプルの特性を一般化するリスクを減らすことである。 本稿では,各既知圏に対応するクラス外空間のポテンシャル表現であるReciprocal Pointを提案する。 サンプルは、相反点を持つ他者によって、未知または未知に分類することができる。 オープンセット問題に取り組むために,我々は新しいオープンスペースリスク正規化用語を提案する。 相互点によって構成される有界空間に基づいて、未知のリスクは多圏相互作用によって減少する。 rpl(reciprocal point learning)と呼ばれる新しい学習フレームワークは、未知の情報を、既知のクラスのみを持つ学習者に間接的に導入し、よりコンパクトで識別的な表現を学ぶことができる。 さらに,航空300(Air-300)という,オープンセット認識のための大規模航空データセットを構築した。 複数のベンチマークデータセットに関する広範囲な実験は、我々のフレームワークが他の既存のアプローチよりも著しく優れており、標準のオープンセットベンチマークで最先端のパフォーマンスを達成していることを示している。

Open set recognition is an emerging research area that aims to simultaneously classify samples from predefined classes and identify the rest as 'unknown'. In this process, one of the key challenges is to reduce the risk of generalizing the inherent characteristics of numerous unknown samples learned from a small amount of known data. In this paper, we propose a new concept, Reciprocal Point, which is the potential representation of the extra-class space corresponding to each known category. The sample can be classified to known or unknown by the otherness with reciprocal points. To tackle the open set problem, we offer a novel open space risk regularization term. Based on the bounded space constructed by reciprocal points, the risk of unknown is reduced through multi-category interaction. The novel learning framework called Reciprocal Point Learning (RPL), which can indirectly introduce the unknown information into the learner with only known classes, so as to learn more compact and discriminative representations. Moreover, we further construct a new large-scale challenging aircraft dataset for open set recognition: Aircraft 300 (Air-300). Extensive experiments on multiple benchmark datasets indicate that our framework is significantly superior to other existing approaches and achieves state-of-the-art performance on standard open set benchmarks.
翻訳日:2022-10-01 04:29:12 公開日:2020-10-31
# 高速物体認識のための画像前処理の検討

A Study of Image Pre-processing for Faster Object Recognition ( http://arxiv.org/abs/2011.06928v1 )

ライセンス: Link先を確認
Md Tanzil Shahriar, Huyue Li(参考訳) 画像の品質は常に、オブジェクト認識や分類率の向上において重要な役割を果たす。 良質な画像は、未処理のノイズ画像よりも認識や分類速度が良い。 物体の認識や分類率を抑える非処理画像から特徴を抽出することはより困難である。 低画質の画像によって生じる問題を克服するため、通常、画像から特徴を抽出する前に前処理を行う。 本研究では,選択した機械学習アルゴリズムやディープラーニングアルゴリズムの性能を,精度の向上やトレーニング画像数の減少の観点から向上させる画像前処理手法を提案する。 後半部では,従来の手法と比較し,評価結果を比較した。

Quality of image always plays a vital role in in-creasing object recognition or classification rate. A good quality image gives better recognition or classification rate than any unprocessed noisy images. It is more difficult to extract features from such unprocessed images which in-turn reduces object recognition or classification rate. To overcome problems occurred due to low quality image, typically pre-processing is done before extracting features from the image. Our project proposes an image pre-processing method, so that the performance of selected Machine Learning algorithms or Deep Learning algorithms increases in terms of increased accuracy or reduced the number of training images. In the later part, we compare the performance results by using our method with the previous used approaches.
翻訳日:2022-10-01 04:28:42 公開日:2020-10-31
# アンダーソース言語におけるコード切替音声のASR性能向上のための多言語ブートネック特徴

Multilingual Bottleneck Features for Improving ASR Performance of Code-Switched Speech in Under-Resourced Languages ( http://arxiv.org/abs/2011.03118v1 )

ライセンス: Link先を確認
Trideba Padhi, Astik Biswas, Febe De Wet, Ewald van der Westhuizen, Thomas Niesler(参考訳) 本研究では,アフリカ言語におけるコードスイッチト音声の自動音声認識のための音響モデリングにおけるマルチリンガル・ボトルネック機能(mBNF)の利点について検討する。 興味のある言語における注釈付きコーパスの有効性の欠如は、この高度にリソース不足なタイプの音声認識システムを開発する上で、常に主要な課題である。 したがって、音声認識性能を向上させるために、他のより良いソース言語で利用可能な音声コーパスを使用する可能性について検討する価値がある。 そこで我々は,自由な多言語NCHLTコーパスを構成する9つの南バントゥー言語を用いてmBNF抽出器を訓練する。 これらのmBNFを既存のMFCC、ピッチ機能、i-vectorに付加し、ターゲット言語における自動音声認識(ASR)のための音響モデルを訓練する。 以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXhosa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。

In this work, we explore the benefits of using multilingual bottleneck features (mBNF) in acoustic modelling for the automatic speech recognition of code-switched (CS) speech in African languages. The unavailability of annotated corpora in the languages of interest has always been a primary challenge when developing speech recognition systems for this severely under-resourced type of speech. Hence, it is worthwhile to investigate the potential of using speech corpora available for other better-resourced languages to improve speech recognition performance. To achieve this, we train a mBNF extractor using nine Southern Bantu languages that form part of the freely available multilingual NCHLT corpus. We append these mBNFs to the existing MFCCs, pitch features and i-vectors to train acoustic models for automatic speech recognition (ASR) in the target code-switched languages. Our results show that the inclusion of the mBNF features leads to clear performance improvements over a baseline trained without the mBNFs for code-switched English-isiZulu, English-isiXhosa, English-Sesotho and English-Setswana speech.
翻訳日:2022-10-01 04:28:33 公開日:2020-10-31
# 経腸神経系画像を用いた慢性変性疾患の自動同定

Automatic Chronic Degenerative Diseases Identification Using Enteric Nervous System Images ( http://arxiv.org/abs/2011.00160v1 )

ライセンス: Link先を確認
Gustavo Z. Felipe, Jacqueline N. Zanoni, Camila C. Sehaber-Sierakowski, Gleison D. P. Bossolani, Sara R. G. Souza, Franklin C. Flores, Luiz E. S. Oliveira, Rodolfo M. Pereira, Yandre M. G. Costa(参考訳) 近年の腸神経系に関する研究では、慢性変性疾患が腸グリア細胞(egc)に影響を及ぼすことが示されており、egcがこれらの疾患に影響を受けるかどうかを識別できる認識法の開発がその診断に有用である可能性がある。 本研究では,動物egc画像が健康な個体から得られたか,慢性変性疾患による影響があるかを評価するためのパターン認識と機械学習手法を提案する。 提案手法では,手作りの特徴と,非手作り特徴としても知られる深層学習に基づく手法を用いて分類タスクを行った。 テクスチャ記述子(例えばローカルバイナリパターン(LBP))を用いて,ECG画像のテクスチャ内容から手作りの特徴を得た。 さらに、このアプローチで使用される表現学習技術は、AlexNetやVGG16など、さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャをベースとしている。 また, 手工芸品と非手工芸品の相補性も後期融合法で評価した。 本論文の貢献であるegc画像のデータセットは、がん、糖尿病、関節リウマチの3つの異なる慢性変性疾患から構成されている。 統計学的解析により,本手法により,89.30% (慢性関節リウマチ),98.45% (Cancer),95.13% (Diabetes Mellitus) の認識率で正常な細胞と疾患細胞を区別し,両者の特徴シナリオを組み合わせて解析した。

Studies recently accomplished on the Enteric Nervous System have shown that chronic degenerative diseases affect the Enteric Glial Cells (EGC) and, thus, the development of recognition methods able to identify whether or not the EGC are affected by these type of diseases may be helpful in its diagnoses. In this work, we propose the use of pattern recognition and machine learning techniques to evaluate if a given animal EGC image was obtained from a healthy individual or one affect by a chronic degenerative disease. In the proposed approach, we have performed the classification task with handcrafted features and deep learning based techniques, also known as non-handcrafted features. The handcrafted features were obtained from the textural content of the ECG images using texture descriptors, such as the Local Binary Pattern (LBP). Moreover, the representation learning techniques employed in the approach are based on different Convolutional Neural Network (CNN) architectures, such as AlexNet and VGG16, with and without transfer learning. The complementarity between the handcrafted and non-handcrafted features was also evaluated with late fusion techniques. The datasets of EGC images used in the experiments, which are also contributions of this paper, are composed of three different chronic degenerative diseases: Cancer, Diabetes Mellitus, and Rheumatoid Arthritis. The experimental results, supported by statistical analysis, shown that the proposed approach can distinguish healthy cells from the sick ones with a recognition rate of 89.30% (Rheumatoid Arthritis), 98.45% (Cancer), and 95.13% (Diabetes Mellitus), being achieved by combining classifiers obtained both feature scenarios.
翻訳日:2022-10-01 04:21:51 公開日:2020-10-31
# クロスドメインFew-Shot分類のためのパラメータ空間におけるドメイン特化メタラーナの組み合わせ

Combining Domain-Specific Meta-Learners in the Parameter Space for Cross-Domain Few-Shot Classification ( http://arxiv.org/abs/2011.00179v1 )

ライセンス: Link先を確認
Shuman Peng, Weilian Song, Martin Ester(参考訳) 少数の分類の目標は、いくつかのトレーニング例だけで新しいクラスを分類できるモデルを学ぶことである。 既存のメタ学習アルゴリズムが数ショットの分類問題を解くという有望な結果にもかかわらず、依然として重要な課題が残っている。 本稿では,ドメイン間数ショットの分類問題に対処する,ドメイン特化メタラーナー(CosML)の最適化に基づくメタラーニング手法を提案する。 cosmlはまず、トレーニングドメインごとに一連のメタ学習者を訓練し、各ドメインに固有の事前知識(メタパラメータ)を学ぶ。 ドメイン固有のメタラーナーは、メタパラメータの重み付けされた平均値を取り、未確認領域の新規な数ショット分類タスクに迅速に適応するタスクネットワークの初期化パラメータとして使用される。 実験の結果,CosMLは最先端の手法よりも優れ,クロスドメインの強力な一般化能力を実現することがわかった。

The goal of few-shot classification is to learn a model that can classify novel classes using only a few training examples. Despite the promising results shown by existing meta-learning algorithms in solving the few-shot classification problem, there still remains an important challenge: how to generalize to unseen domains while meta-learning on multiple seen domains? In this paper, we propose an optimization-based meta-learning method, called Combining Domain-Specific Meta-Learners (CosML), that addresses the cross-domain few-shot classification problem. CosML first trains a set of meta-learners, one for each training domain, to learn prior knowledge (i.e., meta-parameters) specific to each domain. The domain-specific meta-learners are then combined in the \emph{parameter space}, by taking a weighted average of their meta-parameters, which is used as the initialization parameters of a task network that is quickly adapted to novel few-shot classification tasks in an unseen domain. Our experiments show that CosML outperforms a range of state-of-the-art methods and achieves strong cross-domain generalization ability.
翻訳日:2022-10-01 04:21:07 公開日:2020-10-31
# 教育におけるパーソナライズされたマルチモーダルフィードバック生成

Personalized Multimodal Feedback Generation in Education ( http://arxiv.org/abs/2011.00192v1 )

ライセンス: Link先を確認
Haochen Liu, Zitao Liu, Zhongqin Wu, Jiliang Tang(参考訳) 学校課題の自動評価は、教育分野におけるAIの重要な応用である。 本研究では,様々な教師にパーソナライズされたフィードバックを生成させ,画像や音声,テキストなどのマルチモーダル入力を含む学生の課題を評価することを目的とした,パーソナライズされたマルチモーダルフィードバック生成の課題に焦点を当てた。 このタスクは、マルチモーダル情報と自然言語生成の表現と融合を伴い、3つの側面から課題を提示する。 1) マルチモーダル入力の符号化と統合の方法 2)各モダリティに特有なフィードバックを生成する方法,及び 3)パーソナライズされたフィードバック生成を実現する方法。 本稿では,これらの課題に対処するために,モダリティゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。 実世界のk-12教育データに関する広範な実験により,本モデルは,より正確かつ多様なフィードバックを発生させることで,いくつかのベースラインを著しく上回っていることが示された。 さらに,提案フレームワークの理解を深めるため,詳細なアブレーション実験を行った。

The automatic evaluation for school assignments is an important application of AI in the education field. In this work, we focus on the task of personalized multimodal feedback generation, which aims to generate personalized feedback for various teachers to evaluate students' assignments involving multimodal inputs such as images, audios, and texts. This task involves the representation and fusion of multimodal information and natural language generation, which presents the challenges from three aspects: 1) how to encode and integrate multimodal inputs; 2) how to generate feedback specific to each modality; and 3) how to realize personalized feedback generation. In this paper, we propose a novel Personalized Multimodal Feedback Generation Network (PMFGN) armed with a modality gate mechanism and a personalized bias mechanism to address these challenges. The extensive experiments on real-world K-12 education data show that our model significantly outperforms several baselines by generating more accurate and diverse feedback. In addition, detailed ablation experiments are conducted to deepen our understanding of the proposed framework.
翻訳日:2022-10-01 04:20:25 公開日:2020-10-31
# ジャンル間のアスペクト性:分布的意味論アプローチ

Aspectuality Across Genre: A Distributional Semantics Approach ( http://arxiv.org/abs/2011.00345v1 )

ライセンス: Link先を確認
Thomas Kober and Malihe Alikhani and Matthew Stone and Mark Steedman(参考訳) 英語における動詞の語彙的側面の解釈は、文的含意を認識し、談話レベルの推論を学ぶ上で重要な役割を果たす。 アスペクトクラスの2つの基本次元、状態 vs. イベント、およびtelic vs. atelic イベントは、分布意味論を用いて効果的にモデル化できることを示す。 動詞の局所的文脈は,そのアスペクト的文脈の最も顕著な表現であり,閉クラス語は,内容語よりも文脈を識別する傾向が強いことを示す。 われわれのアプローチは、これまでの3つのデータセットよりも優れている。 最後に,語彙的側面にアノテートされた人間-人間間対話のデータセットと,ジャンルや談話目標とテロシティの相関を示す実験を行った。

The interpretation of the lexical aspect of verbs in English plays a crucial role for recognizing textual entailment and learning discourse-level inferences. We show that two elementary dimensions of aspectual class, states vs. events, and telic vs. atelic events, can be modelled effectively with distributional semantics. We find that a verb's local context is most indicative of its aspectual class, and demonstrate that closed class words tend to be stronger discriminating contexts than content words. Our approach outperforms previous work on three datasets. Lastly, we contribute a dataset of human--human conversations annotated with lexical aspect and present experiments that show the correlation of telicity with genre and discourse goals.
翻訳日:2022-10-01 04:20:08 公開日:2020-10-31
# 極端環境における無監督深部単眼眼視計測と深度推定

Unsupervised Deep Persistent Monocular Visual Odometry and Depth Estimation in Extreme Environments ( http://arxiv.org/abs/2011.00341v1 )

ライセンス: Link先を確認
Yasin Almalioglu, Angel Santamaria-Navarro, Benjamin Morrell, Ali-akbar Agha-mohammadi(参考訳) 近年、教師なしのディープラーニングアプローチは、ラベルなし単眼画像列から奥行きと視覚オドメトリ(vo)を推定するために大きな注目を集めている。 しかし, 知覚的低下, 咬合, 急速運動などにより, 困難環境下での性能は限られている。 さらに、既存の教師なし手法はフレーム間のスケール一貫性の制約の欠如に悩まされ、VO推定器は長い列に永続的な軌道を与えない。 本研究では,RGB画像列から撮影シーンの6自由度ポーズカメラの動きと深度マップを予測する,教師なし単眼深度VOフレームワークを提案する。 提案フレームワークの詳細な定量的および定性評価を行う。 a) darpa subterranean challenge中に収集された挑戦的データセット b)KITTIおよびCityscapesデータセットのベンチマーク。 提案手法は, 姿勢推定と奥行き復元の両方において, 従来法, 最先端法, 教師なし深部vo法を上回っている。 提案されたアプローチは、DARPA Subterranean Challengeに参加するCOSTARチームが使用するソリューションの一部である。

In recent years, unsupervised deep learning approaches have received significant attention to estimate the depth and visual odometry (VO) from unlabelled monocular image sequences. However, their performance is limited in challenging environments due to perceptual degradation, occlusions and rapid motions. Moreover, the existing unsupervised methods suffer from the lack of scale-consistency constraints across frames, which causes that the VO estimators fail to provide persistent trajectories over long sequences. In this study, we propose an unsupervised monocular deep VO framework that predicts six-degrees-of-freedom pose camera motion and depth map of the scene from unlabelled RGB image sequences. We provide detailed quantitative and qualitative evaluations of the proposed framework on a) a challenging dataset collected during the DARPA Subterranean challenge; and b) the benchmark KITTI and Cityscapes datasets. The proposed approach outperforms both traditional and state-of-the-art unsupervised deep VO methods providing better results for both pose estimation and depth recovery. The presented approach is part of the solution used by the COSTAR team participating at the DARPA Subterranean Challenge.
翻訳日:2022-10-01 04:19:55 公開日:2020-10-31
# ControlVAE: チューニング、分析特性、パフォーマンス分析

ControlVAE: Tuning, Analytical Properties, and Performance Analysis ( http://arxiv.org/abs/2011.01754v1 )

ライセンス: Link先を確認
Huajie Shao, Zhisheng Xiao, Shuochao Yao, Aston Zhang, Shengzhong Liu and Tarek Abdelzaher(参考訳) 本稿では,制御可能な変分オートエンコーダ(controlvae)の新たな概念をレビューし,アプリケーションのニーズを満たすためのパラメータチューニング,主要な分析特性の導出,有用な拡張とアプリケーションを提供する。 ControlVAEは、自動制御理論と基本的なVAEを組み合わせた新しい変分オートエンコーダ(VAE)フレームワークで、VAEモデルのKL分割を所定の値に安定化する。 これは、比例積分微分(PID)制御の変種である非線形PIコントローラを利用して、出力KL偏差をフィードバックとして、エビデンスローバウンド(ELBO)におけるKL偏差項の重みを動的に調整する。 これにより、KL分割を所望の値(集合点)に正確に制御することができ、これは後続の崩壊を回避し、非絡み合い表現を学習するのに有効である。 通常のVAEよりもELBOを改善するために、制御VAEのためのKL分割の設定点を設定するための簡易な理論解析を提供する。 VAEの目的の2つの用語のバランスをとる他の方法と比較して、コントロールVAEはより優れた学習ダイナミクスをもたらす。 特に、再建品質とKL分割の良好なトレードオフを達成することができる。 提案手法は,画像生成,言語モデリング,不等角表現学習の3つのタスクで評価する。 その結果,ControlVAEは,他の手法よりもはるかに優れた再現性が得られることがわかった。 言語モデリングタスクでは、制御VAEは後続の崩壊(KLの消滅)を避け、生成されたテキストの多様性を改善することができる。 さらに,提案手法は最適化軌道を変化させ,ELBOと画像生成の再現性を向上させる。

This paper reviews the novel concept of controllable variational autoencoder (ControlVAE), discusses its parameter tuning to meet application needs, derives its key analytic properties, and offers useful extensions and applications. ControlVAE is a new variational autoencoder (VAE) framework that combines the automatic control theory with the basic VAE to stabilize the KL-divergence of VAE models to a specified value. It leverages a non-linear PI controller, a variant of the proportional-integral-derivative (PID) control, to dynamically tune the weight of the KL-divergence term in the evidence lower bound (ELBO) using the output KL-divergence as feedback. This allows us to precisely control the KL-divergence to a desired value (set point), which is effective in avoiding posterior collapse and learning disentangled representations. In order to improve the ELBO over the regular VAE, we provide simplified theoretical analysis to inform setting the set point of KL-divergence for ControlVAE. We observe that compared to other methods that seek to balance the two terms in VAE's objective, ControlVAE leads to better learning dynamics. In particular, it can achieve a good trade-off between reconstruction quality and KL-divergence. We evaluate the proposed method on three tasks: image generation, language modeling and disentangled representation learning. The results show that ControlVAE can achieve much better reconstruction quality than the other methods for comparable disentanglement. On the language modeling task, ControlVAE can avoid posterior collapse (KL vanishing) and improve the diversity of generated text. Moreover, our method can change the optimization trajectory, improving the ELBO and the reconstruction quality for image generation.
翻訳日:2022-10-01 04:19:39 公開日:2020-10-31