このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211117となっている論文です。

PDF登録状況(公開日: 20211117)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子物理学と量子技術の最適化問題に対するリーマン幾何学と自動微分

Riemannian geometry and automatic differentiation for optimization problems of quantum physics and quantum technologies ( http://arxiv.org/abs/2007.01287v4 )

ライセンス: Link先を確認
Ilia A. Luchnikov, Mikhail E. Krechetov, Sergey N. Filippov(参考訳) 制約による最適化は量子物理学や量子情報科学において典型的な問題であり、高次元システムやテンソルネットワークのような複雑なアーキテクチャでは特に困難である。 ここではリーマン幾何学の考えを用いてユニタリ行列と等尺行列の多様体と正定値行列の錐の最適化を行う。 Combining this approach with the up-to-date computational methods of automatic differentiation, we demonstrate the efficacy of the Riemannian optimization in the study of the low-energy spectrum and eigenstates of multipartite Hamiltonians, variational search of a tensor network in the form of the multiscale entanglement-renormalization ansatz, preparation of arbitrary states (including highly entangled ones) in the circuit implementation of quantum computation, decomposition of quantum gates, and tomography of quantum states. 提案されたオープンソースソフトウェアとともに開発されたアプローチの普遍性により、複雑な量子アーキテクチャにリーマン最適化を適用することができ、例えばノイズの多い量子システムの最適制御にも適用できる。

Optimization with constraints is a typical problem in quantum physics and quantum information science that becomes especially challenging for high-dimensional systems and complex architectures like tensor networks. Here we use ideas of Riemannian geometry to perform optimization on manifolds of unitary and isometric matrices as well as the cone of positive-definite matrices. Combining this approach with the up-to-date computational methods of automatic differentiation, we demonstrate the efficacy of the Riemannian optimization in the study of the low-energy spectrum and eigenstates of multipartite Hamiltonians, variational search of a tensor network in the form of the multiscale entanglement-renormalization ansatz, preparation of arbitrary states (including highly entangled ones) in the circuit implementation of quantum computation, decomposition of quantum gates, and tomography of quantum states. Universality of the developed approach together with the provided open source software enable one to apply the Riemannian optimization to complex quantum architectures well beyond the listed problems, for instance, to the optimal control of noisy quantum systems.
翻訳日:2023-05-11 20:37:57 公開日:2021-11-17
# QGOpt: 量子技術のリーマン最適化

QGOpt: Riemannian optimization for quantum technologies ( http://arxiv.org/abs/2011.01894v4 )

ライセンス: Link先を確認
I. A. Luchnikov, A. Ryzhov, S. N. Filippov, H. Ouerdane(参考訳) 量子技術における多くの理論的問題は定式化され、制約付き最適化問題として取り扱われる。 等尺行列やユニタリ行列の直交性、量子チャネルのcptp特性、密度行列の条件といった最も一般的な量子力学的制約は、商あるいは埋め込みリーマン多様体と見なすことができる。 これにより、量子力学的制約付き最適化問題を解くためにリーマン最適化技術を利用することができる。 本稿では,量子技術における制約付き最適化のためのライブラリであるQGOptを紹介する。 qgoptは量子力学的制約の基底となるリーマン構造に依存しており、量子力学的制約を保ちながら標準勾配に基づく最適化法を適用できる。 さらに、QGOptはTensorFlow上に書かれており、自動微分によって最適化に必要な勾配を計算することができる。 量子ゲート分解と量子トモグラフィーの2つの応用例を示す。

Many theoretical problems in quantum technology can be formulated and addressed as constrained optimization problems. The most common quantum mechanical constraints such as, e.g., orthogonality of isometric and unitary matrices, CPTP property of quantum channels, and conditions on density matrices, can be seen as quotient or embedded Riemannian manifolds. This allows to use Riemannian optimization techniques for solving quantum-mechanical constrained optimization problems. In the present work, we introduce QGOpt, the library for constrained optimization in quantum technology. QGOpt relies on the underlying Riemannian structure of quantum-mechanical constraints and permits application of standard gradient based optimization methods while preserving quantum mechanical constraints. Moreover, QGOpt is written on top of TensorFlow, which enables automatic differentiation to calculate necessary gradients for optimization. We show two application examples: quantum gate decomposition and quantum tomography.
翻訳日:2023-04-25 11:38:23 公開日:2021-11-17
# チャネル識別のための並列・シーケンシャル・不定順序戦略間の厳密な階層構造

Strict hierarchy between parallel, sequential, and indefinite-causal-order strategies for channel discrimination ( http://arxiv.org/abs/2011.08300v2 )

ライセンス: Link先を確認
Jessica Bavaresco, Mio Murao, Marco T\'ulio Quintino(参考訳) 本稿では、逐次戦略が任意の並列戦略を上回る2つの量子ビット量子チャネルの最小エラー識別タスクの例を示す。 次に,不明確な因果順序を伴うチャネル識別のための2つの新しい手法を確立し,これら4つの戦略に厳密な階層が存在することを示す。 本手法は,コンピュータ支援型証明の汎用的手法を用いる。 また,この現象を示すチャネルのペアを見つける体系的な方法を提案し,戦略間の階層構造が我々の主な例に限らないことを示す。

We present an instance of a task of minimum-error discrimination of two qubit-qubit quantum channels for which a sequential strategy outperforms any parallel strategy. We then establish two new classes of strategies for channel discrimination that involve indefinite causal order and show that there exists a strict hierarchy among the performance of all four strategies. Our proof technique employs a general method of computer-assisted proofs. We also provide a systematic method for finding pairs of channels that showcase this phenomenon, demonstrating that the hierarchy between the strategies is not exclusive to our main example.
翻訳日:2023-04-23 23:23:47 公開日:2021-11-17
# 系統的エラー耐性マルチキュービットホロノミック絡み込みゲート

Systematic error tolerant multiqubit holonomic entangling gates ( http://arxiv.org/abs/2012.02935v4 )

ライセンス: Link先を確認
Jin-Lei Wu, Yan Wang, Jin-Xuan Han, Yongyuan Jiang, Jie Song, Yan Xia, Shi-Lei Su, and Weibin Li(参考訳) 量子ホロノミックゲートは局所ノイズに対するレジリエンスを内蔵しており、フォールトトレラント量子計算を実装するための有望なアプローチを提供する。 光アレイや超伝導回路に閉じ込められたrydberg原子を用いた高忠実性ホロノミック$(n+1)$-qubit制御ゲートを実現する。 提案手法を同定し,実効的な多体ハミルトニアンを推定し,多ビットゲートの動作条件を決定する。 同様に、マルチキュービットゲートは、レーザーパラメータのゆらぎや運動の劣化といった、系統的な誤差に免疫しており、N$制御原子は操作中に非常に安定なキュービット空間に留まっている。 c_n$-notゲートは、適切なパラメータの選択の下で、所定のゲート時間で同じレベルの忠実度に達することができ、系統的パラメータにおけるエラーに対するゲート耐性は、最適パルスエンジニアリングによってさらに強化される。 rydberg原子の場合、提案プロトコルはrydbergブロックやアンチブロックに基づく典型的なスキームとは本質的に異なる。 我々の研究は、リドベルク原子を光アレイや超伝導回路に閉じ込めた、堅牢な多ビットゲートを構築するための新しい経路を開拓した。 これは、閉じ込められた原子と製造可能な超伝導デバイスを用いたスケーラブルな量子計算の開発における現在の取り組みに寄与している。

Quantum holonomic gates hold built-in resilience to local noises and provide a promising approach for implementing fault-tolerant quantum computation. We propose to realize high-fidelity holonomic $(N+1)$-qubit controlled gates using Rydberg atoms confined in optical arrays or superconducting circuits. We identify the scheme, deduce the effective multi-body Hamiltonian, and determine the working condition of the multiqubit gate. Uniquely, the multiqubit gate is immune to systematic errors, i.e., laser parameter fluctuations and motional dephasing, as the $N$ control atoms largely remain in the much stable qubit space during the operation. We show that $C_N$-NOT gates can reach same level of fidelity at a given gate time for $N\leq5$ under a suitable choice of parameters, and the gate tolerance against errors in systematic parameters can be further enhanced through optimal pulse engineering. In case of Rydberg atoms, the proposed protocol is intrinsically different from typical schemes based on Rydberg blockade or antiblockade. Our study paves a new route to build robust multiqubit gates with Rydberg atoms trapped in optical arrays or with superconducting circuits. It contributes to current efforts in developing scalable quantum computation with trapped atoms and fabricable superconducting devices.
翻訳日:2023-04-22 00:53:04 公開日:2021-11-17
# ワークゾーンとコネクテッドオートモービルは調和のとれた共存の準備ができているか? Scoping Review and Research Agenda

Are Work Zones and Connected Automated Vehicles Ready for a Harmonious Coexistence? A Scoping Review and Research Agenda ( http://arxiv.org/abs/2102.00087v3 )

ライセンス: Link先を確認
Amjad Dehman, Bilal Farooq(参考訳) 近年のコネクテッド・アンド・オートマチック・ビークル(CAV)の出現は、輸送システムを変革すると予想されている。 CAV技術は急速に発展しており、急速に市場を浸透させようとしている。 一方で、建設・保守活動の活発化により、高規格道路の作業ゾーン(wzs)が一般的な地域となっている。 近い将来、CAVとWZが共存し、それらの相互作用は避けられない。 WZは、すべての車両を道路環境の急激かつ複雑な幾何学的変化に晒す。 しかし、WZは、非常に効率的なCAV関数の恩恵を正当に求めている交通の悪影響をもたらす空間収縮を課す。 CAVはWZ幾何を確実に横切ることができ、WZはCAV知能関数の恩恵を受けるべきである。 本稿では,wzsにおけるcavシステム導入の現状と鍵となる概念,機会,課題について概説する。 審査対象は、交通性能と行動、技術とインフラ、規制に関する考察である。 18のCAVモビリティ, 安全, 環境概念, 機能は, 上流, アプローチエリア, キューイングエリア, WZ活動, 終了エリアの5つの区分に区分された。 さらに,wz機能の検出,スマートトラヒックコントロールデバイス,コネクテッドwzsにおける各種技術,クロスボーダの調和,責任,保険,プライバシといった話題についても検討と議論が行われた。 論文はまた、専門家の評価とインプットが支援する研究ニーズのリストを備えた研究アジェンダも提供する。 論文の目的は鳥の目視を提供することだが、研究者、実践者、輸送機関に利益をもたらすために必要な詳細情報を提供することだ。

The recent advent of connected and automated vehicles (CAVs) is expected to transform the transportation system. CAV technologies are being developed rapidly and they are foreseen to penetrate the market at a rapid pace. On the other hand, work zones (WZs) have become common areas on highway systems as a result of the increasing construction and maintenance activities. The near future will therefore bring the coexistence of CAVs and WZs which makes their interaction inevitable. WZs expose all vehicles to a sudden and complex geometric change in the roadway environment, something that may challenge many of CAV navigation capabilities. WZs however also impose a space contraction resulting in adverse traffic impacts, something that legitimately calls for benefiting from the highly efficient CAV functions. CAVs should be able to reliably traverse WZ geometry and WZs should benefit from CAV intelligent functions. This paper reviews the state-of-the-art and the key concepts, opportunities, and challenges of deploying CAV systems at WZs. The reviewed subjects include traffic performance and behaviour, technologies and infrastructure, and regulatory considerations. Eighteen CAV mobility, safety, and environmental concepts and functions were distributed over the WZ area which was subdivided into five segments: further upstream, approach area, queuing area, WZ activity, and termination area. In addition, among other topics reviewed and discussed are detection of WZ features, smart traffic control devices, various technologies at connected WZs, cross-border harmonization, liability, insurance, and privacy. The paper also provides a research agenda with a list of research needs supported by experts rating and inputs. The paper aims to provide a bird eye view, but with necessary details that can benefit researchers, practitioners, and transportation agencies.
翻訳日:2023-04-13 08:44:29 公開日:2021-11-17
# ゲート定義量子ドットを用いた反強磁性ハイゼンベルク鎖の量子シミュレーション

Quantum simulation of antiferromagnetic Heisenberg chain with gate-defined quantum dots ( http://arxiv.org/abs/2103.08238v2 )

ライセンス: Link先を確認
C. J. van Diepen, T.-K. Hsiao, U. Mukhopadhyay, C. Reichl, W. Wegscheider, and L. M. K. Vandersypen(参考訳) 相互作用するフェルミオンの量子力学的相関はエキゾチック相の出現をもたらす。 磁気相は、電荷が局在しスピン自由度が残るフェルミ・ハッバードモデルのモット絶縁体系に自然に生じる。 この方法では、原子価結合の共鳴、フラストレーション磁性、スピン液体などの現象の発生が予測される。 工学的なハミルトニアンを持つ量子系は、そのようなスピン物理学のシミュレータとして利用でき、解析的手法や古典的コンピュータの能力を超えた洞察を与えることができる。 有用には、複雑な多体スピン状態の調製方法と関連する観測器へのアクセスが必要である。 ここでは、線形量子ドットアレイを用いたモット絶縁体系における磁性の量子シミュレーションを示す。 ハイゼンベルクスピンチェーンのエネルギースペクトルを特徴付け、同相交換結合の条件が満たされた時に識別することができる。 次に、ハイゼンベルクハミルトニアンの一重項および三重項部分空間における大域交換振動と多スピンコヒーレンスについて研究する。 最後に、均質スピンチェーンの低エネルギー大域一重項を作成し、各近接-近距離対の2スピン一重項測定と相関関係をプローブする。 ここで提示された手法と制御は、ゲート定義量子ドットアレイのチューニングとレイアウトの柔軟性から得られる量子磁性のシミュレーションの新しい機会を開く。

Quantum-mechanical correlations of interacting fermions result in the emergence of exotic phases. Magnetic phases naturally arise in the Mott-insulator regime of the Fermi-Hubbard model, where charges are localized and the spin degree of freedom remains. In this regime, the occurrence of phenomena such as resonating valence bonds, frustrated magnetism, and spin liquids is predicted. Quantum systems with engineered Hamiltonians can be used as simulators of such spin physics to provide insights beyond the capabilities of analytical methods and classical computers. To be useful, methods for the preparation of intricate many-body spin states and access to relevant observables are required. Here, we show the quantum simulation of magnetism in the Mott-insulator regime with a linear quantum-dot array. We characterize the energy spectrum for a Heisenberg spin chain, from which we can identify when the conditions for homogeneous exchange couplings are met. Next, we study the multispin coherence with global exchange oscillations in both the singlet and triplet subspace of the Heisenberg Hamiltonian. Last, we adiabatically prepare the low-energy global singlet of the homogeneous spin chain and probe it with two-spin singlettriplet measurements on each nearest-neighbor pair and the correlations therein. The methods and control presented here open new opportunities for the simulation of quantum magnetism benefiting from the flexibility in tuning and layout of gate-defined quantum-dot arrays.
翻訳日:2023-04-08 02:29:24 公開日:2021-11-17
# 原子時計と原子干渉計による重力赤方偏移試験

Gravitational Redshift Tests with Atomic Clocks and Atom Interferometers ( http://arxiv.org/abs/2104.14391v2 )

ライセンス: Link先を確認
Fabio Di Pumpo, Christian Ufrecht, Alexander Friedrich, Enno Giese, Wolfgang P. Schleich and William G. Unruh(参考訳) 原子間干渉実験は、原子の内部エネルギー分割を介して重力赤方偏移を探索することができ、そのため、異なる時空点における物質エネルギーと重力の結合の普遍性をテストするための直接アクセスを与える。 あらゆる自由度の完全量子化処理における等価原理の違反の可能性を含めることで、原子時計や原子干渉計において、重力赤方偏移違反に対する感度がどのように生じるのかを特徴付ける。 具体的には、(i)ポテンシャルをトラップする線形順序を超える寄与は、閉じ込められた原子時計の感度に繋がることを示す。 (ii) ブラッグ型干渉計は、状態に依存しない線形相互作用ポテンシャルを持つ内部状態の重畳であっても、最初は重力的赤方偏移試験には敏感であるが、例えば原子の再発射によって修正された構成は、特定の条件下でそのような試験を模倣することができる。 (iii) ガイド原子干渉計は原子時計に匹敵する。 (iv) 内部遷移は、光パルス原子干渉計が重力赤方偏移違反に敏感になる状態依存相互作用電位をもたらす。

Atomic interference experiments can probe the gravitational redshift via the internal energy splitting of atoms and thus give direct access to test the universality of the coupling between matter-energy and gravity at different spacetime points. By including possible violations of the equivalence principle in a fully quantized treatment of all degrees of freedom, we characterize how the sensitivity to gravitational redshift violations arises in atomic clocks and atom interferometers, as well as their underlying limitations. Specifically, we show that: (i.) Contributions beyond linear order to trapping potentials lead to such a sensitivity of trapped atomic clocks. (ii.) While Bragg-type interferometers, even with a superposition of internal states, with state-independent, linear interaction potentials are at first insensitive to gravitational redshift tests, modified configurations, for example by relaunching the atoms, can mimic such tests tests under certain conditions. (iii.) Guided atom interferometers are comparable to atomic clocks. (iv.) Internal transitions lead to state-dependent interaction potentials through which light-pulse atom interferometers can become sensitive to gravitational redshift violations.
翻訳日:2023-04-02 01:59:12 公開日:2021-11-17
# 相互作用量子場のためのテンソル再正規化群

Tensor Renormalization Group for interacting quantum fields ( http://arxiv.org/abs/2105.00010v3 )

ライセンス: Link先を確認
Manuel Campos, German Sierra, Esperanza Lopez(参考訳) 相互作用する量子場理論の2次元における分割関数を計算するための新しいテンソルネットワークアルゴリズムを提案する。 これはTensor Renormalization Group (TRG)プロトコルに基づいており、完全にフィールドのレベルで動作するように適応されている。 この戦略はrefで適用された。 [1] より単純な自由ボソンの場合に対して,優れた性能が得られる。 ここでは任意の自己相互作用を含み、摂動論の文脈で扱う。 ウィルソン実効作用とそのファインマングラフにおける拡大の実空間類似性が提案されている。 ベンチマークの$\lambda \phi^4$理論を用いて、自由エネルギーに対する$\lambda$補正の順序を評価する。 その結果,結合次元との高速な収束が示され,このアルゴリズムは絡み合いに対する相互作用の影響をうまく捉えていることがわかった。

We present a new tensor network algorithm for calculating the partition function of interacting quantum field theories in 2 dimensions. It is based on the Tensor Renormalization Group (TRG) protocol, adapted to operate entirely at the level of fields. This strategy was applied in Ref.[1] to the much simpler case of a free boson, obtaining an excellent performance. Here we include an arbitrary self-interaction and treat it in the context of perturbation theory. A real space analogue of the Wilsonian effective action and its expansion in Feynman graphs is proposed. Using a $\lambda \phi^4$ theory for benchmark, we evaluate the order $\lambda$ correction to the free energy. The results show a fast convergence with the bond dimension, implying that our algorithm captures well the effect of interaction on entanglement.
翻訳日:2023-04-01 23:43:53 公開日:2021-11-17
# 線形再スケーリングによる最大20量子ビットの変分量子固有解法の実験誤差軽減

Experimental error mitigation using linear rescaling for variational quantum eigensolving with up to 20 qubits ( http://arxiv.org/abs/2106.01264v3 )

ライセンス: Link先を確認
Eliott Rosenberg, Paul Ginsparg, Peter L. McMahon(参考訳) 量子コンピュータは様々な物理学や化学の問題を解決することができるが、量子ハードウェアのノイズは量子シミュレーションアルゴリズムの実行から正確な結果を得る能力を制限する。 可観測物の減衰期待値としてノイズをモデル化するなど,変動アルゴリズムに対するノイズの影響を軽減するための様々な手法が提案されている。 本稿では,ここで提案する新しい手法を含め,様々な手法をベンチマークする。 我々は,IBMの2つの量子コンピュータ上で最大20キュービットの変動量子-固有解法アルゴリズムを用いて,1次元混合場イジングモデルの基底状態エネルギーを推定する際の性能を比較した。 その結果,25層までのアンサッツ層を含む回路の真の値の10%以内のエネルギー回復が可能となり,各層は隣接する全ての量子ビット間のcnotゲートと全ての量子ビット上のy回転からなることがわかった。

Quantum computers have the potential to help solve a range of physics and chemistry problems, but noise in quantum hardware currently limits our ability to obtain accurate results from the execution of quantum-simulation algorithms. Various methods have been proposed to mitigate the impact of noise on variational algorithms, including several that model the noise as damping expectation values of observables. In this work, we benchmark various methods, including a new method proposed here. We compare their performance in estimating the ground-state energies of several instances of the 1D mixed-field Ising model using the variational-quantum-eigensolver algorithm with up to 20 qubits on two of IBM's quantum computers. We find that several error-mitigation techniques allow us to recover energies to within 10% of the true values for circuits containing up to about 25 ansatz layers, where each layer consists of CNOT gates between all neighboring qubits and Y-rotations on all qubits.
翻訳日:2023-03-28 01:23:09 公開日:2021-11-17
# 六方晶窒化ホウ素量子エミッタによるひずみ誘起結合と量子情報処理

Strain induced coupling and quantum information processing with hexagonal boron nitride quantum emitters ( http://arxiv.org/abs/2106.15396v2 )

ライセンス: Link先を確認
F. T. Tabesh, Q. Hassanzada, M. Hadian, A. Hashemi, I. Abdolhosseini Sarsari, and M. Abdi(参考訳) 六方晶窒化ホウ素ナノリボンを担持するホウ素空孔色中心の電子的自由度を結合して量子情報処理を行う電気機械的手法を提案する。 色中心の相互結合は、リボンの機械的運動とのカップリングによって提供され、それが局所ひずみに由来する。 結合強度は ab-initio 計算によって計算される。 窒化ホウ素単層膜上のホウ素空孔中心に対する密度汎関数理論(DFT)は、大きなひずみ感受性を示す。 本解析では,全ての曲げモードの影響を考慮に入れ,振動による熱雑音にもかかわらず,室温でも生存する2つ以上の量子ビット間の定常的絡み合いを実現できることを示した。 さらに、この絡み合いは、色中心の誤配置に対して堅牢である。 カラーセンターの効果的な結合は、それらを適切な位置に配置することで設計される。 したがって、定常グラフ状態の調整が可能である。 さらに,Dicke-Isingモデルの量子シミュレーションを行い,有限個の色中心においてもフォノン非平衡相転移が起こることを示す。 提案手法の定常性と光電場による電子状態のアクセシビリティを考えると, 六方晶窒化ホウ素膜における色中心による定常量子情報処理の実現の道を開くことができる。

We propose an electromechanical scheme where the electronic degrees of freedom of boron vacancy color centers hosted by a hexagonal boron nitride nanoribbon are coupled for quantum information processing. The mutual coupling of color centers is provided via their coupling to the mechanical motion of the ribbon, which in turn stems from the local strain. The coupling strengths are computed by performing ab-initio calculations. The density functional theory (DFT) results for boron vacancy centers on boron nitride monolayers reveal a huge strain susceptibility. In our analysis, we take into account the effect of all flexural modes and show that despite the thermal noise introduced through the vibrations one can achieve steady-state entanglement between two and more number of qubits that survives even at room temperature. Moreover, the entanglement is robust against mis-positioning of the color centers. The effective coupling of color centers is engineered by positioning them in the proper positions. Hence, one is able to tailor stationary graph states. Furthermore, we study the quantum simulation of the Dicke-Ising model and show that the phonon non-equilibrium phase transition occurs even for a finite number of color centers. Given the steady-state nature of the proposed scheme and accessibility of the electronic states through optical fields, our work paves the way for the realization of steady-state quantum information processing with color centers in hexagonal boron nitride membranes.
翻訳日:2023-03-24 19:32:33 公開日:2021-11-17
# 準静的障害によるMajorana qubitsの低下

Dephasing of Majorana qubits due to quasistatic disorder ( http://arxiv.org/abs/2106.15679v2 )

ライセンス: Link先を確認
P\'eter Boross, Andr\'as P\'alyi(参考訳) マヨラナゼロモードに基づく量子ビットは、特定のノイズタイプに対して堅牢であることが期待され、従って従来の量子ビットよりも優れた量子コンピューティングプラットフォームを提供する。 しかし、この堅牢性は完全なものではなく、不完全性は依然としてクビットデコヒーレンスにつながり、情報損失につながる。 本研究では,極小モデルにおけるMajorana-qubit dephasingについて理論的に検討する。 数値と一階の非退化摂動理論に基づくこのアプローチは,概念的に単純な物理像を提供し,ガウスの非退化を予測する。 システムパラメータが変化するにつれて, 乱れによる失語率は, クリーンシステムのマヨラナ発散に対して, 相外に振動することがわかった。 我々のモデルでは、障害が相関しない場合、一階の軽蔑が欠落する。 非相関性障害と高度相関性障害の交差関係を記述し,障害相関長をデファクト測定により特徴付けることができることを示した。 この結果は将来のMajorana-qubit実験の設計と解釈に活用されることを期待する。

Quantum bits based on Majorana zero modes are expected to be robust against certain noise types, and hence provide a quantum computing platform that is superior to conventional qubits. This robustness is not complete though: imperfections can still lead to qubit decoherence and hence to information loss. In this work, we theoretically study Majorana-qubit dephasing in a minimal model: in a Kitaev chain with quasistatic disorder. Our approach, based on numerics as well as first-order non-degenerate perturbation theory, provides a conceptually simple physical picture and predicts Gaussian dephasing. We show that, as system parameters are varied, the dephasing rate due to disorder oscillates out-of-phase with respect to the oscillating Majorana splitting of the clean system. In our model, first-order dephasing sweet spots are absent if disorder is uncorrelated. We describe the crossover between uncorrelated and highly correlated disorder, and show that dephasing measurements can be used to characterize the disorder correlation length. We expect that our results will be utilized for the design and interpretation of future Majorana-qubit experiments.
翻訳日:2023-03-24 19:14:21 公開日:2021-11-17
# 量子状態空間

The quantum condition space ( http://arxiv.org/abs/2107.05713v4 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 本研究は,まず量子物理学の基本特性を応用し,投影計測による事象の確率を評価することを提案する。 次に、量子法によってどのような事象が特定できるのかを研究するために、ビット列の古典的結果空間の双対空間であることが判明した条件空間の概念を導入する。 古典的な結果空間が量子状態空間を生成するのと同じように、条件空間は量子状態空間を生成し、この研究の中心的アイデアである。 量子条件空間は古典同値でない絡み合った条件の存在を許す。 さらに、量子状態空間はポントリャーギン双対性によって保証されるフーリエ変換によって量子状態空間と関連付けられ、したがってエントロピーの不確実性原理を定義することができる。 量子状態空間は、双対図による量子状態の理解の新しい視点を提供する。 加えて、量子条件は自身の物理的意味と実現を持ち、したがって確率評価のために事象を特徴づけるという本来の動機を超えた目的のために研究することができる。 最後に、条件空間と量子回路の関係は、量子状態が量子ゲートによって総じてどのように修正されるかについての洞察を与え、量子回路の複雑さをより深く理解する。

In this work we first propose to exploit the fundamental properties of quantum physics to evaluate the probability of events with projection measurements. Next, to study what events can be specified by quantum methods, we introduce the concept of the condition space, which is found to be the dual space of the classical outcome space of bit strings. Just like the classical outcome space generates the quantum state space, the condition space generates the quantum condition space that is the central idea of this work. The quantum condition space permits the existence of entangled conditions that have no classical equivalent. In addition, the quantum condition space is related to the quantum state space by a Fourier transform guaranteed by the Pontryagin duality, and therefore an entropic uncertainty principle can be defined. The quantum condition space offers a novel perspective of understanding quantum states with the duality picture. In addition, the quantum conditions have physical meanings and realizations of their own and thus may be studied for purposes beyond the original motivation of characterizing events for probability evaluation. Finally, the relation between the condition space and quantum circuits provides insights into how quantum states are collectively modified by quantum gates, which may lead to deeper understanding of the complexity of quantum circuits.
翻訳日:2023-03-22 18:02:37 公開日:2021-11-17
# オンザフライ単発状態分類のためのニューラルネットワーク

Neural networks for on-the-fly single-shot state classification ( http://arxiv.org/abs/2107.05857v2 )

ライセンス: Link先を確認
Rohit Navarathna, Tyler Jones, Tina Moghaddam, Anatoly Kulikov, Rohit Beriwal, Markus Jerger, Prasanna Pakkiam and Arkady Fedorov(参考訳) ニューラルネットワークは、画像認識から量子物理学モデルにおける位相遷移の同定まで、多くの実用的な応用において効率的であることが証明されている。 本稿では,ニューラルネットワークの単発量子計測における状態分類への応用について検討する。 超伝導トランスモン回路の分散読み出しにより, 2状態分類と3状態分類の割り当て忠実度が向上することを示す。 さらに重要なこととして,本手法はオーバーヘッドなくオンザフライデータ処理が可能であり,ハードディスクへの大規模なデータ転送も不要である。 さらに,ヘテロダイン検出法において,局所発振器の位相ドリフトなどの実験不完全性に対してニューラルネットワークを訓練する能力を示す。

Neural networks have proven to be efficient for a number of practical applications ranging from image recognition to identifying phase transitions in quantum physics models. In this paper we investigate the application of neural networks to state classification in a single-shot quantum measurement. We use dispersive readout of a superconducting transmon circuit to demonstrate an increase in assignment fidelity for both two and three state classification. More importantly, our method is ready for on-the-fly data processing without overhead or need for large data transfer to a hard drive. In addition we demonstrate the capacity of neural networks to be trained against experimental imperfections, such as phase drift of a local oscillator in a heterodyne detection scheme.
翻訳日:2023-03-22 11:54:45 公開日:2021-11-17
# 非古典状態計算用ツールボックス

Toolbox for non-classical state calculations ( http://arxiv.org/abs/2107.11129v2 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) 状態の非古典的性質を識別するためのウィグナー関数の使用に伴う計算上の課題は、生成関数の助けを借りて解決される。 これは任意の数の光子に対する光子置換状態のウィグナー関数の計算を可能にする。 はしご演算子による光子置換状態の形式的定義と,光子検出による実験的実装の両方を解析した。 これらの技術は、圧縮熱状態と圧縮フォック状態からの光子サブトラクションを考慮することで実証される。 生成関数はこれらの状態の光子統計にも用いられる。 これらの手法は、これらの状態のパラメータ依存の様々な側面を明らかにする。

Computational challenges associated with the use of Wigner functions to identify non-classical properties of states are addressed with the aid of generating functions. It allows the computation of the Wigner functions of photon-subtracted states for an arbitrary number of subtracted photons. Both the formal definition of photon-subtracted states in terms of ladder operators and the experimental implementation with heralded photon detections are analyzed. These techniques are demonstrated by considering photon subtraction from squeezed thermal states as well as squeezed Fock states. Generating functions are also used for the photon statistics of these states. These techniques reveal various aspects of the parameter dependences of these states.
翻訳日:2023-03-21 03:30:58 公開日:2021-11-17
# 光コンベアベルトにおける単一原子輸送-短絡-断熱アプローチの強化

Single-atom transport in optical conveyor belts: Enhanced shortcuts-to-adiabaticity approach ( http://arxiv.org/abs/2108.10336v3 )

ライセンス: Link先を確認
Sascha H. Hauck, Gernot Alber, Vladimir M. Stojanovic(参考訳) 凝縮トラップを移動させることによって実現された高速でほぼロスレスな原子輸送は、多くの量子技術応用の前提条件である。 この問題に関する理論的研究は, 単純化されたシナリオ (1次元系, 純粋高調波閉じ込めポテンシャルなど) にほとんど焦点が当てられているが, 移動光格子 ({\em光コンベヤベルト) の実験的に関連する設定で検討する。 本システムにおける単一原子輸送のモデル化は、その3次元無調波閉じ込めポテンシャルを十分に考慮して行う。 我々は、ルイス=リースフェルト不変量に基づく逆エンジニアリングアプローチ(英語版)(inverse-engineering approach)という、断熱性へのショートカット(英語版)(STA)の確立された方法を用いる。 フーリエスプリット作用素法による時間依存schr\"{o}dinger方程式の高精度な解析手法と数値伝搬を組み合わせることにより,両手法における原子輸送率を評価する。 システムパラメータの現実的な選択のために得られた結果から,光コンベヤベルトを用いた将来の実験に有効である。 さらに,eSTA法は,最下位の光学格子深度を除くすべてのSTA法よりも優れていることを明らかにした。

Fast and nearly lossless atomic transport, enabled by moving the confining trap, is a prerequisite for many quantum-technology applications. While theoretical studies of this problem have heretofore focussed almost exclusively on simplified scenarios (one-dimensional systems, purely harmonic confining potentials, etc.), we investigate it here in the experimentally relevant setting of a moving optical lattice ({\em optical conveyor belt}). We model single-atom transport in this system by taking fully into account its three-dimensional, anharmonic confining potential. We do so using the established method of shortcuts to adiabaticity (STA), i.e. an inverse-engineering approach based on Lewis-Riesenfeld invariants, as well as its recently proposed modification known as {\em enhanced} STA (eSTA). By combining well-controlled, advanced analytical techniques and the numerical propagation of a time-dependent Schr\"{o}dinger equation using the Fourier split operator method, we evaluate atom-transport fidelities within both approaches. Being obtained for realistic choices of system parameters, our results are relevant for future experiments with optical conveyor belts. Moreover, they reveal that in the system at hand the eSTA method outperforms its STA counterpart for all but the lowest optical-lattice depths.
翻訳日:2023-03-17 11:39:18 公開日:2021-11-17
# 量子多体系における前熱化、熱化、フェルミの黄金律

Prethermalization, thermalization, and Fermi's golden rule in quantum many-body systems ( http://arxiv.org/abs/2109.01705v3 )

ライセンス: Link先を確認
Krishnanand Mallayya and Marcos Rigol(参考訳) 弱摂動非可積分系における局所可観測物の前温化と熱化のダイナミクスについて、ハミルトニアンは$\hat{H}_0+g\hat{V}$、$\hat{H}_0$は非可積分であり$g\hat{V}$は摂動である。 数値連結クラスター展開(nlce)と厳密対角化を用いた周期境界を持つ有限系における熱力学的極限における平衡初期状態のダイナミクスについて検討する。 我々は、摂動が保存量 $\hat{h}_0$ を破ったときと、初期状態における保存量の値が$\mathcal{o}(1)$ であるときのみ、熱処理が速い熱前力学と遅い熱処理を伴う2段階の緩和過程を示すと主張する。 遅い熱化ダイナミクスは、fermi golden rule (fgr) 方程式を用いて正確に決定できるレート $\propto g^2$ によって特徴づけられる。 また、このような遅いダイナミクスの間は、投影された対角線とギブスのアンサンブルを用いて観測可能を記述することができ、それらの精度を対比する。

We study the prethermalization and thermalization dynamics of local observables in weakly perturbed nonintegrable systems, with Hamiltonians of the form $\hat{H}_0+g\hat{V}$, where $\hat{H}_0$ is nonintegrable and $g\hat{V}$ is a perturbation. We explore the dynamics of far from equilibrium initial states in the thermodynamic limit using a numerical linked cluster expansion (NLCE), and in finite systems with periodic boundaries using exact diagonalization. We argue that generic observables exhibit a two-step relaxation process, with a fast prethermal dynamics followed by a slow thermalizing one, only if the perturbation breaks a conserved quantity of $\hat{H}_0$ and if the value of the conserved quantity in the initial state is $\mathcal{O}(1)$ different from the one after thermalization. We show that the slow thermalizing dynamics is characterized by a rate $\propto g^2$, which can be accurately determined using a Fermi golden rule (FGR) equation. We also show that during such a slow dynamics, observables can be described using projected diagonal and Gibbs ensembles, and we contrast their accuracy.
翻訳日:2023-03-16 06:20:00 公開日:2021-11-17
# 空洞真空変動を伴うトポロジカルスピン液体へのライドバーグ氷の溶解

Melting a Rydberg ice to a topological spin liquid with cavity vacuum fluctuation ( http://arxiv.org/abs/2109.03741v2 )

ライセンス: Link先を確認
H. R. Kong, J. Taylor, Y. Dong, K. S. Choi(参考訳) 量子スピン液体(quantum spin liquids)は、ゼロ温度でも凍結できない物質のエキゾチックな相であり、サブシステムを監視する局所プローブによって混乱しているように見える。 量子揺らぎにより、位相スピン液体はその長距離の絡み合いによって現れ、分数統計量を持つ準粒子によって特徴づけられる。 ここでは,超高精細な光学キャビティのQED真空に2次元ライドバーグ氷を接触させ,スピンアイスのフラストレーション背景場を$\mathbb{Z}_2$スピン液体に動的に促進する。 我々は、wilson ループを持つ強い相関関係の rydberg 物質に存在する力学ゲージ理論の非圧電的性質を特徴づける。 サイト分解蛍光イメージングによりビソンとスピノンの対の増殖を観察し,変動キャビティ光子の動的相関を観測することにより,両アノン間の交換統計角$\theta_{\text{top}}\sim\pi/2$を検出する。 我々の研究は、トポロジカル量子物質中のエノンを初めて顕微鏡で検出し、相互作用する物質と光が個々の量子のレベルで等しい足場に置かれる強い結合多体QEDの到来を告げる。

Quantum spin liquids are exotic phases of matter that are prevented from being frozen even at zero temperature, and appear disordered by local probes that monitor the subsystems. Driven by quantum fluctuations, topological spin liquids are manifested by their long-range entanglement, and are characterized by quasiparticles with fractional statistics. Here, we make contact of a 2D Rydberg ice to a QED vacuum of an ultra-high-finesse optical cavity, and dynamically promote the frustrated background field of the spin ice to a $\mathbb{Z}_2$ spin liquid. We characterize the deconfined nature of the dynamical gauge theory residing in the strongly-correlated Rydberg matter with Wilsonian loops. We observe the proliferation of vison and spinon pairs by site-resolved fluorescence imaging, and detect the exchange statistical angle $\theta_{\text{top}}\sim\pi/2$ between the two anyons by monitoring the dynamical correlators of the fluctuating cavity photons. Our work provides the first microscopic detection of anyons in a topological quantum matter, and heralds the arrival of strongly-coupled many-body QED, where interacting matter and light are put on equal footing at the level of individual quanta.
翻訳日:2023-03-15 20:34:10 公開日:2021-11-17
# モノのインターネットにおける統合エッジコンピューティングのための軽量ブロックチェーンベースのアクセス制御方式

A lightweight blockchain-based access control scheme for integrated edge computing in the internet of things ( http://arxiv.org/abs/2111.06544v2 )

ライセンス: Link先を確認
Jie Zhang, Lingyun Yuan and Shanshan Xu(参考訳) iot(internet of things)のセキュリティ問題の観点から,エッジコンピューティングとブロックチェーンをiotと組み合わせることで,属性ベースの暗号化(abe)と属性ベースのアクセス制御(abac)モデルをエントリポイントとして統合することで,属性ベースの暗号化およびアクセス制御スキーム(abe-acs)が提案されている。 Fecing Edge-Iotは、ほとんどのリソース制限されたIoTデバイスと、高いコンピューティングパワーを持つノードで構成される異種ネットワークである。 高リソース消費と既存のブロックチェーンプラットフォームのデプロイが難しいという問題に対して,我々は,作業実証コンセンサスを改善した軽量ブロックチェーン(lbc)を設計した。 アクセス制御ポリシでは、しきい値ツリーとLSSSが、ポリシのプライバシを保護するためにブロックチェーンに格納された変換と割り当てに使用される。 デバイスとデータについては、6つのスマートコントラクトがABACとペナルティメカニズムを実現するように設計されている。 したがって、エッジ-iotプライバシ保護、データ、デバイス制御アクセスを実現する。 セキュリティ分析の結果,提案手法は安全性が高く,実験結果から,LBCのスループットが向上し,リソース消費が低減し,暗号化と復号化のコストが望ましいことが示された。

In view of the security issues of the Internet of Things (IoT), considered better combining edge computing and blockchain with the IoT, integrating attribute-based encryption (ABE) and attribute-based access control (ABAC) models with attributes as the entry point, an attribute-based encryption and access control scheme (ABE-ACS) has been proposed. Facing Edge-Iot, which is a heterogeneous network composed of most resource-limited IoT devices and some nodes with higher computing power. For the problems of high resource consumption and difficult deployment of existing blockchain platforms, we design a lightweight blockchain (LBC) with improvement of the proof-of-work consensus. For the access control policies, the threshold tree and LSSS are used for conversion and assignment, stored in the blockchain to protect the privacy of the policy. For device and data, six smart contracts are designed to realize the ABAC and penalty mechanism, with which ABE is outsourced to edge nodes for privacy and integrity. Thus, our scheme realizing Edge-Iot privacy protection, data and device controlled access. The security analysis shows that the proposed scheme is secure and the experimental results show that our LBC has higher throughput and lower resources consumption, the cost of encryption and decryption of our scheme is desirable.
翻訳日:2023-03-08 07:58:20 公開日:2021-11-17
# Groverの探索アルゴリズムに基づく4要素量子秘密共有方式

A Four-Party Quantum Secret-Sharing Scheme based on Grover's Search Algorithm ( http://arxiv.org/abs/2111.08932v1 )

ライセンス: Link先を確認
Deepa Rathi, Farhan Musanna, Sanjeev Kumar(参考訳) この研究は量子探索アルゴリズム(QSA)と量子秘密共有(QSS)のアマルガムを提示している。 提案したQSSスキームはグロバーの3粒子量子状態を利用する。 このスキームでは、ディーラーは古典情報をマーク状態として符号化して符号化された状態を作成し、3人の参加者間で状態の量子ビットを共有する。 参加者はキュービットを結合し、3キュービット状態の測定結果としてマークされた状態を見つける。 セキュリティ分析によると、このスキームは悪意のある参加者や盗聴者に対して厳格である。 既存の方式と比較して、我々のプロトコルはかなり公正であり、符号化能力が高い。 シミュレーション分析は,クラウドプラットフォームであるIBM-QE上で行われ,実際の実現可能性を示す。

The work presents an amalgam of quantum search algorithm (QSA) and quantum secret sharing (QSS). The proposed QSS scheme utilizes Grover's three-particle quantum state. In this scheme, the dealer prepares an encoded state by encoding the classical information as a marked state and shares the states' qubits between three participants. The participants combine their qubits and find the marked state as a measurement result of the three-qubit state. The security analysis shows the scheme is stringent against malicious participants or eavesdroppers. In comparison to the existing schemes, our protocol fairs pretty well and has a high encoding capacity. The simulation analysis is done on the cloud platform IBM-QE thereby showing the practical feasibility of the scheme.
翻訳日:2023-03-07 22:01:56 公開日:2021-11-17
# 積分式による行列対数に対する量子アルゴリズム

Quantum Algorithm for Matrix Logarithm by Integral Formula ( http://arxiv.org/abs/2111.08914v1 )

ライセンス: Link先を確認
Songling Zhang, Hua Xiang(参考訳) 行列対は重要な行列関数の1つである。 近年,行列ベクトル積 $f(a)b$ に対応する状態$|f\rangle$ を計算する量子アルゴリズムが [takahira, et al] で提案されている。 Cauchy の積分公式 QIC, Vol.20, No.1\&2, pp.14-36, 2020] による行列関数の量子アルゴリズム しかし、行列対数には適用できない。 本稿では,LCU法とブロック符号化法をサブルーチンとして用いて,$\log(A) = \log(A)|b\rangle / \|\log(A)|b\rangle\|$を$\log(A)b$の積分表現とGauss-Legendreの二次規則によって計算する量子アルゴリズムを提案する。

The matrix logarithm is one of the important matrix functions. Recently, a quantum algorithm that computes the state $|f\rangle$ corresponding to matrix-vector product $f(A)b$ is proposed in [Takahira, et al. Quantum algorithm for matrix functions by Cauchy's integral formula, QIC, Vol.20, No.1\&2, pp.14-36, 2020]. However, it can not be applied to matrix logarithm. In this paper, we propose a quantum algorithm, which uses LCU method and block-encoding technique as subroutines, to compute the state $|f\rangle = \log(A)|b\rangle / \|\log(A)|b\rangle\|$ corresponding to $\log(A)b$ via the integral representation of $\log(A)$ and the Gauss-Legendre quadrature rule.
翻訳日:2023-03-07 22:01:45 公開日:2021-11-17
# 自動再分級計画における幾何学的類似度の測定

Measuring Geometric Similarity Across Possible Plans for Automated Redistricting ( http://arxiv.org/abs/2111.08889v1 )

ライセンス: Link先を確認
Gilvir Gill(参考訳) 議会再編成に対するアルゴリズムと統計のアプローチは、アメリカ合衆国におけるゲリーマンデリングの定量化のための裁判所や再編成委員会において、ますます貴重なツールになりつつある。 様々なマルコフ連鎖モンテカルロ分布が、予測された選挙結果とコンパクト性の幾何量化器の観点からどのように異なるかに関する文献は存在するが、異なる議会再分権計画の類似性を測定するための作業は依然として行われている。 本稿では,類似性の直観的かつ解釈的な尺度と,2つの計画間で同じ選挙区に留まっている州の面積や人口の比率に対応する代入行列を簡潔に紹介する。 次に、多項式時間でこの測度を計算する方法を示し、潜在的なユースケースを簡潔に示す。

Algorithmic and statistical approaches to congressional redistricting are becoming increasingly valuable tools in courts and redistricting commissions for quantifying gerrymandering in the United States. While there is existing literature covering how various Markov chain Monte Carlo distributions differ in terms of projected electoral outcomes and geometric quantifiers of compactness, there is still work to be done on measuring similarities between different congressional redistricting plans. This paper briefly introduces an intuitive and interpretive measure of similarity, and a corresponding assignment matrix, that corresponds to the percentage of a state's area or population that stays in the same congressional district between two plans. We then show how to calculate this measure in polynomial time and briefly demonstrate some potential use-cases.
翻訳日:2023-03-07 22:00:44 公開日:2021-11-17
# 量子世界の国連安全保障理事会:IBM量子コンピュータを用いた量子匿名ベトプロトコルの実験的実現

United Nation Security Council in Quantum World: Experimental Realization of Quantum Anonymous Veto Protocols using IBM Quantum Computer ( http://arxiv.org/abs/2111.09028v1 )

ライセンス: Link先を確認
Satish Kumar and Anirban Pathak(参考訳) 国際連合安全保障理事会には15人の委員がおり、うち5人の常任委員は評議会が採った不利な決定に対して拒否権を行使することができる。 ある状況では、拒否権を使用するメンバーは匿名を希望することがある。 この必要性は、特別なタイプの投票と見なすことができる匿名の拒否権プロトコルの必要性に繋がる。 近年,量子匿名vetoのプロトコルがいくつか設計されており,vetoの匿名性を確保する上での量子的優位性を明確に示している。 しかし、量子匿名vetoの効率的なプロトコルは、まだ実験的に実現されていない。 ここではibmq casablancaというibm量子コンピュータとbell、ghz、クラスタ状態といった異なる量子リソースを用いて、量子匿名vetoのプロトコルを2つ実装する。 この一連の原理実証実験では、現在の技術を用いて、国連理事会のように拒否できる人数が小さい場合、量子匿名拒否権のプロトコルを実験的に実現することができることが観察されている。 さらに、ここで実装されているベル状態ベースのプロトコルは、異なる種類のノイズ(振幅減衰、位相減衰、脱分極、ビットフリップノイズ)が存在する場合と同様に、他のプロトコルのghz/クラスタ状態ベース実装よりも優れた性能を発揮することが観察されている。 また, 忠実性への影響の低減により, 位相減衰, 振幅減衰, デポーラライジング, ビットフリップの順に, 異なる雑音モデルを順序付けできることがわかった。

United Nation (UN) security council has fifteen members, out of which five permanent members of the council can use their veto power against any unfavorable decision taken by the council. In certain situation, a member using right to veto may prefer to remain anonymous. This need leads to the requirement of the protocols for anonymous veto which can be viewed as a special type of voting. Recently, a few protocols for quantum anonymous veto have been designed which clearly show quantum advantages in ensuring anonymity of the veto. However, none of the efficient protocols for quantum anonymous veto have yet been experimentally realized. Here, we implement 2 of those protocols for quantum anonymous veto using an IBM quantum computer named IBMQ Casablanca and different quantum resources like Bell, GHZ and cluster states. In this set of proof-of-principle experiments, it's observed that using the present technology, a protocol for quantum anonymous veto can be realized experimentally if the number of people who can veto remains small as in the case of UN council. Further, it's observed that Bell state based protocol implemented here performs better than the GHZ/cluster state based implementation of the other protocol in an ideal scenario as well as in presence of different types of noise (amplitude damping, phase damping, depolarizing and bit-flip noise). In addition, it's observed that based on diminishing impact on fidelity, different noise models studied here can be ordered in ascending order as phase damping, amplitude damping, depolarizing, bit-flip.
翻訳日:2023-03-07 21:56:01 公開日:2021-11-17
# 希土類イオンドープ結晶における単一イオン量子ビットを用いた高接続量子プロセッサノード

High connectivity quantum processor nodes using single-ion-qubits in rare-earth-ion-doped crystals ( http://arxiv.org/abs/2111.09016v1 )

ライセンス: Link先を確認
Adam Kinos, Lars Rippe, Diana Serrano, Andreas Walther, Stefan Kr\"oll(参考訳) ランダムにドープされた希土類イオン結晶に量子プロセッサノードを構築し,その特性を解析するための2つのプロトコルを提案する。 ドーピング濃度とアクセス可能なレーザー調整性を変えることで、プロセッサノードは数十から1,000ドル近い量子ビットしか持たない。 さらに、各キュービットが相互作用できる平均キュービット数は、接続によって表され、ほんの数から約100の間にあるように部分的に調整することができる。 また、レーザーの波長の制限が結果にどのように影響するかを研究し、100$ ghzのチューニング範囲は、平均して1キュービットあたり50ドルの接続を持つ約100ドルのキュービットに制限されていると結論づけた。 さらに大きなプロセッサを構築するために、これらの量子プロセッサノードのいくつかは、光インタフェースや空飛ぶ量子ビットといった、マルチノードアーキテクチャで相互に接続されるべきである、というビジョンがある。 私たちの結果は、強力なポテンシャルを持つ量子コンピューティングプラットフォームとしてレアアースイオンベースのシステムを確立することを奨励しています。

We present two protocols for constructing quantum processor nodes in randomly doped rare-earth-ion crystals and analyze their properties. By varying the doping concentration and the accessible laser tunability, the processor nodes can contain anywhere from only a few tens to almost $1000$ qubits. Furthermore, the average number of qubits each qubit can interact with, denoted by the connectivity, can be partly tailored to lie between just a few and roughly one hundred. We also study how a limited tunability of the laser affects the results, and conclude that a tuning range of $100$ GHz limits the results to roughly $100$ qubits with around $50$ connections per qubit on average. In order to construct an even larger processor, the vision is that several of these quantum processor nodes should be connected to each other in a multi-node architecture via, e.g., optical interfaces or flying qubits in the form of light. Our results are encouraging for establishing the rare-earth-ion-based systems as a quantum computing platform with strong potential and can serve to focus the efforts within the field.
翻訳日:2023-03-07 21:55:32 公開日:2021-11-17
# 量子コンピューティングアルゴリズムによるシステム状態の古典的および量子的相関の定量化

Toward a quantum computing algorithm to quantify classical and quantum correlation of system states ( http://arxiv.org/abs/2111.09000v1 )

ライセンス: Link先を確認
M. Mahdian and H. Davoodi Yeganeh(参考訳) 量子状態の量子的および古典的相関を得るためには最適な測定が必要であり、重要な困難は、他の部分を測定することによって一つのシステムに関する最大情報を取得する方法である。 一般的な設定では,ノイズ-中間スケール量子(nisq)技術の下でシステム状態の古典的および量子的相関を達成するために,変分ハイブリッド量子古典(vhqc)アルゴリズムを設計した。 まず、密度行列をベクトル表現に写像し、それを二重ヒルベルト空間に表示し、純粋な状態に変換する。 次に、測定演算子をサブシステムの一部に適用し、相関の量を決定するための変分原理と古典的最適化を用いる。 我々は,いくつかの密度行列の相関を求めるアルゴリズムの性能を数値的に検証し,アルゴリズムの出力と正確な計算とを両立させる。

Optimal measurement is required to obtain the quantum and classical correlations of a quantum state, and the crucial difficulty is how to acquire the maximal information about one system by measuring the other part; in other words, getting the maximum information corresponds to preparing the best measurement operators. Within a general setup, we designed a variational hybrid quantum-classical (VHQC) algorithm to achieve classical and quantum correlations for system states under the Noisy-Intermediate Scale Quantum (NISQ) technology. To employ, first, we map the density matrix to the vector representation, which displays it in a doubled Hilbert space, and it's converted to a pure state. Then we apply the measurement operators to a part of the subsystem and use variational principle and a classical optimization for the determination of the amount of correlation. We numerically test the performance of our algorithm at finding a correlation of some density matrices, and the output of our algorithm is compatible with the exact calculation.
翻訳日:2023-03-07 21:54:39 公開日:2021-11-17
# 閉じ込められたイオンを含む量子パーセプトロンゲートの実現

Realization of a quantum perceptron gate with trapped ions ( http://arxiv.org/abs/2111.08977v1 )

ライセンス: Link先を確認
P. Huber, J. Haber, P. Barthel, J. J. Garc\'ia-Ripoll, E. Torrontegui and C. Wunderlich(参考訳) イオントラップ量子コンピュータにおけるパーセプトロン量子ゲートの実装について報告する。 このスキームでは、パーセプトロンのターゲット量子ビットは、複数の量子ビットとの相互作用によって状態を変化させる。 ターゲット量子ビットは、他のパーセトロンとネストした場合に普遍近似となる調整可能なシグモイドスイッチング挙動を示す。 この手順は、ターゲットキュービットに適用されたドレッシングフィールドの断熱的ランプダウンに基づいて構成される。 また、2つの逐次パーセプトロン量子ゲートを用いてXNORゲートを実装し、2つの入力キュービットのパリティが偶々である場合にのみ、パーセプトロン量子ビットの状態が変化する。 応用性は高次元ゲートに一般化でき、パーセプトロンオブザーバブルの任意の有界連続函数の再構成も可能である。

We report the implementation of a perceptron quantum gate in an ion-trap quantum computer. In this scheme, a perceptron's target qubit changes its state depending on the interactions with several qubits. The target qubit displays a tunable sigmoid switching behaviour becoming a universal approximator when nested with other percetrons. The procedure consists on the adiabatic ramp-down of a dressing-field applied to the target qubit. We also use two successive perceptron quantum gates to implement a XNOR-gate, where the perceptron qubit changes its state only when the parity of two input qubits is even. The applicability can be generalized to higher-dimensional gates as well as the reconstruction of arbitrary bounded continuous functions of the perceptron observables.
翻訳日:2023-03-07 21:54:25 公開日:2021-11-17
# NVダイアモンドチップにおけるミクロンスケールNMR信号の幾何学的依存性

Geometry dependence of micron-scale NMR signals on NV-diamond chips ( http://arxiv.org/abs/2111.09201v1 )

ライセンス: Link先を確認
Fleming Bruckmaier, Karl Briegel, Dominik B. Bucher(参考訳) 小型核磁気共鳴分光法(NMR)は、窒素空孔(NV)中心を用いた量子センシング分野の急速な発展により、最近かなりの進歩を遂げている。 これらの光学活性なダイヤモンド格子の欠陥は、高いスペクトル分解能を持つピコリットル範囲で前例のない小さな体積を探索するために用いられる。 しかし、NMR信号の大きさはダイヤモンドセンサーとサンプルの幾何学の両方に強く依存している。 サンプルスピン双極子モーメントのモンテカルロ積分を用いて、異なる測地線に対するnv中心の向きに沿った磁場投影を解析した。 NMR信号はダイヤモンド表面に対するNV中心配向に強く依存していることを示す。 現在使われている平面ダイヤモンドセンサーの信号はサンプル体積の関数として収束するが、より最適なジオメトリーは対数的に発散する信号をもたらす。 最後に, 球状, 円筒状, ほぼ2次元サンプル体積の予測信号をシミュレートし, 単細胞生物学やNV系超分極法といったNV-NMRの興味深い応用への応用について検討した。 結果は、顕微鏡オブジェクトのNV-NMR分光のガイドラインを提供する。 キーワード:窒素空孔中心、核磁気共鳴、モンテカルロ、量子センシング、サンプル幾何学、小体積NMR。

Small volume nuclear magnetic resonance spectroscopy (NMR) has recently made considerable progress due to rapid developments in the field of quantum sensing using nitrogen vacancy (NV) centers. These optically active defects in the diamond lattice have been used to probe unprecedented small volumes on the picoliter range with high spectral resolution. However, the NMR signal size depends strongly on both the diamond sensor's and sample's geometry. Using Monte-Carlo integration of sample spin dipole moments, the magnetic field projection along the orientation of the NV center for different geometries has been analysed. We show that the NMR signal strongly depends on the NV-center orientation with respect to the diamond surface. While the signal of currently used planar diamond sensors converges as a function of the sample volume, more optimal geometries lead to a logarithmically diverging signal. Finally, we simulate the expected signal for spherical, cylindrical and nearly-2D sample volumes, covering relevant geometries for interesting applications in NV-NMR such as single-cell biology or NV-based hyperpolarization. The results provide a guideline for NV-NMR spectroscopy of microscopic objects. Keywords: Nitrogen vacancy center, nuclear magnetic resonance, Monte-Carlo, quantum sensing, sample geometry, small volume NMR.
翻訳日:2023-03-07 21:47:04 公開日:2021-11-17
# 非互換観測値に対する分散とウィグナー・ヤネーゼスキュー情報による厳密な和の不確実性関係

Tighter sum uncertainty relations via variance and Wigner-Yanase skew information for N incompatible observables ( http://arxiv.org/abs/2111.09147v1 )

ライセンス: Link先を確認
Qing-Hua Zhang and Shao-Ming Fei(参考訳) 任意の有限 n 量子力学的観測量に対する分散と歪情報に基づく和の不確かさ関係について検討する。 関連する不確実性関係に関する終了結果を改善する新たな不確実性不等式を導出する。 詳細な例は、不確実性の不平等の利点を説明するために提供されます。

We study the sum uncertainty relations based on variance and skew information for arbitrary finite N quantum mechanical observables. We derive new uncertainty inequalities which improve the exiting results about the related uncertainty relations. Detailed examples are provided to illustrate the advantages of our uncertainty inequalities.
翻訳日:2023-03-07 21:46:35 公開日:2021-11-17
# 光量子工学のためのキャビティ内Rydberg超原子:コヒーレント制御、単ショット検出および光$\pi$位相シフト

An Intracavity Rydberg Superatom for Optical Quantum Engineering: Coherent Control, Single-Shot Detection and Optical $\pi$ Phase Shift ( http://arxiv.org/abs/2111.09088v1 )

ライセンス: Link先を確認
Julien Vaneecloo, S\'ebastien Garcia, Alexei Ourjoumtsev(参考訳) 我々は,光量子技術のための新しい汎用的なビルディングブロックを,単一2レベル超原子として機能するキャビティ内Rydbergブロック原子アンサンブルに基づいて実証した。 私たちは、その状態をコヒーレントに制御し、1枚のショットで光学的に検出します。 重要なことに、我々は超原子に依存した$\pi$の位相回転を空洞から反射した光に示す。 状態操作と検出と共に、決定論的フォトニックエンタングゲートを実装し、非古典的な光状態を生成するための重要な要素である。

We demonstrate a new versatile building block for optical quantum technologies, based on an intracavity Rydberg-blockaded atomic ensemble acting as a single two-level superatom. We coherently control its state and optically detect it in a single shot with a $95\%$ efficiency. Crucially, we demonstrate a superatom-state-dependent $\pi$ phase rotation on the light reflected from the cavity. Together with the state manipulation and detection, it is a key ingredient for implementing deterministic photonic entangling gates and for generating highly non-classical light states.
翻訳日:2023-03-07 21:45:28 公開日:2021-11-17
# 自動車経路最適化の事例研究

A Case Study of Vehicle Route Optimization ( http://arxiv.org/abs/2111.09087v1 )

ライセンス: Link先を確認
Veronika Lesch and Maximilian K\"onig and Samuel Kounev and Anthony Stein and Christian Krupitzer(参考訳) 過去数十年間、古典的な車両ルーティング問題(VRP)、すなわち車両に一連の命令を割り当て、それらのルートを計画する計画が集中的に研究されてきた。 車両への順序の割り当てと経路の割り当てがnp完全問題であるため、現実のアプリケーションで適用される制約や制約、いわゆるリッチvrp(rvrp)を考慮に入れず、単一の側面に限定されることが多い。 本研究では,主に関連する実世界の制約と要件を取り入れる。 時間ウィンドウと停止時間のための2段階戦略とタイムラインアルゴリズムを提案し、遺伝的アルゴリズム(GA)とアントコロニー最適化(ACO)を個別に適用して最適解を求める。 4つの最先端アルゴリズムに対する8つの異なる問題インスタンスの評価は,提案手法が与えられた制約をすべて合理的に処理することを示す。

In the last decades, the classical Vehicle Routing Problem (VRP), i.e., assigning a set of orders to vehicles and planning their routes has been intensively researched. As only the assignment of order to vehicles and their routes is already an NP-complete problem, the application of these algorithms in practice often fails to take into account the constraints and restrictions that apply in real-world applications, the so called rich VRP (rVRP) and are limited to single aspects. In this work, we incorporate the main relevant real-world constraints and requirements. We propose a two-stage strategy and a Timeline algorithm for time windows and pause times, and apply a Genetic Algorithm (GA) and Ant Colony Optimization (ACO) individually to the problem to find optimal solutions. Our evaluation of eight different problem instances against four state-of-the-art algorithms shows that our approach handles all given constraints in a reasonable time.
翻訳日:2023-03-07 21:45:16 公開日:2021-11-17
# 非一様磁場中における相対論的電子のダイナミクスと量子計算・天体物理学への応用

Dynamics of relativistic electrons in non-uniform magnetic fields and its applications in quantum computing and astrophysics ( http://arxiv.org/abs/2111.09334v1 )

ライセンス: Link先を確認
Srishty Aggarwal, Banibrata Mukhopadhyay(参考訳) 我々は、相対論的電子が空間的パワーロー変化を持つ磁場に閉じ込められるときの二次元運動を探索する。 その影響は、一定の磁場の場合には生じる縮退の解消、磁場が中心から増加または減少しているかどうかに応じて、スピンアップおよびスピンダウン電子のランダウ準位を特別に整列すること、正の磁場から角運動量ゼロのランダウ準位を分割すること、物質の状態方程式の変化などである。 可変磁場におけるランドウ量子化(LQ)は、凝縮物質から量子情報まで、様々な分野の学際的応用を持つ。 例えば、空間的に増加する磁場の存在下での電子の量子速度の増加と、lqとローレンツの力を同時に考慮して白色小星の超チャンドラセハル質量の達成について論じる。

We explore the two-dimensional motion of relativistic electrons when they are trapped in magnetic fields having spatial power-law variation. Its impacts include lifting of degeneracy that emerged in the case of the constant magnetic field, special alignment of Landau levels of spin-up and spin-down electrons depending on whether the magnetic field is increasing or decreasing from the centre, splitting of Landau levels of electrons with zero angular momentum from that of positive one and the change in the equation of state of matter. Landau quantization (LQ) in variable magnetic fields has interdisciplinary applications in a variety of disciplines ranging from condensed matter to quantum information. As examples, we discuss the increase in quantum speed of the electron in presence of spatially increasing magnetic field; and the attainment of super Chandrasekhar mass of white dwarfs by taking into account LQ and Lorentz force simultaneously.
翻訳日:2023-03-07 21:39:03 公開日:2021-11-17
# キタエフ・ハニカム非アベリアスピン液体の動的エノン生成

Dynamical anyon generation in Kitaev honeycomb non-Abelian spin liquids ( http://arxiv.org/abs/2111.09325v1 )

ライセンス: Link先を確認
Yue Liu, Kevin Slagle, Kenneth S. Burch, Jason Alicea(参考訳) 相対論的モット絶縁体は「キタエフ材料」と呼ばれ、非アベリア異性体を包含するスピン液体を実現する可能性がある。 この設定において、フォールトトレラント量子コンピューティングの応用に動機づけられ、ユニバーサルエッジ物理を利用する動的アノンジェネレーションプロトコルを導入する。 この装置は、スピン液体とトポロジカルに自明な位相の間で調整できる狭い橋で接続された非アベリアのエノンのエネルギー的に安価な位置を定義するスピン液体に穴をあける。 解析と広範囲なシミュレーションによって定量化された中間時間スケールで、橋を自明からスピン液体に変調し、非可換なアノンをo(1)確率で穴に沈殿させる。 必要なブリッジ操作は、キタエフ材を局所的な可変交換場を囲む磁気トンネル接合アレイに統合することで実装できる。 本プロトコルは,既存の読み出し戦略と組み合わせて,適用磁場ゼロの北エフ材料におけるトポロジカル量子ビット実験への経路を明らかにする。

Relativistic Mott insulators known as 'Kitaev materials' potentially realize spin liquids hosting non-Abelian anyons. Motivated by fault-tolerant quantum-computing applications in this setting, we introduce a dynamical anyon-generation protocol that exploits universal edge physics. The setup features holes in the spin liquid, which define energetically cheap locations for non-Abelian anyons, connected by a narrow bridge that can be tuned between spin liquid and topologically trivial phases. We show that modulating the bridge from trivial to spin liquid over intermediate time scales -- quantified by analytics and extensive simulations -- deposits non-Abelian anyons into the holes with O(1) probability. The required bridge manipulations can be implemented by integrating the Kitaev material into magnetic tunnel junction arrays that engender locally tunable exchange fields. Combined with existing readout strategies, our protocol reveals a path to topological qubit experiments in Kitaev materials at zero applied magnetic field.
翻訳日:2023-03-07 21:38:43 公開日:2021-11-17
# 極性・誘電体材料の騒音電気測定

Noise Electrometry of Polar and Dielectric Materials ( http://arxiv.org/abs/2111.09315v1 )

ライセンス: Link先を確認
Rahul Sahay, Satcher Hsieh, Eric Parsonnet, Lane W. Martin, Ramamoorthy Ramesh, Norman Y. Yao, Shubhayu Chatterjee(参考訳) 電気双極子モーメントを有する量子ビットセンサは、材料中の偏光変動に起因する電気ノイズの結果、極性または誘電性材料近傍に置かれたときに、その非偏光率に付加的な寄与を得る。 ここでは, この緩和速度を試料プローブ距離, プローブ周波数, 温度などの実験的に調整可能なパラメータの関数として特徴付け, 幅広い周波数・長さの絶縁材料の誘電特性の窓を提供することを示した。 提案手法の実験的実現可能性について論じ, 偏極励起から相転移, およびリラクタ強誘電体における障害支配物理まで, 様々な現象を探索する能力について述べる。 本提案は,既存のツールや手法を補完するパラメータレジーム内の極性および誘電性物質の新しいテーブルトッププローブへの道を開くものである。

A qubit sensor with an electric dipole moment acquires an additional contribution to its depolarization rate when it is placed in the vicinity of a polar or dielectric material as a consequence of electrical noise arising from polarization fluctuations in the material. Here, we characterize this relaxation rate as a function of experimentally tunable parameters such as sample-probe distance, probe-frequency, and temperature, and demonstrate that it offers a window into dielectric properties of insulating materials over a wide range of frequencies and length scales. We discuss the experimental feasibility of our proposal and illustrate its ability to probe a variety of phenomena, ranging from collective polar excitations to phase transitions and disorder-dominated physics in relaxor ferroelectrics. Our proposal paves the way for a novel table-top probe of polar and dielectric materials in a parameter regime complementary to existing tools and techniques.
翻訳日:2023-03-07 21:38:27 公開日:2021-11-17
# 量子クエンチによる非平衡多体ダイナミクス

Non-Equilibrium Many-Body Dynamics Following A Quantum Quench ( http://arxiv.org/abs/2111.09300v1 )

ライセンス: Link先を確認
Manan Vyas(参考訳) ランダムクエンチに従えば孤立的に相互作用する多体量子系の非平衡ダイナミクスを解析的および数値的に研究する。 ランダム行列の組込みガウス直交アンサンブル(EGOE)によるハミルトニアン系のモデル化を行う。 EGOEは、多体量子システム間の相互作用における積分可能性からカオスへの交差を研究するパラダイムモデルである。 スペクトル分散に基づく汎用的な定式化を行い, 生存確率の緩和ダイナミクスを相互作用のランク関数として記述する。 我々の分析結果は数値とよく一致している。

We study analytically and numerically the non-equilibrium dynamics of an isolated interacting many-body quantum system following a random quench. We model the system Hamiltonian by Embedded Gaussian Orthogonal Ensemble (EGOE) of random matrices with one plus few-body interactions for fermions. EGOE are paradigmatic models to study the crossover from integrability to chaos in interacting many-body quantum systems. We obtain a generic formulation, based on spectral variances, for describing relaxation dynamics of survival probabilities as a function of rank of interactions. Our analytical results are in good agreement with numerics.
翻訳日:2023-03-07 21:37:45 公開日:2021-11-17
# コロナウイルスパンデミックにおけるマイクロブロッギングデータセットの感度解析

Sentiment Analysis of Microblogging dataset on Coronavirus Pandemic ( http://arxiv.org/abs/2111.09275v1 )

ライセンス: Link先を確認
Nosin Ibna Mahbub, Md Rakibul Islam, Md Al Amin, Md Khairul Islam, Bikash Chandra Singh, Md Imran Hossain Showrov, Anirudda Sarkar(参考訳) 感情分析は、現在の状況を更新するために人々に大きな影響を与えます。 コロナウイルス(Coronavirus, COVID-19)は、新型コロナウイルス2によって引き起こされる感染性疾患である。 このパンデミックによって何百万人もの命が影響を受け続けており、いくつかの国で完全な封鎖が実施されている。 このロックダウンの間、人々はソーシャルネットワークを使って自分の感情を表現し、自分自身を落ち着かせる方法を見つけてきた。 人々はマイクロブログのウェブサイトを通じて自分の感情を広めている。この病気の最も予防的なステップの1つは、人々が家にいて、外出しているときに距離を保つことを意識する社会化である。 Twitterはアイディアを交換するための人気のあるオンラインソーシャルメディアプラットフォームだ。 異なる感情を投稿することで、人々の認識に役立てることができる。 しかし、偽ニュースを広めて人々を怖がらせる人もいる。 そのため、肯定的、否定的、中立的な考えを識別し、肯定的な意見を大衆に届け、人々に意識を広めることが必要である。 さらに、大量のデータがTwitterに浮かんでいる。 したがって、データセットのコンテキストを特定することも重要です。 本稿では,複数の機械学習アルゴリズムを用いて感情評価のためのTwitterデータセットを分析した。 その後、感情に基づいてデータセットのコンテキスト学習を見つけました。

Sentiment analysis can largely influence the people to get the update of the current situation. Coronavirus (COVID-19) is a contagious illness caused by the coronavirus 2 that causes severe respiratory symptoms. The lives of millions have continued to be affected by this pandemic, several countries have resorted to a full lockdown. During this lockdown, people have taken social networks to express their emotions to find a way to calm themselves down. People are spreading their sentiments through microblogging websites as one of the most preventive steps of this disease is the socialization to gain people's awareness to stay home and keep their distance when they are outside home. Twitter is a popular online social media platform for exchanging ideas. People can post their different sentiments, which can be used to aware people. But, some people want to spread fake news to frighten the people. So, it is necessary to identify the positive, negative, and neutral thoughts so that the positive opinions can be delivered to the mass people for spreading awareness to the people. Moreover, a huge volume of data is floating on Twitter. So, it is also important to identify the context of the dataset. In this paper, we have analyzed the Twitter dataset for evaluating the sentiment using several machine learning algorithms. Later, we have found out the context learning of the dataset based on the sentiments.
翻訳日:2023-03-07 21:37:14 公開日:2021-11-17
# 量子状態の等確率の原理

The Principle of equal Probabilities of Quantum States ( http://arxiv.org/abs/2111.09246v1 )

ライセンス: Link先を確認
Michalis Psimopoulos, Emilie Dafflon(参考訳) エネルギー準位と平均状態の概念に分散した粒子の構成の等確率に関するボルツマンの原理に基づく従来の理論を用いて、等しいエネルギー準位$\epsilon_0$と、n$識別可能な粒子の合計エネルギー$e$の分布に関する統計的問題を解く。 特に、粒子が \k{appa}-番目のエネルギーレベルにある確率は、すなわち \k{appa} Quanta を含み、$p(\kappa) {\displaystyle \frac {\displaystyle \binom{N+s-\kappa-2}{N-2}}{\displaystyle \binom{N+s-1}{N-1}} \;\;\;\; \;\; \kappa = 0, 1, 2, \cdots, s$ この文脈で示される特別な場合(N=4$, $s=4$)は、最も確率の高い状態の代替概念が$sと$Nの有限値に対して有効でないことを示す。 本稿では、n$ の粒子に対して $s$ quanta を分配し、ボース統計と一致して量子状態の等確率の新たな原理を導入することで、代わりに $p(\kappa)$ を導出する。 そこで,本論文では,量子論と古典統計力学の等価性に着目した2つのアプローチの解析を行った。 p(\kappa)$ はボルツマンの法則 $p(\epsilon) = \displaystyle \frac{1}{\langle \epsilon \rangle}e^{-\frac{\epsilon}{\langle \epsilon \rangle}} \;\;\;\;\;\;\;\;0\leq \epsilon < +\infty$ ここで$\langle \epsilon \rangle = e/n$ となる。 したがって、上記の法則に繋がる粒子のエネルギーに対する古典的な先験確率の原理は、ここで量子力学によって正当化される。

The statistical problem of the distribution of $s$ quanta of equal energy $\epsilon_0$ and total energy $E$ among $N$ distinguishable particles is resolved using the conventional theory based on Boltzmann's principle of equal probabilities of configurations of particles distributed among energy levels and the concept of average state. In particular, the probability that a particle is in the \k{appa}-th energy level i.e. contains \k{appa} quanta, is given by $p(\kappa)=\displaystyle \frac{\displaystyle \binom{N+s-\kappa-2}{N-2}}{\displaystyle \binom{N+s-1}{N-1}} \;\;\; ; \;\;\; \kappa = 0, 1, 2, \cdots, s$ In this context, the special case ($N=4$, $s=4$) presented indicates that the alternative concept of most probable state is not valid for finite values of $s$ and $N$. In the present article we derive alternatively $p(\kappa)$ by distributing $s$ quanta over $N$ particles and by introducing a new principle of equal probability of quantum states, where the quanta are indistinguishable in agreement with the Bose statistics. Therefore, the analysis of the two approaches presented in this paper highlights the equivalence of quantum theory with classical statistical mechanics for the present system. At the limit $\epsilon_{o} \rightarrow 0 $; $s \rightarrow \infty $; $s \epsilon_{o} = E \sim$ fixed, where the energy of the particles becomes continuous, $p(\kappa)$ transforms to the Boltzmann law $P(\epsilon) = \displaystyle \frac{1}{\langle \epsilon \rangle}e^{-\frac{\epsilon}{\langle \epsilon \rangle}} \;\;\; ; \;\;\; 0\leq \epsilon < +\infty$ where $\langle \epsilon \rangle = E/N$. Hence, the classical principle of equal a priori probabilities for the energy of the particles leading to the above law, is justified here by quantum mechanics.
翻訳日:2023-03-07 21:36:41 公開日:2021-11-17
# 悪振動:SARS-CoV-2感染における量子トンネル

Bad vibrations: Quantum tunnelling in the context of SARS-CoV-2 infection ( http://arxiv.org/abs/2111.10259v1 )

ライセンス: Link先を確認
Betony Adams, Ilya Sinayskiy, Rienk van Grondelle and Francesco Petruccione(参考訳) SARS-CoV-2パンデミックは、ウイルス感染のメカニズムの研究に新たな緊急性を追加した。 しかし、ワクチンはこの特定のアウトブレイクに対する予防策を提供する一方で、新しいパンデミックの時代が予測されている。 これに加えて、新型コロナウイルス(COVID-19)はウイルス後症候群や医療負担に注意を向けている。 ウイルスのメカニズムに関する知識は、できるだけ広い研究分野を通じて増大しているように思われる。 この目的のために、量子生物学は、特にウイルス宿主侵入の重要な第1段階に関して、この問題に不可欠な新しい洞察を与えるかもしれないと提案する。 量子生物学の研究は、しばしばエネルギーや電荷移動を中心に行われる。 これは主に光合成の文脈にあるが、嗅覚や神経受容体のような細胞受容体は、ロック・アンド・キー機構を増強するために振動補助電子トンネルを用いる可能性も示唆されている。 量子トンネルは酵素機能でも観測されている。 酵素はSARS-CoV-2ウイルスによる宿主細胞の侵入に関与している。 嗅覚受容体などの受容体も新型コロナウイルスによって破壊されている。 これらの観測に基づいて、SARS-CoV-2感染の文脈において量子トンネルが重要であることを示す。 我々は、例えばウイルススパイクタンパク質の振動モードと理想化受容体における電荷移動の可能性に関する簡単なモデルを用いてこれを説明する。 以上の結果から,スパイクタンパク質の振動モードが電子移動を増強する特異なパラメータ構造を示した。 このことを念頭に置いて、SARS-CoV-2伝達を防ぐための新しい治療薬は、その振動スペクトルによって同定される可能性がある。

The SARS-CoV-2 pandemic has added new urgency to the study of viral mechanisms of infection. But while vaccines offer a measure of protection against this specific outbreak, a new era of pandemics has been predicted. In addition to this, COVID-19 has drawn attention to post-viral syndromes and the healthcare burden they entail. It seems integral that knowledge of viral mechanisms is increased through as wide a research field as possible. To this end we propose that quantum biology might offer essential new insights into the problem, especially with regards to the important first step of virus-host invasion. Research in quantum biology often centres around energy or charge transfer. While this is predominantly in the context of photosynthesis there has also been some suggestion that cellular receptors such as olfactory or neural receptors might employ vibration assisted electron tunnelling to augment the lock-and-key mechanism. Quantum tunnelling has also been observed in enzyme function. Enzymes are implicated in the invasion of host cells by the SARS-CoV-2 virus. Receptors such as olfactory receptors also appear to be disrupted by COVID-19. Building on these observations we investigate the evidence that quantum tunnelling might be important in the context of infection with SARS-CoV-2. We illustrate this with a simple model relating the vibronic mode of, for example, a viral spike protein to the likelihood of charge transfer in an idealised receptor. Our results show a distinct parameter regime in which the vibronic mode of the spike protein enhances electron transfer. With this in mind, novel therapeutics to prevent SARS-CoV-2 transmission could potentially be identified by their vibrational spectra.
翻訳日:2023-03-07 21:29:11 公開日:2021-11-17
# グラフ彩色問題に対する進化的アルゴリズム

Evolutionary Algorithm for Graph Coloring Problem ( http://arxiv.org/abs/2111.09743v1 )

ライセンス: Link先を確認
Robiul Islam and Arup Kumar Pramanik(参考訳) グラフ彩色問題(英: graph coloring problem、gcp)は、コンピュータ科学におけるnp問題の一つ。 グラフが与えられたとき、そのタスクは、エッジを共有する頂点が同じ色を受け取り、使用済みの色数が最小となるようなすべての頂点に色を割り当てることである。 異なるヒューリスティック、メタヒューリスティック、機械学習およびハイブリッドソリューション法がソリューションを得るために適用されている。 この問題を解決するために、進化的アルゴリズムの変異を用いる。 この目的のために,グラフカラー化問題に対してバイナリエンコーディングを導入する。 このバイナリエンコーディングは、変異、評価、免疫系、マージを容易にし、カラー化を動的に減少させるのに役立つ。 グラフ彩色のための従来の進化的アルゴリズム(EA)では、k-彩色アプローチが用いられ、最小限に到達するまでEAは繰り返し実行される。 本論文では,色数理論上界,すなわち最大外度+1から始め,進化過程において各世代における色数を動的に減少させるために,いくつかの色を未使用にする。 標準dimacsベンチマークをテストし、resent論文を比較した。 最大値は期待彩色と同じであり、予測彩色数より大きいデータセットは少ない。

The graph coloring problem (GCP) is one of the most studied NP-HARD problems in computer science. Given a graph , the task is to assign a color to all vertices such that no vertices sharing an edge receive the same color and that the number of used colors, is minimal. Different heuristic, meta-heuristic, machine learning and hybrid solution methods have been applied to obtain the solution. To solve this problem we use mutation of evolutionary algorithm. For this purpose we introduce binary encoding for Graph Coloring Problem. This binary encoding help us for mutation, evaluate, immune system and merge color easily and also reduce coloring dynamically. In the traditional evolutionary algorithm (EA) for graph coloring, k-coloring approach is used and the EA is run repeatedly until the lowest possible is reached. In our paper, we start with the theoretical upper bound of chromatic number, that is, maximum out-degree + 1 and in the process of evolution some of the colors are made unused to dynamically reduce the number of color in every generation. We test few standard DIMACS benchmark and compare resent paper. Maximum results are same as expected chromatic color and few data sets are larger than expected chromatic number
翻訳日:2023-03-07 21:28:47 公開日:2021-11-17
# 宇宙におけるシリコン単光子検出器の放射線誘起暗黒数

Radiation-Induced Dark Counts for Silicon Single-Photon Detectors in Space ( http://arxiv.org/abs/2111.09435v1 )

ライセンス: Link先を確認
Brandon A. Wilson, Alexander Miloshevsky, David A. Hooper, and Nicholas A. Peters(参考訳) 量子通信ネットワークで使用する衛星上の単一光子検出器は、宇宙の自然放射線環境から大きな暗黒数率の上昇を引き起こすことができる。 イオン化放射線による検出器の材料格子の変位損傷は、検出器の永久的な暗カウントの増加をもたらす。 本研究では、高高度の核爆発による核乱れ環境からの追加放射を衛星に搭載した単一光子アバランシェダイオードの放射による暗黒計数率を解析した。 低軌道衛星の検出器にとって、プロトンは最大の放射線損傷源であり、南大西洋の異常と極性カスプを通過する際の露光を最小にする軌道を選択することで最も軽減される。 中地球軌道と静止軌道上の検出器は、10mm以上のアルミニウムで遮蔽されている場合、検出器に対する放射線損傷の少ない点において最良のプラットフォームとなる。 高高度の核爆発が発生した場合、爆発によって生成された人工放射線ベルトは、低軌道衛星上のシリコン単一光子検出器に過大な損傷を与え、1日以内に量子通信に適さない。 高軌道衛星は、人工放射帯からのわずかな暗黒数の増加しか受けない。

Single-photon detectors operating on satellites for use in a quantum communications network can incur large dark count rate increases from the natural radiation environment of space. Displacement damage to the material lattice of a detector from the ionizing radiation can result in a permanent dark count increase in the detector. In this work, we analyze the radiation-induced dark count rate of a silicon single-photon avalanche diode onboard a satellite at different orbiting altitudes, as well as, the additional radiation from a nuclear-disturbed environment caused by a high-altitude nuclear explosion. For detectors on low Earth orbit satellites, protons are the biggest source of radiation damage and are best mitigated by choosing an orbit that minimizes exposure when passing through the South Atlantic Anomaly and Polar Cusps. Detectors on medium Earth orbit and geostationary orbit satellites, if shielded by more than 10 mm of aluminum, provide the best platform in terms of the least amount of radiation damage to the detectors. In the event of a high-altitude nuclear explosion, the artificial radiation belts produced by the explosion will cause too much damage to silicon single-photon detectors on low Earth orbit satellites and render them unfit for quantum communications in less than a day. Higher orbit satellites will only suffer minor dark count rate increases from the artificial radiation belts.
翻訳日:2023-03-07 21:28:29 公開日:2021-11-17
# 炭素クラスターからの$h$-BNの紫外量子放射体

Ultraviolet quantum emitters in $h$-BN from carbon clusters ( http://arxiv.org/abs/2111.09428v1 )

ライセンス: Link先を確認
Song Li, Anton Pershin, Gerg\H{o} Thiering, P\'eter Udvarhelyi, and Adam Gali(参考訳) 六方晶窒化ホウ素(hBN)の紫外(UV)量子放射体は、その優れた光学応答のためにかなりの関心を集めている。 最近の実験では、炭素不純物を紫外線単一光子放出源として捉えている。 ここでは, 第一原理計算に基づいて, 置換炭素欠陥がhBN内の紫外線色中心を発達させる能力を体系的に評価する。 検討中の17の欠陥構成のうち、計算されたゼロフォノン線(ZPL)が実験的4.1-eV放出信号によく一致する炭素環欠陥(6C)を特に強調する。 また,6Cの光学特性と他の欠陥の光学特性を比較し,発光機構の重要な相違点を概説した。 本研究は, この色中心から外乱への大きな反応に関する新たな知見を提供し, 分光学的手法による炭素置換欠陥の確実な同定への道を開いた。

Ultraviolet (UV) quantum emitters in hexagonal boron nitride (hBN) have generated considerable interest due to their outstanding optical response. Recent experiments have identified a carbon impurity as a possible source of UV single photon emission. Here, based on the first principles calculations, we systematically evaluate the ability of substitutional carbon defects to develop the UV colour centres in hBN. Of seventeen defect configurations under consideration, we particularly emphasize the carbon ring defect (6C), for which the calculated zero-phonon line (ZPL) agrees well the experimental 4.1-eV emission signal. We also compare the optical properties of 6C with those of other relevant defects, thereby outlining the key differences in the emission mechanism. Our findings provide new insights about the large response from this colour centre to external perturbations and pave the way to a robust identification of the particular carbon substitutional defects by spectroscopic methods.
翻訳日:2023-03-07 21:28:09 公開日:2021-11-17
# アーベル格子ゲージ理論の有限巻数における位相

Phases at finite winding number of an Abelian lattice gauge theory ( http://arxiv.org/abs/2111.09364v1 )

ライセンス: Link先を確認
Paolo Stornati, Debasish Banerjee, Karl Jansen, Philipp Krah(参考訳) 純粋なゲージ理論は、特に励起の性質の観点から、純粋なスカラーやフェルミオン物質を持つ理論とはかなり異なる。 例えば、スカラー理論やフェルミオン理論では、超局所励起を生成できる。 ゲージ理論では、そのような励起はゲージ不変性に反しない閉ループである必要がある。 本稿では,アベリア格子ゲージ理論の弦状励起に関連する凝縮現象について述べる。 これらの現象は、行列積状態を用いたはしご幾何学における2+1次元の$U(1)$量子リンクモデルの数値シミュレーションによって研究される。 本稿では,このような弦状の励起の存在を特徴とする基底状態の存在を示す。 これらはトロロンの凝縮によって引き起こされる。 また, 基礎状態におけるプラーペットの特性と凝縮現象の存在との関係についても検討した。

Pure gauge theories are rather different from theories with pure scalar and fermionic matter, especially in terms of the nature of excitations. For example, in scalar and fermionic theories, one can create ultra-local excitations. For a gauge theory, such excitations need to be closed loops that do not violate gauge invariance. In this proceedings, we present a study on the condensation phenomenon associated with the string-like excitations of an Abelian lattice gauge theory. These phenomena are studied through numerical simulations of a $U(1)$ quantum link model in 2+1 dimensions in a ladder geometry using matrix product states. In this proceedings, we show the existence of ground states characterized by the presence of such string-like excitations. These are caused due to the condensation of torelons. We also study the relationship between the properties of the plaquettes in the ground state and the presence of such condensation phenomenon.
翻訳日:2023-03-07 21:27:54 公開日:2021-11-17
# フラストレーションのない局所スピン鎖をガッピングする再正規化法

Renormalization method for proving frustration-free local spin chains are gapped ( http://arxiv.org/abs/2111.09358v1 )

ライセンス: Link先を確認
Ari Mizel and Van Molino(参考訳) 物理系の鍵となる性質は、ガッピングされるかどうか、すなわちスペクトルギャップが系の大きさに依存しない正の下界を持つかどうかに依存する。 量子情報理論では、システムがガッピングされるかどうかという問題は、計算上も重要な意味を持つ。 本稿では,スピン鎖がギャップを持つことを示すために,厳密な再正規化法を提案する。 このアプローチは、ガッピング系の基底状態が減衰相関を示すという事実を利用する。 提案手法は2つの興味深いモデルがガッピングされていることを示すために適用され、既定の方法が決定的でない場合でも証明を成功させる。

Key properties of a physical system depend on whether it is gapped, i.e. whether its spectral gap has a positive lower bound that is independent of system size. In quantum information theory, the question of whether a system is gapped has essential computational significance as well. Here, we introduce a rigorous renormalization method to prove that a spin chain is gapped. This approach exploits the fact that ground states of gapped systems exhibit decaying correlations. We apply the method to show that two interesting models are gapped, successfully completing proofs even where the previously established methods are inconclusive.
翻訳日:2023-03-07 21:27:44 公開日:2021-11-17
# エネルギースロープパラメータ(ESP)存在下におけるCO二原子分子の熱的性質

Thermal Properties of CO Diatomic Molecule in the Presence of Energy Slope Parameter (ESP) ( http://arxiv.org/abs/2111.09355v1 )

ライセンス: Link先を確認
Collins Edet, Uduakobong Okorie and Akpan Ikot(参考訳) 本研究では,CO二原子分子に対するエネルギー依存型クラッツァーポテンシャル(EDKP)の熱的性質について述べる。 Ikotらによって得られた非相対論的エネルギースペクトル。 EDKPの[7]を用いて分割関数を数値的に取得した。 この分割関数は、それぞれエネルギー勾配パラメータの負の値と正の値に対して、この系の熱特性(比熱容量、エントロピー、平均エネルギー、ヘルムホルツ自由エネルギー)を得るために用いられる。 エネルギー勾配パラメータがシステムの挙動を異なる値で制御することが観測された。 本研究の結果は分子物理学に直接応用される。

In this research article, thermal properties of energy dependent Kratzer potential (EDKP) for CO diatomic molecule is presented. The non-relativistic energy spectra earlier obtained by Ikot et al. [7] for EDKP was utilized to numerically obtain the partition function. This partition function was then used to obtain the thermal properties (such specific heat capacity, entropy, mean energy and Helmholtz free energy) of this system numerically for negative and positive values of the energy slope parameter respectively. It is observed that the energy slope parameter regulates the behavior of the system for different values. The results of this study will find direct application in molecular physics.
翻訳日:2023-03-07 21:27:34 公開日:2021-11-17
# クラウドコンピューティング資源を用いた室内環境におけるSARS-CoV-2送信リスク評価事例

Case study of SARS-CoV-2 transmission risk assessment in indoor environments using cloud computing resources ( http://arxiv.org/abs/2111.09353v1 )

ライセンス: Link先を確認
Kumar Saurabh, Santi Adavani, Kendrick Tan, Masado Ishii, Boshun Gao, Adarsh Krishnamurthy, Hari Sundar, Baskar Ganapathysubramanian(参考訳) HPCクラスタ上で複雑な流れシミュレーションを行う。 しかし、HPCリソースの限られた可用性と従来のスーパーコンピュータインフラ上での学習曲線は、クラウド上にフローシミュレーションソフトウェアをデプロイすることに注意を向けている。 さまざまな屋内教室シナリオでcovid-19感染リスクを評価可能な,複雑な計算フレームワークをクラウドサービスに抽象化し,デプロイする方法を紹介する。 このようなクラウドベースのパーソナライズされた計画ツールを利用することで、教育機関、医療機関、公共部門労働者(裁判所、警察署、空港など)、その他の団体が、トランスミッションリスクに対する様々な対人インタラクションシナリオを包括的に評価することができる。 我々はdendro-ktメッシュ生成ツールとpetscソルバを使用して、シミュレーションフレームワークをazure cloud frameworkにデプロイする。 クラウド抽象化は、RocketMLクラウドインフラストラクチャによって提供される。 クラウドマシンの性能を最先端のHPCマシンであるTACC Fronteraと比較する。 その結果,クラウドベースのhpcリソースは,シミュレーションソフトウェアを迅速かつ効率的にデプロイするための多様なエンドユーザにとって有効な戦略であることが示唆された。

Complex flow simulations are conventionally performed on HPC clusters. However, the limited availability of HPC resources and steep learning curve of executing on traditional supercomputer infrastructure has drawn attention towards deploying flow simulation software on the cloud. We showcase how a complex computational framework -- that can evaluate COVID-19 transmission risk in various indoor classroom scenarios -- can be abstracted and deployed on cloud services. The availability of such cloud-based personalized planning tools can enable educational institutions, medical institutions, public sector workers (courthouses, police stations, airports, etc.), and other entities to comprehensively evaluate various in-person interaction scenarios for transmission risk. We deploy the simulation framework on the Azure cloud framework, utilizing the Dendro-kT mesh generation tool and PETSc solvers. The cloud abstraction is provided by RocketML cloud infrastructure. We compare the performance of the cloud machines with state-of-the-art HPC machine TACC Frontera. Our results suggest that cloud-based HPC resources are a viable strategy for a diverse array of end-users to rapidly and efficiently deploy simulation software.
翻訳日:2023-03-07 21:27:22 公開日:2021-11-17
# 対称監視量子回路における電荷研削の場理論

Field theory of charge sharpening in symmetric monitored quantum circuits ( http://arxiv.org/abs/2111.09336v1 )

ライセンス: Link先を確認
Fergus Barratt, Utkarsh Agrawal, Sarang Gopalakrishnan, David A. Huse, Romain Vasseur, Andrew C. Potter(参考訳) 監視量子回路(mrcs)は、面積則と体積則絡みスケーリングの間の測定誘起位相遷移を示す。 保存電荷を持つmrcはさらに2つの異なる体積則絡み合い相を示し、対称性破壊あるいは位相秩序の平衡概念によって特徴づけられず、むしろ電荷揺らぎの非平衡ダイナミクスと定常状態分布によって特徴づけられる。 これらには、電荷情報の急激なスクランブルにより電荷の空間的ゆらぎが緩やかに減衰するチャージ・ファジィ相と、電荷の量子的ゆらぎを中立度の体積法的な絡みを損なうことなく測定するチャージ・シャープ相が含まれる。 連続時間、弱測定限界を定め、これらの位相の制御された複製場理論と、その間にある電荷-塩分転移を1つの空間次元で記述する。 電荷ファジィ相は連続的に進化する臨界指数を持つ臨界相であり、コステルリッツ・トゥーレス相から短距離相関電荷-シャープ相へと変化する。 我々は,これらのスケーリング予測を大規模行列積状態シミュレーションを用いて離散時間射影回路モデルにも適用し,高次元への一般化を議論する。

Monitored quantum circuits (MRCs) exhibit a measurement-induced phase transition between area-law and volume-law entanglement scaling. MRCs with a conserved charge additionally exhibit two distinct volume-law entangled phases that cannot be characterized by equilibrium notions of symmetry-breaking or topological order, but rather by the non-equilibrium dynamics and steady-state distribution of charge fluctuations. These include a charge-fuzzy phase in which charge information is rapidly scrambled leading to slowly decaying spatial fluctuations of charge in the steady state, and a charge-sharp phase in which measurements collapse quantum fluctuations of charge without destroying the volume-law entanglement of neutral degrees of freedom. By taking a continuous-time, weak-measurement limit, we construct a controlled replica field theory description of these phases and their intervening charge-sharpening transition in one spatial dimension. We find that the charge fuzzy phase is a critical phase with continuously evolving critical exponents that terminates in a modified Kosterlitz-Thouless transition to the short-range correlated charge-sharp phase. We numerically corroborate these scaling predictions also hold for discrete-time projective-measurement circuit models using large-scale matrix-product state simulations, and discuss generalizations to higher dimensions.
翻訳日:2023-03-07 21:26:56 公開日:2021-11-17
# スマートフォンを用いた新型コロナウイルス検出のためのクラウドソーシング接触追跡モデル

A Crowdsourced Contact Tracing Model to Detect COVID-19 Patients using Smartphones ( http://arxiv.org/abs/2112.01244v1 )

ライセンス: Link先を確認
Linta Islam, Mafizur Rahman, Nabila Ahmad, Tasnia Sharmin, Jannatul Ferdous Sorna(参考訳) 新型コロナウイルス(covid-19)の感染拡大で世界中で数百万人が死亡した。 世界中の研究者が協力し、この感染症を防ぐために適切なワクチンを提供する多くの課題に直面している。 そこで,本研究では,新型コロナウイルス感染地域に対する意識を広めることによって,新型コロナウイルスの感染予防に十分なシステムを構築した。 このモデルは、モバイルクラウドソーシングによる新型コロナウイルス(covid-19)患者の位置識別のために定式化されている。 このシステムでは、政府は感染した新型コロナウイルス患者の情報を更新する。 脆弱性のある地域の他のユーザーには、安全のため6フィートまたは1.8メートルの距離に留まるよう通知する。 我々はハベルシン公式と円公式を用いて安全でない領域を生成する。 この研究結果を裏付ける有効な情報が1万件も集められている。 アルゴリズムは毎回10のテストケースでテストされ、データセットは1000に増加する。 そのアルゴリズムの実行時間は線形に伸びている。 したがって、提案アルゴリズムは多項式時間で実行可能であると言える。 アルゴリズムの正確性もテストされ、提案手法が正確かつ効率的であることが判明した。 また,本システムを実装し,ユーザからのフィードバックを得て評価を行う。 これにより、当システムを利用して安全な地域を保ち、患者の感染率を下げることができる。

Millions of people have died all across the world because of the COVID-19 outbreak. Researchers worldwide are working together and facing many challenges to bring out the proper vaccines to prevent this infectious virus. Therefore, in this study, a system has been designed which will be adequate to stop the outbreak of COVID-19 by spreading awareness of the COVID-19 infected patient situated area. The model has been formulated for Location base COVID-19 patient identification using mobile crowdsourcing. In this system, the government will update the information about inflected COVID-19 patients. It will notify other users in the vulnerable area to stay at 6 feet or 1.8-meter distance to remain safe. We utilized the Haversine formula and circle formula to generate the unsafe area. Ten thousand valid information has been collected to support the results of this research. The algorithm is tested for 10 test cases every time, and the datasets are increased by 1000. The run time of that algorithm is growing linearly. Thus, we can say that the proposed algorithm can run in polynomial time. The algorithm's correctness is also being tested where it is found that the proposed algorithm is correct and efficient. We also implement the system, and the application is evaluated by taking feedback from users. Thus, people can use our system to keep themselves in a safe area and decrease COVID patients' rate.
翻訳日:2023-03-07 21:17:53 公開日:2021-11-17
# 教育実験における継続的複合効果とアジャイル実践に向けて

Towards Continuous Compounding Effects and Agile Practices in Educational Experimentation ( http://arxiv.org/abs/2112.01243v1 )

ライセンス: Link先を確認
Luis M. Vaquero, Niall Twomey, Miguel Patricio Dias, Massimo Camplani, Robert Hardman(参考訳) ランダム化制御試験は現在、正式な教育実験における決定的なゴールドスタンダードのアプローチである。 これらの実験の結論は非常に信頼性が高いが、その比較的遅い実験速度、高いコスト、堅固なフレームワークは、範囲を制限することができる。 1.$\textit{metrics}$: 実験ごとに数百のメトリクスの一貫した厳密な計算の自動化。 2.$\textit{concurrency}$: 毎日何百もの同時実験の高速自動リリース。 3.$\textit{safeguards}$: 安全性ネットテストと、悪影響を最小限に抑えるために迅速なスケールアップ/ロールバック。 本稿では、異なる実験プロセスを分類するためのフレームワークを定義し、特にテクノロジーの即応性に重点を置く。 我々の分析に基づいて,次世代の教育技術の成功は,実験の文脈を認識し,手元にあるプロセスの完全なセットを総合的に受け入れることによって達成される,と結論づけた。 後者の重要な利点は、実行コストがゼロになる傾向があることである("free experimentation"に導かれる)。 これは価値を探求し推進する低リスクな機会を提供するが、計画が整った長期的キャンペーンは大規模に繰り返される。 重要なことは、これらの実験プラットフォームが非常に適応性が高いため、実験の累積効果は、個々の実験が小さな効果を与える場合でも、時間とともに指数関数的に複合価値をもたらす。

Randomised control trials are currently the definitive gold standard approach for formal educational experiments. Although conclusions from these experiments are highly credible, their relatively slow experimentation rate, high expense and rigid framework can be seen to limit scope on: 1. $\textit{metrics}$: automation of the consistent rigorous computation of hundreds of metrics for every experiment; 2. $\textit{concurrency}$: fast automated releases of hundreds of concurrent experiments daily; and 3. $\textit{safeguards}$: safety net tests and ramping up/rolling back treatments quickly to minimise negative impact. This paper defines a framework for categorising different experimental processes, and places a particular emphasis on technology readiness. On the basis of our analysis, our thesis is that the next generation of education technology successes will be heralded by recognising the context of experiments and collectively embracing the full set of processes that are at hand: from rapid ideation and prototyping produced in small scale experiments on the one hand, to influencing recommendations of best teaching practices with large-scale and technology-enabled online A/B testing on the other. A key benefit of the latter is that the running costs tend towards zero (leading to `free experimentation'). This offers low-risk opportunities to explore and drive value though well-planned lasting campaigns that iterate quickly at a large scale. Importantly, because these experimental platforms are so adaptable, the cumulative effect of the experimental campaign delivers compounding value exponentially over time even if each individual experiment delivers a small effect.
翻訳日:2023-03-07 21:17:36 公開日:2021-11-17
# デバイアスモデル非依存メタ強化学習の収束理論について

On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement Learning ( http://arxiv.org/abs/2002.05135v3 )

ライセンス: Link先を確認
Alireza Fallah, Kristian Georgiev, Aryan Mokhtari, Asuman Ozdaglar(参考訳) モデル非依存型メタラーニング(MAML)手法を強化学習(RL)問題に適用し、その目的はマルコフ決定プロセス(MDP)で表される複数のタスクのデータを用いて、実現されたMDPの確率的ポリシー勾配の1ステップで更新できるポリシーを見つけることである。 特に、MAML更新ステップにおける確率勾配の使用は、正確な勾配の計算には多くの可能な軌道にアクセスする必要があるため、RL問題にとって重要である。 この定式化のために,Stochastic Gradient Meta-Reinforcement Learning (SG-MRL) と呼ばれるMAML法の変種を提案し,その収束特性について検討する。 我々はSG-MRLの反復とサンプルの複雑さを導出して$\epsilon$-first-orderの定常点を求める。 さらに,この結果が,確率的方針勾配法の1段階以上をテスト時に用いた場合にまで拡張されることを示す。 最後に, 深部RL環境におけるSG-MRLとMAMLを比較した。

We consider Model-Agnostic Meta-Learning (MAML) methods for Reinforcement Learning (RL) problems, where the goal is to find a policy using data from several tasks represented by Markov Decision Processes (MDPs) that can be updated by one step of stochastic policy gradient for the realized MDP. In particular, using stochastic gradients in MAML update steps is crucial for RL problems since computation of exact gradients requires access to a large number of possible trajectories. For this formulation, we propose a variant of the MAML method, named Stochastic Gradient Meta-Reinforcement Learning (SG-MRL), and study its convergence properties. We derive the iteration and sample complexity of SG-MRL to find an $\epsilon$-first-order stationary point, which, to the best of our knowledge, provides the first convergence guarantee for model-agnostic meta-reinforcement learning algorithms. We further show how our results extend to the case where more than one step of stochastic policy gradient method is used at test time. Finally, we empirically compare SG-MRL and MAML in several deep RL environments.
翻訳日:2023-01-01 19:47:19 公開日:2021-11-17
# 非線形力学系の非漸近的高精度学習

Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems ( http://arxiv.org/abs/2002.08538v2 )

ライセンス: Link先を確認
Yahya Sattar and Samet Oymak(参考訳) 非線形状態方程式 $h_{t+1}=\phi(h_t,u_t;\theta)+w_t$ で制御される学習安定化系の問題を考える。 ここで$\theta$は未知のシステムダイナミクス、$h_t $は状態、$u_t$は入力、$w_t$は付加ノイズベクトルである。 1つの有限軌道から得られたサンプルからシステムダイナミクスを学ぶために、勾配に基づくアルゴリズムを研究した。 システムが安定化された入力ポリシによって実行される場合、混合時間引数を用いて、時間依存のサンプルをトランケーション引数を介して近似することができることを示す。 次に,経験的損失の勾配の均一収束に対する新たな保証を考案する。 既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。 その結果,安定化政策下での一般非線形システムの効率的な学習が促進された。 我々はエントリワイズ非線形活性化の保証を専門とし、様々な数値実験で理論を検証する。

We consider the problem of learning stabilizable systems governed by nonlinear state equation $h_{t+1}=\phi(h_t,u_t;\theta)+w_t$. Here $\theta$ is the unknown system dynamics, $h_t $ is the state, $u_t$ is the input and $w_t$ is the additive noise vector. We study gradient based algorithms to learn the system dynamics $\theta$ from samples obtained from a single finite trajectory. If the system is run by a stabilizing input policy, we show that temporally-dependent samples can be approximated by i.i.d. samples via a truncation argument by using mixing-time arguments. We then develop new guarantees for the uniform convergence of the gradients of empirical loss. Unlike existing work, our bounds are noise sensitive which allows for learning ground-truth dynamics with high accuracy and small sample complexity. Together, our results facilitate efficient learning of the general nonlinear system under stabilizing policy. We specialize our guarantees to entry-wise nonlinear activations and verify our theory in various numerical experiments
翻訳日:2022-12-30 07:33:39 公開日:2021-11-17
# 大規模データの変換に基づく逆動画予測

Transformation-based Adversarial Video Prediction on Large-Scale Data ( http://arxiv.org/abs/2003.04035v3 )

ライセンス: Link先を確認
Pauline Luc, Aidan Clark, Sander Dieleman, Diego de Las Casas, Yotam Doron, Albin Cassirer, Karen Simonyan(参考訳) 敵対的生成モデリングの最近の進歩は、現実世界のビデオの大規模で複雑なデータセットであっても、高品質のビデオサンプルを作成できるモデルを生み出している。 本研究は,映像から抽出されたフレームのシーケンスが与えられた場合,将来可能性の高いシーケンスを生成することを目的とした,映像予測の課題に焦点を当てる。 まず,分類器分解の系統的実証研究を行い,従来の手法よりも高速に収束し,高い性能を実現するアーキテクチャを提案する。 次に, ジェネレータ内の繰り返しユニットを解析し, 予測された動作的特徴に応じて過去の隠れ状態を変換し, 排除, シーン変化, その他の複雑な動作を扱うように改良する新しい再帰ユニットを提案する。 この繰り返しユニットは、常に以前の設計より優れていることを示す。 我々の最終モデルは最先端のパフォーマンスを飛躍させ、大規模なKinetics-600データセット上でFrechet Video Distanceの25.7を69.2からダウンさせるテストセットを得る。

Recent breakthroughs in adversarial generative modeling have led to models capable of producing video samples of high quality, even on large and complex datasets of real-world video. In this work, we focus on the task of video prediction, where given a sequence of frames extracted from a video, the goal is to generate a plausible future sequence. We first improve the state of the art by performing a systematic empirical study of discriminator decompositions and proposing an architecture that yields faster convergence and higher performance than previous approaches. We then analyze recurrent units in the generator, and propose a novel recurrent unit which transforms its past hidden state according to predicted motion-like features, and refines it to handle dis-occlusions, scene changes and other complex behavior. We show that this recurrent unit consistently outperforms previous designs. Our final model leads to a leap in the state-of-the-art performance, obtaining a test set Frechet Video Distance of 25.7, down from 69.2, on the large-scale Kinetics-600 dataset.
翻訳日:2022-12-25 08:15:58 公開日:2021-11-17
# 解釈可能なANNに向けて:マルチクラス多変量決定木への厳密な変換

Towards Interpretable ANNs: An Exact Transformation to Multi-Class Multivariate Decision Trees ( http://arxiv.org/abs/2003.04675v4 )

ライセンス: Link先を確認
Duy T. Nguyen, Kathryn E. Kasmarik, Hussein A. Abbass(参考訳) 一方、人工知能ニューラルネットワーク(ANN)は一般にブラックボックスと呼ばれ、解釈性に欠けており、ANNの行動に対する人間の理解を妨げる問題である。 特定の出力の生産過程を解釈するために、ANNの有意義なシーケンシャルロジックを生成する必要がある。 一方、決定木は、それらの表現言語と、木を規則に変換する効率的なアルゴリズムの存在により、より良い解釈可能性と表現力を示す。 しかし、利用可能なデータに基づいて決定木を成長させることは、うまく一般化しない必要木や木よりも大きなものを生み出す可能性がある。 本稿では,ANNから規則抽出を行う2つの新しい多変量決定木 (MDT) アルゴリズムについて紹介する。 どちらも直交した線形単位活性化関数を持つニューラルネットワークを代表木に変換し、推論のための多変量規則の抽出にも利用できる。 EC-DTはANNを階層的に翻訳し、ネットワークの隠された層によって暗黙的に学習された決定境界を正確に表現する一方、拡張C-NetはEC-DTからの分解的アプローチとC5ツリー学習アルゴリズムを組み合わせて決定ルールを形成する。 その結果、EC-DT は ANN の構造と忠実性を維持する上で優れているが、拡張 C-Net は ANN から最もコンパクトで高効率な木を生成することが示唆された。 提案されたmdtアルゴリズムは、意思決定の正確な解釈のために複数の属性の組み合わせを含む規則を生成する。

On the one hand, artificial neural networks (ANNs) are commonly labelled as black-boxes, lacking interpretability; an issue that hinders human understanding of ANNs' behaviors. A need exists to generate a meaningful sequential logic of the ANN for interpreting a production process of a specific output. On the other hand, decision trees exhibit better interpretability and expressive power due to their representation language and the existence of efficient algorithms to transform the trees into rules. However, growing a decision tree based on the available data could produce larger than necessary trees or trees that do not generalise well. In this paper, we introduce two novel multivariate decision tree (MDT) algorithms for rule extraction from ANNs: an Exact-Convertible Decision Tree (EC-DT) and an Extended C-Net algorithm. They both transform a neural network with Rectified Linear Unit activation functions into a representative tree, which can further be used to extract multivariate rules for reasoning. While the EC-DT translates an ANN in a layer-wise manner to represent exactly the decision boundaries implicitly learned by the hidden layers of the network, the Extended C-Net combines the decompositional approach from EC-DT with a C5 tree learning algorithm to form decision rules. The results suggest that while EC-DT is superior in preserving the structure and the fidelity of ANN, Extended C-Net generates the most compact and highly effective trees from ANN. Both proposed MDT algorithms generate rules including combinations of multiple attributes for precise interpretations for decision-making.
翻訳日:2022-12-24 20:34:33 公開日:2021-11-17
# CNNが分布外圏-視点の組み合わせに一般化する時期と方法

When and how CNNs generalize to out-of-distribution category-viewpoint combinations ( http://arxiv.org/abs/2007.08032v3 )

ライセンス: Link先を確認
Spandan Madan, Timothy Henry, Jamell Dozier, Helen Ho, Nishchal Bhandari, Tomotake Sasaki, Fr\'edo Durand, Hanspeter Pfister, Xavier Boix(参考訳) 物体認識と視点推定は視覚的理解の中心にある。 近年の研究では、畳み込みニューラルネットワーク(CNN)は、アウト・オブ・ディストリビューション(OOD)カテゴリとビューポイントの組み合わせに一般化できないことが示唆されている。 訓練中は見当たらない組み合わせ。 本稿では,OODの組合せにおける対象カテゴリと3次元視点の両方を分類する訓練されたCNNの評価と,OODの一般化を促進する神経機構の同定により,OODの一般化がいつ,どのように可能かを検討する。 我々は,同じ量のトレーニングデータであっても,分配内組合せ(すなわちデータ多様性)の増加がOOD組み合わせの一般化を著しく向上させることを示す。 ネットワークアーキテクチャの分離と共有において,学習カテゴリと視点を比較し,分配とOODの組み合わせに関する非常に異なる傾向を観察する。 共有ネットワークは分配中に役立つが、異なるネットワークはoodの組み合わせで共有ネットワークを著しく上回っている。 最後に,このようなオード一般化が特殊化の神経機構によって促進されることを示す。 2種類のニューロンの出現 - カテゴリーに選択的に、視点に不変で、その逆である。

Object recognition and viewpoint estimation lie at the heart of visual understanding. Recent works suggest that convolutional neural networks (CNNs) fail to generalize to out-of-distribution (OOD) category-viewpoint combinations, ie. combinations not seen during training. In this paper, we investigate when and how such OOD generalization may be possible by evaluating CNNs trained to classify both object category and 3D viewpoint on OOD combinations, and identifying the neural mechanisms that facilitate such OOD generalization. We show that increasing the number of in-distribution combinations (ie. data diversity) substantially improves generalization to OOD combinations, even with the same amount of training data. We compare learning category and viewpoint in separate and shared network architectures, and observe starkly different trends on in-distribution and OOD combinations, ie. while shared networks are helpful in-distribution, separate networks significantly outperform shared ones at OOD combinations. Finally, we demonstrate that such OOD generalization is facilitated by the neural mechanism of specialization, ie. the emergence of two types of neurons -- neurons selective to category and invariant to viewpoint, and vice versa.
翻訳日:2022-11-10 05:18:55 公開日:2021-11-17
# 深層学習に基づく脳腫瘍切除 : アンケート調査

Deep Learning Based Brain Tumor Segmentation: A Survey ( http://arxiv.org/abs/2007.09479v3 )

ライセンス: Link先を確認
Zhihua Liu, Lei Tong, Zheheng Jiang, Long Chen, Feixiang Zhou, Qianni Zhang, Xiangrong Zhang, Yaochu Jin, Huiyu Zhou(参考訳) 脳腫瘍のセグメンテーションは、画像解析において最も難しい問題の1つである。 脳腫瘍セグメンテーションの目標は、脳腫瘍領域の正確なデラインを作成することである。 近年,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,様々なコンピュータビジョン問題の解法において,ディープラーニング手法が有望な性能を示した。 深層学習に基づく多くの手法が脳腫瘍セグメンテーションに適用され、有望な結果を得た。 最先端技術による顕著なブレークスルーを考慮し,近年開発された深層学習に基づく脳腫瘍セグメンテーション技術に関する包括的研究を行う。 本調査では100以上の科学的論文が選定され,ネットワークアーキテクチャ設計,不均衡条件下でのセグメンテーション,マルチモダリティプロセスなどの技術的側面を幅広く取り上げている。 また、将来の開発方向性について洞察に富んだ議論も行います。

Brain tumor segmentation is one of the most challenging problems in medical image analysis. The goal of brain tumor segmentation is to generate accurate delineation of brain tumor regions. In recent years, deep learning methods have shown promising performance in solving various computer vision problems, such as image classification, object detection and semantic segmentation. A number of deep learning based methods have been applied to brain tumor segmentation and achieved promising results. Considering the remarkable breakthroughs made by state-of-the-art technologies, we use this survey to provide a comprehensive study of recently developed deep learning based brain tumor segmentation techniques. More than 100 scientific papers are selected and discussed in this survey, extensively covering technical aspects such as network architecture design, segmentation under imbalanced conditions, and multi-modality processes. We also provide insightful discussions for future development directions.
翻訳日:2022-11-09 05:59:18 公開日:2021-11-17
# 深層学習による全身CT画像上の多発性疾患の分類

Classification of Multiple Diseases on Body CT Scans using Weakly Supervised Deep Learning ( http://arxiv.org/abs/2008.01158v3 )

ライセンス: Link先を確認
Fakrul Islam Tushar, Vincent M. D'Anniballe, Rui Hou, Maciej A. Mazurowski, Wanyi Fu, Ehsan Samei, Geoffrey D. Rubin, Joseph Y. Lo(参考訳) 目的: 放射線学のテキストレポートから自動的に抽出されたラベルを用いて, 3種類の臓器用CTスキャン用多剤分類器を設計するために, モデル開発と検査(2012~2017年)のために, 計12,092人(平均57+18, 6,172人)の患者を対象とした。 ルールベースのアルゴリズムを用いて、12,092人の患者から13,667体のCTスキャンから19,225の疾患ラベルを抽出した。 3次元DenseVNetを用いて肺と胸膜、肝臓と胆嚢、腎臓と尿管の3つの臓器系を分離した。 各臓器について、3次元畳み込みニューラルネットワークは、3つのモデルで合計15の異なるラベルで、明らかな疾患と4つの一般的な疾患を分類していない。 2133例(平均年齢58歳+-18;1079女性)の2,875例と比較して,2,158個のCTボリュームで試験を行った。 DeLong法により95%信頼区間を有する曲線(AUC)下での受信特性領域としての性能を報告した。 結果: 抽出ラベルの手動検証により、15の異なるラベルで91%から99%の精度が確認された。 Atelectasis 0.77 (95% CI: 0.74, 0.81), nodule 0.65 (0.61, 0.69), emphysema 0.89 (0.86, 0.92), effusion 0.97 (0.96, 0.98), no apparent disease 0.89 (0.87, 0.91)である。 肝胆道石灰化 0.62 (95% ci: 0.56, 0.67), 病変 0.73 (0.69, 0.77), 拡張 0.87 (0.84, 0.90), 脂肪 0.89 (0.86, 0.92), 明らかな疾患は 0.82 (0.78, 0.85) であった。 腎臓と尿管のAUCは、Stone 0.83 (95% CI: 0.79, 0.87), atrophy 0.92 (0.89, 0.94), lesion 0.68 (0.64, 0.72), cyst 0.70 (0.66, 0.73), and no apparent disease 0.79 (0.75, 0.83)である。 結論: 弱教師付き深層学習モデルは多臓器系において多様な疾患を分類することができた。

Purpose: To design multi-disease classifiers for body CT scans for three different organ systems using automatically extracted labels from radiology text reports.Materials & Methods: This retrospective study included a total of 12,092 patients (mean age 57 +- 18; 6,172 women) for model development and testing (from 2012-2017). Rule-based algorithms were used to extract 19,225 disease labels from 13,667 body CT scans from 12,092 patients. Using a three-dimensional DenseVNet, three organ systems were segmented: lungs and pleura; liver and gallbladder; and kidneys and ureters. For each organ, a three-dimensional convolutional neural network classified no apparent disease versus four common diseases for a total of 15 different labels across all three models. Testing was performed on a subset of 2,158 CT volumes relative to 2,875 manually derived reference labels from 2133 patients (mean age 58 +- 18;1079 women). Performance was reported as receiver operating characteristic area under the curve (AUC) with 95% confidence intervals by the DeLong method. Results: Manual validation of the extracted labels confirmed 91% to 99% accuracy across the 15 different labels. AUCs for lungs and pleura labels were: atelectasis 0.77 (95% CI: 0.74, 0.81), nodule 0.65 (0.61, 0.69), emphysema 0.89 (0.86, 0.92), effusion 0.97 (0.96, 0.98), and no apparent disease 0.89 (0.87, 0.91). AUCs for liver and gallbladder were: hepatobiliary calcification 0.62 (95% CI: 0.56, 0.67), lesion 0.73 (0.69, 0.77), dilation 0.87 (0.84, 0.90), fatty 0.89 (0.86, 0.92), and no apparent disease 0.82 (0.78, 0.85). AUCs for kidneys and ureters were: stone 0.83 (95% CI: 0.79, 0.87), atrophy 0.92 (0.89, 0.94), lesion 0.68 (0.64, 0.72), cyst 0.70 (0.66, 0.73), and no apparent disease 0.79 (0.75, 0.83). Conclusion: Weakly-supervised deep learning models were able to classify diverse diseases in multiple organ systems.
翻訳日:2022-11-03 06:15:18 公開日:2021-11-17
# 変圧器を用いたASRにおける話者適応手法の検討

Investigation of Speaker-adaptation methods in Transformer based ASR ( http://arxiv.org/abs/2008.03247v2 )

ライセンス: Link先を確認
Vishwas M. Shetty, Metilda Sagaya Mary N J, S. Umesh(参考訳) エンドツーエンドモデルは、音声認識において従来のハイブリッドモデルを高速に置き換える。 機械翻訳タスクで広く使用される自己認識に基づくシーケンス・トゥ・シーケンスモデルであるtransformerは、自動音声認識に有望な結果を与えている。 本稿では,トランスフォーマモデルを用いて話者情報をエンコーダ入力に組み込むことにより,音声認識性能の向上を図る。 我々は,各話者に対して,話者埋め込みの形で話者情報を提示する。 提案する2種類の話者埋め込み(x-vectorsとs-vectors)を用いて実験を行った。 2つのデータセットの結果を報告します a) NPTEL講義データベース及び b) librispeech 500時間分割。 nptelは、インドのトップ大学からの講義を提供するオープンソースのeラーニングポータルである。 我々は、モデルに話者埋め込みを統合するアプローチを通じて、ベースラインよりも単語誤り率の改善を得る。

End-to-end models are fast replacing the conventional hybrid models in automatic speech recognition. Transformer, a sequence-to-sequence model, based on self-attention popularly used in machine translation tasks, has given promising results when used for automatic speech recognition. This paper explores different ways of incorporating speaker information at the encoder input while training a transformer-based model to improve its speech recognition performance. We present speaker information in the form of speaker embeddings for each of the speakers. We experiment using two types of speaker embeddings: x-vectors and novel s-vectors proposed in our previous work. We report results on two datasets a) NPTEL lecture database and b) Librispeech 500-hour split. NPTEL is an open-source e-learning portal providing lectures from top Indian universities. We obtain improvements in the word error rate over the baseline through our approach of integrating speaker embeddings into the model.
翻訳日:2022-11-02 02:06:45 公開日:2021-11-17
# 深部強化学習における自己監督探索のための変分力学

Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2010.08755v2 )

ライセンス: Link先を確認
Chenjia Bai, Peng Liu, Kaiyu Liu, Lingxiao Wang, Yingnan Zhao, Lei Han, Zhaoran Wang(参考訳) 特に環境からの過度な報酬が不足したり、あるいは完全に無視されたりするタスクでは、効率的な探索は強化学習において依然として難しい問題である。 内在的モチベーションに基づく重要な進歩は、単純な環境では有望な結果を示すが、しばしばマルチモーダルおよび確率力学を持つ環境で立ち往生する。 本研究では,条件付き変分推論に基づく変分動的モデルを提案し,多様性と確率性をモデル化する。 本研究では,現状,行動,潜在変数の条件下での次の状態予測を発生させることにより,環境状態-行動遷移を条件生成プロセスとして考える。 我々は,環境変化の負のログ様相の上限を導出し,その上限を探索に内在する報酬として用いることにより,エージェントが過剰な報酬を観察することなく自己監督探索によってスキルを身につけることができる。 提案手法は,複数の画像ベースシミュレーションタスクと実際のロボット操作タスクで評価する。 本手法は,最先端環境モデルに基づく探索手法よりも優れている。

Efficient exploration remains a challenging problem in reinforcement learning, especially for tasks where extrinsic rewards from environments are sparse or even totally disregarded. Significant advances based on intrinsic motivation show promising results in simple environments but often get stuck in environments with multimodal and stochastic dynamics. In this work, we propose a variational dynamic model based on the conditional variational inference to model the multimodality and stochasticity. We consider the environmental state-action transition as a conditional generative process by generating the next-state prediction under the condition of the current state, action, and latent variable, which provides a better understanding of the dynamics and leads a better performance in exploration. We derive an upper bound of the negative log-likelihood of the environmental transition and use such an upper bound as the intrinsic reward for exploration, which allows the agent to learn skills by self-supervised exploration without observing extrinsic rewards. We evaluate the proposed method on several image-based simulation tasks and a real robotic manipulating task. Our method outperforms several state-of-the-art environment model-based exploration approaches.
翻訳日:2022-10-06 11:48:52 公開日:2021-11-17
# スパイクニューラルネットワークによる量子重ね合わせ

Quantum Superposition Inspired Spiking Neural Network ( http://arxiv.org/abs/2010.12197v3 )

ライセンス: Link先を確認
Yinqian Sun, Yi Zeng, Tielin Zhang(参考訳) 人工知能モデルの進歩にもかかわらず、ニューラルネットワークは、人間の脳と比較して情報のエンコードや処理方法の違いによって、まだ人間のパフォーマンスを達成することができない。 ニューラルネットワーク(ann)の情報は統計的手法で表現され、フィッティング関数として処理され、画像、テキスト、音声処理における構造パターンの処理を可能にする。 しかし、例えば画像の背景を反転させるなど、データの統計的特性の実質的な変化は、パフォーマンスを劇的に低下させる。 本稿では,脳内の量子機構や現象に触発された量子重ね合わせスパイキングニューラルネットワーク(qs-snn)を提案する。 QS-SNNは、計算の観点から脳にインスパイアされたスパイクニューラルネットワークモデルに量子理論を組み込んでおり、特にノイズの多い入力を処理する場合、従来のANNモデルよりも堅牢なパフォーマンスをもたらす。 ここで提示された結果は、脳にインスパイアされた人工知能を開発するための今後の取り組みに役立ちます。

Despite advances in artificial intelligence models, neural networks still cannot achieve human performance, partly due to differences in how information is encoded and processed compared to human brain. Information in an artificial neural network (ANN) is represented using a statistical method and processed as a fitting function, enabling handling of structural patterns in image, text, and speech processing. However, substantial changes to the statistical characteristics of the data, for example, reversing the background of an image, dramatically reduce the performance. Here, we propose a quantum superposition spiking neural network (QS-SNN) inspired by quantum mechanisms and phenomena in the brain, which can handle reversal of image background color. The QS-SNN incorporates quantum theory with brain-inspired spiking neural network models from a computational perspective, resulting in more robust performance compared with traditional ANN models, especially when processing noisy inputs. The results presented here will inform future efforts to develop brain-inspired artificial intelligence.
翻訳日:2022-10-03 22:08:53 公開日:2021-11-17
# Deep Learning -- 科学分野、共通性、課題、研究影響を巡って選択されたレビューの最初のメタサーベイ

Deep Learning -- A first Meta-Survey of selected Reviews across Scientific Disciplines, their Commonalities, Challenges and Research Impact ( http://arxiv.org/abs/2011.08184v2 )

ライセンス: Link先を確認
Jan Egger, Antonio Pepe, Christina Gsaxner, Yuan Jin, Jianning Li, Roman Kern(参考訳) ディープラーニングは人工知能の分野に属し、機械は通常、ある種の人間の知性を必要とするタスクを実行する。 脳の基本構造と同様に、深層学習アルゴリズムは、生物学的脳構造に類似したニューラルネットワークで構成されている。 深層学習ネットワークは、人間の学習プロセスをその感覚で模倣し、テキスト、画像、ビデオ、音声などの(知覚的な)データに供給される。 これらのネットワークは、様々なタスクにおける最先端の手法よりも優れており、このため、過去数年間で分野全体が指数関数的に成長した。 この成長は、過去数年間に年間1万冊以上の出版物を生み出した。 例えば、医療分野の全出版物のサブセットのみをカバーする検索エンジンPubMedは、2020年第3四半期に「深層学習」という検索用語ですでに11,000件以上の結果を提供しており、その結果の約90%は過去3年間のものである。 したがって、ディープラーニングの分野に関する完全な概観を得ることは、すでに不可能であり、近い将来、サブフィールドに関する概観を得ることが困難になる可能性がある。 しかし、コンピュータービジョンにおけるディープラーニングの進歩やオブジェクト検出のような特定のタスクなど、特定の科学分野や応用に焦点を当てたディープラーニングに関するレビュー記事がいくつかある。 これらの調査を基礎として、この貢献の目的は、異なる科学分野にわたる深層学習に関する選抜されたレビューの分類されたメタサーベイを初めて提供することである。 基本的なデータソース(画像、言語、医療、混合)に応じて、カテゴリ(コンピュータビジョン、言語処理、医療情報学、その他)が選択されている。 さらに,各サブカテゴリの共通アーキテクチャ,メソッド,プロ,コン,評価,課題,今後の方向性について検討する。

Deep learning belongs to the field of artificial intelligence, where machines perform tasks that typically require some kind of human intelligence. Similar to the basic structure of a brain, a deep learning algorithm consists of an artificial neural network, which resembles the biological brain structure. Mimicking the learning process of humans with their senses, deep learning networks are fed with (sensory) data, like texts, images, videos or sounds. These networks outperform the state-of-the-art methods in different tasks and, because of this, the whole field saw an exponential growth during the last years. This growth resulted in way over 10,000 publications per year in the last years. For example, the search engine PubMed alone, which covers only a sub-set of all publications in the medical field, provides already over 11,000 results in Q3 2020 for the search term 'deep learning', and around 90% of these results are from the last three years. Consequently, a complete overview over the field of deep learning is already impossible to obtain and, in the near future, it will potentially become difficult to obtain an overview over a subfield. However, there are several review articles about deep learning, which are focused on specific scientific fields or applications, for example deep learning advances in computer vision or in specific tasks like object detection. With these surveys as a foundation, the aim of this contribution is to provide a first high-level, categorized meta-survey of selected reviews on deep learning across different scientific disciplines. The categories (computer vision, language processing, medical informatics and additional works) have been chosen according to the underlying data sources (image, language, medical, mixed). In addition, we review the common architectures, methods, pros, cons, evaluations, challenges and future directions for every sub-category.
翻訳日:2022-09-24 23:23:26 公開日:2021-11-17
# マルチラベル学習の新潮流

The Emerging Trends of Multi-Label Learning ( http://arxiv.org/abs/2011.11197v3 )

ライセンス: Link先を確認
Weiwei Liu, Haobo Wang, Xiaobo Shen, Ivor W. Tsang(参考訳) エクサバイトのデータは人間によって毎日生成されるため、ビッグデータによってもたらされるマルチラベル学習の課題に対処する新たな取り組みの必要性が高まっている。 例えば、エクストリーム・マルチラベル分類(extreme multi-label classification)は、非常に多くのクラスやラベルを持つ分類タスクを扱う、活発で急速に成長している研究領域である。 これらに加えて、ディープラーニングの強力な学習能力を習得して、マルチラベル学習におけるラベル依存をよりよく把握する方法にも、大きな取り組みがあります。 しかし,ビッグデータ時代における新興トレンドと多言語学習の新たな課題を明示的に分析することに焦点を当てた体系的研究の欠如が指摘されている。 このミッションを遂行し、今後の研究の方向性と新たな応用を説明するための総合的な調査を求めることが不可欠である。

Exabytes of data are generated daily by humans, leading to the growing need for new efforts in dealing with the grand challenges for multi-label learning brought by big data. For example, extreme multi-label classification is an active and rapidly growing research area that deals with classification tasks with an extremely large number of classes or labels; utilizing massive data with limited supervision to build a multi-label classification model becomes valuable for practical applications, etc. Besides these, there are tremendous efforts on how to harvest the strong learning capability of deep learning to better capture the label dependencies in multi-label learning, which is the key for deep learning to address real-world classification tasks. However, it is noted that there has been a lack of systemic studies that focus explicitly on analyzing the emerging trends and new challenges of multi-label learning in the era of big data. It is imperative to call for a comprehensive survey to fulfill this mission and delineate future research directions and new applications.
翻訳日:2022-09-22 02:47:05 公開日:2021-11-17
# (参考訳) ニュースストリームを用いた食品不安のきめ細かい予測

Fine-grained prediction of food insecurity using news streams ( http://arxiv.org/abs/2111.15602v1 )

ライセンス: CC BY 4.0
Ananth Balashankar, Lakshminarayanan Subramanian and Samuel P. Fraiberger(参考訳) 食品危機の発生を予想することは、緊急救助を効率的に割り当て、人的苦痛を減らすために重要である。 しかし、既存の食料不安全早期警戒システムは、しばしば遅れ、時代遅れ、または不完全なリスク対策に依存している。 本稿では,近年の深層学習の進歩を活かし,1980年から2020年にかけて刊行された脆弱な状態に関する大量のニュース記事のテキストから,食品危機の高頻度前駆体を抽出する。 私たちのテキスト機能は因果的に接地され、解釈可能で、既存のデータによって検証され、15の脆弱な州における地区レベルでの3ヶ月前までの既存のモデルよりも32%多くの食品危機を予測できます。 これらの結果は、人道支援の割り当て方法に大きな影響を与え、データ収集環境における意思決定を改善する機械学習の新しい道を開く可能性がある。

Anticipating the outbreak of a food crisis is crucial to efficiently allocate emergency relief and reduce human suffering. However, existing food insecurity early warning systems rely on risk measures that are often delayed, outdated, or incomplete. Here, we leverage recent advances in deep learning to extract high-frequency precursors to food crises from the text of a large corpus of news articles about fragile states published between 1980 and 2020. Our text features are causally grounded, interpretable, validated by existing data, and allow us to predict 32% more food crises than existing models up to three months ahead of time at the district level across 15 fragile states. These results could have profound implications on how humanitarian aid gets allocated and open new avenues for machine learning to improve decision making in data-scarce environments.
翻訳日:2021-12-06 02:57:19 公開日:2021-11-17
# (参考訳) アタナソフの直観的ファジィ値の空間の位相的および代数的構造

Topological and Algebraic Structures of the Space of Atanassov's Intuitionistic Fuzzy Values ( http://arxiv.org/abs/2111.12677v1 )

ライセンス: CC BY 4.0
Xinxing Wu, Tao Wang, Peide Liu, Gul Deniz Cayli, Xu Zhang(参考訳) 直観的ファジィ値(IFV)の空間をスコア関数と精度関数に基づいて線形次数で表し、類似度関数と精度関数に基づいて線形次数によって誘導されるものと同じ代数構造を持つことを示した。 スコア関数と精度関数に基づく線形順序でifvsの新しい演算子を導入することにより,ifvs上ではそのような演算子が強い否定であることを示す。 さらに、IFVs の空間は完全格子であり、新しい作用素を持つクリーネ代数であることが提案される。 また、上の2つの線形順序によって誘導される順序位相を持つIFVの位相空間は分離可能ではなく、距離化可能でコンパクトで連結である。 Atanassov [Intuitionistic Fuzzy Sets: Theory and Applications, Springer, 1999] と [On Intuitionistic Fuzzy Sets Theory, Springer, 2012] によって引き起こされた3つのオープンな問題に、我々の結果は部分的に答えている。 さらに、対応する線形順序の下でIFVsとq-rung整形ファジィ値(q-ROFVs)の間の同型性を構築する。 一方, IFS の特定の順序による許容類似度尺度の概念を導入し, IFS の類似度尺度の以前の定義を拡張し, スコア関数と精度関数に基づく線形順序による許容類似度尺度を構築し, 建築材料の分類に関するパターン認識問題に有効に適用する。

We demonstrate that the space of intuitionistic fuzzy values (IFVs) with the linear order based on a score function and an accuracy function has the same algebraic structure as the one induced by the linear order based on a similarity function and an accuracy function. By introducing a new operator for IFVs via the linear order based on a score function and an accuracy function, we present that such an operator is a strong negation on IFVs. Moreover, we propose that the space of IFVs is a complete lattice and a Kleene algebra with the new operator. We also observe that the topological space of IFVs with the order topology induced by the above two linear orders is not separable and metrizable but compact and connected. From exactly new perspectives, our results partially answer three open problems posed by Atanassov [Intuitionistic Fuzzy Sets: Theory and Applications, Springer, 1999] and [On Intuitionistic Fuzzy Sets Theory, Springer, 2012]. Furthermore, we construct an isomorphism between the spaces of IFVs and q-rung orthopedic fuzzy values (q-ROFVs) under the corresponding linear orders. Meanwhile, we introduce the concept of the admissible similarity measures with particular orders for IFSs, extending the previous definition of the similarity measure for IFSs, and construct an admissible similarity measure with the linear order based on a score function and an accuracy function, which is effectively applied to a pattern recognition problem about the classification of building materials.
翻訳日:2021-11-28 19:47:54 公開日:2021-11-17
# (参考訳) 健康不平等を減らすデータ中心行動機械学習プラットフォーム

A Data-Centric Behavioral Machine Learning Platform to Reduce Health Inequalities ( http://arxiv.org/abs/2111.11203v1 )

ライセンス: CC BY 4.0
Dexian Tang, Guillem Franc\`es and \'Africa Peri\'a\~nez(参考訳) 低所得国や中所得国における最前線の医療従事者に対して、健康状態を改善するための勧告や予測を提供することは、例えば毎日発生している何千もの母性および新生児の死亡を防ぐことによる医療の不平等の低減に大きな影響を与える可能性がある。 そのために、これらの国で稼働している幅広いモバイルヘルスアプリケーションの行動ログを活用する、データ中心の機械学習プラットフォームを開発しています。 ここでは、データサイエンス目的のソフトウェア開発キットによるデータ取り込みから、データパイプライン、機能エンジニアリング、モデル管理に至るまで、プロセス全体のデータの品質と組織化を最大化するための詳細に焦点を当て、プラットフォームアーキテクチャについて説明する。

Providing front-line health workers in low- and middle- income countries with recommendations and predictions to improve health outcomes can have a tremendous impact on reducing healthcare inequalities, for instance by helping to prevent the thousands of maternal and newborn deaths that occur every day. To that end, we are developing a data-centric machine learning platform that leverages the behavioral logs from a wide range of mobile health applications running in those countries. Here we describe the platform architecture, focusing on the details that help us to maximize the quality and organization of the data throughout the whole process, from the data ingestion with a data-science purposed software development kit to the data pipelines, feature engineering and model management.
翻訳日:2021-11-28 18:17:53 公開日:2021-11-17
# 半スーパービジョンNMFトピックモデルのためのハッシュタググラフによるコミュニティ検出

Community-Detection via Hashtag-Graphs for Semi-Supervised NMF Topic Models ( http://arxiv.org/abs/2111.10401v1 )

ライセンス: Link先を確認
Mattias Luber and Anton Thielmann and Christoph Weisser and Benjamin S\"afken(参考訳) 構造化されていない文書の大規模なコレクションからトピックを抽出することは、現在のNLPアプリケーションやNMF、LDAなどのアルゴリズムにおいて中心的なタスクとなり、その一般化は、その技術の確立された現在の状態である。 しかし、特につぶやきのような短いテキスト文書の場合、これらのアプローチは、しばしば文書機能行列のスパースのために不満足な結果をもたらす。 追加情報を考慮してこのスパーシティを克服するいくつかのアプローチが提案されているが、これらは単に類似した文書の集約と単語共起の推定に焦点を当てているに過ぎない。 これは、一般的なコミュニティ検出アルゴリズムを適用することで、いわゆるハッシュタググラフから多くのトピック情報を取り出すことができるという事実を完全に無視している。 そこで本稿では,ハッシュタググラフのトピック構造を,グラフベースのコミュニティ検出と半教師付きNMFを接続することで,トピックモデルの推定に組み込む方法を提案する。 最近ストリーミングされたTwitterのデータにこのアプローチを適用することで、この手順がより直感的で人間的に解釈可能なトピックにつながることが分かる。

Extracting topics from large collections of unstructured text-documents has become a central task in current NLP applications and algorithms like NMF, LDA as well as their generalizations are the well-established current state of the art. However, especially when it comes to short text documents like Tweets, these approaches often lead to unsatisfying results due to the sparsity of the document-feature matrices. Even though, several approaches have been proposed to overcome this sparsity by taking additional information into account, these are merely focused on the aggregation of similar documents and the estimation of word-co-occurrences. This ultimately completely neglects the fact that a lot of topical-information can be actually retrieved from so-called hashtag-graphs by applying common community detection algorithms. Therefore, this paper outlines a novel approach on how to integrate topic structures of hashtag graphs into the estimation of topic models by connecting graph-based community detection and semi-supervised NMF. By applying this approach on recently streamed Twitter data it will be seen that this procedure actually leads to more intuitive and humanly interpretable topics.
翻訳日:2021-11-28 18:12:15 公開日:2021-11-17
# (参考訳) 手書き文字データセット上でのHMMによるベース分類器の性能向上

Augmentation of base classifier performance via HMMs on a handwritten character data set ( http://arxiv.org/abs/2111.10204v1 )

ライセンス: CC BY 4.0
H\'elder Campos and Nuno Paulino(参考訳) 本稿では,近代ラテン語アルファベットの手書き文字認識のためのベース分類器の性能について検討した。 ビタビ系列を決定することにより、ビタビ誤り補正を利用することにより、ベース分類性能をさらに向上する。 隠れマルコフモデル(HMM)モデルは、単語内の文字間の関係を利用して、最も可能性の高い文字列を決定する。 4つの基本分類器と8つの特徴集合を手書きデータセットから抽出した。 修正後の最高の分類性能は89.8%、平均68.1%であった。

This paper presents results of a study of the performance of several base classifiers for recognition of handwritten characters of the modern Latin alphabet. Base classification performance is further enhanced by utilizing Viterbi error correction by determining the Viterbi sequence. Hidden Markov Models (HMMs) models exploit relationships between letters within a word to determine the most likely sequence of characters. Four base classifiers are studied along with eight feature sets extracted from the handwritten dataset. The best classification performance after correction was 89.8%, and the average was 68.1%
翻訳日:2021-11-23 05:58:57 公開日:2021-11-17
# ヘテロジニアス・コミュニティの特徴を活用した都市洪水の時空間グラフ深層学習モデル

A Spatial-temporal Graph Deep Learning Model for Urban Flood Nowcasting Leveraging Heterogeneous Community Features ( http://arxiv.org/abs/2111.08450v2 )

ライセンス: Link先を確認
Hamed Farahmand, Yuanchang Xu, and Ali Mostafavi(参考訳) 本研究の目的は,物理モデルと人間センシング機能の統合による,都市洪水流況予測のための新しい構造的ディープラーニングモデリングフレームワークの開発とテストである。 本稿では,注意に基づく空間-時間グラフ畳み込みネットワーク(astgcn)モデルと,リアルタイムに収集され,事前処理され,モデルに供給されるさまざまなデータストリームを含む,新しい計算モデリングフレームワークを提案する。 The novelty of the computational modeling framework is threefold; first, the model is capable of considering spatial and temporal dependencies in inundation propagation thanks to the spatial and temporal graph convolutional modules; second, it enables capturing the influence of heterogeneous temporal data streams that can signal flooding status, including physics-based features such as rainfall intensity and water elevation, and human-sensed data such as flood reports and fluctuations of human activity. 第三に、その注意機構により、モデルは動的に変化する最も影響力のある特徴に焦点を合わせることができる。 本稿では,テキサス州ハリス郡におけるモデリングフレームワークの適用例と,洪水イベントとしてのハリケーン・ハーベイについて述べる。 以上の結果から, このモデルは, 都市部浸水の発生状況において, 0.808の精度と0.891のリコールで優れた性能を示し, 他の新しいモデルと比較して優れた性能を示した。 さらに、ASTGCNモデルの性能は、物理に基づく特徴のみに依存するモデルに不均一な動的特徴を加えることで改善される。

The objective of this study is to develop and test a novel structured deep-learning modeling framework for urban flood nowcasting by integrating physics-based and human-sensed features. We present a new computational modeling framework including an attention-based spatial-temporal graph convolution network (ASTGCN) model and different streams of data that are collected in real-time, preprocessed, and fed into the model to consider spatial and temporal information and dependencies that improve flood nowcasting. The novelty of the computational modeling framework is threefold; first, the model is capable of considering spatial and temporal dependencies in inundation propagation thanks to the spatial and temporal graph convolutional modules; second, it enables capturing the influence of heterogeneous temporal data streams that can signal flooding status, including physics-based features such as rainfall intensity and water elevation, and human-sensed data such as flood reports and fluctuations of human activity. Third, its attention mechanism enables the model to direct its focus on the most influential features that vary dynamically. We show the application of the modeling framework in the context of Harris County, Texas, as the case study and Hurricane Harvey as the flood event. Results indicate that the model provides superior performance for the nowcasting of urban flood inundation at the census tract level, with a precision of 0.808 and a recall of 0.891, which shows the model performs better compared with some other novel models. Moreover, ASTGCN model performance improves when heterogeneous dynamic features are added into the model that solely relies on physics-based features, which demonstrates the promise of using heterogenous human-sensed data for flood nowcasting,
翻訳日:2021-11-21 14:53:39 公開日:2021-11-17
# (参考訳) GAETS:バッテリパラメータ推定に向けたグラフオートエンコーダ時系列アプローチ

GAETS: A Graph Autoencoder Time Series Approach Towards Battery Parameter Estimation ( http://arxiv.org/abs/2111.09314v1 )

ライセンス: CC0 1.0
Edward Elson Kosasih, Rucha Bhalchandra Joshi, Janamejaya Channegowda(参考訳) リチウムイオン電池は、現在進行中の輸送電化革命を支えている。 リチウムイオン電池は高いエネルギー密度を持ち、電気化学的特性が好ましいため、電気自動車のエネルギー源として好まれる。 電気自動車の利用可能な範囲を推定するには,バッテリパラメータ(充電容量,電圧など)の正確な推定が不可欠である。 グラフベースの推定手法により、変数の依存関係を理解して見積もりを改善することができる。 本稿では,バッテリパラメータ推定にグラフニューラルネットワークを用いた,ユニークなグラフオートエンコーダ時系列推定手法を提案する。 バッテリ測定の変数は、関心のある変数内のある相関関係において互いに基礎的な関係を持つことが知られている。 グラフオートエンコーダはNOTEARSの非線形バージョンに基づいており、これにより構造を学習する際に勾配差を発生させることができる(組合せ最適化問題として扱う代わりに)。 提案アーキテクチャは,最新のグラフ時系列(GTS)アーキテクチャよりバッテリパラメータ推定に優れる。 我々はgaets(graph autoencoder time series)と呼ぶ。

Lithium-ion batteries are powering the ongoing transportation electrification revolution. Lithium-ion batteries possess higher energy density and favourable electrochemical properties which make it a preferable energy source for electric vehicles. Precise estimation of battery parameters (Charge capacity, voltage etc) is vital to estimate the available range in an electric vehicle. Graph-based estimation techniques enable us to understand the variable dependencies underpinning them to improve estimates. In this paper we employ Graph Neural Networks for battery parameter estimation, we introduce a unique graph autoencoder time series estimation approach. Variables in battery measurements are known to have an underlying relationship with each other in a certain correlation within variables of interest. We use graph autoencoder based on a non-linear version of NOTEARS as this allowed us to perform gradient-descent in learning the structure (instead of treating it as a combinatorial optimisation problem). The proposed architecture outperforms the state-of-the-art Graph Time Series (GTS) architecture for battery parameter estimation. We call our method GAETS (Graph AutoEncoder Time Series).
翻訳日:2021-11-20 01:46:21 公開日:2021-11-17
# (参考訳) BLOOM-Net: スケーラブルで効率的な音声強調に向けたマスキングネットワークのブロックワイズ最適化

BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable and Efficient Speech Enhancement ( http://arxiv.org/abs/2111.09372v1 )

ライセンス: CC BY 4.0
Sunwoo Kim and Minje Kim(参考訳) 本稿では,スケーラブルな音声強調ネットワークを学習するためのマスキングネットワーク(BLOOM-Net)のブロックワイズ最適化手法を提案する。 本稿では,本ネットワークを残留学習方式で設計し,内部セパレータブロックの逐次学習を行い,拡張性のあるマスキングベース深層ニューラルネットワークによる音声強調を行う。 そのスケーラビリティにより、テスト時間リソースの制約に基づいて実行時の複雑性を調整することができる。 この目的のために、私たちはモデルをモジュール化し、拡張性が増すために最小限のメモリやトレーニングオーバーヘッドを伴って、リソースに対するパフォーマンスと制約を強化するための様々なニーズを柔軟に対応できるようにします。 音声強調実験により,提案手法のブロックワイド最適化は,学習したエンド・ツー・エンドモデルと比較して,若干の性能劣化のみで所望のスケーラビリティを実現することを示した。

In this paper, we present a blockwise optimization method for masking-based networks (BLOOM-Net) for training scalable speech enhancement networks. Here, we design our network with a residual learning scheme and train the internal separator blocks sequentially to obtain a scalable masking-based deep neural network for speech enhancement. Its scalability lets it adjust the run-time complexity based on the test-time resource constraints: once deployed, the model can alter its complexity dynamically depending on the test time environment. To this end, we modularize our models in that they can flexibly accommodate varying needs for enhancement performance and constraints on the resources, incurring minimal memory or training overhead due to the added scalability. Our experiments on speech enhancement demonstrate that the proposed blockwise optimization method achieves the desired scalability with only a slight performance degradation compared to corresponding models trained end-to-end.
翻訳日:2021-11-20 01:38:28 公開日:2021-11-17
# (参考訳) MEDCOD: 医学的精度, 動機, 多様性, 制御可能な対話システム

MEDCOD: A Medically-Accurate, Emotive, Diverse, and Controllable Dialog System ( http://arxiv.org/abs/2111.09381v1 )

ライセンス: CC BY 4.0
Rhys Compton, Ilya Valmianski, Li Deng, Costa Huang, Namit Katariya, Xavier Amatriain, Anitha Kannan(参考訳) 本稿では,医学的精度,動機,ディバース,制御可能なダイアログシステムであるMEDCODについて,自然言語生成モジュールに対するユニークなアプローチを提案する。 MEDCODは歴史取扱タスクに特化して開発・評価されている。 従来のモジュラーアプローチの利点を活かし、(医学的な)ドメイン知識を現代のディープラーニング技術に組み込んで、柔軟で人間のような自然言語表現を生成する。 MEDCODの自然言語出力の2つの重要な側面を詳述する。 第一に、生成された文章は感情的かつ共感的であり、医師が患者とコミュニケーションをとる方法に似ている。 第2に、所望の医療概念(MEDCODの対話管理モジュールによって提供される)との整合性を維持しつつ、生成された文構造とフレーズは多様で多様である。 実験の結果,人間型医療対話システム構築における提案手法の有効性が実証された。 関連コードはhttps://github.com/curai/curai-research/tree/main/MEDCODで公開されている。

We present MEDCOD, a Medically-Accurate, Emotive, Diverse, and Controllable Dialog system with a unique approach to the natural language generator module. MEDCOD has been developed and evaluated specifically for the history taking task. It integrates the advantage of a traditional modular approach to incorporate (medical) domain knowledge with modern deep learning techniques to generate flexible, human-like natural language expressions. Two key aspects of MEDCOD's natural language output are described in detail. First, the generated sentences are emotive and empathetic, similar to how a doctor would communicate to the patient. Second, the generated sentence structures and phrasings are varied and diverse while maintaining medical consistency with the desired medical concept (provided by the dialogue manager module of MEDCOD). Experimental results demonstrate the effectiveness of our approach in creating a human-like medical dialogue system. Relevant code is available at https://github.com/curai/curai-research/tree/main/MEDCOD
翻訳日:2021-11-20 01:21:17 公開日:2021-11-17
# (参考訳) 翻訳品質のニューラルメトリックスを用いた最小ベイズリスク復号

Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality ( http://arxiv.org/abs/2111.09388v1 )

ライセンス: CC BY-SA 4.0
Markus Freitag, David Grangier, Qijun Tan, Bowen Liang(参考訳) この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスク(mbr)デコードを適用する。 機械翻訳における自動メトリクスは最近大きな進歩を遂げている。 特に、人間の評価(BLEURTやCOMETなど)を微調整した神経メトリクスは、人間の判断に相関して表面メトリクスよりも優れています。 実験の結果,ニューラル翻訳モデルとニューラルレファレンスに基づくメトリクスBLEURTの組み合わせにより,自動評価と人的評価の大幅な改善が得られた。 この改良は、古典的なビームサーチの出力とは異なる翻訳によって得られる:これらの翻訳はずっと低い可能性を持ち、BLEUのような表面測度にはあまり好まれない。

This work applies Minimum Bayes Risk (MBR) decoding to optimize diverse automated metrics of translation quality. Automatic metrics in machine translation have made tremendous progress recently. In particular, neural metrics, fine-tuned on human ratings (e.g. BLEURT, or COMET) are outperforming surface metrics in terms of correlations to human judgements. Our experiments show that the combination of a neural translation model with a neural reference-based metric, BLEURT, results in significant improvement in automatic and human evaluations. This improvement is obtained with translations different from classical beam-search output: these translations have much lower likelihood and are less favored by surface metrics like BLEU.
翻訳日:2021-11-20 01:01:30 公開日:2021-11-17
# (参考訳) 空中人物検出によるドローンによる捜索救助の再考

Rethinking Drone-Based Search and Rescue with Aerial Person Detection ( http://arxiv.org/abs/2111.09406v1 )

ライセンス: CC BY 4.0
Pasi Pyrr\"o, Hassan Naseri, Alexander Jung(参考訳) 航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。 この検査は人間にとって退屈で退屈な作業であるので,この空中人物検出(APD)タスクを自動化するための新しい深層学習アルゴリズムを提案する。 我々は,モデルアーキテクチャの選択,オンラインデータ拡張,移動学習,画像タイリングなどの手法を実験して,本手法の試験性能を向上する。 本稿では,これらの貢献の組み合わせとして,新しい空中検査網膜 (air) アルゴリズムを提案する。 AIR検出器は、一般的に使用されるSARテストデータセットに対して、精度(約21パーセントのポイント増加)と速度の両方で最先端の性能を示す。 さらに,SARミッションにおけるAPD問題に対する新たな公式定義を提供する。 すなわち,実世界のSARローカライゼーション要件の観点から検出器をランク付けする新しい評価手法を提案する。 最後に、重なり合うバウンディングボックス(MOB)アルゴリズムのマージという、ロバストで近似的なオブジェクトローカライゼーションのための新しいポストプロセッシング手法を提案する。 AIR検出器で使用される最終処理段階は、現実世界のSARミッションでの性能とユーザビリティを著しく向上させる。

The visual inspection of aerial drone footage is an integral part of land search and rescue (SAR) operations today. Since this inspection is a slow, tedious and error-prone job for humans, we propose a novel deep learning algorithm to automate this aerial person detection (APD) task. We experiment with model architecture selection, online data augmentation, transfer learning, image tiling and several other techniques to improve the test performance of our method. We present the novel Aerial Inspection RetinaNet (AIR) algorithm as the combination of these contributions. The AIR detector demonstrates state-of-the-art performance on a commonly used SAR test data set in terms of both precision (~21 percentage point increase) and speed. In addition, we provide a new formal definition for the APD problem in SAR missions. That is, we propose a novel evaluation scheme that ranks detectors in terms of real-world SAR localization requirements. Finally, we propose a novel postprocessing method for robust, approximate object localization: the merging of overlapping bounding boxes (MOB) algorithm. This final processing stage used in the AIR detector significantly improves its performance and usability in the face of real-world aerial SAR missions.
翻訳日:2021-11-20 00:45:02 公開日:2021-11-17
# (参考訳) FLSys:FederatedLearningモバイルアプリのためのオープンエコシステムを目指す

FLSys: Toward an Open Ecosystem for FederatedLearning Mobile Apps ( http://arxiv.org/abs/2111.09445v1 )

ライセンス: CC BY 4.0
Han Hu, Xiaopeng Jiang, Vijaya Datta Mayyuri, An Chen, Devu M. Shila, Adriaan Larmuseau, Ruoming Jin, Cristian Borcea, NhatHai Phan(参考訳) 本稿では,モバイルアプリのディープラーニングモデルをサポートするモバイルクラウドフェデレーション学習(FL)システムであるFLSysの設計,実装,評価について述べる。 FLSysは、これらのモデルを使用するFLモデルとアプリのオープンエコシステムを構築するための重要なコンポーネントである。 FLSysは、スマートフォンで収集されたモバイルセンシングデータ、携帯電話でのリソース消費とモデルパフォーマンスのバランス、電話通信障害の許容、クラウドでのスケーラビリティを実現するように設計されている。 FLSysでは、異なるFLアグリゲーションメソッドを持つ異なるDLモデルをクラウドでトレーニングし、異なるアプリによって同時にアクセスすることができる。 さらに、FLSysは、サードパーティのアプリ開発者がFLモデルをトレーニングするための共通APIを提供する。 FLSysはAndroidとAWSクラウドで実装されている。 野生のFLモデルを用いてヒト活動認識(HAR)とFLSysを共同設計した。 harセンシングデータは5ヶ月間に100人以上の大学生の携帯電話から2つの領域で収集された。 我々は,モバイル機器に適したCNNモデルであるHAR-Wildを実装し,非独立分散(非IID)データの問題を軽減するためのデータ拡張機構を実装した。 感情分析(SA)モデルは、FLSysが並列モデルをどのように効果的にサポートするかを示すために使用され、436ユーザの46,000以上のツイートを持つデータセットを使用する。 FLSysが優れたモデルユーティリティと実用的なシステム性能を実現することを示すため,Android端末とエミュレータで広範囲に実験を行った。

This paper presents the design, implementation, and evaluation of FLSys, a mobile-cloud federated learning (FL) system that supports deep learning models for mobile apps. FLSys is a key component toward creating an open ecosystem of FL models and apps that use these models. FLSys is designed to work with mobile sensing data collected on smart phones, balance model performance with resource consumption on the phones, tolerate phone communication failures, and achieve scalability in the cloud. In FLSys, different DL models with different FL aggregation methods in the cloud can be trained and accessed concurrently by different apps. Furthermore, FLSys provides a common API for third-party app developers to train FL models. FLSys is implemented in Android and AWS cloud. We co-designed FLSys with a human activity recognition (HAR) in the wild FL model. HAR sensing data was collected in two areas from the phones of 100+ college students during a five-month period. We implemented HAR-Wild, a CNN model tailored to mobile devices, with a data augmentation mechanism to mitigate the problem of non-Independent and Identically Distributed (non-IID) data that affects FL model training in the wild. A sentiment analysis (SA) model is used to demonstrate how FLSys effectively supports concurrent models, and it uses a dataset with 46,000+ tweets from 436 users. We conducted extensive experiments on Android phones and emulators showing that FLSys achieves good model utility and practical system performance.
翻訳日:2021-11-20 00:27:52 公開日:2021-11-17
# ソーシャルネットワークにおけるリンク予測の高速化を目的としたノードから知識グラフへの変換

Transformation of Node to Knowledge Graph Embeddings for Faster Link Prediction in Social Networks ( http://arxiv.org/abs/2111.09308v1 )

ライセンス: Link先を確認
Archit Parnami, Mayuri Deshpande, Anant Kumar Mishra, Minwoo Lee(参考訳) 最近のニューラルネットワークの進歩により、リンク予測、ノード分類、ノードクラスタリング、ノード推薦などの共通グラフ問題は、エンティティや関係をベクトル空間に組み込むことによって解決されている。 グラフ埋め込みは、グラフに存在する構造情報をエンコードする。 エンコードされた埋め込みは、グラフの欠落リンクを予測するのに使うことができる。 しかし、グラフの最適埋め込みを得ることは、特に組込みシステムにおいて計算的に難しい課題である。 この作品に焦点を絞った2つのテクニックは 1)ランダムウォークに基づく方法とノード埋め込み 2)知識グラフの埋め込み。 ランダムウォークに基づく埋め込みは計算コストが安いが準最適であるが、知識グラフの埋め込みは計算コストが高い。 本研究では,ランダムウォーク法から得られるノード埋め込みを,知識グラフ法から得られる埋め込みへ,計算コストを増加させることなく直接変換する変換モデルについて検討する。 大規模な実験により,提案した変換モデルを用いてリンク予測をリアルタイムに解くことができることがわかった。

Recent advances in neural networks have solved common graph problems such as link prediction, node classification, node clustering, node recommendation by developing embeddings of entities and relations into vector spaces. Graph embeddings encode the structural information present in a graph. The encoded embeddings then can be used to predict the missing links in a graph. However, obtaining the optimal embeddings for a graph can be a computationally challenging task specially in an embedded system. Two techniques which we focus on in this work are 1) node embeddings from random walk based methods and 2) knowledge graph embeddings. Random walk based embeddings are computationally inexpensive to obtain but are sub-optimal whereas knowledge graph embeddings perform better but are computationally expensive. In this work, we investigate a transformation model which converts node embeddings obtained from random walk based methods to embeddings obtained from knowledge graph methods directly without an increase in the computational cost. Extensive experimentation shows that the proposed transformation model can be used for solving link prediction in real-time.
翻訳日:2021-11-19 15:15:23 公開日:2021-11-17
# 変換スパイクニューラルネットワークのL4ノーム重み調整

L4-Norm Weight Adjustments for Converted Spiking Neural Networks ( http://arxiv.org/abs/2111.09446v1 )

ライセンス: Link先を確認
Jason Allred, Kaushik Roy(参考訳) spiking neural networks (snn) は、分散したイベント駆動計算によるエネルギー効率の利点を追求している。 非スパイク人工ニューラルネットワークは通常、バックプロパゲーションを用いて確率勾配降下で訓練される。 スパイクニューラルネットワークにおけるバックプロパゲーションの真の勾配の計算は、スパイクニューロンの非微分的な発火現象によって妨げられる。 一方、近似勾配を用いることは効果的であるが、多くの時間ステップで計算コストがかかる。 スパイクニューラルネットワークをトレーニングするための一般的なテクニックは、トポロジカルに等価な非スパイクネットワークをトレーニングし、それをスパイクネットワークに変換し、実際の値入力を比例レートエンコードされたポアソンスパイクトレインに置き換える。 スパイキングニューロンの平均膜電位は、非スパイキングネットワークの機能と同様、入力速度ベクトルおよびニューロン重量ベクトルのドット積に比例するため、変換SNNは十分に機能する。 しかし、この変換は膜電位の平均と時間的ばらつきだけを考慮していない。 プレファイリング膜電位の標準偏差はニューロンの重みベクトルのL4ノルムに比例するので、変換過程におけるL4ノルムに基づく重み調整を提案し、変換されたネットワークの分類精度を向上させる。

Spiking Neural Networks (SNNs) are being explored for their potential energy efficiency benefits due to sparse, event-driven computation. Non-spiking artificial neural networks are typically trained with stochastic gradient descent using backpropagation. The calculation of true gradients for backpropagation in spiking neural networks is impeded by the non-differentiable firing events of spiking neurons. On the other hand, using approximate gradients is effective, but computationally expensive over many time steps. One common technique, then, for training a spiking neural network is to train a topologically-equivalent non-spiking network, and then convert it to an spiking network, replacing real-valued inputs with proportionally rate-encoded Poisson spike trains. Converted SNNs function sufficiently well because the mean pre-firing membrane potential of a spiking neuron is proportional to the dot product of the input rate vector and the neuron weight vector, similar to the functionality of a non-spiking network. However, this conversion only considers the mean and not the temporal variance of the membrane potential. As the standard deviation of the pre-firing membrane potential is proportional to the L4-norm of the neuron weight vector, we propose a weight adjustment based on the L4-norm during the conversion process in order to improve classification accuracy of the converted network.
翻訳日:2021-11-19 15:15:07 公開日:2021-11-17
# 物理インフォームドニューラルネットワークによる自由表面流れの学習

Learning Free-Surface Flow with Physics-Informed Neural Networks ( http://arxiv.org/abs/2111.09705v1 )

ライセンス: Link先を確認
Raphael Leiteritz, Marcel Hurler, Dirk Pfl\"uger(参考訳) データ駆動学習手法と古典的シミュレーションのインターフェイスは、多くの新しいアプリケーションを提供する興味深い分野である。 本研究では,物理学的不定形ニューラルネットワーク(pinns)の概念を基礎として,浅層水方程式(swe)モデルに適用する。 これらのモデルは、洪水波の伝播や津波波などの自由表面流シナリオのモデル化とシミュレーションにおいて重要な役割を担っている。 PINN残差の異なる定式化を互いに比較し、収束率を高速化するために複数の最適化が評価されている。 異なる1-D, 2-D実験を用いて実験を行い, 様々な入浴量を持つSWEシナリオについて, 相対誤差8.9e-3$の直接数値シミュレーションと比較して, 競合する結果が得られることを示した。

The interface between data-driven learning methods and classical simulation poses an interesting field offering a multitude of new applications. In this work, we build on the notion of physics-informed neural networks (PINNs) and employ them in the area of shallow-water equation (SWE) models. These models play an important role in modeling and simulating free-surface flow scenarios such as in flood-wave propagation or tsunami waves. Different formulations of the PINN residual are compared to each other and multiple optimizations are being evaluated to speed up the convergence rate. We test these with different 1-D and 2-D experiments and finally demonstrate that regarding a SWE scenario with varying bathymetry, the method is able to produce competitive results in comparison to the direct numerical simulation with a total relative $L_2$ error of $8.9e-3$.
翻訳日:2021-11-19 15:14:02 公開日:2021-11-17
# 反復学習制御の有効性について

On the Effectiveness of Iterative Learning Control ( http://arxiv.org/abs/2111.09434v1 )

ライセンス: Link先を確認
Anirudh Vemula, Wen Sun, Maxim Likhachev, J. Andrew Bagnell(参考訳) 反復学習制御(ilc)は、最適制御アプリケーションのためのモデリングエラーの存在下での高性能追跡のための強力な技術である。 化学反応器、産業用ロボット、クワッドコプターなどの応用における実証的な効果を示す広範な先行研究がある。 しかし,誤特定モデル (mm) を用いた最適制御手法の性能が低くなるような大規模モデリング誤差が存在する場合でも,ircの有効性を説明する先行的な理論的な研究は少ない。 本研究は、線形二次レギュレータ(LQR)問題におけるICCとMMの両方の性能に関する理論的研究である。 ILC の最適 LQR コントローラに対して測定された準最適差は,高モデリング誤差の状況において重要となる高次項による MM よりも小さいことを示す。 解析の重要な部分は、有限地平線設定における離散リカティ方程式の摂動境界であり、解は不動点ではなく、再帰的境界を用いて誤差を追跡する必要がある。 我々は,近似モデルを用いた玩具線形力学系,不特定質量の非線形反転振子系,風の存在下での非線形平面四重項系に関する実験的な実験を行った。 実験の結果, モデル誤差が高い場合, ILC は計算トラジェクトリのコストにおいてMM を著しく上回ることがわかった。

Iterative learning control (ILC) is a powerful technique for high performance tracking in the presence of modeling errors for optimal control applications. There is extensive prior work showing its empirical effectiveness in applications such as chemical reactors, industrial robots and quadcopters. However, there is little prior theoretical work that explains the effectiveness of ILC even in the presence of large modeling errors, where optimal control methods using the misspecified model (MM) often perform poorly. Our work presents such a theoretical study of the performance of both ILC and MM on Linear Quadratic Regulator (LQR) problems with unknown transition dynamics. We show that the suboptimality gap, as measured with respect to the optimal LQR controller, for ILC is lower than that for MM by higher order terms that become significant in the regime of high modeling errors. A key part of our analysis is the perturbation bounds for the discrete Ricatti equation in the finite horizon setting, where the solution is not a fixed point and requires tracking the error using recursive bounds. We back our theoretical findings with empirical experiments on a toy linear dynamical system with an approximate model, a nonlinear inverted pendulum system with misspecified mass, and a nonlinear planar quadrotor system in the presence of wind. Experiments show that ILC outperforms MM significantly, in terms of the cost of computed trajectories, when modeling errors are high.
翻訳日:2021-11-19 15:12:35 公開日:2021-11-17
# セキュリティ制約付きユニットコミットに対する機械学習支援アプローチ

Machine Learning Assisted Approach for Security-Constrained Unit Commitment ( http://arxiv.org/abs/2111.09824v1 )

ライセンス: Link先を確認
Arun Venkatesh Ramesh, Xingpeng Li(参考訳) 電力系統のデイ・アヘッド生成スケジューリングに使用されるセキュリティ制約付き単位コミットメント(scuc)は、計算量が多い混合整数線形計画問題である。 優れたウォームスタートソリューションや縮小SCUCモデルは、大幅な時間節約をもたらす可能性がある。 本研究では、機械学習(ML)を効果的に活用し、優れた開始解を提供し、SCUCの問題を小さくする新しい手法を提案する。 ロジスティック回帰アルゴリズムを用いたMLモデルを提案し, 過去の納期需要プロファイルと各コミットメントスケジュールを用いて訓練した。 ML出力を処理して解析してSCUCを支援する。 提案手法は、IEEE 24-busシステム、IEEE 73-busシステム、IEEE 118-busシステム、合成サウスカロライナ500-busシステム、ポーランド2383-busシステムなど、いくつかの標準的なテストシステムで検証されている。 シミュレーションの結果,提案する機械学習モデルからの予測は,優れたウォームスタートソリューションを提供し,計算時間を大幅に削減しながら,scccにおける変数数や制約を最小化できることがわかった。

Security-constrained unit commitment (SCUC) which is used in the power system day-ahead generation scheduling is a mixed-integer linear programming problem that is computationally intensive. A good warm-start solution or a reduced-SCUC model can bring significant time savings. In this work, a novel approach is proposed to effectively utilize machine learning (ML) to provide a good starting solution and/or reduce the problem size of SCUC. An ML model using a logistic regression algorithm is proposed and trained using historical nodal demand profiles and the respective commitment schedules. The ML outputs are processed and analyzed to assist SCUC. The proposed approach is validated on several standard test systems namely, IEEE 24-bus system, IEEE 73-bus system, IEEE 118-bus system, synthetic South Carolina 500-bus system, and Polish 2383-bus system. Simulation results demonstrate that the prediction from the proposed machine learning model can provide a good warm-start solution and/or reduce the number of variables and constraints in SCUC with minimal loss in solution quality while substantially reducing the computing time.
翻訳日:2021-11-19 15:11:49 公開日:2021-11-17
# 深層学習によるNBA結果予測の特徴選択

Features selection in NBA outcome prediction through Deep Learning ( http://arxiv.org/abs/2111.09695v1 )

ライセンス: Link先を確認
Manlio Migliorati (University of Brescia, Department of Economics and Management, Italy)(参考訳) この原稿はNBAバスケットボール選手権の試合結果予測のための特徴の定義に焦点を当てている。 1つの特徴(エロ評価または相対的な勝利頻度)に基づくモデルが、ボックススコア予測器(例えば4因子)を使用するモデルよりも適合する品質を持つことを示す。 16のnbaレギュラーシーズンのデータを含むデータセットで特徴が計算され、特にホームコートファクタに注意を払っている。 モデルは、クロスバリデーションを使用して、Deep Learningを通じて作成されている。

This manuscript is focused on features' definition for the outcome prediction of matches of NBA basketball championship. It is shown how models based on one a single feature (Elo rating or the relative victory frequency) have a quality of fit better than models using box-score predictors (e.g. the Four Factors). Features have been ex ante calculated for a dataset containing data of 16 NBA regular seasons, paying particular attention to home court factor. Models have been produced via Deep Learning, using cross validation.
翻訳日:2021-11-19 14:46:31 公開日:2021-11-17
# deepcurrents: 境界を持つ形状の暗黙的な表現を学ぶ

DeepCurrents: Learning Implicit Representations of Shapes with Boundaries ( http://arxiv.org/abs/2111.09383v1 )

ライセンス: Link先を確認
David Palmer and Dmitriy Smirnov and Stephanie Wang and Albert Chern and Justin Solomon(参考訳) 近年、深層ニューラルネットワークによってパラメータ化された学習関数(符号付き距離場など)のレベルセットとして、表面の再構成に成功した。 しかし、これらの手法の多くは閉曲面のみを学習し、境界曲線で形状を再構成することはできない。 明示的な境界曲線と暗黙的に学習された内部を結合したハイブリッド形状表現を提案する。 幾何測度理論の機械を用いて、ディープネットワークを用いて電流をパラメータ化し、極小表面問題を解くために確率勾配降下を用いる。 例えばメッシュやポイントクラウドから来るターゲットジオメトリに従ってメトリックを変更することで、このアプローチを使って任意の表面を表現することができ、明示的に定義された境界曲線で暗黙的に定義された形状を学習できる。 さらに、境界曲線と潜時符号でパラメータ化された形状の学習ファミリを実証する。

Recent techniques have been successful in reconstructing surfaces as level sets of learned functions (such as signed distance fields) parameterized by deep neural networks. Many of these methods, however, learn only closed surfaces and are unable to reconstruct shapes with boundary curves. We propose a hybrid shape representation that combines explicit boundary curves with implicit learned interiors. Using machinery from geometric measure theory, we parameterize currents using deep networks and use stochastic gradient descent to solve a minimal surface problem. By modifying the metric according to target geometry coming, e.g., from a mesh or point cloud, we can use this approach to represent arbitrary surfaces, learning implicitly defined shapes with explicitly defined boundary curves. We further demonstrate learning families of shapes jointly parameterized by boundary curves and latent codes.
翻訳日:2021-11-19 14:43:33 公開日:2021-11-17
# 動的シーンにおける時間的一貫性のあるオンライン深度推定

Temporally Consistent Online Depth Estimation in Dynamic Scenes ( http://arxiv.org/abs/2111.09337v1 )

ライセンス: Link先を確認
Zhaoshuo Li, Wei Ye, Dilin Wang, Francis X. Creighton, Russell H. Taylor, Ganesh Venkatesh, Mathias Unberath(参考訳) 拡張現実のようなリアルタイムアプリケーションには、時間的に一貫した深さ推定が不可欠である。 ステレオ深度推定はフレーム単位での改善につながるかなりの注目を集めているが、フレーム間の時間的一貫性を維持することに注力する作業は比較的少ない。 実際、我々の分析によれば、現在のステレオ深度推定技術は依然として時間的一貫性に乏しい。 動的シーンでの時間的深さの安定化は、オブジェクトとカメラの動きを同時に行うため困難である。 オンライン環境では、過去のフレームのみが利用可能なため、このプロセスはさらに悪化する。 本稿では,オンライン環境における動的シーンにおける時間的一貫した深度推定手法を提案する。 我々のネットワークは、フレームごとの現在のステレオネットワークを新しい動きと融合ネットワークで拡張する。 モーションネットワークは、ピクセル単位のse3変換を予測して、オブジェクトとカメラの両方の動作を記述する。 融合ネットワークは、現在の予測と過去の予測を回帰重みで集約することで予測の一貫性を向上させる。 様々なデータセット(合成、屋外、屋内、医療)にまたがる広範な実験を行う。 ゼロショット一般化とドメイン微調整の両方において,提案手法は時間的安定性とフレーム単位の精度において,定量的かつ定性的に競合する手法より優れていることを示す。 私たちのコードはオンラインで入手できる。

Temporally consistent depth estimation is crucial for real-time applications such as augmented reality. While stereo depth estimation has received substantial attention that led to improvements on a frame-by-frame basis, there is relatively little work focused on maintaining temporal consistency across frames. Indeed, based on our analysis, current stereo depth estimation techniques still suffer from poor temporal consistency. Stabilizing depth temporally in dynamic scenes is challenging due to concurrent object and camera motion. In an online setting, this process is further aggravated because only past frames are available. In this paper, we present a technique to produce temporally consistent depth estimates in dynamic scenes in an online setting. Our network augments current per-frame stereo networks with novel motion and fusion networks. The motion network accounts for both object and camera motion by predicting a per-pixel SE3 transformation. The fusion network improves consistency in prediction by aggregating the current and previous predictions with regressed weights. We conduct extensive experiments across varied datasets (synthetic, outdoor, indoor and medical). In both zero-shot generalization and domain fine-tuning, we demonstrate that our proposed approach outperforms competing methods in terms of temporal stability and per-frame accuracy, both quantitatively and qualitatively. Our code will be available online.
翻訳日:2021-11-19 14:21:13 公開日:2021-11-17
# 深層学習による都市交通シーンの細粒度車両分類

Fine-Grained Vehicle Classification in Urban Traffic Scenes using Deep Learning ( http://arxiv.org/abs/2111.09403v1 )

ライセンス: Link先を確認
Syeda Aneeba Najeeb, Rana Hammad Raza, Adeel Yusuf, Zamra Sultan(参考訳) ますます密集したトラフィックは、私たちのローカル設定において課題となり、より良いトラフィック監視と管理システムの必要性を訴えている。 細粒度の車両分類は、車両の粗い分類と比較すると難しい課題であると思われる。 そのため、車両検出と細粒度分類のための堅牢なアプローチの探索が不可欠である。 既存の車両製造・モデル認識システム(VMMR)は、同期および制御された交通条件に基づいて開発されている。 複雑・都市・異質・非同期の交通条件における堅牢なVMMRの必要性は、まだオープンな研究領域のままである。 本稿では,深層学習を用いて車両検出と細粒度分類を行う。 関連複雑さを伴うきめ細かい分類を行うため、クラス内およびクラス間変動の少ないローカルデータセットTHS-10を専用に作成する。 データセットは、ホンダシティ、ホンダシビック、スズキアルト、スズキボラン、スズキカルト、スズキメヘラン、スズキラビ、スズキスウィフト、スズキワゴンr、トヨタコローラの4250台の車両イメージで構成されている。 このデータセットはオンラインで利用可能だ。 ディープニューラルネットワークから車両の分類、微調整、特徴抽出のための2つのアプローチが検討され分析されている。 比較研究を行い,より単純な手法が局所環境において,濃密な咬合や車線離脱といった複雑な問題に対処できることを示す。 したがって計算負荷と時間の削減、例えば微調整インセプションv3は最大精度97.4%、最小の誤分類率は2.08%であった。 微調整されたMobileNet-v2とResNet-18はそれぞれ96.8%と95.7%の精度を生み出した。 AlexNetのfc6層から抽出した特徴は93.5%の精度で、誤分類率は6.5%である。

The increasingly dense traffic is becoming a challenge in our local settings, urging the need for a better traffic monitoring and management system. Fine-grained vehicle classification appears to be a challenging task as compared to vehicle coarse classification. Exploring a robust approach for vehicle detection and classification into fine-grained categories is therefore essentially required. Existing Vehicle Make and Model Recognition (VMMR) systems have been developed on synchronized and controlled traffic conditions. Need for robust VMMR in complex, urban, heterogeneous, and unsynchronized traffic conditions still remain an open research area. In this paper, vehicle detection and fine-grained classification are addressed using deep learning. To perform fine-grained classification with related complexities, local dataset THS-10 having high intra-class and low interclass variation is exclusively prepared. The dataset consists of 4250 vehicle images of 10 vehicle models, i.e., Honda City, Honda Civic, Suzuki Alto, Suzuki Bolan, Suzuki Cultus, Suzuki Mehran, Suzuki Ravi, Suzuki Swift, Suzuki Wagon R and Toyota Corolla. This dataset is available online. Two approaches have been explored and analyzed for classification of vehicles i.e, fine-tuning, and feature extraction from deep neural networks. A comparative study is performed, and it is demonstrated that simpler approaches can produce good results in local environment to deal with complex issues such as dense occlusion and lane departures. Hence reducing computational load and time, e.g. fine-tuning Inception-v3 produced highest accuracy of 97.4% with lowest misclassification rate of 2.08%. Fine-tuning MobileNet-v2 and ResNet-18 produced 96.8% and 95.7% accuracies, respectively. Extracting features from fc6 layer of AlexNet produces an accuracy of 93.5% with a misclassification rate of 6.5%.
翻訳日:2021-11-19 14:20:54 公開日:2021-11-17
# see eye to eye: 教師なしマルチターゲットドメイン適応のためのライダー非依存3d検出フレームワーク

See Eye to Eye: A Lidar-Agnostic 3D Detection Framework for Unsupervised Multi-Target Domain Adaptation ( http://arxiv.org/abs/2111.09450v1 )

ライセンス: Link先を確認
Darren Tsai and Julie Stephany Berrio and Mao Shan and Stewart Worrall and Eduardo Nebot(参考訳) 異なるメーカーとライダーセンサーのモデルとの相違をサンプリングすると、オブジェクトの不整合表現が生じる。 これにより、1つのライダーのために訓練された3D検出器が他のタイプのライダーでテストされると性能が低下する。 ライダー製造の著しい進歩は、機械的、固体的、そして近年では調整可能なスキャンパターンlidarの進歩をもたらした。 後者では、スキャンパターンが調整されるたびにモデルを微調整する必要があることが多い。 我々は,新しい非教師付きマルチターゲットドメイン適応フレームワークの提案により,ユーザによるモデルの微調整を必要とせず,固定およびフレキシブルなスキャンパターンlidarをまたいで最先端の3d検出器の性能を伝達することにより,サンプリングの不一致を明示的に処理する。 提案手法は,基盤となる形状を補間し,異なるライダーの物体の走査パターンを正規化し,検出ネットワークに渡す。 我々は、SEEが公開データセット上で有効であること、最先端の成果を達成できること、そして、我々のフレームワークの産業的応用を証明するために、新しい高解像度ライダーに定量的な結果を提供する。 このデータセットとコードは公開される予定だ。

Sampling discrepancies between different manufacturers and models of lidar sensors result in inconsistent representations of objects. This leads to performance degradation when 3D detectors trained for one lidar are tested on other types of lidars. Remarkable progress in lidar manufacturing has brought about advances in mechanical, solid-state, and recently, adjustable scan pattern lidars. For the latter, existing works often require fine-tuning the model each time scan patterns are adjusted, which is infeasible. We explicitly deal with the sampling discrepancy by proposing a novel unsupervised multi-target domain adaptation framework, SEE, for transferring the performance of state-of-the-art 3D detectors across both fixed and flexible scan pattern lidars without requiring fine-tuning of models by end-users. Our approach interpolates the underlying geometry and normalizes the scan pattern of objects from different lidars before passing them to the detection network. We demonstrate the effectiveness of SEE on public datasets, achieving state-of-the-art results, and additionally provide quantitative results on a novel high-resolution lidar to prove the industry applications of our framework. This dataset and our code will be made publicly available.
翻訳日:2021-11-19 14:20:23 公開日:2021-11-17
# 連続学習による持続可能な人工知能

Sustainable Artificial Intelligence through Continual Learning ( http://arxiv.org/abs/2111.09437v1 )

ライセンス: Link先を確認
Andrea Cossu, Marta Ziosi, Vincenzo Lomonaco(参考訳) 人工知能(AI)の規制に対する関心が高まり、サステナブルAIフレームワークにグループ化された倫理原則が定義されるようになった。 本稿では,AI研究の活発な領域である継続学習を,持続可能なAI原則に準拠したシステム設計への有望なアプローチとして認識する。 Sustainable AIは倫理的応用のための一般的なデシダラタを概説しているが、継続学習はそのようなデシダラタを実践する手段を提供する。

The increasing attention on Artificial Intelligence (AI) regulation has led to the definition of a set of ethical principles grouped into the Sustainable AI framework. In this article, we identify Continual Learning, an active area of AI research, as a promising approach towards the design of systems compliant with the Sustainable AI principles. While Sustainable AI outlines general desiderata for ethical applications, Continual Learning provides means to put such desiderata into practice.
翻訳日:2021-11-19 14:00:52 公開日:2021-11-17
# the people's speech: a large-scale diverse english speech recognition dataset for commercial use

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage ( http://arxiv.org/abs/2111.09344v1 )

ライセンス: Link先を確認
Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cer\'on, Keith Achorn, Anjali Gopi, David Kanter, Maximilian Lam, Mark Mazumder, Vijay Janapa Reddi(参考訳) People's Speechは、CC-BY-SA(CC-BYサブセット)の下での学術的および商業的使用のためにライセンスされた、3万時間の無料ダウンロードと教師付き会話型英語音声認識データセットである。 データはインターネットを介して収集され、既存の書き起こしで適切なライセンスされたオーディオデータを取得する。 当社のデータ収集方法論を説明し,apache 2.0ライセンスの下でデータ収集システムをリリースする。 このデータセットでトレーニングされたモデルは、librispeechのテストクリーンテストセット上で9.98%の単語誤り率を達成していることを示し、最後に、大規模な機械学習コーパスの作成に関する法的および倫理的問題と、mlcommonsのスポンサーの下でプロジェクトの継続的なメンテナンス計画について論じる。

The People's Speech is a free-to-download 30,000-hour and growing supervised conversational English speech recognition dataset licensed for academic and commercial usage under CC-BY-SA (with a CC-BY subset). The data is collected via searching the Internet for appropriately licensed audio data with existing transcriptions. We describe our data collection methodology and release our data collection system under the Apache 2.0 license. We show that a model trained on this dataset achieves a 9.98% word error rate on Librispeech's test-clean test set.Finally, we discuss the legal and ethical issues surrounding the creation of a sizable machine learning corpora and plans for continued maintenance of the project under MLCommons's sponsorship.
翻訳日:2021-11-19 14:00:24 公開日:2021-11-17
# 局所記憶による個人化フェデレーション学習

Personalized Federated Learning through Local Memorization ( http://arxiv.org/abs/2111.09360v1 )

ライセンス: Link先を確認
Othmane Marfoq, Giovanni Neglia, Laetitia Kameni, Richard Vidal(参考訳) フェデレーション学習により、クライアントはデータをローカルに保ちながら、統計的モデルを協調的に学習することができる。 フェデレーション学習はもともと、すべてのクライアントに提供されるユニークなグローバルモデルをトレーニングするために使用されたが、クライアントのローカルなデータ分散が異種である場合、このアプローチは最適ではないかもしれない。 この制限に対処するために、最近のパーソナライズされたフェデレーション学習手法では、他のクライアントで利用可能な知識を活用しながら、各クライアントで別々のモデルをトレーニングしている。 本研究では,画像やテキストなどの非語彙データから高品質なベクトル表現(埋め込み)を抽出し,局所記憶に基づくパーソナライズ機構を提案する。 グローバルモデルが提供する共有表現に基づいて,k$-nearest neighbors (kNN)モデルで事前学習したグローバルモデルを補間する。 提案手法の一般化バウンダリを提案し,本手法が最先端手法よりも精度と公平性を著しく向上することを示す。

Federated learning allows clients to collaboratively learn statistical models while keeping their data local. Federated learning was originally used to train a unique global model to be served to all clients, but this approach might be sub-optimal when clients' local data distributions are heterogeneous. In order to tackle this limitation, recent personalized federated learning methods train a separate model for each client while still leveraging the knowledge available at other clients. In this work, we exploit the ability of deep neural networks to extract high quality vectorial representations (embeddings) from non-tabular data, e.g., images and text, to propose a personalization mechanism based on local memorization. Personalization is obtained interpolating a pre-trained global model with a $k$-nearest neighbors (kNN) model based on the shared representation provided by the global model. We provide generalization bounds for the proposed approach and we show on a suite of federated datasets that this approach achieves significantly higher accuracy and fairness than state-of-the-art methods.
翻訳日:2021-11-19 14:00:08 公開日:2021-11-17
# MPF6D:マズードピラミッド核融合6Dポス推定

MPF6D: Masked Pyramid Fusion 6D Pose Estimation ( http://arxiv.org/abs/2111.09378v1 )

ライセンス: Link先を確認
Nuno Pereira and Lu\'is A. Alexandre(参考訳) オブジェクトのポーズ推定には、ロボットの把握や拡張現実など、複数の重要な応用がある。 本稿では,現在の提案の精度を向上し,なおかつリアルタイムに使用できる物体の6次元形状を推定する新しい手法を提案する。 提案手法では,RGB-Dデータを入力として,オブジェクトを分割し,ポーズを推定する。 複数のヘッドを持つニューラルネットワークを使用し、1つのヘッドはオブジェクトの分類を推定し、マスクを生成し、2番目のヘッドは翻訳ベクトルの値を推定し、最後のヘッドはオブジェクトの回転を表す四元数の値を推定する。 これらのヘッドは、特徴抽出と特徴融合に使用されるピラミッドアーキテクチャを利用する。 提案手法は0.12秒の推論時間と高精度でリアルタイムに使用できる。 この高速推論と精度の良さを組み合わせることで、ロボットのピック&プレイスタスクや拡張現実アプリケーションでこの手法を使うことができる。

Object pose estimation has multiple important applications, such as robotic grasping and augmented reality. We present a new method to estimate the 6D pose of objects that improves upon the accuracy of current proposals and can still be used in real-time. Our method uses RGB-D data as input to segment objects and estimate their pose. It uses a neural network with multiple heads, one head estimates the object classification and generates the mask, the second estimates the values of the translation vector and the last head estimates the values of the quaternion that represents the rotation of the object. These heads leverage a pyramid architecture used during feature extraction and feature fusion. Our method can be used in real-time with its low inference time of 0.12 seconds and has high accuracy. With this combination of fast inference and good accuracy it is possible to use our method in robotic pick and place tasks and/or augmented reality applications.
翻訳日:2021-11-19 13:56:31 公開日:2021-11-17
# 異種データを用いた高精度分散分散学習

Low Precision Decentralized Distributed Training with Heterogeneous Data ( http://arxiv.org/abs/2111.09389v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sangamesh Kodge, Kaushik Roy(参考訳) 分散分散学習は、クラウドに頼ることなく、プライベートなユーザ生成ローカルデータを使用してエッジデバイス上で大規模機械学習(トレーニング)を可能にするための鍵である。 しかしながら、デバイス上でのトレーニングの実現には、通信のボトルネック、深層モデルのトレーニングの計算複雑性、デバイス間の大きなデータ分散が制限されている。 多くのフィードバックに基づく圧縮技術が,通信コスト削減のために文献で提案されており,コンバージェンス率の向上によるスキュードデータ配信の性能向上を支援するためのアルゴリズム的変更がいくつか提案されている。 我々の知識を最大限に活用するために、ピアツーピアの分散学習環境において、量子化やプルーニングなどの効率的な訓練手法を適用し、示す文献は存在しない。 本稿では,学習と推論の計算複雑性を低減することを目的とした,低精度分散トレーニングの収束度を解析し,示す。 さらに,様々なコンピュータビジョンと自然言語処理(NLP)タスクにおける,スキュー度と通信圧縮が低精度分散トレーニングに及ぼす影響について検討した。 実験の結果,8ビット分散トレーニングは不均一なデータであっても,完全精度よりも精度が低いことがわかった。 しかし,スペーシフィケーションによる通信圧縮を伴う低精度トレーニングでは,1~2%の精度低下が観察された。 提案した低精度分散トレーニングは、IIDおよび非IIDデータの1%未満の精度で処理しながら、計算複雑性、メモリ使用量、通信コストを約4倍に削減する。 特に, スクリュー値が高い場合には, 低精度トレーニングによる精度(~0.5%)の増加が観察され, 量子化の正則化効果が示唆された。

Decentralized distributed learning is the key to enabling large-scale machine learning (training) on the edge devices utilizing private user-generated local data, without relying on the cloud. However, practical realization of such on-device training is limited by the communication bottleneck, computation complexity of training deep models and significant data distribution skew across devices. Many feedback-based compression techniques have been proposed in the literature to reduce the communication cost and a few works propose algorithmic changes to aid the performance in the presence of skewed data distribution by improving convergence rate. To the best of our knowledge, there is no work in the literature that applies and shows compute efficient training techniques such quantization, pruning etc., for peer-to-peer decentralized learning setups. In this paper, we analyze and show the convergence of low precision decentralized training that aims to reduce the computational complexity of training and inference. Further, We study the effect of degree of skew and communication compression on the low precision decentralized training over various computer vision and Natural Language Processing (NLP) tasks. Our experiments indicate that 8-bit decentralized training has minimal accuracy loss compared to its full precision counterpart even with heterogeneous data. However, when low precision training is accompanied by communication compression through sparsification we observe 1-2% drop in accuracy. The proposed low precision decentralized training decreases computational complexity, memory usage, and communication cost by ~4x while trading off less than a 1% accuracy for both IID and non-IID data. In particular, with higher skew values, we observe an increase in accuracy (by ~0.5%) with low precision training, indicating the regularization effect of the quantization.
翻訳日:2021-11-19 13:52:25 公開日:2021-11-17
# 大規模時系列データからの不確実性を考慮した複数インスタンス学習

Uncertainty-Aware Multiple Instance Learning fromLarge-Scale Long Time Series Data ( http://arxiv.org/abs/2111.08625v2 )

ライセンス: Link先を確認
Yuansheng Zhu, Weishi Shi, Deep Shankar Pandey, Yang Liu, Xiaofan Que, Daniel E. Krutz, and Qi Yu(参考訳) 本稿では,大規模時系列データを長時間に分類する新しい枠組みを提案する。 L-TSC(Long Time seriesclassification)は、分類対象に大量の無関係な情報を含むため、難しい問題である。 本稿では,不確実性を考慮した複数インスタンス学習(mil)フレームワークを提案する。 予測の不確実性により、MILモデルに識別可能な期間から学習を強いるアタテンション機構の設計が可能になる。 さらに、予測不確実性は、予測が信頼に値するか否かを判定する原則付き推定器を出力する。 我々はさらに,その可利用性に基づいて別のモデルを訓練し,最終予測を推定するために不確実性を認識した融合を行うことにより,信頼性の低い予測を緩和するもう1つのモダリティを組み込む。 自動識別システム(ais)データを用いて系統的な評価を行い,実世界の船舶の識別と追跡を行う。 実験結果から,提案手法は,他のデータモダリティ(Synthetic-ApertureRadar あるいは SAR 画像)とのトラジェクティと不確実性認識に基づく容器のタイプを効果的に検出できることが示唆された。

We propose a novel framework to classify large-scale time series data with long duration. Long time seriesclassification (L-TSC) is a challenging problem because the dataoften contains a large amount of irrelevant information to theclassification target. The irrelevant period degrades the classifica-tion performance while the relevance is unknown to the system.This paper proposes an uncertainty-aware multiple instancelearning (MIL) framework to identify the most relevant periodautomatically. The predictive uncertainty enables designing anattention mechanism that forces the MIL model to learn from thepossibly discriminant period. Moreover, the predicted uncertaintyyields a principled estimator to identify whether a prediction istrustworthy or not. We further incorporate another modality toaccommodate unreliable predictions by training a separate modelbased on its availability and conduct uncertainty aware fusion toproduce the final prediction. Systematic evaluation is conductedon the Automatic Identification System (AIS) data, which is col-lected to identify and track real-world vessels. Empirical resultsdemonstrate that the proposed method can effectively detect thetypes of vessels based on the trajectory and the uncertainty-awarefusion with other available data modality (Synthetic-ApertureRadar or SAR imagery is used in our experiments) can furtherimprove the detection accuracy.
翻訳日:2021-11-19 11:29:53 公開日:2021-11-17
# (参考訳) ランダムフィードバックの働き方とタイミング:低ランク行列因子化の事例研究

How and When Random Feedback Works: A Case Study of Low-Rank Matrix Factorization ( http://arxiv.org/abs/2111.08706v1 )

ライセンス: CC BY 4.0
Shivam Garg, Santosh S. Vempala(参考訳) MLにおける勾配降下の成功、特にニューラルネットワークの学習は目覚ましい、堅牢である。 脳がどのように学習するかという文脈において、生物学的に理解が難しい勾配降下の1つの側面は、その更新が後の層からそれ以前の層へのフィードバックに依存していることである。 このような双方向リンクは脳ネットワークでは比較的少なく、相互接続が存在する場合でも同等重み付けされない可能性がある。 後ろ向きの重みがランダムで固定されたランダムフィードバックアライメント(lillicrap et al., 2016)は、バイオプラッシブルな代替案として提案され、実証的に有効であることが判明した。 階層構造における最も基本的な問題である低ランク行列因子分解に着目し,フィードバックアライメント(fa)の動作方法と時期を調査した。 この問題において、行列 $Y_{n\times m}$ が与えられたとき、目標は、誤差 $\|ZW-Y\|_F$ を最小化する低階分解 $Z_{n \times r}W_{r \times m}$ を見つけることである。 勾配降下はこの問題を最適に解く。 FA が最適解に収束するのは $r\ge \mbox{rank}(Y)$ のときである。 FAの仕組みにも光を当てています。 fa更新中に前方重量行列と(ランダムな)フィードバック行列が近づくことが実証的に観察される。 我々の分析は、この現象を厳格に導き出し、FAの収束を促進する方法を示している。 また、$r < \mbox{rank}(Y)$ のとき、FA が最適ではないことも示します。 これは勾配降下とfaの間の最初の証明可能な分離結果である。 さらに、勾配降下と FA から得られる表現は、誤差 $\|ZW-Y\|_F$ がほぼ等しい場合でもほぼ直交である。

The success of gradient descent in ML and especially for learning neural networks is remarkable and robust. In the context of how the brain learns, one aspect of gradient descent that appears biologically difficult to realize (if not implausible) is that its updates rely on feedback from later layers to earlier layers through the same connections. Such bidirected links are relatively few in brain networks, and even when reciprocal connections exist, they may not be equi-weighted. Random Feedback Alignment (Lillicrap et al., 2016), where the backward weights are random and fixed, has been proposed as a bio-plausible alternative and found to be effective empirically. We investigate how and when feedback alignment (FA) works, focusing on one of the most basic problems with layered structure -- low-rank matrix factorization. In this problem, given a matrix $Y_{n\times m}$, the goal is to find a low rank factorization $Z_{n \times r}W_{r \times m}$ that minimizes the error $\|ZW-Y\|_F$. Gradient descent solves this problem optimally. We show that FA converges to the optimal solution when $r\ge \mbox{rank}(Y)$. We also shed light on how FA works. It is observed empirically that the forward weight matrices and (random) feedback matrices come closer during FA updates. Our analysis rigorously derives this phenomenon and shows how it facilitates convergence of FA. We also show that FA can be far from optimal when $r < \mbox{rank}(Y)$. This is the first provable separation result between gradient descent and FA. Moreover, the representations found by gradient descent and FA can be almost orthogonal even when their error $\|ZW-Y\|_F$ is approximately equal.
翻訳日:2021-11-18 23:53:25 公開日:2021-11-17
# (参考訳) 独立成分分析のためのノーマティブで生物学的に可算なアルゴリズム

A Normative and Biologically Plausible Algorithm for Independent Component Analysis ( http://arxiv.org/abs/2111.08858v1 )

ライセンス: CC BY 4.0
Yanis Bahroun, Dmitri B Chklovskii, Anirvan M Sengupta(参考訳) 脳はブラインドソース分離(BSS)の問題を解決するが、そのアルゴリズムはいまだに解明されていない。 信号処理では、線形BSS問題は独立成分分析(ICA)によってしばしば解決される。 生物学的回路のモデルとして機能するためには、ICAニューラルネットワーク(NN)は以下の要件を満たす必要がある。 1. このアルゴリズムは、データサンプルが一度に1回ストリーミングされるオンライン環境で動作し、NNはメモリにデータの一部を格納することなく、オンザフライでソースを計算しなければならない。 2. シナプス重量の更新は局所的、すなわち、シナプス近傍に存在する生物物理学的変数にのみ依存する。 本稿では,ニューラル・アーキテクチャとシナプス学習規則の両方を含む生物学的に妥当なnnを導出するicaのための新しい目的関数を提案する。 興味深いことに、我々のアルゴリズムは出力ニューロンの総活動量によるシナプス可塑性の調節に依存している。 脳では、神経調節物質、細胞外カルシウム、局所野電位、一酸化窒素によってこれを達成できる。

The brain effortlessly solves blind source separation (BSS) problems, but the algorithm it uses remains elusive. In signal processing, linear BSS problems are often solved by Independent Component Analysis (ICA). To serve as a model of a biological circuit, the ICA neural network (NN) must satisfy at least the following requirements: 1. The algorithm must operate in the online setting where data samples are streamed one at a time, and the NN computes the sources on the fly without storing any significant fraction of the data in memory. 2. The synaptic weight update is local, i.e., it depends only on the biophysical variables present in the vicinity of a synapse. Here, we propose a novel objective function for ICA from which we derive a biologically plausible NN, including both the neural architecture and the synaptic learning rules. Interestingly, our algorithm relies on modulating synaptic plasticity by the total activity of the output neurons. In the brain, this could be accomplished by neuromodulators, extracellular calcium, local field potential, or nitric oxide.
翻訳日:2021-11-18 23:51:57 公開日:2021-11-17
# (参考訳) ラベル効率2サンプル試験

Label efficient two-sample test ( http://arxiv.org/abs/2111.08861v1 )

ライセンス: CC BY 4.0
Weizhi Li, Gautam Dasarathy, Karthikeyan Natesan Ramamurthy, Visar Berisha(参考訳) 2サンプル試験は、2つのサンプルが同じ分布(ヌル仮説)または2つの異なる分布(代替仮説)の実現であるかどうかを評価する。 この問題の伝統的な定式化では、統計学者は測定値(特徴変数)と群変数(ラベル変数)の両方にアクセスできる。 しかし、いくつかの重要なアプリケーションでは、特徴変数は容易に測定できるが、バイナリラベル変数は未知であり、取得にコストがかかる。 本稿では,従来の2つのサンプルテスト問題に対するこの重要なバリエーションを考察し,少数のサンプルのみのラベルを取得して2つのサンプルテストを行う問題とする。 まず、ラベルの後方確率をモデル化するために一様にラベル付けされたサンプルを用いて分類器を訓練し、次に、最大後方確率を持つ両方のクラスからのサンプルのラベルを問合せするために'emph{bimodal query}と呼ばれる革新的なクエリスキームを用いて、古典的なFriedman-Rafsky (FR) の2サンプルテストを行う。 理論的解析により,二モーダルクエリは適切な条件下でのFRテストに最適であり,3段階のフレームワークがタイプIエラーを制御することがわかった。 合成、ベンチマーク、アプリケーション固有のデータセットで実施された大規模な実験により、3段階のフレームワークは、Type Iエラーを制御しながら、均一なクエリと同一数のラベルによる確実性ベースのクエリよりもType IIエラーを減らした。

Two-sample tests evaluate whether two samples are realizations of the same distribution (the null hypothesis) or two different distributions (the alternative hypothesis). In the traditional formulation of this problem, the statistician has access to both the measurements (feature variables) and the group variable (label variable). However, in several important applications, feature variables can be easily measured but the binary label variable is unknown and costly to obtain. In this paper, we consider this important variation on the classical two-sample test problem and pose it as a problem of obtaining the labels of only a small number of samples in service of performing a two-sample test. We devise a label efficient three-stage framework: firstly, a classifier is trained with samples uniformly labeled to model the posterior probabilities of the labels; secondly, an innovative query scheme dubbed \emph{bimodal query} is used to query labels of samples from both classes with maximum posterior probabilities, and lastly, the classical Friedman-Rafsky (FR) two-sample test is performed on the queried samples. Our theoretical analysis shows that bimodal query is optimal for the FR test under reasonable conditions and that the three-stage framework controls the Type I error. Extensive experiments performed on synthetic, benchmark, and application-specific datasets demonstrate that the three-stage framework has decreased Type II error over uniform querying and certainty-based querying with same number of labels while controlling the Type I error.
翻訳日:2021-11-18 23:20:07 公開日:2021-11-17
# (参考訳) TYolov5:ビデオにおけるリアルタイムハンドガン検出のための準リカレントニューラルネットワークに基づく一時ヨーロフ5検出器

TYolov5: A Temporal Yolov5 Detector Based on Quasi-Recurrent Neural Networks for Real-Time Handgun Detection in Video ( http://arxiv.org/abs/2111.08867v1 )

ライセンス: CC BY 4.0
Mario Alberto Duran-Vega, Miguel Gonzalez-Mendoza, Leonardo Chang-Fernandez, Cuauhtemoc Daniel Suarez-Ramirez(参考訳) タイムリーな拳銃検出は公衆の安全を改善する上で重要な問題である。しかしながら、多くの監視システムの有効性は、依然として有限の人間の注意に依存している。 以前の拳銃検出に関する研究の多くは静的な画像検出器に基づいており、ビデオの物体検出を改善するのに使える貴重な時間情報を残している。 監視システムの性能向上のためには,リアルタイムの拳銃検出システムを構築する必要がある。 準リカレントニューラルネットワークに基づくアーキテクチャであるTemporal Yolov5を用いて、ビデオから時間情報を抽出し、拳銃検出の結果を改善する。 さらに、手、銃、電話でラベル付けされた2つの公開データセットも提案されている。 ひとつは静的検出器をトレーニングする2199の静的イメージと、もうひとつは時間モジュールをトレーニングする5960フレームのビデオだ。 さらに,モザイクとミックスアップに基づく時間的データ拡張手法について検討する。 その結果得られたシステムは、3つの時間的アーキテクチャである: 1つはmap$_{50:95}$が56.1、もう1つは推論と精度のバランスが良いmap$_{50:95}$が59.4、もう1つはmap$_{50:95}$が60.2の精度を専門とする。 テンポラリyolov5は、中小規模アーキテクチャでリアルタイム検出を実現する。 さらに、ビデオに含まれる時間的特徴を利用して、時間的データセットのYolov5よりも優れたパフォーマンスを実現しています。 ソースコードはhttps://github.com/marioduran/tyolov5で公開されている。

Timely handgun detection is a crucial problem to improve public safety; nevertheless, the effectiveness of many surveillance systems still depend of finite human attention. Much of the previous research on handgun detection is based on static image detectors, leaving aside valuable temporal information that could be used to improve object detection in videos. To improve the performance of surveillance systems, a real-time temporal handgun detection system should be built. Using Temporal Yolov5, an architecture based in Quasi-Recurrent Neural Networks, temporal information is extracted from video to improve the results of the handgun detection. Moreover, two publicity available datasets are proposed, labeled with hands, guns, and phones. One containing 2199 static images to train static detectors, and another with 5960 frames of videos to train temporal modules. Additionally, we explore two temporal data augmentation techniques based in Mosaic and Mixup. The resulting systems are three temporal architectures: one focused in reducing inference with a mAP$_{50:95}$ of 56.1, another in having a good balance between inference and accuracy with a mAP$_{50:95}$ of 59.4, and a last one specialized in accuracy with a mAP$_{50:95}$ of 60.2. Temporal Yolov5 achieves real-time detection in the small and medium architectures. Moreover, it takes advantage of temporal features contained in videos to perform better than Yolov5 in our temporal dataset, making TYolov5 suitable for real-world applications. The source code is publicly available at https://github.com/MarioDuran/TYolov5.
翻訳日:2021-11-18 22:43:43 公開日:2021-11-17
# (参考訳) TorchGeo:地理空間データによるディープラーニング

TorchGeo: deep learning with geospatial data ( http://arxiv.org/abs/2111.08872v1 )

ライセンス: CC BY 4.0
Adam J. Stewart, Caleb Robinson, Isaac A. Corley, Anthony Ortiz, Juan M. Lavista Ferres, Arindam Banerjee(参考訳) リモートセンシングされた地理空間データは、精密農業、都市計画、災害監視と対応、気候変動研究などの応用に不可欠である。 ディープラーニングの手法は、類似のコンピュータビジョンタスクにおけるディープニューラルネットワークの成功と、利用可能なリモートセンシング画像の膨大なボリュームを考えると、多くのリモートセンシングタスクのモデリングに特に有望である。 しかし,データ収集手法のばらつきや地理空間メタデータの扱いにより,リモートセンシングデータへの深層学習手法の適用は容易ではない。 例えば、衛星画像には赤、緑、青以外のスペクトル帯域が含まれており、異なる座標系、境界、解像度を持つ他の地理空間データソースと結合する必要がある。 リモートセンシングアプリケーションにおけるディープラーニングの可能性を実現するために,地理空間データをPyTorchディープラーニングエコシステムに統合するPythonライブラリTorchGeoを紹介した。 torchgeoは、さまざまなベンチマークデータセット用のデータローダ、汎用地理空間データソース用のコンポーザブルデータセット、地理空間データ用のサンプラー、マルチスペクトル画像を扱う変換を提供する。 トーチジオはまた、マルチスペクトル衛星画像のための事前学習されたモデル(例えば、センチネル2衛星の全ての帯域を使用するモデル)を提供する最初のライブラリであり、ラベル付きデータを制限した下流リモートセンシングタスクにおける転送学習の進歩を可能にする。 我々はTorchGeoを用いて、既存のデータセット上で再現可能なベンチマーク結果を作成し、提案手法を用いて地空間画像の事前処理を行う。 torchgeoはオープンソースであり、githubで入手できる。

Remotely sensed geospatial data are critical for applications including precision agriculture, urban planning, disaster monitoring and response, and climate change research, among others. Deep learning methods are particularly promising for modeling many remote sensing tasks given the success of deep neural networks in similar computer vision tasks and the sheer volume of remotely sensed imagery available. However, the variance in data collection methods and handling of geospatial metadata make the application of deep learning methodology to remotely sensed data nontrivial. For example, satellite imagery often includes additional spectral bands beyond red, green, and blue and must be joined to other geospatial data sources that can have differing coordinate systems, bounds, and resolutions. To help realize the potential of deep learning for remote sensing applications, we introduce TorchGeo, a Python library for integrating geospatial data into the PyTorch deep learning ecosystem. TorchGeo provides data loaders for a variety of benchmark datasets, composable datasets for generic geospatial data sources, samplers for geospatial data, and transforms that work with multispectral imagery. TorchGeo is also the first library to provide pre-trained models for multispectral satellite imagery (e.g. models that use all bands from the Sentinel 2 satellites), allowing for advances in transfer learning on downstream remote sensing tasks with limited labeled data. We use TorchGeo to create reproducible benchmark results on existing datasets and benchmark our proposed method for preprocessing geospatial imagery on-the-fly. TorchGeo is open-source and available on GitHub: https://github.com/microsoft/torchgeo.
翻訳日:2021-11-18 22:27:32 公開日:2021-11-17
# (参考訳) GN変換器:改良されたコード要約のためのFusing SequenceとGraph Representation

GN-Transformer: Fusing Sequence and Graph Representation for Improved Code Summarization ( http://arxiv.org/abs/2111.08874v1 )

ライセンス: CC BY 4.0
Junyan Cheng, Iordanis Fostiropoulos, and Barry Boehm(参考訳) 自然言語とは対照的に、ソースコードの理解は識別子名に関係なくトークン間の文法的関係に影響される。 AST(Abstract Syntax Tree)のようなソースコードのグラフ表現は、ソースコードから明らかでないトークン間の関係をキャプチャすることができる。 本稿では,Syntax-Code-Graph (SCG) と呼ばれる,融合シーケンスとグラフモダリティに基づいてエンドツーエンドの学習を行う新しい手法GN-Transformerを提案する。 gn-transformerはグラフネットワーク(gn)フレームワークに自己接続機構を用いて拡張する。 SCGはソースコードスニペットとAST表現との初期の融合の結果である。 我々は,SCGの構造,モデル設計に関するアブレーション研究,およびハイパーパラメータについて実験を行い,性能上の優位性は融合表現によるものであると結論づける。 提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクス(BLEU, METEOR, ROUGE-L)で最先端性能を実現する。 さらに,本モデルと先行研究の人間の知覚的品質を,専門家・ユーザによる研究により評価した。 我々のモデルは、人間の知覚する品質と正確さにおいて最先端を上回っている。

As opposed to natural languages, source code understanding is influenced by grammatical relationships between tokens regardless of their identifier name. Graph representations of source code such as Abstract Syntax Tree (AST) can capture relationships between tokens that are not obvious from the source code. We propose a novel method, GN-Transformer to learn end-to-end on a fused sequence and graph modality we call Syntax-Code-Graph (SCG). GN-Transformer expands on Graph Networks (GN) framework using a self-attention mechanism. SCG is the result of the early fusion between a source code snippet and the AST representation. We perform experiments on the structure of SCG, an ablation study on the model design, and the hyper-parameters to conclude that the performance advantage is from the fused representation. The proposed methods achieve state-of-the-art performance in two code summarization datasets and across three automatic code summarization metrics (BLEU, METEOR, ROUGE-L). We further evaluate the human perceived quality of our model and previous work with an expert-user study. Our model outperforms the state-of-the-art in human perceived quality and accuracy.
翻訳日:2021-11-18 22:05:44 公開日:2021-11-17
# (参考訳) FAIRLEARN:構成可能で解釈可能なアルゴリズムフェアネス

FAIRLEARN:Configurable and Interpretable Algorithmic Fairness ( http://arxiv.org/abs/2111.08878v1 )

ライセンス: CC BY 4.0
Ankit Kulshrestha, Ilya Safro(参考訳) 近年のデータの急速な成長は、現実世界での意思決定によく使用される複雑な学習アルゴリズムの開発につながっている。 アルゴリズムの肯定的な影響は大きいが、トレーニングサンプルから生じるバイアスや、データサンプルに関する暗黙の仮定を緩和する必要がある。 このニーズは、アルゴリズムが人々の生活に大きな影響を与える自動意思決定システムで使用される場合に重要になる。 最適化の異なる段階でバイアスを検出し、緩和することで学習アルゴリズムを公平にする多くのアプローチが提案されている。 しかし、フェアネスの普遍的な定義が欠如しているため、これらのアルゴリズムはフェアネスの特定の解釈を最適化し、現実の用途に限定する。 さらに、すべてのアルゴリズムに共通する前提は、公平性を達成しバイアスを取り除くことの明らかな等価性である。 言い換えると、公正なアルゴリズムを作成するための最適化手順に組み込むことができるユーザー定義の基準は存在しない。 既存の手法の欠点に乗じて,ユーザ制約を最適化手順に組み込むことで,公平なアルゴリズムを生成するFAIRLEARN手順を提案する。 さらに,データから最も予測的な特徴を推定することで,プロセスを解釈可能にする。 異なる公平性基準を用いて,複数の実世界データセットに対するアプローチの有効性を実証する。

The rapid growth of data in the recent years has led to the development of complex learning algorithms that are often used to make decisions in real world. While the positive impact of the algorithms has been tremendous, there is a need to mitigate any bias arising from either training samples or implicit assumptions made about the data samples. This need becomes critical when algorithms are used in automated decision making systems that can hugely impact people's lives. Many approaches have been proposed to make learning algorithms fair by detecting and mitigating bias in different stages of optimization. However, due to a lack of a universal definition of fairness, these algorithms optimize for a particular interpretation of fairness which makes them limited for real world use. Moreover, an underlying assumption that is common to all algorithms is the apparent equivalence of achieving fairness and removing bias. In other words, there is no user defined criteria that can be incorporated into the optimization procedure for producing a fair algorithm. Motivated by these shortcomings of existing methods, we propose the FAIRLEARN procedure that produces a fair algorithm by incorporating user constraints into the optimization procedure. Furthermore, we make the process interpretable by estimating the most predictive features from data. We demonstrate the efficacy of our approach on several real world datasets using different fairness criteria.
翻訳日:2021-11-18 21:47:46 公開日:2021-11-17
# (参考訳) SAPNet: 知覚コントラスト評価のためのセグメンテーション対応プログレッシブネットワーク

SAPNet: Segmentation-Aware Progressive Network for Perceptual Contrastive Deraining ( http://arxiv.org/abs/2111.08892v1 )

ライセンス: CC BY 4.0
Shen Zheng, Changjie Lu, Yuxiong Wu and Gaurav Gupta(参考訳) ディープラーニングアルゴリズムは最近、自然データと合成雨のデータセットの両方で、有望なフェデインパフォーマンスを達成している。 根本的な低レベル前処理の段階として、デレーニングネットワークは雨の流れをクリアし、セマンティックな詳細を保存すべきである。 しかし、既存のほとんどの手法は低レベルの画像復元しか考慮していない。 これにより、正確なセマンティック情報を必要とするハイレベルなタスクのパフォーマンスが制限される。 この問題に対処するため,本論文では,単一画像デライニングのためのコントラスト学習に基づくセグメンテーション対応プログレッシブネットワーク(SAPNet)を提案する。 提案手法は,プログレッシブ拡張ユニット(PDU)を用いた軽量なデラインネットワークで開始する。 PDUは受容界を著しく拡大し、マルチスケール画像の重み計算をすることなくマルチスケールの雨天を特徴付けることができる。 この研究の基本的な側面は、イメージネットとガウス重みを初期化したunsupervised background segmentation (UBS)ネットワークである。 UBSは画像の意味情報を忠実に保存し、写真を表示する一般化能力を向上させることができる。 さらに、モデル学習を制御するために、知覚的コントラスト損失(PCL)と学習的知覚的画像類似性損失(LPISL)を導入する。 本稿では,VGG-16潜伏空間における正の正の正の正の正の降雨像と降雨像を生かし,その微妙な意味的詳細を,完全に拘束された方法で橋渡しする。 合成および実世界の降雨画像に関する総合的な実験により、我々のモデルは最高性能の手法を超越し、オブジェクトの検出とセマンティックセグメンテーションをかなりの有効性で支援している。 Pytorchの実装はhttps://github.com/ShenZheng2000/SAPNet-for-image-derainingで公開されている。

Deep learning algorithms have recently achieved promising deraining performances on both the natural and synthetic rainy datasets. As an essential low-level pre-processing stage, a deraining network should clear the rain streaks and preserve the fine semantic details. However, most existing methods only consider low-level image restoration. That limits their performances at high-level tasks requiring precise semantic information. To address this issue, in this paper, we present a segmentation-aware progressive network (SAPNet) based upon contrastive learning for single image deraining. We start our method with a lightweight derain network formed with progressive dilated units (PDU). The PDU can significantly expand the receptive field and characterize multi-scale rain streaks without the heavy computation on multi-scale images. A fundamental aspect of this work is an unsupervised background segmentation (UBS) network initialized with ImageNet and Gaussian weights. The UBS can faithfully preserve an image's semantic information and improve the generalization ability to unseen photos. Furthermore, we introduce a perceptual contrastive loss (PCL) and a learned perceptual image similarity loss (LPISL) to regulate model learning. By exploiting the rainy image and groundtruth as the negative and the positive sample in the VGG-16 latent space, we bridge the fine semantic details between the derained image and the groundtruth in a fully constrained manner. Comprehensive experiments on synthetic and real-world rainy images show our model surpasses top-performing methods and aids object detection and semantic segmentation with considerable efficacy. A Pytorch Implementation is available at https://github.com/ShenZheng2000/SAPNet-for-image-deraining.
翻訳日:2021-11-18 21:30:51 公開日:2021-11-17
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v1 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Luo Si(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-18 21:15:15 公開日:2021-11-17
# (参考訳) ARKitScenes - モバイルRGB-Dデータを用いた3次元屋内シーン理解のための多次元リアルタイムデータセット

ARKitScenes -- A Diverse Real-World Dataset For 3D Indoor Scene Understanding Using Mobile RGB-D Data ( http://arxiv.org/abs/2111.08897v1 )

ライセンス: CC BY 4.0
Gilad Baruch, Zhuoyuan Chen, Afshin Dehghan, Tal Dimry, Yuri Feigin, Peter Fu, Thomas Gebauer, Brandon Joffe, Daniel Kurz, Arik Schwartz, Elad Shulman(参考訳) 現場理解は活発な研究分野である。 Kinectのような商用深度センサーは、過去数年間でいくつかのRGB-Dデータセットをリリースし、新しい3Dシーン理解法を生み出した。 さらに最近では、AppleのiPadとiPhoneでLiDARセンサーがローンチされ、高品質のRGB-Dデータは、一般のデバイスで何百万人もの人にアクセスできるようになりました。 これは、コンピュータビジョンコミュニティとアプリ開発者にとって、全く新しい状況理解の時代を開くものだ。 シーン理解の基礎研究と機械学習の進歩は、今や人々の日常体験に影響を与えうる。 しかし、これらのシーン理解方法を実世界体験に変換するには、さらなるイノベーションと開発が必要である。 本稿ではARKitScenesを紹介する。 これは、現在広く利用可能な深度センサーでキャプチャされる最初のRGB-Dデータセットであるだけでなく、私たちの知る限り、屋内のシーン理解データとしては最大である。 モバイルデバイスの生データや処理データに加えて、ARKitScenesには静止レーザースキャナーでキャプチャした高解像度の深度マップや、家具の大規模な分類のための手動で3D指向のバウンディングボックスが含まれている。 さらに、3Dオブジェクト検出と色誘導深度アップサンプリングという2つの下流タスクにおけるデータの有用性を分析した。 私たちのデータセットは、既存の最先端メソッドの境界を押し上げるのに役立ち、現実世界のシナリオをより良く表現する新しい課題を導入します。

Scene understanding is an active research area. Commercial depth sensors, such as Kinect, have enabled the release of several RGB-D datasets over the past few years which spawned novel methods in 3D scene understanding. More recently with the launch of the LiDAR sensor in Apple's iPads and iPhones, high quality RGB-D data is accessible to millions of people on a device they commonly use. This opens a whole new era in scene understanding for the Computer Vision community as well as app developers. The fundamental research in scene understanding together with the advances in machine learning can now impact people's everyday experiences. However, transforming these scene understanding methods to real-world experiences requires additional innovation and development. In this paper we introduce ARKitScenes. It is not only the first RGB-D dataset that is captured with a now widely available depth sensor, but to our best knowledge, it also is the largest indoor scene understanding data released. In addition to the raw and processed data from the mobile device, ARKitScenes includes high resolution depth maps captured using a stationary laser scanner, as well as manually labeled 3D oriented bounding boxes for a large taxonomy of furniture. We further analyze the usefulness of the data for two downstream tasks: 3D object detection and color-guided depth upsampling. We demonstrate that our dataset can help push the boundaries of existing state-of-the-art methods and it introduces new challenges that better represent real-world scenarios.
翻訳日:2021-11-18 20:37:52 公開日:2021-11-17
# (参考訳) 帰属表現機能のための局所的テクスチャ推定器

Local Texture Estimator for Implicit Representation Function ( http://arxiv.org/abs/2111.08918v1 )

ライセンス: CC BY 4.0
Jaewon Lee and Kyong Hwan Jin(参考訳) 最近の研究は、任意の解像度で画像を表現するために暗黙の神経関数を遮蔽する。 しかし、スタンドアロンの多層パーセプトロン(mlp)は高周波成分の学習において限られた性能を示す。 本稿では,自然画像のための優性周波数推定器である局所テクスチャ推定器(lte)を提案する。 ディープ・スーパーレゾリューション(SR)アーキテクチャで共同トレーニングを行う場合、LTEは2次元フーリエ空間で画像テクスチャを特徴付けることができる。 LTEベースのニューラル関数は、すべてのデータセットとすべてのスケールファクターに対して、任意のスケールで既存のディープSRメソッドよりも優れていることを示す。 さらに,本実装では,これまでの作業よりも実行時間が短いことを実証した。 ソースコードはオープンします。

Recent works with an implicit neural function shed light on representing images in arbitrary resolution. However, a standalone multi-layer perceptron (MLP) shows limited performance in learning high-frequency components. In this paper, we propose a Local Texture Estimator (LTE), a dominant-frequency estimator for natural images, enabling an implicit function to capture fine details while reconstructing images in a continuous manner. When jointly trained with a deep super-resolution (SR) architecture, LTE is capable of characterizing image textures in 2D Fourier space. We show that an LTE-based neural function outperforms existing deep SR methods within an arbitrary-scale for all datasets and all scale factors. Furthermore, we demonstrate that our implementation takes the shortest running time compared to previous works. Source code will be open.
翻訳日:2021-11-18 20:23:29 公開日:2021-11-17
# (参考訳) ReLUニューラルネットワークの局所ポリトープのトラバース:ネットワーク検証のための統一的アプローチ

Traversing the Local Polytopes of ReLU Neural Networks: A Unified Approach for Network Verification ( http://arxiv.org/abs/2111.08922v1 )

ライセンス: CC BY 4.0
Shaojie Xu, Joel Vaughan, Jie Chen, Aijun Zhang, Agus Sudjianto(参考訳) ReLUアクティベーション機能を備えたニューラルネットワーク(NN)は、幅広いアプリケーションで成功しているが、ロバスト性と解釈可能性に関する懸念から、リスクに敏感な設定の採用は制限されている。 頑健さを検証し,解釈可能性を向上させるための従来の研究は,ReLU NNの断片線形関数形式を部分的に活用した。 本稿では,ReLU NNが入力空間内で生成する独自のトポロジ構造について検討し,分割した局所ポリトープ間の隣接性を同定し,この隣接性に基づくトラバースアルゴリズムを開発する。 ポリトープトラバースアルゴリズムは,ロバスト性や解釈性に関連する幅広いネットワーク特性を検証するために適用可能であり,ネットワーク動作を統一的に検証する手法を提供する。 トラバースアルゴリズムがすべてのローカルポリトープを明示的に訪問すると、トラバースされた領域内のネットワーク動作の明確かつ完全な画像を返す。 トラバースアルゴリズムの時間と空間の複雑さは、トラバース領域を通過するReLU NNの分割超平面の数によって決定される。

Although neural networks (NNs) with ReLU activation functions have found success in a wide range of applications, their adoption in risk-sensitive settings has been limited by the concerns on robustness and interpretability. Previous works to examine robustness and to improve interpretability partially exploited the piecewise linear function form of ReLU NNs. In this paper, we explore the unique topological structure that ReLU NNs create in the input space, identifying the adjacency among the partitioned local polytopes and developing a traversing algorithm based on this adjacency. Our polytope traversing algorithm can be adapted to verify a wide range of network properties related to robustness and interpretability, providing an unified approach to examine the network behavior. As the traversing algorithm explicitly visits all local polytopes, it returns a clear and full picture of the network behavior within the traversed region. The time and space complexity of the traversing algorithm is determined by the number of a ReLU NN's partitioning hyperplanes passing through the traversing region.
翻訳日:2021-11-18 20:07:07 公開日:2021-11-17
# (参考訳) 画像キャプションのための透明人間評価

Transparent Human Evaluation for Image Captioning ( http://arxiv.org/abs/2111.08940v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Keisuke Sakaguchi, Lavinia Dunagan, Jacob Morrison, Ronan Le Bras, Yejin Choi, Noah A. Smith(参考訳) 画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを確立する。 MSCOCOデータセット上の機械文と人文文文のキャプションに基づいて,評価結果とその定義を慎重に開発する。 それぞれのキャプションは、トレードオフ(precision and recall)と、テキスト品質(fluency, conciseness, comprehensive language)を測定する他の側面の2つの主要な次元に沿って評価される。 本評価は,現在の評価実践において,いくつかの重要な問題を示す。 人間が生成したキャプションは、機械が生成するものよりもかなり高品質で、特に有意義な情報(つまりリコール)をカバーしている。 画像特徴を用いた最近の測定値であるCLIPScoreは、リコールに敏感であるため、従来のテキストのみの計測値よりも人間の判断と相関する。 この取り組みにより、画像キャプションとその自動計測のためのより透過的な評価プロトコルが促進されることを願っている。

We establish a rubric-based human evaluation protocol for image captioning models. Our scoring rubrics and their definitions are carefully developed based on machine- and human-generated captions on the MSCOCO dataset. Each caption is evaluated along two main dimensions in a tradeoff (precision and recall) as well as other aspects that measure the text quality (fluency, conciseness, and inclusive language). Our evaluations demonstrate several critical problems of the current evaluation practice. Human-generated captions show substantially higher quality than machine-generated ones, especially in coverage of salient information (i.e., recall), while all automatic metrics say the opposite. Our rubric-based results reveal that CLIPScore, a recent metric that uses image features, better correlates with human judgments than conventional text-only metrics because it is more sensitive to recall. We hope that this work will promote a more transparent evaluation protocol for image captioning and its automatic metrics.
翻訳日:2021-11-18 19:45:19 公開日:2021-11-17
# (参考訳) 神経認知診断のための学生表現の検討

Exploring Student Representation For Neural Cognitive Diagnosis ( http://arxiv.org/abs/2111.08951v1 )

ライセンス: CC BY 4.0
Hengyao Bao, Xihua Li, Xuemin Zhao, Yunbo Cao(参考訳) 認知診断は、特定の知識概念に関する生徒の習熟度を高めることを目的としており、スマート教育システムにおける基本的な課題である。 従来の研究は通常、各学生を訓練可能な知識能力ベクトルとして表現し、学生の概念と基本的なプロファイル(記憶や理解など)の関係を捉えることができない。 本稿では,知識概念と学生の埋め込みの階層的関係を探索し,学生表現の手法を提案する。 具体的には、親知識概念の習熟度が知識概念間の相関を反映していることから、親概念投影層と最初の知識習熟度を得る。 また、各生徒の埋め込みとして低次元密度ベクトルを採用し、全接続層で第2の知識習熟度を得る。 そして、上記の2つの習熟ベクトルを組み合わせて、学生の最終表現を得る。 提案手法の有効性を示す実験を行った。

Cognitive diagnosis, the goal of which is to obtain the proficiency level of students on specific knowledge concepts, is an fundamental task in smart educational systems. Previous works usually represent each student as a trainable knowledge proficiency vector, which cannot capture the relations of concepts and the basic profile(e.g. memory or comprehension) of students. In this paper, we propose a method of student representation with the exploration of the hierarchical relations of knowledge concepts and student embedding. Specifically, since the proficiency on parent knowledge concepts reflects the correlation between knowledge concepts, we get the first knowledge proficiency with a parent-child concepts projection layer. In addition, a low-dimension dense vector is adopted as the embedding of each student, and obtain the second knowledge proficiency with a full connection layer. Then, we combine the two proficiency vector above to get the final representation of students. Experiments show the effectiveness of proposed representation method.
翻訳日:2021-11-18 19:27:00 公開日:2021-11-17
# (参考訳) シーン生成用合成トランス

Compositional Transformers for Scene Generation ( http://arxiv.org/abs/2111.08960v1 )

ライセンス: CC BY 4.0
Drew A. Hudson and C. Lawrence Zitnick(参考訳) 本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。 このネットワークは、視覚シーンの構成的性質を反映し、連続的なプロセスを通じて画像を合成するために、強靭で明示的な構造的先行を取り入れている。 高速で軽量な計画フェーズで、ハイレベルなシーンレイアウトを作成し、次に注意に基づく実行フェーズでレイアウトを洗練し、リッチで詳細な図に進化させます。 我々のモデルは、フラットでモノリシックな潜在空間を特徴とする従来のブラックボックスGANアーキテクチャから、効率、制御可能性、解釈可能性を促進する透明な設計へと移行します。 マルチオブジェクトのclevrシーンから挑戦的なcocoイメージまで,さまざまなデータセットに対する注意深く評価することで,ganformer2の長所と長所を実証し,視覚品質,多様性,一貫性の観点から最先端のパフォーマンスを達成していることを示す。 さらなる実験では、モデルの絡み合いを実証し、粗い初期スケッチから、オブジェクトの深さと依存関係を考慮に入れた詳細なレイアウト、そして鮮明で複雑な現実世界のシーンの最終的な高解像度な描写まで、その生成過程について深い洞察を与える。 モデル実装はhttps://github.com/dorarad/gansformerを参照。

We introduce the GANformer2 model, an iterative object-oriented transformer, explored for the task of generative modeling. The network incorporates strong and explicit structural priors, to reflect the compositional nature of visual scenes, and synthesizes images through a sequential process. It operates in two stages: a fast and lightweight planning phase, where we draft a high-level scene layout, followed by an attention-based execution phase, where the layout is being refined, evolving into a rich and detailed picture. Our model moves away from conventional black-box GAN architectures that feature a flat and monolithic latent space towards a transparent design that encourages efficiency, controllability and interpretability. We demonstrate GANformer2's strengths and qualities through a careful evaluation over a range of datasets, from multi-object CLEVR scenes to the challenging COCO images, showing it successfully achieves state-of-the-art performance in terms of visual quality, diversity and consistency. Further experiments demonstrate the model's disentanglement and provide a deeper insight into its generative process, as it proceeds step-by-step from a rough initial sketch, to a detailed layout that accounts for objects' depths and dependencies, and up to the final high-resolution depiction of vibrant and intricate real-world scenes. See https://github.com/dorarad/gansformer for model implementation.
翻訳日:2021-11-18 19:20:31 公開日:2021-11-17
# (参考訳) シリコン後検証のための自己学習チューニング

Self-Learning Tuning for Post-Silicon Validation ( http://arxiv.org/abs/2111.08995v1 )

ライセンス: CC BY 4.0
Peter Domanski, Dirk Pl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 現代のチップの複雑さが増すと、設計検証が難しくなる。 既存のアプローチは、ポストシリコン検証における堅牢なパフォーマンスチューニングのようなタスクの複雑さにもはや対処できない。 そこで本稿では,複雑な混合型チューニングタスクを効率的かつ堅牢な方法で解くために,学習の最適化と強化学習に基づく新しいアプローチを提案する。

Increasing complexity of modern chips makes design validation more difficult. Existing approaches are not able anymore to cope with the complexity of tasks such as robust performance tuning in post-silicon validation. Therefore, we propose a novel approach based on learn-to-optimize and reinforcement learning in order to solve complex and mixed-type tuning tasks in a efficient and robust way.
翻訳日:2021-11-18 19:19:22 公開日:2021-11-17
# (参考訳) 信頼できるロングテール分類

Trustworthy Long-Tailed Classification ( http://arxiv.org/abs/2111.09030v1 )

ライセンス: CC BY 4.0
Bolian Li, Zongbo Han, Haining Li, Huazhu Fu and Changqing Zhang(参考訳) 長い尾を持つ分散データの分類は、深刻なクラス不均衡に悩まされ、特に尾のクラスの性能が低下する問題である。 近年,アンサンブルに基づく手法は最先端の性能を実現し,大きな可能性を秘めている。 しかし、現在の方法には2つの制限がある。 第一に、彼らの予測は障害に敏感なアプリケーションには信頼できない。 これは、誤った予測が基本的に頻繁に発生するテールクラスにとって特に有害である。 第二に、すべてのサンプルに統一された専門家を割り当て、計算コストの過大な簡単なサンプルには冗長である。 これらの問題に対処するために,多専門フレームワークにおけるハードサンプルの同定のために,分類と不確実性評価を共同で行う,Trustworthy Long-tailed Classification (TLC)法を提案する。 我々のtlcは各専門家の証拠に基づく不確実性(evu)と証拠を取得し、デンプスター・シェーファー証拠理論(dst)の下でこれらの不確実性と証拠を組み合わせる。 さらに,提案手法では,容易にサンプルを採取できる専門家の数を削減し,有望な性能を維持しつつ効率性を達成するための動的専門家参加を提案する。 最後に, 分類, テール検出, OOD検出, 故障予測のタスクに関する総合的な実験を行った。 実験の結果,提案したTLCは最先端の手法よりも優れており,信頼性の高い不確実性に優れていた。

Classification on long-tailed distributed data is a challenging problem, which suffers from serious class-imbalance and accordingly unpromising performance especially on tail classes. Recently, the ensembling based methods achieve the state-of-the-art performance and show great potential. However, there are two limitations for current methods. First, their predictions are not trustworthy for failure-sensitive applications. This is especially harmful for the tail classes where the wrong predictions is basically frequent. Second, they assign unified numbers of experts to all samples, which is redundant for easy samples with excessive computational cost. To address these issues, we propose a Trustworthy Long-tailed Classification (TLC) method to jointly conduct classification and uncertainty estimation to identify hard samples in a multi-expert framework. Our TLC obtains the evidence-based uncertainty (EvU) and evidence for each expert, and then combines these uncertainties and evidences under the Dempster-Shafer Evidence Theory (DST). Moreover, we propose a dynamic expert engagement to reduce the number of engaged experts for easy samples and achieve efficiency while maintaining promising performances. Finally, we conduct comprehensive experiments on the tasks of classification, tail detection, OOD detection and failure prediction. The experimental results show that the proposed TLC outperforms the state-of-the-art methods and is trustworthy with reliable uncertainty.
翻訳日:2021-11-18 19:16:01 公開日:2021-11-17
# (参考訳) 複数属性関係抽出(mare) -- 関係抽出の適用を単純化する

Multi-Attribute Relation Extraction (MARE) -- Simplifying the Application of Relation Extraction ( http://arxiv.org/abs/2111.09035v1 )

ライセンス: CC BY-SA 4.0
Lars Kl\"oser, Philipp Kohl, Bodo Kraft, Albert Z\"undorf(参考訳) 自然言語理解の関連抽出は、新しいビジネス概念を革新的に促進し、新しいデジタル化された意思決定プロセスを促進する。 現在のアプローチでは、属性として固定数のエンティティと関係を抽出することができる。 任意の量の属性との関係を抽出するには、複雑なシステムとコストのかかる関係-トリガーアノテーションが必要である。 ビジネス・ユース・ケースからデータ・アノテーションへの明示的なマッピングを容易にする2つのアプローチによる仮定レス問題定式化としてマルチ属性関係抽出(MARE)を導入する。 厳密なアノテーション制約を避けることは、関係抽出アプローチの適用を単純化する。 評価は,我々のモデルと現在の最先端イベント抽出および二項関係抽出法を比較した。 提案手法は, 一般の多属性関係の抽出に比較して改善が見られた。

Natural language understanding's relation extraction makes innovative and encouraging novel business concepts possible and facilitates new digitilized decision-making processes. Current approaches allow the extraction of relations with a fixed number of entities as attributes. Extracting relations with an arbitrary amount of attributes requires complex systems and costly relation-trigger annotations to assist these systems. We introduce multi-attribute relation extraction (MARE) as an assumption-less problem formulation with two approaches, facilitating an explicit mapping from business use cases to the data annotations. Avoiding elaborated annotation constraints simplifies the application of relation extraction approaches. The evaluation compares our models to current state-of-the-art event extraction and binary relation extraction methods. Our approaches show improvement compared to these on the extraction of general multi-attribute relations.
翻訳日:2021-11-18 19:00:31 公開日:2021-11-17
# (参考訳) 少数ショットテキスト分類におけるデータ拡張のための生成言語モデル誘導

Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification ( http://arxiv.org/abs/2111.09064v1 )

ライセンス: CC BY 4.0
Aleksandra Edwards, Asahi Ushio, Jose Camacho-Collados, H\'el\`ene de Ribaupierre, Alun Preece(参考訳) データ拡張技術は、クラス不均衡問題やデータ間隔に対処することで、機械学習モデルの性能向上に広く利用されている。 最先端の生成言語モデルは、異なるNLPタスク間で大きな利益をもたらすことが示されている。 しかし、テキスト分類タスクにおけるデータ拡張の適用性は、特に専門分野において、十分に検討されていない。 本稿では,GPT-2(Radford A et al, 2019)を人工トレーニングインスタンスの生成に活用し,分類性能の向上を図る。 本研究の目的は,GPT生成サンプルの品質に対するシードトレーニングサンプルの選択プロセスの影響を分析し,分類器の性能を評価することである。 我々は、クラス階層構造とドメインエキスパート選択を利用するいくつかの種選択戦略で実験を行う。 その結果,一握りのラベルインスタンスにおけるgpt-2の微調整は,一貫性のある分類改善と競合ベースラインを上回ることがわかった。 最後に、ドメインエキスパートの選択を通じてこのプロセスを導くことがさらなる改善につながる可能性を示し、生成モデルとアクティブラーニングを組み合わせるための興味深い研究の道を開く。

Data augmentation techniques are widely used for enhancing the performance of machine learning models by tackling class imbalance issues and data sparsity. State-of-the-art generative language models have been shown to provide significant gains across different NLP tasks. However, their applicability to data augmentation for text classification tasks in few-shot settings have not been fully explored, especially for specialised domains. In this paper, we leverage GPT-2 (Radford A et al, 2019) for generating artificial training instances in order to improve classification performance. Our aim is to analyse the impact the selection process of seed training examples have over the quality of GPT-generated samples and consequently the classifier performance. We perform experiments with several seed selection strategies that, among others, exploit class hierarchical structures and domain expert selection. Our results show that fine-tuning GPT-2 in a handful of label instances leads to consistent classification improvements and outperform competitive baselines. Finally, we show that guiding this process through domain expert selection can lead to further improvements, which opens up interesting research avenues for combining generative models and active learning.
翻訳日:2021-11-18 18:48:57 公開日:2021-11-17
# (参考訳) 不均衡データにおける不規則な観測の予測を改善するサンプリング

Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data ( http://arxiv.org/abs/2111.09065v1 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Manja G. Gr{\o}nberg, Line K. H. Clemmensen(参考訳) データの不均衡はプロダクションデータにおいて一般的であり、管理されたプロダクション設定では、データ分析の洞察ではなく品質評価を念頭に置いたデータ収集が必要となる。 この不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。 そこで本研究では,過去の生産データに基づくモデルの性能向上を目標として,この不均衡を解消するためのサンプリングを提案する。 不均衡に適応するための3つのサンプリング手法について検討する。 目標はトレーニングデータのコ変数をダウンサンプルし、その後回帰モデルに適合させることだ。 本研究は,サンプルデータとオリジナルデータを用いて,モデルの予測能力がどのように変化するかを検討する。 本手法は,ペニシリン生産の高度シミュレーションから得られた大規模バイオ医薬品製造データに適用し,サンプルデータを用いてモデルに適合させることで予測性能が小さくなるが,低表示の観察で体系的に優れた性能が得られることを見出した。 さらに、結果は、代替、公正、バランスの取れたモデル評価の必要性を強調している。

Data imbalance is common in production data, where controlled production settings require data to fall within a narrow range of variation and data are collected with quality assessment in mind, rather than data analytic insights. This imbalance negatively impacts the predictive performance of models on underrepresented observations. We propose sampling to adjust for this imbalance with the goal of improving the performance of models trained on historical production data. We investigate the use of three sampling approaches to adjust for imbalance. The goal is to downsample the covariates in the training data and subsequently fit a regression model. We investigate how the predictive power of the model changes when using either the sampled or the original data for training. We apply our methods on a large biopharmaceutical manufacturing data set from an advanced simulation of penicillin production and find that fitting a model using the sampled data gives a small reduction in the overall predictive performance, but yields a systematically better performance on underrepresented observations. In addition, the results emphasize the need for alternative, fair, and balanced model evaluations.
翻訳日:2021-11-18 18:32:53 公開日:2021-11-17
# (参考訳) ニューラルネットワークオートエンコーダを用いたテルル補正のための教師なしスペクトルアンミックス

Unsupervised Spectral Unmixing For Telluric Correction Using A Neural Network Autoencoder ( http://arxiv.org/abs/2111.09081v1 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Aaron Bello-Arufe, Alexander D. Rathcke, Lars A. Buchhave, Line K. H. Clemmensen(参考訳) 地球の大気中の分子による光の吸収は、天体の地上観測を複雑にしている。 様々な分子種の包括的情報は、いわゆるテルル吸収によって修正される。 本稿では,harps-nラジアル速度スペクトログラフから高精度観測された太陽スペクトルのセットからテルル透過スペクトルを抽出するためのニューラルネットワークオートエンコーダ手法を提案する。 我々は、データを圧縮された表現に還元することで、基礎となる太陽スペクトルを明らかにし、地球の大気中での$\mathrm{H_2O}$と$\mathrm{O_2}$の吸収に関連する観測スペクトルの様々なモードを同時に明らかにすることができる。 抽出された成分を用いて,morecfitを用いた合成アプローチと同等の精度で計算コストの少ない検証観察において,$\mathrm{h_2o}$および$\mathrm{o_2}$ telluricsを除去する方法を示す。

The absorption of light by molecules in the atmosphere of Earth is a complication for ground-based observations of astrophysical objects. Comprehensive information on various molecular species is required to correct for this so called telluric absorption. We present a neural network autoencoder approach for extracting a telluric transmission spectrum from a large set of high-precision observed solar spectra from the HARPS-N radial velocity spectrograph. We accomplish this by reducing the data into a compressed representation, which allows us to unveil the underlying solar spectrum and simultaneously uncover the different modes of variation in the observed spectra relating to the absorption of $\mathrm{H_2O}$ and $\mathrm{O_2}$ in the atmosphere of Earth. We demonstrate how the extracted components can be used to remove $\mathrm{H_2O}$ and $\mathrm{O_2}$ tellurics in a validation observation with similar accuracy and at less computational expense than a synthetic approach with molecfit.
翻訳日:2021-11-18 18:27:34 公開日:2021-11-17
# (参考訳) グラフによるスパース医療記録の計算法

A Graph-based Imputation Method for Sparse Medical Records ( http://arxiv.org/abs/2111.09084v1 )

ライセンス: CC BY 4.0
Ramon Vinas, Xu Zheng and Jer Hayes(参考訳) 電子カルテ(Electronic Medical Records, EHR)は、非常に希少である。 少数の出来事(シンポジウム、診断、治療)のみが個人の生涯で観察される。 EHRの欠落の程度は、デバイス障害、プライバシの懸念、その他の予期せぬ理由など、多数の要因に起因する可能性がある。 残念なことに、多くの従来の計算手法は高度にスパースなデータには適せず、高次元のデータセットには不十分である。 本稿では,不測な事象に対して頑健かつ信頼性の低いグラフベースの計算法を提案する。 私たちのアプローチは、パフォーマンスとランタイムの観点から、いくつかの標準および最先端のインプテーションメソッドと比較するのが好適です。 さらに,臨床的に有意な方法で異なるイベントタイプを組み込むことを学習することを示す。 本研究は,過去の症例の臨床経過に基づいて,新しい疾患の診断を促進するとともに,コンプレビティの展望に対する理解を深める可能性を秘めている。

Electronic Medical Records (EHR) are extremely sparse. Only a small proportion of events (symptoms, diagnoses, and treatments) are observed in the lifetime of an individual. The high degree of missingness of EHR can be attributed to a large number of factors, including device failure, privacy concerns, or other unexpected reasons. Unfortunately, many traditional imputation methods are not well suited for highly sparse data and scale poorly to high dimensional datasets. In this paper, we propose a graph-based imputation method that is both robust to sparsity and to unreliable unmeasured events. Our approach compares favourably to several standard and state-of-the-art imputation methods in terms of performance and runtime. Moreover, results indicate that the model learns to embed different event types in a clinically meaningful way. Our work can facilitate the diagnosis of novel diseases based on the clinical history of past events, with the potential to increase our understanding of the landscape of comorbidities.
翻訳日:2021-11-18 18:18:55 公開日:2021-11-17
# (参考訳) 差分プライバシーを用いたネットワーク生成

Network Generation with Differential Privacy ( http://arxiv.org/abs/2111.09085v1 )

ライセンス: CC BY 4.0
Xu Zheng, Nicholas McCarthy and Jer Hayes(参考訳) 我々は,生成したグラフの実用性を維持しつつ,プライベート情報を含む実世界のグラフをプライベートに合成する問題を考える。 差分プライバシはデータプライバシの黄金の標準であり、差分プライベート確率勾配降下(dp-sgd)アルゴリズムの導入により、いくつかの領域におけるプライベートニューラルネットワークモデルのトレーニングが容易になった。 ディープジェネレーティブネットワークによるグラフ生成の最近の進歩は、いくつかのハイパフォーマンスモデルを生み出している。 本稿では,隣接行列ベースモデルやエッジベースモデルを含む最先端モデルの評価と比較を行い,一般的なグラフデータセットで評価する場合に,ガウス雑音機構を利用したエッジリストアプローチを提案する。 本研究では,エッジ差分プライバシーを維持しつつ,実世界のネットワーク特性を再現できる生成モデルを提案する。 提案モデルは,離散エッジリストサンプルを生成する確率的ニューラルネットワークに基づいて,DP-SGDオプティマイザを用いてWasserstein GAN目標を用いて学習する。 これらの有益なプロパティを組み合わせるための最初のアプローチとして、我々のモデルはグラフデータのプライバシーに関するさらなる研究に貢献する。

We consider the problem of generating private synthetic versions of real-world graphs containing private information while maintaining the utility of generated graphs. Differential privacy is a gold standard for data privacy, and the introduction of the differentially private stochastic gradient descent (DP-SGD) algorithm has facilitated the training of private neural models in a number of domains. Recent advances in graph generation via deep generative networks have produced several high performing models. We evaluate and compare state-of-the-art models including adjacency matrix based models and edge based models, and show a practical implementation that favours the edge-list approach utilizing the Gaussian noise mechanism when evaluated on commonly used graph datasets. Based on our findings, we propose a generative model that can reproduce the properties of real-world networks while maintaining edge-differential privacy. The proposed model is based on a stochastic neural network that generates discrete edge-list samples and is trained using the Wasserstein GAN objective with the DP-SGD optimizer. Being the first approach to combine these beneficial properties, our model contributes to further research on graph data privacy.
翻訳日:2021-11-18 18:10:29 公開日:2021-11-17
# (参考訳) Raspberry Pi 4のCSIを用いた動き検出

Motion Detection using CSI from Raspberry Pi 4 ( http://arxiv.org/abs/2111.09091v1 )

ライセンス: CC BY 4.0
Glenn Forbes, Stewart Massie, Susan Craw, Christopher Clare(参考訳) センサを用いたスマートホームのモニタリング行動は、住民の自立能力や長期的な健康状態の変化に対する洞察を与えることができる。 パッシブ赤外線モーションセンサー(PIR)は標準であるが、運動の全期間を正確に追跡することはできない。 また、パフォーマンスを制限し、住民に確実に見えるようにするための動きを検出するために、視線線も必要だ。 チャネル状態情報(csi)は安価で意図しない無線センシング形式であり、移動を監視できるが、リッチなデータを生成する機会を提供する。 Raspberry Pi 4で収集・処理されたCSIデータを利用した,自己校正型モーション検出システムを開発した。 本システムでは,CSIフレーム間の相関を利用して,このアルゴリズムを用いて分散解析を行い,居住者の移動の全期間を正確に測定する。 いくつかの実環境において,本手法の有効性を示す。 実験により, 異なる位置における異なる強度の運動例に対して, 活動開始時間と終了時間を正確に検出できることが示された。

Monitoring behaviour in smart homes using sensors can offer insights into changes in the independent ability and long-term health of residents. Passive Infrared motion sensors (PIRs) are standard, however may not accurately track the full duration of movement. They also require line-of-sight to detect motion which can restrict performance and ensures they must be visible to residents. Channel State Information (CSI) is a low cost, unintrusive form of radio sensing which can monitor movement but also offers opportunities to generate rich data. We have developed a novel, self-calibrating motion detection system which uses CSI data collected and processed on a stock Raspberry Pi 4. This system exploits the correlation between CSI frames, on which we perform variance analysis using our algorithm to accurately measure the full period of a resident's movement. We demonstrate the effectiveness of this approach in several real-world environments. Experiments conducted demonstrate that activity start and end time can be accurately detected for motion examples of different intensities at different locations.
翻訳日:2021-11-18 18:02:23 公開日:2021-11-17
# (参考訳) GPSの故障:信頼できない方向のネットワークでの最短経路

The Faulty GPS Problem: Shortest Time Paths in Networks with Unreliable Directions ( http://arxiv.org/abs/2111.09093v1 )

ライセンス: CC BY 4.0
Steve Alpern(参考訳) 本稿では,サトナフ (GPS) が提案する道路選択が最短経路にないという既知のリスクがある場合の移動計画の最適化を行う。 ネットワーク Q のすべての分岐ノードにおいて、サトナフ (GPS) は目的地やホームノード H に至る弧を指しているが、既知の確率 p のみである。 サトナフの提案を常に信頼することは無限サイクルにつながるかもしれない。 最小限の時間で H に到達したい場合、どの確率 q=q(Q,p) がポインターを信頼すべきか(そうでなければ、他の弧の中からランダムに選ぶ)。 私たちはこれをFaulty Satnav (GPS)問題と呼ぶ。 また、信頼確率 q が現在のノードの度合いに依存するバージョンや、2人の探索者が最初に H に到達しようとする 'トレジャーハント' も検討する。 Hを検索するエージェントは車である必要はないが、これはよく知られた例に過ぎず、信頼性の低いGPS情報を受信するUAVかもしれない。 この問題は、ドライバーのフラストレーションではなく、アリナビゲーションに関するFonio et al (2017) の作業に起源があり、ポインタは巣を指しているフェロモンマーカーに対応している。 ドライバーやアリは、選択(弧)が提案される正確なプロセスも知らないため、AIが提案する選択肢をどれだけ信頼するかという領域に問題をもたらす。

This paper optimizes motion planning when there is a known risk that the road choice suggested by a Satnav (GPS) is not on a shortest path. At every branch node of a network Q, a Satnav (GPS) points to the arc leading to the destination, or home node, H - but only with a high known probability p. Always trusting the Satnav's suggestion may lead to an infinite cycle. If one wishes to reach H in least expected time, with what probability q=q(Q,p) should one trust the pointer (if not, one chooses randomly among the other arcs)? We call this the Faulty Satnav (GPS) Problem. We also consider versions where the trust probability q can depend on the degree of the current node and a `treasure hunt' where two searchers try to reach H first. The agent searching for H need not be a car, that is just a familiar example -- it could equally be a UAV receiving unreliable GPS information. This problem has its origin not in driver frustration but in the work of Fonio et al (2017) on ant navigation, where the pointers correspond to pheromone markers pointing to the nest. Neither the driver or ant will know the exact process by which a choice (arc) is suggested, which puts the problem into the domain of how much to trust an option suggested by AI.
翻訳日:2021-11-18 17:52:54 公開日:2021-11-17
# (参考訳) クライオシフト:教師なしドメイン適応とランダム化によるクライオ電子サブモグラムの領域シフトの低減

Cryo-shift: Reducing domain shift in cryo-electron subtomograms with unsupervised domain adaptation and randomization ( http://arxiv.org/abs/2111.09114v1 )

ライセンス: CC BY 4.0
Hmrishav Bandyopadhyay, Zihao Deng, Leiting Ding, Sinuo Liu, Mostofa Rafid Uddin, Xiangrui Zeng, Sima Behpour, Min Xu(参考訳) cryo-electron tomography (cryo-et) は、原子近傍の分解能で細胞内構造を可視化する3次元イメージング技術である。 細胞内のCryo-ET画像は、高分子の構造を解明し、その空間的関係を単一の細胞で決定するのに役立つ。 サブトモグラムの分類と認識は、これらのマクロ分子構造の体系的な回復の第一段階である。 教師付き深層学習法はサブトモグラム分類において極めて正確かつ効率的であることが証明されているが、注釈付きデータの不足により適用性が制限されている。 教師付きモデルのトレーニングのためのシミュレーションデータを生成することは潜在的な解決策であるが、実際の実験データと比較して生成したデータにおける画像強度分布のばらつきが大きいため、訓練されたモデルは実際のサブトモグラムでのクラス予測の精度が低下する。 本稿では,ディープラーニングに基づくクロスドメインサブトモグラム分類のための,完全に教師なしのドメイン適応とランダム化フレームワークであるcryo-shiftを提案する。 シミュレーションデータと実験データの特徴間の領域シフトを低減するために,教師なしのマルチ・アドバーサル・ドメイン適応を用いた。 ネットワーク駆動のドメインランダム化手順を開発し, ‘warp’ モジュールを用いてシミュレーションデータを変更し, 分類器が実験データに対してより一般化するのを助ける。 モデルトレーニングにはラベル付き実験データを使用しませんが、既存の代替手法では、クロスドメイン分類のためのラベル付き実験データが必要です。 それにもかかわらず、Cryo-Shiftはクロスドメインサブトモグラム分類における既存の代替手法よりも優れており、シミュレーションデータと実験データの両方を用いて広範な評価研究が行われている。

Cryo-Electron Tomography (cryo-ET) is a 3D imaging technology that enables the visualization of subcellular structures in situ at near-atomic resolution. Cellular cryo-ET images help in resolving the structures of macromolecules and determining their spatial relationship in a single cell, which has broad significance in cell and structural biology. Subtomogram classification and recognition constitute a primary step in the systematic recovery of these macromolecular structures. Supervised deep learning methods have been proven to be highly accurate and efficient for subtomogram classification, but suffer from limited applicability due to scarcity of annotated data. While generating simulated data for training supervised models is a potential solution, a sizeable difference in the image intensity distribution in generated data as compared to real experimental data will cause the trained models to perform poorly in predicting classes on real subtomograms. In this work, we present Cryo-Shift, a fully unsupervised domain adaptation and randomization framework for deep learning-based cross-domain subtomogram classification. We use unsupervised multi-adversarial domain adaption to reduce the domain shift between features of simulated and experimental data. We develop a network-driven domain randomization procedure with `warp' modules to alter the simulated data and help the classifier generalize better on experimental data. We do not use any labeled experimental data to train our model, whereas some of the existing alternative approaches require labeled experimental samples for cross-domain classification. Nevertheless, Cryo-Shift outperforms the existing alternative approaches in cross-domain subtomogram classification in extensive evaluation studies demonstrated herein using both simulated and experimental data.
翻訳日:2021-11-18 17:51:32 公開日:2021-11-17
# (参考訳) スマートデータ表現:ディープニューラルネットワークの精度への影響

Smart Data Representations: Impact on the Accuracy of Deep Neural Networks ( http://arxiv.org/abs/2111.09128v1 )

ライセンス: CC BY 4.0
Oliver Neumann, Nicole Ludwig, Marian Turowski, Benedikt Heidrich, Veit Hagenmeyer, Ralf Mikut(参考訳) ディープニューラルネットワークは、エンジニアリングの労力を減らし、パフォーマンスを向上させることで、多くの複雑なタスクを解決できる。 しかし、これらのネットワークはしばしば、その表現を調査せずに、トレーニングや評価にデータを使用する。 本稿では,エネルギー時系列予測を用いたディープニューラルネットワークの性能に及ぼすデータ表現の影響を解析する。 模範データ表現の概要に基づいて、4つの模範データ表現を選択し、2つの異なるディープニューラルネットワークアーキテクチャと3つの実世界のエネルギー時系列の予測地平線を用いて評価する。 結果は、予測の地平線によっては、同じデータ表現がディープニューラルネットワークの精度に正または負の影響をもたらすことを示している。

Deep Neural Networks are able to solve many complex tasks with less engineering effort and better performance. However, these networks often use data for training and evaluation without investigating its representation, i.e.~the form of the used data. In the present paper, we analyze the impact of data representations on the performance of Deep Neural Networks using energy time series forecasting. Based on an overview of exemplary data representations, we select four exemplary data representations and evaluate them using two different Deep Neural Network architectures and three forecasting horizons on real-world energy time series. The results show that, depending on the forecast horizon, the same data representations can have a positive or negative impact on the accuracy of Deep Neural Networks.
翻訳日:2021-11-18 17:37:41 公開日:2021-11-17
# (参考訳) intraq: ゼロショットネットワーク量子化のためのクラス内不均一性を用いた合成画像の学習

IntraQ: Learning Synthetic Images with Intra-Class Heterogeneity for Zero-Shot Network Quantization ( http://arxiv.org/abs/2111.09136v1 )

ライセンス: CC BY 4.0
Yunshan Zhong, Mingbao Lin, Gongrui Nan, Jianzhuang Liu, Baochang Zhang, Yonghong Tian, Rongrong Ji(参考訳) データを合成する学習は、実データにアクセスせずに低ビット整数でニューラルネットワークを表現するゼロショット量子化(zsq)において、有望な方向として現れてきた。 本稿では,実データにおけるクラス内不均一性の興味深い現象を観察し,既存の手法ではそれらの合成画像にその性質を保持できず,性能が低下することを示した。 そこで本研究では,intraqと呼ばれるゼロショット量子化法を提案する。 まず,ターゲットオブジェクトを合成画像のスケールや位置の異なる場所に配置する局所オブジェクト強化を提案する。 次に,粗い領域に分散したクラス関連特徴を形成するために,限界距離制約を導入する。 最後に,合成画像が固定対象物に過度に収まらないよう,ソフトな先行ラベルを注入するソフトな開始損失を考案する。 IntraQは, 合成画像のクラス内不均一性を良好に保ち, また, 最先端の動作も観察した。 例えば、advanced zsqと比較して、mobilenetv1の全層を4ビットに量子化すると、intraqはimagenetのtop-1精度を9.17\%向上させる。 コードはhttps://github.com/viperit/InterQ.comにある。

Learning to synthesize data has emerged as a promising direction in zero-shot quantization (ZSQ), which represents neural networks by low-bit integer without accessing any of the real data. In this paper, we observe an interesting phenomenon of intra-class heterogeneity in real data and show that existing methods fail to retain this property in their synthetic images, which causes a limited performance increase. To address this issue, we propose a novel zero-shot quantization method referred to as IntraQ. First, we propose a local object reinforcement that locates the target objects at different scales and positions of the synthetic images. Second, we introduce a marginal distance constraint to form class-related features distributed in a coarse area. Lastly, we devise a soft inception loss which injects a soft prior label to prevent the synthetic images from being overfitting to a fixed object. Our IntraQ is demonstrated to well retain the intra-class heterogeneity in the synthetic images and also observed to perform state-of-the-art. For example, compared to the advanced ZSQ, our IntraQ obtains 9.17\% increase of the top-1 accuracy on ImageNet when all layers of MobileNetV1 are quantized to 4-bit. Code is at https://github.com/viperit/InterQ.
翻訳日:2021-11-18 17:26:36 公開日:2021-11-17
# (参考訳) 2面:商用顔認証システムの逆聴取

Two-Face: Adversarial Audit of Commercial Face Recognition Systems ( http://arxiv.org/abs/2111.09137v1 )

ライセンス: CC BY 4.0
Siddharth D Jaiswal, Karthikeya Duggirala, Abhisek Dash, Animesh Mukherjee(参考訳) 自動顔検出などのコンピュータビジョンアプリケーションは、スマートデバイスのアンロックから、監視対象の潜在的な人を追跡するまで、さまざまな目的で使用されている。 これらの応用の聴衆は、彼らが不公平で社会的、政治的結果に関する少数派グループに対して偏見を持つ傾向があることを明らかにしている。 長年にわたる複数の研究にもかかわらず、これらのバイアスは完全に緩和されておらず、年齢予測のような特定のタスクで増加してきた。 このようなシステムはベンチマークデータセット上で監査されるが、逆入力に対する堅牢性を評価する必要がある。 本研究では,複数のシステムやデータセットに対する大規模な逆監査を行い,前回の監査以降,CELEBSETデータセット上のタスクの精度が低下していることを示す。 複数のデータセットに対するマイノリティグループからの個人に対する正確さのバイアスは依然として存在するが、より心配なのは、これらのバイアスがマイノリティグループに対して逆のインプットで非常に発音される傾向があることだ。 我々は、これらの観察と、この問題を総括的に扱う方法についてのいくつかの提案を踏まえて、幅広い社会的影響についての議論を締めくくった。

Computer vision applications like automated face detection are used for a variety of purposes ranging from unlocking smart devices to tracking potential persons of interest for surveillance. Audits of these applications have revealed that they tend to be biased against minority groups which result in unfair and concerning societal and political outcomes. Despite multiple studies over time, these biases have not been mitigated completely and have in fact increased for certain tasks like age prediction. While such systems are audited over benchmark datasets, it becomes necessary to evaluate their robustness for adversarial inputs. In this work, we perform an extensive adversarial audit on multiple systems and datasets, making a number of concerning observations - there has been a drop in accuracy for some tasks on CELEBSET dataset since a previous audit. While there still exists a bias in accuracy against individuals from minority groups for multiple datasets, a more worrying observation is that these biases tend to get exorbitantly pronounced with adversarial inputs toward the minority group. We conclude with a discussion on the broader societal impacts in light of these observations and a few suggestions on how to collectively deal with this issue.
翻訳日:2021-11-18 17:09:42 公開日:2021-11-17
# (参考訳) Deep Supervision を用いたCT画像からの肺腫瘍の分離

Segmentation of Lung Tumor from CT Images using Deep Supervision ( http://arxiv.org/abs/2111.09262v1 )

ライセンス: CC BY 4.0
Farhanaz Farheen, Md. Salman Shamil, Nabil Ibtehaz, M. Sohel Rahman(参考訳) 肺がんは世界中のほとんどの国で死因となっている。 腫瘍の迅速な診断により、腫瘍学者はその性質、タイプ、治療様式を識別できるため、CT Scan画像からの腫瘍の検出とセグメンテーションは世界中で重要な研究分野である。 本稿では, 肺腫瘍の分節化をLOTUSデータセットに2次元離散ウェーブレット変換(DWT)を適用し, より精細なテクスチャ解析を行い, 近隣のCTスライスから情報を統合し, 深層監視マルチResUNetモデルに供給する手法を提案する。 ネットワークの学習中の学習率,減衰,最適化アルゴリズムの変動により,diceの効率が異なっており,その詳細な統計が本論文に含まれている。 このデータセットの課題と、それを克服する方法についても議論しています。 本研究は,2次元CTスキャンスライスから腫瘍領域を推定する成功率の最大化を目的とした。

Lung cancer is a leading cause of death in most countries of the world. Since prompt diagnosis of tumors can allow oncologists to discern their nature, type and the mode of treatment, tumor detection and segmentation from CT Scan images is a crucial field of study worldwide. This paper approaches lung tumor segmentation by applying two-dimensional discrete wavelet transform (DWT) on the LOTUS dataset for more meticulous texture analysis whilst integrating information from neighboring CT slices before feeding them to a Deeply Supervised MultiResUNet model. Variations in learning rates, decay and optimization algorithms while training the network have led to different dice co-efficients, the detailed statistics of which have been included in this paper. We also discuss the challenges in this dataset and how we opted to overcome them. In essence, this study aims to maximize the success rate of predicting tumor regions from two dimensional CT Scan slices by experimenting with a number of adequate networks, resulting in a dice co-efficient of 0.8472.
翻訳日:2021-11-18 16:50:48 公開日:2021-11-17
# (参考訳) 顔ランドマーク検出のための量子支援ベクター回帰

Quantum-Assisted Support Vector Regression for Detecting Facial Landmarks ( http://arxiv.org/abs/2111.09304v1 )

ライセンス: CC BY 4.0
Archismita Dalal, Mohsen Bagherimehrab and Barry C. Sanders(参考訳) ベクトル回帰(svr)をサポートする古典的な機械学習モデルは、天気予報、株式市場、不動産価格など、回帰タスクに広く使われている。 しかし、現実的に実現可能なSVRの量子バージョンは定式化されていない。 我々は、2つのSVRモデルをトレーニングするためのシミュレーションと量子古典的ハイブリッドというアニーリングに基づくアルゴリズムを考案し、PythonのScikit-LernパッケージのSVR実装と、顔のランドマーク検出(FLD)問題に対するSVRベースの最先端アルゴリズムと比較した。 本手法は,SVRモデルのトレーニングに使用される最適化問題に対して,2次非拘束バイナリ式を導出し,アニーリングを用いてこの問題を解決する。 d-waveのハイブリッドソルバを用いて,量子支援svrモデルを構築し,ランドマーク検出精度に関する古典モデルよりも若干のアドバンテージを示す。 さらに,アニーリングに基づくSVRモデルは,グリーディ最適化法により訓練されたSVRモデルと比較して,低分散のランドマークを予測する。 我々の研究は、小さなトレーニングデータセットを用いて教師付き学習タスクに量子支援SVRを適用するための概念実証の例である。

The classical machine-learning model for support vector regression (SVR) is widely used for regression tasks, including weather prediction, stock-market and real-estate pricing. However, a practically realisable quantum version for SVR remains to be formulated. We devise annealing-based algorithms, namely simulated and quantum-classical hybrid, for training two SVR models, and compare their empirical performances against the SVR implementation of Python's scikit-learn package and the SVR-based state-of-the-art algorithm for the facial landmark detection (FLD) problem. Our method is to derive a quadratic-unconstrained-binary formulation for the optimisation problem used for training a SVR model and solve this problem using annealing. Using D-Wave's Hybrid Solver, we construct a quantum-assisted SVR model, thereby demonstrating a slight advantage over classical models regarding landmark-detection accuracy. Furthermore, we observe that annealing-based SVR models predict landmarks with lower variances compared to the SVR models trained by greedy optimisation procedures. Our work is a proof-of-concept example for applying quantu-assisted SVR to a supervised learning task with a small training dataset.
翻訳日:2021-11-18 16:37:08 公開日:2021-11-17
# setPCAによる多変量モデルの解釈

Interpreting multi-variate models with setPCA ( http://arxiv.org/abs/2111.09138v1 )

ライセンス: Link先を確認
Nordine Aouni, Luc Linders, David Robinson, Len Vandelaer, Jessica Wiezorek, Geetesh Gupta, Rachel Cavill(参考訳) 主成分分析(PCA)や他の多変量モデルはしばしば「オミクス」データの解析に使用される。 これらのモデルは、現在容易にアクセスできない情報や解釈できない情報を含んでいる。 本稿では,この情報を既知集合(ジェネセットや経路など)の形式で格納した既存の背景知識データベースと統合するアルゴリズムを提案する。 そこで我々はMatlabにGUI(Graphical User Interface)を作成した。これにより、既知の設定情報のロードプロットへのオーバーレイが可能となり、多変量モデルの解釈性が改善される。 既知の各集合に対して、既知の集合から要素のサブセットをカバーする最適凸包は、探索アルゴリズムを通して見つけられ、表示される。 本稿では,この問題に対する最適凸包の探索アルゴリズムの詳細と,学術目的に自由にダウンロード可能なguiインタフェースについて述べる。

Principal Component Analysis (PCA) and other multi-variate models are often used in the analysis of "omics" data. These models contain much information which is currently neither easily accessible nor interpretable. Here we present an algorithmic method which has been developed to integrate this information with existing databases of background knowledge, stored in the form of known sets (for instance genesets or pathways). To make this accessible we have produced a Graphical User Interface (GUI) in Matlab which allows the overlay of known set information onto the loadings plot and thus improves the interpretability of the multi-variate model. For each known set the optimal convex hull, covering a subset of elements from the known set, is found through a search algorithm and displayed. In this paper we discuss two main topics; the details of the search algorithm for the optimal convex hull for this problem and the GUI interface which is freely available for download for academic use.
翻訳日:2021-11-18 16:04:45 公開日:2021-11-17
# 時間制約による人物再同定の改善

Improving Person Re-Identification with Temporal Constraints ( http://arxiv.org/abs/2111.09056v1 )

ライセンス: Link先を確認
Julia Dietlmeier and Feiyan Hu and Frances Ryan and Noel E. O'Connor and Kevin McGuinness(参考訳) 本稿では,アイルランドのダブリンにある大規模で忙しい空港において,重複しない5つのカメラビューから収集された画像に基づく人物識別データセットについて紹介する。 公開されているすべての画像ベースデータセットとは異なり、データセットにはフレーム番号に加えてタイムスタンプ情報とカメラと人物IDが含まれている。 また、私たちのデータセットは完全に匿名化され、現代のデータプライバシ規則に準拠しています。 我々は、我々のデータセットに最先端の人物再識別モデルを適用し、利用可能なタイムスタンプ情報を利用することで、mAPで37.43%、Rランク1で30.22%の大幅な増加を達成できることを示す。 また,10.03%の地図値と9.95%のrank1精度指標を付加したベイズ時間的再ランキング後処理ステップを提案する。 視覚的情報と時間的情報を組み合わせる作業は、他の画像に基づく人物再識別データセットでは不可能である。 提案する新たなデータセットは,実世界の応用に挑戦するための人物再同定研究のさらなる発展を可能にすると信じている。 DAAデータセットはhttps://bit.ly/3AtXTd6からダウンロードできる。

In this paper we introduce an image-based person re-identification dataset collected across five non-overlapping camera views in the large and busy airport in Dublin, Ireland. Unlike all publicly available image-based datasets, our dataset contains timestamp information in addition to frame number, and camera and person IDs. Also our dataset has been fully anonymized to comply with modern data privacy regulations. We apply state-of-the-art person re-identification models to our dataset and show that by leveraging the available timestamp information we are able to achieve a significant gain of 37.43% in mAP and a gain of 30.22% in Rank1 accuracy. We also propose a Bayesian temporal re-ranking post-processing step, which further adds a 10.03% gain in mAP and 9.95% gain in Rank1 accuracy metrics. This work on combining visual and temporal information is not possible on other image-based person re-identification datasets. We believe that the proposed new dataset will enable further development of person re-identification research for challenging real-world applications. DAA dataset can be downloaded from https://bit.ly/3AtXTd6
翻訳日:2021-11-18 16:04:31 公開日:2021-11-17
# 階層構造をもつランダムグラフに基づくニューロモルフィック学習

Random Graph-Based Neuromorphic Learning with a Layer-Weaken Structure ( http://arxiv.org/abs/2111.08888v1 )

ライセンス: Link先を確認
Ruiqi Mao and Rongxin Cui(参考訳) ニューラルネットワーク(NN)の統一的理解は、NNの内部構造を最適化するためにどのようなルールに従うべきかという問題に悩まされ、ユーザを悩ませます。 計算方法を変更するランダムグラフの可能性を考えると、NNの内部構造を最適化するアーキテクチャジェネレータとして機能できることが示される。 乱数グラフ理論を実践的な意味でNNモデルに変換し,各ニューロンの入出力関係を明らかにするために,フーリエランダム特徴(FRF)を計算してデータ特徴マッピングを完成させる。 この低演算コストアプローチでは、ニューロンはいくつかのグループに割り当てられ、接続関係はそれらが属するランダムグラフの一様表現とみなすことができ、ランダムな配列はそれらのニューロンを融合させてパターン行列を確立し、固定されたアーキテクチャや深いアーキテクチャなしに手動の参加と計算コストを著しく削減する。 この単一ニューロモルフィック学習モデルであるランダムグラフベースニューラルネットワーク(RGNN)を応用し、複数のRGNN間の情報相互作用を含む共同分類機構を開発し、3つのベンチマークタスクにおける教師あり学習の大幅な性能向上を実現し、NNの解釈可能性が構造設計や工学的実践に与える影響を効果的に回避する。

Unified understanding of neuro networks (NNs) gets the users into great trouble because they have been puzzled by what kind of rules should be obeyed to optimize the internal structure of NNs. Considering the potential capability of random graphs to alter how computation is performed, we demonstrate that they can serve as architecture generators to optimize the internal structure of NNs. To transform the random graph theory into an NN model with practical meaning and based on clarifying the input-output relationship of each neuron, we complete data feature mapping by calculating Fourier Random Features (FRFs). Under the usage of this low-operation cost approach, neurons are assigned to several groups of which connection relationships can be regarded as uniform representations of random graphs they belong to, and random arrangement fuses those neurons to establish the pattern matrix, markedly reducing manual participation and computational cost without the fixed and deep architecture. Leveraging this single neuromorphic learning model termed random graph-based neuro network (RGNN) we develop a joint classification mechanism involving information interaction between multiple RGNNs and realize significant performance improvements in supervised learning for three benchmark tasks, whereby they effectively avoid the adverse impact of the interpretability of NNs on the structure design and engineering practice.
翻訳日:2021-11-18 16:03:46 公開日:2021-11-17
# lvac:座標ベースのネットワークを用いた点雲のボリューム属性圧縮法

LVAC: Learned Volumetric Attribute Compression for Point Clouds using Coordinate Based Networks ( http://arxiv.org/abs/2111.08988v1 )

ライセンス: Link先を確認
Berivan Isik, Philip A. Chou, Sung Jin Hwang, Nick Johnston, George Toderici(参考訳) 点雲の属性を離散位置におけるベクトル値体積関数のサンプルとして考える。 位置が与えられた属性を圧縮するために,体積関数のパラメータを圧縮する。 空間をブロックにタイリングすることで体積関数をモデル化し、座標ベースまたは暗黙のニューラルネットワークのシフトによって各ブロック上の関数を表現する。 ネットワークへの入力には、空間座標とブロックごとの潜在ベクトルの両方が含まれる。 我々は,MPEG幾何に基づくポイントクラウドコーデックG-PCCで使用される領域適応階層変換(RAHT)の係数を用いて潜在ベクトルを表現する。 圧縮性が高い係数は、オートデコーダ構成のラグランジアン損失によるバックプロパゲーションによって最適化される。 結果は raht を 2--4 db で上回る。 これは、局所座標ベースニューラルネットワークで表される体積関数を圧縮する最初の試みである。 したがって、高分解能の神経放射野の圧縮など、ポイントクラウドを超えて適用できると期待しています。

We consider the attributes of a point cloud as samples of a vector-valued volumetric function at discrete positions. To compress the attributes given the positions, we compress the parameters of the volumetric function. We model the volumetric function by tiling space into blocks, and representing the function over each block by shifts of a coordinate-based, or implicit, neural network. Inputs to the network include both spatial coordinates and a latent vector per block. We represent the latent vectors using coefficients of the region-adaptive hierarchical transform (RAHT) used in the MPEG geometry-based point cloud codec G-PCC. The coefficients, which are highly compressible, are rate-distortion optimized by back-propagation through a rate-distortion Lagrangian loss in an auto-decoder configuration. The result outperforms RAHT by 2--4 dB. This is the first work to compress volumetric functions represented by local coordinate-based neural networks. As such, we expect it to be applicable beyond point clouds, for example to compression of high-resolution neural radiance fields.
翻訳日:2021-11-18 16:03:22 公開日:2021-11-17
# パーキンソン音声データの被写体包含深サンプルファジィアンサンブル学習アルゴリズム

Subject Enveloped Deep Sample Fuzzy Ensemble Learning Algorithm of Parkinson's Speech Data ( http://arxiv.org/abs/2111.09014v1 )

ライセンス: Link先を確認
Yiwen Wang, Fan Li, Xiaoheng Zhang, Pin Wang, Yongming Li(参考訳) パーキンソン病(pd)の音声認識はその診断に有効な方法であり、近年はホットで困難な研究領域となっている。 私たちが知っているように、ひとつの主題には大きなコーパス(セグメント)があります。 しかし、あまりに大きなセグメントでは分類モデルの複雑さが増す。 さらに、対象者の病理を反映した診断用音声マーカーの発見に関心のある臨床医。 各音声サンプルセグメントの最適な関連特徴は異なるため、一様診断用音声マーカーを見つけることは困難である。 そのため、既存の大セグメントを1つのセグメント内の1セグメントであっても少数のセグメントに再構成する必要があるため、関連する音声特徴の抽出が容易になり、対象全体の診断マーカーを特徴付けることができる。 この問題に対処するために,多層ファジィc平均(MlFCM)クラスタリングと層間整合性保存に基づくパーキンソンの被験者に対する包絡型ディープ音声サンプル学習アルゴリズムを提案する。 このアルゴリズムは、パーキンソン病(PD)のオブジェクト内サンプル再構成を達成し、少数の高品質のプロトタイプサンプルセグメントを得ることができる。 論文の最後には,いくつかの代表的PD音声データセットが選択され,それぞれ最先端の手法と比較される。 実験の結果,提案手法は有意な効果を示した。

Parkinson disease (PD)'s speech recognition is an effective way for its diagnosis, which has become a hot and difficult research area in recent years. As we know, there are large corpuses (segments) within one subject. However, too large segments will increase the complexity of the classification model. Besides, the clinicians interested in finding diagnostic speech markers that reflect the pathology of the whole subject. Since the optimal relevant features of each speech sample segment are different, it is difficult to find the uniform diagnostic speech markers. Therefore, it is necessary to reconstruct the existing large segments within one subject into few segments even one segment within one subject, which can facilitate the extraction of relevant speech features to characterize diagnostic markers for the whole subject. To address this problem, an enveloped deep speech sample learning algorithm for Parkinson's subjects based on multilayer fuzzy c-mean (MlFCM) clustering and interlayer consistency preservation is proposed in this paper. The algorithm can be used to achieve intra-subject sample reconstruction for Parkinson's disease (PD) to obtain a small number of high-quality prototype sample segments. At the end of the paper, several representative PD speech datasets are selected and compared with the state-of-the-art related methods, respectively. The experimental results show that the proposed algorithm is effective signifcantly.
翻訳日:2021-11-18 16:03:08 公開日:2021-11-17
# 多目的ノーマルフォームゲームにおける選好コミュニケーション

Preference Communication in Multi-Objective Normal-Form Games ( http://arxiv.org/abs/2111.09191v1 )

ライセンス: Link先を確認
Willem R\"opke, Diederik M. Roijers, Ann Now\'e, Roxana R\u{a}dulescu(参考訳) マルチオブジェクト環境において,複数のエージェントが同時に学習する問題について検討する。 具体的には,多目的正規形ゲームを繰り返しプレイするエージェントを2つ検討する。 このようなゲームでは、ジョイントアクションから生じる報酬はベクトル値となる。 ユーティリティベースのアプローチでは,ベクトルをスカラーユーティリティにマッピングするユーティリティ関数が存在すると仮定し,期待されるペイオフベクトルの有用性を最大化するエージェントを検討する。 エージェントは必ずしも相手の実用機能や戦略を知っているわけではないので、互いに対話するための最適なポリシーを学ばなければならない。 適切なソリューションにエージェントが到着するのを助けるため,協調型および自己関心型のコミュニケーションのための4つの新しい選好通信プロトコルを導入する。 それぞれのアプローチは、あるエージェントがアクションに対する好みを伝達する特定のプロトコルと、他のエージェントがどう反応するかを記述する。 これらのプロトコルはその後、通信しないベースラインエージェントに対する5つのベンチマークゲームで評価される。 選好コミュニケーションによって学習過程が劇的に変化し,これまで観測されていなかった循環ナッシュ平衡が出現する可能性が示唆された。 さらに,エージェントがコミュニケーションのタイミングを学習しなければならないコミュニケーション方式を提案する。 nash平衡を持つゲームのエージェントにとって、コミュニケーションは有益であるが、エージェントが異なる選択平衡を持つ場合の学習は困難である。 このような場合、エージェントはコミュニケーションに無関心になる。 ナッシュ均衡のないゲームでは,学習率に差が認められた。 より高速な学習者を使う場合、妥協政策を学ぶのに役立つため、明示的なコミュニケーションが50%前後でより普及しているのが観察される。 より遅い学習者は、このパターンをより少ない程度に維持するが、無関心が増す。

We study the problem of multiple agents learning concurrently in a multi-objective environment. Specifically, we consider two agents that repeatedly play a multi-objective normal-form game. In such games, the payoffs resulting from joint actions are vector valued. Taking a utility-based approach, we assume a utility function exists that maps vectors to scalar utilities and consider agents that aim to maximise the utility of expected payoff vectors. As agents do not necessarily know their opponent's utility function or strategy, they must learn optimal policies to interact with each other. To aid agents in arriving at adequate solutions, we introduce four novel preference communication protocols for both cooperative as well as self-interested communication. Each approach describes a specific protocol for one agent communicating preferences over their actions and how another agent responds. These protocols are subsequently evaluated on a set of five benchmark games against baseline agents that do not communicate. We find that preference communication can drastically alter the learning process and lead to the emergence of cyclic Nash equilibria which had not been previously observed in this setting. Additionally, we introduce a communication scheme where agents must learn when to communicate. For agents in games with Nash equilibria, we find that communication can be beneficial but difficult to learn when agents have different preferred equilibria. When this is not the case, agents become indifferent to communication. In games without Nash equilibria, our results show differences across learning rates. When using faster learners, we observe that explicit communication becomes more prevalent at around 50% of the time, as it helps them in learning a compromise joint policy. Slower learners retain this pattern to a lesser degree, but show increased indifference.
翻訳日:2021-11-18 16:02:44 公開日:2021-11-17
# Universal InferenceがRandom Projectionsを発表 - ログ凹凸のスケーラブルなテスト

Universal Inference Meets Random Projections: A Scalable Test for Log-concavity ( http://arxiv.org/abs/2111.09254v1 )

ライセンス: Link先を確認
Robin Dunn, Larry Wasserman, Aaditya Ramdas(参考訳) 形状制約は、データ分布のモデリングに対する完全に非パラメトリックなアプローチと完全なパラメトリックなアプローチの間の柔軟な中間条件をもたらす。 対数共振の特定の仮定は、経済学、生存モデリング、信頼性理論にまたがる応用によって動機付けられている。 しかしながら、あるデータの根底にある密度が対数凹であるかどうかの有効なテストは今のところ存在しない。 最近の万能比テストは有効なテストを提供する。 普遍的なテストは最大推定(MLE)に依存しており、ログ凹面MLEを見つけるための効率的な方法がすでに存在する。 これにより、任意の次元の有限サンプルにおいて証明可能なログコンビニティの最初のテストとなり、漸近的一貫性の結果も確立される。 経験的に、最も高いパワーは、ランダムな投影を用いて、d-次元テスト問題を多くの1次元問題に変換することで得られ、統計学的に計算効率の良い単純な手順へと導かれる。

Shape constraints yield flexible middle grounds between fully nonparametric and fully parametric approaches to modeling distributions of data. The specific assumption of log-concavity is motivated by applications across economics, survival modeling, and reliability theory. However, there do not currently exist valid tests for whether the underlying density of given data is log-concave. The recent universal likelihood ratio test provides a valid test. The universal test relies on maximum likelihood estimation (MLE), and efficient methods already exist for finding the log-concave MLE. This yields the first test of log-concavity that is provably valid in finite samples in any dimension, for which we also establish asymptotic consistency results. Empirically, we find that the highest power is obtained by using random projections to convert the d-dimensional testing problem into many one-dimensional problems, leading to a simple procedure that is statistically and computationally efficient.
翻訳日:2021-11-18 16:01:40 公開日:2021-11-17
# 不均一データに基づく個人的フェデレーション学習

Differentially Private Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2111.09278v1 )

ライセンス: Link先を確認
Maxence Noble, Aur\'elien Bellet, Aymeric Dieuleveut(参考訳) フェデレーション学習(federated learning, fl)は,大規模分散学習のためのパラダイムである。 (i)高度に異種なユーザデータからの効率的なトレーニング (ii)参加ユーザのプライバシーを守ること。 本研究では,この2つの課題を同時に解決するための新しいfl手法(dp-scaffold)を提案する。 我々は、ユーザーが信頼できる仲介者なしで「正直だが正確」なサーバーと通信する困難な設定に焦点を合わせ、最終モデルにアクセス可能なサードパーティだけでなく、すべてのユーザ通信を監視できるサーバにもプライバシーを確保する必要がある。 DP理論の高度な結果を用いて,凸および非凸目的に対するアルゴリズムの収束を確立する。 本研究では,データの不均一性下でのプライバシ利用のトレードオフを明確に強調するとともに,ローカル更新数と不均一性レベルが増加すると,最先端アルゴリズムであるdp-fedavgよりもdp-scaffoldが優れていることを示す。 以上の結果から,DP-SCAFFOLDが実際に有意な利益をもたらすことが示された。

Federated Learning (FL) is a paradigm for large-scale distributed learning which faces two key challenges: (i) efficient training from highly heterogeneous user data, and (ii) protecting the privacy of participating users. In this work, we propose a novel FL approach (DP-SCAFFOLD) to tackle these two challenges together by incorporating Differential Privacy (DP) constraints into the popular SCAFFOLD algorithm. We focus on the challenging setting where users communicate with a ''honest-but-curious'' server without any trusted intermediary, which requires to ensure privacy not only towards a third-party with access to the final model but also towards the server who observes all user communications. Using advanced results from DP theory, we establish the convergence of our algorithm for convex and non-convex objectives. Our analysis clearly highlights the privacy-utility trade-off under data heterogeneity, and demonstrates the superiority of DP-SCAFFOLD over the state-of-the-art algorithm DP-FedAvg when the number of local updates and the level of heterogeneity grow. Our numerical results confirm our analysis and show that DP-SCAFFOLD provides significant gains in practice.
翻訳日:2021-11-18 16:01:25 公開日:2021-11-17
# (参考訳) XLS-R:大規模言語間音声表現学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale ( http://arxiv.org/abs/2111.09296v1 )

ライセンス: CC BY 4.0
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli(参考訳) 本稿では,wav2vec 2.0に基づく言語間音声表現学習の大規模モデルであるXLS-Rを提案する。 私たちは、128の言語で50万時間近く公開されている音声音声に対して、最大2Bパラメータを持つモデルをトレーニングします。 私たちの評価は、ハイリソースとローリソースの両方で、幅広いタスク、ドメイン、データレジーム、言語をカバーしています。 CoVoST-2音声翻訳ベンチマークでは,21の翻訳方向に対して平均7.4BLEUで先行技術を改善する。 音声認識において、XLS-RはBABEL、MLS、CommonVoice、およびVoxPopuliの既知の先行研究を改善し、平均して14~34%の誤差率を低下させる。 XLS-RはVoxLingua107言語識別の新たな状態も設定している。 さらに, モデルサイズが十分であれば, 英語を他の言語に翻訳する際には, 言語間事前学習が英語のみの事前学習よりも優れることを示す。 我々は、XLS-Rが世界中の多くの言語における音声処理タスクの改善に役立つことを願っている。

This paper presents XLS-R, a large-scale model for cross-lingual speech representation learning based on wav2vec 2.0. We train models with up to 2B parameters on nearly half a million hours of publicly available speech audio in 128 languages, an order of magnitude more public data than the largest known prior work. Our evaluation covers a wide range of tasks, domains, data regimes and languages, both high and low-resource. On the CoVoST-2 speech translation benchmark, we improve the previous state of the art by an average of 7.4 BLEU over 21 translation directions into English. For speech recognition, XLS-R improves over the best known prior work on BABEL, MLS, CommonVoice as well as VoxPopuli, lowering error rates by 14-34% relative on average. XLS-R also sets a new state of the art on VoxLingua107 language identification. Moreover, we show that with sufficient model size, cross-lingual pretraining can outperform English-only pretraining when translating English speech into other languages, a setting which favors monolingual pretraining. We hope XLS-R can help to improve speech processing tasks for many more languages of the world.
翻訳日:2021-11-18 16:00:35 公開日:2021-11-17
# Multiscenario Multienvironment BioSecure Multimodal Database (BMDB)

The Multiscenario Multienvironment BioSecure Multimodal Database (BMDB) ( http://arxiv.org/abs/2111.08702v1 )

ライセンス: Link先を確認
Javier Ortega-Garcia, Julian Fierrez, Fernando Alonso-Fernandez, Javier Galbally, Manuel R Freire, Joaquin Gonzalez-Rodriguez, Carmen Garcia-Mateo, Jose-Luis Alba-Castro, Elisardo Gonzalez-Agulla, Enrique Otero-Muras, Sonia Garcia-Salicetti, Lorene Allano, Bao Ly-Van, Bernadette Dorizzi, Josef Kittler, Thirimachos Bourlai, Norman Poh, Farzin Deravi, Ming NR Ng, Michael Fairhurst, Jean Hennebert, Andreas Humm, Massimo Tistarelli, Linda Brodo, Jonas Richiardi, Andrezj Drygajlo, Harald Ganster, Federico M Sukno, Sri-Kaushik Pavani, Alejandro Frangi, Lale Akarun, Arman Savran(参考訳) 欧州生物安全ネットワーク(European BioSecure Network of Excellence)のフレームワーク内で設計・取得された新しいマルチモーダルバイオメトリックデータベースについて述べる。 3つのシナリオで同時に獲得した600人以上の個人で構成される。 1)インターネット上で 2)デスクトップpcを備えたオフィス環境では、 3) 携帯機器を用いた屋内外環境において。 3つのシナリオには、オーディオ/ビデオデータの共通部分が含まれる。 また、署名データと指紋データはデスクトップPCとモバイルポータブルハードウェアの両方で取得されている。 さらに、デスクトップPCを用いて第2のシナリオで手と虹彩のデータを取得する。 11の欧州機関が買収を行っている。 BioSecure Multimodal Database (BMDB) のその他の機能としては,2つの取得セッション,特定のモードにおけるいくつかのセンサ,性別と年齢のバランスの取れた分布,単純かつ迅速なタスク/モダリティによるマルチモーダル現実シナリオ,欧州間の多様性,人口統計データの可用性,その他のマルチモーダルデータベースとの互換性などがある。 BMDBの新たな取得条件により,最近のBioSecure Multimodal Evaluationキャンペーンのように,モノモーダル・マルチモーダル生体認証システムの新たな挑戦的な研究と評価を行うことができる。 このキャンペーンの説明には、新しいデータベースからの個々のモダリティのベースライン結果も含まれている。 このデータベースは2008年にBioSecure Associationを通じて研究目的で利用可能になる予定である。

A new multimodal biometric database designed and acquired within the framework of the European BioSecure Network of Excellence is presented. It is comprised of more than 600 individuals acquired simultaneously in three scenarios: 1) over the Internet, 2) in an office environment with desktop PC, and 3) in indoor/outdoor environments with mobile portable hardware. The three scenarios include a common part of audio/video data. Also, signature and fingerprint data have been acquired both with desktop PC and mobile portable hardware. Additionally, hand and iris data were acquired in the second scenario using desktop PC. Acquisition has been conducted by 11 European institutions. Additional features of the BioSecure Multimodal Database (BMDB) are: two acquisition sessions, several sensors in certain modalities, balanced gender and age distributions, multimodal realistic scenarios with simple and quick tasks per modality, cross-European diversity, availability of demographic data, and compatibility with other multimodal databases. The novel acquisition conditions of the BMDB allow us to perform new challenging research and evaluation of either monomodal or multimodal biometric systems, as in the recent BioSecure Multimodal Evaluation campaign. A description of this campaign including baseline results of individual modalities from the new database is also given. The database is expected to be available for research purposes through the BioSecure Association during 2008
翻訳日:2021-11-18 15:27:01 公開日:2021-11-17
# ベンチマーク品質依存型・コスト感性スコアレベル多モードバイオメトリックフュージョンアルゴリズム

Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal Biometric Fusion Algorithms ( http://arxiv.org/abs/2111.08703v1 )

ライセンス: Link先を確認
Norman Poh, Thirimachos Bourlai, Josef Kittler, Lorene Allano, Fernando Alonso-Fernandez, Onkar Ambekar, John Baker, Bernadette Dorizzi, Omolara Fatukasi, Julian Fierrez, Harald Ganster, Javier Ortega-Garcia, Donald Maurer, Albert Ali Salah, Tobias Scheidat, Claus Vielhauer(参考訳) 生体認証による人物の身元自動検証は、空港における銀行サービスへのアクセスやセキュリティ管理といった日々の活動において重要な応用である。 システムの信頼性を高めるために、いくつかの生体測定装置がしばしば用いられる。 このような複合システムはマルチモーダルバイオメトリックシステムとして知られている。 本稿では、サリー大学が主催するバイオセーフds2(access control)評価キャンペーンにおいて、人物認証のための顔、指紋、虹彩生体認証を含む、500人程度の中規模施設における物理的アクセス制御の適用を目標としたベンチマーク研究を行った。 マルチモーダルバイオメトリックスはよく調査された主題であるが、融合アルゴリズムの比較のベンチマークは存在しない。 この目標に向けて、品質依存とコスト依存評価の2つの実験セットを設計しました。 品質依存評価は、主にデバイスの変化による生画像の品質変化において、核融合アルゴリズムがいかにうまく機能するかを評価することを目的としている。 一方、コストに敏感な評価は、制限された計算量とソフトウェアやハードウェアの故障の有無で、フュージョンアルゴリズムがどの程度うまく実行できるかを調査し、結果として、失敗から獲得、失敗へのマッチングといったエラーを引き起こす。 複数のキャプチャデバイスが利用可能であるため、融合アルゴリズムはこの非理想的だが現実的なシナリオを処理できるはずだ。 両評価において、各融合アルゴリズムは、各バイオメトリック比較サブシステムからのスコアと、テンプレートデータとクエリデータの両方の品質測定値を備える。 選挙運動の呼びかけに対する反応は、22の核融合システムが提出され、非常に励まされた。 我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。

Automatically verifying the identity of a person by means of biometrics is an important application in day-to-day activities such as accessing banking services and security control in airports. To increase the system reliability, several biometric devices are often used. Such a combined system is known as a multimodal biometric system. This paper reports a benchmarking study carried out within the framework of the BioSecure DS2 (Access Control) evaluation campaign organized by the University of Surrey, involving face, fingerprint, and iris biometrics for person authentication, targeting the application of physical access control in a medium-size establishment with some 500 persons. While multimodal biometrics is a well-investigated subject, there exists no benchmark for a fusion algorithm comparison. Working towards this goal, we designed two sets of experiments: quality-dependent and cost-sensitive evaluation. The quality-dependent evaluation aims at assessing how well fusion algorithms can perform under changing quality of raw images principally due to change of devices. The cost-sensitive evaluation, on the other hand, investigates how well a fusion algorithm can perform given restricted computation and in the presence of software and hardware failures, resulting in errors such as failure-to-acquire and failure-to-match. Since multiple capturing devices are available, a fusion algorithm should be able to handle this nonideal but nevertheless realistic scenario. In both evaluations, each fusion algorithm is provided with scores from each biometric comparison subsystem as well as the quality measures of both template and query data. The response to the call of the campaign proved very encouraging, with the submission of 22 fusion systems. To the best of our knowledge, this is the first attempt to benchmark quality-based multimodal fusion algorithms.
翻訳日:2021-11-18 15:26:40 公開日:2021-11-17
# バイオメトリックシステムの品質対策

Quality Measures in Biometric Systems ( http://arxiv.org/abs/2111.08704v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez, Javier Ortega-Garcia(参考訳) バイオメトリック技術はこの10年でますます普及し、従来の個人認識方法よりもセキュリティと利便性を高めている。 生体信号の品質は生体計測システムの性能に大きく影響するが、品質評価に関する以前の研究は限られている。 品質はセキュリティにおいて重要な問題であり、特に監視カメラ、鑑識、携帯機器、インターネット経由でのリモートアクセスを含む有害なシナリオにおいて問題となる。 本稿では, バイオメトリックスの品質に悪影響を及ぼす要因, 克服方法, バイオメトリックスシステムに品質対策を組み込む方法について分析する。 これらの問題における技術の現状のレビューは、バイオメトリック品質の課題に対する全体的な枠組みを提供する。

Biometric technology has been increasingly deployed in the past decade, offering greater security and convenience than traditional methods of personal recognition. Although biometric signals' quality heavily affects a biometric system's performance, prior research on evaluating quality is limited. Quality is a critical issue in security, especially in adverse scenarios involving surveillance cameras, forensics, portable devices, or remote access through the Internet. This article analyzes what factors negatively impact biometric quality, how to overcome them, and how to incorporate quality measures into biometric systems. A review of the state of the art in these matters gives an overall framework for the challenges of biometric quality.
翻訳日:2021-11-18 15:26:11 公開日:2021-11-17
# 制限のない3次元逆点雲の生成

Generating Unrestricted 3D Adversarial Point Clouds ( http://arxiv.org/abs/2111.08973v1 )

ライセンス: Link先を確認
Xuelong Dai, Yanjie Li, Hua Dai, Bin Xiao(参考訳) 3dポイントクラウドデータを活用することで、顔認識や自動運転など、多くの分野における人工知能の展開が緊急に求められている。 しかし、3dポイントクラウドのディープラーニングは、反復攻撃、ポイント変換攻撃、生成攻撃など、相反する攻撃に対して脆弱である。 これらの攻撃は、厳密な境界内での敵の例の摂動を制限する必要があり、非現実的な3D点雲に繋がる。 本稿では,視覚的に現実的な3D点雲をスクラッチから生成するAdvGCGAN(Adversarial Graph-Convolutional Generative Adversarial Network)を提案する。 具体的には,グラフ畳み込み生成器と補助分類器を備えた判別器を用いて,実3次元データから潜在分布を学習する実数点雲を生成する。 GANの特殊対向訓練には制限のない対向攻撃損失が組み込まれており、生成器は敵のサンプルを生成してターゲットネットワークをスポークすることができる。 既存の最先端攻撃法と比較して,本実験は,攻撃成功率が高く視覚品質の高い非制限攻撃法の有効性を示す。 さらに,提案するadvgcganは,強力なカモフラージュを有する既存の攻撃手法よりも,防御モデルに対する優れた性能と移動性を達成することができる。

Utilizing 3D point cloud data has become an urgent need for the deployment of artificial intelligence in many areas like facial recognition and self-driving. However, deep learning for 3D point clouds is still vulnerable to adversarial attacks, e.g., iterative attacks, point transformation attacks, and generative attacks. These attacks need to restrict perturbations of adversarial examples within a strict bound, leading to the unrealistic adversarial 3D point clouds. In this paper, we propose an Adversarial Graph-Convolutional Generative Adversarial Network (AdvGCGAN) to generate visually realistic adversarial 3D point clouds from scratch. Specifically, we use a graph convolutional generator and a discriminator with an auxiliary classifier to generate realistic point clouds, which learn the latent distribution from the real 3D data. The unrestricted adversarial attack loss is incorporated in the special adversarial training of GAN, which enables the generator to generate the adversarial examples to spoof the target network. Compared with the existing state-of-art attack methods, the experiment results demonstrate the effectiveness of our unrestricted adversarial attack methods with a higher attack success rate and visual quality. Additionally, the proposed AdvGCGAN can achieve better performance against defense models and better transferability than existing attack methods with strong camouflage.
翻訳日:2021-11-18 15:24:04 公開日:2021-11-17
# T-Tetromino Pixelを用いた画像超解像

Image Super-Resolution Using T-Tetromino Pixels ( http://arxiv.org/abs/2111.09013v1 )

ライセンス: Link先を確認
Simon Grosche, Andy Regensky, J\"urgen Seiler, Andr\'e Kaup(参考訳) 現代の高解像度撮像センサでは、低照度条件下でピクセルバイナリ化が行われ、高いフレームレートが必要となる。 元の空間分解能を回復するために、アップスケーリングに単一画像超分解能技術を適用することができる。 高度化後の高画質を実現するために,tetromino型画素を用いた新しいバイナリ化概念を提案する。 そこで本研究では,tetrominoピクセルを用いた復元品質を文献上で初めて検討する。 センサレイアウトの文献で提案されている異なるタイプのテトロミノを用いる代わりに、t-テトロミノのみからなる小さな繰り返し細胞を使用することで十分であることを示す。 再構成には, 局所完全接続型再構成(LFCR)ネットワークと, 圧縮センシングの分野での2つの古典的再構成手法を用いる。 提案するテトロミノレイアウトとLFCRネットワークを用いて,PSNR,SSIM,視覚的にも優れた画像品質を実現し,超深層超解像(VDSR)ネットワークを用いた従来の単一画像超解像と比較した。 PSNRでは、最大+1.92dBのゲインが達成される。

For modern high-resolution imaging sensors, pixel binning is performed in low-lighting conditions and in case high frame rates are required. To recover the original spatial resolution, single-image super-resolution techniques can be applied for upscaling. To achieve a higher image quality after upscaling, we propose a novel binning concept using tetromino-shaped pixels. In doing so, we investigate the reconstruction quality using tetromino pixels for the first time in literature. Instead of using different types of tetrominoes as proposed in the literature for a sensor layout, we show that using a small repeating cell consisting of only four T-tetrominoes is sufficient. For reconstruction, we use a locally fully connected reconstruction (LFCR) network as well as two classical reconstruction methods from the field of compressed sensing. Using the LFCR network in combination with the proposed tetromino layout, we achieve superior image quality in terms of PSNR, SSIM, and visually compared to conventional single-image super-resolution using the very deep super-resolution (VDSR) network. For the PSNR, a gain of up to +1.92 dB is achieved.
翻訳日:2021-11-18 15:23:42 公開日:2021-11-17
# 単一フレーム構造照明顕微鏡超解像のための高速軽量ネットワーク

Fast and Light-Weight Network for Single Frame Structured Illumination Microscopy Super-Resolution ( http://arxiv.org/abs/2111.09103v1 )

ライセンス: Link先を確認
Xi Cheng, Jun Li, Qiang Dai, Zhenyong Fu, Jian Yang(参考訳) 構造照明顕微鏡 (structuredluminumination microscope, sim) は、回折限界を破って光学顕微鏡システムを強化する重要な超分解能顕微鏡技術である。 生物学・医学工学の発展に伴い、極低照度・短露光環境下でのリアルタイム・堅牢なSIMイメージングの需要が高まっている。 既存のsim技術は通常、高解像度画像を生成するために複数の構造化照明フレームを必要とする。 本稿では,深層学習に基づく単一フレーム構造照明顕微鏡(SF-SIM)を提案する。 私たちのSF-SIMは、構造された照明フレームの1ショットしか必要とせず、通常15ショットを必要とする従来のSIMシステムと同じような結果を生成する。 sf-simでは、画像中のノイズを効果的に抑制し、非局所的なノイズ処理のために複数のフレームを積み重ねる必要なしに、低光・短露光環境下での動作を可能にするノイズ推定器を提案する。 また,バンドパスアテンションモジュールも設計し,周波数変化に対するネットワークの感度を高め,画像品質を向上させる。 提案するSF-SIMは, 従来のSIM法よりも14倍高速である。 したがって,本手法は微生物学・医学の発展に極めて有用である。

Structured illumination microscopy (SIM) is an important super-resolution based microscopy technique that breaks the diffraction limit and enhances optical microscopy systems. With the development of biology and medical engineering, there is a high demand for real-time and robust SIM imaging under extreme low light and short exposure environments. Existing SIM techniques typically require multiple structured illumination frames to produce a high-resolution image. In this paper, we propose a single-frame structured illumination microscopy (SF-SIM) based on deep learning. Our SF-SIM only needs one shot of a structured illumination frame and generates similar results compared with the traditional SIM systems that typically require 15 shots. In our SF-SIM, we propose a noise estimator which can effectively suppress the noise in the image and enable our method to work under the low light and short exposure environment, without the need for stacking multiple frames for non-local denoising. We also design a bandpass attention module that makes our deep network more sensitive to the change of frequency and enhances the imaging quality. Our proposed SF-SIM is almost 14 times faster than traditional SIM methods when achieving similar results. Therefore, our method is significantly valuable for the development of microbiology and medicine.
翻訳日:2021-11-18 15:23:23 公開日:2021-11-17
# 先行分布の競合によるエンドツーエンド最適化画像圧縮

End-to-end optimized image compression with competition of prior distributions ( http://arxiv.org/abs/2111.09172v1 )

ライセンス: Link先を確認
Benoit Brummer and Christophe De Vleeschouwer(参考訳) 畳み込みオートエンコーダは現在、画像圧縮研究の最前線にある。 エントロピー符号化を改善するため、エントロピー出力は通常、第2オートエンコーダで解析され、変数ごとのパラメータ付き事前確率分布を生成する。 代わりに、1つの畳み込みオートエンコーダと複数の学習前の分布を専門家の競争として使用する圧縮スキームを提案する。 トレーニング済みの事前分布は累積分布関数の静的テーブルに格納される。 推論中、このテーブルはエントロピーコーダによってルックアップテーブルとして使われ、各空間位置の最適な事前を決定する。 提案手法は, エントロピー符号化と復号化の複雑さをわずかに抑えながら, パラメトリケート前の予測値に匹敵する速度歪み性能を提供する。

Convolutional autoencoders are now at the forefront of image compression research. To improve their entropy coding, encoder output is typically analyzed with a second autoencoder to generate per-variable parametrized prior probability distributions. We instead propose a compression scheme that uses a single convolutional autoencoder and multiple learned prior distributions working as a competition of experts. Trained prior distributions are stored in a static table of cumulative distribution functions. During inference, this table is used by an entropy coder as a look-up-table to determine the best prior for each spatial location. Our method offers rate-distortion performance comparable to that obtained with a predicted parametrized prior with only a fraction of its entropy coding and decoding complexity.
翻訳日:2021-11-18 15:22:20 公開日:2021-11-17
# Occlusion-Aware Multilayer Regression によるTiny Obstacle Discovery

Tiny Obstacle Discovery by Occlusion-Aware Multilayer Regression ( http://arxiv.org/abs/2111.09204v1 )

ライセンス: Link先を確認
Feng Xue and Anlong Ming and Yu Zhou(参考訳) エッジは単眼カメラで小さな障害物を発見するための基本的な視覚要素である。 それでも、小さな障害物は、小さな大きさや自由空間に類似した外観などの様々な性質のために、弱く不整合なエッジキューを持つことが多く、捕獲が困難である。 ...

Edges are the fundamental visual element for discovering tiny obstacles using a monocular camera. Nevertheless, tiny obstacles often have weak and inconsistent edge cues due to various properties such as small size and similar appearance to the free space, making it hard to capture them. ...
翻訳日:2021-11-18 15:22:04 公開日:2021-11-17
# gnn-dse:グラフニューラルネットワークによるアクセラレーションの自動最適化

GNN-DSE: Automated Accelerator Optimization Aided by Graph Neural Networks ( http://arxiv.org/abs/2111.08848v1 )

ライセンス: Link先を確認
Atefeh Sohrabizadeh, Yunsheng Bai, Yizhou Sun, and Jason Cong(参考訳) 高レベル合成(HLS)により、コンピュータアーキテクトは、非常に低レベルな言語で設計を開発できなくなり、レジスタレベルのデータの転送方法を正確に指定する必要がなくなった。 HLSの助けを借りて、ハードウェアデザイナは設計の高レベルの振る舞いフローのみを記述する必要がある。 それにもかかわらず、主に高いレベルで多くの設計選択があり、探索により多くの時間を要するため、ハイパフォーマンスなアーキテクチャを開発するのにまだ数週間かかる可能性がある。 また、設計候補の品質に関するHLSツールからのフィードバックを得るためには、数分から数時間かかる。 本稿では,HLSツールを広範囲のアプリケーションに使用するためにトレーニングされたグラフニューラルネットワーク(GNN)を用いてモデル化することで,この問題を解決することを提案する。 実験結果から,GNNモデルを用いることで,設計の質をミリ秒単位で高精度に推定し,解空間を高速に探索できることが示唆された。

High-level synthesis (HLS) has freed the computer architects from developing their designs in a very low-level language and needing to exactly specify how the data should be transferred in register-level. With the help of HLS, the hardware designers must describe only a high-level behavioral flow of the design. Despite this, it still can take weeks to develop a high-performance architecture mainly because there are many design choices at a higher level that requires more time to explore. It also takes several minutes to hours to get feedback from the HLS tool on the quality of each design candidate. In this paper, we propose to solve this problem by modeling the HLS tool with a graph neural network (GNN) that is trained to be used for a wide range of applications. The experimental results demonstrate that by employing the GNN-based model, we are able to estimate the quality of design in milliseconds with high accuracy which can help us search through the solution space very quickly.
翻訳日:2021-11-18 15:20:58 公開日:2021-11-17
# 自動プロトコル分析のための教師なし学習手法の探索

Exploring Unsupervised Learning Methods for Automated Protocol Analysis ( http://arxiv.org/abs/2111.09061v1 )

ライセンス: Link先を確認
Arijit Dasgupta, Yi-Xue Yan, Clarence Ong, Jenn-Yue Teo, Chia-Wei Lim(参考訳) ネットワークプロトコルトラフィックを分析し、区別する能力は、通信会社によって差別化されたサービスを提供するために、ネットワークリソース管理にとって不可欠である。 自動プロトコル分析(APA)は、効率を大幅に改善し、人間の専門家への依存を減らすために重要である。 APAには未知のプロトコルをクラスタリングするための非教師なしの自動化方法が数多くある。 しかし、このような手法の多くは多様なテストデータセットを用いて十分に検討されていない。 したがって、その強固さを一般化できない。 本研究では,APAにおける特徴抽出とクラスタリングの様々な組み合わせを総合的に評価する枠組みを提案する。 また、特徴抽出のためのデータセット依存モデルパラメータの選択を自動化する新しい手法を提案し、性能を改善した。 新しいフィールドベースのトークン化アプローチの有望な成果は、apaにおける未知プロトコルの機能抽出とクラスタリングのための新しい自動ハイブリッドアプローチの提案にもつながった。 提案手法は, 多様なテストデータセットのうち7つ中7つで最良であり, 未知プロトコルを一般化するための堅牢性を示す。 また、すべてのテストデータセットにおいて、最先端のオープンソースAPAツールであるNETZOBにおいて、教師なしクラスタリング技術よりも優れています。

The ability to analyse and differentiate network protocol traffic is crucial for network resource management to provide differentiated services by Telcos. Automated Protocol Analysis (APA) is crucial to significantly improve efficiency and reduce reliance on human experts. There are numerous automated state-of-the-art unsupervised methods for clustering unknown protocols in APA. However, many such methods have not been sufficiently explored using diverse test datasets. Thus failing to demonstrate their robustness to generalise. This study proposed a comprehensive framework to evaluate various combinations of feature extraction and clustering methods in APA. It also proposed a novel approach to automate selection of dataset dependent model parameters for feature extraction, resulting in improved performance. Promising results of a novel field-based tokenisation approach also led to our proposal of a novel automated hybrid approach for feature extraction and clustering of unknown protocols in APA. Our proposed hybrid approach performed the best in 7 out of 9 of the diverse test datasets, thus displaying the robustness to generalise across diverse unknown protocols. It also outperformed the unsupervised clustering technique in state-of-the-art open-source APA tool, NETZOB in all test datasets.
翻訳日:2021-11-18 15:20:41 公開日:2021-11-17
# ラッパー特徴選択のためのサロゲート支援遺伝的アルゴリズム

Surrogate-Assisted Genetic Algorithm for Wrapper Feature Selection ( http://arxiv.org/abs/2111.09074v1 )

ライセンス: Link先を確認
Mohammed Ghaith Altarabichi, S{\l}awomir Nowaczyk, Sepideh Pashami and Peyman Sheikholharam Mashhad(参考訳) 特徴の選択は難解な問題であるため、実用的なアルゴリズムはしばしば解の精度を計算時間と切り離す。 本稿では,複数レベルの近似やサロゲートを利用する新しい多段階特徴選択フレームワークを提案する。 このようなフレームワークにより、より計算的に効率的にラッパーアプローチを使用でき、特に大規模なデータセットにおいて実現可能な特徴選択ソリューションの品質を大幅に向上させることができる。 本研究では,この概念を用いて探索初期における進化探索を導くサロゲート支援遺伝的アルゴリズム(SAGA)の設計と評価を行う。 SAGAは、最終エクスプロイトフェーズにおける元の関数の評価にのみ切り替える。 我々は,sagaサロゲート支援ステージのランタイム上限がラッパーgaと同等ではないことを証明し,インスタンス数で複雑度の高い誘導アルゴリズムをスケールする。 UCI MLレポジトリの14のデータセットを用いて,SAGAはベースラインラッパー遺伝的アルゴリズム(GA)と比較して計算時間を著しく短縮する一方で,精度の高い解に収束することを示した。 実験の結果, SAGAはラッパーGAの3倍の速度で, ほぼ最適解に到達できることがわかった。 また,サーロゲートが偽視への進化的探索を誤解することを防ぐために設計された進化制御アプローチの重要性も示す。

Feature selection is an intractable problem, therefore practical algorithms often trade off the solution accuracy against the computation time. In this paper, we propose a novel multi-stage feature selection framework utilizing multiple levels of approximations, or surrogates. Such a framework allows for using wrapper approaches in a much more computationally efficient way, significantly increasing the quality of feature selection solutions achievable, especially on large datasets. We design and evaluate a Surrogate-Assisted Genetic Algorithm (SAGA) which utilizes this concept to guide the evolutionary search during the early phase of exploration. SAGA only switches to evaluating the original function at the final exploitation phase. We prove that the run-time upper bound of SAGA surrogate-assisted stage is at worse equal to the wrapper GA, and it scales better for induction algorithms of high order of complexity in number of instances. We demonstrate, using 14 datasets from the UCI ML repository, that in practice SAGA significantly reduces the computation time compared to a baseline wrapper Genetic Algorithm (GA), while converging to solutions of significantly higher accuracy. Our experiments show that SAGA can arrive at near-optimal solutions three times faster than a wrapper GA, on average. We also showcase the importance of evolution control approach designed to prevent surrogates from misleading the evolutionary search towards false optima.
翻訳日:2021-11-18 15:20:23 公開日:2021-11-17
# (参考訳) Pairwise permutationアルゴリズムによる解釈モデル

Interpretable Models via Pairwise permutations algorithm ( http://arxiv.org/abs/2111.09145v1 )

ライセンス: CC BY-SA 4.0
Troy Maaslandand and Jo\~ao Pereira and Diogo Bastos and Marcus de Goffau and Max Nieuwdorp and Aeilko H. Zwinderman and Evgeni Levin(参考訳) 高次元の生物学的データセットに見られる最も一般的な落とし穴の1つは特徴間の相関である。 これにより、統計的および機械学習の方法論がこれらの相関予測因子を過大評価または過小評価し、真に関連する予測は無視される可能性がある。 本稿では,特徴重要度における相関バイアスの軽減を目的とした新しい手法である \textit{pairwise permutation algorithm} (ppa) を定義する。 まず、置換の重要性に関する以前の研究に基づく理論的基礎を提供する。 PPAはおもちゃのデータセットに適用され、相関効果を補正する能力を示す。 さらにマイクロバイオームショットガンデータセットを用いてPPAを試験し、PPAがすでに生物学的なバイオマーカーを取得可能であることを示す。

One of the most common pitfalls often found in high dimensional biological data sets are correlations between the features. This may lead to statistical and machine learning methodologies overvaluing or undervaluing these correlated predictors, while the truly relevant ones are ignored. In this paper, we will define a new method called \textit{pairwise permutation algorithm} (PPA) with the aim of mitigating the correlation bias in feature importance values. Firstly, we provide a theoretical foundation, which builds upon previous work on permutation importance. PPA is then applied to a toy data set, where we demonstrate its ability to correct the correlation effect. We further test PPA on a microbiome shotgun dataset, to show that the PPA is already able to obtain biological relevant biomarkers.
翻訳日:2021-11-18 15:19:14 公開日:2021-11-17
# 意図的キーポイントマッチングネットワークに基づく確率的空間分布

Probabilistic Spatial Distribution Prior Based Attentional Keypoints Matching Network ( http://arxiv.org/abs/2111.09006v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Jingmeng Liu, Xingming Wu, Weihai Chen, Fanghong Guo, and Zhengguo Li(参考訳) キーポイントマッチングは、画像縫合、視覚的同時ローカライゼーションとマッピング(SLAM)など、多くの画像関連アプリケーションにとって重要なコンポーネントである。 手作りと最近登場したディープラーニングベースのキーポイントマッチング手法はいずれも、キーポイントと局所的な特徴にのみ依存しているが、上記のアプリケーションでは慣性測定ユニット(IMU)のような他の利用可能なセンサーを見失っている。 本稿では、IMU統合による動き推定を用いて、画像間のキーポイントの前の空間分布を推定できることを実証する。 この目的のために,注意グラフニューラルネットワークに先行する空間分布を自然に統合するために,注意定式化の確率論的視点を提案する。 事前の空間分布の支援により,隠れた特徴をモデル化するためのネットワークの労力を削減できる。 さらに,提案したキーポイントマッチングネットワークに対して,マッチングと未マッチングのキーポイント間のスムーズなエッジを与えるプロジェクションロスを提案する。 視覚的スラムデータセットにおける画像マッチング実験は,提案手法の有効性と効率を示す。

Keypoints matching is a pivotal component for many image-relevant applications such as image stitching, visual simultaneous localization and mapping (SLAM), and so on. Both handcrafted-based and recently emerged deep learning-based keypoints matching methods merely rely on keypoints and local features, while losing sight of other available sensors such as inertial measurement unit (IMU) in the above applications. In this paper, we demonstrate that the motion estimation from IMU integration can be used to exploit the spatial distribution prior of keypoints between images. To this end, a probabilistic perspective of attention formulation is proposed to integrate the spatial distribution prior into the attentional graph neural network naturally. With the assistance of spatial distribution prior, the effort of the network for modeling the hidden features can be reduced. Furthermore, we present a projection loss for the proposed keypoints matching network, which gives a smooth edge between matching and un-matching keypoints. Image matching experiments on visual SLAM datasets indicate the effectiveness and efficiency of the presented method.
翻訳日:2021-11-18 15:08:18 公開日:2021-11-17
# 統計的手法に基づく識別辞書学習

Discriminative Dictionary Learning based on Statistical Methods ( http://arxiv.org/abs/2111.09027v1 )

ライセンス: Link先を確認
G.Madhuri, Atul Negi(参考訳) 信号やデータのスパース表現(SR)は厳密な数学的誤り境界と証明を持つ十分に確立された理論を持つ。 信号のSRは、Dictionaryと呼ばれる行列のごくわずかな列の重ね合わせによって与えられる。 損失の少ない各信号のクラスを表すような辞書を辞書学習(Dictionary Learning,DL)と呼ぶ。 Method of Optimal Directions (MOD) や K-SVD といった辞書学習手法は、画像の「デノイング」や「インペインティング」といった画像処理における再構成ベースの応用に成功している。 識別的K-SVDやラベル一貫性K-SVDといった他の辞書学習アルゴリズムは、K-SVDに基づく教師付き学習手法である。 我々の経験では、現在の手法の欠点の1つは、分類性能がTelugu OCRデータセットのようなデータセットでは印象的でないことである。 この方向の改善にはスコープがあり、多くの研究者は分類のための辞書を設計するために統計的手法を用いてきた。 本章では,統計的手法と識別辞書の学習への応用について概説する。 本研究の目的は,スパース表現を用いた分類の改善である。 この章では、入力データのスパース係数を生成するハイブリッドアプローチについて説明する。 これらのスパースコードを入力として,バックプロパゲーショントレーニングを分類器として,単純な3層マルチレイヤパーセプトロンを使用する。 結果は、他の計算集約的な手法と非常に同等である。 キーワード:統計的モデリング、辞書学習、判別辞書、スパース表現、ガウス前文、コーシー前文、エントロピー、隠れマルコフモデル、ハイブリッド辞書学習

Sparse Representation (SR) of signals or data has a well founded theory with rigorous mathematical error bounds and proofs. SR of a signal is given by superposition of very few columns of a matrix called Dictionary, implicitly reducing dimensionality. Training dictionaries such that they represent each class of signals with minimal loss is called Dictionary Learning (DL). Dictionary learning methods like Method of Optimal Directions (MOD) and K-SVD have been successfully used in reconstruction based applications in image processing like image "denoising", "inpainting" and others. Other dictionary learning algorithms such as Discriminative K-SVD and Label Consistent K-SVD are supervised learning methods based on K-SVD. In our experience, one of the drawbacks of current methods is that the classification performance is not impressive on datasets like Telugu OCR datasets, with large number of classes and high dimensionality. There is scope for improvement in this direction and many researchers have used statistical methods to design dictionaries for classification. This chapter presents a review of statistical techniques and their application to learning discriminative dictionaries. The objective of the methods described here is to improve classification using sparse representation. In this chapter a hybrid approach is described, where sparse coefficients of input data are generated. We use a simple three layer Multi Layer Perceptron with back-propagation training as a classifier with those sparse codes as input. The results are quite comparable with other computation intensive methods. Keywords: Statistical modeling, Dictionary Learning, Discriminative Dictionary, Sparse representation, Gaussian prior, Cauchy prior, Entropy, Hidden Markov model, Hybrid Dictionary Learning
翻訳日:2021-11-18 15:08:01 公開日:2021-11-17
# 畳み込みニューラルネットワークを用いた圧縮アルゴリズムの検出

Using Convolutional Neural Networks to Detect Compression Algorithms ( http://arxiv.org/abs/2111.09034v1 )

ライセンス: Link先を確認
Shubham Bharadwaj(参考訳) 機械学習は、さまざまなドメインを仮想的に浸透させ、優れた結果を生み出す。 また、デジタル法医学のアウトレットも発見されており、計算効率の原動力となっている。 MLアルゴリズムの有効性を示す顕著な特徴は、デジタル法医学への応用において有用な特徴抽出である。 畳み込みニューラルネットワークはファイルの一部を特定するためにさらに使用される。 この目的のために,ファイルフラグメント圧縮に使用されるアルゴリズムの同定に関する十分な情報が文献に含まれないことを観察した。 本研究では,圧縮アルゴリズムがデータをよりコンパクトにするため,高いエントロピーを生成するのに有用であるとして,このギャップに対処する。 ベースデータセットを使用して、さまざまなアルゴリズムですべてのファイルを圧縮し、それに基づいてモデルを設計しました。 使用するモデルは、圧縮されたファイルを圧縮、lzip、bzip2を使って正確に識別することができた。

Machine learning is penetrating various domains virtually, thereby proliferating excellent results. It has also found an outlet in digital forensics, wherein it is becoming the prime driver of computational efficiency. A prominent feature that exhibits the effectiveness of ML algorithms is feature extraction that can be instrumental in the applications for digital forensics. Convolutional Neural Networks are further used to identify parts of the file. To this end, we observed that the literature does not include sufficient information about the identification of the algorithms used to compress file fragments. With this research, we attempt to address this gap as compression algorithms are beneficial in generating higher entropy comparatively as they make the data more compact. We used a base dataset, compressed every file with various algorithms, and designed a model based on that. The used model was accurately able to identify files compressed using compress, lzip and bzip2.
翻訳日:2021-11-18 15:07:35 公開日:2021-11-17
# STEEX: セマンティックスによる非現実的説明

STEEX: Steering Counterfactual Explanations with Semantics ( http://arxiv.org/abs/2111.09094v1 )

ライセンス: Link先を確認
Paul Jacob, \'Eloi Zablocki, H\'edi Ben-Younes, Micka\"el Chen, Patrick P\'erez, Matthieu Cord(参考訳) 深層学習モデルが安全クリティカルなアプリケーションでますます使われるようになるにつれ、説明可能性や信頼性が大きな関心事となっている。 低解像度の顔画像のような単純な画像に対しては、最近、訓練された分類モデルの決定機構を明らかにする手段として、視覚的対実的説明の合成が提案されている。 本研究では,高品質な画像や複雑なシーンの反実的説明を生成する問題に対処する。 近年のセマンティック・ツー・イメージモデルを利用して,シーン全体の構造を保存できる,妥当でスパースな修正を生成する新しい生成的反事実説明フレームワークを提案する。 さらに,「地域目標の対実的説明」の概念とそれに対応するフレームワークを導入し,ユーザが説明すべきクエリ画像のセマンティック領域のセットを指定することで,対実的説明の生成を誘導する手法を提案する。 高品質なポートレート(celebamask-hq)や運転シーン(bdd100k)といった、挑戦的なデータセットに関する広範な実験が行われている。

As deep learning models are increasingly used in safety-critical applications, explainability and trustworthiness become major concerns. For simple images, such as low-resolution face portraits, synthesizing visual counterfactual explanations has recently been proposed as a way to uncover the decision mechanisms of a trained classification model. In this work, we address the problem of producing counterfactual explanations for high-quality images and complex scenes. Leveraging recent semantic-to-image models, we propose a new generative counterfactual explanation framework that produces plausible and sparse modifications which preserve the overall scene structure. Furthermore, we introduce the concept of "region-targeted counterfactual explanations", and a corresponding framework, where users can guide the generation of counterfactuals by specifying a set of semantic regions of the query image the explanation must be about. Extensive experiments are conducted on challenging datasets including high-quality portraits (CelebAMask-HQ) and driving scenes (BDD100k).
翻訳日:2021-11-18 15:07:22 公開日:2021-11-17
# 交通交差点におけるコンピュータビジョンに基づく車両移動分類の自動アプローチ

Automated Approach for Computer Vision-based Vehicle Movement Classification at Traffic Intersections ( http://arxiv.org/abs/2111.09171v1 )

ライセンス: Link先を確認
Udita Jana, Jyoti Prakash Das Karmakar, Pranamesh Chakraborty, Tingting Huang, Dave Ness, Duane Ritcher, Anuj Sharma(参考訳) 様々な交通管理活動において,交通交差点における移動種別とカウントは重要な要素である。 この文脈では、近年のコンピュータビジョン技術の発展に伴い、交通シーンから車線を抽出する信頼性の高いデータソースとしてカメラが登場している。 しかし、このような動き軌跡の特性はカメラのキャリブレーションによって異なるため、移動型で分類することは極めて困難である。 既存の手法では、適度な精度でこれらの分類タスクに対処しているが、これらの手法の性能は、関心のあるいくつかの領域の手動仕様に大きく依存している。 本研究では,視覚に基づく車両軌跡の移動特定分類(右旋回,左旋回,移動など)の自動化手法を提案する。 階層的クラスタリング手法を用いて交通現場で観測される異なる移動パターンを識別し, 類似性に基づく割当て戦略を採用し, 車両軌跡を識別した移動群に割り当てる。 新しい類似度尺度は、視覚に基づく軌道の固有の欠点を克服するために設計された。 実験の結果,提案手法の有効性と,手動の介入なしに異なる交通シナリオに適応する能力が示された。

Movement specific vehicle classification and counting at traffic intersections is a crucial component for various traffic management activities. In this context, with recent advancements in computer-vision based techniques, cameras have emerged as a reliable data source for extracting vehicular trajectories from traffic scenes. However, classifying these trajectories by movement type is quite challenging as characteristics of motion trajectories obtained this way vary depending on camera calibrations. Although some existing methods have addressed such classification tasks with decent accuracies, the performance of these methods significantly relied on manual specification of several regions of interest. In this study, we proposed an automated classification method for movement specific classification (such as right-turn, left-turn and through movements) of vision-based vehicle trajectories. Our classification framework identifies different movement patterns observed in a traffic scene using an unsupervised hierarchical clustering technique Thereafter a similarity-based assignment strategy is adopted to assign incoming vehicle trajectories to identified movement groups. A new similarity measure was designed to overcome the inherent shortcomings of vision-based trajectories. Experimental results demonstrated the effectiveness of the proposed classification approach and its ability to adapt to different traffic scenarios without any manual intervention.
翻訳日:2021-11-18 15:07:04 公開日:2021-11-17
# SeCGAN:Semantic Consistencyによる顔編集のための並列条件生成対向ネットワーク

SeCGAN: Parallel Conditional Generative Adversarial Networks for Face Editing via Semantic Consistency ( http://arxiv.org/abs/2111.09298v1 )

ライセンス: Link先を確認
Jiaze Sun, Binod Bhattarai, Zhixiang Chen, Tae-Kyun Kim(参考訳) 近年, 顔編集において, セマンティックガイドによる条件付き生成支援ネットワーク (cGANs) が普及している。 しかし、既存のほとんどの方法は、ジェネレータへの直接条件入力としてセマンティックマスクを導入し、RGB空間で対応する翻訳を行うためにターゲットマスクを必要とすることが多い。 本稿では,ターゲットのセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行う新しいラベル誘導cGANであるSeCGANを提案する。 トレーニング中、SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージの翻訳を、もう1つはセマンティックマスクのために訓練されている。 2つの枝を相互に有益に橋渡しするために,両枝が一貫した意味的出力を持つように制約する意味的一貫性損失を導入する。 トレーニングにはどちらのブランチも必要だが、RGBブランチは私たちのプライマリネットワークであり、推論にはセマンティックブランチは必要ない。 我々のCelebAとCelebA-HQの研究では、自己指導型Fr\'{e}chet Inception DistanceやInception Scoreなどの品質指標を維持しながら、より正確な属性を持つ顔画像を生成することができ、ターゲット属性認識率において競争ベースラインを上回ることが実証された。

Semantically guided conditional Generative Adversarial Networks (cGANs) have become a popular approach for face editing in recent years. However, most existing methods introduce semantic masks as direct conditional inputs to the generator and often require the target masks to perform the corresponding translation in the RGB space. We propose SeCGAN, a novel label-guided cGAN for editing face images utilising semantic information without the need to specify target semantic masks. During training, SeCGAN has two branches of generators and discriminators operating in parallel, with one trained to translate RGB images and the other for semantic masks. To bridge the two branches in a mutually beneficial manner, we introduce a semantic consistency loss which constrains both branches to have consistent semantic outputs. Whilst both branches are required during training, the RGB branch is our primary network and the semantic branch is not needed for inference. Our results on CelebA and CelebA-HQ demonstrate that our approach is able to generate facial images with more accurate attributes, outperforming competitive baselines in terms of Target Attribute Recognition Rate whilst maintaining quality metrics such as self-supervised Fr\'{e}chet Inception Distance and Inception Score.
翻訳日:2021-11-18 15:06:44 公開日:2021-11-17
# 性別・年齢推定のための顔情報分析技術

Facial Information Analysis Technology for Gender and Age Estimation ( http://arxiv.org/abs/2111.09303v1 )

ライセンス: Link先を確認
Gilheum Park, Sua Jung(参考訳) 本稿では、性別と年齢を推定するための顔情報分析技術について検討し、顔画像のポーズを推定するためのカメラ座標系と世界座標系との変換関係行列を用いてポーズを推定する。 性別分類は年齢推定に比べて比較的単純であり,深層学習に基づく顔認識技術により年齢推定が可能となった。 購入したデータベースと公開データベースを用いて実験結果を計算するために,比較CNNを提案し,ディープラーニングに基づく性別分類と年齢推定を有意なレベルで行い,既存の機械学習技術と比較して環境変化に対して堅牢であった。

This is a study on facial information analysis technology for estimating gender and age, and poses are estimated using a transformation relationship matrix between the camera coordinate system and the world coordinate system for estimating the pose of a face image. Gender classification was relatively simple compared to age estimation, and age estimation was made possible using deep learning-based facial recognition technology. A comparative CNN was proposed to calculate the experimental results using the purchased database and the public database, and deep learning-based gender classification and age estimation performed at a significant level and was more robust to environmental changes compared to the existing machine learning techniques.
翻訳日:2021-11-18 15:05:15 公開日:2021-11-17
# サンプリングによる保証付き自動スコアシステムの性能評価と改善

Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees ( http://arxiv.org/abs/2111.08906v1 )

ライセンス: Link先を確認
Yaman Kumar Singla, Sriram Krishna, Rajiv Ratn Shah, Changyou Chen(参考訳) 教育試験環境でエッセイやスピーチを採点する自然言語処理タスクであるAutomated Scoring(AS)が人気を博し、政府の試験から言語能力サービスを提供している企業まで、さまざまな状況に展開されている。 しかし、既存のシステムは人間のレーダを完全に禁止し、テストの信頼性を損なうか、人間と機械の両方の反応を全て得点することでコストを増大させる。 我々は、ASへのアクセスを民主化するためにコストを合理的に保ちつつ、高い品質のテストを提供するために、人間と機械の両方を利用して、可能なソリューションのスペクトルを目標としています。 そこで本研究では,従来のパラダイムと組み合わせて,人間がインテリジェントに収集する応答をサンプリングする手法を提案する。 提案手法では, 平均で19.80%の精度向上と2次重み付きkappa (qwk) (平均で25.60%) と, 比較的少ない人的予算 (30%のサンプル) が得られた。 標準ランダムサンプリングベースラインと重要サンプリングベースラインで観察される精度は、それぞれ8.6%と12.2%である。 さらに,AS設定で現在展開されている各種モデルと擬似モデルの性能を計測することにより,システムのモデル非依存性を実証する。 最後に,統計的保証によって精度/qwkを推定するアルゴリズムを提案する(我々のコードはhttps://git.io/j1ioyで利用可能)。

Automated Scoring (AS), the natural language processing task of scoring essays and speeches in an educational testing setting, is growing in popularity and being deployed across contexts from government examinations to companies providing language proficiency services. However, existing systems either forgo human raters entirely, thus harming the reliability of the test, or score every response by both human and machine thereby increasing costs. We target the spectrum of possible solutions in between, making use of both humans and machines to provide a higher quality test while keeping costs reasonable to democratize access to AS. In this work, we propose a combination of the existing paradigms, sampling responses to be scored by humans intelligently. We propose reward sampling and observe significant gains in accuracy (19.80% increase on average) and quadratic weighted kappa (QWK) (25.60% on average) with a relatively small human budget (30% samples) using our proposed sampling. The accuracy increase observed using standard random and importance sampling baselines are 8.6% and 12.2% respectively. Furthermore, we demonstrate the system's model agnostic nature by measuring its performance on a variety of models currently deployed in an AS setting as well as pseudo models. Finally, we propose an algorithm to estimate the accuracy/QWK with statistical guarantees (Our code is available at https://git.io/J1IOy).
翻訳日:2021-11-18 15:05:04 公開日:2021-11-17
# Adequacy Metricsを用いた深部画像分類の公平性検証

Fairness Testing of Deep Image Classification with Adequacy Metrics ( http://arxiv.org/abs/2111.08856v1 )

ライセンス: Link先を確認
Peixin Zhang, Jingyi Wang, Jun Sun, Xinyu Wang(参考訳) 深層画像分類アプリケーション、例えば顔認識が日常生活でますます普及するにつれて、その公平性がますます懸念されるようになっている。 したがって、デプロイ前にこれらのアプリケーションの公平性を包括的にテストすることが重要です。 既存の公正試験方法には以下の制限がある。 1) 画像分類のセマンティックレベルにおける高次元かつ抽象的なドメインサンプリングを処理せずに、構造化データ又はテキストにのみ適用可能であること。 2) 機能、すなわち、モデルの公平性を特徴付けるためのテスト基準を提供しずに不公平なサンプルを生成する。 このギャップを埋めるため,我々はdeepfaitを提案する。 DeepFAITは、ディープイメージ分類アプリケーションの有効公平性テストを可能にするいくつかの重要なコンポーネントで構成されている。 1) 公平性関連ニューロンを識別するためのニューロン選択戦略 2) モデルの公平性を評価するための多面的適性指標の組 3)公平性問題を効率的に修正するためのテスト選択アルゴリズム。 我々は,VGGFaceやFairFaceといった大規模顔認識アプリケーションに広く採用されている実験を行った。 実験の結果,本手法はフェアネス関連ニューロンを効果的に同定し,モデルのフェアネスを特徴付け,モデルのフェアネス問題を緩和するための最も価値のあるテストケースを選定できることが確認された。

As deep image classification applications, e.g., face recognition, become increasingly prevalent in our daily lives, their fairness issues raise more and more concern. It is thus crucial to comprehensively test the fairness of these applications before deployment. Existing fairness testing methods suffer from the following limitations: 1) applicability, i.e., they are only applicable for structured data or text without handling the high-dimensional and abstract domain sampling in the semantic level for image classification applications; 2) functionality, i.e., they generate unfair samples without providing testing criterion to characterize the model's fairness adequacy. To fill the gap, we propose DeepFAIT, a systematic fairness testing framework specifically designed for deep image classification applications. DeepFAIT consists of several important components enabling effective fairness testing of deep image classification applications: 1) a neuron selection strategy to identify the fairness-related neurons; 2) a set of multi-granularity adequacy metrics to evaluate the model's fairness; 3) a test selection algorithm for fixing the fairness issues efficiently. We have conducted experiments on widely adopted large-scale face recognition applications, i.e., VGGFace and FairFace. The experimental results confirm that our approach can effectively identify the fairness-related neurons, characterize the model's fairness, and select the most valuable test cases to mitigate the model's fairness issues.
翻訳日:2021-11-18 15:04:21 公開日:2021-11-17
# 地理空間情報と時間情報の調和のためのGNN-RNNアプローチ:作物収量予測への応用

A GNN-RNN Approach for Harnessing Geospatial and Temporal Information: Application to Crop Yield Prediction ( http://arxiv.org/abs/2111.08900v1 )

ライセンス: Link先を確認
Joshua Fan, Junwen Bai, Zhiyun Li, Ariel Ortiz-Bobea, Carla P. Gomes(参考訳) 気候変動は食料不足や供給安定、経済計画など、作物関連の問題に新たな課題を提起している。 中心的な課題の1つとして、作物の収穫予測が機械学習分野における押し付け課題となっている。 その重要性にもかかわらず、作物の収量は天候、土地表面、土壌の質、相互作用など様々な要因に依存するため、予測作業は非常に複雑である。 近年,この領域における機械学習モデルの適用が成功している。 しかし、これらのモデルはタスクを比較的小さな領域に限定するか、あるいは1年または数年しか研究しないため、空間的および時間的に一般化することは困難である。 本稿では,収量予測のためのグラフベースの新しいリカレントニューラルネットワークを導入し,そのモデルに地理的知識と時間的知識を取り入れ,予測能力をさらに向上させる。 米国本土41州から2000以上の郡で,1981年から2019年までの期間にわたって,本手法を訓練,検証,試験を行った。 我々の知る限り、これは、地理的知識を収穫量予測に組み込んで、全国の郡レベルで収穫量を予測する最初の機械学習手法である。 また、よく知られた線形モデル、ツリーベースモデル、ディープラーニング手法を適用し、それらの性能を比較することで、他の機械学習ベースラインと比較するための確かな基盤を構築しました。 実験により,提案手法が実測値と時間的情報の有効性を検証し,既存の実測値の手法を一貫して上回ることを示した。

Climate change is posing new challenges to crop-related concerns including food insecurity, supply stability and economic planning. As one of the central challenges, crop yield prediction has become a pressing task in the machine learning field. Despite its importance, the prediction task is exceptionally complicated since crop yields depend on various factors such as weather, land surface, soil quality as well as their interactions. In recent years, machine learning models have been successfully applied in this domain. However, these models either restrict their tasks to a relatively small region, or only study over a single or few years, which makes them hard to generalize spatially and temporally. In this paper, we introduce a novel graph-based recurrent neural network for crop yield prediction, to incorporate both geographical and temporal knowledge in the model, and further boost predictive power. Our method is trained, validated, and tested on over 2000 counties from 41 states in the US mainland, covering years from 1981 to 2019. As far as we know, this is the first machine learning method that embeds geographical knowledge in crop yield prediction and predicts the crop yields at county level nationwide. We also laid a solid foundation for the comparison with other machine learning baselines by applying well-known linear models, tree-based models, deep learning methods and comparing their performance. Experiments show that our proposed method consistently outperforms the existing state-of-the-art methods on various metrics, validating the effectiveness of geospatial and temporal information.
翻訳日:2021-11-18 15:04:00 公開日:2021-11-17
# 高速で効果的な機械学習

Fast Yet Effective Machine Unlearning ( http://arxiv.org/abs/2111.08947v1 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli(参考訳) 機械学習(ML)モデルのトレーニング中に観測されたデータをアンラーニングすることは、MLベースのアプリケーションのプライバシとセキュリティを強化する上で重要な役割を果たす重要なタスクである。 本稿は以下の疑問を提起する。 i) 一度でも完全なトレーニングデータを見ることなく、MLモデルからデータのクラス/クラスを解放できますか? (ii)大規模データセットへの高速かつスケーラブルな学習プロセスの構築と、異なるディープネットワークへの一般化は可能か? 本稿では,誤差最大化ノイズ生成と不等度に基づく重み操作を併用した新しい機械学習フレームワークを提案する。 クラスが元のモデルを使って解き放つために、エラー最大化ノイズマトリックスを学習する。 ノイズマトリックスはモデル重みを操作し、ターゲットとするデータクラスを解き放つために使用される。 ネットワーク重みの制御操作のための障害および修復手順を導入する。 不適切なステップでは、モデルに鋭いアンラーニングを誘発するために、非常に高い学習率を伴うノイズマトリックスが使用される。 その後、修理工程を使用して全体の性能を回復する。 ごくわずかな更新ステップで、モデル全体の精度を著しく保ちながら、優れた未学習を示す。 複数のクラスをアンラーニングするには、単一のクラスと同じ数の更新ステップが必要です。 提案手法は,従来の手法と比較して非常に効率的であり,マルチクラスのアンラーニングに役立ち,元の最適化機構やネットワーク設計に制約を課さず,小型・大規模の視覚タスクでもうまく機能する。 この研究は、ディープネットワークでの学習を迅速かつ容易に実装するための重要なステップです。 ソースコードを公開します。

Unlearning the data observed during the training of a machine learning (ML) model is an important task that can play a pivotal role in fortifying the privacy and security of ML-based applications. This paper raises the following questions: (i) can we unlearn a class/classes of data from a ML model without looking at the full training data even once? (ii) can we make the process of unlearning fast and scalable to large datasets, and generalize it to different deep networks? We introduce a novel machine unlearning framework with error-maximizing noise generation and impair-repair based weight manipulation that offers an efficient solution to the above questions. An error-maximizing noise matrix is learned for the class to be unlearned using the original model. The noise matrix is used to manipulate the model weights to unlearn the targeted class of data. We introduce impair and repair steps for a controlled manipulation of the network weights. In the impair step, the noise matrix along with a very high learning rate is used to induce sharp unlearning in the model. Thereafter, the repair step is used to regain the overall performance. With very few update steps, we show excellent unlearning while substantially retaining the overall model accuracy. Unlearning multiple classes requires a similar number of update steps as for the single class, making our approach scalable to large problems. Our method is quite efficient in comparison to the existing methods, works for multi-class unlearning, doesn't put any constraints on the original optimization mechanism or network design, and works well in both small and large-scale vision tasks. This work is an important step towards fast and easy implementation of unlearning in deep networks. We will make the source code publicly available.
翻訳日:2021-11-18 15:03:36 公開日:2021-11-17
# 多施設クレジットスコーリングのための垂直的フェデレーション学習手法:MICS

A Vertical Federated Learning Method For Multi-Institutional Credit Scoring: MICS ( http://arxiv.org/abs/2111.09038v1 )

ライセンス: Link先を確認
Yusuf Efe(参考訳) ますます多くの企業が顧客のデータを保管するようになり、その人の様々な情報が多くの企業のデータベースに分散される。 異なる産業部門は、同じ顧客について異なる特徴を持っている。 また、同じ産業セクター内の異なる企業は、異なるデータ表現を持つ顧客に関する同様の種類のデータを運ぶ。 垂直協力と呼ばれる異なる産業分野の企業間の協力と、水平協力と呼ばれる同一分野の企業間の協力は、より正確な機械学習モデルと信用スコアのようなタスクにおけるより良い見積もりにつながる。 しかし、データプライバシ規制と異なるデータ表現の互換性問題は、協調モデルトレーニングの大きな障害である。 トレーニングフレームワークMICSといくつかの数値データセットを用いた実験を行うことにより、企業は、顧客個人のデータを明示的に共有することなく、より堅牢で正確なグローバルモデルを共同でトレーニングする、それぞれのセクターや他の産業セクターと協力するインセンティブを持つことが示される。

As more and more companies store their customers' data; various information of a person is distributed among numerous companies' databases. Different industrial sectors carry distinct features about the same customers. Also, different companies within the same industrial sector carry similar kinds of data about the customers with different data representations. Cooperation between companies from different industrial sectors, called vertical cooperation, and between the companies within the same sector, called horizontal cooperation, can lead to more accurate machine learning models and better estimations in tasks such as credit scoring. However, data privacy regulations and compatibility issues for different data representations are huge obstacles to cooperative model training. By proposing the training framework MICS and experimentation on several numerical data sets, we showed that companies would have an incentive to cooperate with other companies from their sector and with other industrial sectors to jointly train more robust and accurate global models without explicitly sharing their customers' private data.
翻訳日:2021-11-18 15:03:12 公開日:2021-11-17
# ORSA: Outlier Robust Stacked Aggregation for Best-Case Approximations of Ensemble Systems

ORSA: Outlier Robust Stacked Aggregation for Best- and Worst-Case Approximations of Ensemble Systems\ ( http://arxiv.org/abs/2111.09043v1 )

ライセンス: Link先を確認
Peter Domanski, Dirk Pfl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 近年,大規模なアンサンブルを合理的な時間枠で訓練できる計算能力の増大により,アプリケーションにおけるアンサンブル学習の利用が著しく増加している。 マルウェアの検出、顔認識、財務的な意思決定など、多くのアプリケーションでは、有限の学習アルゴリズムを使用して、個々の学習アルゴリズムよりも優れた予測性能を得る方法でそれらを集約する。 半導体デバイス(psv)のポストシリコン検証の分野では、例えば異なる製造ラインのチップなど、さまざまなデバイスで構成されるデータセットが典型的に提供される。 psvのタスクは、データセット全体の任意の分類器のパフォーマンスを改善するのではなく、デバイス固有のサブセットでトレーニングされた複数の学習アルゴリズムを使って、データの基盤となる関数を近似することである。 さらに、未知の数のサブセットが、非常に異なる特性を示す関数を記述することが期待されている。 対応するアンサンブルメンバーは、外れ値と呼ばれ、近似に大きな影響を与える。 本手法は,外れ値に対してロバストで,可能な限り多くの型に適用可能な最良あるいは最悪の場合を表す適切な近似を求めることを目的としている。 最大または最小の演算子の代わりに 'soft-max' あるいは 'soft-min' 関数が使用される。 ニューラルネットワーク(NN)は、2段階のプロセスでこの「ソフトファンクション」を学ぶために訓練される。 まず、最善または最悪の場合を代表するアンサンブルメンバーのサブセットを選択する。 次に、これらのメンバーを組み合わせて、LoF(Local Outlier Factor)の特性を利用した重み付けを定義し、非outlierの影響を増大させ、outliersを減少させる。 重み付けは外れ値に対するロバスト性を確保し、近似がほとんどの型に適していることを保証する。

In recent years, the usage of ensemble learning in applications has grown significantly due to increasing computational power allowing the training of large ensembles in reasonable time frames. Many applications, e.g., malware detection, face recognition, or financial decision-making, use a finite set of learning algorithms and do aggregate them in a way that a better predictive performance is obtained than any other of the individual learning algorithms. In the field of Post-Silicon Validation for semiconductor devices (PSV), data sets are typically provided that consist of various devices like, e.g., chips of different manufacturing lines. In PSV, the task is to approximate the underlying function of the data with multiple learning algorithms, each trained on a device-specific subset, instead of improving the performance of arbitrary classifiers on the entire data set. Furthermore, the expectation is that an unknown number of subsets describe functions showing very different characteristics. Corresponding ensemble members, which are called outliers, can heavily influence the approximation. Our method aims to find a suitable approximation that is robust to outliers and represents the best or worst case in a way that will apply to as many types as possible. A 'soft-max' or 'soft-min' function is used in place of a maximum or minimum operator. A Neural Network (NN) is trained to learn this 'soft-function' in a two-stage process. First, we select a subset of ensemble members that is representative of the best or worst case. Second, we combine these members and define a weighting that uses the properties of the Local Outlier Factor (LOF) to increase the influence of non-outliers and to decrease outliers. The weighting ensures robustness to outliers and makes sure that approximations are suitable for most types.
翻訳日:2021-11-18 15:02:58 公開日:2021-11-17
# (参考訳) そろそろ時間だ:アナログ時計の読書は野放しだ

It's About Time: Analog Clock Reading in the Wild ( http://arxiv.org/abs/2111.09162v1 )

ライセンス: CC BY 4.0
Charig Yang, Weidi Xie, Andrew Zisserman(参考訳) 本稿では,自然画像やビデオでアナログ時計を読むためのフレームワークを提案する。 具体的には,まず合成クロックを生成するためのスケーラブルなパイプラインを作成し,作業集約的なアノテーション要件を大幅に削減する。第2に,クロックアライメントと認識のためにエンドツーエンドでトレーニングされた空間トランスフォーマネットワーク(stn)に基づくクロック認識アーキテクチャを導入する。 提案する合成データセット上でトレーニングされたモデルでは,シミュレーションと実データとのギャップを更に低減するために,実時間に対する信頼性の高い擬似ラベルを生成するための時間的特性,すなわち一様性を利用し,これらのビデオのトレーニングが,手作業によるアノテーションを必要とせず,さらなる改善をもたらすことを示す。 最後に,COCO,Open Images,The Clockの3つのベンチマークデータセットを紹介した。

In this paper, we present a framework for reading analog clocks in natural images or videos. Specifically, we make the following contributions: First, we create a scalable pipeline for generating synthetic clocks, significantly reducing the requirements for the labour-intensive annotations; Second, we introduce a clock recognition architecture based on spatial transformer networks (STN), which is trained end-to-end for clock alignment and recognition. We show that the model trained on the proposed synthetic dataset generalises towards real clocks with good accuracy, advocating a Sim2Real training regime; Third, to further reduce the gap between simulation and real data, we leverage the special property of time, i.e. uniformity, to generate reliable pseudo-labels on real unlabelled clock videos, and show that training on these videos offers further improvements while still requiring zero manual annotations. Lastly, we introduce three benchmark datasets based on COCO, Open Images, and The Clock movie, totalling 4,472 images with clocks, with full annotations for time, accurate to the minute.
翻訳日:2021-11-18 15:01:27 公開日:2021-11-17
# fast batllnn: 2レベル格子ニューラルネットワークの高速ボックス解析

Fast BATLLNN: Fast Box Analysis of Two-Level Lattice Neural Networks ( http://arxiv.org/abs/2111.09293v1 )

ライセンス: Link先を確認
James Ferlez and Haitham Khedr and Yasser Shoukry(参考訳) 本稿では,2レベル格子ニューラルネットワーク(TLL)の出力制約を高速に検証するツールとして,Fast Box Analysis of Two-Level Lattice Neural Networks (Fast BATLLNN)を提案する。 特に、Fast BATLLNNは、与えられたTLL NNの出力が指定された凸ポリトープ(必ずしも超矩形ではない)に制限された入力が常に指定された超矩形内にあるかどうかを検証できる。 Fast BATLLNNは、TLLアーキテクチャのユニークなセマンティクスとボックスライクな出力制約の分離特性を用いて、一般的なポリトピー出力制約を持つTLLに対する既知の多項式時間検証アルゴリズムと比較して、検証性能を劇的に改善する。 本稿では,Fast BATLLNNの性能とスケーラビリティを,TLL NNに適用した最先端NN検証と比較して評価する。 Fast BATLLNNは、最も高速なNN検証器でさえも非常に好意的に比較し、私たちの合成TLLテストベンチは、最も近い競合製品よりも400倍以上高速です。

In this paper, we present the tool Fast Box Analysis of Two-Level Lattice Neural Networks (Fast BATLLNN) as a fast verifier of box-like output constraints for Two-Level Lattice (TLL) Neural Networks (NNs). In particular, Fast BATLLNN can verify whether the output of a given TLL NN always lies within a specified hyper-rectangle whenever its input constrained to a specified convex polytope (not necessarily a hyper-rectangle). Fast BATLLNN uses the unique semantics of the TLL architecture and the decoupled nature of box-like output constraints to dramatically improve verification performance relative to known polynomial-time verification algorithms for TLLs with generic polytopic output constraints. In this paper, we evaluate the performance and scalability of Fast BATLLNN, both in its own right and compared to state-of-the-art NN verifiers applied to TLL NNs. Fast BATLLNN compares very favorably to even the fastest NN verifiers, completing our synthetic TLL test bench more than 400x faster than its nearest competitor.
翻訳日:2021-11-18 14:49:07 公開日:2021-11-17
# 会員推論攻撃の予測スコアを信頼しない

Do Not Trust Prediction Scores for Membership Inference Attacks ( http://arxiv.org/abs/2111.09076v1 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Kristian Kersting(参考訳) メンバーシップ推論攻撃(MIA)は、特定のサンプルが予測モデルのトレーニングに使用されたかどうかを決定することを目的としている。 これはプライバシー侵害につながる可能性がある。 しかし、おそらくほとんどのMIAは、トレーニングされたモデルがトレーニングデータに対して異なる振る舞いをする傾向にあるという直感に従って、モデルの予測スコア(各出力の確率)を利用する。 例えば、ReLU型ニューラルネットワークはトレーニングデータから遠く離れたところで、ほぼ常に高い予測スコアを生成する。 その結果、MIAは既知のドメインだけでなく分布外データにも高い偽陽性率をもたらし、MIAに対する防御として暗黙的に作用するため、不幸にも失敗する。 具体的には、生成的敵ネットワークを用いて、トレーニングデータの一部として誤って分類された潜在的無限個のサンプルを生成することができる。 言い換えれば、MIAの脅威は過大評価され、以前想定されていたよりも少ない情報がリークされる。 さらに、分類器の過度な信頼とMIAへの感受性の間には、実際にはトレードオフがある: 分類器がいつ知らないかを知るほど、訓練データから遠く離れたところで信頼性の低い予測を行い、訓練データを明らかにする。

Membership inference attacks (MIAs) aim to determine whether a specific sample was used to train a predictive model. Knowing this may indeed lead to a privacy breach. Arguably, most MIAs, however, make use of the model's prediction scores - the probability of each output given some input - following the intuition that the trained model tends to behave differently on its training data. We argue that this is a fallacy for many modern deep network architectures, e.g., ReLU type neural networks produce almost always high prediction scores far away from the training data. Consequently, MIAs will miserably fail since this behavior leads to high false-positive rates not only on known domains but also on out-of-distribution data and implicitly acts as a defense against MIAs. Specifically, using generative adversarial networks, we are able to produce a potentially infinite number of samples falsely classified as part of the training data. In other words, the threat of MIAs is overestimated and less information is leaked than previously assumed. Moreover, there is actually a trade-off between the overconfidence of classifiers and their susceptibility to MIAs: the more classifiers know when they do not know, making low confidence predictions far away from the training data, the more they reveal the training data.
翻訳日:2021-11-18 14:48:31 公開日:2021-11-17
# mriのための単一パスオブジェクト適応データアンサンプと再構成

Single-pass Object-adaptive Data Undersampling and Reconstruction for MRI ( http://arxiv.org/abs/2111.09212v1 )

ライセンス: Link先を確認
Zhishen Huang and Saiprasad Ravishankar(参考訳) 限られた測定値を取得することでMRIのデータ取得プロセスを高速化する技術に、近年は関心が寄せられている。 このような設定で高画質を維持するために、しばしば高度な再構成アルゴリズムがデプロイされる。 本研究では,畳み込みニューラルネットワークMNetを用いたデータ駆動型サンプリング手法を提案する。 ネットワークは、各オブジェクトに対する非常に限られた低周波k空間データを観測し、所望のアンダーサンプリングパターンを高速に予測し、高い画像再構成品質を実現する。 本稿では,サンプルネットワークのトレーニングラベルを効率よく生成し,画像再構成ネットワークを共同で訓練するマスクバックプロシージャを備えた交代型トレーニングフレームワークを提案する。 fastmri膝のデータセットにおける実験結果は,提案する学習アンサンブルネットワークの4倍および8倍の加速度で物体特異的マスクを生成する能力を示し,既存の手法よりも優れた画像再構成性能を実現した。 提案された共同サンプリングおよび再構成学習フレームワークのソースコードは、https://github.com/zhishenhuang/mriで入手できる。

There is much recent interest in techniques to accelerate the data acquisition process in MRI by acquiring limited measurements. Often sophisticated reconstruction algorithms are deployed to maintain high image quality in such settings. In this work, we propose a data-driven sampler using a convolutional neural network, MNet, to provide object-specific sampling patterns adaptive to each scanned object. The network observes very limited low-frequency k-space data for each object and rapidly predicts the desired undersampling pattern in one go that achieves high image reconstruction quality. We propose an accompanying alternating-type training framework with a mask-backward procedure that efficiently generates training labels for the sampler network and jointly trains an image reconstruction network. Experimental results on the fastMRI knee dataset demonstrate the ability of the proposed learned undersampling network to generate object-specific masks at fourfold and eightfold acceleration that achieve superior image reconstruction performance than several existing schemes. The source code for the proposed joint sampling and reconstruction learning framework is available at https://github.com/zhishenhuang/mri.
翻訳日:2021-11-18 14:48:09 公開日:2021-11-17
# 個別意思決定のためのジャンプ間隔学習

Jump Interval-Learning for Individualized Decision Making ( http://arxiv.org/abs/2111.08885v1 )

ライセンス: Link先を確認
Hengrui Cai, Chengchun Shi, Rui Song, Wenbin Lu(参考訳) 個別決定ルール(英: individualized decision rule、IDR)とは、観察された特徴に基づいて各個人に所定の処置を割り当てる決定関数である。 文献にある既存の作品の多くは、二項または有限個の治療オプションを持つ設定を考慮に入れている。 本稿では,連続的な治療設定に着目し,ジャンプ間隔学習を行い,期待される結果を最大化する個別化区間値決定規則(i2dr)を考案する。 単一の治療を推奨するIDRとは異なり、提案されたI2DRは個々の治療オプションの間隔を確保でき、実際はより柔軟に実施できる。 最適I2DRを導出するために,ジャンプ間隔学習法は,処理結果と共変量の条件平均をジャンプペナル化回帰により推定し,その推定結果回帰関数に基づいて対応する最適I2DRを導出する。 回帰器は、明確な解釈のために線形的であるか、複雑な処理-共変量相互作用をモデル化するためにディープニューラルネットワークが許される。 ジャンプ間隔学習を実現するために,結果回帰関数を効率的に計算する動的プログラミングに基づく探索アルゴリズムを開発した。 結果i2drの統計的性質は、結果回帰関数が処理空間上の分割関数または連続関数であるときに確立される。 さらに、(推定)最適政策の下で、平均結果を推測する手順を開発する。 提案したI2DRの実証的妥当性を示すため, 大規模シミュレーションと実データを用いたワーファリン研究を行った。

An individualized decision rule (IDR) is a decision function that assigns each individual a given treatment based on his/her observed characteristics. Most of the existing works in the literature consider settings with binary or finitely many treatment options. In this paper, we focus on the continuous treatment setting and propose a jump interval-learning to develop an individualized interval-valued decision rule (I2DR) that maximizes the expected outcome. Unlike IDRs that recommend a single treatment, the proposed I2DR yields an interval of treatment options for each individual, making it more flexible to implement in practice. To derive an optimal I2DR, our jump interval-learning method estimates the conditional mean of the outcome given the treatment and the covariates via jump penalized regression, and derives the corresponding optimal I2DR based on the estimated outcome regression function. The regressor is allowed to be either linear for clear interpretation or deep neural network to model complex treatment-covariates interactions. To implement jump interval-learning, we develop a searching algorithm based on dynamic programming that efficiently computes the outcome regression function. Statistical properties of the resulting I2DR are established when the outcome regression function is either a piecewise or continuous function over the treatment space. We further develop a procedure to infer the mean outcome under the (estimated) optimal policy. Extensive simulations and a real data application to a warfarin study are conducted to demonstrate the empirical validity of the proposed I2DR.
翻訳日:2021-11-18 14:47:51 公開日:2021-11-17
# SEIHAI: MineRLコンペティションのためのサンプル効率のよい階層型AI

SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition ( http://arxiv.org/abs/2111.08857v1 )

ライセンス: Link先を確認
Hangyu Mao, Chao Wang, Xiaotian Hao, Yihuan Mao, Yiming Lu, Chengjie Wu, Jianye Hao, Dong Li and Pingzhong Tang(参考訳) MineRLコンペティションは、人間のデモンストレーションを効果的に活用し、スパース報酬を伴う複雑な \emph{ObtainDiamond} タスクの解決に必要な環境相互作用の数を劇的に削減できる強化学習と模倣学習アルゴリズムの開発を目的として設計されている。 この課題に対処するため、本論文では、人間の実演とタスク構造を完全に活用した \textbf{SEIHAI}, a \textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{H}ierarchical \textbf{AI} を提案する。 具体的には,タスクを複数の逐次依存サブタスクに分割し,強化学習と模倣学習を用いて各サブタスクに適したエージェントを訓練する。 さらに、異なるサブタスクに対して異なるエージェントを自動選択するスケジューラを設計する。 シーハイはNeurIPS-2020 MineRLコンペティションの序盤と決勝戦で優勝した。

The MineRL competition is designed for the development of reinforcement learning and imitation learning algorithms that can efficiently leverage human demonstrations to drastically reduce the number of environment interactions needed to solve the complex \emph{ObtainDiamond} task with sparse rewards. To address the challenge, in this paper, we present \textbf{SEIHAI}, a \textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{AI}, that fully takes advantage of the human demonstrations and the task structure. Specifically, we split the task into several sequentially dependent subtasks, and train a suitable agent for each subtask using reinforcement learning and imitation learning. We further design a scheduler to select different agents for different subtasks automatically. SEIHAI takes the first place in the preliminary and final of the NeurIPS-2020 MineRL competition.
翻訳日:2021-11-18 14:47:24 公開日:2021-11-17
# 解釈可能で信頼性の高い読み理解に向けて : 予測不能なパイプラインモデル

Towards Interpretable and Reliable Reading Comprehension: A Pipeline Model with Unanswerability Prediction ( http://arxiv.org/abs/2111.09029v1 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Itsumi Saito, Sen Yoshida(参考訳) 回答の解釈可能性を考慮した読解(RC)課題である注釈付きサポート事実を持つマルチホップQAについて検討した。 本研究では,解釈不能な問合せを予測可能なパイプラインモデルとして解釈可能な読解理解(IRC)モデルを定義する。 IRCモデルは、予測された支持事実と解釈可能性の実際の理論的根拠との整合性を確立することにより、回答予測を正当化する。 ircモデルは、十分な情報に基づいて強制的に回答を出力するのではなく、解答不能な質問を検出し、解答の信頼性を確保する。 また,パイプラインRCモデルのエンドツーエンドトレーニング手法を提案する。 解釈可能性と信頼性を評価するために,各経路に対するマルチホップ質問の解答可能性を考慮した実験を行った。 我々のエンドツーエンドのトレーニング可能なパイプラインモデルは、修正されたHotpotQAデータセットで非解釈可能なモデルよりも優れていることを示す。 また, 予測性能と解釈可能性のトレードオフにもかかわらず, IRCモデルは従来の非解釈モデルと同等の結果が得られることを示した。

Multi-hop QA with annotated supporting facts, which is the task of reading comprehension (RC) considering the interpretability of the answer, has been extensively studied. In this study, we define an interpretable reading comprehension (IRC) model as a pipeline model with the capability of predicting unanswerable queries. The IRC model justifies the answer prediction by establishing consistency between the predicted supporting facts and the actual rationale for interpretability. The IRC model detects unanswerable questions, instead of outputting the answer forcibly based on the insufficient information, to ensure the reliability of the answer. We also propose an end-to-end training method for the pipeline RC model. To evaluate the interpretability and the reliability, we conducted the experiments considering unanswerability in a multi-hop question for a given passage. We show that our end-to-end trainable pipeline model outperformed a non-interpretable model on our modified HotpotQA dataset. Experimental results also show that the IRC model achieves comparable results to the previous non-interpretable models in spite of the trade-off between prediction performance and interpretability.
翻訳日:2021-11-18 14:45:48 公開日:2021-11-17
# 非自己回帰型GECタグの文字変換

Character Transformations for Non-Autoregressive GEC Tagging ( http://arxiv.org/abs/2111.09280v1 )

ライセンス: Link先を確認
Milan Straka, Jakub N\'aplava, Jana Strakov\'a(参考訳) 本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。 近年,修正編集の単語単位の分類は,現在のエンコーダデコーダGECシステムに代わる,効率的かつ並列化可能な代替手段であることが証明されている。 本稿では,単語置換編集が最適であり,形態的にリッチな言語における綴り,発音,誤りなどの規則の爆発につながることを示し,GECコーパスから文字変換を生成する方法を提案する。 最後に,チェコ語,ドイツ語,ロシア語の文字変換モデルを訓練し,自己回帰システムと比較し,確固とした結果と劇的なスピードアップを達成した。 ソースコードはhttps://github.com/ufal/wnut2021_character_transformations_gecで公開されている。

We propose a character-based nonautoregressive GEC approach, with automatically generated character transformations. Recently, per-word classification of correction edits has proven an efficient, parallelizable alternative to current encoder-decoder GEC systems. We show that word replacement edits may be suboptimal and lead to explosion of rules for spelling, diacritization and errors in morphologically rich languages, and propose a method for generating character transformations from GEC corpus. Finally, we train character transformation models for Czech, German and Russian, reaching solid results and dramatic speedup compared to autoregressive systems. The source code is released at https://github.com/ufal/wnut2021_character_transformations_gec.
翻訳日:2021-11-18 14:45:33 公開日:2021-11-17
# グリーンCWS:極端蒸留法と産業応用に向けた効率的な復号法

Green CWS: Extreme Distillation and Efficient Decode Method Towards Industrial Application ( http://arxiv.org/abs/2111.09078v1 )

ライセンス: Link先を確認
Yulan Hu, Yong Liu(参考訳) 事前学習されたモデルの強力な能力から、中国語単語分割(cws)の研究は近年大きな進展を遂げている。 しかし、計算量が大きいため、大規模で複雑なモデルでは、産業利用に力を与えることができない。 一方、低リソースシナリオでは、条件付きランダムフィールド(CRF)のような一般的なデコード方式では、トレーニングデータの完全な情報を利用することができない。 本研究は,工業的に低リソースなCWSシナリオに対して,軽量モデルと改良された復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。 まず、トランスフォーマーベースの学生モデルをエンコーダとして蒸留し、推論速度を加速するだけでなく、オープン知識とドメイン固有知識を組み合わせる。 第二に、言語モデルを評価する難易度スコアをCRFモジュールに融合させ、単語境界をよりよく識別する。 実験の結果,従来のbertベースのモデルと比較して,複数のデータセットにおいて,14\%の時間消費で比較的高い性能が得られることがわかった。 また,低リソース環境下では,従来の復号法と比較して優れた結果が得られる。

Benefiting from the strong ability of the pre-trained model, the research on Chinese Word Segmentation (CWS) has made great progress in recent years. However, due to massive computation, large and complex models are incapable of empowering their ability for industrial use. On the other hand, for low-resource scenarios, the prevalent decode method, such as Conditional Random Field (CRF), fails to exploit the full information of the training data. This work proposes a fast and accurate CWS framework that incorporates a light-weighted model and an upgraded decode method (PCRF) towards industrially low-resource CWS scenarios. First, we distill a Transformer-based student model as an encoder, which not only accelerates the inference speed but also combines open knowledge and domain-specific knowledge. Second, the perplexity score to evaluate the language model is fused into the CRF module to better identify the word boundaries. Experiments show that our work obtains relatively high performance on multiple datasets with as low as 14\% of time consumption compared with the original BERT-based model. Moreover, under the low-resource setting, we get superior results in comparison with the traditional decoding methods.
翻訳日:2021-11-18 14:45:22 公開日:2021-11-17
# 相関マッチングの強化によるビデオフレーム補間

Enhanced Correlation Matching based Video Frame Interpolation ( http://arxiv.org/abs/2111.08869v1 )

ライセンス: Link先を確認
Sungho Lee, Narae Choi, Woong Il Choi(参考訳) 本研究では,大規模動作とオクルージョンを有する4kのような高分解能をサポートするために,拡張相関マッチング型ビデオフレーム補間ネットワークと呼ばれる新しいdnnベースのフレームワークを提案する。 解像度に応じてネットワークモデルの拡張性を考慮すると,光学的フロー推定のために各ピラミッド層間でパラメータを共有する再帰ピラミッド構造が提案されている。 提案したフロー推定では,最大相関で位置を追従することにより,光学流を再帰的に洗練する。 前方整流に基づく相関マッチングにより、咬合領域周辺の不正確な整流特徴を除外し、フロー更新の精度を向上させることができる。 最終双方向流れに基づいて、任意の時間的位置の中間フレームをワーピング・ブレンドネットワークを用いて合成し、改良ネットワークによりさらに改善する。 実験結果から,提案手法は4Kビデオデータと低解像度のベンチマークデータセット,および最小数のモデルパラメータによる客観的および主観的品質において,従来よりも優れた性能を示した。

We propose a novel DNN based framework called the Enhanced Correlation Matching based Video Frame Interpolation Network to support high resolution like 4K, which has a large scale of motion and occlusion. Considering the extensibility of the network model according to resolution, the proposed scheme employs the recurrent pyramid architecture that shares the parameters among each pyramid layer for optical flow estimation. In the proposed flow estimation, the optical flows are recursively refined by tracing the location with maximum correlation. The forward warping based correlation matching enables to improve the accuracy of flow update by excluding incorrectly warped features around the occlusion area. Based on the final bi-directional flows, the intermediate frame at arbitrary temporal position is synthesized using the warping and blending network and it is further improved by refinement network. Experiment results demonstrate that the proposed scheme outperforms the previous works at 4K video data and low-resolution benchmark datasets as well in terms of objective and subjective quality with the smallest number of model parameters.
翻訳日:2021-11-18 14:42:48 公開日:2021-11-17
# 階層的情報とハイブリッド知識蒸留を用いた多層網膜疾患認識

Long-Tailed Multi-Label Retinal Diseases Recognition Using Hierarchical Information and Hybrid Knowledge Distillation ( http://arxiv.org/abs/2111.08913v1 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Zhen Yu, Lin Wang, Xin Zhao, Zongyuan Ge(参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布を示すことが多く(一部のクラスはデータの大半を占めるが、ほとんどのクラスはサンプルをほとんど持たない)、これは挑戦的な不均衡学習シナリオをもたらす。 例えば、40種類以上の網膜疾患が様々な病原性を持つと推定されているが、30以上の条件を持つ患者は、世界的な患者コホートから非常に稀であり、ディープラーニングベースのスクリーニングモデルに典型的な長い尾の学習問題をもたらす。 さらに、網膜には複数の種類の疾患が存在し、これは多ラベルのシナリオをもたらし、再サンプリング戦略にラベル共起の問題をもたらす可能性がある。 本研究では,網膜疾患の先行知識を利用して,階層性制約の下でモデルをより堅牢な表現を訓練する枠組みを提案する。 次に, 長期の多ラベル分布から学習するために, インスタンス単位のクラスバランスサンプリング戦略とハイブリッド知識蒸留手法を導入する。 実験では,100万以上の検体を用いた網膜データセットのトレーニングを行い,競合する疾患,特に稀な疾患の認識精度を大幅に向上させる手法が提案されている。

In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy most of the data, while most classes have rarely few samples), which results in a challenging imbalance learning scenario. For example, there are estimated more than 40 different kinds of retinal diseases with variable morbidity, however with more than 30+ conditions are very rare from the global patient cohorts, which results in a typical long-tailed learning problem for deep learning-based screening models. Moreover, there may exist more than one kind of disease on the retina, which results in a multi-label scenario and bring label co-occurrence issue for re-sampling strategy. In this work, we propose a novel framework that leverages the prior knowledge in retinal diseases for training a more robust representation of the model under a hierarchy-sensible constraint. Then, an instance-wise class-balanced sampling strategy and hybrid knowledge distillation manner are firstly introduced to learn from the long-tailed multi-label distribution. Our experiments training on the retinal dataset of more than one million samples demonstrate the superiority of our proposed methods which outperform all competitors and significantly improve the recognition accuracy of most diseases especially those rare diseases.
翻訳日:2021-11-18 14:42:31 公開日:2021-11-17
# EMScore: 粗粒と細粒の埋め込みマッチングによるビデオキャプションの評価

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching ( http://arxiv.org/abs/2111.08919v1 )

ライセンス: Link先を確認
Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha(参考訳) 現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。 しかし、例えば、参照なしではビデオを扱うことができず、ビデオからテキストへの一対多の性質と視覚的関連性を無視しているため、偏見のある評価をもたらす可能性がある。 人間の評価者の視点からは、高品質なキャプションは提供されたビデオと一致すべきであるが、リテラルやセマンティクスの参照と必ずしも似ているとは限らない。 人間の評価にインスパイアされたemscore(embedding matching-based score)は、ビデオキャプションのための参照フリーな新しい指標で、ビデオキャプションと候補キャプションの類似度を直接測定する。 近年の大規模事前学習モデルの成果として,事前学習された視覚言語モデルを用いて視覚的および言語的埋め込みを抽出し,emscoreの計算を行う。 特にemscoreは、粗粒度(ビデオとキャプション)と細粒度(フレームとワード)の両方のスコアをマッチングし、ビデオの全体的な理解と詳細な特性を考慮に入れている。 さらに、潜在的な情報ゲインを考慮すると、EMScoreは人間ラベルの参照が利用できる状態まで柔軟に拡張できる。 最後に、VATEX-EVALおよびActivityNet-FOIlデータセットを収集し、既存のメトリクスを体系的に評価する。 VATEX-EVAL実験により、EMScoreは高い人間相関と低い基準依存性を持つことが示された。 ActivityNet-FOIL実験は、EMScoreが効果的に"幻覚"キャプションを識別できることを検証する。 データセットは、ビデオキャプションメトリクスの開発を容易にするためにリリースされる。 コードは、https://github.com/ShiYaya/emscore.comで入手できる。

Current metrics for video captioning are mostly based on the text-level comparison between reference and candidate captions. However, they have some insuperable drawbacks, e.g., they cannot handle videos without references, and they may result in biased evaluation due to the one-to-many nature of video-to-text and the neglect of visual relevance. From the human evaluator's viewpoint, a high-quality caption should be consistent with the provided video, but not necessarily be similar to the reference in literal or semantics. Inspired by human evaluation, we propose EMScore (Embedding Matching-based score), a novel reference-free metric for video captioning, which directly measures similarity between video and candidate captions. Benefit from the recent development of large-scale pre-training models, we exploit a well pre-trained vision-language model to extract visual and linguistic embeddings for computing EMScore. Specifically, EMScore combines matching scores of both coarse-grained (video and caption) and fine-grained (frames and words) levels, which takes the overall understanding and detailed characteristics of the video into account. Furthermore, considering the potential information gain, EMScore can be flexibly extended to the conditions where human-labeled references are available. Last but not least, we collect VATEX-EVAL and ActivityNet-FOIl datasets to systematically evaluate the existing metrics. VATEX-EVAL experiments demonstrate that EMScore has higher human correlation and lower reference dependency. ActivityNet-FOIL experiment verifies that EMScore can effectively identify "hallucinating" captions. The datasets will be released to facilitate the development of video captioning metrics. The code is available at: https://github.com/ShiYaya/emscore.
翻訳日:2021-11-18 14:42:10 公開日:2021-11-17
# 秘密鍵によるsvmモデルの不正アクセスからの保護

Protection of SVM Model with Secret Key from Unauthorized Access ( http://arxiv.org/abs/2111.08927v1 )

ライセンス: Link先を確認
Ryota Iijima, AprilPyone MaungMaung, Hitoshi Kiya(参考訳) 本稿では,サポートベクトルマシン(SVM)モデルのための秘密鍵を用いたブロックワイズ画像変換手法を提案する。 変換された画像を使用することでトレーニングされたモデルは、キーのない未許可のユーザにはパフォーマンスが悪く、キーを持った認証されたユーザには高いパフォーマンスを提供することができる。 提案手法は,顔認識実験においてカーネル関数を用いても,不正アクセスに対して十分に堅牢であることを示す。

In this paper, we propose a block-wise image transformation method with a secret key for support vector machine (SVM) models. Models trained by using transformed images offer a poor performance to unauthorized users without a key, while they can offer a high performance to authorized users with a key. The proposed method is demonstrated to be robust enough against unauthorized access even under the use of kernel functions in a facial recognition experiment.
翻訳日:2021-11-18 14:41:41 公開日:2021-11-17
# TraSw:マルチオブジェクト追跡に対するトラブレットスイッチ対応攻撃

TraSw: Tracklet-Switch Adversarial Attacks against Multi-Object Tracking ( http://arxiv.org/abs/2111.08954v1 )

ライセンス: Link先を確認
Delv Lin, Qi Chen, Chengyu Zhou, Kun He(参考訳) ディープニューラルネットワークの発展により、MOT(Multi-Object Tracking)は積極的な進歩を遂げた。 現在、リアルタイムジョイント検出追跡(jdt)ベースのmotトラッカーは注目を集め、多くの優れたモデルを生み出している。 しかし,jdtトラッカのロバスト性はほとんど研究されておらず,その成熟したアソシエーションアルゴリズムは追跡中のエラーに対してロバストであるように設計されているため,motシステムへの攻撃が困難である。 本研究では,jdtトラッカの弱点を分析し,motの完全なトラッキングパイプラインに対して,trasw(tracklet-switch)と呼ばれる新しい攻撃手法を提案する。 具体的には、プッシュプル損失と中心跳躍最適化は、リid機能とオブジェクト検出の両方の逆の例を生成するように設計されている。 traswは追跡者を騙して、ごくわずかなフレームを攻撃して、その後のフレームのターゲットを追跡できないようにする。 本手法は,MOT-Challengeデータセット(2DMOT15,MOT17,MOT20)を用いて,高度なディープトラッカー(FairMOT,JDE,ByteTrack)上で評価する。 実験の結果,traswは,単発攻撃では平均5フレームのみを攻撃し,多発攻撃では80%以上の成功率で95%以上の成功率を達成できた。 コードはhttps://github.com/DerryHub/FairMOT- attack で入手できる。

Benefiting from the development of Deep Neural Networks, Multi-Object Tracking (MOT) has achieved aggressive progress. Currently, the real-time Joint-Detection-Tracking (JDT) based MOT trackers gain increasing attention and derive many excellent models. However, the robustness of JDT trackers is rarely studied, and it is challenging to attack the MOT system since its mature association algorithms are designed to be robust against errors during tracking. In this work, we analyze the weakness of JDT trackers and propose a novel adversarial attack method, called Tracklet-Switch (TraSw), against the complete tracking pipeline of MOT. Specifically, a push-pull loss and a center leaping optimization are designed to generate adversarial examples for both re-ID feature and object detection. TraSw can fool the tracker to fail to track the targets in the subsequent frames by attacking very few frames. We evaluate our method on the advanced deep trackers (i.e., FairMOT, JDE, ByteTrack) using the MOT-Challenge datasets (i.e., 2DMOT15, MOT17, and MOT20). Experiments show that TraSw can achieve a high success rate of over 95% by attacking only five frames on average for the single-target attack and a reasonably high success rate of over 80% for the multiple-target attack. The code is available at https://github.com/DerryHub/FairMOT-attack .
翻訳日:2021-11-18 14:41:33 公開日:2021-11-17
# exemplar-guided contrastive learning による歩行者検出

Pedestrian Detection by Exemplar-Guided Contrastive Learning ( http://arxiv.org/abs/2111.08974v1 )

ライセンス: Link先を確認
Zebin Lin, Wenjie Pei, Fanglin Chen, David Zhang, and Guangming Lu(参考訳) 歩行者検出の典型的な方法は、混み合った歩行者間の相互閉塞に取り組むか、歩行者の様々な規模を扱うかである。 異なる歩行者シルエット、異なる視点、異なるドレッシングなどの外観の多様性を持つ歩行者の検出は、重要な課題である。 提案手法では,これらの多様な歩行者の外観特徴を個別に学習する代わりに,学習した特徴空間に異なる外観を持つ歩行者間の意味的距離を最小化して外観の多様性を排除し,歩行者と背景の間の距離を最大化するように,特徴学習の指導を行う。 コントラスト学習の効率性と有効性を高めるために,先行知識として,歩行者を代表とする例題辞書を構築し,効果的なコントラスト学習ペアを構築し,コントラスト学習を指導する。 さらに、構築した例示辞書を利用して、提案と例示辞書のセマンティック距離を測定することにより、推論中の歩行者提案の質を評価する。 昼と夜の両方の歩行者検出実験により,提案手法の有効性が検証された。

Typical methods for pedestrian detection focus on either tackling mutual occlusions between crowded pedestrians, or dealing with the various scales of pedestrians. Detecting pedestrians with substantial appearance diversities such as different pedestrian silhouettes, different viewpoints or different dressing, remains a crucial challenge. Instead of learning each of these diverse pedestrian appearance features individually as most existing methods do, we propose to perform contrastive learning to guide the feature learning in such a way that the semantic distance between pedestrians with different appearances in the learned feature space is minimized to eliminate the appearance diversities, whilst the distance between pedestrians and background is maximized. To facilitate the efficiency and effectiveness of contrastive learning, we construct an exemplar dictionary with representative pedestrian appearances as prior knowledge to construct effective contrastive training pairs and thus guide contrastive learning. Besides, the constructed exemplar dictionary is further leveraged to evaluate the quality of pedestrian proposals during inference by measuring the semantic distance between the proposal and the exemplar dictionary. Extensive experiments on both daytime and nighttime pedestrian detection validate the effectiveness of the proposed method.
翻訳日:2021-11-18 14:41:07 公開日:2021-11-17
# 深部畳み込み特徴に基づく非線形強度ソナー画像マッチング

Nonlinear Intensity Sonar Image Matching based on Deep Convolution Features ( http://arxiv.org/abs/2111.08994v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Yi Wu, Haijun Feng, Citong Luo(参考訳) 深海探査の分野では、ソナーが唯一の効率的な長距離センシング装置である。 ノイズ干渉や低目標強度、背景ダイナミクスといった複雑な水中環境は、ソナーイメージングに多くの悪影響を与えている。 その中でも非線形強度の問題は極めて一般的である。 これは音響画像の異方性としても知られており、AUVがソナーを携帯して異なる角度から同じターゲットを検出するとき、画像対の強度差が非常に大きい場合があり、従来のマッチングアルゴリズムはほとんど効果がない。 しかし、画像マッチングはナビゲーション、ポジショニング、マッピングといった包括的なタスクの基礎となっている。 したがって、堅牢で正確なマッチング結果を得ることは非常に貴重である。 本稿では,位相情報と深部畳み込み特徴に基づく組み合わせマッチング手法を提案する。 1つはソナー画像の局所的および大域的位置の類似性を測定するために深部畳み込み特徴を用いることができ、もう1つはソナー画像のキーターゲット位置において局所的特徴マッチングを行うことができることである。 この手法は複雑な手動設計を必要とせず、非線形強度ソナー画像のマッチング処理をエンドツーエンドで完了させる。 AUVが捉えた深海ソナー画像に特徴マッチング実験を行い,提案手法の精度とロバスト性について検討した。

In the field of deep-sea exploration, sonar is presently the only efficient long-distance sensing device. The complicated underwater environment, such as noise interference, low target intensity or background dynamics, has brought many negative effects on sonar imaging. Among them, the problem of nonlinear intensity is extremely prevalent. It is also known as the anisotropy of acoustic imaging, that is, when AUVs carry sonar to detect the same target from different angles, the intensity difference between image pairs is sometimes very large, which makes the traditional matching algorithm almost ineffective. However, image matching is the basis of comprehensive tasks such as navigation, positioning, and mapping. Therefore, it is very valuable to obtain robust and accurate matching results. This paper proposes a combined matching method based on phase information and deep convolution features. It has two outstanding advantages: one is that deep convolution features could be used to measure the similarity of the local and global positions of the sonar image; the other is that local feature matching could be performed at the key target position of the sonar image. This method does not need complex manual design, and completes the matching task of nonlinear intensity sonar images in a close end-to-end manner. Feature matching experiments are carried out on the deep-sea sonar images captured by AUVs, and the results show that our proposal has good matching accuracy and robustness.
翻訳日:2021-11-18 14:40:46 公開日:2021-11-17
# (参考訳) 分布外データに基づくディープネットワークの一般化と検証

Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data ( http://arxiv.org/abs/2111.09190v1 )

ライセンス: CC BY 4.0
Rui Hu, Jitao Sang, Jinqiang Wang, Rui Hu, Chaoquan Jiang(参考訳) ディープネットワークモデルは、In-Distribution(ID)データでは優れた性能を発揮するが、Out-Of-Distribution(OOD)データでは著しく失敗する可能性がある。 OODの一般化の改善に焦点が当てられているが、OODデータを扱うモデルの性能を評価することにはほとんど注意が払われている。 本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計し,実用性能を正確に評価することを目的とする。 分析は,OODデータを生成するために,3種類の分布シフトの分類を導入した。 1) 単一モデルの実際の性能を反映せず、OODデータの下で異なるモデルの比較も行わない場合、IDテストは失敗する。 2) IDテストの失敗は, 対応する分布シフトから得られた学習限界と条件の急激な相関に説明できる。 そこで本研究では,OODテストの新たなパラダイムを提案するとともに,モデルデバッギングのガイドとなるモデルのバグを見つけるためのOODテスト結果の活用方法について検討する。

Deep network models perform excellently on In-Distribution (ID) data, but can significantly fail on Out-Of-Distribution (OOD) data. While developing methods focus on improving OOD generalization, few attention has been paid to evaluating the capability of models to handle OOD data. This study is devoted to analyzing the problem of experimental ID test and designing OOD test paradigm to accurately evaluate the practical performance. Our analysis is based on an introduced categorization of three types of distribution shifts to generate OOD data. Main observations include: (1) ID test fails in neither reflecting the actual performance of a single model nor comparing between different models under OOD data. (2) The ID test failure can be ascribed to the learned marginal and conditional spurious correlations resulted from the corresponding distribution shifts. Based on this, we propose novel OOD test paradigms to evaluate the generalization capacity of models to unseen data, and discuss how to use OOD test results to find bugs of models to guide model debugging.
翻訳日:2021-11-18 14:39:27 公開日:2021-11-17
# 空港タクシーの時間予測と耐久:畳み込みニューラルネットワークによるアプローチ

Airport Taxi Time Prediction and Alerting: A Convolutional Neural Network Approach ( http://arxiv.org/abs/2111.09139v1 )

ライセンス: Link先を確認
Erik Vargo, Alex Tien, Arian Jafari(参考訳) 本稿では,空港における平均タクシー走行時間が,次の1時間以内に予め定義された閾値を超えるかどうかを予測し,判定するための新しい手法を提案する。 このドメインでの以前の作業は、飛行毎のタクシーの運行時間を予測することに集中しており、ゲートから滑走路までのタクシー活動のモデル化に多大な労力とデータを必要としている。 表面レーダ情報から直接、最小限の処理で学習し、空港表面データ(例えば、滑走路構成、タクシープロセスにおける航空機の状態)を人工知能(ai)によって暗黙的かつ自動的に推測するように、空港表面データを組み込んだコンピュータビジョンベースのモデルを提案する。

This paper proposes a novel approach to predict and determine whether the average taxi- out time at an airport will exceed a pre-defined threshold within the next hour of operations. Prior work in this domain has focused exclusively on predicting taxi-out times on a flight-by-flight basis, which requires significant efforts and data on modeling taxiing activities from gates to runways. Learning directly from surface radar information with minimal processing, a computer vision-based model is proposed that incorporates airport surface data in such a way that adaptation-specific information (e.g., runway configuration, the state of aircraft in the taxiing process) is inferred implicitly and automatically by Artificial Intelligence (AI).
翻訳日:2021-11-18 14:22:26 公開日:2021-11-17
# アンサンブルを用いたアグレッシブq-learning:高サンプル効率と高漸近性能の両立

Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance ( http://arxiv.org/abs/2111.09159v1 )

ライセンス: Link先を確認
Yanqiu Wu, Xinyue Chen, Che Wang, Yiming Zhang, Zijian Zhou, Keith W. Ross(参考訳) 近年,批評家の分布表現を用いたTruncated Quantile Critics (TQC)は, MuJoCo連続制御ベンチマークスイートのすべての環境において,最先端の漸近的トレーニング性能を提供することを示した。 また,近年では,高度更新データ比と目標ランダム化を用いたランダム化アンサンブルダブルq-learning (redq) が,最先端モデルベース手法に匹敵する高いサンプル効率を達成した。 本稿では,redqのサンプル効率とtqcの漸近的性能を向上し,トレーニングのすべての段階での総合的最先端性能を提供する,新しいモデルフリーアルゴリズムであるアグレッシブq-learning with ensembles(aqe)を提案する。 さらに、AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。

Recently, Truncated Quantile Critics (TQC), using distributional representation of critics, was shown to provide state-of-the-art asymptotic training performance on all environments from the MuJoCo continuous control benchmark suite. Also recently, Randomized Ensemble Double Q-Learning (REDQ), using a high update-to-data ratio and target randomization, was shown to achieve high sample efficiency that is competitive with state-of-the-art model-based methods. In this paper, we propose a novel model-free algorithm, Aggressive Q-Learning with Ensembles (AQE), which improves the sample-efficiency performance of REDQ and the asymptotic performance of TQC, thereby providing overall state-of-the-art performance during all stages of training. Moreover, AQE is very simple, requiring neither distributional representation of critics nor target randomization.
翻訳日:2021-11-18 14:22:14 公開日:2021-11-17
# IV-GNN : グラフニューラルネットワークを用いた実時間値データ処理

IV-GNN : Interval Valued Data Handling Using Graph Neural Network ( http://arxiv.org/abs/2111.09194v1 )

ライセンス: Link先を確認
Sucheta Dawn and Sanghamitra Bandyopadhyay(参考訳) Graph Neural Network(GNN)は、グラフ上で標準的な機械学習を実行する強力なツールである。 非ユークリッドグラフのようなデータにおける全てのノードのユークリッド表現を得るため、GNNはグラフのエッジに沿って、近隣の集約と情報の組み合わせを繰り返す。 文献に多くのGNN変種があるにもかかわらず、インターバル値の特徴を持つノードを持つグラフを扱うモデルはない。 本稿では,新しいGNNモデルであるInterval-ValuedGraph Neural Networkを提案する。 我々のモデルは、任意の可算集合は常に可算集合 $R^{n}$ の部分集合であるので、既存のモデルよりもはるかに一般である。 ここでは、区間値の特徴ベクトルを扱うために、区間の新たな集約方式を提案し、異なる区間構造を捉えるための表現力を示す。 我々は,グラフ分類タスクのモデルに関する理論的知見を,複数のベンチマークネットワークおよび合成データセット上での最先端モデルとの比較により検証した。

Graph Neural Network (GNN) is a powerful tool to perform standard machine learning on graphs. To have a Euclidean representation of every node in the Non-Euclidean graph-like data, GNN follows neighbourhood aggregation and combination of information recursively along the edges of the graph. Despite having many GNN variants in the literature, no model can deal with graphs having nodes with interval-valued features. This article proposes an Interval-ValuedGraph Neural Network, a novel GNN model where, for the first time, we relax the restriction of the feature space being countable. Our model is much more general than existing models as any countable set is always a subset of the universal set $R^{n}$, which is uncountable. Here, to deal with interval-valued feature vectors, we propose a new aggregation scheme of intervals and show its expressive power to capture different interval structures. We validate our theoretical findings about our model for graph classification tasks by comparing its performance with those of the state-of-the-art models on several benchmark network and synthetic datasets.
翻訳日:2021-11-18 14:21:58 公開日:2021-11-17
# SmoothMix:認証ロバスト性のための信頼度校正型スムース分類器の訓練

SmoothMix: Training Confidence-calibrated Smoothed Classifiers for Certified Robustness ( http://arxiv.org/abs/2111.09277v1 )

ライセンス: Link先を確認
Jongheon Jeong, Sejun Park, Minkyu Kim, Heung-Chang Lee, Doguk Kim, Jinwoo Shin(参考訳) ランダム化平滑化は、現在最先端の手法であり、$\ell_2$-adversarial 摂動に対してニューラルネットワークから確実に堅牢な分類器を構築する。 このパラダイムでは、分類器のロバスト性は予測信頼度、すなわち滑らかな分類器からの高い信頼度と一致している。 このことは、スムーズな分類器の信頼性の校正という観点から、精度と堅牢性の基本的なトレードオフを再考する動機となっている。 本稿では,SmoothMixという簡単なトレーニング手法を提案し,スムーズな分類器のロバスト性を自己混合により制御し,各入力に対する逆摂動方向に沿ったサンプルの凸結合を学習する。 提案手法は,スムーズな分類器の場合の頑健さが制限される原因として,自信過剰なオフクラス標本を効果的に同定し,これらの試料間の新たな決定境界を適応的に設定し,より堅牢性を高める。 提案手法は,従来のロバストなトレーニング手法と比較して,平滑化分類器の認証値である$\ell_2$-robustnessを大幅に改善できることが実証された。

Randomized smoothing is currently a state-of-the-art method to construct a certifiably robust classifier from neural networks against $\ell_2$-adversarial perturbations. Under the paradigm, the robustness of a classifier is aligned with the prediction confidence, i.e., the higher confidence from a smoothed classifier implies the better robustness. This motivates us to rethink the fundamental trade-off between accuracy and robustness in terms of calibrating confidences of a smoothed classifier. In this paper, we propose a simple training scheme, coined SmoothMix, to control the robustness of smoothed classifiers via self-mixup: it trains on convex combinations of samples along the direction of adversarial perturbation for each input. The proposed procedure effectively identifies over-confident, near off-class samples as a cause of limited robustness in case of smoothed classifiers, and offers an intuitive way to adaptively set a new decision boundary between these samples for better robustness. Our experimental results demonstrate that the proposed method can significantly improve the certified $\ell_2$-robustness of smoothed classifiers compared to existing state-of-the-art robust training methods.
翻訳日:2021-11-18 14:21:42 公開日:2021-11-17
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-18 14:19:48 公開日:2021-11-17
# 低文長独立レイテンシを用いた高品質ストリーミング音声合成

High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency ( http://arxiv.org/abs/2111.09052v1 )

ライセンス: Link先を確認
Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Aimilios Chalamandaris, Georgia Maniati, Panos Kakoulidis, Spyros Raptis, June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis(参考訳) 本稿では,リアルタイムアプリケーションに適した低レイテンシなエンドツーエンド音声合成システムを提案する。 本システムは,自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと,波形生成のためのLPCNetボコーダから構成される。 タコトロン1モデルと2モデルの両方からモジュールを採用する音響モデルアーキテクチャを提案し,最近提案された純粋に位置に基づくアテンション機構を用いて,任意の文長生成に適した安定性を確保する。 推論中、デコーダはロール解除され、音響特徴生成はストリーミング方式で行われ、文長とは独立なほぼ一定なレイテンシが実現される。 実験の結果、音響モデルは、コンピュータのcpuでリアルタイムに約31倍、モバイルcpuで6.5倍のレイテンシで特徴列を生成でき、両方のデバイスでリアルタイムアプリケーションに必要な条件を満足できることがわかった。 完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができる。

This paper presents an end-to-end text-to-speech system with low latency on a CPU, suitable for real-time applications. The system is composed of an autoregressive attention-based sequence-to-sequence acoustic model and the LPCNet vocoder for waveform generation. An acoustic model architecture that adopts modules from both the Tacotron 1 and 2 models is proposed, while stability is ensured by using a recently proposed purely location-based attention mechanism, suitable for arbitrary sentence length generation. During inference, the decoder is unrolled and acoustic feature generation is performed in a streaming manner, allowing for a nearly constant latency which is independent from the sentence length. Experimental results show that the acoustic model can produce feature sequences with minimal latency about 31 times faster than real-time on a computer CPU and 6.5 times on a mobile CPU, enabling it to meet the conditions required for real-time applications on both devices. The full end-to-end system can generate almost natural quality speech, which is verified by listening tests.
翻訳日:2021-11-18 14:19:29 公開日:2021-11-17
# 音韻特徴を用いた言語間低リソース話者適応

Cross-lingual Low Resource Speaker Adaptation Using Phonological Features ( http://arxiv.org/abs/2111.09075v1 )

ライセンス: Link先を確認
Georgia Maniati, Nikolaos Ellinas, Konstantinos Markopoulos, Georgios Vamvoukakis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris and Pirros Tsiakoulis(参考訳) 連続列 tts への入力として音素の代わりに音韻的特徴を用いるという考えは、最近、ゼロショット多言語音声合成のために提案されている。 このアプローチは、ネイティブテキストストリームに埋め込まれた外部テキストのシームレスな発話を容易にするため、コードスイッチングに有用である。 本研究では,異なる言語に共通する音韻的特徴の集合に基づいて,言語に依存しない多話者モデルを訓練し,言語間話者適応の実現を目指す。 我々はまず,言語音韻的類似性が複数のソース・ターゲット言語の組み合わせの言語間TSに与える影響を実験した。 その後、視聴覚言語または未認識言語において、新たな話者の声の非常に限られたデータを用いてモデルを微調整し、対象話者のアイデンティティを保ちながら、等質の合成音声を実現する。 対象話者データの32発話と8発話を数えることで、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。 2つの適応発話しか利用できない極端なケースでは、我々のモデルは、一見の適応言語シナリオと未認識の適応言語シナリオの両方において、パフォーマンスが似ているため、少数の学習者として振る舞うことが分かりました。

The idea of using phonological features instead of phonemes as input to sequence-to-sequence TTS has been recently proposed for zero-shot multilingual speech synthesis. This approach is useful for code-switching, as it facilitates the seamless uttering of foreign text embedded in a stream of native text. In our work, we train a language-agnostic multispeaker model conditioned on a set of phonologically derived features common across different languages, with the goal of achieving cross-lingual speaker adaptation. We first experiment with the effect of language phonological similarity on cross-lingual TTS of several source-target language combinations. Subsequently, we fine-tune the model with very limited data of a new speaker's voice in either a seen or an unseen language, and achieve synthetic speech of equal quality, while preserving the target speaker's identity. With as few as 32 and 8 utterances of target speaker data, we obtain high speaker similarity scores and naturalness comparable to the corresponding literature. In the extreme case of only 2 available adaptation utterances, we find that our model behaves as a few-shot learner, as the performance is similar in both the seen and unseen adaptation language scenarios.
翻訳日:2021-11-18 14:19:08 公開日:2021-11-17
# 音素レベル韻律制御に基づくラッピング歌声合成

Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control ( http://arxiv.org/abs/2111.09146v1 )

ライセンス: Link先を確認
Konstantinos Markopoulos, Nikolaos Ellinas, Alexandra Vioni, Myrsini Christidou, Panos Kakoulidis, Georgios Vamvoukakis, Georgia Maniati, June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis and Aimilios Chalamandaris(参考訳) 本稿では,任意の話者の声に適応可能なテキスト・ラッピング・歌唱システムを提案する。 読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを使用し、音素レベルで韻律制御を行う。 また,従来のDSPアルゴリズムに基づくデータセット拡張と韻律操作についても検討した。 ニューラルTSモデルは、未確認の話者の限られた録音に微調整され、ターゲットの話者の声によるラッピング/歌唱合成を可能にする。 システムの詳細パイプラインは、カペラ歌からの目標ピッチと持続時間値の抽出と、合成前のターゲット話者の有効な音符の範囲への変換を含む。 また、WSOLAによる出力の韻律的操作のさらなる段階も、目標期間値の整合性を改善するために検討した。 合成音声は、楽器伴奏トラックと混合して完全な歌を生成することができる。 提案システムは,読み上げ専用学習データから合成歌唱音声を生成することを目的とした代替システムと比較して,主観的聴取テストにより評価する。 提案手法は,自然性を高めた高品質なラッピング/歌唱音声を生成できることを示す。

In this paper, a text-to-rapping/singing system is introduced, which can be adapted to any speaker's voice. It utilizes a Tacotron-based multispeaker acoustic model trained on read-only speech data and which provides prosody control at the phoneme level. Dataset augmentation and additional prosody manipulation based on traditional DSP algorithms are also investigated. The neural TTS model is fine-tuned to an unseen speaker's limited recordings, allowing rapping/singing synthesis with the target's speaker voice. The detailed pipeline of the system is described, which includes the extraction of the target pitch and duration values from an a capella song and their conversion into target speaker's valid range of notes before synthesis. An additional stage of prosodic manipulation of the output via WSOLA is also investigated for better matching the target duration values. The synthesized utterances can be mixed with an instrumental accompaniment track to produce a complete song. The proposed system is evaluated via subjective listening tests as well as in comparison to an available alternate system which also aims to produce synthetic singing voice from read-only training data. Results show that the proposed approach can produce high quality rapping/singing voice with increased naturalness.
翻訳日:2021-11-18 14:18:46 公開日:2021-11-17
# 住宅短期負荷予測のための安全なフェデレーション学習

Secure Federated Learning for Residential Short Term Load Forecasting ( http://arxiv.org/abs/2111.09248v1 )

ライセンス: Link先を確認
Joaquin Delgado Fernandez, Sergio Potenciano Menci, Charles Lee, Gilbert Fridgen(参考訳) 断続的かつ再生可能エネルギー源の導入は、電力システムにおける需要予測の重要性を高めている。 スマートメーターは、提供される測定粒度のために需要予測において重要な役割を果たす。 消費者のプライバシー上の懸念、競合相手やサードパーティとデータを共有するユーティリティやベンダの排除、規制の制約はスマートメーター予測の顔に制約がある。 本稿では,スマートメータデータを用いた短時間需要予測のための協調機械学習手法について検討する。 プライバシ保護技術とフェデレーション学習により、消費者がデータ、それを用いて生成されたモデル(識別プライバシ)、および通信手段(セキュアアグリゲーション)の両方に関する機密性を確保することができる。 評価された手法は、分散的で協調的でプライベートなシステムによって従来の集中型アプローチをどのように投影できるかを探求するいくつかのシナリオを考慮に入れている。 評価の結果、ほぼ完全なプライバシー予算(1.39,$10e^{-5}$)と(2.01,$10e^{-5}$)が得られ、性能上の妥協は無視できた。

The inclusion of intermittent and renewable energy sources has increased the importance of demand forecasting in power systems. Smart meters can play a critical role in demand forecasting due to the measurement granularity they provide. Consumers' privacy concerns, reluctance of utilities and vendors to share data with competitors or third parties, and regulatory constraints are some constraints smart meter forecasting faces. This paper examines a collaborative machine learning method for short-term demand forecasting using smart meter data as a solution to the previous constraints. Privacy preserving techniques and federated learning enable to ensure consumers' confidentiality concerning both, their data, the models generated using it (Differential Privacy), and the communication mean (Secure Aggregation). The methods evaluated take into account several scenarios that explore how traditional centralized approaches could be projected in the direction of a decentralized, collaborative and private system. The results obtained over the evaluations provided almost perfect privacy budgets (1.39,$10e^{-5}$) and (2.01,$10e^{-5}$) with a negligible performance compromise.
翻訳日:2021-11-18 14:15:53 公開日:2021-11-17
# Max-Min グループバンド

Max-Min Grouped Bandits ( http://arxiv.org/abs/2111.08862v1 )

ライセンス: Link先を確認
Zhenlin Wang and Jonathan Scarlett(参考訳) 本稿では, 腕を重なり合う可能性のあるグループに配置し, 最下位の腕が平均報酬が最も高いグループを見つけることを目的とした, マックスミン群バンディットと呼ばれるマルチアームバンディット問題を提案する。 この問題はレコメンデーションシステムのようなアプリケーションにも関心があり、広く研究されているロバスト最適化問題とも密接に関連している。 逐次除去とロバスト最適化に基づく2つのアルゴリズムを示し,サンプル数の上界を導出し,最大ミン最適群や近似最適群,アルゴリズムに依存しない下界を求めることを保証する。 興味のある場合における境界の厳密さの程度と、一様に厳密な境界を導出することの難しさについて論じる。

In this paper, we introduce a multi-armed bandit problem termed max-min grouped bandits, in which the arms are arranged in possibly-overlapping groups, and the goal is to find a group whose worst arm has the highest mean reward. This problem is of interest in applications such as recommendation systems, and is also closely related to widely-studied robust optimization problems. We present two algorithms based successive elimination and robust optimization, and derive upper bounds on the number of samples to guarantee finding a max-min optimal or near-optimal group, as well as an algorithm-independent lower bound. We discuss the degree of tightness of our bounds in various cases of interest, and the difficulties in deriving uniformly tight bounds.
翻訳日:2021-11-18 14:15:34 公開日:2021-11-17
# 非パラメトリックオンライン学習の高速化 - ゲームにおける実現可能性から学習へ-

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games ( http://arxiv.org/abs/2111.08911v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Noah Golowich(参考訳) 非パラメトリックオンライン回帰の設定における収束の速さ、すなわち、複雑性が有界な任意の関数クラスに対して後悔が定義される場合について検討する。 絶対損失を伴う非パラメトリックオンライン回帰(nonparametric online regression)の実現可能設定において、我々は、仮説クラスの逐次的脂肪分散次元の観点で、ほぼ最適の誤りを生じさせる確率的固有学習アルゴリズムを提案する。 リトルストーン次元 $d$ のクラスを持つオンライン分類の設定において、我々の境界は $d \cdot {\rm poly} \log t$ となる。 この結果は、適切な学習者がほぼ最適の誤り境界を達成できるかどうかという疑問に答える。以前はオンライン分類においても、最もよく知られた誤り境界は$\tilde O( \sqrt{dT})$であった。 さらに、実数値(回帰)設定では、この作業に先立って、不適切な学習者には最適な誤り境界が知られていなかった。 以上の結果を用いて,Littlestone 次元$d$の汎用バイナリゲームに対して,各プレイヤーが後悔する$\tilde O(d^{3/4} \cdot T^{1/4})$に対して独立学習アルゴリズムを示す。 この結果は、Syrgkanis et al. (2015) の類似の結果を一般化し、有限ゲームにおいて最適な後悔は、対数設定で$O(\sqrt{T})$からゲーム設定で$O(T^{1/4})$に加速できることを示した。 上記の結果を確立するために,実数値クラスにバウンドする最適誤りを達成するための階層的集約ルール,hannekeらオンライン実現可能な学習者のマルチスケール拡張(2021年),非パラメトリック学習アルゴリズムの出力が安定であることを示すアプローチ,オンライン学習可能なすべてのゲームにおいてminimax定理が成立する証拠など,いくつかの新しい手法を導入する。

We study fast rates of convergence in the setting of nonparametric online regression, namely where regret is defined with respect to an arbitrary function class which has bounded complexity. Our contributions are two-fold: - In the realizable setting of nonparametric online regression with the absolute loss, we propose a randomized proper learning algorithm which gets a near-optimal mistake bound in terms of the sequential fat-shattering dimension of the hypothesis class. In the setting of online classification with a class of Littlestone dimension $d$, our bound reduces to $d \cdot {\rm poly} \log T$. This result answers a question as to whether proper learners could achieve near-optimal mistake bounds; previously, even for online classification, the best known mistake bound was $\tilde O( \sqrt{dT})$. Further, for the real-valued (regression) setting, the optimal mistake bound was not even known for improper learners, prior to this work. - Using the above result, we exhibit an independent learning algorithm for general-sum binary games of Littlestone dimension $d$, for which each player achieves regret $\tilde O(d^{3/4} \cdot T^{1/4})$. This result generalizes analogous results of Syrgkanis et al. (2015) who showed that in finite games the optimal regret can be accelerated from $O(\sqrt{T})$ in the adversarial setting to $O(T^{1/4})$ in the game setting. To establish the above results, we introduce several new techniques, including: a hierarchical aggregation rule to achieve the optimal mistake bound for real-valued classes, a multi-scale extension of the proper online realizable learner of Hanneke et al. (2021), an approach to show that the output of such nonparametric learning algorithms is stable, and a proof that the minimax theorem holds in all online learnable games.
翻訳日:2021-11-18 14:15:20 公開日:2021-11-17
# 一般分布型正規化サブバンド適応フィルタ

A Generalized Proportionate-Type Normalized Subband Adaptive Filter ( http://arxiv.org/abs/2111.08952v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Ching-Hua Lee, Bhaskar D. Rao, Harinath Garudadri(参考訳) 重み付きノルムで正規化されたサブバンド誤差の最小二乗という新しい設計基準が、比例型正規化サブバンド適応フィルタリング(PtNSAF)フレームワークの一般化に利用できることを示す。 新しい基準はサブバンドエラーを直接ペナルティ化し、減衰正規化ニュートン法を用いて最小化されるスパーシティペナルティ項を含む。 汎用PtNSAF (GPtNSAF) のシステム同定問題に対するコンピュータシミュレーションによる影響について検討した。 具体的には, 準スパース, スパース, 分散システムにおいて, サブバンド数の違いと, 種々のスパースペナルティ項を用いることによる効果について検討する。 その結果, ターゲット系が準分散あるいは分散的である場合, サブバンド数の増加の利点は推定フィルタ係数のスパース性を促進することよりも大きいことがわかった。 一方で、スパースターゲットシステムでは、スパース性を促進することがより重要になる。 より重要なことに、この2つの側面は収束をスピードアップするためにgptnsafに補完的および付加的な利点を提供する。

We show that a new design criterion, i.e., the least squares on subband errors regularized by a weighted norm, can be used to generalize the proportionate-type normalized subband adaptive filtering (PtNSAF) framework. The new criterion directly penalizes subband errors and includes a sparsity penalty term which is minimized using the damped regularized Newton's method. The impact of the proposed generalized PtNSAF (GPtNSAF) is studied for the system identification problem via computer simulations. Specifically, we study the effects of using different numbers of subbands and various sparsity penalty terms for quasi-sparse, sparse, and dispersive systems. The results show that the benefit of increasing the number of subbands is larger than promoting sparsity of the estimated filter coefficients when the target system is quasi-sparse or dispersive. On the other hand, for sparse target systems, promoting sparsity becomes more important. More importantly, the two aspects provide complementary and additive benefits to the GPtNSAF for speeding up convergence.
翻訳日:2021-11-18 14:14:44 公開日:2021-11-17
# ペアワイズlogratiosを用いた合成データの教師付き学習への3つのアプローチ

Three approaches to supervised learning for compositional data with pairwise logratios ( http://arxiv.org/abs/2111.08953v1 )

ライセンス: Link先を確認
Germa Coenders and Michael Greenacre(参考訳) 構成データ分析の一般的なアプローチは、対数によるデータ変換である。 構成部品の対間の対数比(pairwise logratios)は、多くの研究課題において最も容易に解釈できる。 部品の数が大きければ、例えば、合成データセットにおける対数分散の最大割合を説明する対数対数の段階的選択に基づく教師なし学習法によって、ある種の対数選択が必須となる。 本稿では,一般化線形モデルにおいて従属変数を説明するのが最善であるペアワイズ対数式を選択するための3つのステップワイズ教師付き学習法を提案する。 最初の方法は制限のない検索を特徴とし、任意の対のlogratioを選択できる。 この手法は、対数のいくつかの部分の対が重なり合う場合、複雑な解釈を持つが、最も正確な予測につながる。 第2の方法は1回しか発生しない部分を制限するため、対応する対数法は直感的に解釈できる。 第3の方法は加算対数を使用するので、$K-1$選択対数には正確に$K$部分が含まれる。 この方法では、説明力が最も高い部分集合を探索する。 置換が特定されると、研究者の好む対比表現は、対対対対法だけでなく、その後の分析で用いられる。 本手法は,理論的知識に基づいて,対数や非構成共変をモデルに強制することを可能にし,ボンフェロニ補正による情報測度や統計的意義に基づいて,様々な停止基準が利用可能である。 クローン病を予測した研究から,データセット上の3つのアプローチの例を示す。 第1の方法は予測力の点で優れ、第2の方法は解釈可能性において優れている。

The common approach to compositional data analysis is to transform the data by means of logratios. Logratios between pairs of compositional parts (pairwise logratios) are the easiest to interpret in many research problems. When the number of parts is large, some form of logratio selection is a must, for instance by means of an unsupervised learning method based on a stepwise selection of the pairwise logratios that explain the largest percentage of the logratio variance in the compositional dataset. In this article we present three alternative stepwise supervised learning methods to select the pairwise logratios that best explain a dependent variable in a generalized linear model, each geared for a specific problem. The first method features unrestricted search, where any pairwise logratio can be selected. This method has a complex interpretation if some pairs of parts in the logratios overlap, but it leads to the most accurate predictions. The second method restricts parts to occur only once, which makes the corresponding logratios intuitively interpretable. The third method uses additive logratios, so that $K-1$ selected logratios involve exactly $K$ parts. This method in fact searches for the subcomposition with the highest explanatory power. Once the subcomposition is identified, the researcher's favourite logratio representation may be used in subsequent analyses, not only pairwise logratios. Our methodology allows logratios or non-compositional covariates to be forced into the models based on theoretical knowledge, and various stopping criteria are available based on information measures or statistical significance with the Bonferroni correction. We present an illustration of the three approaches on a dataset from a study predicting Crohn's disease. The first method excels in terms of predictive power, and the other two in interpretability.
翻訳日:2021-11-18 14:14:27 公開日:2021-11-17
# (参考訳) 視覚関係を構成するための学習

Learning to Compose Visual Relations ( http://arxiv.org/abs/2111.09297v1 )

ライセンス: CC0 1.0
Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba(参考訳) 私たちの周りの視覚世界は、構造化されたオブジェクトの集合とその関連関係として記述できる。 部屋のイメージは、基礎となるオブジェクトとその関連関係の記述のみを考慮すれば、偽装することができる。 個々のオブジェクトをまとめて構成するディープニューラルネットワークの設計には大きな成果があるが、個々のオブジェクト間の関係を構成するための作業は少ない。 主な困難は、オブジェクトの配置が互いに独立であるが、それらの関係が絡み合って互いに依存していることである。 この問題を回避するため、既存の研究は主にテキストやグラフの形で、全体エンコーダを用いて関係を構成する。 本研究では,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。 このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。 さらに,モデルの分解により,基礎となる関係シーン構造を効果的に理解できることを示した。 プロジェクトページ: https://composevisualrelations.github.io/

The visual world around us can be described as a structured set of objects and their associated relations. An image of a room may be conjured given only the description of the underlying objects and their associated relations. While there has been significant work on designing deep neural networks which may compose individual objects together, less work has been done on composing the individual relations between objects. A principal difficulty is that while the placement of objects is mutually independent, their relations are entangled and dependent on each other. To circumvent this issue, existing works primarily compose relations by utilizing a holistic encoder, in the form of text or graphs. In this work, we instead propose to represent each relation as an unnormalized density (an energy-based model), enabling us to compose separate relations in a factorized manner. We show that such a factorized decomposition allows the model to both generate and edit scenes that have multiple sets of relations more faithfully. We further show that decomposition enables our model to effectively understand the underlying relational scene structure. Project page at: https://composevisualrelations.github.io/.
翻訳日:2021-11-18 14:12:15 公開日:2021-11-17
# 代理説明の不確実性定量化--順序コンセンサスアプローチ

Uncertainty Quantification of Surrogate Explanations: an Ordinal Consensus Approach ( http://arxiv.org/abs/2111.09121v1 )

ライセンス: Link先を確認
Jonas Schulz, Rafael Poyiadzi, Raul Santos-Rodriguez(参考訳) ブラックボックス機械学習モデルの説明可能性は、特に医療や自動運転車といった重要なアプリケーションにデプロイする場合に不可欠である。 既存のアプローチはモデルの予測のための説明を生成するが、そのような説明の質と信頼性をどのように評価するかは未解決である。 本稿では,説明の信頼性を判断するツールを実践者に提供するために,さらに一歩進める。 この目的のために,多様なブートストラップ型サロゲート説明器群間の順序コンセンサスを測定することにより,与えられた説明の不確実性の推定を行う。 我々は,アンサンブル手法を用いて多様性を奨励する一方で,評価手法を通じて説明者の集合に含まれる情報を集約するメトリクスを提案し,分析する。 我々は、最先端の畳み込みニューラルネットワークアンサンブルの実験を通して、このアプローチの性質を実証的に示す。 さらに,不確実性推定がユーザに対して,標準的な代理説明者から生じているもの以外の具体的な洞察を与える状況の具体例を示す。

Explainability of black-box machine learning models is crucial, in particular when deployed in critical applications such as medicine or autonomous cars. Existing approaches produce explanations for the predictions of models, however, how to assess the quality and reliability of such explanations remains an open question. In this paper we take a step further in order to provide the practitioner with tools to judge the trustworthiness of an explanation. To this end, we produce estimates of the uncertainty of a given explanation by measuring the ordinal consensus amongst a set of diverse bootstrapped surrogate explainers. While we encourage diversity by using ensemble techniques, we propose and analyse metrics to aggregate the information contained within the set of explainers through a rating scheme. We empirically illustrate the properties of this approach through experiments on state-of-the-art Convolutional Neural Network ensembles. Furthermore, through tailored visualisations, we show specific examples of situations where uncertainty estimates offer concrete actionable insights to the user beyond those arising from standard surrogate explainers.
翻訳日:2021-11-18 13:50:06 公開日:2021-11-17
# GFlowNetの基礎

GFlowNet Foundations ( http://arxiv.org/abs/2111.09266v1 )

ライセンス: Link先を確認
Yoshua Bengio, Tristan Deleu, Edward J. Hu, Salem Lahlou, Mo Tiwari and Emmanuel Bengio(参考訳) Generative Flow Networks (GFlowNets) は、与えられた報酬関数に比例したおよそサンプルをトレーニング目的として、アクティブな学習コンテキストにおける多様な候補セットをサンプリングする手法として導入された。 本稿では,gflownets のさらなる理論的性質について述べる。 これらは、ある変数が不特定であり、特に興味があるのは、集合やグラフのような複合オブジェクト上の分布を表現することができる、合同確率分布と対応する辺分布の推定に使うことができる。 GFlowNetsは、計算コストのかかるMCMCメソッドによって、単一のが訓練された生成パスで実行される作業を記憶している。 また、分割関数や自由エネルギー、部分集合(サブグラフ)が与えられたスーパー集合(スーパーグラフ)の条件付き確率、与えられた集合(グラフ)のすべてのスーパー集合(スーパーグラフ)上の限界分布の推定にも使うことができる。 本稿では,エントロピーと相互情報の推定を可能にするバリエーション,パレートフロンティアからのサンプリング,報酬最大化政策への接続,確率環境への拡張,連続作用,モジュラーエネルギー関数などを紹介する。

Generative Flow Networks (GFlowNets) have been introduced as a method to sample a diverse set of candidates in an active learning context, with a training objective that makes them approximately sample in proportion to a given reward function. In this paper, we show a number of additional theoretical properties of GFlowNets. They can be used to estimate joint probability distributions and the corresponding marginal distributions where some variables are unspecified and, of particular interest, can represent distributions over composite objects like sets and graphs. GFlowNets amortize the work typically done by computationally expensive MCMC methods in a single but trained generative pass. They could also be used to estimate partition functions and free energies, conditional probabilities of supersets (supergraphs) given a subset (subgraph), as well as marginal distributions over all supersets (supergraphs) of a given set (graph). We introduce variations enabling the estimation of entropy and mutual information, sampling from a Pareto frontier, connections to reward-maximizing policies, and extensions to stochastic environments, continuous actions and modular energy functions.
翻訳日:2021-11-18 13:49:49 公開日:2021-11-17
# 条件付き確率に基づくランク整合順序回帰のためのディープニューラルネットワーク

Deep Neural Networks for Rank-Consistent Ordinal Regression Based On Conditional Probabilities ( http://arxiv.org/abs/2111.08851v1 )

ライセンス: Link先を確認
Xintong Shi, Wenzhi Cao, Sebastian Raschka(参考訳) 近年、ディープニューラルネットワークは様々な分類やパターン認識タスクにおいて優れた予測性能を達成している。 しかし、実世界の多くの予測問題は順序応答変数を持ち、この順序情報は多カテゴリークロスエントロピーのような従来の分類損失によって無視される。 ディープニューラルネットワークのための順序回帰手法がこれに対処する。 そのような手法の1つは、初期のバイナリラベル拡張フレームワークに基づくCORAL法であり、重み付け制約を課すことで出力層タスク間のランク一貫性を実現する。 しかしながら、以前の実験では、コーラルのランク一貫性がパフォーマンスに有益であることを示していたが、重み共有制約はディープニューラルネットワークの表現性を厳しく制限する可能性がある。 本稿では,ニューラルネットワークの完全連結出力層において重み共有制約を必要としない,ランク整合順序回帰の代替手法を提案する。 条件付きトレーニングセットを用いた新しい学習方式により,条件付き確率分布の連鎖則を適用し,無条件のランク確率を求める。 各種データセットを用いた実験により,本手法の有効性が示され,重み共有制限がないことにより,サンゴ基準法に比べて性能が大幅に向上した。

In recent times, deep neural networks achieved outstanding predictive performance on various classification and pattern recognition tasks. However, many real-world prediction problems have ordinal response variables, and this ordering information is ignored by conventional classification losses such as the multi-category cross-entropy. Ordinal regression methods for deep neural networks address this. One such method is the CORAL method, which is based on an earlier binary label extension framework and achieves rank consistency among its output layer tasks by imposing a weight-sharing constraint. However, while earlier experiments showed that CORAL's rank consistency is beneficial for performance, the weight-sharing constraint could severely restrict the expressiveness of a deep neural network. In this paper, we propose an alternative method for rank-consistent ordinal regression that does not require a weight-sharing constraint in a neural network's fully connected output layer. We achieve this rank consistency by a novel training scheme using conditional training sets to obtain the unconditional rank probabilities through applying the chain rule for conditional probability distributions. Experiments on various datasets demonstrate the efficacy of the proposed method to utilize the ordinal target information, and the absence of the weight-sharing restriction improves the performance substantially compared to the CORAL reference approach.
翻訳日:2021-11-18 13:49:30 公開日:2021-11-17
# 授業ビデオ検索のための言語基底型マルチモーダルスキーマの誘導,編集,検索

Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval ( http://arxiv.org/abs/2111.09276v1 )

ライセンス: Link先を確認
Yue Yang, Joongwon Kim, Artemis Panagopoulou, Mark Yatskar, Chris Callison-Burch(参考訳) Schemataは複雑なタスクの構造化された表現で、複雑なタスクを中間ステップに分割することで人工知能を支援する。 本稿では,web ビデオからスキーマタを誘導し,未認識のタスクを汎用化し,映像検索性能の向上を目標とした新しいシステムを提案する。 本システムでは,(1)関連動画のタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することで,タスクを認識できないタスクに一般化する。 一般化により,より広い範囲のタスクを少量の学習データでカバーすることが可能となり,(3)未知のタスク名をクエリとしてゼロショット映像検索を行う。 提案手法は既存のビデオ検索手法よりも優れており,システムによって誘導されるスキーマは,他のモデルより優れていることを示す。

Schemata are structured representations of complex tasks that can aid artificial intelligence by allowing models to break down complex tasks into intermediate steps. We propose a novel system that induces schemata from web videos and generalizes them to capture unseen tasks with the goal of improving video retrieval performance. Our system proceeds in three major phases: (1) Given a task with related videos, we construct an initial schema for a task using a joint video-text model to match video segments with text representing steps from wikiHow; (2) We generalize schemata to unseen tasks by leveraging language models to edit the text within existing schemata. Through generalization, we can allow our schemata to cover a more extensive range of tasks with a small amount of learning data; (3) We conduct zero-shot instructional video retrieval with the unseen task names as the queries. Our schema-guided approach outperforms existing methods for video retrieval, and we demonstrate that the schemata induced by our system are better than those generated by other models.
翻訳日:2021-11-18 13:47:06 公開日:2021-11-17
# AlphaZeroにおけるチェス知識の獲得

Acquisition of Chess Knowledge in AlphaZero ( http://arxiv.org/abs/2111.09259v1 )

ライセンス: Link先を確認
Thomas McGrath and Andrei Kapishnikov and Nenad Toma\v{s}ev and Adam Pearce and Demis Hassabis and Been Kim and Ulrich Paquet and Vladimir Kramnik(参考訳) AlphaZeroのような超人的ニューラルネットワークエージェントから何が学べるのか? この問題は科学と実践の両方の関心事である。 強いニューラルネットワークの表現が人間の概念に似ていない場合、決定の忠実な説明を理解する能力は制限され、最終的にはニューラルネットワークの解釈可能性によって達成できることを制限する。 本研究では,チェスのゲームでトレーニングを行う際に,alphazeroニューラルネットワークによって人間の知識が獲得されることを示す。 幅広い人間のチェスの概念を探索することで、これらの概念がalphazeroネットワークで表現される時期と場所を示す。 チェスのグランドマスターであるウラジーミル・クラムニクの質的分析を含む、オープニングプレイに焦点を当てた行動分析も提供する。 最後に、alphazeroの表現の低レベルな詳細を調査し、その結果の振る舞いと表現分析をオンラインで利用可能にする予備的な調査を行う。

What is being learned by superhuman neural network agents such as AlphaZero? This question is of both scientific and practical interest. If the representations of strong neural networks bear no resemblance to human concepts, our ability to understand faithful explanations of their decisions will be restricted, ultimately limiting what we can achieve with neural network interpretability. In this work we provide evidence that human knowledge is acquired by the AlphaZero neural network as it trains on the game of chess. By probing for a broad range of human chess concepts we show when and where these concepts are represented in the AlphaZero network. We also provide a behavioural analysis focusing on opening play, including qualitative analysis from chess Grandmaster Vladimir Kramnik. Finally, we carry out a preliminary investigation looking at the low-level details of AlphaZero's representations, and make the resulting behavioural and representational analyses available online.
翻訳日:2021-11-18 13:46:45 公開日:2021-11-17
# DiverGAN: 多様なテキスト・画像生成のための効率的かつ効果的なシングルステージフレームワーク

DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse Text-to-Image Generation ( http://arxiv.org/abs/2111.09267v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) 本稿では,多種多様で可塑性,セマンティックに整合した画像を生成するための,効率的かつ効果的な単一ステージフレームワーク(DiverGAN)を提案する。 diverganは2つの新しい単語レベルのアテンションモジュール、すなわちチャネルアテンションモジュール(cam)とピクセルアテンションモジュール(pam)を採用している。 その後、条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みによる言語的手がかりを活用し、形やテクスチャの変化量を柔軟に操作し、視覚的意味表現を改善し、トレーニングの安定化を支援する。 また、より深いネットワークを実現し、より高速な収束速度とより鮮明な詳細を実現するために、よりオリジナルな視覚的特徴を保存するために二重残差構造が開発されている。 さらに,密度の高い層がネットワークの生成能力を著しく向上し,変形に寄与する低次元のランダムな潜在コードと,高次元とテクストのコンテキストを用いた変調モジュールとのトレードオフをバランスさせ,特徴マップの強化を図るため,パイプラインに完全接続した層を接続する手法を提案する。 第2残差ブロックの後に線形層を挿入すると、最良の多様性と品質が得られる。 ベンチマークデータセットの質的および定量的な結果は、品質とセマンティック一貫性を損なうことなく、多様性を実現するためのDiverGANの優位性を示している。

In this paper, we present an efficient and effective single-stage framework (DiverGAN) to generate diverse, plausible and semantically consistent images according to a natural-language description. DiverGAN adopts two novel word-level attention modules, i.e., a channel-attention module (CAM) and a pixel-attention module (PAM), which model the importance of each word in the given sentence while allowing the network to assign larger weights to the significant channels and pixels semantically aligning with the salient words. After that, Conditional Adaptive Instance-Layer Normalization (CAdaILN) is introduced to enable the linguistic cues from the sentence embedding to flexibly manipulate the amount of change in shape and texture, further improving visual-semantic representation and helping stabilize the training. Also, a dual-residual structure is developed to preserve more original visual features while allowing for deeper networks, resulting in faster convergence speed and more vivid details. Furthermore, we propose to plug a fully-connected layer into the pipeline to address the lack-of-diversity problem, since we observe that a dense layer will remarkably enhance the generative capability of the network, balancing the trade-off between a low-dimensional random latent code contributing to variants and modulation modules that use high-dimensional and textual contexts to strength feature maps. Inserting a linear layer after the second residual block achieves the best variety and quality. Both qualitative and quantitative results on benchmark data sets demonstrate the superiority of our DiverGAN for realizing diversity, without harming quality and semantic consistency.
翻訳日:2021-11-18 13:45:26 公開日:2021-11-17
# 野生での逐次行動の調整を学ぶ

Learning to Align Sequential Actions in the Wild ( http://arxiv.org/abs/2111.09301v1 )

ライセンス: Link先を確認
Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys(参考訳) 自己教師付きシーケンシャルなアクションアライメントのための最先端の手法は、時間内にビデオ間で対応関係を見つけるディープネットワークに依存している。 彼らは、時間的情報を利用しないシーケンス間のフレーム間マッピングを学ぶか、アクションの順序のバリエーションを無視した各ビデオペア間のモノトニックアライメントを仮定する。 したがって、これらのメソッドは、非単調なアクションシーケンスを含む背景フレームやビデオを含む、一般的な現実世界のシナリオに対応できない。 本稿では,多様な時間的変動を伴う野生における逐次行動の調整手法を提案する。 そこで本研究では,行動の順序の変動を許容しながら,時間的一貫性を生かした最適輸送行列の時間的優先順位を強制する手法を提案する。 我々のモデルは単調なシーケンスと非単調なシーケンスの両方を考慮し、整列すべきでないバックグラウンドフレームを処理する。 4つのベンチマークデータセット上での自己教師付きシーケンシャルなアクション表現学習において,我々のアプローチが最先端を一貫して上回っていることを実証する。

State-of-the-art methods for self-supervised sequential action alignment rely on deep networks that find correspondences across videos in time. They either learn frame-to-frame mapping across sequences, which does not leverage temporal information, or assume monotonic alignment between each video pair, which ignores variations in the order of actions. As such, these methods are not able to deal with common real-world scenarios that involve background frames or videos that contain non-monotonic sequence of actions. In this paper, we propose an approach to align sequential actions in the wild that involve diverse temporal variations. To this end, we propose an approach to enforce temporal priors on the optimal transport matrix, which leverages temporal consistency, while allowing for variations in the order of actions. Our model accounts for both monotonic and non-monotonic sequences and handles background frames that should not be aligned. We demonstrate that our approach consistently outperforms the state-of-the-art in self-supervised sequential action representation learning on four different benchmark datasets.
翻訳日:2021-11-18 13:44:52 公開日:2021-11-17
# (参考訳) 関節内挿レンズによる運動解析

Memotion Analysis through the Lens of Joint Embedding ( http://arxiv.org/abs/2111.07074v2 )

ライセンス: CC BY 4.0
Nethra Gunti, Sathyanarayanan Ramamoorthy, Parth Patwa, Amitava Das(参考訳) ジョイント埋め込み (JE) は、テキストがグラウンドキーとして残るベクトル空間にマルチモーダルデータをエンコードする方法であり、画像のようなモダリティはそのようなキーで固定される。 ミームは一般的にテキストが埋め込まれた画像である。 ミームは一般的に楽しむために使われるが、憎悪や偽の情報を広めるのにも用いられる。 いくつかのソーシャルプラットフォームへの普及とともに、ミームの自動分析が広く研究の話題になってきた。 本稿では,ジョイント埋め込みによる運動解析問題の最初の実験について報告する。 結果が微妙にsotaになる。

Joint embedding (JE) is a way to encode multi-modal data into a vector space where text remains as the grounding key and other modalities like image are to be anchored with such keys. Meme is typically an image with embedded text onto it. Although, memes are commonly used for fun, they could also be used to spread hate and fake information. That along with its growing ubiquity over several social platforms has caused automatic analysis of memes to become a widespread topic of research. In this paper, we report our initial experiments on Memotion Analysis problem through joint embeddings. Results are marginally yielding SOTA.
翻訳日:2021-11-18 12:44:19 公開日:2021-11-17
# (参考訳) フェデレーション量子化ニューラルネットワークにおけるエネルギー・精度・精度のトレードオフについて

On the Tradeoff between Energy, Precision, and Accuracy in Federated Quantized Neural Networks ( http://arxiv.org/abs/2111.07911v2 )

ライセンス: CC BY 4.0
Minsu Kim, Walid Saad, Mohammad Mozaffari, and Merouane Debbah(参考訳) リソース制約のあるデバイスで無線ネットワークにフェデレーション学習(FL)をデプロイするには、精度、エネルギー効率、精度のバランスをとる必要がある。 FLの先行技術は、データ表現の精度を向上させるために32ビットの精度レベルを使用してディープニューラルネットワーク(DNN)をトレーニングするデバイスを必要とすることが多い。 しかし、DNNは数百万の操作を実行する必要があるため、リソース制約のあるデバイスではそのようなアルゴリズムは実用的ではない。 したがって、DNNを高精度に訓練すると、FLの高エネルギーコストが発生する。 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現する量子化FLフレームワークを提案する。 ここでは、有限レベルの精度が、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所訓練のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 収束を確保しつつ、精度のレベルに対してエネルギー最小化問題を定式化する。 この問題を解決するために,まずfl収束率を解析的に導出し,線探索法を用いる。 シミュレーションの結果,我々のFLフレームワークは標準FLモデルと比較して最大53%のエネルギー消費を削減できることがわかった。 結果は、無線ネットワーク上でのFLの精度、エネルギー、精度のトレードオフにも光を当てた。

Deploying federated learning (FL) over wireless networks with resource-constrained devices requires balancing between accuracy, energy efficiency, and precision. Prior art on FL often requires devices to train deep neural networks (DNNs) using a 32-bit precision level for data representation to improve accuracy. However, such algorithms are impractical for resource-constrained devices since DNNs could require execution of millions of operations. Thus, training DNNs with a high precision level incurs a high energy cost for FL. In this paper, a quantized FL framework, that represents data with a finite level of precision in both local training and uplink transmission, is proposed. Here, the finite level of precision is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with the quantization are rigorously derived. An energy minimization problem is formulated with respect to the level of precision while ensuring convergence. To solve the problem, we first analytically derive the FL convergence rate and use a line search method. Simulation results show that our FL framework can reduce energy consumption by up to 53% compared to a standard FL model. The results also shed light on the tradeoff between precision, energy, and accuracy in FL over wireless networks.
翻訳日:2021-11-18 12:41:22 公開日:2021-11-17
# (参考訳) Project CGX:コモディティGPUのスケーラブルなディープラーニング

Project CGX: Scalable Deep Learning on Commodity GPUs ( http://arxiv.org/abs/2111.08617v2 )

ライセンス: CC BY 4.0
Ilia Markov, Hamidreza Ramezanikebrya, Dan Alistarh(参考訳) トレーニングワークロードをスケールアウトする能力は、ディープラーニングの重要なパフォーマンス実現要因のひとつです。 主なスケーリングアプローチはデータ並列GPUベースのトレーニングであり、特に帯域幅のオーバープロビジョンを通じて、高効率なGPU間通信のためのハードウェアとソフトウェアのサポートによって強化されている。 サーバグレードとコンシューマグレードのGPUは、同様の計算エンベロープを持つことができるが、このようなサポートを持つ"クラウドグレード"サーバの間には、桁違いのコスト差がある。 本稿では,アルゴリズム設計とシステム設計により,コストのかかるハードウェアオーバープロビジョン手法を代替できるかどうかを考察し,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。 最新のモデルやタスクを完全精度でトレーニングする場合,我々のフレームワークは,8台のNVIDIA RTX 3090 GPUを使用して,コモディティシステム上で2~3倍の自己高速化を実現し,FLOPSに類似のピークを持つNVIDIA DGX-1サーバのスループットを超越することを可能にする。

The ability to scale out training workloads has been one of the key performance enablers of deep learning. The main scaling approach is data-parallel GPU-based training, which has been boosted by hardware and software support for highly efficient inter-GPU communication, in particular via bandwidth overprovisioning. This support comes at a price: there is an order of magnitude cost difference between "cloud-grade" servers with such support, relative to their "consumer-grade" counterparts, although server-grade and consumer-grade GPUs can have similar computational envelopes. In this paper, we investigate whether the expensive hardware overprovisioning approach can be supplanted via algorithmic and system design, and propose a framework called CGX, which provides efficient software support for communication compression. We show that this framework is able to remove communication bottlenecks from consumer-grade multi-GPU systems, in the absence of hardware support: when training modern models and tasks to full accuracy, our framework enables self-speedups of 2-3X on a commodity system using 8 consumer-grade NVIDIA RTX 3090 GPUs, and enables it to surpass the throughput of an NVIDIA DGX-1 server, which has similar peak FLOPS but benefits from bandwidth overprovisioning.
翻訳日:2021-11-18 12:30:30 公開日:2021-11-17
# (参考訳) DataCLUE: データ中心NLPのためのベンチマークスイート

DataCLUE: A Benchmark Suite for Data-centric NLP ( http://arxiv.org/abs/2111.08647v2 )

ライセンス: CC BY 4.0
Liang Xu, Jiacheng Liu, Xiang Pan, Xiaojing Lu, Xiaofeng Hou(参考訳) データ中心のAIは、最近より効率的でハイパフォーマンスであることが証明され、一方、従来のモデル中心のAIは、より少ないメリットを提供する。 モデルパフォーマンスを改善するためにデータセットの品質を向上させることを強調する。 この分野は、その優れた実用性とより多くの注目を集めているため、大きな可能性を秘めている。 しかし、この分野、特にNLPでは大きな研究の進展は見られていない。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 また、この分野での研究を促進するために、単純だが効果的な3つのベースラインを提供する(マクロF1を5.7%まで向上させる)。 さらに,人間のアノテーションを用いた包括的実験を行い,DataCLUEの硬さを示す。 また, 自己紹介型ラベル修正手法であるletinging informed bootstrapping label correction法も試した。 DataCLUEに関連するすべてのリソース、データセット、ツールキット、リーダーボード、ベースラインはhttps://github.com/CLUEbenchmark/DataCLUEで公開されている。

Data-centric AI has recently proven to be more effective and high-performance, while traditional model-centric AI delivers fewer and fewer benefits. It emphasizes improving the quality of datasets to achieve better model performance. This field has significant potential because of its great practicability and getting more and more attention. However, we have not seen significant research progress in this field, especially in NLP. We propose DataCLUE, which is the first Data-Centric benchmark applied in NLP field. We also provide three simple but effective baselines to foster research in this field (improve Macro-F1 up to 5.7% point). In addition, we conduct comprehensive experiments with human annotators and show the hardness of DataCLUE. We also try an advanced method: the forgetting informed bootstrapping label correction method. All the resources related to DataCLUE, including datasets, toolkit, leaderboard, and baselines, is available online at https://github.com/CLUEbenchmark/DataCLUE
翻訳日:2021-11-18 12:03:52 公開日:2021-11-17
# キーポイント表現再考:多人数人格推定のためのキーポイントとポーズのモデル化

Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation ( http://arxiv.org/abs/2111.08557v2 )

ライセンス: Link先を確認
William McNally, Kanav Vats, Alexander Wong, John McPhee(参考訳) 人間のポーズ推定のようなキーポイント推定タスクでは、ヒートマップベースの回帰は顕著な欠点があるにもかかわらず支配的なアプローチである。 より効率的な解を求めるために,個々のキーポイントと空間関連キーポイント(つまりポーズ)のセットを,密集した単段アンカーに基づく検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーキーポイント推定法を提案する。 したがって、キーポイントとポゼス・アズ・オブジェクトに対して、我々のメソッド KAPAO ("Ka-Pow!"と発音する) を呼ぶ。 本研究では,人間のポーズオブジェクトとキーポイントオブジェクトを同時に検出し,両方のオブジェクト表現の強みを生かして,カパオを単段多人数のポーズ推定問題に適用する。 実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。 さらに、テスト時間拡張を使用しない場合には、特に実用環境での精度・速度トレードオフが好ましい。 当社の大規模モデルであるKAPAO-Lは、テスト時間拡張なしで、次の最高のシングルステージモデルよりも2.5倍高速で、精度が4.0 APの精度で、Microsoft COCO Keypoints検証セット上で70.6のAPを達成する。 さらに、カパオは重閉塞の存在に優れる。 crowdpose テストセットでは、kapao-l は ap 68.9 の単段法で新しい最先端精度を達成する。

In keypoint estimation tasks such as human pose estimation, heatmap-based regression is the dominant approach despite possessing notable drawbacks: heatmaps intrinsically suffer from quantization error and require excessive computation to generate and post-process. Motivated to find a more efficient solution, we propose a new heatmap-free keypoint estimation method in which individual keypoints and sets of spatially related keypoints (i.e., poses) are modeled as objects within a dense single-stage anchor-based detection framework. Hence, we call our method KAPAO (pronounced "Ka-Pow!") for Keypoints And Poses As Objects. We apply KAPAO to the problem of single-stage multi-person human pose estimation by simultaneously detecting human pose objects and keypoint objects and fusing the detections to exploit the strengths of both object representations. In experiments, we observe that KAPAO is significantly faster and more accurate than previous methods, which suffer greatly from heatmap post-processing. Moreover, the accuracy-speed trade-off is especially favourable in the practical setting when not using test-time augmentation. Our large model, KAPAO-L, achieves an AP of 70.6 on the Microsoft COCO Keypoints validation set without test-time augmentation while being 2.5x faster than the next best single-stage model, whose accuracy is 4.0 AP less. Furthermore, KAPAO excels in the presence of heavy occlusion. On the CrowdPose test set, KAPAO-L achieves new state-of-the-art accuracy for a single-stage method with an AP of 68.9.
翻訳日:2021-11-18 11:52:19 公開日:2021-11-17
# 野生の静止画像からの戦闘検出

Fight Detection from Still Images in the Wild ( http://arxiv.org/abs/2111.08370v2 )

ライセンス: Link先を確認
\c{S}eymanur Akt{\i}, Ferda Ofli, Muhammad Imran, Haz{\i}m Kemal Ekenel(参考訳) ソーシャルメディア上で共有された静止画像から戦闘を検出することは、その悪影響を防ぐために暴力シーンの分布を制限するために重要な課題である。 そこで本研究では,webおよびソーシャルメディアから収集した静止画像からの戦い検出の問題に対処する。 我々は、静止画1枚から戦いを検知する能力について検討する。 また,smfi(social media fight images)という,実世界の戦闘行動の画像を含む新しいデータセットを提案する。 提案するデータセットを用いた広範な実験の結果,静止画像から戦闘行動が認識できることがわかった。 すなわち、時間的情報を活用することなく、外観のみを活用して高精度に戦闘を検出することができる。 また,収集したデータセットの表現能力を評価するために,データセット間実験を行った。 これらの実験は、他のコンピュータビジョン問題と同様に、戦闘認識問題に対するデータセットバイアスが存在することを示している。 この手法は、同じ戦闘データセット上でトレーニングおよびテストされた場合、100%近い精度を達成するが、クロスデータセットのアキュラシーは、トレーニングにより多くの代表的データセットを使用する場合、約70%低下する。 SMFIデータセットは、使用した5つの戦闘データセットのうち、最も代表的な2つのデータセットの1つである。

Detecting fights from still images shared on social media is an important task required to limit the distribution of violent scenes in order to prevent their negative effects. For this reason, in this study, we address the problem of fight detection from still images collected from the web and social media. We explore how well one can detect fights from just a single still image. We also propose a new dataset, named Social Media Fight Images (SMFI), comprising real-world images of fight actions. Results of the extensive experiments on the proposed dataset show that fight actions can be recognized successfully from still images. That is, even without exploiting the temporal information, it is possible to detect fights with high accuracy by utilizing appearance only. We also perform cross-dataset experiments to evaluate the representation capacity of the collected dataset. These experiments indicate that, as in the other computer vision problems, there exists a dataset bias for the fight recognition problem. Although the methods achieve close to 100% accuracy when trained and tested on the same fight dataset, the cross-dataset accuracies are significantly lower, i.e., around 70% when more representative datasets are used for training. SMFI dataset is found to be one of the two most representative datasets among the utilized five fight datasets.
翻訳日:2021-11-18 11:51:50 公開日:2021-11-17
# Delta-GAN-Encoder:少数の合成サンプルを用いた画像編集のための意味的変化の符号化

Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples ( http://arxiv.org/abs/2111.08419v2 )

ライセンス: Link先を確認
Nir Diamant, Nitsan Sandor, Alex M Bronstein(参考訳) 生成モデルの潜在空間のアンダースタットと制御は複雑なタスクである。 本稿では,事前学習されたGANの潜伏空間における任意の属性を学習し,それに応じて合成された実世界のデータサンプルを編集する手法を提案する。 我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。 本稿では,画像間の変化のセマンティクスを,後で新しいサンプルを編集し,正確な望ましい結果を得るための基盤として符号化することを学ぶAutoencoderベースのモデルを提案する。 従来の編集方法は潜在空間の既知の構造(例えばStyleGANのいくつかの意味論の線型性)に依存していたが、本手法は本質的にいかなる構造的制約も必要としない。 我々は,表情,ポーズ,照明属性の編集,最先端の結果の達成という,顔画像の領域における手法を実証する。

Understating and controlling generative models' latent space is a complex task. In this paper, we propose a novel method for learning to control any desired attribute in a pre-trained GAN's latent space, for the purpose of editing synthesized and real-world data samples accordingly. We perform Sim2Real learning, relying on minimal samples to achieve an unlimited amount of continuous precise edits. We present an Autoencoder-based model that learns to encode the semantics of changes between images as a basis for editing new samples later on, achieving precise desired results - example shown in Fig. 1. While previous editing methods rely on a known structure of latent spaces (e.g., linearity of some semantics in StyleGAN), our method inherently does not require any structural constraints. We demonstrate our method in the domain of facial imagery: editing different expressions, poses, and lighting attributes, achieving state-of-the-art results.
翻訳日:2021-11-18 11:51:29 公開日:2021-11-17
# ローカルで学習し、グローバルに正し、グラフニューラルネットワークをトレーニングする分散アルゴリズム

Learn Locally, Correct Globally: A Distributed Algorithm for Training Graph Neural Networks ( http://arxiv.org/abs/2111.08202v2 )

ライセンス: Link先を確認
Morteza Ramezani, Weilin Cong, Mehrdad Mahdavi, Mahmut T. Kandemir, Anand Sivasubramaniam(参考訳) 最近のグラフニューラルネットワーク(GNN)の成功にもかかわらず、大きなグラフ上でのGNNのトレーニングは依然として難しい。 既存のサーバのリソース容量の制限、グラフ内のノード間の依存性、集中型ストレージとモデル学習によるプライバシの懸念により、GNNトレーニングに効果的な分散アルゴリズムを設計する必要が生じた。 しかし、既存の分散GNNトレーニング手法は、通信コストの過大さや、そのスケーラビリティを妨げる大きなメモリオーバーヘッドを課している。 これらの問題を解決するために,通信効率の高い分散GNNトレーニング手法である$\text{Learn Locally, Correct Globally}}$ (LLCG)を提案する。 通信とメモリのオーバーヘッドを軽減するため、LLCGの各ローカルマシンは、異なるマシン間のノード間の依存性を無視して、まずGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにサーバーにローカルトレーニングされたモデルを送信する。 しかし、ノード依存を無視するとパフォーマンスが大幅に低下する可能性がある。 性能劣化を解決するため,ローカルに学習したモデルを改良するために$\text{Global Server Corrections}}$をサーバに適用することを提案する。 本稿では,gnnを訓練するための周期的モデル平均化による分散手法の収束を厳密に解析し,ノード間の依存性を無視する周期的モデル平均化が既約残誤差を伴わないことを示す。 しかしながら、この残差誤差は、提案された大域的補正を利用して高速収束率を伴って除去することができる。 実世界のデータセットに対する大規模な実験は、LLCGがパフォーマンスを損なうことなく効率を大幅に改善できることを示している。

Despite the recent success of Graph Neural Networks (GNNs), training GNNs on large graphs remains challenging. The limited resource capacities of the existing servers, the dependency between nodes in a graph, and the privacy concern due to the centralized storage and model learning have spurred the need to design an effective distributed algorithm for GNN training. However, existing distributed GNN training methods impose either excessive communication costs or large memory overheads that hinders their scalability. To overcome these issues, we propose a communication-efficient distributed GNN training technique named $\text{{Learn Locally, Correct Globally}}$ (LLCG). To reduce the communication and memory overhead, each local machine in LLCG first trains a GNN on its local data by ignoring the dependency between nodes among different machines, then sends the locally trained model to the server for periodic model averaging. However, ignoring node dependency could result in significant performance degradation. To solve the performance degradation, we propose to apply $\text{{Global Server Corrections}}$ on the server to refine the locally learned models. We rigorously analyze the convergence of distributed methods with periodic model averaging for training GNNs and show that naively applying periodic model averaging but ignoring the dependency between nodes will suffer from an irreducible residual error. However, this residual error can be eliminated by utilizing the proposed global corrections to entail fast convergence rate. Extensive experiments on real-world datasets show that LLCG can significantly improve the efficiency without hurting the performance.
翻訳日:2021-11-18 11:51:12 公開日:2021-11-17
# HiRID-ICU-Benchmark - 高解像度ICUデータの総合的機械学習ベンチマーク

HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data ( http://arxiv.org/abs/2111.08536v2 )

ライセンス: Link先を確認
Hugo Y\`eche, Rita Kuznetsova, Marc Zimmermann, Matthias H\"user, Xinrui Lyu, Martin Faltys, Gunnar R\"atsch(参考訳) Intensive Care Units (ICU) から収集した時系列に適用される機械学習手法の最近の成功は、そのような手法の開発と比較のための標準化された機械学習ベンチマークの欠如を露呈している。 mimic-iv や eicu といった生のデータセットは physionet 上で自由にアクセスすることができるが、タスクの選択や前処理は各出版物に対して副次的に選択され、出版物間の互換性が制限される。 本研究では,ICU関連タスクの幅広い範囲をカバーするベンチマークを提供することで,この状況を改善することを目的とする。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。 さらに、再現可能なエンドツーエンドパイプラインを提供し、データとラベルの両方を構築する。 最後に,最先端のシーケンスモデリング手法の詳細な分析を行い,この種のデータに対するディープラーニングアプローチの限界を浮き彫りにする。 このベンチマークでは、研究コミュニティに彼らの成果を公正に比較できる可能性を与えたいと思っています。

The recent success of machine learning methods applied to time series collected from Intensive Care Units (ICU) exposes the lack of standardized machine learning benchmarks for developing and comparing such methods. While raw datasets, such as MIMIC-IV or eICU, can be freely accessed on Physionet, the choice of tasks and pre-processing is often chosen ad-hoc for each publication, limiting comparability across publications. In this work, we aim to improve this situation by providing a benchmark covering a large spectrum of ICU-related tasks. Using the HiRID dataset, we define multiple clinically relevant tasks developed in collaboration with clinicians. In addition, we provide a reproducible end-to-end pipeline to construct both data and labels. Finally, we provide an in-depth analysis of current state-of-the-art sequence modeling methods, highlighting some limitations of deep learning approaches for this type of data. With this benchmark, we hope to give the research community the possibility of a fair comparison of their work.
翻訳日:2021-11-18 11:50:40 公開日:2021-11-17
# (参考訳) 近線形時間における分布圧縮

Distribution Compression in Near-linear Time ( http://arxiv.org/abs/2111.07941v2 )

ライセンス: CC BY 4.0
Abhishek Shetty, Raaz Dwivedi, Lester Mackey(参考訳) 分布圧縮では、少数の代表点を用いて確率分布$\mathbb{P}$を正確に要約することを目的とする。 準最適シンニング手順は、マルコフ連鎖から$n$ポイントをサンプリングし、$\widetilde{\mathcal{O}}(1/\sqrt{n})$離散性を$\mathbb{P}$とすることで、この目標を達成する。 残念ながら、これらのアルゴリズムはサンプルサイズ$n$で二次的または超二次的な実行に苦しむ。 この欠陥に対処するために、私たちはCompress++を紹介します。これは、任意のスライニングアルゴリズムを高速化するシンプルなメタプロデューサで、エラーの最大4ドルの要因に悩まされています。 Dwivedi と Mackey (2021) の二次時間カーネル半減算アルゴリズムと組み合わせると、Compress++ は $\sqrt{n}$point with $\mathcal{O}(\sqrt{\log n/n})$ Integration error and better-than-Monte-Carlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space を提供する。 さらに、Compress++は2次時間入力が与えられた場合、同じニアリニアランタイムを楽しみ、平方根係数で超2次アルゴリズムの実行時間を短縮する。 高次元モンテカルロサンプルとマルコフ連鎖を用いたベンチマークでは、コンプレックス++はその入力アルゴリズムの精度を桁違いの時間で一致させるか、ほぼ一致させる。

In distribution compression, one aims to accurately summarize a probability distribution $\mathbb{P}$ using a small number of representative points. Near-optimal thinning procedures achieve this goal by sampling $n$ points from a Markov chain and identifying $\sqrt{n}$ points with $\widetilde{\mathcal{O}}(1/\sqrt{n})$ discrepancy to $\mathbb{P}$. Unfortunately, these algorithms suffer from quadratic or super-quadratic runtime in the sample size $n$. To address this deficiency, we introduce Compress++, a simple meta-procedure for speeding up any thinning algorithm while suffering at most a factor of $4$ in error. When combined with the quadratic-time kernel halving and kernel thinning algorithms of Dwivedi and Mackey (2021), Compress++ delivers $\sqrt{n}$ points with $\mathcal{O}(\sqrt{\log n/n})$ integration error and better-than-Monte-Carlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space. Moreover, Compress++ enjoys the same near-linear runtime given any quadratic-time input and reduces the runtime of super-quadratic algorithms by a square-root factor. In our benchmarks with high-dimensional Monte Carlo samples and Markov chains targeting challenging differential equation posteriors, Compress++ matches or nearly matches the accuracy of its input algorithm in orders of magnitude less time.
翻訳日:2021-11-18 11:01:06 公開日:2021-11-17